有一种观点认为,ChatGPT和基于变压器的大型语言模型(LLMs)的最近成功吸走了 其他深度学习领域(包括循环神经网络RNNs)的大部分资源。 LLMs的令人印象深刻的成就和商业潜力严重影响了研究优先事项、媒体报道和教育趋势, 使得RNNs、计算机视觉、强化学习等领域受到的关注大大减少。
这就是为什么介绍了Extended Long Short-Term Memory(xLSTM)的 新论文让机器学习社区兴奋:LSTMs并未消亡!RNNs即将回归!
根据深度学习先驱和LSTM的作者之一Sepp Hochreiter的说法, xLSTM在时间序列预测方面表现出色: "我们的xLSTM Time模型对抗最先进的基于Transformer的模型以及其他最近提出的时间序列模型展现出优异表现。" 这很了不起!让我们回顾一下关于LSTM网络的所知,并探索它们新的有前途的发展 - xLSTM。
LSTMs一点也不过时:当前的用例
只是为了给每样东西应有的肯定,LSTMs一点也不过时。它们可能被遮盖,但仍然被广泛使用。 以下是一些说明LSTMs如何在我们日常生活中使用的例子(多年来!):
- 导航应用中的交通预测:像Google地图或Waze这样的应用程序利用LSTMs来预测交通模式。 通过分析历史交通数据、当前状态,甚至诸如天气或当地活动等因素, 这些模型可以实时预测交通拥堵并建议最快的路线。
- 音乐生成和推荐:像Spotify这样的流媒体服务使用LSTMs来分析您的收听历史并生成个性化播放列表。 LSTM可以理解您喜欢的音乐类型中的模式并预测您可能喜欢的歌曲,甚至考虑到您的口味随时间变化。
- 智能手机上的预测文本:当您输入消息时,LSTMs可以根据您已经编写的内容来预测您可能会使用的下一个单词。 (“预测我们星球未来”-这正是LSTM刚刚建议给我的文本)。
LSTM的故事
在上世纪90年代初,研究人员对循环神经网络(RNNs)感到兴奋。 这些网络旨在处理顺序数据,使它们对语音识别和时间序列预测等任务非常有用。 但是,RNNs存在一个重大缺陷:梯度消失问题。
什么是梯度消失问题?
想象一下试图回忆几天前的一系列事件,同时还记得今天发生了什么。 对于RNN,更新它们的权重以从数据中学习类似。 它们使用通过时间的反向传播(BPTT)根据预测错误调整权重。 随着错误信号通过许多时间步骤传播回来,它可能变得如此之小,以至于网络的权重几乎不会改变。 这种梯度消失问题意味着网络难以学习长期依赖性,并且会忘记之前时间步骤中的重要信息。 对于人类来说不是问题,但对于RNN来说是一个巨大的挑战。
两位德国研究人员,Jürgen Schmidhuber 和他的博士生 Sepp Hochreiter,决心找到解决方案。 他们在1997年推出了一种名为长短期记忆(LSTM)的改进型循环神经网络架构。
LSTM 设计有一个记忆单元,可以在长时间内保持信息。
这个记忆单元由三个门控制:
- 输入门
- 遗忘门
- 输出门
这些门控制信息的流动,使网络能够保留更长时间的重要信息,并忘记不再需要的信息。
他们的工作最初的接受程度很冷淡。但一些研究人员继续在LSTM的基 础上进行研究。 Schmidhuber本人并不打算放弃。 2000年,Felix Gers、Jürgen Schmidhuber和Fred Cummins引入了窥视孔连接,使门能够直接访问细胞状态。 这一改进帮助LSTM学习事件的精确时间,提高了它们的性能。
传播和成功
双向 LSTM(BiLSTM)(2005年):Alex Graves 和 Jurgen Schmidhuber 于2005年引入了 BiLSTM, 包括在相反方向(正向和反向)运行的两个 LSTM 层。 这种架构捕获了过去和未来的背景信息,提高了语音识别和机器翻译等任务的性能。
2010年代深度学习的兴起带来了另一波创新。研究人员开始堆叠多个LSTM层,创建深度LSTM网络,能够学习分层特征。 这一进步使得LSTM变得更加强大,使它们能够在从机器翻译到语音识别等各种应用中表现出色。
2014年,Ilya Sutskever、Oriol Vinyals 和 Quoc V. Le 利用他们的序列到序列(Seq2Seq)模型为机器翻译推广了 LSTMs。 这些模型在编码和解码序列时使用 LSTMs,从而显著提高了翻译质量。
2015年,Dzmitry Bahdanau、KyungHyun Cho 和 Yoshua Bengio 引入了注意力机制(Bahdanau 注意力)。 这些机制允许 LSTM 关注输入序列的特定部分,在翻译和摘要等任务中进一步提高了它们的性能。
在 Vaswani 等人在论文《注意力就是一切》中引入 Transformer 模型后,2017 年发生了很多变化。 这标志着向基于注意力机制的转变。 但为什么呢?