長・短期記憶
ウィキペディア フリーな encyclopedia
長・短期記憶(ちょう・たんききおく、英: Long short-term memory、略称: LSTM)は、深層学習(ディープラーニング)の分野において用いられる人工回帰型ニューラルネットワーク(RNN)アーキテクチャである[1]。標準的な順伝播型ニューラルネットワークとは異なり、LSTMは自身を「汎用計算機」(すなわち、チューリングマシンが計算可能なことを何でも計算できる)にするフィードバック結合を有する[2]。LSTMは(画像といった)単一のデータ点だけでなく、(音声あるいは動画といった)全データ配列を処理できる。例えば、LSTMは分割されていない、つながった手書き文字認識[3]や音声認識[4][5]といった課題に適用可能である。ブルームバーグ ビジネスウィーク誌は「これらの力がLSTMを、病気の予測から作曲まで全てに使われる、ほぼ間違いなく最も商業的なAIの成果としている」と書いた[6]。
一般的なLSTMユニットは、記憶セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。記憶セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」は記憶セルを出入りする情報の流れを制御する。
LSTMネットワークは時系列データに基づく分類、処理(英語版)、予測によく適している。これは、LSTMネットワークが時系列中の重要な事象間の未知の期間の時間差となることができるためである。LSTMは、従来のRNNを訓練する際に遭遇しうる勾配爆発および消失問題に対処するために開発された。ギャップの長さに対する相対的な鈍感さが、多数の応用におけるRNNや隠れマルコフモデル、その他の系列学習法に対するLSTMの優位性である[要出典]。
LSTMは2010年代まで主流の地位にあったが、2017年以降は更に高性能なTransformerという基盤モデルに取って代わられていった。