長・短期記憶

長・短期記憶（ちょう・たんききおく、英: Long short-term memory、略称: LSTM）は、深層学習（ディープラーニング）の分野において用いられる人工回帰型ニューラルネットワーク（RNN）アーキテクチャである。未だAIの冬の時代であり、深層学習という用語が提唱される遥か以前の1997年に研究成果が発表された^[1]。標準的な順伝播型ニューラルネットワークとは異なり、LSTMは自身を「汎用計算機」（すなわち、チューリングマシンが計算可能なことを何でも計算できる）にするフィードバック結合を有する^[2]。LSTMは（画像といった）単一のデータ点だけでなく、（音声あるいは動画といった）全データ配列を処理できる。例えば、LSTMは分割されていない、つながった手書き文字認識^[3]や音声認識^[4]^[5]といった課題に適用可能である。ブルームバーグビジネスウィーク誌は「これらの力がLSTMを、病気の予測から作曲まで全てに使われる、ほぼ間違いなく最も商業的なAIの成果としている」と書いた^[6]。

一般的なLSTMユニットは、記憶セル、入力ゲート、出力ゲート、および忘却ゲートから構成される。記憶セルは任意の時間間隔にわたって値を記憶し、3つの「ゲート」は記憶セルを出入りする情報の流れを制御する。

LSTMネットワークは時系列データに基づく分類、処理（英語版）、予測によく適している。これは、LSTMネットワークが時系列中の重要な事象間の未知の期間の時間差となることができるためである。LSTMは、従来のRNNを訓練する際に遭遇しうる勾配爆発および消失問題に対処するために開発された。ギャップの長さに対する相対的な鈍感さが、多数の応用におけるRNNや隠れマルコフモデル、その他の系列学習法に対するLSTMの優位性である^[要出典]。

LSTMは2010年代まで主流の地位にあったが、2017年以降は更に高性能なTransformerというアーキテクチャに取って代わられていった。

Remove ads

歴史

要約

視点

LSTMは1997年にゼップ・ホッフライター（英語版）とユルゲン・シュミットフーバー（英語版）によって提唱された^[1]。Constant Error Carousel（定誤差カルーセル、CEC）ユニットの導入によって、LSTMは時系列データの学習における勾配爆発および消失問題を解決する。LSTMブロックの最初の型はセル、入力ゲート、および出力ゲートを含んでいた^[7]。

1999年、フェリックス・ゲルス（英語版）と彼のアドバイザーのユルゲン・シュミットフーバーとFred CumminsはLSTMアーキテクチャへ忘却ゲート（「保持ゲート」とも）を導入した^[8]。これはLSTMが自身の状態をリセットすることを可能にする^[7]。2000年、ゲルス、シュミットフーバー、CumminsはLSTMアーキテクチャへ覗き穴（peehole）結合（セルからゲートへの結合）を追加した^[9]。加えて、出力活性化関数は削除された^[7]。

2014年、Kyunghyun Cho（조 경현）らはゲート付き回帰型ユニット（Gated recurrent unit、GRU）と呼ばれる単純化した変異型を提案した^[10] 。

その他の成功の中で、LSTMは自然言語テキスト圧縮^[11]と分割されていないつながった手書き文字認識^[12]で新記録を達成し、IDCAR（英語版）手書き文字認識大会（2009年）で優勝した。LSTMネットワークは2013年に、古典的な TIMIT（英語版）自然音声データセットで新記録となる音素誤り率17.7%を達成したネットワークの主要な構成要素であった^[13]。

2016年時点で、Google、Apple、マイクロソフトを含む主要なテクノロジー企業は新製品の基本要素としてLSTMを使用していた^[14]。例えば、Googleはスマートフォン上での音声認識^[15]^[16]、スマートアシスタントAllo^[17]、およびGoogle翻訳^[18]^[19]のためにLSTMを使用した。AppleはiPhone上の「Quicktype」機能^[20]^[21]、Siri^[22]のためにLSTMを使用する。AmazonはAmazon AlexaのためにLSTMを使用する^[23]。

2017年、FacebookはLSTMネットワークを使用して毎日45億回の自動翻訳を実行した^[24]。

2017年、ミシガン州立大学、IBM基礎研究所、コーネル大学の研究者らは、Knowledge Discovery and Data Mining（KDD）会議において研究発表を行った^[25]^[26]^[27]。彼らの研究は、広く使われるLSTMニューラルネットワークよりも特定のデータセットに対して優れた性能を示す新規ニューラルネットワークに関するものである。

さらに2017年、マイクロソフトは16万5千語の語彙を含むSwitchboardコーパスにおいて95.1%の認識精度に達したと報告した。この手法は「対話セッションに基づく長・短期記憶」を使用した^[28]。

Remove ads

着想

理論的には、古典的な（バニラな）RNNは入力配列における任意の長期依存性を追跡できる。バニラRNNの問題は本質的に計算的（あるいは実務的な）なものである。誤差逆伝播法を使ってバニラRNNを訓練する時、逆伝播される勾配は「消失」（すなわち勾配がゼロに収束する）あるいは「爆発」（すなわち無限に発散する）しうる。これは、計算が有限精度数（英語版）を用いる過程を含むためである。LSTMユニットを用いるRNNは、LSTMユニットが勾配を「不変」のまま流れることも可能とするため、勾配消失問題を部分的に解決する。しかしながら、LSTMネットワークは勾配爆発問題にはまだ悩まされうる^[29]。

アーキテクチャ

複数のLSTMユニットのアーキテクチャが存在する。一般的なアーキテクチャは、セル（LSTMユニットの記憶部分）と大抵ゲートと呼ばれるLSTMユニット内部の情報の流れの3つの「調整器」（入力ゲート、出力ゲート、忘却ゲート）から構成される。LSTMユニットの一部の変異型はこれらのゲートの1つ以上を持たない、あるいは別のゲートを持つこともある。例えばゲート付き回帰型ユニット（GRU）は出力ゲートを持たない。

直感的には、「セル」は入力配列中の要素間の依存性を追跡するために必要である。「入力ゲート」はセルへの新たな値の流れの度合いを制御し、「忘却ゲート」はセル中に値が留まる度合いを制御し、「出力ゲート」はセル中の値がLSTMユニットの出力活性化を計算するために使われる度合いを制御する。LSTM「ゲート」の活性化関数にはロジスティック関数（英語版）が使われることが多い。

LSTMゲートへの、そしてLSTMからの結合が存在し、そのうちいくつかは回帰結合（リカレント）している。訓練中に学習される必要があるこれらの結合の重みが、ゲートがどのように動作するかを決定する。

変異型

要約

視点

以下の方程式において、小文字の変数はベクトルを表わす。行列 $W_{q}$ および $U_{q}$ はそれぞれ入力および回帰結合の重みを含み、添字 $_{q}$ は、計算される活性化に依存して、入力ゲート $i$ 、出力ゲート $o$ 、忘却ゲート $f$ 、または記憶セル $c$ になりうる。この節では、ゆえに「ベクトル表記」を使用する。そのため、例えば、 $c_{t}\in \mathbb {R} ^{h}$ は単に1つのLSTMユニットの1つのセルではなく、 $h$ 個のLSTMユニットのセルを含む。演算子 $\circ$ はアダマール積（要素ごとの積）を示す。

忘却ゲートを持つLSTM

忘却ゲートを持つLSTMユニットの順方向通路のための方程式のコンパクト形は以下の通りである^[1]^[9]。

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

上式において、初期値は $c_{0}=0$ および $h_{0}=0$ 、を示す。添字 $t$ は時間ステップにインデックスを付ける。

変数

$x_{t}\in \mathbb {R} ^{d}$ : LSTMユニットへの入力ベクトル
$f_{t}\in \mathbb {R} ^{h}$ : 忘却ゲートの活性化ベクトル
$i_{t}\in \mathbb {R} ^{h}$ : 入力ゲートの活性化ベクトル
$o_{t}\in \mathbb {R} ^{h}$ : 出力ゲートの活性化ベクトル
$h_{t}\in \mathbb {R} ^{h}$ : LSTMユニットの出力ゲートとも呼ばれる隠れ状態ベクトル
$c_{t}\in \mathbb {R} ^{h}$ : セル状態ベクトル
$W\in \mathbb {R} ^{h\times d}$ 、 $U\in \mathbb {R} ^{h\times h}$ 、 $b\in \mathbb {R} ^{h}$ : 訓練中に学習される必要がある重み行列およびバイアスベクトルのパラメータ

上付き文字 $d$ および $h$ はそれぞれ入力要素の数および隠れユニットの数を示す。

活性化関数

$\sigma _{g}$ : シグモイド関数
$\sigma _{c}$ : 双曲線正接関数
$\sigma _{h}$ : 双曲線正接関数または、覗き穴LSTMの論文^[30]^[31]が提案しているように $\sigma _{h}(x)=x$

重み行列と活性化関数を集約することで

${\begin{aligned}(f_{t}^{T},i_{t}^{T},o_{t}^{T},ci_{t}^{T})^{T}&=\sigma (Wx_{t}+Uh_{t-1}+b)\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ ci_{t}\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}$

となる。この式から $c_{t-1}$ が直接回帰し、 $h_{t-1}$ がゲート・セルを通じて回帰していることがわかる。また入力と重みの積は時間を跨いで回帰無しに計算できることがわかる（ $WX=W{\bigl (}{\begin{smallmatrix}x_{0}&x_{1}&...&x_{n}\end{smallmatrix}}{\bigr )}$ で一括計算が可能）。

覗き穴LSTM

{\displaystyle i} — 入力（ $i$ ）、出力（ $o$ ）、および忘却（ $f$ ）ゲートを持つ覗き穴LSTMユニット。これらのゲートのそれぞれは順伝播型（または多層）ニューラルネットワークにおける「標準的」なニューロンとして考えることができる。すなわち、それらは（活性化関数を用いて）加重和の活性化を計算する。 $i_{t}$ 、 $o_{t}$ および $f_{t}$ はそれぞれ時間ステップ $t$ における入力、出力、および忘却ゲートの活性化を表わす。記憶セル $c$ から3つのゲート $i$ 、 $o$ 、および $f$ へ出ていく3本の矢印は「覗き穴」結合を表わす。これらの覗き穴結合は実際には時間ステップ $t-1$ における記憶セル $c$ の活性化の寄与（すなわち、図が示唆するように、 $c_{t}$ ではなく $c_{t-1}$ の寄与）を示す。言い換えれば、ゲート $i$ 、 $o$ 、および $f$ は時間ステップ $t$ におけるそれらの活性化（すなわち $i_{t}$ 、 $o_{t}$ および $f_{t}$ ）を計算し、時間ステップ $t-1$ における記憶セル $c$ の活性化（すなわち $c_{t-1}$ ）も考慮する。記憶セルから出る単一の左から右への矢印は覗き穴結合ではなく、 $c_{t}$ を示す。 $\times$ 記号を含む小さな丸は出力間の要素毎の乗算を表わす。Sのような曲線を含む大きな丸は加重和への（シグモイド関数のような）微分可能な関数の適用を表わす。 LSTMには他にも多くの種類が存在する^[7]。

右図は覗き穴結合を持つLSTMユニット（すなわち覗き穴LSTM）の図式的な表現である^[30]^[31]。覗き穴結合によって、ゲートが定誤差カルーセル（CEC。その活性化がセル状態である）へアクセスすることが可能となる^[32]。 $h_{t-1}$ は使われず、ほんどの場所で $c_{t-1}$ が代わりに使われる。

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \sigma _{c}(W_{c}x_{t}+U_{c}c_{t-1}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

覗き穴畳み込みLSTM

覗き穴畳み込みLSTM^[33]。 $*$ は畳み込み演算子を示す。

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\circ c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\circ c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\circ c_{t}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

Remove ads

訓練

要約

視点

LSTMを用いるRNNは、一連の訓練において、教師あり学習のやり方で訓練できる。訓練では、最適化プロセス中で必要な勾配を計算するための通時的誤差逆伝播法（英語版）（Backpropagation through time、BPTT）と組み合わせて最急降下法のような最適化アルゴリズムを使って、（LSTMネットワークの出力層における）誤差の微分に比例してLSTMネットワークの個々の重みを変化させる。

標準的なRNNに対して最急降下法を使用することの問題点は、誤差勾配が重要な事象間の時間のずれの大きさにしたがって指数関数的にすばやく消失することである。これは、 $W$ のスペクトル半径が1よりも小さいと $\lim _{n\to \infty }W^{n}=0$ となるためである^[34]^[35]。

しかしながら、LSTMユニットを使うと、誤差値が出力層から逆伝播される時、誤差はLSTMユニットのセル内に留まる。この「誤差カルーセル」はLSTMユニットのゲートが値のカットオフを学習するまで、個々のゲートへ誤差を絶えずフィードバックする。

CTCスコア関数

多くの応用がLSTM RNNのスタックを使用し^[36]、訓練セット中のラベル配列の確率を最大化する重み行列を探すために、それらをコネクショニスト時系列分類（英語版）（CTC）によって訓練する^[37]。CTCはアラインメントと認識の両方を達成する。

代替手段

特に「教師」（すなわち訓練ラベル）が存在しない時は、Neuroevolution^[38]または⽅策勾配法によってLSTM（の一部）を訓練するのが有利なことがありうる。

成功

LSTMユニットを持つRNNを教師なしで訓練した複数の成功例がある。

2018年、ビル・ゲイツは、OpenAIによって開発されたボットがゲームDota 2で人間を破ることができた時、これを「人工知能の進歩における巨大な一里塚」と呼んだ^[39]。OpenAI Fiveは5つの独立した、しかし協調したニューラルネットワークから成る。個々のネットワークは教師なしで方策勾配法によって訓練され、現在のゲーム状態を見て、複数の可能な動作から動作を出す単層の1024ユニットLSTMを含む^[39] 。

2018年、OpenAIはかつてないほどの器用さで物体を巧みに扱う人間のようなロボットハンドを制御するために方策勾配法によって同様のLSTMを訓練した^[40]。

2019年、DeepMindのプログラムAlphaStarは複雑なビデオゲームスタークラフトに秀でるためにディープなLSTMコアを使用した^[41]。これは、人工汎用知能へ向けた重要な前進と見なされた^[41]。

Remove ads

特性

記憶力

単純RNNと比較してより長い系列の情報を保持する能力を持つ。一方、長期記憶を評価するCopyingタスクでは系列長200以上での学習に失敗することが知られている^[42]。

応用

LSTMの応用には以下の事柄が含まれる。

ロボット制御（英語版）^[43]
時系列予想^[38]
音声認識^[44]^[45]^[46]
リズム学習^[31]
作曲^[47]
文法学習^[48]^[30]^[49]
手書き文字認識^[50]^[51]
人物行動認識^[52]
手話学習^[53]
タンパク質相同性検出^[54]
タンパク質の細胞内局在の予測^[55]
時系列異常検出^[56]
ビジネスプロセス管理の分野におけるいくつかの予測課題^[57]
医療パスにおける予測^[58]
意味的構文解析（英語版）^[59]
被写体共セグメンテーション（英語版）^[60]^[61]

出典

Loading content...

外部リンク

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

歴史

着想

アーキテクチャ

変異型

忘却ゲートを持つLSTM

変数

活性化関数

覗き穴LSTM

覗き穴畳み込みLSTM

訓練

CTCスコア関数

代替手段

成功

特性

記憶力

応用

出典

関連項目

外部リンク