勾配消失問題
ニューラルネットワークのモデル学習時に生じる問題 / ウィキペディア フリーな encyclopedia
勾配消失問題(こうばいしょうしつもんだい、英: vanishing gradient problem)は、機械学習において、勾配ベースの学習手法と誤差逆伝播法を利用してニューラルネットワークを学習する際に、誤差逆伝播に必要な勾配が非常に小さくなり、学習が制御できなくなる問題である[1]。 この問題を解決するために、リカレントニューラルネットワークではLSTMと呼ばれる構造が導入されたり、深層のネットワークではResNetと呼ばれる構造が導入される。
また、活性化関数の勾配が非常に大きな値をとり、発散してしまうこともある。このような問題は、勾配爆発問題(こうばいばくはつもんだい、英: exploding gradient problem)と呼ばれる。