기울기 소멸 문제

기울기 소멸 문제(vanishing gradient problem)는 신경망 활성함수의 도함수 값이 계속 곱해지다 보면 가중치에 따른 결과 값의 기울기가 0에 가까워지며, 기울기가 너무 작아져 가중치를 변경할 수 없게 되는 현상이다.^[1] 최악의 경우 아예 신경망의 훈련이 멈춰버릴 수 있다.^[1] ReLU처럼 활성함수를 개선하는 방법, 층을 건너뛴 연결을 하는 ResNet, 배치 정규화(batch normalization) 등의 해법이 나왔다.

오차 역전파를 통해 연구자들은 지도 심층 인공신경망을 처음부터 훈련할 수 있게 되었으나, 초기에는 거의 성공을 거두지 못했다. 셉 호하이터(Sepp Hochreiter)는 이런 실패의 이유를 1991년 공식적으로 "기울기 소멸 문제"로 확인하였다.^[2]^[3] 이는 다층 순방향 신경망뿐 아니라,^[4] 순환 신경망에도 영향을 미쳤다.^[5]

한편 기울기 소멸 문제와 반대로 기울기값이 계속 증폭될 경우 기울기 폭발 문제(exploding gradient problem)가 발생한다.

[1]

[2]

[3]

[4]

[5]

기울기 소멸 문제

같이 보기

각주

Wikiwand - on