상위 질문
타임라인
채팅
관점
기울기 소멸 문제
위키백과, 무료 백과사전
Remove ads
기울기 소멸 문제(vanishing gradient problem)는 신경망 활성함수의 도함수 값이 계속 곱해지다 보면 가중치에 따른 결과 값의 기울기가 0에 가까워지며, 기울기가 너무 작아져 가중치를 변경할 수 없게 되는 현상이다.[1] 최악의 경우 아예 신경망의 훈련이 멈춰버릴 수 있다.[1] ReLU처럼 활성함수를 개선하는 방법, 층을 건너뛴 연결을 하는 ResNet, 배치 정규화(batch normalization) 등의 해법이 나왔다.
오차 역전파를 통해 연구자들은 지도 심층 인공신경망을 처음부터 훈련할 수 있게 되었으나, 초기에는 거의 성공을 거두지 못했다. 셉 호하이터(Sepp Hochreiter)는 이런 실패의 이유를 1991년 공식적으로 "기울기 소멸 문제"로 확인하였다.[2][3] 이는 다층 순방향 신경망뿐 아니라,[4] 순환 신경망에도 영향을 미쳤다.[5]
한편 기울기 소멸 문제와 반대로 기울기값이 계속 증폭될 경우 기울기 폭발 문제(exploding gradient problem)가 발생한다.
Remove ads
같이 보기
각주
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads