Table of Contents

DeepLearning

Gradient vanishing

꼬꼬마코더 2024. 7. 29. 23:36
728x90

Gradient vanishing 또는 그래디언트 소실 문제는 신경망, 특히 깊은 신경망을 훈련할 때 자주 발생하는 문제 중 하나입니다. 이 현상은 네트워크의 깊이가 깊어질수록, 신경망을 역전파하는 과정에서 발생하는 그래디언트(기울기)가 점점 작아져, 결국에는 아주 작은 값이 되어 가중치가 제대로 업데이트되지 않는 상태를 말합니다. 이는 신경망이 충분히 학습되지 못하게 하며, 최적의 성능을 발휘하지 못하게 합니다.

그래디언트 소실의 원인

  1. 활성화 함수: 시그모이드(sigmoid)나 하이퍼볼릭 탄젠트(tanh)와 같은 일부 활성화 함수는 그래디언트를 계산할 때 입력값의 절대값이 클 경우 그래디언트가 매우 작아지는 문제가 있습니다. 이는 출력 값이 -1과 1 사이로 제한되기 때문에, 그래디언트가 네트워크를 거슬러 올라가면서 점차 작아지는 현상이 발생합니다.

  2. 깊은 네트워크 구조: 신경망의 레이어가 많을수록, 그래디언트는 더 많은 레이어를 거치게 됩니다. 각 레이어에서 작은 그래디언트가 곱해지면, 최종 그래디언트 값은 지수적으로 감소할 수 있습니다.

그래디언트 소실 해결 방법

  1. ReLU 활성화 함수: ReLU(Rectified Linear Unit)와 같은 활성화 함수는 그래디언트 소실 문제를 상당 부분 해결할 수 있습니다. ReLU는 음수 입력에 대해 0을 출력하고, 양수 입력에 대해서는 입력을 그대로 출력합니다. 이로 인해 그래디언트가 깊은 레이어까지 손실 없이 전달될 수 있습니다.

  2. 가중치 초기화: 그래디언트 소실을 방지하기 위한 효과적인 가중치 초기화 방법을 사용합니다. 예를 들어, He 초기화나 Glorot(Xavier) 초기화 방법이 있습니다. 이 방법들은 네트워크의 가중치를 초기화할 때 그래디언트의 소실이나 폭발을 방지하는 데 도움을 줍니다.

  3. 배치 정규화(Batch Normalization): 배치 정규화는 각 레이어의 입력을 정규화하여 평균이 0이고 분산이 1이 되도록 조정합니다. 이는 학습 과정에서 각 레이어의 입력 분포가 안정적으로 유지되게 해 주며, 그래디언트 소실 문제를 줄여줍니다.

  4. 잔차 연결(Residual Connections): ResNet과 같은 아키텍처에서 사용되는 잔차 연결은 입력을 네트워크의 깊은 레이어의 출력에 직접 더함으로써, 그래디언트가 깊은 네트워크를 통과할 때 소실되는 것을 방지합니다.

그래디언트 소실 문제를 해결하기 위한 이러한 기술들은 신경망의 성능을 크게 향상시킬 수 있으며, 특히 깊은 신경망을 효과적으로 훈련하는 데 필수적입니다.

'DeepLearning' 카테고리의 다른 글

Selective Search  (0) 2024.07.30
Attention  (0) 2024.07.29
Receptive Field  (0) 2024.07.29
3x3 컨볼루션 커널을 사용하는 이유  (0) 2024.07.29
MLP --> CNN --> Transformer  (0) 2024.07.29