Lessons&Learning
Layer Normalization과 MinMax Scaler를 동시에 적용했을 때 성능 저하 원인 추정 (Backpropagation 관점)
- 가설 : 데이터도 정규화하고, 레이어도 정규화하면 안정적으로 학습해서 모델이 더 성능이 좋아지지 않을까?
- 결과 : DNN 기본 모델보다 loss가 높음 (성능 저하)
(1) Gradient 흐름 축소로 인한 학습 저하
- MinMaxScaler는 입력값의 범위를 [0, 1]로 고정시키므로, 모델 입력의 분산이 작아지게 됨.
- 이러한 입력값은 Layer Normalization을 거친 후에도 변화 폭이 제한되어 있어, 이후 레이어에서 생성되는 gradient의 크기가 작아짐. - 결과적으로 역전파 과정에서 gradient가 충분히 전달되지 않아 학습 속도가 느려지고 성능 저하로 이어질 수 있음.
(2) Layer Normalization의 효과 제한
- Layer Normalization은 각 샘플의 feature 값을 평균과 표준편차로 정규화.
- 그러나 이미 MinMaxScaler로 압축된 값에 대해 정규화를 수행하면 샘플 간 통계량의 차이가 작아져 LayerNorm이 제공하는 효과(분산 조절, 안정 화 등)가 약화됨.
- 이로 인해 모델이 feature 간 의미 있는 차이를 학습하기 어려워짐.
(3) 표현력(Expression Power) 감소
- MinMax 정규화로 인해 입력값이 제한된 좁은 범위 내에서 분포되며, 이는 LayerNorm 이후 활성화 함수(sigmoid, tanh 등)의 출력도 제한되는 결과를 초래함.
- 이러한 현상은 gradient가 0에 가까워지는 saturation 영역으로 진입하게 만들며, 이는 vanishing gradient 문제를 야기할 수 있음.