우잉's Development

Local minima 본문

Deep learning/용어 정리

Local minima

우잉이 2022. 1. 18. 16:47
728x90
반응형

1. local minima 이란? 

왼쪽 그래프가 산이라 생각해봅시다. 빨색 점을 향해 내려가고 있다고 생각해봅시다. 어디까지 내려왔다고 생각 할 수 있습니까? 다음 길은 올라가는 길이므로 다 내려 왔다고 착각을 할 수있습니다. 즉, local minimum에 빠져 global minimum을 찾기 힘들어지는 문제를 local minima라 합니다.

그리고 기존에 기계학습 (machine learning)이 잘안되거나 성능이 안나오는 이유는 학습 중에 local minimum에 빠졌기 때문이라는게 일반적인 상식입니다. 

 

2. local minima를 피하기 위한 방법

Momentum방법

Momentum은 물리적 개념입니다. 질량과 속도의 곱을 나타내는데, DNN모델에서는 질량이란 개념을 도입하지 않으니 속도와 관련된 개념이라 생각하면 됩니다.

Momentum 방법은 가속도라는 개념을 이용해 local minima 문제를 해결하려고 합니다. 기존 SGD방식에 momentum이라는 개념을 도입한 것을 Momentum optimizer이라 하는데, 아래 수식을 보면 \(x\)는 가중치 값, \(v\)는 가속도를 의미합니다. 즉, 이전의 기울기 값에 이전 가속도를 추가하여 현재 가중치 값을 업데이트 하면서 local minimum, plateau를 피하려고하는 방법입니다. 

SGD 수식
\(\theta_{t+1} = \theta_t - \eta\bigtriangledown_\theta J(\theta)\)

Momentum 수식
\(v_t = \gamma v_{t-1}+\eta\bigtriangledown_\theta J(\theta) \)
\(\theta_{t+1} = \theta_t - v_t \)

관성이라는 개념이 통용되는 이유는 기울기값이 지속적으로 누적되기 때문입니다. cost function에서 기울기가 지속적으로 음수가 나온다면 가속도는 계속 붙어있는 상태입니다. 따라서 이 전의 가속도로 인해 구간을 빠져나가는 것이 가능하다는 겁니다. 하지만 Momentum방법의 경우 멈춰야 할 시점에서도 관성에 의해 훨씬 멀리 갈수도 있다는 단점이 존재합니다. 이 단점을 보완하기 위해 나온 방법은 Nesterov Momentum입니다. 

 

728x90
반응형

'Deep learning > 용어 정리' 카테고리의 다른 글

Cross-Entropy  (0) 2022.01.14
Binary Cross Entropy  (0) 2022.01.13
Bilinear interpolation  (0) 2022.01.12
Comments