안녕하세요. 오태호입니다.
이 글에서는 Optimization 기법중에 하나인 LBFGS Method(Limited Memory Broyden–Fletcher–Goldfarb–Shanno Method)의 수식을 다음과 같이 4개의 Part에 걸쳐서 차근차근 유도하여 LBFGS Method의 구조를 조금 깊게 살펴보도록 하겠습니다.
•
Derivation of LBFGS Part 2 - SR1 Method
Quasi Newton Method
Newton’s Method를 사용하여 를 최소로 하는 x를 찾는 식은 다음과 같습니다. 다음 식을 , , , ⋯⋯ 와 같이 Iteration을 반복하면서 구하고자 하는 x에 점점 가까운 값을 구합니다.
여기에서 x의 차원이 높은 경우에는 의 계산량이 매우 커서 계산이 매우 힘듭니다. 그래서 이런 경우를 극복하기 위해 을 정확하게 계산하는 것이 아니라 근사해서 구한 다음에 사용하는 다양한 기법이 있는데 이런 기법들을 Quasi Newton Method라고 합니다.
을 근사하기 위한 수식을 조금 더 간결하게 표기하기 위해 다음과 같이 몇가지 Vector와 Matrix를 정의합니다.
를 근사해서 구하기 위해 일단 를 근사해서 를 구하고 이를 기반으로 를 구합니다. 를 구하는 방법으로는 Iteration마다 조금씩 에 변화를 줘서 가 과 유사해 지도록 해서 구합니다.
Secant Equation
를 에 근사시키기 위해 다음과 같은 식을 만족시키도록 합니다. 이 식은 Secant Equation이라고 합니다.
이 식을 직관적으로 살펴보면, 과 의 차이를 에 곱해주면 과 의 차이가 된다는 것을 의미합니다. 의 정의를 생각해 보면 이것을 만족하는 는 에 가까울 것이라는 것을 추측할 수 있습니다.
Sherman Morrison Woodbury Formula
를 구한 후에 를 구할 때 다음 식을 이용합니다. 이 식은 Sherman Morrison Woodbury Formula라고 합니다.
이 식은 다음과 같이 증명합니다.
Sherman Morrison Woodbury Formula가 성립하기 위해서는 와 와 가 존재해야 합니다.
이 글에서는 A가 Positive Definite Matrix이고 이고 인 경우에 Sherman Morrison Woodbury Formula를 사용합니다. 이때 와 와 가 존재한다는 것은 다음과 같이 확인합니다.
A가 Positive Definite Matrix라면, A의 Eigenvalue는 모두 Positive가 되어서, A는 Full Rank Matrix가 되어이 존재합니다.
라면 가 당연히 존재합니다.
A가 Positive Definite Matrix이기 때문에, 도 Positive Definite Matrix가 되며, 는 Cholesky Decomposition에 의해 으로 표현할 수 있습니다.
P를 아래와 같이 정의합니다.
을 만족하는 경우가 이 유일한 경우라면 이 존재합니다.
을 만족하는 인 x가 존재한다면 을 만족하는 인 x가 존재합니다.
을 만족하는 인 x가 존재하지 않는다면 을 만족하는 인 x가 존재하지 않습니다.
을 만족하는 경우가 이 유일한 경우라면 을 만족하는 경우는 이 유일한 경우입니다.
을 만족하는 경우가 이 유일한 경우라면 이 존재합니다.
을 만족하는 경우는 인 경우가 유일하므로 이 존재합니다.
SR1 Method
, , , 를 구한 후에, 와 를 구하고, Secant Equation을 만족하는 를 구하는데 이것은 을 조금만 변형시켜서 구합니다. Secant Equation을 만족하는 는 여러가지가 존재하며 을 조금만 변형시키는 방법도 여러가지가 존재합니다. 여기서는 를 구하는 Quasi Newton Method중에 하나인 SR1 Method(Symmetric Rank 1 Method)를 살펴보겠습니다.
SR1 Method는 다음과 같이 을 구할 때 을 다음과 같이 조금만 변형 시켜서 구합니다.
은 Symmetric Matrix이고 Rank 1 Matrix입니다. 가 구체적으로 어떤 값을 가지는지 Secant Equation을 이용해서 계산해 보겠습니다.
정리하면 다음과 같습니다.
Sherman Morrison Woodbury Formula는 다음과 같습니다.
.은 다음과 같이 구합니다.
정리하면 다음과 같습니다.
SR1 Method에는 몇 가지 단점이 있습니다.
이 되면 에서 분모가 0이 되기 때문에 과 을 안정적으로 구할 수 없습니다.
그리고 Newton’s Method에서 의 최소값을 구하기 위해서는 이 Positive Definite Matrix가 되어야 하기 때문에 Quasi Newton Method에서도 와 가 Positive Definite Matrix가 되어야 합니다. 하지만 SR1 Method에서는 와 가 Positive Definite Matrix임을 보장하지 않습니다.
Conclusion
이 글에서는 LBFGS Method를 살펴보기 위한 과정으로 SR1 Method에 대해 살펴보았습니다.
SR1 Method는을 안정적으로 구할 수 없는 문제가 있습니다.
작성자
관련된 글 더 보기