안녕하세요. 오태호입니다.
Linear Regression에서 Predictor와 Response가 얼마나 관계가 있는지 조사하는 방법으로 F Test를 사용합니다. Linear Regression 관련 책을 살펴보면 F Test의 식의 유도과정이 생략되어 있는 경우가 많아서 이해가 쉽지 않은 경우가 많습니다. 그래서 이번 글에서는 Linear Regression의 F Test 식을 유도해 보도록 하겠습니다. Linear Regression의 다른 수식에서도 흔히 접할 수 있는 Degree of Freedom의 의미도 이해하기가 쉽지 않은데 이 글을 통해 조금이라도 이해에 도움이 되었으면 좋겠습니다.
증명과정중에 Matrix나 Vector는 굵은 글꼴로 표현하도록 하겠습니다. 그리고 Vector는 특별히 언급이 없으면 Column Vector를 의미합니다.
Trace
•
인 A의 Trace는 아래와 같이 정의합니다.
•
는 아래와 같은 성질이 있습니다.
•
A가 Eigen Decomposition을 통해 로 표현될 수 있다면 를 아래와 같이 Eigenvalue의 합으로 구합니다.
Positive Definite Matrix
•
임의의 Vector x에 대해 아래와 같은 성질을 만족하는 Symmetric Matrix A를 Positive Definite Matrix라고 정의합니다.
•
Positive Definite Matrix AA가 Eigen Decomposition을 통해 로 표현될 수 있다면 아래와 같이 A의 모든 Eigenvalue가 0보다 큽니다. 참고로 A는 Symmetric Matrix이므로 A의 Eigenvector로 이루어진 Q는 Orthogonal Matrix이므로 가 성립합니다.
임의의 Vector y에 대해 만족하기 위해서는 모든 Eigenvalue가 0보다 커야 합니다.
LDLT Decomposition
A가 Symmetric일 때 LDU Decomposition의 결과에 라는 사실을 이용한 Decomposition을 LDLT Decomposition이라고 정의합니다.
Cholesky Decomposition
AA가 Positive Definite Matrix일 때 모든 Eigenvalue가 0보다 큰 사실을 이용해서 LDLT Decomposition의 결과에서 로 Decomposition을 하는 것을 Cholesky Decomposition이라고 정의합니다.
Idempotent Matrix
•
아래와 같은 성질을 만족하는 A를 Idempotent Matrix라고 정의합니다.
•
Simultaneously Diagonalizable Matrix
Matrix A, B가 같은 Eigenvector로 Diagonalize가 가능하면 Simultaneously Diagonalizable라고 정의합니다.
•
A, B가 Simultaneously Diagonalizable하면 AB=BA를 만족하는 것은 다음과 같이 증명합니다.
•
AB=BA를 만족하고 A의 모든 Eigenvalue가 서로 다를 때 A의 Eigenvector는 B의 Eigenvector라는 것을 다음과 같이 증명합니다.
v가 A의 Eigenvector이고 λ가 A의 Eigenvalue일 때 다음과 같이 정리할 수 있습니다.
Bv도 A의 Eigenvector가 됩니다. A의 모든 Eigenvalue는 서로 다르기 때문에 로 표현이 가능해야만 합니다. 만약에 표현이 불가능하다면 한 Eigenvalue에 두 Eigenvector가 존재하게 되어서 A의 모든 Eigenvalue는 서로 달라야 한다는 가정에 모순이 발생하기 때문입니다. 즉, 이며 v는 B의 Eigenvector가 됩니다.
•
AB=BA를 만족할 때 A의 Eigenvector가 B의 Eigenvector라는 것을 다음과 같이 증명합니다.
D는 의 Diagonal Matrix입니다. 는 인 Identity Matrix입니다. 입니다. 일 때 입니다. 는 와 동일한 크기의 Block Matrix입니다.
이면서 일 때 이기 위해서는 일 때 이 되어야 합니다. 정리하면 C는 다음과 같이 됩니다.
Diagonal Matrix인 를 다음과 같이 정의합니다.
R을 다음과 같이 정의합니다.
과 을 다음과 같이 계산해 봅니다.
과 는 Diagonal Matrix이고, R의 Column Vector는 A의 Eigenvector이면서 B의 Eigenvector입니다.
Quadratic Form
A가 Symmetric할 때 형태의 식을 Quadratic Form이라고 정의합니다. 여기서는 이 Quadratic Form의 특징에 대해 설명합니다.
•
이고, 이고, A가 Symmetric하고, A가 Idempotent할 때, 인 것을 다음과 같이 증명합니다.
A가 Symmetric하기 때문에 A를 Diagonalize할 수 있는 Orthogonal Matrix Q가 존재합니다.
A가 Idempotent하기 때문에 입니다. 로 v를 정의합니다.
•
이고, 이고, A가 Symmetric하고, 가 Idempotent할 때, 인 것을 다음과 같이 증명합니다.
는 Idempotent합니다. 그리고 A는 정의에 의해 Symmetric이고 Σ는 Covariance Matrix이기 때문에 Symmetric하여 도 Symmetric합니다. 이고 이기 때문에 이 됩니다. 와 같이 B를 정의합니다. B는 Symmetric하고, Idempotent하고, 이 됩니다.
•
이고, A가 Matrix 이고, 이고, A가 Symmetric하고, B가 Matrix 이고, B가 Symmetric하고, 이면, 와 는 Independent하다는 것을 다음과 같이 증명합니다.
Σ는 Covariance Matrix이므로 Positive Definite이 되고 Cholesky Decomposition을 이용하여 로 표현할 수 있습니다.
로 정의하고 로 정의합니다. 참고로, A와 B가 Symmetric이므로 C와 K도 Symmetric합니다.
이고 은 0이 아니므로 은 0이 됩니다.
는 인 Diagonal Matrix이고 는 인 Diagonal Matrix입니다.
로 v를 정의합니다.
의 Covariance Matrix가 이므로 Random Variable 은 Independent합니다.
를 살펴보면 는 중에서 Random Variable 에만 Depend하고, 를 살펴보면 는 중에서 Random Variable , , ⋯⋯, 에만 Depend합니다. 그래서 와 는 Independent합니다.
Non-central Chi-squared Distribution
Non-central Chi-squared Distribution은 가 iid이고, 이고, 일 때, 와 같이 정의합니다.
Linear Regression
Linear Regression에서 사용할 Symbol들을 아래와 같이 정의합니다.
Linear Regression에 대해 설명하도록 하겠습니다. 수집된 Input Data(Predictor)가 에 저장되어 있고, 수집된 Output Data(Response)는 에 저장되어 있습니다. Matrix의 각각의 Row가 하나의 Input Data이고, Vector의 각각의 Element가 하나의 Output Data입니다. 예를 들어, 세번째 Input Data는 이고, 세번째 Output Data는 입니다. Data로 가지고 있지 않은 Input을 입력했을 때 적절한 Output을 출력하는 Function을 만들고 싶습니다. 즉, 을 입력하면 을 출력하는 Function을 만들고 싶습니다. 그래서 일단 그 Function의 형태를 로 구성하고 해당 조건을 성립시키는 를 찾는 것을 시도합니다. 하지만 이것은 거의 불가능한 목표입니다. 는 단순한 형태라서 가지고 있는 Data가 모두 만족하도록 만드는 것이 불가능한 것이 일반적이기 때문입니다. 그래서 이 Function이 Input Data로부터 추정하는 Output은 실제 Output Data와 어느정도 Error가 발생하는 것을 피할 수 없습니다. 이 Error를 으로 설정합니다. 예를 들어 네번째 Output Data는 이고, Function이 네번째 Input Data는 로부터 추정한 Output Data는 이고, 네번째 Error는 가 됩니다.
각각의 Error는(첫번째 Data에 대한 Error, 두번째 Data에 대한 Error, …) iid하므로 가 됩니다.
Linear Regression에서 은 Input Data에 영향을 받지 않고 Output Data에 직접 영향을 주도록 설정하는 것이 일반적입니다. 그렇게 하기 위해서 의 첫번째 Column은 모두 1로 설정합니다. 그래서 은 모두 1로 설정합니다.
Error를 최소화시키는 를 구하기 위해서, 다음과 같이 를 의 Column Space에 Projection해서 이것을 으로 정하고, 를 로 변환했을 때 이 나오는 를 구합니다. 의 Column Space에 Projection해 주는 Matrix를 Projection Matrix라고 하고 로 표기합니다.
Linear Regression in Quadratic Form
는 Symmetric합니다.
가 Idempotent한 것은 다음과 같이 확인합니다.
를 Quadratic Form으로 표현하면 다음과 같습니다. 가 Symmetric하고 Idempotent한 것을 이용합니다.
가 Symmetric한 것은 다음과 같이 확인합니다.
가 Idempotent한 것은 다음과 같이 확인합니다.
를 Quadratic Form으로 표현하면 다음과 같습니다. 가 Symmetric하면서 Idempotent한 것을 이용합니다.
의 Column Space로 Projection하는 Projection Matrix를 구해보면 다음과 같습니다.
는 의 Column Space로 Projection하는 Projection Matrix이고, 는 의 Column Space로 Projection하는 Projection Matrix입니다. 그리고 가 모두 로 설정되어 있기 때문에 의 Column Space는 의 Column Space를 포함합니다. 그래서 의 Column Space로 Projection하고 의 Column Space로 Projection한 결과, 의 Column Space로 Projection하고 의 Column Space로 Projection한 결과, 의 Column Space로 Projection한 결과는 모두 동일합니다. 정리하면 다음이 성립합니다.
을 Quadratic Form으로 표현하면 다음과 같습니다. 을 이용합니다.
, , 를 종합해 보면 다음과 같이 의 관계가 있습니다.
, , 는 모두 Symmetric합니다. 그래서 , , 도 모두 Symmetric합니다.
, , 는 모두 Idempotent합니다.
가 Idempotent한 것은 다음과 같이 확인합니다.
가 Idempotent한 것은 다음과 같이 확인합니다.
이 Idempotent한 것은 다음과 같이 확인합니다. 을 이용합니다.
, , 이 모두 Symmetric하고 Idempotent한 것을 확인했습니다. 이번에는 각각의 Rank를 구해 보도록 하겠습니다. 가 Idempotent일 때 인 것은 Idempotent Matrix를 참조합니다. 는 Matrix이므로 이 되는 것도 이용합니다.
여기서 얻은 결과들을 정리해 보면 다음과 같습니다.
F Test for Linear Regression
Linear Regression을 살펴보면 다음이 성립합니다.
Quadratic Form과 Linear Regression in Quadratic Form을 살펴보면 이 Symmetric하고 이 Symmetric하고 다음과 같이 을 만족하기 때문에 와 이 Independent합니다.
로 를 정의하면, 이 됩니다. Non-central Chi-squared Distribution을 살펴보면 가 Symmetric하고 가 Idempotent하기 때문에 다음이 성립합니다. 는 Linear Regression in Quadratic Form를 참조합니다.
로 Null Hypothesis를 설정하면 다음과 같이 됩니다.
과 는 Independent하므로 F Statistic을 다음과 같이 계산할 수 있습니다. F Distribution에 대해서는 Derivation of the Probability Distribution Functions을 참조합니다.
은 가지고 있는 Data의 수( Vector의 Element 수, Matrix의 Row의 수), 는 찾아야 하는 Parameter의 수( Vector의 Element 수, Matrix의 Column의 수)입니다. 이라는 뜻은 Input과 Output이 관계가 없다는 뜻입니다. F Statistic으로 얻게 되는 결과는 를 따릅니다. 이것의 의미는 Input과 Output이 관계가 없다고 가정했을 때 현재 가지고 있는 Input Data와 Output Data의 조합을 우연히 얻게 될 확률이며, 이것은 만약에 여기서 계산된 Input Data와 Output Data의 조합을 우연히 얻게 될 확률이 충분히 낮다면(예를 들어 5%이하) Null Hypothesis를 기각해서 Input과 Output이 관계가 있다는 것을 의미하고, 이 확률이 높다면 Null Hypothesis를 기각하는 것이 불가능하여 Input과 Output이 관계가 있다고 확신하기 힘들다는 것을 의미합니다.
작성자
관련된 글 더 보기