안녕하세요. 오태호입니다.
이번 글에서는 Sample Mean과 Sample Variance에 대해서 설명드리도록 하겠습니다. 쉬운 내용인 것 같으면서도 Sample Variance를 구할 때 이 아니라 로 나누는 이유에 대해서 잘 이해하고 있지 못하는 사람도 많이 있어서 조금 자세히 설명해 보도록 하겠습니다. 그리고 추가로 Normal Distribution인 경우에 Sample Mean과 Sample Variance가 가지고 있는 특징도 몇가지 살펴보도록 하겠습니다.
Sample Mean
Random Variable 의 Mean인 를 구하려고 합니다. 하지만 현실적으로 정확히 를 구하는 것이 불가능하여 개의 의 Sample을 가지고 의 Mean인 를 추정하려고 합니다. 이와 같이 개의 의 Sample을 이용하여 의 Mean인 를 추정한 것을 Sample Mean이라고 합니다.
에서 개의 Sample을 뽑은 것을 , , ⋯⋯, 이라고 해 봅시다. 개의 Sample을 뽑는 행동 자체를 여러번 반복해 보면 뽑을 때마다 , , ⋯⋯, 는 각각의 값이 일정하지 않고 계속 바뀔 것이라는 것을 예상할 수 있습니다. 그래서, , , ⋯⋯, 는 각각이 Constant가 아니라 iid인 Random Variable이 됩니다.
에서 개의 Sample을 뽑아서 계산한 의 Sample Mean인 는 다음과 같이 정의합니다.
앞에서 언급한 바와 같이 , , ⋯⋯, 는 각각이 값이 고정되어 있지 않고 계속 바뀌는 Random Variable입니다. 그 Random Variable로부터 를 계산했기 때문에 도 Random Variable이 됩니다. 가 Random Variable이므로 의 Mean도 계산할 수 있습니다. 의 Mean을 다음과 같이 계산해 볼 수 있습니다.
를 여러번 계속 구해서(개의 Sample을 뽑는 행동을 여러번 계속 해서) 의 Mean을 구해 보면 가 된다는 사실에 비추어볼 때 의 Mean인 를 로 추정하는 것은 합리적이라는 것을 알 수 있습니다.
Variance
Sample Variance를 살펴보기에 앞서 알고 있으면 편한 Variance의 몇가지 성질에 대해 살펴보도록 하겠습니다.
Random Variable 의 Variance인 는 다음과 같이 정의합니다.
와 가 Constant일 때 Random Variable 의 Variance는 다음과 같이 구할 수 있습니다.
Random Variable 와 의 Covariance는 아래와 같이 정의합니다.
Random Variable 와 의 Covariance는 다음과 같이 구할 수 있습니다.
와 가 Constant일 때 Random Variable 와 의 Covariance는 다음과 같이 구할 수 있습니다.
Random Variable 의 Variance는 다음과 같이 구할 수 있습니다.
Random Variable 의 Sample Mean인 도 Random Variable이므로 Sample Mean의 Variance도 계산할 수 있습니다. 의 Variance를 다음과 같이 계산해 볼 수 있습니다.
Random Variable , , ⋯⋯, 는 각각이 iid이기 때문에 서로간의 Covariance가 모두 이 되어서 이 되어서 간단하게 정리되는 것을 살펴볼 수 있습니다. Independent일 때 Uncorrelated하고 Covariance가 이 되는 것에 대한 자세한 내용은 Independent and Uncorrelated을 살펴보시기 바랍니다.
좀 더 직관적으로 설명해 보겠습니다. 개의 의 Sample을 뽑아서 의 Sample Mean인 를 구하는 행동을 반복해서 여러번 해 보면 가 일정하지 않고 계속 바뀌게 되는데 의 변화가 심하면 가 커지고, 의 변화가 심하지 않으면 가 작아집니다. Sample의 갯수인 을 많이 늘리면 를 구하는 행동을 반복해도 의 변화가 심하지 않을 것을 예상할 수 있는데, 위의 식을 살펴봐도 이 늘면 가 작아져서 의 변화가 심하지 않게 될 것을 예상할 수 있습니다.
Sample Variance
Random Variable 의 Variance인 를 구하려고 합니다. 하지만 현실적으로 정확히 를 구하는 것이 불가능하여 개의 의 Sample을 가지고 의 Variance인 를 추정하려고 합니다. 이와 같이 개의 의 Sample을 이용하여 의 Variance인 를 추정한 것을 Sample Variance이라고 합니다.
에서 개의 Sample을 뽑아서 계산한 의 Sample Variance인 은 다음과 같이 정의합니다.
하지만 여기서는 계산과정에서 로 나눈 이유를 이해해 보기 위해 으로 나누면 어떻게 되는지 를 다음과 같이 정의해서 의 특징을 살펴보도록 하겠습니다.
Sample Mean을 살펴봤을 때와 마찬가지로 , , ⋯⋯, 는 각각이 iid인 Random Variable이고 거기에서 파생된 와 도 Random Variable입니다. 가 Random Variable이므로 의 Mean을 다음과 같이 계산해 볼 수 있습니다.
을 좀 더 간단하게 정리하기 위해 다음 성질을 이용합니다.
위의 성질을 이용해 다음과 같이 를 더 간단하게 정리합니다.
을 여러번 계속 구해서(개의 Sample을 뽑는 행동을 여러번 계속 해서) 의 Mean을 구해 보면 가 아니라 보다 약간 작은 가 된다는 사실을 알 수 있습니다. 개의 Sample을 뽑는 행동을 여러번 계속 해서 의 Mean을 구했을 때 결과가 대신에 으로 나오게 하기 위해서는 대신에 을 여러번 계속 구해서 의 Mean을 구해야 합니다. 그런데 살펴보면 은 위에서 정의한 Sample Variance인 과 일치합니다. 즉, 을 여러번 계속 구해서 (개의 Sample을 뽑는 행동을 여러번 계속 해서) 의 Mean을 구해 보면 이 된다는 사실에 비추어볼 때 의 Variance인 을 로 추정하는 것은 합리적이라는 것을 알 수 있습니다.
즉, Sample Variance를 구할 때 으로 나누면 우리가 추정하고자 하는 실제 Variance보다 작은 값을 추정하게 되고 로 나누게 되면 우리가 추정하고자 하는 실제 Variance를 추정하게 되기 때문에 Sample Variance를 구할 때 로 나누어서 구합니다.
Sample Mean and Normal Distribution
Random Variable , , ⋯⋯, 이 Normal Distribution을 따르고 iid일 때, Sample Mean인 와 는 Independent하다는 것을 다음과 같이 증명할 수 있습니다.
우선 와 가 Uncorrelated하다는 것을 다음과 같이 증명합니다.
와 ¯가 Bivariate Normal Distribution을 따르는 것은 다음과 같이 확인할 수 있습니다.
와 는 Normal Distribution을 따르는 Independent한 Random Variable인 와 의 Linear Transformation으로 표현이 가능하기 때문에 와 는 Bivariate Normal Distribution을 따릅니다.
와 가 Bivariate Normal Distribution을 따르고 Uncorrelated하기 때문에 와 는 Independent합니다. Bivariate Normal Distribution을 따르고 Uncorrelated할 때 Independent한 것에 대한 자세한 내용은 Independent and Uncorrelated을 살펴보시기 바랍니다.
Sample Variance and Normal Distribution
Random Variable , , ⋯⋯, 이 이고 iid일 때 Sample Variance를 이라 하면 이 성립함을 다음과 같이 증명할 수 있습니다.
우선 Random Variable , , ⋯⋯, 이 이고 iid일 때 Sample Mean을 라고 하면 이 성립함을 다음과 증명합니다.
이고 이므로 , 으로 표현할 수 있습니다. 이를 이용해서 을 다음과 같이 증명합니다.
Summary
•
개의 의 Sample을 가지고 의 Mean인 를 추정한 것을 Sample Mean이라고 하며, Sample Mean 는 와 같이 정의합니다.
•
개의 의 Sample을 가지고 의 Variance인 을 추정한 것을 Sample Variance라고 하며, Sample Variance 은 와 같이 정의합니다.
•
Random Variable 가 Normal Distribution을 따르고 iid이면 와 는 Independent합니다.
•
Random Variable 가 Normal Distribution을 따르고 iid이면 이 성립합니다.
작성자
관련된 글 더 보기