Meet Our Team
home

Sample Mean and Sample Variance

오태호 (Taeho Oh)
오태호 (Taeho Oh)
안녕하세요. 오태호입니다.
이번 글에서는 Sample Mean과 Sample Variance에 대해서 설명드리도록 하겠습니다. 쉬운 내용인 것 같으면서도 Sample Variance를 구할 때 nn이 아니라 n1n-1로 나누는 이유에 대해서 잘 이해하고 있지 못하는 사람도 많이 있어서 조금 자세히 설명해 보도록 하겠습니다. 그리고 추가로 Normal Distribution인 경우에 Sample Mean과 Sample Variance가 가지고 있는 특징도 몇가지 살펴보도록 하겠습니다.

Sample Mean

Random Variable XX의 Mean인 μ\mu를 구하려고 합니다. 하지만 현실적으로 정확히 μ\mu를 구하는 것이 불가능하여 nn개의 XX의 Sample을 가지고 XX의 Mean인 μ\mu를 추정하려고 합니다. 이와 같이 nn개의 XX의 Sample을 이용하여 XX의 Mean인 μ\mu를 추정한 것을 Sample Mean이라고 합니다.
XX에서 nn개의 Sample을 뽑은 것을 X1X_1X2X_2, ⋯⋯, XnX_n이라고 해 봅시다. nn개의 Sample을 뽑는 행동 자체를 여러번 반복해 보면 뽑을 때마다 X1X_1X2X_2, ⋯⋯, XnX_n는 각각의 값이 일정하지 않고 계속 바뀔 것이라는 것을 예상할 수 있습니다. 그래서, X1X_1X2X_2, ⋯⋯, XnX_n는 각각이 Constant가 아니라 iid인 Random Variable이 됩니다.
XX에서 nn개의 Sample을 뽑아서 계산한 XX의 Sample Mean인 Xˉ\bar{X}는 다음과 같이 정의합니다.
Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i
앞에서 언급한 바와 같이 X1X_1X2X_2, ⋯⋯, XnX_n는 각각이 값이 고정되어 있지 않고 계속 바뀌는 Random Variable입니다. 그 Random Variable로부터 Xˉ\bar{X}를 계산했기 때문에 Xˉ\bar{X}도 Random Variable이 됩니다. Xˉ\bar{X}가 Random Variable이므로 Xˉ\bar{X}의 Mean도 계산할 수 있습니다. Xˉ\bar{X}의 Mean을 다음과 같이 계산해 볼 수 있습니다.
E(Xˉ)=E(1ni=1nXi)=E(1n(X1+X2++Xn))=1n(E(X1)+E(X2)++E(Xn))=1n(μ+μ++μ)=1n(nμ)=μ\begin{aligned}E(\bar{X})&=E\left(\frac{1}{n}\sum_{i=1}^nX_i\right) \\&=E\left(\frac{1}{n}(X_1+X_2+\cdots+X_n)\right) \\&=\frac{1}{n}(E(X_1)+E(X_2)+\cdots+E(X_n)) \\&=\frac{1}{n}(\mu+\mu+\cdots+\mu) \\&=\frac{1}{n}(n\mu) \\&=\mu\end{aligned}
Xˉ\bar{X}를 여러번 계속 구해서(nn개의 Sample을 뽑는 행동을 여러번 계속 해서) Xˉ\bar{X}의 Mean을 구해 보면 μ\mu가 된다는 사실에 비추어볼 때 XX의 Mean인 μ\mu를 Xˉ\bar{X}로 추정하는 것은 합리적이라는 것을 알 수 있습니다.

Variance

Sample Variance를 살펴보기에 앞서 알고 있으면 편한 Variance의 몇가지 성질에 대해 살펴보도록 하겠습니다.
Random Variable XX의 Variance인 σ2\sigma^2는 다음과 같이 정의합니다.
Var(X)=σ2=E((XE(X))2)=E(X22XE(X)+(E(X))2)=E(X2)2E(X)E(X)+(E(X))2=E(X2)(E(X))2\begin{aligned}Var(X)&=\sigma^2 \\&=E((X-E(X))^2) \\&=E(X^2-2XE(X)+(E(X))^2) \\&=E(X^2)-2E(X)E(X)+(E(X))^2 \\&=E(X^2)-(E(X))^2\end{aligned}
aa와 bb가 Constant일 때 Random Variable aX+baX+b의 Variance는 다음과 같이 구할 수 있습니다.
Var(aX+b)=E((aX+bE(aX+b))2)=E((aXaE(X))2)=E(a2(XE(X))2)=a2E((XE(X))2)=a2Var(X)=a2σ2\begin{aligned}Var(aX+b)&=E((aX+b-E(aX+b))^2) \\&=E((aX-aE(X))^2) \\&=E(a^2(X-E(X))^2) \\&=a^2E((X-E(X))^2) \\&=a^2Var(X) \\&=a^2\sigma^2\end{aligned}
Random Variable XX와 YY의 Covariance는 아래와 같이 정의합니다.
Cov(X,Y)=E((XE(X))(YE(Y)))=E(XYE(Y)XE(X)Y+E(X)E(Y))=E(XY)E(X)E(Y)\begin{aligned}Cov(X,Y)&=E((X-E(X))(Y-E(Y))) \\&=E(XY-E(Y)X-E(X)Y+E(X)E(Y)) \\&=E(XY)-E(X)E(Y)\end{aligned}
Random Variable X+YX+Y와 ZZ의 Covariance는 다음과 같이 구할 수 있습니다.
Cov(X+Y,Z)=E((X+Y)Z)E(X+Y)E(Z)=E(XZ)+E(YZ)E(X)E(Z)E(Y)E(Z)=(E(XZ)E(X)E(Z))+(E(YZ)E(Y)E(Z))=Cov(X,Z)+Cov(Y,Z)\begin{aligned}Cov(X+Y,Z)&=E((X+Y)Z)-E(X+Y)E(Z) \\&=E(XZ)+E(YZ)-E(X)E(Z)-E(Y)E(Z) \\&=(E(XZ)-E(X)E(Z))+(E(YZ)-E(Y)E(Z)) \\&=Cov(X,Z)+Cov(Y,Z)\end{aligned}
aa와 bb가 Constant일 때 Random Variable aX+baX+b와 YY의 Covariance는 다음과 같이 구할 수 있습니다.
Cov(aX+b,Y)=E((aX+b)Y)E(aX+b)E(Y)=aE(XY)+bE(Y)aE(X)E(Y)bE(Y)=a(E(XY)E(X)E(Y))=aCov(X,Y)\begin{aligned}Cov(aX+b,Y)&=E((aX+b)Y)-E(aX+b)E(Y) \\&=aE(XY)+bE(Y)-aE(X)E(Y)-bE(Y) \\&=a(E(XY)-E(X)E(Y)) \\&=aCov(X,Y)\end{aligned}
Random Variable X+YX+Y의 Variance는 다음과 같이 구할 수 있습니다.
Var(X+Y)=Cov(X+Y,X+Y)=Cov(X,X+Y)+Cov(Y,X+Y)=(Cov(X,X)+Cov(X,Y))+(Cov(Y,X)+Cov(Y,Y))=(Var(X)+Cov(X,Y))+(Cov(X,Y)+Var(Y))=Var(X)+Var(Y)+2Cov(X,Y)\begin{aligned}Var(X+Y)&=Cov(X+Y,X+Y) \\&=Cov(X,X+Y)+Cov(Y,X+Y) \\&=(Cov(X,X)+Cov(X,Y))+(Cov(Y,X)+Cov(Y,Y)) \\&=(Var(X)+Cov(X,Y))+(Cov(X,Y)+Var(Y)) \\&=Var(X)+Var(Y)+2Cov(X,Y)\end{aligned}
Random Variable XX의 Sample Mean인 Xˉ\bar{X}도 Random Variable이므로 Sample Mean의 Variance도 계산할 수 있습니다. Xˉ\bar{X}의 Variance를 다음과 같이 계산해 볼 수 있습니다.
Var(Xˉ)=Var(1ni=1nXi)=Var(1n(X1+X2++Xn))=1n2(Var(X1)+Var(X2)++Var(Xn))=1n2(σ2+σ2++σ2)=1n2(nσ2)=σ2n\begin{aligned}Var(\bar{X})&=Var\left(\frac{1}{n}\sum_{i=1}^nX_i\right) \\&=Var\left(\frac{1}{n}(X_1+X_2+\cdots+X_n)\right) \\&=\frac{1}{n^2}(Var(X_1)+Var(X_2)+\cdots+Var(X_n)) \\&=\frac{1}{n^2}(\sigma^2+\sigma^2+\cdots+\sigma^2) \\&=\frac{1}{n^2}(n\sigma^2) \\&=\frac{\sigma^2}{n}\end{aligned}
Random Variable X1X_1X2X_2, ⋯⋯, XnX_n는 각각이 iid이기 때문에 서로간의 Covariance가 모두 00이 되어서 Var(X1+X2++Xn)=Var(X1)+Var(X2)++Var(Xn)Var(X_1+X_2+\cdots+X_n)=Var(X_1)+Var(X_2)+\cdots+Var(X_n)이 되어서 간단하게 정리되는 것을 살펴볼 수 있습니다. Independent일 때 Uncorrelated하고 Covariance가 00이 되는 것에 대한 자세한 내용은 Independent and Uncorrelated을 살펴보시기 바랍니다.
좀 더 직관적으로 설명해 보겠습니다. nn개의 XX의 Sample을 뽑아서 XX의 Sample Mean인 Xˉ\bar{X}를 구하는 행동을 반복해서 여러번 해 보면 Xˉ\bar{X}가 일정하지 않고 계속 바뀌게 되는데 Xˉ\bar{X}의 변화가 심하면 Var(Xˉ)Var(\bar{X})가 커지고, Xˉ\bar{X}의 변화가 심하지 않으면 Var(Xˉ)Var(\bar{X})가 작아집니다. Sample의 갯수인 nn을 많이 늘리면 Xˉ\bar{X}를 구하는 행동을 반복해도 Xˉ\bar{X}의 변화가 심하지 않을 것을 예상할 수 있는데, 위의 식을 살펴봐도 nn이 늘면 Var(Xˉ)Var(\bar{X})가 작아져서 Xˉ\bar{X}의 변화가 심하지 않게 될 것을 예상할 수 있습니다.

Sample Variance

Random Variable XX의 Variance인 σ2\sigma^2를 구하려고 합니다. 하지만 현실적으로 정확히 σ2\sigma^2를 구하는 것이 불가능하여 nn개의 XX의 Sample을 가지고 XX의 Variance인 σ2\sigma^2를 추정하려고 합니다. 이와 같이 nn개의 XX의 Sample을 이용하여 XX의 Variance인 σ2\sigma^2를 추정한 것을 Sample Variance이라고 합니다.
XX에서 nn개의 Sample을 뽑아서 계산한 XX의 Sample Variance인 s2s^2은 다음과 같이 정의합니다.
s2=1n1i=1n(XiXˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2
하지만 여기서는 계산과정에서 n1n-1로 나눈 이유를 이해해 보기 위해 nn으로 나누면 어떻게 되는지 sˉ2\bar{s}^2를 다음과 같이 정의해서 sˉ2\bar{s}^2의 특징을 살펴보도록 하겠습니다.
sˉ2=1ni=1n(XiXˉ)2\bar{s}^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2
Sample Mean을 살펴봤을 때와 마찬가지로 X1X_1X2X_2, ⋯⋯, XnX_n는 각각이 iid인 Random Variable이고 거기에서 파생된 Xˉ\bar{X}와 sˉ2\bar{s}^2도 Random Variable입니다. sˉ2\bar{s}^2가 Random Variable이므로 sˉ2\bar{s}^2의 Mean을 다음과 같이 계산해 볼 수 있습니다.
E(sˉ2)=E(1ni=1n(XiXˉ)2)=E(1ni=1n(Xi22XˉXi+Xˉ2))=E(1ni=1nXi22Xˉ1ni=1nXi+1ni=1nXˉ2))=E(1ni=1nXi22Xˉ2+1n(nXˉ2))=1ni=1nE(Xi2)2E(Xˉ2)+E(Xˉ2)=1ni=1nE(Xi2)E(Xˉ2)\begin{aligned}E(\bar{s}^2)&=E\left(\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2\right) \\&=E\left(\frac{1}{n}\sum_{i=1}^n(X_i^2-2\bar{X}X_i+\bar{X}^2)\right) \\&=E\left(\frac{1}{n}\sum_{i=1}^nX_i^2-2\bar{X}\frac{1}{n}\sum_{i=1}^nX_i+\frac{1}{n}\sum_{i=1}^n\bar{X}^2)\right) \\&=E\left(\frac{1}{n}\sum_{i=1}^nX_i^2-2\bar{X}^2+\frac{1}{n}(n\bar{X}^2)\right) \\ &=\frac{1}{n}\sum_{i=1}^nE(X_i^2)-2E(\bar{X}^2)+E(\bar{X}^2) \\&=\frac{1}{n}\sum_{i=1}^nE(X_i^2)-E(\bar{X}^2)\end{aligned}
E(sˉ2)E(\bar{s}^2)을 좀 더 간단하게 정리하기 위해 다음 성질을 이용합니다.
Var(X)=E(X2)(E(X))2E(X2)=Var(X)+(E(X))2=σ2+μ2Var(Xˉ)=E(Xˉ2)(E(Xˉ))2E(Xˉ2)=Var(Xˉ)+(E(Xˉ))2=σ2n+μ2\begin{array}{c} Var(X)=E(X^2)-(E(X))^2 \\\begin{aligned}E(X^2)&=Var(X)+(E(X))^2 \\&=\sigma^2+\mu^2 \\\end{aligned} \\Var(\bar{X})=E(\bar{X}^2)-(E(\bar{X}))^2 \\\begin{aligned}E(\bar{X}^2)&=Var(\bar{X})+(E(\bar{X}))^2 \\&=\frac{\sigma^2}{n}+\mu^2 \\\end{aligned} \end{array}
위의 성질을 이용해 다음과 같이 E(sˉ2)E(\bar{s}^2) 를 더 간단하게 정리합니다.
E(sˉ2)=1ni=1nE(Xi2)E(Xˉ2)=1n(E(X12)+E(X22)++E(Xn2))E(Xˉ2)=1n((σ2+μ2)+(σ2+μ2)++(σ2+μ2))E(Xˉ2)=1n(n(σ2+μ2))E(Xˉ2)=σ2+μ2E(Xˉ2)=σ2+μ2(σ2n+μ2)=n1nσ2\begin{aligned}E(\bar{s}^2)&=\frac{1}{n}\sum_{i=1}^nE(X_i^2)-E(\bar{X}^2) \\&=\frac{1}{n}(E(X_1^2)+E(X_2^2)+\cdots+E(X_n^2))-E(\bar{X}^2) \\&=\frac{1}{n}((\sigma^2+\mu^2)+(\sigma^2+\mu^2)+\cdots+(\sigma^2+\mu^2))-E(\bar{X}^2) \\&=\frac{1}{n}(n(\sigma^2+\mu^2))-E(\bar{X}^2) \\&=\sigma^2+\mu^2-E(\bar{X}^2) \\&=\sigma^2+\mu^2-\left(\frac{\sigma^2}{n}+\mu^2\right) \\&=\frac{n-1}{n}\sigma^2\end{aligned}
sˉ2\bar{s}^2을 여러번 계속 구해서(nn개의 Sample을 뽑는 행동을 여러번 계속 해서) sˉ2\bar{s}^2의 Mean을 구해 보면 σ2\sigma^2가 아니라 σ2\sigma^2보다 약간 작은 n1nσ2\frac{n-1}{n}\sigma^2가 된다는 사실을 알 수 있습니다. nn개의 Sample을 뽑는 행동을 여러번 계속 해서 sˉ2\bar{s}^2의 Mean을 구했을 때 결과가 n1nσ2\frac{n-1}{n}\sigma^2대신에 σ2\sigma^2으로 나오게 하기 위해서는 sˉ2\bar{s}^2대신에 nn1sˉ2\frac{n}{n-1}\bar{s}^2을 여러번 계속 구해서 nn1sˉ2\frac{n}{n-1}\bar{s}^2의 Mean을 구해야 합니다. 그런데 살펴보면 nn1sˉ2\frac{n}{n-1}\bar{s}^2은 위에서 정의한 Sample Variance인 s2s^2과 일치합니다. 즉, s2s^2을 여러번 계속 구해서 (nn개의 Sample을 뽑는 행동을 여러번 계속 해서) s2s^2의 Mean을 구해 보면 σ2\sigma^2이 된다는 사실에 비추어볼 때 XX의 Variance인 σ2\sigma^2을 s2s^2로 추정하는 것은 합리적이라는 것을 알 수 있습니다.
즉, Sample Variance를 구할 때 nn으로 나누면 우리가 추정하고자 하는 실제 Variance보다 작은 값을 추정하게 되고 n1n-1로 나누게 되면 우리가 추정하고자 하는 실제 Variance를 추정하게 되기 때문에 Sample Variance를 구할 때 n1n-1로 나누어서 구합니다.

Sample Mean and Normal Distribution

Random Variable X1X_1X2X_2, ⋯⋯, XnX_n이 Normal Distribution을 따르고 iid일 때, Sample Mean인 Xˉ\bar{X}와 XiXˉX_i-\bar{X}는 Independent하다는 것을 다음과 같이 증명할 수 있습니다.
우선 Xˉ\bar{X}와 XiXˉX_i-\bar{X}가 Uncorrelated하다는 것을 다음과 같이 증명합니다.
Cov(Xˉ,XiXˉ)=Cov(Xˉ,Xi)Cov(Xˉ,Xˉ)=Cov(1n(X1+X2++Xn),Xi)Var(Xˉ)=Cov(1nXi,Xi)Var(1n(X1+X2++Xn))=1nCov(Xi,Xi)1n2(Var(X1)+Var(X2)++Var(Xn))=1nVar(Xi)1n2(nVar(Xi))=0\begin{aligned}Cov(\bar{X}, X_i-\bar{X})&=Cov(\bar{X},X_i)-Cov(\bar{X},\bar{X}) \\&=Cov\left(\frac{1}{n}(X_1+X_2+\cdots+X_n),X_i\right)-Var(\bar{X}) \\&=Cov\left(\frac{1}{n}X_i,X_i\right)-Var\left(\frac{1}{n}(X_1+X_2+\cdots+X_n)\right) \\&=\frac{1}{n}Cov(X_i,X_i)-\frac{1}{n^2}(Var(X_1)+Var(X_2)+\cdots+Var(X_n)) \\&=\frac{1}{n}Var(X_i)-\frac{1}{n^2}(nVar(X_i)) \\&=0\end{aligned}
Xˉ\bar{X}와 XiXˉX_i-\bar{X}¯가 Bivariate Normal Distribution을 따르는 것은 다음과 같이 확인할 수 있습니다.
[XˉXiXˉ]=[1n1n11n1n][XikiXk]\begin{bmatrix}\bar{X} \\X_i-\bar{X}\end{bmatrix}=\begin{bmatrix}\frac{1}{n} & \frac{1}{n} \\1-\frac{1}{n} & -\frac{1}{n}\end{bmatrix}\begin{bmatrix}X_i \\\sum_{k \neq i}X_k\end{bmatrix}
Xˉ\bar{X}와 XiXˉX_i-\bar{X}는 Normal Distribution을 따르는 Independent한 Random Variable인 XiX_i와 kiXk\sum_{k \neq i}X_k의 Linear Transformation으로 표현이 가능하기 때문에 Xˉ\bar{X}와 XiXˉX_i-\bar{X}는 Bivariate Normal Distribution을 따릅니다.
Xˉ\bar{X}와 XiXˉX_i-\bar{X}가 Bivariate Normal Distribution을 따르고 Uncorrelated하기 때문에 Xˉ\bar{X}와 XiXˉX_i-\bar{X}는 Independent합니다. Bivariate Normal Distribution을 따르고 Uncorrelated할 때 Independent한 것에 대한 자세한 내용은 Independent and Uncorrelated을 살펴보시기 바랍니다.

Sample Variance and Normal Distribution

Random Variable X1X_1X2X_2, ⋯⋯, XnX_n이 XiN(μ,σ2)X_i \sim N(\mu, \sigma^2)이고 iid일 때 Sample Variance를 s2s^2이라 하면 (n1)s2σ2χn12(n-1)\frac{s^2}{\sigma^2} \sim \chi_{n-1}^2이 성립함을 다음과 같이 증명할 수 있습니다.
우선 Random Variable Z1Z_1Z2Z_2, ⋯⋯, ZnZ_n이 ZiN(0,1)Z_i \sim N(0,1)이고 iid일 때 Sample Mean을 Zˉ\bar{Z}라고 하면 i=1n(ZiZˉ)2χn12\sum_{i=1}^n(Z_i-\bar{Z})^2 \sim \chi_{n-1}^2이 성립함을 다음과 증명합니다.
i=1n(ZiZˉ)2+nZˉ2=i=1n(Zi22ZiZˉ+Zˉ2)+nZˉ2=i=1nZi22i=1nZiZˉ+i=1nZˉ2+nZˉ2=i=1nZi22(Z1+Z2++Zn)Zˉ+nZˉ2+nZˉ2=i=1nZi22(nZˉ)Zˉ+nZˉ2+nZˉ2=i=1nZi2χn2Var(Zˉ)=1nnZˉN(0,1)nZˉ2χ12\begin{aligned}\sum_{i=1}^n(Z_i-\bar{Z})^2+n\bar{Z}^2&=\sum_{i=1}^n(Z_i^2-2Z_i\bar{Z}+\bar{Z}^2)+n\bar{Z}^2 \\&=\sum_{i=1}^nZ_i^2-2\sum_{i=1}^nZ_i\bar{Z}+\sum_{i=1}^n\bar{Z}^2+n\bar{Z}^2 \\&=\sum_{i=1}^nZ_i^2-2(Z_1+Z_2+\cdots+Z_n)\bar{Z}+n\bar{Z}^2+n\bar{Z}^2 \\&=\sum_{i=1}^nZ_i^2-2(n\bar{Z})\bar{Z}+n\bar{Z}^2+n\bar{Z}^2 \\&=\sum_{i=1}^nZ_i^2 \sim \chi_n^2\end{aligned} \\Var(\bar{Z})=\frac{1}{n} \\\sqrt{n}\bar{Z} \sim N(0,1) \\n\bar{Z}^2 \sim \chi_1^2
앞의 Sample Mean and Normal Distribution에서 언급된 바에 따르면 Zˉ\bar{Z}와 ZiZˉZ_i-\bar{Z}는 Independent합니다. 그래서 MGF를 다음과 같이 계산할 수 있습니다.
i=1n(ZiZˉ)2+nZˉ2=i=1nZi2MGF(i=1n(ZiZˉ)2+nZˉ2)=MGF(i=1nZi2)MGF(i=1n(ZiZˉ)2)MGF(nZˉ2)=MGF(i=1nZi2)MGF(i=1n(ZiZˉ)2)=MGF(i=1nZi2)MGF(nZˉ2)MGF(i=1n(ZiZˉ)2)=(112t)n2(112t)12=(112t)n12i=1n(ZiZˉ)2χn12\begin{aligned} \sum_{i=1}^n(Z_i-\bar{Z})^2+n\bar{Z}^2&=\sum_{i=1}^nZ_i^2 \\MGF\left(\sum_{i=1}^n(Z_i-\bar{Z})^2+n\bar{Z}^2\right)&=MGF\left(\sum_{i=1}^nZ_i^2\right) \\MGF\left(\sum_{i=1}^n(Z_i-\bar{Z})^2\right)MGF\left(n\bar{Z}^2\right)&=MGF\left(\sum_{i=1}^nZ_i^2\right) \\MGF\left(\sum_{i=1}^n(Z_i-\bar{Z})^2\right)&=\frac{MGF\left(\sum_{i=1}^nZ_i^2\right)}{MGF\left(n\bar{Z}^2\right)} \\MGF\left(\sum_{i=1}^n(Z_i-\bar{Z})^2\right)&=\frac{\left(\frac{1}{1-2t}\right)^{\frac{n}{2}}}{\left(\frac{1}{1-2t}\right)^{\frac{1}{2}}}&=\left(\frac{1}{1-2t}\right)^{\frac{n-1}{2}} \\\sum_{i=1}^n(Z_i-\bar{Z})^2 \sim \chi_{n-1}^2 \end{aligned}
XiN(μ,σ2)X_i \sim N(\mu,\sigma^2)이고 ZiN(0,1)Z_i \sim N(0,1)이므로 Xi=μ+σZiX_i=\mu+\sigma Z_iXˉ=μ+σZˉ\bar{X}=\mu+\sigma\bar{Z}으로 표현할 수 있습니다. 이를 이용해서 (n1)s2σ2χn12(n-1)\frac{s^2}{\sigma^2} \sim \chi_{n-1}^2을 다음과 같이 증명합니다.
(n1)s2σ2=(n1)1σ21n1i=1n(XiXˉ)2=1σ2i=1n(XiXˉ)2=1σ2i=1n(μ+σZi(μ+σZˉ))2=1σ2i=1nσ2(ZiZˉ)2=i=1n(ZiZˉ)2χn12\begin{aligned}(n-1)\frac{s^2}{\sigma^2}&=(n-1)\frac{1}{\sigma^2}\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 \\&=\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\bar{X})^2 \\&=\frac{1}{\sigma^2}\sum_{i=1}^n(\mu+\sigma Z_i-(\mu+\sigma\bar{Z}))^2 \\&=\frac{1}{\sigma^2}\sum_{i=1}^n\sigma^2(Z_i-\bar{Z})^2 \\&=\sum_{i=1}^n(Z_i-\bar{Z})^2 \sim \chi_{n-1}^2 \\\end{aligned}

Summary

nn개의 XX의 Sample을 가지고 XX의 Mean인 μ\mu를 추정한 것을 Sample Mean이라고 하며, Sample Mean Xˉ\bar{X}는 Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i와 같이 정의합니다.
nn개의 XX의 Sample을 가지고 XX의 Variance인 σ2\sigma^2을 추정한 것을 Sample Variance라고 하며, Sample Variance s2s^2은 s2=1n1i=1n(XiXˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2와 같이 정의합니다.
Random Variable XiX_i가 Normal Distribution을 따르고 iid이면 Xˉ\bar{X}와 XiXˉX_i-\bar{X}는 Independent합니다.
Random Variable XiX_i가 Normal Distribution을 따르고 iid이면 (n1)s2σ2χn12(n-1)\frac{s^2}{\sigma^2} \sim \chi_{n-1}^2이 성립합니다.
작성자
관련된 글 더 보기