안녕하세요. 오태호입니다.
통계학을 공부하다 보면 각종 확률분포함수(Probability Distribution Function)를 접하게 되는데 왜 이렇게 생긴 함수를 사용하는지 이해를 제대로 하지 못하고 사용하는 경우가 많이 있습니다. 통계를 잘 다루기 위해서는 각종 확률분포의 의미를 정확히 이해하는 것이 매우 중요합니다. 여기서는 각종 확률분포함수의 의미를 살펴보고 유도를 해 보도록 하겠습니다.
이해가 잘 되지 않는 확률분포함수가 있을 때 이 글을 읽어보면 이해하는데 도움을 줄 수 있을 것으로 생각합니다.
Rademacher Distribution
•
−1 이 나올 확률이 1/2 이고 +1 이 나올 확률이 1/2 입니다.
•
Bernoulli Distribution
•
1이 나올 확률이 이고 0이 나올 확률이 입니다.
•
•
Geometric Distribution
•
시도를 번 할 때 번 나오고 1이 번째에 나올 확률입니다.
•
•
Pascal Distribution
•
Negative Binomial Distribution이라고도 부릅니다.
•
Pascal Distribution은 사용하는 사람마다 조금씩 다른 의미로 정의하는 경우가 많아서 주의가 필요합니다.
•
Geometric Distribution의 일반형입니다.
•
시도를 번 할 때 번 시도할 때까지 번 1이 나오고 번째 시도에서 번째 1이 나올 확률입니다.
•
•
Binomial Distribution
•
시도를 번 할 때 그중에 이 번 나올 확률입니다.
•
•
Multinomial Distribution
•
Binomial Distribution의 일반형입니다.
•
가지의 다른 색을 가지고 있는 공이 주머니에 있을 때 번 색 공을 개 뽑고, 번 색 공을 개 뽑고, …, 번 색 공을 개 뽑을 확률입니다. 여기서 번 색 공이 뽑힐 확률은 이고, 총 뽑는 공의 갯수는 개 이며, 공은 하나 뽑아서 색을 확인한 후 다시 주머니에 넣습니다.
•
•
Hypergeometric Distribution
•
개의 파란 공과 개의 빨간 공이 주머니에 있을 때 개의 공을 뽑았을 때 개의 파란 공을 뽑을 확률입니다.
•
•
Poisson Distribution
•
한 달에 번의 고장이 평균적으로 발생하는 기계가 한 달 동안에 번의 고장이 발생할 확률입니다.
•
•
•
한 달을 개의 구간으로 나누면 한 구간에 고장이 발생할 확률은 이 됩니다. 에서 가 되면 이 됩니다.
Uniform Distribution
•
와 사이의 값이 균일한 확률로 가 뽑힙니다.
•
•
Exponential Distribution
•
한 달에 번의 고장이 평균적으로 발생하는 기계가 달 동안 기계가 고장이 나지 않았다가 달 만에 기계가 고장이 날 확률밀도입니다.
•
•
•
달 동안 기계가 고장이 나지 않을 확률은 Poisson Distribution을 이용해 계산해 보면 다음과 같습니다.
•
달 동안 기계가 고장이 나지 않았다가 달 이후에 기계가 고장이 날 확률은 다음과 같습니다.
•
달 동안 기계가 고장이 나지 않았다가 달 만에 기계가 고장이 날 확률밀도는 다음과 같습니다.
Laplace Distribution
•
Double Exponential Distribution이라고도 부릅니다. 한 달에 번의 고장이 평균적으로 발생하는 기계가 두 대 있을 때 첫 번째 기계가 고장나는데 걸리는 시간은 달이고, 두 번째 기계가 고장나는데 걸리는 시간은 달일 때, 두 기계가 고장나는데 걸리는 시간의 차는 가 됩니다.
•
•
•
과 가 independent, , 이면 임은 다음과 같이 증명합니다.
Gamma Distribution
•
가 양의 정수인 경우 Erlang Distribution이라고도 부릅니다.
•
Chi-squared Distribution, Exponential Distribution의 일반형입니다.
•
한 달에 번의 고장이 평균적으로 발생하는 기계가 달 동안 기계가 번 고장이 나고 달 만에 기계가 번째 고장이 날 확률밀도입니다.
•
•
•
는 iid, 일 때 가 됨을 다음과 같이 증명합니다.
Beta Distribution
•
은행에 가서 일을 처리하고 우체국에 가서 일을 처리할 때, 은행에서 앞에 기다리는 사람이 명이고 우체국에서 앞에 기다리는 사람이 명일 때 은행과 우체국에서 시간당 평균 명을 처리하는 경우 은행에서 기다리는 시간은 이고 우체국에서 기다리는 시간은 이 됩니다. 이때 총 기다린 시간은 가 되며 총 기다린 시간과 은행에서 기다린 시간의 비율은 가 됩니다. 이때 이고 가 됩니다.
•
•
•
이고 일 때 과 의 Joint Distribution을 계산하여 임을 다음과 같이 증명합니다.
Dirichlet Distribution
•
Multivariate Beta Distribution이라고도 부릅니다.
•
Beta Distribution의 일반형입니다.
•
가지의 장소에 가서 각각 일을 처리할 때 번 장소에서 명이 앞에서 기다리고 있고, 번 장소에서 명이 앞에서 기다리고 있고, …, 번 장소에서 명이 앞에서 기다리고 있을 때 각각의 장소에서 시간당 평균 명을 처리하는 경우 번 장소에서 기다리는 시간은 이고, 번 장소에서 기다리는 시간은 이고, …, 번 장소에서 기다리는 시간은 이 됩니다. 이때 총 기다린 시간과 번 장소에서 기다린 시간의 비율은 이 되며, 총 기다린 시간과 번 장소에서 기다린 시간의 비율은 이 되며, …, 총 기다린 시간과 번 장소에서 기다린 시간의 비율은 이 되며, 가 됩니다.
•
•
Normal Distribution
•
Gaussian Distribution이라고도 부릅니다.
•
가 iid, , , 라고 하면, , 이 된다. 가 일 때, 이 됩니다.
•
가 , 가 존재하는 경우 이 클 때 가 Normal Distribution을 따릅니다. 은 의 합으로 나타낼 수 있고, 는 의 합으로 나타낼 수 있으며, 는 의 합으로 나타낼 수 있기 때문에, 이면 , , 가 Normal Distribution을 따릅니다. 이런 특성으로 인해 주변에서 Normal Distribution이 빈번하게 관측됩니다.
•
•
•
, 가 iid, , , , 일 때 임을 다음과 같이 증명합니다.
Chi-squared Distribution
•
가 iid, , 이면 이 됩니다. 은 degree of freedom이라고 부릅니다.
•
•
•
이면 임을 다음과 같이 증명합니다.
•
가 iid, 이면 이 되고, 이면 가 되고, 이 됩니다.
Cauchy Distribution
•
Lorentz Distribution이라고도 부릅니다.
•
과 가 independent이고, , 일 때 라면 이 됩니다.
•
, 가 존재하지 않습니다.
•
•
•
과 가 independent이고, , 일 때 라면 이 됨은 다음과 같이 증명합니다.
F Distribution
•
Snedecor’s F Distribution이라고도 부르며, Fisher–Snedecor Distribution이라고도 부릅니다.
•
과 가 independent이고, , , 일 때 입니다.
•
•
•
과 가 independent이고, , , 일 때 이 됨은 다음과 같이 증명합니다.
t Distribution
•
Student’s t Distribution이라고도 부릅니다. 는 iid, , , 일 때 , 입니다. 은 degree of freedom이라고 부릅니다.
•
정확한 를 구하는 것이 불가능한 경우에 로 근사를 하게 되는데, 이 충분히 크다면 가 와 거의 비슷하게 근사가 돼서 Normal Distribution을 사용할 수 있지만, 이 충분히 크지 않다면 가 와 차이가 크게 돼서 t Distribution을 사용해야 합니다.
•
•
•
는 iid, , , 일 때 , 임은 다음과 같이 증명합니다.
•
작성자
관련된 글 더 보기