❗️블로그 옮김: https://www.taemobang.com
몸무게, 키 등과 같이 연속적인 숫자로 분포하는 연속형 확률변수가 아닌 이산형 확률변수(e.g. 교통사고 건수)가 가지는 분포에 대해 알아보고자 한다.
1. 균일 분포(Uniform distribution of discrete type)
확률변수 $X$가 $n$개의 이산값 $\left \{x_1, x_2, \cdots, x_n \right \}$을 가지며 각 값들이 취할 확률이 동일한 경우, 이 확률변수는 이산형 균일분포를 따른다. 기호로는 $X$ ~ $\textrm{Uniform}\left \{x_1, x_2, \cdots, x_n \right \}$와 같이 표시한다.
2. 베르누이 분포(Bernoulli distribution)
먼저 베르누이 시행(Bernoulli trial)에 대해 알 필요가 있다. 베르누이 시행이란 확률 실험의 결과가 성공(S) 혹은 실패(F)와 같이 두가지 결과로만 나타나는 실험을 말한다. 확률변수 $X$를 1회 베르누이 시행에서 성공의 수라고 정의하면, 이 확률변수는 베르누이 분포를 따른다. 성공확률이 $p$인 베르누이 분포를 따르는 확률변수 $X$는 기호로 $X$ ~ $B\left ( p \right )$와 같이 표시한다.
3. 이항 분포(Binomial distribution)
베르누이 시행을 독립적으로(independently) 반복해나가는 실험에서, 확률변수 $X$를 독립적인 베르누이 시행에서 성공의 수라고 정의하면 이 확률변수는 이항 분포를 따른다. 성공확률이 $p$이고, 시행 횟수가 $n$인 이항 분포를 따르는 확률변수 $X$는 기호로 $X$ ~ $B\left(n, p \right)$와 같이 표시한다.
4. 초기하 분포(Hypergeometric distribution)
속성 A(i.e. 불량품)가 $D$개 포함된 "유한" 모집단 $N$개로 부터 $n$개를 단순임의"비복원" 추출을 할 때, 확률변수 $X$를 속성 A의 수(i.e. 불량품의 수)라고 정의하면 이 확률변수는 초기하분포를 따른다. 기호로는 $X$ ~ $Hyper\left( N, n, D\right)$ 와 같이 표시한다. 참고로, 유한 모집단의 개수 $N$이 충분히 크면 초기하 분포는 이항분포로 근사하게 된다.
5. 기하 분포(Geometric distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 $X$를 첫번째 성공이 발생할 때 까지 총 시행횟수라고 정의하면 이 확률변수는 기하분포를 따른다. 성공확률이 $p$인 기하 분포를 따르는 확률변수 $X$는 기호로 $X$ ~ $G\left(p\right)$와 같이 나타낸다. 직관적으로 $Pr\left(X = 1\right)$ 일 때 가장 높은 확률을 가진다. 또한 기하분포는 무기억성(memoryless property)을 가지는 분포중 하나이다. 무기억성은 수식으로 아래와 같이 표현할 수 있다.
$Pr(X > i+j | X>i ) = Pr(X>j)$
식을 보고 조금만 생각해보면, 무기억성이 어떤 성질인지 알 수 있다. | 기호는 통계학에서 조건부 분포를 표현할 때 쓰는 기호이며, 예를 들어 $Pr(X|Y)$는 Probability $X$ given $Y$라고 읽는다. $Y$가 주어졌을 때, $X$의 분포다. 즉 위 기하분포의 무기억성이 의미하는 바는 $i$번 성공을 한 후에, $j$번 더 성공할 확률은 결국 $j$번 성공을 할 확률과 동일하다는 것이다.
6. 음이항 분포(Negative Binomial distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 $X$를 $r$번째 성공이 발생할 때까지 총 시행횟수라고 정의하면 이 확률변수는 음이항분포를 따른다. 기호로는 $X$ ~ $NB\left(r, p\right)$로 나타낸다. $r$번째 성공이 발생할 때까지 총 시행횟수가 아닌 총 실패횟수로 정의하는 경우도 있으며, 총 실패횟수로 정의하는 경우에 이항분포의 성공확률 $p$가 음이항분포의 $pdf$꼴에서 $-p$로 들어가서 음이항 분포라는 이름이 붙은것 같다. 궁금한 사람은 찾아보길 바란다.
7. 포아송 분포(Poisson distribution)
3가지 포아송가정(독립성, 비례성, 비집락성)을 만족하는 실험에서 크기가 1인 단위시간(또는 단위공간)내에 평균적으로 발생하는 사건의 수를 $\lambda$라고 할 때, 확률변수 $X$를 단위시간당(또는 단위공간당) 발생하는 사건의 수로 정의하면 이 확률변수는 포아송 분포를 따른다. 기호로는 $X$ ~ $Poisson\left(\lambda\right)$로 나타낸다. 어떤 단위시간이나 단위공간내에서 사건이 몇번정도 일어나는지 아는데, 내가 원하는 구간동안에 몇 번일어나는지 알고싶은 경우에 필요한 분포이다.
포아송 분포를 설명하는 것에 앞서 언급한 포아송 가정이란 다음의 세 가지를 말한다.
(1) 독립성 : 서로 다른 구간(non-overlapping intervals)에서 발생하는 사건의 수는 서로 독립이다.
(2) 비례성 : 충분히 짧은 구간에서 사건이 발생할 확률은 구간의 길이에 비례한다.
(3) 비집락성 : 충분히 짧은 구간에서 2회 이상의 사건이 발생할 확률은 거의 없다.
이항분포는 평균(np)이 분산(npq)보다 큰 값을 가지는 반면, 포아송 분포는 평균($\lambda$)과 분산($\lambda$)이 동일한 값을 가지며 평균이 커짐에 따라 분산도 함께 커지는 특징을 가진다. 또한 포아송 분포는 사실 이항 분포의 특별한 경우에 해당한다. 충분히 큰 $n$과 충분히 작은 $p$를 가진 이항분포($n\rightarrow \infty\, ,\, p\rightarrow 0$)는 ($\lambda = np$)인 포아송 분포로 근사한다. 즉, 다시말하면 실패할 가능성이 매우 높은 것을 아주 많이 시행하는 경우를 다룬것이다. 위와 같은 가정으로 이항분포의 $pdf$를 통해 포아송 분포의 $pdf$를 유도할 수 있다. 유도과정중 "각 소구간 내에는 기껏해야 한개의 사건만이 포함되도록" 이라는 말이 있으며, 그에따라 구간을 매우 잘게 쪼개어 $n\rightarrow \infty\, ,\, p\rightarrow 0$ 를 만족하도록 해주면 이항 분포의 $pdf$를 통해 포아송 분포의 $pdf$를 유도할 수 있다. 관심있는 사람은 찾아보길 바란다!
참고한 책
나종화 (2012). 수리통계학. 자유아카데미
'수리통계학' 카테고리의 다른 글
검정력과 검정력 함수에 대해 (0) | 2020.03.30 |
---|---|
기댓값과 표본평균 (0) | 2020.02.25 |
확률분포와 기댓값 (0) | 2020.02.16 |
댓글