본문 바로가기
수리통계학

이산형 확률분포

by be-favorite 2020. 2. 17.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

몸무게, 키 등과 같이 연속적인 숫자로 분포하는 연속형 확률변수가 아닌 이산형 확률변수(e.g. 교통사고 건수)가 가지는 분포에 대해 알아보고자 한다.

1. 균일 분포(Uniform distribution of discrete type)
확률변수 $X$가 $n$개의 이산값 $\left \{x_1, x_2, \cdots, x_n   \right \}$을 가지며 각 값들이 취할 확률이 동일한 경우, 이 확률변수는 이산형 균일분포를 따른다. 기호로는 $X$ ~ $\textrm{Uniform}\left \{x_1, x_2, \cdots, x_n   \right \}$와 같이 표시한다.

2. 베르누이 분포(Bernoulli distribution)
먼저 베르누이 시행(Bernoulli trial)에 대해 알 필요가 있다. 베르누이 시행이란 확률 실험의 결과가 성공(S) 혹은 실패(F)와 같이 두가지 결과로만 나타나는 실험을 말한다. 확률변수 $X$를 1회 베르누이 시행에서 성공의 수라고 정의하면, 이 확률변수는 베르누이 분포를 따른다. 성공확률이 $p$인 베르누이 분포를 따르는 확률변수 $X$는 기호로 $X$ ~ $B\left ( p \right )$와 같이 표시한다.

3. 이항 분포(Binomial distribution)
베르누이 시행을 독립적으로(independently) 반복해나가는 실험에서, 확률변수 $X$를 독립적인 베르누이 시행에서 성공의 수라고 정의하면 이 확률변수는 이항 분포를 따른다. 성공확률이 $p$이고, 시행 횟수가 $n$인 이항 분포를 따르는 확률변수 $X$는 기호로 $X$ ~ $B\left(n, p \right)$와 같이 표시한다.

4. 초기하 분포(Hypergeometric distribution)
속성 A(i.e. 불량품)가 $D$개 포함된 "유한" 모집단 $N$개로 부터 $n$개를 단순임의"비복원" 추출을 할 때, 확률변수 $X$를 속성 A의 수(i.e. 불량품의 수)라고 정의하면 이 확률변수는 초기하분포를 따른다. 기호로는 $X$ ~ $Hyper\left( N, n, D\right)$ 와 같이 표시한다. 참고로, 유한 모집단의 개수 $N$이 충분히 크면 초기하 분포는 이항분포로 근사하게 된다.

5. 기하 분포(Geometric distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 $X$를 첫번째 성공이 발생할 때 까지 총 시행횟수라고 정의하면 이 확률변수는 기하분포를 따른다. 성공확률이 $p$인 기하 분포를 따르는 확률변수 $X$는 기호로 $X$ ~ $G\left(p\right)$와 같이 나타낸다. 직관적으로 $Pr\left(X = 1\right)$ 일 때 가장 높은 확률을 가진다. 또한 기하분포는 무기억성(memoryless property)을 가지는 분포중 하나이다. 무기억성은 수식으로 아래와 같이 표현할 수 있다.

$Pr(X > i+j | X>i ) = Pr(X>j)$

식을 보고 조금만 생각해보면, 무기억성이 어떤 성질인지 알 수 있다. | 기호는 통계학에서 조건부 분포를 표현할 때 쓰는 기호이며, 예를 들어 $Pr(X|Y)$는 Probability $X$ given $Y$라고 읽는다. $Y$가 주어졌을 때, $X$의 분포다. 즉 위 기하분포의 무기억성이 의미하는 바는 $i$번 성공을 한 후에, $j$번 더 성공할 확률은 결국 $j$번 성공을 할 확률과 동일하다는 것이다.

6. 음이항 분포(Negative Binomial distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 $X$를 $r$번째 성공이 발생할 때까지 총 시행횟수라고 정의하면 이 확률변수는 음이항분포를 따른다. 기호로는 $X$ ~ $NB\left(r, p\right)$로 나타낸다. $r$번째 성공이 발생할 때까지 총 시행횟수가 아닌 총 실패횟수로 정의하는 경우도 있으며, 총 실패횟수로 정의하는 경우에 이항분포의 성공확률 $p$가 음이항분포의 $pdf$꼴에서 $-p$로 들어가서 음이항 분포라는 이름이 붙은것 같다. 궁금한 사람은 찾아보길 바란다.

7. 포아송 분포(Poisson distribution)
3가지 포아송가정(독립성, 비례성, 비집락성)을 만족하는 실험에서 크기가 1인 단위시간(또는 단위공간)내에 평균적으로 발생하는 사건의 수를 $\lambda$라고 할 때, 확률변수 $X$를 단위시간당(또는 단위공간당) 발생하는 사건의 수로 정의하면 이 확률변수는 포아송 분포를 따른다. 기호로는 $X$ ~ $Poisson\left(\lambda\right)$로 나타낸다. 어떤 단위시간이나 단위공간내에서 사건이 몇번정도 일어나는지 아는데, 내가 원하는 구간동안에 몇 번일어나는지 알고싶은 경우에 필요한 분포이다. 

포아송 분포를 설명하는 것에 앞서 언급한 포아송 가정이란 다음의 세 가지를 말한다.

(1) 독립성 : 서로 다른 구간(non-overlapping intervals)에서 발생하는 사건의 수는 서로 독립이다.
(2) 비례성 : 충분히 짧은 구간에서 사건이 발생할 확률은 구간의 길이에 비례한다.
(3) 비집락성 : 충분히 짧은 구간에서 2회 이상의 사건이 발생할 확률은 거의 없다.

이항분포는 평균(np)이 분산(npq)보다 큰 값을 가지는 반면, 포아송 분포는 평균($\lambda$)과 분산($\lambda$)이 동일한 값을 가지며 평균이 커짐에 따라 분산도 함께 커지는 특징을 가진다. 또한 포아송 분포는 사실 이항 분포의 특별한 경우에 해당한다. 충분히 큰 $n$과 충분히 작은 $p$를 가진 이항분포($n\rightarrow \infty\, ,\, p\rightarrow 0$)는 ($\lambda = np$)인 포아송 분포로 근사한다. 즉, 다시말하면 실패할 가능성이 매우 높은 것을 아주 많이 시행하는 경우를 다룬것이다. 위와 같은 가정으로 이항분포의 $pdf$를 통해 포아송 분포의 $pdf$를 유도할 수 있다. 유도과정중 "각 소구간 내에는 기껏해야 한개의 사건만이 포함되도록" 이라는 말이 있으며, 그에따라 구간을 매우 잘게 쪼개어 $n\rightarrow \infty\, ,\, p\rightarrow 0$ 를 만족하도록 해주면 이항 분포의 $pdf$를 통해 포아송 분포의 $pdf$를 유도할 수 있다. 관심있는 사람은 찾아보길 바란다!

 

참고한 책

나종화 (2012). 수리통계학. 자유아카데미

 

'수리통계학' 카테고리의 다른 글

검정력과 검정력 함수에 대해  (0) 2020.03.30
기댓값과 표본평균  (0) 2020.02.25
확률분포와 기댓값  (0) 2020.02.16

댓글