Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기
수리통계학

이산형 확률분포

by be-favorite 2020. 2. 17.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

몸무게, 키 등과 같이 연속적인 숫자로 분포하는 연속형 확률변수가 아닌 이산형 확률변수(e.g. 교통사고 건수)가 가지는 분포에 대해 알아보고자 한다.

1. 균일 분포(Uniform distribution of discrete type)
확률변수 X가 n개의 이산값 {x1,x2,,xn}을 가지며 각 값들이 취할 확률이 동일한 경우, 이 확률변수는 이산형 균일분포를 따른다. 기호로는 X ~ Uniform{x1,x2,,xn}와 같이 표시한다.

2. 베르누이 분포(Bernoulli distribution)
먼저 베르누이 시행(Bernoulli trial)에 대해 알 필요가 있다. 베르누이 시행이란 확률 실험의 결과가 성공(S) 혹은 실패(F)와 같이 두가지 결과로만 나타나는 실험을 말한다. 확률변수 X를 1회 베르누이 시행에서 성공의 수라고 정의하면, 이 확률변수는 베르누이 분포를 따른다. 성공확률이 p인 베르누이 분포를 따르는 확률변수 X는 기호로 X ~ B(p)와 같이 표시한다.

3. 이항 분포(Binomial distribution)
베르누이 시행을 독립적으로(independently) 반복해나가는 실험에서, 확률변수 X를 독립적인 베르누이 시행에서 성공의 수라고 정의하면 이 확률변수는 이항 분포를 따른다. 성공확률이 p이고, 시행 횟수가 n인 이항 분포를 따르는 확률변수 X는 기호로 X ~ B(n,p)와 같이 표시한다.

4. 초기하 분포(Hypergeometric distribution)
속성 A(i.e. 불량품)가 D개 포함된 "유한" 모집단 N개로 부터 n개를 단순임의"비복원" 추출을 할 때, 확률변수 X를 속성 A의 수(i.e. 불량품의 수)라고 정의하면 이 확률변수는 초기하분포를 따른다. 기호로는 X ~ Hyper(N,n,D) 와 같이 표시한다. 참고로, 유한 모집단의 개수 N이 충분히 크면 초기하 분포는 이항분포로 근사하게 된다.

5. 기하 분포(Geometric distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 X를 첫번째 성공이 발생할 때 까지 총 시행횟수라고 정의하면 이 확률변수는 기하분포를 따른다. 성공확률이 p인 기하 분포를 따르는 확률변수 X는 기호로 X ~ G(p)와 같이 나타낸다. 직관적으로 Pr(X=1) 일 때 가장 높은 확률을 가진다. 또한 기하분포는 무기억성(memoryless property)을 가지는 분포중 하나이다. 무기억성은 수식으로 아래와 같이 표현할 수 있다.

Pr(X>i+j|X>i)=Pr(X>j)

식을 보고 조금만 생각해보면, 무기억성이 어떤 성질인지 알 수 있다. | 기호는 통계학에서 조건부 분포를 표현할 때 쓰는 기호이며, 예를 들어 Pr(X|Y)는 Probability X given Y라고 읽는다. Y가 주어졌을 때, X의 분포다. 즉 위 기하분포의 무기억성이 의미하는 바는 i번 성공을 한 후에, j번 더 성공할 확률은 결국 j번 성공을 할 확률과 동일하다는 것이다.

6. 음이항 분포(Negative Binomial distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 X를 r번째 성공이 발생할 때까지 총 시행횟수라고 정의하면 이 확률변수는 음이항분포를 따른다. 기호로는 X ~ NB(r,p)로 나타낸다. r번째 성공이 발생할 때까지 총 시행횟수가 아닌 총 실패횟수로 정의하는 경우도 있으며, 총 실패횟수로 정의하는 경우에 이항분포의 성공확률 p가 음이항분포의 pdf꼴에서 p로 들어가서 음이항 분포라는 이름이 붙은것 같다. 궁금한 사람은 찾아보길 바란다.

7. 포아송 분포(Poisson distribution)
3가지 포아송가정(독립성, 비례성, 비집락성)을 만족하는 실험에서 크기가 1인 단위시간(또는 단위공간)내에 평균적으로 발생하는 사건의 수를 λ라고 할 때, 확률변수 X를 단위시간당(또는 단위공간당) 발생하는 사건의 수로 정의하면 이 확률변수는 포아송 분포를 따른다. 기호로는 X ~ Poisson(λ)로 나타낸다. 어떤 단위시간이나 단위공간내에서 사건이 몇번정도 일어나는지 아는데, 내가 원하는 구간동안에 몇 번일어나는지 알고싶은 경우에 필요한 분포이다. 

포아송 분포를 설명하는 것에 앞서 언급한 포아송 가정이란 다음의 세 가지를 말한다.

(1) 독립성 : 서로 다른 구간(non-overlapping intervals)에서 발생하는 사건의 수는 서로 독립이다.
(2) 비례성 : 충분히 짧은 구간에서 사건이 발생할 확률은 구간의 길이에 비례한다.
(3) 비집락성 : 충분히 짧은 구간에서 2회 이상의 사건이 발생할 확률은 거의 없다.

이항분포는 평균(np)이 분산(npq)보다 큰 값을 가지는 반면, 포아송 분포는 평균(λ)과 분산(λ)이 동일한 값을 가지며 평균이 커짐에 따라 분산도 함께 커지는 특징을 가진다. 또한 포아송 분포는 사실 이항 분포의 특별한 경우에 해당한다. 충분히 큰 n과 충분히 작은 p를 가진 이항분포(n,p0)는 (λ=np)인 포아송 분포로 근사한다. 즉, 다시말하면 실패할 가능성이 매우 높은 것을 아주 많이 시행하는 경우를 다룬것이다. 위와 같은 가정으로 이항분포의 pdf를 통해 포아송 분포의 pdf를 유도할 수 있다. 유도과정중 "각 소구간 내에는 기껏해야 한개의 사건만이 포함되도록" 이라는 말이 있으며, 그에따라 구간을 매우 잘게 쪼개어 n,p0 를 만족하도록 해주면 이항 분포의 pdf를 통해 포아송 분포의 pdf를 유도할 수 있다. 관심있는 사람은 찾아보길 바란다!

 

참고한 책

나종화 (2012). 수리통계학. 자유아카데미

 

'수리통계학' 카테고리의 다른 글

검정력과 검정력 함수에 대해  (0) 2020.03.30
기댓값과 표본평균  (0) 2020.02.25
확률분포와 기댓값  (0) 2020.02.16

댓글