❗️블로그 옮김: https://www.taemobang.com
방태모
안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계
www.taemobang.com
몸무게, 키 등과 같이 연속적인 숫자로 분포하는 연속형 확률변수가 아닌 이산형 확률변수(e.g. 교통사고 건수)가 가지는 분포에 대해 알아보고자 한다.
1. 균일 분포(Uniform distribution of discrete type)
확률변수 X가 n개의 이산값 {x1,x2,⋯,xn}을 가지며 각 값들이 취할 확률이 동일한 경우, 이 확률변수는 이산형 균일분포를 따른다. 기호로는 X ~ Uniform{x1,x2,⋯,xn}와 같이 표시한다.
2. 베르누이 분포(Bernoulli distribution)
먼저 베르누이 시행(Bernoulli trial)에 대해 알 필요가 있다. 베르누이 시행이란 확률 실험의 결과가 성공(S) 혹은 실패(F)와 같이 두가지 결과로만 나타나는 실험을 말한다. 확률변수 X를 1회 베르누이 시행에서 성공의 수라고 정의하면, 이 확률변수는 베르누이 분포를 따른다. 성공확률이 p인 베르누이 분포를 따르는 확률변수 X는 기호로 X ~ B(p)와 같이 표시한다.
3. 이항 분포(Binomial distribution)
베르누이 시행을 독립적으로(independently) 반복해나가는 실험에서, 확률변수 X를 독립적인 베르누이 시행에서 성공의 수라고 정의하면 이 확률변수는 이항 분포를 따른다. 성공확률이 p이고, 시행 횟수가 n인 이항 분포를 따르는 확률변수 X는 기호로 X ~ B(n,p)와 같이 표시한다.
4. 초기하 분포(Hypergeometric distribution)
속성 A(i.e. 불량품)가 D개 포함된 "유한" 모집단 N개로 부터 n개를 단순임의"비복원" 추출을 할 때, 확률변수 X를 속성 A의 수(i.e. 불량품의 수)라고 정의하면 이 확률변수는 초기하분포를 따른다. 기호로는 X ~ Hyper(N,n,D) 와 같이 표시한다. 참고로, 유한 모집단의 개수 N이 충분히 크면 초기하 분포는 이항분포로 근사하게 된다.
5. 기하 분포(Geometric distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 X를 첫번째 성공이 발생할 때 까지 총 시행횟수라고 정의하면 이 확률변수는 기하분포를 따른다. 성공확률이 p인 기하 분포를 따르는 확률변수 X는 기호로 X ~ G(p)와 같이 나타낸다. 직관적으로 Pr(X=1) 일 때 가장 높은 확률을 가진다. 또한 기하분포는 무기억성(memoryless property)을 가지는 분포중 하나이다. 무기억성은 수식으로 아래와 같이 표현할 수 있다.
Pr(X>i+j|X>i)=Pr(X>j)
식을 보고 조금만 생각해보면, 무기억성이 어떤 성질인지 알 수 있다. | 기호는 통계학에서 조건부 분포를 표현할 때 쓰는 기호이며, 예를 들어 Pr(X|Y)는 Probability X given Y라고 읽는다. Y가 주어졌을 때, X의 분포다. 즉 위 기하분포의 무기억성이 의미하는 바는 i번 성공을 한 후에, j번 더 성공할 확률은 결국 j번 성공을 할 확률과 동일하다는 것이다.
6. 음이항 분포(Negative Binomial distribution)
베르누이 시행을 독립적으로 반복해나가는 실험에서, 확률변수 X를 r번째 성공이 발생할 때까지 총 시행횟수라고 정의하면 이 확률변수는 음이항분포를 따른다. 기호로는 X ~ NB(r,p)로 나타낸다. r번째 성공이 발생할 때까지 총 시행횟수가 아닌 총 실패횟수로 정의하는 경우도 있으며, 총 실패횟수로 정의하는 경우에 이항분포의 성공확률 p가 음이항분포의 pdf꼴에서 −p로 들어가서 음이항 분포라는 이름이 붙은것 같다. 궁금한 사람은 찾아보길 바란다.
7. 포아송 분포(Poisson distribution)
3가지 포아송가정(독립성, 비례성, 비집락성)을 만족하는 실험에서 크기가 1인 단위시간(또는 단위공간)내에 평균적으로 발생하는 사건의 수를 λ라고 할 때, 확률변수 X를 단위시간당(또는 단위공간당) 발생하는 사건의 수로 정의하면 이 확률변수는 포아송 분포를 따른다. 기호로는 X ~ Poisson(λ)로 나타낸다. 어떤 단위시간이나 단위공간내에서 사건이 몇번정도 일어나는지 아는데, 내가 원하는 구간동안에 몇 번일어나는지 알고싶은 경우에 필요한 분포이다.
포아송 분포를 설명하는 것에 앞서 언급한 포아송 가정이란 다음의 세 가지를 말한다.
(1) 독립성 : 서로 다른 구간(non-overlapping intervals)에서 발생하는 사건의 수는 서로 독립이다.
(2) 비례성 : 충분히 짧은 구간에서 사건이 발생할 확률은 구간의 길이에 비례한다.
(3) 비집락성 : 충분히 짧은 구간에서 2회 이상의 사건이 발생할 확률은 거의 없다.
이항분포는 평균(np)이 분산(npq)보다 큰 값을 가지는 반면, 포아송 분포는 평균(λ)과 분산(λ)이 동일한 값을 가지며 평균이 커짐에 따라 분산도 함께 커지는 특징을 가진다. 또한 포아송 분포는 사실 이항 분포의 특별한 경우에 해당한다. 충분히 큰 n과 충분히 작은 p를 가진 이항분포(n→∞,p→0)는 (λ=np)인 포아송 분포로 근사한다. 즉, 다시말하면 실패할 가능성이 매우 높은 것을 아주 많이 시행하는 경우를 다룬것이다. 위와 같은 가정으로 이항분포의 pdf를 통해 포아송 분포의 pdf를 유도할 수 있다. 유도과정중 "각 소구간 내에는 기껏해야 한개의 사건만이 포함되도록" 이라는 말이 있으며, 그에따라 구간을 매우 잘게 쪼개어 n→∞,p→0 를 만족하도록 해주면 이항 분포의 pdf를 통해 포아송 분포의 pdf를 유도할 수 있다. 관심있는 사람은 찾아보길 바란다!
참고한 책
나종화 (2012). 수리통계학. 자유아카데미
'수리통계학' 카테고리의 다른 글
검정력과 검정력 함수에 대해 (0) | 2020.03.30 |
---|---|
기댓값과 표본평균 (0) | 2020.02.25 |
확률분포와 기댓값 (0) | 2020.02.16 |
댓글