본문 바로가기
Etc

#10 중심극한정리의 의미

by be-favorite 2021. 1. 10.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

통계학에서 중심극한정리(Central Limit Theorem, CLT)가 중요한 이유와 그 의미에 대해 생각해보자. 먼저, 수식은 배제한채 중심극한정리를 정의해보면 다음과 같다:

 


평균이 $\mu$, 분산은 $\sigma^2$인 임의의 모집단 분포를 갖는 확률표본(random sample)들이 있을 때, 표본 크기 $n$이 충분히 크면($n \geq 30)$

이 확률표본들의 표본평균 $\bar{X}$의 분포는 평균이 $\mu$이고 분산이 $\frac{\sigma^2}{n}$인 정규분포로 근사한다.


즉, 중심극한정리는 표본평균 $\bar{X}$의 분포에 관한 정리라고 할 수 있다. 그리고, 표본평균의 분포수렴(convergence in distribution)에 관한 정리라고도 할 수 있으며, 외람된 말이지만 수리통계학을 공부해본 사람들이 한번쯤은 들어봤을 법 한 약대수의 법칙(Weak Low of Large Numbers theorem, WLLN) 또한 표본평균에 관한 정리이며, 표본평균의 확률수렴(convergence in probability)에 관한 내용이라 할 수 있다.

 

다시 본론으로 돌아가서, 통계학에서 이러한 중심극한정리의 중요성이 강조되는 이유는 뭘까? 그것은 추론(Inference)에 있다고 생각한다. 알다시피, 수많은 종류의 통계적 가설검정의 대부분은 정규 모집단(정규분포를 따르는 모집단)을 가정한 확률표본들의 표본평균을 기반으로 하는 검정통계량(e.g. $t$-검정, $z$-검정, $\chi^2$-검정, $F$-검정)으로 진행된다. 즉, 정규분포에 기반한 표본분포(e.g. $t$-분포, $\chi^2$-분포, $F$-분포)를 갖는 통계량으로 검정을 수행하며, 이러한 상황에서 중심극한정리는 힘을 발휘한다. 만약, 어떤 통계적 가설검정에서 집단이 하나 또는 둘 이상일 때 각 집단의 표본 크기가 충분히 크면($n \geq 30$), 우리는 중심극한정리에 의해 정규 모집단으로부터의 확률표본임을 보장받은 채로 검정을 수행할 수 있다. 이러한 이유에서 추론 통계학(inferential statistics)에서 중심극한정리가 갖는 의미는 크다고 할 수 있다.

 

아울러, 중심극한정리가 중요한 또 하나의 이유는 표본평균 $\bar{X}$를 모평균 $\mu$의 추정량(estimator)으로 쓸 수 있는 근거를 마련해주기 때문이기도 하다. 추정량이 가질 수 있는 바람직한 성질 4가지(불편성, 일치성, 유효성, 충분성) 중 일치성(consistency)을 만족하지 못하는 경우, 통계적 성질을 갖기 힘든 추정량이라고 할 수 있는데 중심극한정리는 표본평균이 일치성을 갖는 추정량임을 보장해준다. 중심극한정리에서 표본 크기 $n$을 무한대로 근사시키면 분산이 0으로 수렴하므로 극단적으로 봤을 때 표본평균의 분포는 모평균($\mu$) 값에서 확률이 1인 수직선을 갖는 분포의 형태를 띠기 때문이다. 이러한 분포의 형태를 통계학에서는 퇴화분포(degenerate distribution)라고 부르며, 이는 곧 약대수의 법칙에 관한 내용이기도 하다(즉, 상수로의 분포수렴은 확률수렴과 동치). 정리하면, 중심극한정리와 약대수의 법칙은 모평균을 추정하는 데에 있어서 표본평균을 추정량으로 이용하는 것의 매우 합리적인 근거라 할 수 있다.

 

이번 글에서는 통계학에서 중심극한정리가 갖는 의미와 그 중요성이 강조되는 이유에 대해서 2가지 관점(통계적 가설검정, 바람직한 추정량)에서 써보았다. 수리통계학을 공부하지 않은 경우 위에서 길게 설명한 의미와 중요성의 근거들을 이해하기 어려울 수도 있다고 생각한다. 혹시, 이해가 잘 안된 부분이 있다면 언제든지 댓글을 남겨주시길 바란다. 이 글이 중심극한정리의 중요성과 핵심에 대해 고민해봤던 사람들에게 조금이나마 도움이 됐으면 좋겠다.

'Etc' 카테고리의 다른 글

#9 대립가설이 옳다?  (0) 2020.12.31
#8 표준편차와 표준오차  (3) 2020.04.16
#7 자유도  (0) 2020.04.16
#6 선형대수를 이용한 주성분 유도  (0) 2020.04.10
#5 머신러닝 용어 정리  (0) 2020.04.09

댓글