❗️블로그 옮김: https://www.taemobang.com
❗ Prerequisite
신뢰구간(confidence interval)의 해석에 있어서 고전적인 관점과 베이지안 관점(bayesian Inference)의 차이에 대해 알아보자. 통계학의 추론에는 점추정(point estimation)과 구간 추정(interval estimation)이 있다. 점추정은 모집단의 모수를 하나의 값으로 추정하며, 구간 추정은 모수를 구간으로 추정한다. 일반적으로 사람들이 구간 추정의 해석을 할 때 "임의의 모수 $\theta$(i.e. 모평균 $\mu$)에 대한 100*(1-$\alpha$)% 신뢰구간"은 "임의의 모수 $\theta$(i.e. 모평균 $\mu$)가 해당 구간에 포함될 확률이 100(1-$\alpha$)%"임을 나타낸다고 생각한다. 이는 직관과 일치하는 해석이지만 안타깝게도 이는 베이지안의 사후분포를 통해 구한 신뢰구간에 대한 해석이지, 고전적 추론(통계학의 Frequentist inference)을 통한 신뢰구간에서는 이러한 해석이 불가능하다. 이제 그 이유를 알아보자. 설명의 편의를 위해 하나의 예제가 필요하다. 1
$X_1, X_2, \cdots, X_{16} \sim N(\theta, 4)$
위와 같은 정규모집단으로부터 16개의 표본을 추출했으며, 이때 표본평균 관측값 $\bar{x} = 0.3$이였다. 또한 우리는 $\bar{X}$는 평균이 $\theta$이고, 분산이 $\frac{1}{4}$인 정규분포를 따름을 알 수 있다.
1 베이지안 관점의 구간추정
베이지안에서는 사후분포(posterior)를 기반으로 모든 추론을 수행하며, 기본적으로 $\theta$를 상수가 아닌 변수로 취급한다(즉 $\theta$는 랜덤이며 분포를 고려해야함). 베이지안의 구간추정법 중, 최대사후구간(HPD interval : Highest Posterior Density Interval)으로 설명한다. HPD란, 주어진 신뢰도를 만족하는 베이지안 구간중 최대한 사후밀도함수(posterior의 density) 값이 높은 $\theta$를 모아놓은 구간을 말한다. 사후밀도함수 값이 높은 $\theta$를 많이 포함할수록 당연히 신뢰구간 길이가 짧아지며, 이는 $\theta$에 대한 더 정확한 추정을 했음을 의미한다. 예제의 $\theta$에 대한 95% 최대사후구간을 구해보자. 이를 위해서는 먼저 사후분포를 유도해야 한다. likelihood $\theta\;|\;\bar{x}$의 분포는 앞서 예제의 설명에서 구했으며, $\theta$에 대한 prior로 무정보 사전분포 $\pi(\theta)=1$을 가정한다. prior와 likelihood $\theta\;|\;\bar{x} \sim N(\theta, \frac{1}{4})$로 사후분포를 유도하면 다음과 같다:
$\pi(\theta \; | \; \bar{x}) \propto f(\bar{x} \;|\; \theta)*\pi(\theta) \propto \frac{1}{\sqrt{2\pi}*0.25}e^{-\frac{1}{2*0.25} (0.3 - \theta)^2} \propto e^{-\frac{1}{2*0.25} (\theta - 0.3)^2}$
즉 $\theta | \bar{x} \sim N(0.3, \frac{1}{4})$. 사후분포를 구했으므로, 이제 95% HPD 신뢰구간을 계산할 수 있다. 정규분포는 단봉이며 좌우대칭이므로:
$0.3 \pm Z_{1-\alpha/2}*sd(\theta | \bar{x}) = 0.3 \pm 1.96*0.5 = (-0.68, 1.28)$
이렇게 구해지는 95% HPD 신뢰구간은 $\theta$가 (-0.68, 1.28)에 속할 확률은 95%라는 직관과 일치하는 해석이 가능하다. 수식으로 쓰면 $P(\theta \in 0.3 \pm 1.96*0.05\; | \; x) = 0.95$라는 뜻이다.
2 고전적인 관점의 구간 추정
고전적인 관점의 추론에서는 모수 $\theta$는 상수이며, 표본이 랜덤이다. 그래서 항상 확률표본(r.s. : random sample)이라는 용어를 쓰는 것이다. 고전적인 관점의 95% 신뢰구간은 $\bar{X}$의 분포를 통해 쉽게 구할 수 있으며, 정규분포라는 이유로 베이지안의 HPD 구간과 일치하지만 해석은 매우 다르다.
$\bar{x} \pm Z_{1-\alpha/2}*sd(\bar{X}) = 0.3 \pm 1.96*0.5 = (-0.68, 1.28)$
여기서는 $\theta$를 상수로 취급하므로 구간 (-0.68, 1.28)에 속할 확률은 0 또는 1이 된다. 그럼 고전적 추론의 95% 신뢰수준은 대체 어떻게 해석을 해야하는가? 만약 우리가 관측치 $X_1, \cdots, X_{16}$을 얻고 이로부터 $\bar{X} \pm 1.96*0.5$의 공식을 사용해 신뢰구간을 구하는 작업을 무수히 많이 반복하면, 무수히 많은 신뢰구간을 얻을 수 있다. 그 중 95%는 $\theta$를 포함하고, 나머지 신뢰구간을 포함하지 않을 것이라는 의미이다. 즉 95% 신뢰계수는 신뢰구간을 구하는 공식 $\bar{X} \pm 1.96*0.5$에 결부된 확률이며, 현재 우리에게 주어진 (-0.68, 1.28) 구간이 $\theta$를 포함하는지 아닌지는 알 수 없다. 이처럼 고전적 신뢰구간의 해석은 복잡할 뿐더러 우리의 일반적인 직관에도 반하는 결과이다. 고전적 통계추론의 신뢰구간 해석에 대해 설명하기 위해 많은 시간을 들이지만 여전히 많은 사람들이 $\theta$가 (-0.68, 1.28)에 속할 확률이 95%라고 해석하고 있다.
위와 같은 해석의 문제가 발생하는 근본적인 이유는, 고전적 통계추론에서 추론의 적합성을 측정하는 측도들은 변수 $X$의 함수(고전적 추론의 변수는 모수가 아닌 표본)에 대한 기댓값에 기초하기 때문이다. 예를 들어 분산은 모든 가능한 $X$값에 대하여 적분이나 합의 형식을 취한 것이다. 따라서 어떤 특정한 관측치에 의존하는 것이 아닌 모든 가능한 관측치들을 고려한 것이다. 이는 표본을 랜덤으로 취급하므로 어쩔 수 없는 추정의 방식이다. 다시 말하면, 현재 주어진 관측치가 아닌 실험이나 표본조사를 무한히 반복했을 때 발생할 수 있는 가능한 모든 관측치들을 고려하여 얻어지는 것들이다. 이러한 기법은 현재 주어진 관측치에만 의존하는 베이지안 통계추론과는 상반되며, 이를 "빈도론자(frequentist) 통계추론"이라고 한다.
📝 참고 문헌
[1] 오만숙(2017). 베이지안 통계추론. 자유아카데미
- 통계학의 frequentist inference [본문으로]
'Etc' 카테고리의 다른 글
#6 선형대수를 이용한 주성분 유도 (0) | 2020.04.10 |
---|---|
#5 머신러닝 용어 정리 (0) | 2020.04.09 |
#3 다중 검정 (0) | 2020.03.30 |
#2 통계적 가설검정의 원리 (0) | 2020.03.28 |
#1 Data Scientist? - 통계학 전공자의 역할 (2) | 2020.02.16 |
댓글