본문 바로가기
Etc

#4 구간추정 해석에 대한 고전적 관점과 베이지안 관점

by be-favorite 2020. 4. 7.

 

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

 

 Prerequisite

기댓값 E(X)와 표본평균에 대해

 

신뢰구간(confidence interval)의 해석에 있어서 고전적인 관점[각주:1]과 베이지안 관점(bayesian Inference)의 차이에 대해 알아보자. 통계학의 추론에는 점추정(point estimation)과 구간 추정(interval estimation)이 있다. 점추정은 모집단의 모수를 하나의 값으로 추정하며, 구간 추정은 모수를 구간으로 추정한다. 일반적으로 사람들이 구간 추정의 해석을 할 때 "임의의 모수 $\theta$(i.e. 모평균 $\mu$)에 대한 100*(1-$\alpha$)% 신뢰구간"은 "임의의 모수 $\theta$(i.e. 모평균 $\mu$)가 해당 구간에 포함될 확률이 100(1-$\alpha$)%"임을 나타낸다고 생각한다. 이는 직관과 일치하는 해석이지만 안타깝게도 이는 베이지안의 사후분포를 통해 구한 신뢰구간에 대한 해석이지, 고전적 추론(통계학의 Frequentist inference)을 통한 신뢰구간에서는 이러한 해석이 불가능하다. 이제 그 이유를 알아보자. 설명의 편의를 위해 하나의 예제가 필요하다.

 

$X_1, X_2, \cdots, X_{16} \sim N(\theta, 4)$

 

위와 같은 정규모집단으로부터 16개의 표본을 추출했으며, 이때 표본평균 관측값 $\bar{x} = 0.3$이였다. 또한 우리는 $\bar{X}$는 평균이 $\theta$이고, 분산이 $\frac{1}{4}$인 정규분포를 따름을 알 수 있다.

 

1 베이지안 관점의 구간추정

베이지안에서는 사후분포(posterior)를 기반으로 모든 추론을 수행하며, 기본적으로 $\theta$를 상수가 아닌 변수로 취급한다(즉 $\theta$는 랜덤이며 분포를 고려해야함). 베이지안의 구간추정법 중, 최대사후구간(HPD interval : Highest Posterior Density Interval)으로 설명한다. HPD란, 주어진 신뢰도를 만족하는 베이지안 구간중 최대한 사후밀도함수(posterior의 density) 값이 높은 $\theta$를 모아놓은 구간을 말한다. 사후밀도함수 값이 높은 $\theta$를 많이 포함할수록 당연히 신뢰구간 길이가 짧아지며, 이는 $\theta$에 대한 더 정확한 추정을 했음을 의미한다. 예제의 $\theta$에 대한 95% 최대사후구간을 구해보자. 이를 위해서는 먼저 사후분포를 유도해야 한다. likelihood $\theta\;|\;\bar{x}$의 분포는 앞서 예제의 설명에서 구했으며, $\theta$에 대한 prior로 무정보 사전분포 $\pi(\theta)=1$을 가정한다. prior와 likelihood $\theta\;|\;\bar{x} \sim N(\theta, \frac{1}{4})$로 사후분포를 유도하면 다음과 같다:

 

$\pi(\theta \; | \; \bar{x}) \propto f(\bar{x} \;|\; \theta)*\pi(\theta) \propto \frac{1}{\sqrt{2\pi}*0.25}e^{-\frac{1}{2*0.25} (0.3 - \theta)^2} \propto e^{-\frac{1}{2*0.25} (\theta - 0.3)^2}$

 

즉 $\theta | \bar{x} \sim N(0.3, \frac{1}{4})$. 사후분포를 구했으므로, 이제 95% HPD 신뢰구간을 계산할 수 있다. 정규분포는 단봉이며 좌우대칭이므로:

 

$0.3 \pm Z_{1-\alpha/2}*sd(\theta | \bar{x}) = 0.3 \pm 1.96*0.5 = (-0.68, 1.28)$

 

이렇게 구해지는 95% HPD 신뢰구간은 $\theta$가 (-0.68, 1.28)에 속할 확률은 95%라는 직관과 일치하는 해석이 가능하다. 수식으로 쓰면 $P(\theta \in 0.3 \pm 1.96*0.05\; | \; x) = 0.95$라는 뜻이다.

 

2 고전적인 관점의 구간 추정

고전적인 관점의 추론에서는 모수 $\theta$는 상수이며, 표본이 랜덤이다. 그래서 항상 확률표본(r.s. : random sample)이라는 용어를 쓰는 것이다. 고전적인 관점의 95% 신뢰구간은 $\bar{X}$의 분포를 통해 쉽게 구할 수 있으며, 정규분포라는 이유로 베이지안의 HPD 구간과 일치하지만 해석은 매우 다르다.

 

$\bar{x} \pm Z_{1-\alpha/2}*sd(\bar{X}) = 0.3 \pm 1.96*0.5 = (-0.68, 1.28)$

 

여기서는 $\theta$를 상수로 취급하므로 구간 (-0.68, 1.28)에 속할 확률은 0 또는 1이 된다. 그럼 고전적 추론의 95% 신뢰수준은 대체 어떻게 해석을 해야하는가? 만약 우리가 관측치 $X_1, \cdots, X_{16}$을 얻고 이로부터 $\bar{X} \pm 1.96*0.5$의 공식을 사용해 신뢰구간을 구하는 작업을 무수히 많이 반복하면, 무수히 많은 신뢰구간을 얻을 수 있다. 그 중 95%는 $\theta$를 포함하고, 나머지 신뢰구간을 포함하지 않을 것이라는 의미이다. 즉 95% 신뢰계수는 신뢰구간을 구하는 공식 $\bar{X} \pm 1.96*0.5$에 결부된 확률이며, 현재 우리에게 주어진 (-0.68, 1.28) 구간이 $\theta$를 포함하는지 아닌지는 알 수 없다. 이처럼 고전적 신뢰구간의 해석은 복잡할 뿐더러 우리의 일반적인 직관에도 반하는 결과이다. 고전적 통계추론의 신뢰구간 해석에 대해 설명하기 위해 많은 시간을 들이지만 여전히 많은 사람들이 $\theta$가 (-0.68, 1.28)에 속할 확률이 95%라고 해석하고 있다.

 

위와 같은 해석의 문제가 발생하는 근본적인 이유는, 고전적 통계추론에서 추론의 적합성을 측정하는 측도들은 변수 $X$의 함수(고전적 추론의 변수는 모수가 아닌 표본)에 대한 기댓값에 기초하기 때문이다. 예를 들어 분산은 모든 가능한 $X$값에 대하여 적분이나 합의 형식을 취한 것이다. 따라서 어떤 특정한 관측치에 의존하는 것이 아닌 모든 가능한 관측치들을 고려한 것이다. 이는 표본을 랜덤으로 취급하므로 어쩔 수 없는 추정의 방식이다. 다시 말하면, 현재 주어진 관측치가 아닌 실험이나 표본조사를 무한히 반복했을 때 발생할 수 있는 가능한 모든 관측치들을 고려하여 얻어지는 것들이다. 이러한 기법은 현재 주어진 관측치에만 의존하는 베이지안 통계추론과는 상반되며, 이를 "빈도론자(frequentist) 통계추론"이라고 한다.

 

📝 참고 문헌

[1] 오만숙(2017). 베이지안 통계추론. 자유아카데미


  1. 통계학의 frequentist inference [본문으로]

'Etc' 카테고리의 다른 글

#6 선형대수를 이용한 주성분 유도  (0) 2020.04.10
#5 머신러닝 용어 정리  (0) 2020.04.09
#3 다중 검정  (0) 2020.03.30
#2 통계적 가설검정의 원리  (0) 2020.03.28
#1 Data Scientist? - 통계학 전공자의 역할  (2) 2020.02.16

댓글