본문 바로가기
Etc

#2 통계적 가설검정의 원리

by be-favorite 2020. 3. 28.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

먼저 통계적 가설검정의 원리를 이해하기 위해서는 다음의 3가지 요소가 필요하다.

 

  1) 가설

  대립가설($H_1$, alternative hypothesis)은 우리가 주장하고자 하는 가설이며, 귀무가설($H_0$, null hypothesis)은 우리가 기각시키길 원하는 가설이다.

  2) 검정통계량(test statistics)

  가설검정의 기준이 되는 통계량이며, 관측 자료(데이터)로부터 측정한다. 검정통계량의 관측값을 어떤 사람은 "데이터가 가진 귀무가설이 틀렸다는 증거량" 이라고도 표현하는데, 이는 이 글을 끝까지 읽고 이해하면 자연스럽게 받아들일 수 있다.

  3) 검정통계량의 귀무가설 하에서의 분포[각주:1]

 

  설명의 편의상, 앞으로의 모든 설명과 그림은 평균이 $\mu$이고 분산이 $\sigma^2$인 정규모집단으로 부터의 확률표본(random sample)에 기초한 모평균($\mu$)에 대한 우단측 검정을 기준으로 한다. 즉:

 

$H_0 : \mu \leq \mu_0\;\; vs \;\; H_1 : \mu > \mu_0$

 

통계적 가설검정의 방법에는 크게 2가지가 있다.

 

1 유의수준을 이용한 검정

유의수준(significance level) $\alpha$는 우리가 귀무가설을 틀렸다고 주장할 수 있는 기준값을 제공해주며, 유의수준을 이용한 검정이란, 이 기준값과 검정통계량 관측값을 비교하는 검정법을 말한다. 이 기준값보다 크면 귀무가설을 기각시킬 수 있다고 통계적으로 주장할 수 있다. 참고로, "가설 검정 시 귀무가설을 기각할만한 충분한 증거를 얻었다."라고 표현하는 것이 좋다. 귀무가설을 기각시켰다고 해서, "대립가설이 옳다."라는 표현은 해서는 안되며 지양해야 한다. 유의수준 $\alpha$는 귀무가설이 참인 상황에 이를 기각시키는 오류인 1종 오류의 최대 허용치를 말한다. 즉, 유의수준 $\alpha$인 검정은 귀무가설을 기각시킨 결정이 잘못됐을 가능성을 (100*$\alpha$)%만큼 허용해주는 검정을 수행하는 것이다.

 

2 유의확률을 이용한 검정

출처 - https://sciencebasedmedicine.org/tag/p-value/

 

검정통계량의 귀무가설 하의 분포에서, 검정통계량의 값보다 큰 면적이 바로 유의확률(이하 p-value)이다. p-value를 이용한 검정 방법은 유의수준을 이용한 검정방법보다 선호된다. p-value는 사실 사람마다 조금씩 다르게 정의할 수도 있다. 그래서 헷갈리지 않기 위해서는 자기만의 정확한 정의와 이해가 필요로 된다. 예를 들어 단순한 정의는 검정통계량의 값보다 극단값(여기선 우단측 검정이므로 더 큰 값)이 나올 확률이다. p-value를 정의하는 수식을 그냥 읽는 행위에 불과한 이러한 정의는, 정작 이 값이 왜 중요하고 왜 작을수록 귀무가설을 기각할 수 있을지를 알려주지 않는다. 그래서 내가 좋아하고 좀 더 직관적인 표현이라고 생각하는 p-value에 대한 정의는 "귀무가설을 기각하게 되는데, 그 주장이 잘못됐을 확률" 이다. "검정통계량 값보다 더 극단값이 나올 확률"과 같은 정의는 p-value가 갖는 의미를 전혀 내포하지 않고 있기때문에, 지양해야한다고 생각한다. 이제 다시 처음에 말했던 가설검정의 원리 설명에 필요한 3요소를 떠올리며 상술한 p-value의 직관적인 해석에 대한 근거를 찾자.

 

먼저 가설이 필요하다. 앞서 가정했듯, 지금은 모평균에 대한 우단측 검정을 수행하는 것이므로, 모평균이 어떤 값보다 큰가? 에대해 검정하고 싶다고 하자. 모평균 $\mu$의 검정 시 우리는 검정통계량으로 $\bar{X}$를 쓴다. 검정통계량의 관측값은 관측자료로 부터 측정할 수 있다. 즉, 모평균 검정시 자료값들의 평균이 검정통계량 관측값이 된다. 근데 검정통계량은 결국 "통계량(statistics)"이므로 확률변수의 일종 즉, 분포를 가진다(이는 직관적으로도 당연한 얘기다. 왜냐하면 모집단으로 부터 표본을 추출하면 그 표본 값들(관측값들)은 항상 다르고 그에따라 표본평균도 항상 다를거니까) 이런 불확실한 상황에서 필요로 되는 것이 바로 분포(distribution)이다. 그래서 통계학에서는 항상 분포에 대한 가정을 통해서 모집단을 추론한다.[각주:2]

 

그래서, 검정을 위해서는 검정통계량의 분포가 필요하며, 이를 우리는 귀무가설이 참이라는 가정하에 구한다. 즉: 

 

$\textrm{test statistics} = \bar{X}$

$\bar{X} \overset{under H_0}{\widetilde{d}} N(\mu_0, \frac{\sigma^2}{n})$

 

가설을 쓸 때 귀무가설에 =을 붙이나, 대립가설에 =을 붙이나 헷갈려 하는 사람들이 많다. 우리는 귀무가설이 참이라는 가정하에 검정통계량 분포를 구하므로, 당연히 귀무가설에 $=$를 붙이는 것이 맞다.

 

어쨋든 위 검정통계량을 표준화 시키면 우리가 알던 흔한 모평균 검정시의 검정통계량 $Z$가 나온다. 모분산을 모르면 $s^2$을 이용한 t-test를 수행하면 되고 뭐 이런 잡다한 설명은 지금 가설검정의 원리가 중요하므로 넘어간다.

 

$Z = \frac{\bar{X} - \mu_0}{s/\sqrt{n}} \overset{under H_0}{\widetilde{d}} N(0, 1)$

 

자, 이제 관측 값으로부터 검정통계량의 분포를 구했고 표준화까지 하였으므로 검정을 수행할 준비가 완료됐다. 이때 검정통계량 값이 4라 치자. 이에 따라 p-value는 이 보다 극단값이 나올 확률이므로 다음과 같이 정의할 수 있다:

 

$\textrm{Pr}\left ( Z > 4 \;| H_0 \textrm{  is true} \right ) < 0.01$

 

p-value가 위와 같이 매우 작은 값이 나왔다고 하자. 그럼 우리는 귀무가설을 기각시킬 수 있으며, 그 주장이 잘못될 확률은 1% 미만이라고 주장할 수 있다. 왜 이런 해석이 가능할까? 검정통계량의 분포는 귀무가설이 참이라는 가정하에 구한 것이다. 즉, p-value는 모집단의 분포가 귀무가설하의 검정통계량 분포와 같다고 가정하고 "그래서 데이터로 부터 측정한 값(검정통계량)보다 큰 값이 나올 확률이 얼마나 될거같아?" 하고 측정한 것이다. 그래서 p-value가 0.01%미만이라는 얘기는 관측된 표본이 귀무가설하의 분포로 부터 나왔늘 가는성이 1%미만임을 뜻하며, 동시에 "귀무가설을 기각할 건데, 그 주장이 잘못될 가능성은 0.01% 미만이야." 라는 해석이 가능한 것이다. 이러한 이유로 p-value를 이용한 검정은 유의수준 $\alpha$를 이용한 검정과 달리 기준값(0.05, 0.1, 0.01과 같은)이 필요없으며 더 유연하고, 선호된다.

 

위 내용들을 잘 이해하면, 수많은 통계적 가설검정의 검정통계량 식을 기억하는 것도 수월하며, p-value를 만나도 두렵지 않다. 그리고 통계학에서 왜 그렇게 모집단 분포에 대한 가정을 하는지에 대한 이유 중 하나를 알 수 있다. 검정에 필수적이니까. 분포의 가정 없이는 검정 수행 자체가 불가능하다. 그래서 분산분석에서도 정규 모집단, 회귀분석에서 정규 모집단을 가정하는 것이다.

 


  1. under $H_0$ 즉, 귀무가설이 참이라는 전제하게 구한 검정통계량의 분포 [본문으로]
  2. 모집단이 딱 어떤 분포라고 알려진 경우는 실제로 거의 없으므로 [본문으로]

댓글