본문 바로가기
실험설계/일원배치법

다중비교 검정법 소개

by be-favorite 2020. 3. 30.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

다중검정

 

다중비교(multiple comparison)의 아이디어는 $c$개의 쌍별비교(pairwise comparison) 전체를 동시검증하는 경우에 대한 제 1종 오류의 확률($\alpha$)를 조절하는 것에 있다(처리가 $t$개 이면, 쌍별비교 개수 $ c = _tC_2 = \frac{t(t-1)}{2}$개). 다중비교에서 가장 중요한 개념은 이러한 오류율의 조절(error-rate control)이라 할 수 있다. 여기서 말하는 오류율에는 두 가지 종류가 있다. 비교별 오류(comparisonwise error rate) $\alpha_0$와 실험별 오류율(experimentalwise error rate) $\alpha$가 그것이다. 예를 들어 3개의 처리에 대해 쌍별비교를 하는데, 오류율의 조절 없이 그냥 단일 가설검정 하듯이 유의수준 0.05로 검정하게되면 비교별 오류율은 $\alpha_0$는 0.05가 되지만, 실험별 오류율 $\alpha$은 14.3%나 된다. 실험별 오류율을 계산하는 식은 다음과 같다.

 

$\alpha = 1-(1-\alpha_0)^t = 1-(1-0.05)^3 = 0.143$

 

다중검정에서 예를 들어 직접 계산해서 나온 값과 동일하다. 쉽게 말해서 비교별 오류율은 개별 검정의 오류율이며, 실험별 오류율은 가설 검정 set 전체의 오류율이다. 중요한건 prerequisite의 글에서 설명되어있는 "다중검정이 왜 필요한가?"에 대한 이해이다. 실험별 오류율 $\alpha$는 처리 개수 $t$가 커짐에 따라 다음 식으로 근사된다.

 

$\alpha \approx t \times \alpha_0$

 

이 식을 $\alpha_0$에 대해 정리하면 본페로니 교정(Bonferroni correction)이 된다.

 

앞으로 소개하는 다중비교 검정은 고정효과 요인들에 대해서만 적법하다. 생각해보면 랜덤효과 요인에는 다중비교 자체가 무의미하다. 왜냐하면 처리효과 자체를 고정된 상수로 다루는것이 아닌, 랜덤으로 다뤄 분포를 가지는 형태로 존재하기 때문이다.  다중비교 검정방법은 많은 종류가 있는데, 어떤게 가장 뛰어나다곤 말하지 못하고 각 검정법이 가지는 특징에 따라 분석자가 상황에 맞게 골라 쓰면 된다.

 

다중비교는 원래 분산분석에서 유의한 결과가 나온 후에 시행하는 것이 자연스럽지만, 대부분의 다중비교 절차들은 사실상 분산분석의 F 검정과 독립적으로 개발되었다. 따라서 F 검정 결과 귀무가설이 기각되지 않은 자료에 대해 다중비교를 하더라도 처리 평균 간에 차이가 있다는 판정이 나올수도 있다. 다시 말해 다중비교는 분산분석에서 귀무가설의 기각 여부에 관계없이 수행할 수 있다.

 

이제 다중비교 검정법 몇 가지를 소개한다(균형자료임을 가정).

 

1. Tukey's HSD(Honestly Significant Difference) test

"honestly significant difference" 직역하면 정직한 유의 차이다. 이름에서 느낄 수 있듯, 매우 보수적인(conservative, 엄격하다고도 표현함) 방법이다. 왠만하면 귀무가설을 기각시키는(처리평균 간에 차이가 유의하다) 결론을 잘 내리지 않는다는 말이다. 처리 I과 처리 II를 비교한다고하면, 검정통계량은 다음과 같이 정의된다.

 

$q = \frac{\left | \bar{Y}_I - \bar{Y}_{II} \right |}{\sqrt{s^2/r}}\; , \textrm{if  } q > q_{\nu, k, \alpha}\;, \; \textrm{reject } H_0$

($s^2$ : MSE, $\nu$ : 오차의 자유도, $k(=t)$ : 처리의 수 , $r$ : 처리내 관측수(반복수), $\alpha$ : 실험별 오류율)

 

2. SNK(Student-Newman-Keuls) test

Tukey와 똑같은 검정통계량을 쓰며, 임계값의 결정 즉, 검정통계량의 분포만 조금 다르다. Tukey보단 덜 보수적인 검정을 수행한다.

 

$q = \frac{\left | \bar{Y}_I - \bar{Y}_{II} \right |}{\sqrt{s^2/r}}\; , \textrm{if  } q > q_{\nu, p, \alpha}\;, \; \textrm{reject } H_0$

($p$ : 검증하려는 평균들의 범위에 포함된 평균 개수)

 

p가 뭐냐면, 예를 들어 처리가 3개인 상황을 생각해보자. 각 처리그룹의 평균들을 오름차순으로 배열한다 즉:

 

$\bar{Y}_{II} < \bar{Y}_{III} < \bar{Y}_{I}$

 

여기서 우리는 처리그룹 $I$과 $II$의 평균차이에 대해 검정통계량을 구한것이므로, "3 평균 차이"이라고 부른다. 여기서 $p$는 3에 해당한다. 일반적으로 "$p$ 평균 차이"라고 한다. 3 평균 차이인 이유는 자기자신들을 포함해 $\bar{Y}_{II}$와 $\bar{Y}_{I}$ 사이에는 총 3개의 평균값들이 존재하기 때문이다.

 

3. Dunnett's test

때로 모든 쌍별에 대한 비교에 관심이 있는것이 아니라, 대조군(control group)과 나머지 처리들간에 비교에만 관심이 있는 경우가 있을 수 있다. 던넷은 이와 같이 대조군과 비교를 하는 다중비교법이다. 즉, $t$개의 처리가 있으면 대조군과 나머지 $(t-1)$개의 처리들을 비교한다. 가설을 표기해보면:

 

$H_0 : \mu_{\textrm{control}} = \mu_i\; vs \; H_1 : \mu_{\textrm{control}} \neq \mu_i$

 

검정통계량은 다음과 같이 주어진다. 기호들이 의미하는 바는 별다른 언급이 없으면 앞서 언급한 것들과 동일하다.

 

$q^` = \frac{\left | \bar{Y}_{\textrm{control}} - \bar{Y}_{I} \right |}{\sqrt{2s^2/r}}\; , \textrm{if  } |q^`| > q^`_{\nu, p, \alpha/2}\;, \; \textrm{reject } H_0$

 

 

참고한 책

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글