본문 바로가기
실험설계/일원배치법

대비와 직교대비에 대해

by be-favorite 2020. 3. 30.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

다중비교 검정

 

1. 대비(Contrast)

대비(contrast)는 많은 다중비교 검정법들의 idea이다. 하나의 예를 들어서 대비를 이해해보자. 회사 $A$, $B$의 살충제가 액체와 분말형태로 각각 존재하고, 이를 처리 $A_1$, $A_2$, $B_1$, $B_2$라 하자. 만일 우리가 $A_1$ 대 $A_2$ 간의 비교에 관심이 있다면 적절한 가설은 다음과 같이 쓸 수 있다.

 

$H_0 : \mu_1 = \mu_2 \; vs \; H_1 : \mu_1 \neq \mu_2$

 

이 경우, $(\mu_1 - \mu_2)$에 대한 추론은 당연히 통계량(확률변수들의 선형결합) $+\bar{Y}_{1.} - \bar{Y}_{2.}$을 기초로 진행된다. 살충제 $A$ 대 $B$를 비교하고 싶으면, 가설을 다음과 같이 쓸 수 있다.

 

$H_0 : \frac{\mu_1 + \mu_2}{2} = \frac{\mu_3 + \mu_4}{2} \; vs \; H_1 : \frac{\mu_1 + \mu_2}{2} \neq \frac{\mu_3 + \mu_4}{2}$

 

그럼 이러한 비교는 다음과 같은 통계량을 기초로 수행됨이 자연스럽다.

 

$+\frac{1}{2}\bar{Y}_{1.} + \frac{1}{2}\bar{Y}_{2.} - \frac{1}{2}\bar{Y}_{3.} - \frac{1}{2}\bar{Y}_{4.}$

 

균형자료일 때는, 항상 선형결합의 계수들의 합을 0으로 맞춰주면 된다. 불균형 자료의 경우 각 처리 그룹내 반복수 $r_i$를 가중치로 하는 $c_i$의 가중합 $\sum_{i=1}^t r_i c_i$을 0으로 맞춘다($t$는 처리조합 개수). 이런 식으로 비교추론의 근간이 되는 통계량의 형태에는 일정한 형식이 존재하는데 이를 대비(contrast)라고 부른다. 대비는 기호 $C$로 표현하고, 불균형 자료에 대해 정의하면 다음과 같다.

 

$C = \sum_{i=1}^t c_i \bar{Y}_{i.}$

(균형 자료이면 계수의 조건은 $\sum c_i = 0$으로 단순화 됨)

 

일반적으로 대비에 대응되는 가설은 다음과 같이 세운다.

 

$H_0 : \sum_{i=1}^t c_i \mu_i = 0\; vs \; H_1 : \sum_{i=1}^t c_i \mu_i \neq 0$

 

앞서 본 가설들의 꼴과 일치한다. 이에 대한 추론을 수행한다고 하면 $\mu_i$가 $\bar{Y}_{i.}$로 대치되고, 대비 $C$의 식이 된다.

 

대비 $C$에 대한 검정은 대비 제곱합(contrast SS : contrast Sum of Squares)을 기초로 수행하며, 불균형 자료를 고려하면 대비 제곱합 공식은 다음과 같다.

 

$SSC = \frac{(\sum_i^t c_i\bar{Y}_{i.})^2}{\sum_i^t c_i^2/r_i} = \frac{(\sum_i^t c_i Y_{i.})^2}{\sum_i^t r_ic_i^2}\;\; (\because{\bar{Y}_{i.} = \frac{1}{r_i}\sum_j^{r_i} Y_{ij}})$

 

이제 대비의 검정통계량을 정의해보자.

 

$F = \frac{SSC/1}{SSE/(N-t)} =\frac{MSC}{MSE}\;\sim\;F(1, N-t)\;,\; \textrm{if  }F>F_{1, N-t, \alpha}\;,\; \textrm{reject  }H_0$

 

분모는 분산분석 검정통계량과 동일하게 $SSE$를 가진다. 대비 검정통계량은 어떻게 유도되며, 왜 F-분포를 가질까? 먼저 $SSC$의 분포를 유도하자. 정규분포 성질과 $\chi^2$-분포, $F$-분포의 정의를 알고있다면, 어렵지 않게 유도할 수 있다.

 

$Y_{i1}, Y_{i2}, \cdots, Y_{i r_i} \sim N(\mu_i, \sigma^2)$

$\bar{Y}_{i.} \sim N(\mu_i, \frac{\sigma^2}{r_i})$    $(\because \bar{Y}_{i.} = \frac{1}{r_i}\sum_{j=1}^{r_i} Y_{ij})$

 

그래서 이 처리평균들의 선형결합에 대한 분포는 다음과 같이 주어진다.

 

$\sum_{i}^t c_i \bar{Y}_{i.} \sim N(\sum_i^t c_i \mu_i, \sum_i^t c_i^2 \frac{\sigma^2}{r_i})$

 

이를 표준화 하면:

 

$\frac{\sum c_i\bar{Y}_{i.} - \sum c_i \mu_i}{\sqrt{\sum c_i^2 \frac{\sigma^2}{r_i}}} \sim N(0, 1)$

 

이에 제곱을 취하면, 표준정규분포를 따르는 확률변수의 제곱이므로 자유도 1인 $\chi^2$-분포를 따르게 된다.

 

$(\frac{\sum c_i\bar{Y}_{i.} - \sum c_i \mu_i}{\sigma \sqrt{\sum\frac{c_i^2}{r_i}}})^2 \sim \chi^2(1)$

 

위 통계량을 대비의 귀무가설이 참이라는 가정하에(under $H_0$) 정리하면:

 

$(\frac{\sum c_i\bar{Y}_{i.}}{\sqrt{\sum\frac{c_i^2}{r_i}}})^2 \frac{1}{\sigma^2} \sim \chi^2(1) \equiv \frac{SSC}{\sigma^2}$

 

 즉, 귀무가설하에 $SSC$를 $\sigma^2$으로 나눈 통계량은 $\chi^2$(1)을 따르게 된다.

 

이제 $\frac{SSC/1}{SSE/(N-t)}$가 왜 $F(1, N-t)$를따르는지 알아보자. F-분포는 카이제곱분포의 비로 정의된다. $SSE$는 편차제곱의 형태이며, 이를 $\sigma^2$으로 나눠주면 자유도가 $(N-t)$인 $\chi^2$분포를 따른다. 또한 이는 일원배치 분산분석의 원리에서 보였다. 정리하면:

 

$\frac{SSC/1}{SSE/N-t}= \frac{ (SSC/1) \times \frac{1}{\sigma^2} }{ (SSE/N-t) \times \frac{1}{\sigma^2} }$

 

이므로, F-분포의 정의에 의해 대비 검정통계량 $\frac{SSC/1}{SSE/N-t}$는 $F(1, N-t)$를 따른다. $F>F_{1, N-t, 1-\alpha}$ 이면 귀무가설을 기각시킬 수 있다(단, $(1-\alpha)$는 그래프의 오른쪽이 아닌, 왼쪽 면적을 말한다)

 

대비에 대한 one-sided 검정시에는 F 통계량 대신 t 통계량을 사용한다.

 

$H_0 : \sum_i^t c_i\mu_i = 0 \;\; vs \;\; H_1 : \sum_i^t c_i\mu_i > 0$ (one-sided hypothesis)

 

F-분포는 t-분포의 제곱이라는 것을 이용하면 one-sided에 쓰이는 검정통계량을 유도할 수 있다. F-분포가 t-분포 제곱인 이유는 t-분포의 정의를 써보면 알 수 있다. 

 

$Z \sim N(0, 1)\;\; V \sim \chi^2(r),\;\; Z \perp V$ 

$T = \frac{Z}{\sqrt{V/r}} \sim t(r)$

 

이를 제곱하면:

$T^2 = \frac{Z^2}{V/r} \sim F(1, r)$

 

분자는 표준정규분포의 제곱으로 자유도 1인 $\chi^2$분포, 분모는 자유도 r인 $\chi^2$분포를 따르므로,  t 통계량의 제곱은 $F(1, r)$을 따르게 된다. 그래서 대비의 one-sided 가설에서 검정통계량은 two-sided 가설의 검정통계량에 제곱근을 취해주면 된다.

 

$F = \frac{SSC}{SSE/(N-t)} = \frac{\frac{(\sum c_i\bar{Y}_{i.})^2}{\sum c_i^2/r_i}}{SSE/(N-t)} = \frac{(\sum c_i\bar{Y}_{i.})^2}{\sum c_i^2 MSE/r_i}$

 

이에 제곱근을 취한다.

 

$\frac{\sum c_i\bar{Y}_{i.}}{\sqrt{\sum c_i^2 MSE/r_i}}$ ~ t(N-t)

 

위 식이 one-sided 대비 검정에서 쓰이는 t-통계량이다. $t > t_{N-t;1-\alpha}$이면 귀무가설을 기각시킬 수 있다.

 

 ○ Scheffe's method

 S 검증(S test)이라고 불리기도 한다. 앞서 배운 대비와 같이, Scheffe가 제안한 여러 개의 대비들을 동시에 검증하는 방법이다. 즉, 검정하고자 하는 귀무가설은 $H_0 : \sum_i^t c_i \mu_i = 0$ 이다. 검정통계량은 기존의 two-sided 대비 검정통계량과 매우 유사하며, 임계값이 다르다. 쌍별 비교같은 상황에는 튜키나 SNK test가 더 우수하며, 여러 개 처리 평균이 개재된 대비들에 대한 동시 검증에 유효하게 사용된다(앞서 본 $H_0 : \frac{\mu_1 + \mu_2}{2} = \frac{\mu_3 + \mu_4}{2}$ 와 같은 상황). 검정통계량과 임계값은 다음과 같이 주어진다.

 

$S = \frac{\left | \sum c_i \bar{Y}_{i.} \right |}{\sqrt{\sum_i^t c_i^2 MSE/r_i}}$

 

$S > \sqrt{(t-1)F_{t-1, N-t, 1-\alpha}}$이면 귀무가설을 기각시킬 수 있다.

 

2. 직교대비(Orthogonal contrasts)

직교대비란, 특수한 형태의 대비를 말한다. 직교라는 말에서 "독립(independent)"의 개념이 떠오른다. 대비의 개념 중 가장 중요하다. 그 이유는 직교대비 개념을 이용하면 처리 제곱합을 선형대비, 이차대비 등으로 세분화하여 처리 수준들 간 반응 패턴의 강도를 정량화할 수 있는 등 여러 가지 이점이 있어서이다.

 

두 개의 대비 $C = \sum_i^t c_i \bar{Y}_{i.}$와 $D = \sum_i^t d_i \bar{Y}_{i.}$에서 대응되는 대비 계수들 $\left \{c_i \right \}$와 $\left \{d_i \right \}$ 간에 다음 관계가 성립할 때 서로 직교한다고 한다.

 

  • $\sum_i^t c_i d_i = 0 $  (균형 설계)
  • $\sum_i^t r_i c_i d_i = 0 $  (불균형 설계)

직교대비 계수를 결정하는 방법은 상황에 따라 다르다. 직교대비를 예를 통해 이해해보자. 세 교육방식의 효율성을 비교를 목적으로 8명의 학생을 세 그룹에 랜덤하게 배정했다(균형자료). 이 자료에 대한 분산분석표는 다음과 같이 작성된다.

 

source $SS$ $df$ $MS$ $F$
교육 방식 50.08 2 25.04 6.05**
오차 86.88 21 4.14  
Total 136.96 23    

 

이때, 우리의 관심 대비는 교육 방식 1과 2의 비교, 교육방식 3과 교육방식 1과 2의 평균 간의 비교로 2개 였다고 해보자. 그럼 두 대비의 형태는 다음과 같이 주어진다.

 

대비 $C_1 = \bar{Y}_{1.} - \bar{Y}_{2.}$

대비 $C_2 = \frac{\bar{Y}_{1.} + \bar{Y}_{2.}}{2} - \bar{Y}_{3.}$

 

대비 계수는 관례상 정수로 표현하며, 계산도 더 편하다.

 

대비 $C_2 =\bar{Y}_{1.} + \bar{Y}_{2.} - 2\bar{Y}_{3.}$

 

두 대비의 대응되는 계수들의 곱의 합을 계산해보자.

 

$1\times1 + (-1)\times1 + 0\times(-2) = 0$

 

그래서 두 대비는 서로 직교한다. 이때 각 대비 제곱합은 직교 대비이므로 둘의 합은 $SStr$값과 동일하다. 이를 반영하여 분산분석표를 다시 작성해보자.

 

source $SS$ $df$ $MS$ $F$
교육 방식 50.08 2 25.04 6.05**
직교대비        
$C_1 : \mu_1 = \mu_2$ 0.06 1 0.06 0.02
$C_2 : 2\mu_3 = \mu_1 + \mu_2$ 50.02 1 50.02 12.08**
오차 86.88 21 4.14  
Total 136.96 23    

 

대비 $C_1$에서는 변동이 매우 작아 유의한 차이가 없다는 결론을 내릴 수 있으며, 대부분 변동은 $C_2$에 존재한다. 결국 분산분석 시, 세 교육방식 간에 효과 차이가 있다는 결론은 순전히 교육방식 3 때문이였음을 알 수 있다.

 

여기서 기억하고 가야할 두 가지 사실을 짚고 넘어가자. 첫째로, 직교대비인 제곱합을 더하면 처리 제곱합이 된다는 점이다. 처리가 $t$개 존재하면 처리 제곱합의 자유도는 $(t-1)$이며, 이 경우 처리 제곱합은 $(t-1)$개의 직교대비로 분해가 가능하다. 위 분산분석 표의 두 직교대비의 자유도를 합하면 $SStr$의 자유도가 된다. 둘째로, 직교대비의 계수는 관심있는 비교가 무엇이냐에 따라 얼마든지 달라질 수 있다는 것이다. 즉, 위와 같은 실험에서도 다른 조합의 두 직교대비가 존재할 수 있다는 말이다. 예를 들어보면:

 

대비 $C_3 = (+1)\bar{Y}_{1.} + (0)\bar{Y}_{2.} + (-1)\bar{Y}_{3.}$

대비 $C_4 = (-1)\bar{Y}_{1.} + (2)\bar{Y}_{2.} + (-1)\bar{Y}_{3.}$

 

참고 문헌

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글