Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기
실험설계/일원배치법

대비와 직교대비에 대해

by be-favorite 2020. 3. 30.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

다중비교 검정

 

1. 대비(Contrast)

대비(contrast)는 많은 다중비교 검정법들의 idea이다. 하나의 예를 들어서 대비를 이해해보자. 회사 A, B의 살충제가 액체와 분말형태로 각각 존재하고, 이를 처리 A1, A2, B1, B2라 하자. 만일 우리가 A1A2 간의 비교에 관심이 있다면 적절한 가설은 다음과 같이 쓸 수 있다.

 

H0:μ1=μ2vsH1:μ1μ2

 

이 경우, (μ1μ2)에 대한 추론은 당연히 통계량(확률변수들의 선형결합) +ˉY1.ˉY2.을 기초로 진행된다. 살충제 AB를 비교하고 싶으면, 가설을 다음과 같이 쓸 수 있다.

 

H0:μ1+μ22=μ3+μ42vsH1:μ1+μ22μ3+μ42

 

그럼 이러한 비교는 다음과 같은 통계량을 기초로 수행됨이 자연스럽다.

 

+12ˉY1.+12ˉY2.12ˉY3.12ˉY4.

 

균형자료일 때는, 항상 선형결합의 계수들의 합을 0으로 맞춰주면 된다. 불균형 자료의 경우 각 처리 그룹내 반복수 ri를 가중치로 하는 ci의 가중합 ti=1rici을 0으로 맞춘다(t는 처리조합 개수). 이런 식으로 비교추론의 근간이 되는 통계량의 형태에는 일정한 형식이 존재하는데 이를 대비(contrast)라고 부른다. 대비는 기호 C로 표현하고, 불균형 자료에 대해 정의하면 다음과 같다.

 

C=ti=1ciˉYi.

(균형 자료이면 계수의 조건은 ci=0으로 단순화 됨)

 

일반적으로 대비에 대응되는 가설은 다음과 같이 세운다.

 

H0:ti=1ciμi=0vsH1:ti=1ciμi0

 

앞서 본 가설들의 꼴과 일치한다. 이에 대한 추론을 수행한다고 하면 μiˉYi.로 대치되고, 대비 C의 식이 된다.

 

대비 C에 대한 검정은 대비 제곱합(contrast SS : contrast Sum of Squares)을 기초로 수행하며, 불균형 자료를 고려하면 대비 제곱합 공식은 다음과 같다.

 

SSC=(ticiˉYi.)2tic2i/ri=(ticiYi.)2tiric2i(ˉYi.=1ririjYij)

 

이제 대비의 검정통계량을 정의해보자.

 

F=SSC/1SSE/(Nt)=MSCMSEF(1,Nt),if F>F1,Nt,α,reject H0

 

분모는 분산분석 검정통계량과 동일하게 SSE를 가진다. 대비 검정통계량은 어떻게 유도되며, 왜 F-분포를 가질까? 먼저 SSC의 분포를 유도하자. 정규분포 성질과 χ2-분포, F-분포의 정의를 알고있다면, 어렵지 않게 유도할 수 있다.

 

Yi1,Yi2,,YiriN(μi,σ2)

ˉYi.N(μi,σ2ri)    (ˉYi.=1ririj=1Yij)

 

그래서 이 처리평균들의 선형결합에 대한 분포는 다음과 같이 주어진다.

 

ticiˉYi.N(ticiμi,tic2iσ2ri)

 

이를 표준화 하면:

 

ciˉYi.ciμic2iσ2riN(0,1)

 

이에 제곱을 취하면, 표준정규분포를 따르는 확률변수의 제곱이므로 자유도 1인 χ2-분포를 따르게 된다.

 

(ciˉYi.ciμiσc2iri)2χ2(1)

 

위 통계량을 대비의 귀무가설이 참이라는 가정하에(under H0) 정리하면:

 

(ciˉYi.c2iri)21σ2χ2(1)SSCσ2

 

 즉, 귀무가설하에 SSCσ2으로 나눈 통계량은 χ2(1)을 따르게 된다.

 

이제 SSC/1SSE/(Nt)가 왜 F(1,Nt)를따르는지 알아보자. F-분포는 카이제곱분포의 비로 정의된다. SSE는 편차제곱의 형태이며, 이를 σ2으로 나눠주면 자유도가 (Nt)χ2분포를 따른다. 또한 이는 일원배치 분산분석의 원리에서 보였다. 정리하면:

 

SSC/1SSE/Nt=(SSC/1)×1σ2(SSE/Nt)×1σ2

 

이므로, F-분포의 정의에 의해 대비 검정통계량 SSC/1SSE/NtF(1,Nt)를 따른다. F>F1,Nt,1α 이면 귀무가설을 기각시킬 수 있다(단, (1α)는 그래프의 오른쪽이 아닌, 왼쪽 면적을 말한다)

 

대비에 대한 one-sided 검정시에는 F 통계량 대신 t 통계량을 사용한다.

 

H0:ticiμi=0vsH1:ticiμi>0 (one-sided hypothesis)

 

F-분포는 t-분포의 제곱이라는 것을 이용하면 one-sided에 쓰이는 검정통계량을 유도할 수 있다. F-분포가 t-분포 제곱인 이유는 t-분포의 정의를 써보면 알 수 있다. 

 

ZN(0,1)Vχ2(r),ZV 

T=ZV/rt(r)

 

이를 제곱하면:

T2=Z2V/rF(1,r)

 

분자는 표준정규분포의 제곱으로 자유도 1인 χ2분포, 분모는 자유도 r인 χ2분포를 따르므로,  t 통계량의 제곱은 F(1,r)을 따르게 된다. 그래서 대비의 one-sided 가설에서 검정통계량은 two-sided 가설의 검정통계량에 제곱근을 취해주면 된다.

 

F=SSCSSE/(Nt)=(ciˉYi.)2c2i/riSSE/(Nt)=(ciˉYi.)2c2iMSE/ri

 

이에 제곱근을 취한다.

 

ciˉYi.c2iMSE/ri ~ t(N-t)

 

위 식이 one-sided 대비 검정에서 쓰이는 t-통계량이다. t>tNt;1α이면 귀무가설을 기각시킬 수 있다.

 

 ○ Scheffe's method

 S 검증(S test)이라고 불리기도 한다. 앞서 배운 대비와 같이, Scheffe가 제안한 여러 개의 대비들을 동시에 검증하는 방법이다. 즉, 검정하고자 하는 귀무가설은 H0:ticiμi=0 이다. 검정통계량은 기존의 two-sided 대비 검정통계량과 매우 유사하며, 임계값이 다르다. 쌍별 비교같은 상황에는 튜키나 SNK test가 더 우수하며, 여러 개 처리 평균이 개재된 대비들에 대한 동시 검증에 유효하게 사용된다(앞서 본 H0:μ1+μ22=μ3+μ42 와 같은 상황). 검정통계량과 임계값은 다음과 같이 주어진다.

 

S=|ciˉYi.|tic2iMSE/ri

 

S>(t1)Ft1,Nt,1α이면 귀무가설을 기각시킬 수 있다.

 

2. 직교대비(Orthogonal contrasts)

직교대비란, 특수한 형태의 대비를 말한다. 직교라는 말에서 "독립(independent)"의 개념이 떠오른다. 대비의 개념 중 가장 중요하다. 그 이유는 직교대비 개념을 이용하면 처리 제곱합을 선형대비, 이차대비 등으로 세분화하여 처리 수준들 간 반응 패턴의 강도를 정량화할 수 있는 등 여러 가지 이점이 있어서이다.

 

두 개의 대비 C=ticiˉYi.D=tidiˉYi.에서 대응되는 대비 계수들 {ci}{di} 간에 다음 관계가 성립할 때 서로 직교한다고 한다.

 

  • ticidi=0  (균형 설계)
  • tiricidi=0  (불균형 설계)

직교대비 계수를 결정하는 방법은 상황에 따라 다르다. 직교대비를 예를 통해 이해해보자. 세 교육방식의 효율성을 비교를 목적으로 8명의 학생을 세 그룹에 랜덤하게 배정했다(균형자료). 이 자료에 대한 분산분석표는 다음과 같이 작성된다.

 

source SS df MS F
교육 방식 50.08 2 25.04 6.05**
오차 86.88 21 4.14  
Total 136.96 23    

 

이때, 우리의 관심 대비는 교육 방식 1과 2의 비교, 교육방식 3과 교육방식 1과 2의 평균 간의 비교로 2개 였다고 해보자. 그럼 두 대비의 형태는 다음과 같이 주어진다.

 

대비 C1=ˉY1.ˉY2.

대비 C2=ˉY1.+ˉY2.2ˉY3.

 

대비 계수는 관례상 정수로 표현하며, 계산도 더 편하다.

 

대비 C2=ˉY1.+ˉY2.2ˉY3.

 

두 대비의 대응되는 계수들의 곱의 합을 계산해보자.

 

1×1+(1)×1+0×(2)=0

 

그래서 두 대비는 서로 직교한다. 이때 각 대비 제곱합은 직교 대비이므로 둘의 합은 SStr값과 동일하다. 이를 반영하여 분산분석표를 다시 작성해보자.

 

source SS df MS F
교육 방식 50.08 2 25.04 6.05**
직교대비        
C1:μ1=μ2 0.06 1 0.06 0.02
C2:2μ3=μ1+μ2 50.02 1 50.02 12.08**
오차 86.88 21 4.14  
Total 136.96 23    

 

대비 C1에서는 변동이 매우 작아 유의한 차이가 없다는 결론을 내릴 수 있으며, 대부분 변동은 C2에 존재한다. 결국 분산분석 시, 세 교육방식 간에 효과 차이가 있다는 결론은 순전히 교육방식 3 때문이였음을 알 수 있다.

 

여기서 기억하고 가야할 두 가지 사실을 짚고 넘어가자. 첫째로, 직교대비인 제곱합을 더하면 처리 제곱합이 된다는 점이다. 처리가 t개 존재하면 처리 제곱합의 자유도는 (t1)이며, 이 경우 처리 제곱합은 (t1)개의 직교대비로 분해가 가능하다. 위 분산분석 표의 두 직교대비의 자유도를 합하면 SStr의 자유도가 된다. 둘째로, 직교대비의 계수는 관심있는 비교가 무엇이냐에 따라 얼마든지 달라질 수 있다는 것이다. 즉, 위와 같은 실험에서도 다른 조합의 두 직교대비가 존재할 수 있다는 말이다. 예를 들어보면:

 

대비 C3=(+1)ˉY1.+(0)ˉY2.+(1)ˉY3.

대비 C4=(1)ˉY1.+(2)ˉY2.+(1)ˉY3.

 

참고 문헌

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글