Processing math: 100%
본문 바로가기
실험설계/일원배치법

CRD with subsampling

by be-favorite 2020. 4. 16.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

실험설계 개요 및 용어 정리

일원배치 분산분석(One-way Anova)의 원리

오차항의 분산 추정과 EMS

 

 

지금까지는 실험단위(EU : experimental unit)와 관찰단위(obsevational unit)가 동일한 자료들만 살펴보았다. 실험단위와 관찰단위가 동일하지 않은 경우가 있으며, 이런 경우를 일컬어 CRD with subsampling(부표집을 한 완전 랜덤화 설계)라고 부른다. CRD를 이해했다면 크게 어려울 건 없다. Subsampling이 무엇인지에 대해 예를 들어 설명한다. 3가지 컴퓨터 교육 방법의 효과를 비교하는 상황을 생각해보자. 한 고등학교의 30명이 정원인 1학년 학급 중 3개를 임의로 골라 교육 방법 3가지를 랜덤 배정한다. 일정 기간 교육 후 동일한 시험을 보게 하여 학생들의 성적을 반응값으로 기록하면, 이때는 각 학급이 실험 단위가 되며 학급 내의 학생들이 관찰 단위가 된다. 이것이 Subsampling의 예다.

 

처리 수준 t개를 r번 반복 실험하는데, 각 실험단위(EU)는 n개의 관찰단위(OU)를 갖는다고 하자. 이와 같은 Subsampling을 하는 CRD에 대한 고정효과(fixed effect) 모형은 다음과 같이 주어진다. 실험단위와 관찰단위가 다르므로 오차를 분해해서 쓸 수 있는 것이 기존의 CRD와 다른 점이다.

Yijk=μ+τi+ϵij+ηijk,ϵijN(0,σ2ϵ),ηijkN(0,σ2η)

(i=1,,t;j=1,,r;,k=1,,n)

위에서 예로 든 경우에 t=3, r=1, n=30이 될 것이다.  여기서 ϵij는 실험오차(EE : experimental error), ηijk는 관찰오차(OE: observational error)이다. 위 모형에서 Var(Yijk)=σ2ϵ+σ2η=σ2이므로 오차 부분을 병합하면 기존의 CRD 모형식 Yij=μ+τi+ϵij과 같다.

 

제곱합 분해는 다음 등식을 기초로 이루어진다.

YijkˉY=(ˉYiˉY)+(ˉYijˉYi)+(ˉYijkˉYij)

차례대로 총변동, 처리변동, 실험변동, 관찰변동에 해당한다. 이들을 제곱하고 summation을 취하면 된다. 즉:

 

처리제곱합 SStrt=ti=1rj=1nk=1(ˉYiˉY)2

실험오차제곱합 SSEE=ti=1rj=1nk=1(ˉYijˉYi)2

관찰오차제곱합 SSOE=ti=1rj=1nk=1(ˉYijkˉYij)2

총제곱합 SST=ti=1rj=1nk=1(YijkˉY)2

 

처리 그룹에 따른 차이가 없다는 귀무가설에 대한 검정은 MStrtMSEE를 기반으로 수행딘다.

F=MStrtMSEEF(t1,t(r1))

ifF>F(t1,t(r1);1α),rejectH0

이때 1α는 왼쪽 영역을 말한다. CRD with subsampling의 분산분석표를 정리하자. 

 

Source SS df MS F
처리 SStr t1 MStrt MStrt/MSEE
실험오차 SSEE t(r1) MSEE  
관찰오차 SSOE tr(n1) MSOE  
SST trn1    

마지막으로 귀무가설에 대한 검정을 MStrtMSEE를 기반으로 진행하는 이유를 알아보기 위해 EMS에 대해 알아보자(오차항의 분산 추정과 EMS에서 언급했듯이, CRD보다 더 복잡한 형태의 실험에서도 처리 효과에 대한 구체적인 분석은 언제나 EMS간의 비교를 기초로 정립됨). 각 변동의 기댓값들을 정리하면 다음과 같다.

E(MStrt)=σ2η+nσ2ϵ+rnt1iτ2i

E(MSEE)=σ2η+nσ2ϵ

E(MSOE)=σ2η

MSEE의 기댓값을 구해보면 실험오차뿐만이 아닌, 관찰오차까지 고려하는 측도임을 알 수 있다. 그래서 검정통계량을 F=MStrtMSEE로 정의하면 우리는 처리변동에 비한 모든 오차변동을 고려할 수 있게 된다. 귀무가설이 옳다면 F는 1에 가까워 지고, 처리효과간 차이가 클수록 분산비는 1보다 커질 것이다. 따라서 MStrtMSEE로 나눈 식을 검정통계량은 매우 합리적이라고 할 수 있다.

 

 

참고한 책

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글