본문 바로가기
실험설계/일원배치법

CRD with subsampling

by be-favorite 2020. 4. 16.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

실험설계 개요 및 용어 정리

일원배치 분산분석(One-way Anova)의 원리

오차항의 분산 추정과 EMS

 

 

지금까지는 실험단위(EU : experimental unit)와 관찰단위(obsevational unit)가 동일한 자료들만 살펴보았다. 실험단위와 관찰단위가 동일하지 않은 경우가 있으며, 이런 경우를 일컬어 CRD with subsampling(부표집을 한 완전 랜덤화 설계)라고 부른다. CRD를 이해했다면 크게 어려울 건 없다. Subsampling이 무엇인지에 대해 예를 들어 설명한다. 3가지 컴퓨터 교육 방법의 효과를 비교하는 상황을 생각해보자. 한 고등학교의 30명이 정원인 1학년 학급 중 3개를 임의로 골라 교육 방법 3가지를 랜덤 배정한다. 일정 기간 교육 후 동일한 시험을 보게 하여 학생들의 성적을 반응값으로 기록하면, 이때는 각 학급이 실험 단위가 되며 학급 내의 학생들이 관찰 단위가 된다. 이것이 Subsampling의 예다.

 

처리 수준 $t$개를 $r$번 반복 실험하는데, 각 실험단위(EU)는 $n$개의 관찰단위(OU)를 갖는다고 하자. 이와 같은 Subsampling을 하는 CRD에 대한 고정효과(fixed effect) 모형은 다음과 같이 주어진다. 실험단위와 관찰단위가 다르므로 오차를 분해해서 쓸 수 있는 것이 기존의 CRD와 다른 점이다.

$Y_{ijk} = \mu + \tau_i + \epsilon_{ij} + \eta_{ijk}, \; \epsilon_{ij} \sim N(0, \sigma^2_{\epsilon}),\; \eta_{ijk} \sim N(0, \sigma^2_{\eta})$

$(i = 1, \cdots, t;\; j = 1, \cdots, r;\;, k = 1, \cdots, n)$

위에서 예로 든 경우에 $t = 3$, $r = 1$, $n = 30$이 될 것이다.  여기서 $\epsilon_{ij}$는 실험오차(EE : experimental error), $\eta_{ijk}$는 관찰오차(OE: observational error)이다. 위 모형에서 $\textrm{Var}(Y_{ijk}) = \sigma^2_{\epsilon} + \sigma^2_{\eta} = \sigma^2$이므로 오차 부분을 병합하면 기존의 CRD 모형식 $Y_{ij} = \mu + \tau_i + \epsilon_{ij}$과 같다.

 

제곱합 분해는 다음 등식을 기초로 이루어진다.

$Y_{ijk} - \bar{Y}_{\cdot \cdot \cdot} = (\bar{Y}_{i\cdot\cdot} - \bar{Y}_{\cdot \cdot \cdot}) + (\bar{Y}_{ij\cdot} - \bar{Y}_{i\cdot\cdot}) + (\bar{Y}_{ijk} - \bar{Y}_{ij\cdot})$

차례대로 총변동, 처리변동, 실험변동, 관찰변동에 해당한다. 이들을 제곱하고 summation을 취하면 된다. 즉:

 

처리제곱합 $SStrt = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(\bar{Y}_{i\cdot\cdot} - \bar{Y}_{\cdot \cdot \cdot})^2$

실험오차제곱합 $SSEE = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(\bar{Y}_{ij\cdot} - \bar{Y}_{i \cdot \cdot})^2$

관찰오차제곱합 $SSOE = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(\bar{Y}_{ijk} - \bar{Y}_{ij\cdot})^2$

총제곱합 $SST = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(Y_{ijk} - \bar{Y}_{\cdot \cdot \cdot})^2$

 

처리 그룹에 따른 차이가 없다는 귀무가설에 대한 검정은 $MStrt$와 $MSEE$를 기반으로 수행딘다.

$F = \frac{MStrt}{MSEE} \sim F(t-1, t(r-1))$

$\textrm{if}\;\; F>F(t-1, t(r-1); 1-\alpha),\; \textrm{reject} \;\; H_0$

이때 $1-\alpha$는 왼쪽 영역을 말한다. CRD with subsampling의 분산분석표를 정리하자. 

 

Source $SS$ $df$ $MS$ $F$
처리 $SStr$ $t-1$ $MStrt$ $MStrt/MSEE$
실험오차 $SSEE$ $t(r-1)$ $MSEE$  
관찰오차 $SSOE$ $tr(n-1)$ $MSOE$  
$SST$ $trn-1$    

마지막으로 귀무가설에 대한 검정을 $MStrt$와 $MSEE$를 기반으로 진행하는 이유를 알아보기 위해 EMS에 대해 알아보자(오차항의 분산 추정과 EMS에서 언급했듯이, CRD보다 더 복잡한 형태의 실험에서도 처리 효과에 대한 구체적인 분석은 언제나 EMS간의 비교를 기초로 정립됨). 각 변동의 기댓값들을 정리하면 다음과 같다.

$E(MStrt) = \sigma^2_{\eta} + n\sigma^2_{\epsilon} + \frac{rn}{t-1}\sum_i\tau_i^2$

$E(MSEE) = \sigma^2_{\eta} + n\sigma^2_{\epsilon}$

$E(MSOE) = \sigma^2_{\eta}$

$MSEE$의 기댓값을 구해보면 실험오차뿐만이 아닌, 관찰오차까지 고려하는 측도임을 알 수 있다. 그래서 검정통계량을 $F = \frac{MStrt}{MSEE}$로 정의하면 우리는 처리변동에 비한 모든 오차변동을 고려할 수 있게 된다. 귀무가설이 옳다면 $F$는 1에 가까워 지고, 처리효과간 차이가 클수록 분산비는 1보다 커질 것이다. 따라서 $MStrt$를 $MSEE$로 나눈 식을 검정통계량은 매우 합리적이라고 할 수 있다.

 

 

참고한 책

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글