CRD with subsampling

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

※ prerequisite

지금까지는 실험단위(EU : experimental unit)와 관찰단위(obsevational unit)가 동일한 자료들만 살펴보았다. 실험단위와 관찰단위가 동일하지 않은 경우가 있으며, 이런 경우를 일컬어 CRD with subsampling(부표집을 한 완전 랜덤화 설계)라고 부른다. CRD를 이해했다면 크게 어려울 건 없다. Subsampling이 무엇인지에 대해 예를 들어 설명한다. 3가지 컴퓨터 교육 방법의 효과를 비교하는 상황을 생각해보자. 한 고등학교의 30명이 정원인 1학년 학급 중 3개를 임의로 골라 교육 방법 3가지를 랜덤 배정한다. 일정 기간 교육 후 동일한 시험을 보게 하여 학생들의 성적을 반응값으로 기록하면, 이때는 각 학급이 실험 단위가 되며 학급 내의 학생들이 관찰 단위가 된다. 이것이 Subsampling의 예다.

처리 수준 $t$ 개를 $r$ 번 반복 실험하는데, 각 실험단위(EU)는 $n$ 개의 관찰단위(OU)를 갖는다고 하자. 이와 같은 Subsampling을 하는 CRD에 대한 고정효과(fixed effect) 모형은 다음과 같이 주어진다. 실험단위와 관찰단위가 다르므로 오차를 분해해서 쓸 수 있는 것이 기존의 CRD와 다른 점이다.

$Y_{ijk} = \mu + \tau_i + \epsilon_{ij} + \eta_{ijk}, \; \epsilon_{ij} \sim N(0, \sigma^2_{\epsilon}),\; \eta_{ijk} \sim N(0, \sigma^2_{\eta})$

$(i = 1, \cdots, t;\; j = 1, \cdots, r;\;, k = 1, \cdots, n)$

위에서 예로 든 경우에 $t = 3$ , $r = 1$ , $n = 30$ 이 될 것이다. 여기서 $\epsilon_{ij}$ 는 실험오차(EE : experimental error), $\eta_{ijk}$ 는 관찰오차(OE: observational error)이다. 위 모형에서 $\textrm{Var}(Y_{ijk}) = \sigma^2_{\epsilon} + \sigma^2_{\eta} = \sigma^2$ 이므로 오차 부분을 병합하면 기존의 CRD 모형식 $Y_{ij} = \mu + \tau_i + \epsilon_{ij}$ 과 같다.

제곱합 분해는 다음 등식을 기초로 이루어진다.

$Y_{ijk} - \bar{Y}_{\cdot \cdot \cdot} = (\bar{Y}_{i\cdot\cdot} - \bar{Y}_{\cdot \cdot \cdot}) + (\bar{Y}_{ij\cdot} - \bar{Y}_{i\cdot\cdot}) + (\bar{Y}_{ijk} - \bar{Y}_{ij\cdot})$

차례대로 총변동, 처리변동, 실험변동, 관찰변동에 해당한다. 이들을 제곱하고 summation을 취하면 된다. 즉:

처리제곱합 $SStrt = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(\bar{Y}_{i\cdot\cdot} - \bar{Y}_{\cdot \cdot \cdot})^2$

실험오차제곱합 $SSEE = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(\bar{Y}_{ij\cdot} - \bar{Y}_{i \cdot \cdot})^2$

관찰오차제곱합 $SSOE = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(\bar{Y}_{ijk} - \bar{Y}_{ij\cdot})^2$

총제곱합 $SST = \sum_{i=1}^{t}\sum_{j=1}^{r}\sum_{k=1}^{n}(Y_{ijk} - \bar{Y}_{\cdot \cdot \cdot})^2$

처리 그룹에 따른 차이가 없다는 귀무가설에 대한 검정은 $MStrt$ 와 $MSEE$ 를 기반으로 수행딘다.

$F = \frac{MStrt}{MSEE} \sim F(t-1, t(r-1))$

$\textrm{if}\;\; F>F(t-1, t(r-1); 1-\alpha),\; \textrm{reject} \;\; H_0$

이때 $1-\alpha$ 는 왼쪽 영역을 말한다. CRD with subsampling의 분산분석표를 정리하자.

Source	$SS$	$df$	$MS$	$F$
처리	$SStr$	$t-1$	$MStrt$	$MStrt/MSEE$
실험오차	$SSEE$	$t(r-1)$	$MSEE$
관찰오차	$SSOE$	$tr(n-1)$	$MSOE$
총	$SST$	$trn-1$

마지막으로 귀무가설에 대한 검정을 $MStrt$ 와 $MSEE$ 를 기반으로 진행하는 이유를 알아보기 위해 EMS에 대해 알아보자(오차항의 분산 추정과 EMS에서 언급했듯이, CRD보다 더 복잡한 형태의 실험에서도 처리 효과에 대한 구체적인 분석은 언제나 EMS간의 비교를 기초로 정립됨). 각 변동의 기댓값들을 정리하면 다음과 같다.

$E(MStrt) = \sigma^2_{\eta} + n\sigma^2_{\epsilon} + \frac{rn}{t-1}\sum_i\tau_i^2$

$E(MSEE) = \sigma^2_{\eta} + n\sigma^2_{\epsilon}$

$E(MSOE) = \sigma^2_{\eta}$

$MSEE$ 의 기댓값을 구해보면 실험오차뿐만이 아닌, 관찰오차까지 고려하는 측도임을 알 수 있다. 그래서 검정통계량을 $F = \frac{MStrt}{MSEE}$ 로 정의하면 우리는 처리변동에 비한 모든 오차변동을 고려할 수 있게 된다. 귀무가설이 옳다면 $F$ 는 1에 가까워 지고, 처리효과간 차이가 클수록 분산비는 1보다 커질 것이다. 따라서 $MStrt$ 를 $MSEE$ 로 나눈 식을 검정통계량은 매우 합리적이라고 할 수 있다.

참고한 책

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

저작자표시 비영리 변경금지

'실험설계 > 일원배치법' 카테고리의 다른 글

직교다항식과 반응곡선의 적합 (0)	2020.04.14
대비와 직교대비에 대해 (0)	2020.03.30
다중비교 검정법 소개 (0)	2020.03.30
고정효과 모형과 랜덤효과 모형에 대해 (0)	2020.03.30
불균형 자료에 대해 (0)	2020.03.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

SLOG

CRD with subsampling

'실험설계 > 일원배치법' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

CRD with subsampling

'실험설계 > 일원배치법' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역