본문 바로가기
실험설계/일원배치법

불균형 자료에 대해

by be-favorite 2020. 3. 22.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

애초에 우리가 등반복 설계를 했더라도, 실험 중 쥐가 죽는다든가 하는 이유로 균형 자료(balanced data)를 얻지 못하는 경우가 있다. 다행히도 관심 요인이 하나인 경우에는 불균형 자료(unbalanced data)라고해서 분석이 크게 달라지지 않는다.

 

균형자료의 CRD 모형식을 고려하면, 불균형 자료에 대한 CRD 모형식은 다음과 같이 쓸 수 있다.

 

$Y_{ij} = \mu + \tau_i + \epsilon_{ij},\; \epsilon_{ij} \sim N(0, \sigma^2)\;\; (i = 1, \cdots, t;\; j = 1, \cdots, r_i)$

 

각 처리 그룹마다 관측 자료의 수가 반드시 같지는 않다는 이유로 $r$에 아래첨자가 붙었다. 이때 총 관측 자료의 수 $N = \sum r_i$이다. 각 제곱합 공식도  다음과 같이 $r$에 아래첨자 하나만 추가하면된다.

 

$ SST = \sum_{i=1}^t \sum_{j=1}^{r_i} (Y_{ij} - \bar{Y}_{\cdot \cdot})^2$

$ SStrt = \sum_{i=1}^t \sum_{j=1}^{r_i} (\bar{Y}_{i \cdot} - \bar{Y}_{\cdot \cdot})^2$

$ SSE = \sum_{i=1}^t \sum_{j=1}^{r_i} (Y_{ij} - \bar{Y}_{i \cdot})^2$

 

균형 자료의 경우 처리 효과 $\tau_i$들의 합이 0이지만, 불균형 자료에서는 처리마다 반복 수가 다르기 때문에 다음과 같이 가중합이 0이여야 한다.

 

$\sum_{i=1}^t r_i \tau_i = 0$ 

 

불균형 자료에 대한 CRD는 제곱합 계산 공식만 약간 다르고, 나머지는 균형 자료에 대한 분석과 동일하다. 하지만, 분산분석의 검정력은 균형 자료에서 최대이므로 가급적이면 균형 자료인 경우가 더 좋다.

 

 

참고한 책

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글