본문 바로가기
실험설계/일원배치법

오차항의 분산 추정과 EMS

by be-favorite 2020. 3. 22.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

오차항의 분산과 EMS(Expected Mean Square : 기대평균제곱)의 추정을 통해 분산분석 시에 F-검정의 이론적 근거를 한번 더 체크해보자.

 

1. 오차항 $\epsilon_{ij}$의 분산 추정

일원배치 분산분석 모형을 기초로 오차 분산 $\sigma^2$을 추정하는 세 가지 방법을 생각해보자.

 

(1) 원시 데이터 전체를 통한 오차 분산 추정

처리 평균들이 모두 동일$(\mu_1 = \cdots = \mu_t \equiv \mu)$하다고 가정하면 원시 데이터의 분포를 다음과 같이 쓸 수 있다.

 

$Y_{11}, \cdots, Y_{1r}, Y_{21}, \cdots, Y_{2r}, Y_{t1}, \cdots, Y_{tr} \sim N(\mu, \sigma^2)$

 

이렇게 쓰고 나면 정규분포의 분산 추정과 같다.

 

$s_T^2 = \frac{1}{N-1}\sum_i^t \sum_j^r \left ( Y_{ij} - \bar{Y}_{\cdot \cdot} \right )^2, \; N=rt \\
\;\;\;\;= \hat{\sigma}^2$

 

(2) 처리 평균을 통한 오차 분산 추정

마찬가지로 처리 평균들은 모두 동일하다고 가정한다.

 

$\bar{Y}_{i \cdot} \sim N(\mu, \frac{\sigma^2}{r})$

 

표본평균의 평균과 분산을 구하는 방식을 생각하면, 다음과 같이 추정이 가능하다.

 

$\frac{\hat{\sigma^2}}{r} = \sum_i (\bar{Y}_{i \cdot} - \bar{Y}_{\cdot \cdot})^2/(t-1)$

 

$\therefore \hat{\sigma^2} = s^2_{trt} = \frac{r\sum_i (\bar{Y}_{i \cdot} - \bar{Y}_{\cdot \cdot})^2}{t-1} = \frac{SStrt}{(t-1)} = MStrt$

 

즉, 처리평균이 동일하다고 가정하면 $MStrt$도 오차 분산 $\sigma^2$의 추청량이 된다.

 

(3) 각 처리 내 관측값들의 표본 분산을 기초로 오차 분산 추정

이 경우에는 처리 평균들이 달라도 상관없다. 그럼 각 처리내 관측값들의 분포는 다음과 같이 쓸 수 있다.

 

$Y_{i1}, Y_{i2}, \cdots, Y_{ir} \sim N(\mu_i, \sigma^2)$

 

각 처리평균들이 다르므로, 표본분산은 다음과 같이 쓴다.

 

$s_i^2 = \frac{1}{(r-1)}\sum_j (Y_{ij}-\bar{Y}_{i \cdot})^2$

 

오차 분산 $\sigma^2$은 하나인데, 서로 같지 않은 추정량이 $t$개 존재하게 된다. 또한, 각 $s_i^2$마다 나름대로 $\sigma^2$에 대한 정보가 있으므로 하나라도 무시할 수 없다. 그래서 이러한 경우에 통계학에서는 언제나 자유도를 기초로 한 가중평균을 취해준다. 즉:

 

$s_E^2 = \frac{(r-1)s_1^2 + \cdots + (r-1)s_t^2}{(r-1)t} = \frac{\sum_i^t (r-1)s_i^2}{N-t} = \frac{\sum_i^t \sum_j^r (Y_{ij} - \bar{Y}_{i \cdot})^2 }{N-t} = \frac{SSE}{N-t} = MSE$

 

$MSE$는 오차분산 $\sigma^2$의 추정량이 된다.

 

결국 처리평균이 모두 동일하면 $MStrt$와 $MSE$ 모두 오차분산 $\sigma^2$의 추정량이 될 수 있음을 확인했다. 그럼 만일 $MStrt$와 $MSE$의 값 간에 차이가 크다면, 이는 곧 처리 평균들 간에도 차이가 있음을 우리는 짐작할 수 있다. 이러한 짐작은 $MSE$와 $MStrt$에 대한 기댓값을 구해보면 확인할 수 있다. 이같은 평균 제곱에 대한 기댓값을 EMS(Expected Mean Square : 기대평균제곱)이라고 한다.

 

2. EMS

$SSE$와 $SStrt$에 대한 기대평균제곱은 다음과 같다.

 

(1) $E[SSE] = (N-t)\sigma^2$   $\therefore E[MSE] =\sigma^2$

(2) $E[MStrt] = \sigma^2 + r\frac{1}{t-1} \sum_i \tau_i^2$

 

우리가 앞서 짐작한 결과와 일치하게 나왔다. 처리평균들이 동일하면 즉 $\tau_i = 0$이면, $E[MStrt] = \sigma^2$이 된다. 또한 여기서 $\frac{1}{t-1} \sum_i \tau_i^2$는 $\bar{\tau} = 0$이므로 일종의 분산이며, 앞으로 $\frac{1}{t-1} \sum_i \tau_i^2 \equiv \sigma_{\tau}^2$으로 표기하기로 한다.

 

분산분석 시, 검정통계량 $F_0 = \frac{MStrt}{MSE}$로 분산비의 형태로 정의된다. 즉, 처리평균이 모두 동일하게 0이라는 귀무가설 $H_0$가 옳다면 분산비 $F_0$는 1에 가까워지고, 처리효과간 차이가 존재한다면 분산비는 1보다 커질 것이다. 이상의 논의가 분산분석 시 F-검정의 이론적 근거가 된다. 또한 CRD보다 더 복잡한 형태의 실험에서도 처리 효과에 대한 구체적인 분석법은 언제나 EMS간의 비교를 기초로 정립된다. 그래서 EMS 개념을 알아두는 것은 매우 중요하다.

 

마지막으로 분산분석표를 작성할 때, 총제곱합 $SST$에 대해서는 그 값을 대응되는 자유도로 나누는 행위를 하지않고 있는데 여기엔 이유가 있다. $SST$를 자유도로 나눈 $MST$의 기대값을 구해보면 다음과 같다.

 

$E(MST) = \sigma^2 + \frac{N-r}{N-1} \sigma_{\tau}^2$

 

이때 $\sigma_{\tau}^2$에 곱해진 $(N-r)/(N-1)$은 항상 1보다 작기 때문에, 결국 MST는 총분산(Total variance)인 $(\sigma^2 + \sigma_{\tau}^2)$을 항상 과소추정(underestimated)하는 biased estimator(편향추정량)가 된다.

 

 

참고 문헌

성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글