본문 바로가기
Etc

#7 자유도

by be-favorite 2020. 4. 16.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

 

자유도(degrees of freedom)는 본질적으로 상호독립인 표본의 크기를 뜻한다. 예를 들어, 통계학에서 간단한 형태의 편차(deviation)를 계산하는 상황을 가정해보자. 가장 쉬운 예는 $(Y_i - \bar{Y})$이다. 표본의 크기를 n이라고 하면, $n$ 개의 편차들 간에 편차항들을 모두 더하면 0이 되는 종속성이 존재한다. 즉 $\sum(Y_i - \bar{Y}) = 0$이다. 따라서 편차항들 중 어느 하나를 잃어버려도 그 값이 무엇인지 항상 역산이 가능하다. $(n-1)$개의 관측값을 알고있다면, 나머지 하나는 $\bar{Y}$에 따라 결정된다는 말이다. 그래서 통계학에서는 $(n-1)$로 나눈 형태의 표본 분산을 선호하며, 또한 이것이 모분산 $\sigma^2$의 불편추정량(unbiased estimator)이 된다. 사실 편차의 얘기를 떠나서도, 평균 공식에서 분모로 사용되는 표본의 크기 $n$ 역시 자유도로서 이는 원시 데이터(raw data)의 자유도이다. 평균의 공식은 단순하게 $\frac{1}{n} \sum Y_i$이므로, $n$개의 데이터 중 어느 하나 자동으로 결정될 수 있는 값이 없다. 즉, 표본 크기가 $n$인 평균에서의 자유도는 $n$임이 자명하다. 분산은 편차 제곱항들의 평균이라고 할 수 있는데 이와 같은 (제곱합$\div$자유도)의 형태를 평균제곱편차 또는 간단히 평균제곱(mean squares, MS)이라 부른다.

 

분산 = 제곱합$\div$자유도 = $\frac{SS}{df}$ = 평균제곱 = MS

 

그럼 마지막으로 자유도 계산에 대해 완벽하게 이해하기 위해 한 가지 예를 들어 보자. 반복 횟수가 $r$이고 처리가 $t$개인 CRD design의 자료에 대해 one-way anova를 수행하는 상황을 생각해보자. 이때 오차제곱합 $SSE$의 자유도가 $(N-t)$로 정의되는 이유는 뭘까?($N = rt$) 이는 $SSE$의 계산 식을 살펴보면된다.

 

$SSE = \sum_i \sum_j (Y_{ij} - \bar{Y}_i)^2$

 

오차제곱합은 각 처리 그룹의 t개의 평균들에 의존하고 있으므로, 각 처리 그룹의 $r$개의 관측치들 중 $(r-1)$개를 알고 있다면 나머지 하나의 관측치는 역산이 가능해진다. 이러한 처리 그룹이 총 $t$개 존재하므로 $SSE$의 자유도는 결국 $(rt - t) = (N-t)$가 되는 것이다.

 

📝 참고 문헌

[1] 성내경 (2012). 실험설계와 분석 2판. 자유아카데미

댓글