❗️블로그 옮김: https://www.taemobang.com
자유도(degrees of freedom)는 본질적으로 상호독립인 표본의 크기를 뜻한다. 예를 들어, 통계학에서 간단한 형태의 편차(deviation)를 계산하는 상황을 가정해보자. 가장 쉬운 예는 $(Y_i - \bar{Y})$이다. 표본의 크기를 n이라고 하면, $n$ 개의 편차들 간에 편차항들을 모두 더하면 0이 되는 종속성이 존재한다. 즉 $\sum(Y_i - \bar{Y}) = 0$이다. 따라서 편차항들 중 어느 하나를 잃어버려도 그 값이 무엇인지 항상 역산이 가능하다. $(n-1)$개의 관측값을 알고있다면, 나머지 하나는 $\bar{Y}$에 따라 결정된다는 말이다. 그래서 통계학에서는 $(n-1)$로 나눈 형태의 표본 분산을 선호하며, 또한 이것이 모분산 $\sigma^2$의 불편추정량(unbiased estimator)이 된다. 사실 편차의 얘기를 떠나서도, 평균 공식에서 분모로 사용되는 표본의 크기 $n$ 역시 자유도로서 이는 원시 데이터(raw data)의 자유도이다. 평균의 공식은 단순하게 $\frac{1}{n} \sum Y_i$이므로, $n$개의 데이터 중 어느 하나 자동으로 결정될 수 있는 값이 없다. 즉, 표본 크기가 $n$인 평균에서의 자유도는 $n$임이 자명하다. 분산은 편차 제곱항들의 평균이라고 할 수 있는데 이와 같은 (제곱합$\div$자유도)의 형태를 평균제곱편차 또는 간단히 평균제곱(mean squares, MS)이라 부른다.
분산 = 제곱합$\div$자유도 = $\frac{SS}{df}$ = 평균제곱 = MS
그럼 마지막으로 자유도 계산에 대해 완벽하게 이해하기 위해 한 가지 예를 들어 보자. 반복 횟수가 $r$이고 처리가 $t$개인 CRD design의 자료에 대해 one-way anova를 수행하는 상황을 생각해보자. 이때 오차제곱합 $SSE$의 자유도가 $(N-t)$로 정의되는 이유는 뭘까?($N = rt$) 이는 $SSE$의 계산 식을 살펴보면된다.
$SSE = \sum_i \sum_j (Y_{ij} - \bar{Y}_i)^2$
오차제곱합은 각 처리 그룹의 t개의 평균들에 의존하고 있으므로, 각 처리 그룹의 $r$개의 관측치들 중 $(r-1)$개를 알고 있다면 나머지 하나의 관측치는 역산이 가능해진다. 이러한 처리 그룹이 총 $t$개 존재하므로 $SSE$의 자유도는 결국 $(rt - t) = (N-t)$가 되는 것이다.
📝 참고 문헌
[1] 성내경 (2012). 실험설계와 분석 2판. 자유아카데미
'Etc' 카테고리의 다른 글
#9 대립가설이 옳다? (0) | 2020.12.31 |
---|---|
#8 표준편차와 표준오차 (3) | 2020.04.16 |
#6 선형대수를 이용한 주성분 유도 (0) | 2020.04.10 |
#5 머신러닝 용어 정리 (0) | 2020.04.09 |
#4 구간추정 해석에 대한 고전적 관점과 베이지안 관점 (0) | 2020.04.07 |
댓글