❗️블로그 옮김: https://www.taemobang.com
표준편차(standard deviation)와 표준오차(standard error)에 대해 확실하게 정리합시다. 먼저 우리가 자료를 얻었을 때 주로 관심있는 것은 자료의 중심과 퍼짐성을 요약할 수 있는 특성값들로, 일반적으로 자료의 중심은 평균(mean), 자료의 퍼짐성을 잴 때는 분산 또는 표준편차를 사용합니다. 따라서 모집단에는 모평균 $\mu$, 모분산 $\sigma^2$, 모표준편차 $\sigma$가 중요한 특성값이며, 이들의 추정에 사용할 수 있는 좋은 통계량(statistic)이 각각 표본평균 $\bar{X}$, 표본분산 $s^2$, 표본표준편차 $s$에 해당합니다.
표준편차
표준편차란, 원시 자료(raw data)의 퍼짐성을 재는 측도라고 할 수 있습니다. 원시 자료의 퍼짐성은 모분산으로 측정할 수 있으나, 실제 문제에서 모분산에 대한 정보가 있는 경우는 드물다고할 수 있습니다. 그래서, 이 모분산의 좋은 추정값으로 우리는 표본분산 $s^2$을 이용합니다. 표본분산은 표본표준편차 $s$의 제곱 형태로 주어지는데, 통계분석시 분산이 직접적으로 사용되는 경우가 드뭅니다. 즉, 통계추론의 목적으로는 대부분의 경우 분산보다는 표준편차가 이용됩니다. 그 이유는 표준편차가 자료의 원 단위와 일치하기 때문입니다($\because$ 편차제곱항들의 평균에 루트를 씌운 형태이므로). 표본분산과 표본표준편차의 식은 다음과 같이 정의할 수 있습니다:
표본분산 $s^2 = \frac{1}{n-1}\sum_i^n (Y_i - \bar{Y})^2$
표본표준편차 $s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_i^n (Y_i - \bar{Y})^2} $
표본 수 $n$이 아닌 $n-1$로 나눠주는 이유는, $n-1$로 나눈 형태가 불편성(unbiasedness)을 만족하는 추정량이기 때문입니다.
표준오차
표준오차는 근본적으로 통계량에 관한 특성값입니다. 즉, "모평균의 표준오차"라는 말은 존재하지 않습니다. 우리가 자료로부터 통계량의 표준편차를 추정하게 될 때, 우리는 이를 (통계량의) 표준오차라고 부릅니다. 설명의 편의를 위해 통계량을 표본평균이라고 해보겠습니다. 표본평균은 수집된 자료(관측자료, 원시자료)의 중심을 나타내는 값이라 할 수 있습니다. 그러나, 통계 분석에서는 자료의 중심위치를 나타내는 평균뿐만이 아닌, 자료의 변동(variability)에 관한 정보를 제공하는 것도 매우 중요합니다. 통계 추론에 점 추정뿐만이 아닌 구간 추정이 존재하는 이유도 이러한 이유에서 입니다. 그래서, 우리는 이 표본평균 $\bar{X}$의 퍼진 정도를 나타낼 수 있는 측도가 필요하며, 표준오차가 바로 그 측도에 해당합니다. 정확하게 말하면 표본평균의 표준오차에 해당하겠죠. 조금 더 다르게 말해보면, 표본평균의 표준편차를 추정하게 될 때 사용하는 값이 표본평균의 표준오차라고 할 수 있겠습니다. 표준오차는 S.E(stantard error)로 나타내며, 표본평균의 표준오차는 다음과 같이 계산할 수 있습니다. 표본평균의 표준오차에 대한 추정값은 곧 표본평균의 표준편차라고 했습니다:
S.E($\bar{X}$) $= \sqrt{\textrm{Var}(\bar{X})} = \sqrt{\textrm{Var}(\frac{1}{n}\sum X_i)} = \sqrt{\frac{1}{n^2}\textrm{Var}(\sum X_i)} = \sqrt{\frac{1}{n^2} ns^2} = \frac{s}{\sqrt{n}}$
즉, 표본평균의 표준오차를 $\frac{s}{\sqrt{n}}$으로 정의함은 당연한 것입니다. 그리고, 대부분의 검정통계량, 신뢰구간 추정의 계산은 표본평균에 기반한 값들로 이루어지기 때문에, 보통 "표본평균의" 표준오차가 아닌 "표준오차"라고만 칭합니다. 앞서 서술한 말들을 잘 이해하셨다면, 이제는 표준오차가 $\frac{s}{\sqrt{n}}$으로 주어지는 것에 대한 이해의 찝찝함이 충분히 풀어지셨을거라 생각합니다. 아울러, 위 말들을 잘 곱씹어보면 표준오차의 식이 $\frac{s}{\sqrt{n}}$인 것은 따로 외우려고 노력하지 않아도, 머릿 속에 들어오실겁니다.
표본평균의 퍼짐성? 변동?
마지막으로 표본평균의 퍼짐성, 변동을 측정한다는 말이 이해가 안되는 분들, 또는 그 필요성이 이해가 안되는 분들을 위해 한 가지 예를 들어 부연 설명을 해보겠습니다. 한 사람에게 A 고등학교의 남학생 평균 키를 100명을 대상으로 계산을 시켰다고 합시다. 이때 평균이 170이 나왔고, 이를 다른 사람에게 똑같이 시켰더니 172.5가 나왔습니다. 즉, 상식적으로 임의의 모집단에 대해 여러번의 샘플링을 했을 때 매번 같은 표본 평균이 나올 수는 없으며, 퍼짐이 존재하는 것은 당합니다. 그리고, 퍼짐이 존재함은 일정한 분포(distribution) 형태를 가질 수 있음을 말합니다. 아울러, 우리가 이론적 관점에서 바라보아도 표본평균은 분포를 가짐이 당연합니다. 그 이유는 $\bar{X} = \frac{1}{n}\sum X_i = \frac{1}{n}(X_1 + \cdots + X_n)$으로 즉 $\bar{X}$는 확률변수들의 선형결합의 형태이므로 통계량에 해당하기 때문이죠. 통계학을 접근할 때 기본적으로 알아두어야 가장 중요한 개념 중 하나는 확률변수는 분포를 가진다는 점입니다. 즉, 통계량도 분포를 가지므로 표본평균이 분포를 가지고 퍼짐이 존재하는 것은 당연하며, 그에 따라 분포의 중심뿐만이 아닌 퍼짐에 대한 추정을 수행하는 것 또한 꼭 필요로 된다고 할 수 있습니다. 1
📝참고문헌
[1] 성내경 (2012). 실험설계와 분석 2판. 자유아카데미
[2] <슬기로운 통계생활> on Youtube
- 통계량도 확률변수의 일종에 해당하므로 분포를 가짐 [본문으로]
'Etc' 카테고리의 다른 글
#10 중심극한정리의 의미 (1) | 2021.01.10 |
---|---|
#9 대립가설이 옳다? (0) | 2020.12.31 |
#7 자유도 (0) | 2020.04.16 |
#6 선형대수를 이용한 주성분 유도 (0) | 2020.04.10 |
#5 머신러닝 용어 정리 (0) | 2020.04.09 |
댓글