본문 바로가기
수리통계학

기댓값과 표본평균

by be-favorite 2020. 2. 25.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

 

 

기댓값은 $E(X)$와 같이 나타내고, 표본평균은 $\bar{X}$, $\bar{x}$와 같이 나타낼 수 있다. 통계학에 익숙하지 않은 사람은 세 개념이 헷갈릴 수 있다. 단순하게 생각하면 $E(X)$도 평균이고, $\bar{X}$, $\bar{x}$도 평균이기 때문이다. 그러나 세 기호 모두 사실 다른 개념이다. 이를 확실하게 잡기위해 그 차이점을 알아보자.

 

1. $E(X)$

확률분포와 기댓값에서 강조했듯이. 확률변수(random variable, r.v.)는 분포를 가진다. 분포를 가지는 확률변수의 기댓값 또는 평균(mean)을 나타내는 값이 $E(X)$ 이다. 즉 분포의 중심 위치 또는 무게중심을 나타내는 값이다. 또한 $E(X)$는 확률변수의 타입 연속형, 이산형에 따라서 조금 다른 형식으로 정의가 되며, 이 식만을 놓고보면 또 조금 다르게 $E(X)$를 해석할 수도 있다. 매우 중요한 개념이다. 그럼 먼저 식을 보자.

 

$E[X]= \left\{\begin{matrix} \sum_{x}xf(x),\, \textrm{X : discrete} 
\\ \int_{-\infty }^{\infty}xf(x),\, \textrm{X : continuous} 
\end{matrix}\right.$

 

위 처럼 정의된다. 식을 자세히 들여다보자. 이산형이든, 연속형이든 $\sum$, $\int$의 단순한 차이만 있지 내부의 식은 $xf(x)$로 동일하다. $f(x)$는 확률변수의 분포를 표현하는 식으로 $pdf$(probability density function)라고 표현한다. 즉, 확률변수의 어떤 값이 관측될 가능성을 확률로 표현한 식이다. $xf(x)$의 의미는 $pdf$를 기반으로한 가중평균의 개념으로 볼 수 있다. 예를 들어 관측값 $x_1$, $x_2$이 있다고하면 $x_1$과 $x_2$가 관측될 가능성을 가중값으로 하여 계산한(즉 $pdf$를 기반으로한) 가중평균이라고 할 수 있다.

 

2. $\bar{X}$

통계량이라는 용어에 대한 개념이 필요하다. 통계량은 표본들의 특성값(평균, 표준편차 등)이라고 표현하기도 하며, 가장 중요한 정의는 "확률변수의 함수로 정의되는 모든 것"이다.  즉, 통계량도 확률변수이므로 분포를 가진다. 참고로 우리가 자주쓰는 통계량인 표본평균, 표준편차등을 제외한 $X_1$ + $X_2$ + $X_3$도 통계량이다. 이제 다시 $\bar{X}$에 대한 얘기로 돌아오자. $\bar{X}$는 확률변수 $X_1$, $X_2$, $\cdots $, $X_n$을 n으로 나눈 확률변수들의 함수에 해당하므로 통계량이자, 확률변수라고 할 수 있다. 그러므로 $\bar{X}$도 통계량이자 확률변수이므로 분포를 가진다는 점을 인지하고 접근하는게 매우 중요하다. 정리하면, $\bar{X}$라는 기호는 분포를 가지는 확률변수인 표본평균의 의미를 담고있다.

 

통계학에서 $\bar{X}$와 $\bar{x}$의 구분은 필요하다. 먼저 우리는 왜 표본(sample)을 뽑을까? 사실 현실에서는 모집단(population)을 전수조사할 수 없는 경우가 많다. 그래서 이 모집단의 특성을 추론(이 특성을 잘나타내주는 값으로 평균과 분산등이 있다.)하기위해 표본(sample)을 잘 뽑는 과정이 필요하다. 표본평균은 말그대로 표본들의 평균이다. 표본(sample)은 모집단(population)으로부터 랜덤하게 추출한 것이다 즉, 뽑을때마다 다르다. 그러므로 표본평균의 값도 매번 다를 수 있으며, 그 가능성을 표현할 필요가 있다(분포를 가진다는 말과 동일하다). 이러한 이유에서, 통계학에서 $\bar{X}$와 $\bar{x}$의 구분은 이론전개에 있어서 매우 중요하다. 

 

3. $\bar{x}$

위 개념을 이해했다면, 이는 이해하기 쉽다. 모집단으로부터 샘플링된 표본집단의 평균이다. 다시 말하면, 표본을 관측하고 난 후의, 그 관측값을 통해 구한 표본집단의 평균 값이다. 즉 $\bar{x}$ 기호로 표시되는 표본평균은 상수를 의미하며, 모집단으로부터 뽑힌 자료들이 가지는 평균(중심 위치) 그 자체를 의미한다.

'수리통계학' 카테고리의 다른 글

검정력과 검정력 함수에 대해  (0) 2020.03.30
이산형 확률분포  (0) 2020.02.17
확률분포와 기댓값  (0) 2020.02.16

댓글