본문 바로가기
수리통계학

확률분포와 기댓값

by be-favorite 2020. 2. 16.

 

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

 

"확률변수(random variable : r.v.)는 분포를 가진다" 

 

확률변수라는 것이 정의될 때뿐만 아니라 수리통계학에서 위 개념을 가지고 접근하는 것이 매우 중요하다.

 

1. 확률변수(random variable : r.v.r.v.)

확률변수 XX는 표본 공간에서 정의되는 실숫값을 취하는 함수(real-valued function)이다.

 

X:SRX:SR

 

여기서 SS는 표본 공간(Sample space)를 의미하며, R은 실수 영역를 의미한다. 이해를 돕기위해 예를 들어보자. 공정한 주사위를 1회 던지는 확률실험에서 표본공간은

 

SS = {1,2,3,4,5,6}{1,2,3,4,5,6} {w1,w2,,w6}{w1,w2,,w6}

 

으로 정의되며, 표본공간에서 정의되는 함수 XXX(w)X(w) = 원소 ww의 짝수의 수, wSwS 와 같이 정의하면, 함수 XX는 실수값을 가지는 함수이므로 확률변수가 된다. 이때, XX의 영역(range)는 AA = {0, 1}이 된다.

 

후의 포스팅에서 다루게될 이산형 확률분포와 연속형 확률분포에 대해서 주의해야 할 점 하나를 먼저 언급하자면, 혈액형이나 성별과 같은 이산형(discrete) 확률분포에서의 한 점에서 함숫값(막대의 높이)은 그 점의 확률을 의미하지만, 키나 몸무게와 같은 연속형(continuous) 확률분포에서의 함숫값은 그 자체로 확률을 의미하는 것이 아니라는 것이다. 연속형 분포에서 함수값은 곧 그 값 주변의 값을 취할 가능성을 상대적 높이로 나타낸 것이라 할 수있다. 따라서 연속형 분포의 확률밀도함수의 f(x)f(x)의 경우 아랫부분의 면적이 1을 만족할 뿐이며, 한 점에서 함숫값 자체는 얼마든지 1보다도 클 수 있다. 단적인 예로 연속형 확률분포 중 하나인 지수분포를 떠올려보자. 해당 분포의 모수 λλ에 따른 지수분포의 형태는 다음과 같이 주어지며, 보이는 바와 같이 함숫값이 1이 넘는 경우도 존재한다:

 

그림 1. 지수분포의 확률밀도함수(pdf)

지수분포도 물론 연속형 확률분포에서 다루게 될 분포들 중 하나이다.

 

2. 누적분포함수(cdfcdf)

이제 이 확률 변수 XX의 분포를 묘사하는 방법들 중 하나인 누적분포함수(cumulative distribution function : cdfcdf)에 대해서 알아보자. 참고로 확률 변수 XX의 분포를 묘사하는 방법들로는 cdfcdf 이외에 대표적으로 확률밀도함수(probability density function : pdfpdf)<footnote> 이산형의 경우 특히 probability mass function : pmfpmf 라고 표현하기도 함</footnote>, 적률생성함수(moment-generating function : mgfmgf) 등이 있다. 누적분포함수는 기호로 아래와 같이 나타낸다.

 

F(x)=P(Xx)F(x)=P(Xx)

 

주의해야 할 점으로는 XX의 분포 함수는 항상 연속형 또는 이산형인 것만 존재하는 것이 아닌, 혼합형도 존재할 수 있다는 점이다.

 

pdfpdf 와의 관계

F(x)={txf(t),X : discretef(x)=F(x)F(x1)xf(t),X : continuousf(x)=ddxF(x)

 

3. 확률 변수의 기댓값

기댓값(Expectation)이란 확률변수가 가지는 분포의 중심 위치(또는 무게중심)를 나타내는 값이라고 할 수 있다. 확률변수 Xpdff(x)를 가질 때, X의 함수인 u(X)의 기댓값은 E[u(X)]로 표기하고 다음과 같이 정의된다.

 

E[u(x)]={xu(x)f(x),X : discreteu(x)f(x),X : continuous

 

위 기댓값의 정의를 기반으로 통계학에서 중요하게 취급되는 몇 가지 u(X)의 형태가 있다.

 

u(X)=X 일 때

확률변수 X의 기댓값 또는 평균(Mean)이라고 하며, 분포의 중심 위치(또는 무게중심)를 나타내는 값이라고 할 수 있다.

 

u(X)=(Xμ)2 일 때

확률변수 X의 분산이라고 한다. 또한 이것에 루트()를 씌운 형태를 X의 표준편차(standard deviation)라고 하며, 분포가 평균(μ)로부터 퍼진 정도를 나타내는 값이다.

 

u(X)=etX 일 때

Mx(t)=E(etx)={etxf(x),X : discreteetxf(x)dx,X : continuous

 

이를 X의 적률생성함수(mgf)라고 한다. 모든 분포에 대해서 mgf가 반드시 존재하는 것은 아니지만, 존재하기만 하면 유일하게(unique) 대응되는 성질을 가진다. uniqueness는 통계학에서 매우 중요한 성질이다. 참고로 E(Xk)X의 k차 적률이라고 하며, E(Xμ)k를 k차 중심적률이라 한다. 즉, 2차 중심적률은 분산과 동일하다.

 

4. 왜도와 첨도

(1) 왜도(Skewness)

표준화된 확률변수 X의 3차 적률에 해당하는 값이다. 참고로 표준화(standardized)란 확률변수에 평균(μ)을 빼고 표준편차(σ)를 빼준 Xμσ와 같은 작업을 하는 것을 의미한다. 예를 들어 실제 데이터 분석 시에 적합시키고자 하는 모형이 데이터셋의 각 변수들의 단위에 민감한 경우에 표준화 작업은 필수적이라고 할 수 있다. 어쨌든, 즉 왜도는 아래와 같이 정의된다.

 

E(Xμ)3σ3

 

왜도 값이 0이면 확률 변수의 분포는 정확하게 대칭이며, 음수이면 분포가 오른쪽으로 치우쳐져 있으며 "skewed to the left" 또는 왼쪽으로 꼬리가 긴 분포라고 정의한다. 양수이면 분포가 왼쪽으로 치우쳐져 있으며 "skewed to the right" 또는 오른쪽으로 꼬리가 긴 분포라고 정의한다.

 

그림 2. 왜도에 따른 분포 형태

 

위 그림을 보면, 왜도 값이 양수인 오른쪽으로 꼬리가 긴 분포의 경우 중앙값(median)이 평균(mean) 보다 작은 값을 가지고 있다. 그 이유에 대해 조금만 직관적으로 생각해보면 따로 기억하려고 노력할 필요가 없어진다. 중앙값이란 자료를 크기순으로 배열하고 그 중간에 위치하는 값으로 자료 값의 평균적 크기에서 크게 벗어나는 이상치(outlier)에 민감하지 않다. 그에 반해 평균은 이상치에 민감한 측도로, 큰 이상치 값들이 분포하고 있는 오른쪽으로 꼬리가 긴 분포의 경우 당연히 중앙값보다 큰 값을 가지게 된다.

 

(2) 첨도(Kurtosis)

표준화된 확률변수 X의 4차 적률로 정의한다. 즉 아래와 같이 정의되며, 쉽게 말하면 확률변수 X가 가지는 분포의 뾰족한 정도를 나타내는 척도이다. 즉 분포의 산포 정도를 나타내는 값으로도 생각될 수 있다.

 

E(Xμ)4σ4 - 3

 

수식에서 굳이 3을 빼주는 이유는, 정규분포(Normal distribution 또는 Gaussian distribution이라고 표현하기도 함)를 갖는 확률변수의 E(Xμ)4σ4 값이 3을 가지기 때문에, 이 정규분포의 첨도를 0으로 맞춰주기 위함이라고 생각된다. 또한 정규분포는 완벽히 좌우대칭을 이루는 분포로 왜도 값도 0이다.

 

그림 3. 첨도에 따른 분포 형태

 

📝 참고 문헌

나종화 (2012). 수리통계학. 자유아카데미

 출처

그림 1: en.wikipedia.org/wiki/Exponential_distribution

그림 23: beaconhillprivatewealth.com/viewpoints/are-you-compensated-for-your-risk

'수리통계학' 카테고리의 다른 글

검정력과 검정력 함수에 대해  (0) 2020.03.30
기댓값과 표본평균  (0) 2020.02.25
이산형 확률분포  (0) 2020.02.17