본문 바로가기
Machine&Statistical Learning

GLMs: Generalized Linear Models

by be-favorite 2020. 6. 6.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

GLMs(Generalized Linear Models : 일반화 선형 모형)은 다중 선형 회귀(Multiple linear regression)의 일반화로 생각될 수 있다. GLMs의 자세한 소개 이전에, 먼저 GLMs의 motivation을 알아보기 위해 간단하게 선형 회귀모형(Linear regression models)에 대해 간략하게 요약을 한다.

 

선형 회귀모형 요약

일반적인 (다중) 선형 회귀모형은 다음의 세 가지 구성요소를 가진다고 말할 수 있다.

 

 ○ 종속변수(Dependent variables) $Y$, where  $y_i \sim \textrm{i.i.d} \; N(\mu_i, \sigma^2)$ (즉, 모형을 적합하고 남은 잔차는 평균이 0이고 분산이 $\sigma^2$인 정규분포를 따라야 함. 단, 이때 분산은 상수로 가정)

 ○ $k$ 개의 설명변수 $X_1, X_2, \cdots, X_k $를 요소로 가지는 벡터

 ○ $(k+1)$ 개의 모수(parameters)들 $\beta_0, \beta_1, \cdots, \beta_k$를 요소로 가지는 벡터  : 설명변수들의 선형 결합으로 $Y$의 기댓값($E(Y)$)을 표현할 수 있게 해 준다.

 

선형 회귀모형을 적합하는 목적은 결국 관측된 데이터를 기반으로 $y$의 확률분포를 최적으로 정의할 수 있는 모수 값을 결정하는 것이다. 이때 모수는 회귀계수를 말한다. 이러한 선형 회귀의 약점(disadvantage)은 모형이 데이터에 잘 적합되기 위해 따라야 하는 정규성 가정(Normality assumption)이라고 할 수 있다. 정규분포를 따르는 데이터는 모든 실수상에 존재하며, 연속성과 대칭성을 가진다. 이러한 성질을 갖는 $y$에 대한 모형 설정에 두 가지 목적(예측과 features의 효과 추정)이 동시에 필요할 때 우리는 선형 회귀모형 적합을 시도한다($y$에 대한 예측만이 목적이라면 굳이 회귀모형을 이용할 필요가 없다고 생각한다. 그 이유는 모집단에 대한 가정 없이 예측 성능이 더 뛰어난 많은 지도학습 기법들이존재하기 때문이다). 

 

만약 $y$가 이산형(discrete)이거나 비대칭적인 분포, 또는 한정된 구간 내에서 존재할 경우, 일반적인 선형 회귀모형을 적합하면 문제가 발생할 것이다. 물론, 적합을 할 순 있지만 좋은 예측성능과 회귀계수의 정확한 추정을 기대하긴 힘들것이다. 학부 때 통계학을 전공했던 사람들이라면 알다시피, 선형 회귀모형 적합 후 잔차 분석에서 문제가 발생하거나 사전에 데이터가 상술한 가정 중 하나 또는 그 이상의 가정을 만족하지 않으면 행해지는 특정 작업이 있다. 예를 들어, 데이터에 치우침이 존재하면 로그나 제곱근을 취하는 작업을 한다. 이런 식의 간단한 변환이 도움이 되는 경우도 있지만, 대부분의 경우에 이는 근본적인 해결책이 아니다. 이때 필요한 근본적인 해결책은 정규분포 가정 외에 주어진 데이터에 맞는 다른 유형의 분포를 가정할 수 있는 회귀모형을 사용하는 것이며, 이 모형이 바로 GLMs이다.

 

GLMs

GLMs 또한 선형 회귀모형과 약간은 다르지만 비슷한 세 가지 구성요소를 가진다.

 

 ○ 종속변수(Dependent variables) $Y$  : 여기서 종속변수 벡터 $Y$의 모든 구성요소들(즉, 모든 관측치) $y_i$는 지수족(exponential family)에 속하는 분포로부터 독립적으로 관측되었다고 가정한다. 
 ○ $k$ 개의 설명변수 $X_1, X_2, \cdots, X_k $를 요소로 가지는 벡터
 ○ $(k+1)$ 개의 모수(parameters)들 $\beta_0, \beta_1, \cdots, \beta_k$를 요소로 가지는 벡터와 link function $g()$ : $g()$를 통해 $Y$의 기댓값을 설명변수들의 선형 결합으로 표현할 수 있게 된다. 즉,  $g(E(Y))$.   

 

GLMs의 적합은 선형 회귀모형과 같으나, $Y$가 정규분포만을 따라야 한다는 제약은 없어졌다. GLMs의 가정에서 $Y$는 지수족(Exponential family)에 속하는 어떤 확률분포라도 따를 수 있게 된다. 지수족은 분포족(Family of distribution)이 가지는 성질로, 지수족에 속하는 분포의 경우 완비충분통계량(C.S.S : Complete Sufficient Statistic)을 구하기 쉽다는 장점이 있다(완비충분통계량이 가지는 장점은 수리 통계학의 Lehmann-Scheffe 정리로 이어진다). 지수족에는 수많은 분포(지수분포, 정규분포, 감마분포, 카이제곱분포, 포아송분포, 이항분포, 음이항분포, 베타분포, 로그정규분포 등등)가 포함되며, 이에 따라 GLMs에서는 실제 데이터에서 다양하게 존재할 수 있는 $y$의 분포를 반영할 수 있게 된다. 또한, link function의 목적은 앞서 밝혔듯이 $Y$의 기댓값을 설명변수들의 선형 결합으로 표현할 수 있게끔 변환하는 것에 있다. link function의 목적이 $Y$가 정규성을 만족시키기 위함이라는 것은 잘못된 것이므로 주의해야 한다.

 

실제 데이터의 GLMs 적용에서 $Y$가 가진 정보를 살펴보고, $Y$가 지수족 내의 어느 확률분포로부터 나왔을 것이라고 가정함에 따라 흔히 사용되는 link function들이 있으며 이는 다음과 같다($m = E(Y)$).

 

$Y$의 분포 Link function
Normal Identity : $g(m) = m$
Gamma Negative Inverse : $g(m) = -\frac{1}{m}$
Log : $g(m) = ln(m)$
Poisson Log : $g(m) = ln(m)$
Binomial Logit : $g(m) = ln(\frac{m}{1-m})$

 

위 표에서 우리가 확인할 수 있는 흥미로운 것은, 선형 회귀모형은 결국 $Y$에 대해 정규분포 가정, Link function으로 항등 함수(Identity function)를 사용하는 GLM의 특별한 경우에 해당한다는 것이다. 그리고, $Y$가 이진 변수를 따를 경우 흔히 사용하는 로지스틱 회귀모형의 경우도 $Y$에 대해 이항 분포(Binomial) 가정, Link function으로 로짓 변환(Logit transformation)을 사용하는 GLM의 특별한 경우에 해당한다.

 

GLMs 적용의 예

(1) Case 1 : Count data

Count data란, $Y$가 비음의 정수 값만을 취하는 데이터를 말한다. 즉 이산형에 해당하며, 보통 일정기간 동안 특정 형태의 사건(event)의 관측을 셀 때 나타난다. 예를 들어, 연별 교차로 차사고 수 또는 매일 어떤 공정이 실패하는 횟수 등이 Count data에 해당한다. 이러한 Count data의 GLM 적합에 가장 흔히 가정하는 확률분포는 포아송 또는 음이항 분포이며, 그에 따른 Link function로는 Log 함수를 택한다(이때 Log는 자연로그를 말함).

 

(2) Case 2 : Skewed data

비대칭 데이터는 어느 방향으로든 치우칠 수 있으나, 실제 문제에서 대부분은 right skewed data(양의 왜도 값을 가지는 데이터, 즉 오른쪽으로 꼬리가 긴 분포)를 다루게 될 것이다. 즉, 우리의 확률분포는 이러한 right skewed를 나타낼 수 있는 것이어야 하며, 이러한 경우 가장 흔히 선택되는 것은 감마분포와 Log link function이다. 감마분포는 0보다 큰 값만을 취할 수 있기 때문에, 만약 주어진 데이터의 $Y$가 음의 값 또는 0을 취한다면 모형 적합 전 전처리 단계에서 $Y$에 충분히 큰 상수값을 더 해줄 필요가 있다. 예를 들어, $Y$가 0을 포함한 비음의 값을 취하고 있다면 감마분포를 가정한 GLM을 적합하기 전에 $Y$의 모든 값에 0.01을 더해줘야한다.

 

(3) Case 3 : Binary data

$Y$가 두 가지 값만을 취하는 이진 변수인 경우를 말한다. 이때 GLM 적합에는 $Y$를 이항분포로 가정하고 Logit link function을 사용한다. 이는 우리에게 "로지스틱 회귀모형(Logistic regression model)"이라고 더 잘 알려져있다.

 

 

웹페이지 참고 -

Beyond Linear Regression: An Introduction to GLMs [Towards data science]. (2020, June 06).

towardsdatascience.com/beyond-linear-regression-an-introduction-to-glms-7ae64a8fad9c

'Machine&Statistical Learning' 카테고리의 다른 글

Logistic regression  (1) 2020.05.23
Ensemble methods  (0) 2020.02.12

댓글