본문 바로가기
Machine&Statistical Learning/GAM

선형모형의 한계

by be-favorite 2020. 6. 6.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

 

선형 모형(Linear models)은 상대적으로 적용이 쉬우며 다른 어떤 접근 방법들보다 해석(Interpretation)과 추론(Inference)에 있어서 상당한 이점을 가진다. 그러나 GLMs(Generalized linear models)을 포함한 표준 선형 회귀(Standard linear regression)는 예측력에 있어서 명확한 한계가 존재한다. 그 이유는 선형성 가정(The linearity assumption) 때문인데, 실제 데이터에서 이 가정은 대개 항상 근사적으로 만족되는 것이며, 때로는 근사적으로 만족하기 힘든 경우(poor)도 존재하기 때문이다. 물론 OLS(Ordinary least squares) 회귀가 예측에서 가지는 문제점을 Ridge regression, Lasso regression, 주성분(Principal components regression) 회귀와 같은 방법론을 이용하여 회귀계수 추정량의 분산(Variance)을 낮춤으로써 선형 모형의 복잡도를 감소시켜 어느 정도 예측력의 개선을 이루어 낼 순 있지만, 그래 봤자 이들은 모두 선형 모형에 해당한다.

 

그래서 우리의 최종 목적은 선형 모형이 가지는 해석력을 최대한 유지하며 선형성 가정을 완화(relax)시키는 것이다. 이를 위해, <Statistical Learning(Machine Learning) - GAMs : Generalized Additive Models> 게시판에서는 선형 모형의 확장으로 다항 회귀(Polynomial regression)와 계단 함수(Step functions)뿐만 아니라, splines, 국소 회귀(Local regression), GAMs(Generalized Additive Models : 일반화 가법 모형)과 같은 좀 더 복잡한 형태의 접근까지 소개할 예정이다. 다음 포스팅에서 이들에 대해 순서대로 글을 쓸 것이다. 그 전에 각 모형을 간단하게 정의해보자.

 

 ○ 다항 회귀(Polynomial regression)

 예측 변수(predictor) $X$의 차수를 높혀 이를 모형에 추가함으로써 예측력을 개선하는 것으로 선형 모형을 확장시킨 것에 해당한다. 예를 들어, 3개의 변수 $X, X^2, X^3$를 예측 변수로 고려할 수 있으며, 이를 특히 cubic regression이라고 칭한다. cubic regression은 데이터에 비선형(non-linear) 적합을 수행하는 간단한 방법에 해당한다.

 

 ○ 계단 함수(Step functions)

 $X$의 범위(range)를 각각의 구분되는 영역(예를 들면, $K$개의 영역)으로 나누어 영역별로 상수 함수(A piecewise constant function)를 적합시키는 것을 말한다.

 

 ○ Regression splines

 다항 회귀와 계단 함수보다 더 유연한(flexible) 방법으로 사실 이 둘을 결합한 것을 말한다. 즉, $X$의 범위를 $K$개의 영역으로 나누고 각 영역에 다항 회귀를 적합하는 것이다. 그러나, 이때 단순히 각 지역의 다항 회귀 적합이 이루어지는 것이 아니라, 각 영역의 경계(boundaries, 이를 "knots"이라고 표현함)에서 끊어지지 않고 부드럽게(smoothly) 결합되도록 하는 제약이 존재한다. 만약 예측 변수가 가지는 구간을 충분히 많은 영역으로 나누었을 경우, Regression splines는 데이터에 상당히 flexible하게 적합된다. flexible하게 적합된다는 것은 그만큼 데이터의 패턴을 잘 따라가는 비선형 적합을 수행하는 것을 말한다. 

 

 ○ Smoothing splines

 Regression splines과 유사하나 약간 다르다. Smoothing splines는 잔차(residuals)의 제곱합을 최소화시키도록 데이터에 적합된다(단, 이때 smoothness penalty가 존재함),

 

 ○ 국소 회귀(Local regression)

 국소 회귀는 splines와 유사하면서, 상당히 다르다. 각 지역이 겹쳐지는 것(overlap)을 허용하여 매우 smooth하게 적합된다.

 

 ○ GAMs(Generalized Additive Models : 일반화 가법 모형)

 GAMs은 상술한 방법들을 데이터가 가지는 여러 예측 변수에 적용함으로써 $y$에 대한 예측을 수행하는 모형이다. 그래서, GAMs에 대해 알아보기 전에는 위 방법들에 대한 이해가 선행되어야 한다.

 

앞으로 <Statistical Learning(Machine Learning) - GAMs : Generalized Additive Models> 게시판에서 소개할 방법론들에 대해 간단하게 기술해보았다. 최대한 쉽게 써보려고 했는데 이해가 어렵다면.. 추후에 각 주제에 대해 자세히 포스팅될 글들을 기다려주길 바란다!

 

 

참고 문헌

James, Gareth, et al. An Introduction to Statistical Learning. Springer. 2013

'Machine&Statistical Learning > GAM' 카테고리의 다른 글

GAMs: Generalized additive models  (3) 2020.06.22
Local regressions  (0) 2020.06.10
Smoothing splines  (0) 2020.06.09
Regression splines  (0) 2020.06.08
다항 회귀와 계단 함수  (0) 2020.06.08

댓글