❗️블로그 옮김: https://www.taemobang.com
※ prerequisite
고차원 데이터에서 고전적인 회귀분석이 가지는 문제점
Ridge regression
Lasso regression
Bias reduction of Lasso estimator
Variance reduction of Lasso estimator
최소제곱 손실함수를 기반으로 추정을 수행하는 선형 회귀(LSE)는 정규분포를 따르는 데이터에 적절하다. 그러나, 실제 데이터는 종종 많은 이상치를 갖고 있어 꼬리가 두꺼운 형태의 분포를 가질 수도 있으며, 최소절대편차(LAD:least absolute deviation) 손실함수를 기반으로 추정하는 LAD 모형(또는 Robust regression model)이 이상적인 대안이 될 수 있다. 이상치가 많은 경우에는 최소제곱 손실함수를 기반으로 추정할 때보다 더 좋은 예측 성능을 낸다. LAD 모형에도 앞서 배운 많은 penalty 함수(e.g. Ridge, Lasso, SCAD, Elastic net, MNet, etc.)들을 그대로 적용할 수 있으며, 이를 Penalized robust regression(또는 Penalized LAD model)이라고 한다. 즉, 목적함수의 형태는 다음과 같다:
$Q(\boldsymbol{\beta}| X, y) = \sum_i |y_i - x_i^T\boldsymbol{\beta}| + P_{\lambda}(\boldsymbol{\beta}) $
위 식에서 확인할 수 있는 바와 같이 손실 함수에 절댓값이 포함되어 미분이 불가능하다. 즉, 좌표 하강법(Coordinate descent algorithms)에서 수렴에 문제가 발생한다. 이에 대한 해결책은 미분 가능한 절댓값 함수를 추정하는 것이다:
$L(r_i) = \left\{\begin{matrix}
r_i^2& \rm{if}\;\; |r_i| \leq \delta \\
\delta(2|r_i| - \delta)& \rm{if}\;\; |r_i| > \delta
\end{matrix}\right.$
이 방법을 Huber loss approximation이라 하며, $\delta \rightarrow 0$으로 완화시킴에 따라 본래의 LAD 문제(The original LAD problem)를 푸는것과 같아진다.
실제로 Simulation study에서 데이터의 생성 과정(Data-generating process)에 Noise($\sigma$)를 조절하여 LSE를 손실함수로 사용하는 일반적 선형회귀 모형과 Huber loss를 손실함수로 쓰는 회귀 모형의 성능을 비교하면 다음과 같은 결과가 나온다:
데이터의 noise가 커져 이상치가 많아짐에 따라 LSE는 성능이 매우 떨어지지만, Huber loss의 경우 여전히 좋은 성능을 보인다.
'고차원 자료분석' 카테고리의 다른 글
Penalized logistic regression (0) | 2020.06.02 |
---|---|
Variance reduction of Lasso estimator (0) | 2020.05.26 |
Bias reduction of Lasso estimator (2) | 2020.05.26 |
Lasso regression (0) | 2020.04.28 |
Ridge regression (1) | 2020.04.10 |
댓글