본문 바로가기
시계열 자료분석/시계열 회귀모형

Distributed lag non-linear models

by be-favorite 2021. 4. 2.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

prerequisite

ARIMA 모형

허구적 회귀

ARIMA 오차 회귀모형

Distributed lag models

GLMs

GAMs

More to read
Tutorials on distributed lag non-linear models in R

Introduction

이번에는 DLNMs(distributed lag non-linear models, 이하 DLNMs)에 대해 소개해보려고 합니다. 말 그대로 DLMs을 비선형으로 확장시킨 모형에 해당합니다. DLM과 DLNMs이 가장 많이 사용되는 도메인은 바로 생태학적 연구(ecological study)[각주:1] 영역이라 할 수 있습니다. 생태학적 연구에서 환경적 요인(stressors)들로 어떤 outcome을 모델링하고자 할 때, 특정 $x_t$의 효과는 관측 시점 당시 뿐만이 아닌 시간에 지연되는(delayed) 효과를 갖는 경우가 상당히 빈번히 존재하며, 이러한 상황에 DLM, DLNMs은 꼭 필요로 됩니다. 그리고, 환경적 요인으로 outcome을 모형화하는 관점으로부터 해당 도메인에서는 $Y$의 예측 모델링에 사용되는 $X$를 노출 요인(exposure)이라 표현하고, outcome $Y$는 반응(response)이라 표현합니다. 예를 들어, 초미세먼지 PM2.5는 호흡기 질환 발생에 대한 노출 요인으로 고려할 수 있으며, 특정 호흡기 질환의 발생 수는 그에 따른 반응이 됩니다. 아울러, 이러한 지연 효과의 포함, 좀 더 구체적으로는 $Y_t$의 동 시차가 아닌 이전 시차의 $X$들을 모형에 포함시키게 되면 $Y_t$의 예측도 상당히 유용해집니다.

 

DLNMs는 말 그대로 $X$들의 선형적 효과만을 반영할 수 있는 DLMs과는 달리, 비선형 효과까지 반영할 수 있게 함으로써 좀 더 유연한(flexible) 적합을 가능하게 해줍니다. 이러한 DLNMs은 "교차 기저(cross-basis)"라는 공간을 정의하여 $X$의 지연 효과와 비선형적 효과를 동시에 모델링합니다. Introduction은 이쯤에서 마치고, 이 교차 기저라는 생소한 개념에 대한 설명을 시작으로 DLNMs에 관한 글을 본격적으로 시작해보려고 합니다.

 

1 교차 기저(cross-basis)

DLNMs은 교차 기저를 정의 함으로써 $X$가 $Y$에 미치는 효과 및 지연 효과를 선형 또는 비선형으로 모델링을 수행합니다. 이 교차 기저라는 공간은 2차원의 함수 공간에 해당하는데, 여기서 함수는 두 공간 예측변수(predictor, $X$)와 예측변수의 시차 차원(lag dimension)에 따라 표현되는 $Y$와의 관계에 대한 형태(shape)을 동시에 설명해줍니다. 예를 들어, 다음의 Figure 1과 같이 공간을 표현할 수 있습니다.

 

 

 

Figure 1. The 3-D plot of RR along temperature and lags, with reference at 21°C. Gasparrini, A et al (2010).

 

 

 

Figure 1은 기온이 사망률에 미치는 효과를 DLNMs으로 추정하고 상대위험도(relative risk, RR)로 나타낸 그림에 해당합니다. 상대위험도의 추정은 21°C를 기준으로 이루어졌습니다. 기온이 사망 위험에 비선형적으로 영향을 미치고 있으며, 지연 효과에 따라서도 영향을 받고 있음을 알 수 있습니다. 이러한 기온의 효과는 기온이 낮은 경우에 lag 2-3에서 사망의 상대위험도가 피크를 찍으며, 기온이 높은 경우에는 지연 효과 없이 거의 즉시 사망의 상대위험도 값에 대한 피크를 찍음을 알 수 있습니다. 이렇게 교차 기저의 정의를 통해 그려지는 그림은 노출 요인이 outcome에 미치는 영향을 직관적으로 해석할 수 있게끔 해줍니다. 아울러, 교차 기저 개념의 도입은 DLNMs의 클래스에 속하는 모형들을(e.g. DLMs) 좀 더 간단한 획일화된 구조로 표현할 수 있게 해줍니다. 바로 다음에 소개할 내용입니다.😊

 

2 기본 모형

DLNMs 클래스에 속하는 모형은 시계열 $y_t$를 동시차의 다른 시계열 $x_t$, 그리고 필요하다면 이전 시차의 다른 시계열 $x_{t-1}, \cdots$까지 이용하여 모델링하는 것을 말하고, 여기서 비선형적 효과까지 필요로 된다면 앞서 소개한 교차 기저를 정의함으로써 지연 효과와 비선형 효과까지 모두 반영할 수 있게됩니다. 즉, DLNMs 클래스에 속하는 모형들은 결국 어떤 시계열을 한 개 또는 여러개의 다른 시계열로 모형화하는 시계열 회귀모형(e.g. ARIMA 오차 회귀모형)의 한 종류에 해당합니다. 이러한 DLNMs 클래스에 속하는 모형들을 획일화된 구조로 표현하기 위한 일반적인 모형식을 정의하겠습니다.

 

길이 $n$($t = 1, \cdots, n$)인 시계열 $Y_t$를 outcome으로 모형화하는 DLNMs 클래스의 일반적인 모형식은 다음과 같이 표현할 수 있습니다:

 

$g(\mu_t) = \alpha + \sum_{j=1}^{J}s_j(x_{tj} ; {\boldsymbol{\beta}}_j) + \sum_{k=1}^{K}\gamma_k u_{tk},$

 

여기서 $\mu \equiv E(Y)$, $g$는 단조 연결 함수(monotonic link function)이며, $Y$는 지수족에 속하는 분포로부터 발생된 시계열이라 가정[각주:2]합니다. 시계열 회귀를 이용해 환경 요인에 관한 연구를 수행할 때 대부분의 outcome은 일별 counts 자료에 해당합니다. 그래서, 지수족에 속하는 분포로 가정을 했던 것이고, 일반적으로는 $E(Y) = \mu$, $Var(Y) = \phi \mu$인 과산포 포아송 분포(연결 함수는 log-link)를 가정합니다. 다만, Count time series라고 하더라도, 자료 값들의 크기가 충분히 크다면(>100) 연속적인 표본 공간을 갖는다고 가정한채로 모델링을 진행해도 문제는 없습니다. 그리고, 모수 벡터 ${\boldsymbol{\beta}}_j$로 정의되는 함수 $s_j$는 기저 함수[각주:3]에 해당하며, 기저 함수를 어떤 종류로 정의하느냐에 따라 $x_j$의 선형적 효과를 포함한 다양한 형태로 관계를 표현할 수 있습니다.[각주:4] 다만, backfitting 알고리즘을 통해 비모수적 방법으로 모수를 추정하는 GAMs과는 달리, 해당 모형은 모수적인 접근을 통해 모수들을 추정합니다. 해당 term을 통해 우리는 $Y$를 모델링하고자 노출 요인의 지연 효과와 비선형적 효과를 반영할 수 있습니다. 즉, 위 식의 2번째 term이 곧 교차 기저를 표현한다고 할 수 있겠습니다. 여기서 만약 지연효과를 고려하지 않는다면, DLMs을 적합하는 것과 동일합니다. 마지막으로 위 식의 변수 $u_{k}$를 통해 $Y$에 선형적 효과를 미칠만한 것들을 모델링할 수 있습니다. 예를 들어, 주별 계절성의 반영을 위해 요일을 나타내는 범주형 변수를 $u_{k}$ 중 하나로 포함시킬 수 있으며, 특정 휴일의 효과를 반영하기 위해 특정 휴일에만 1 값을 갖는 이진형 변수를 $u_{k}$ 중 하나로 할 수도 있습니다. 그리고, $\gamma_k$는 당연히 반영시킨 변수의 효과를 나타내는 계수에 해당합니다. 아울러, 위 모형식에 포함되지는 않았지만 자료에 추세(trends)와 계절성(seasonality)이 존재한다면, 시간(time)에 대해 평활함수를 적용하여 모형에 반영할 수 있습니다. 그리고, 추세, 계절성 모형화를 적절하게 반영하기 위한 평활 함수의 자유도 계산은 AIC와 같은 모형평가측도를 통해 이루어집니다.

 

3 Tutorials on DLNMs with R

DLNMs의 적합 및 Figure 1과 같은 시각화는 R의 {dlnm} 패키지를 통해 수행할 수 있습니다. R을 이용한 자세한 튜토리얼 과정을 제 깃허브에 업로드할 예정입니다. 튜토리얼은 Gasparrini의 깃허브의 DLNMs 레포를 참고하여 진행할 것입니다. 본 글에서는 DLNMs의 기본적인 뼈대가 되는 내용만을 소개했기에, 튜토리얼을 진행하며 배울 점도 많을 것이라 생각합니다. 글 상단 부분의 ❓More to read를 참고해주세요.

 

📝 참고 문헌
[1] Gasparrini, A et al. “Distributed lag non-linear models.” Statistics in medicine vol. 29,21 (2010): 2224-34

[2] Gasparrini, Antonio. “Distributed Lag Linear and Non-Linear Models in R: The Package dlnm.” Journal of statistical software vol. 43,8 (2011): 1-20

[3] Yang, Qiongying et al. “The relationship between meteorological factors and mumps incidence in Guangzhou, China, 2005-2012:.” Human vaccines & immunotherapeutics vol. 10,8 (2014): 2421-32

 


 

  1. 일반적으로 연구 대상이 개인인 다른 연구 방법과 달리 생태학적 연구에서는 인구집단이 대상. 예를 들면, 동일한 시대에 다른 지역의 인구 집단인 국가 간의 질병 발생률과 사망률을 비교하는 연구 등이 해당함 [본문으로]
  2. 지수족에 속하는 분포로 가정하는 이유는 GLMs(See 2.GLMs)에서와 같습니다. [본문으로]
  3. 평활 함수라고도 표현함 [본문으로]
  4. 즉, GAMs에서 예측변수를 비선형적으로 추정하기 위해 씌워주는 기저 함수와 동일합니다(e.g. spline). [본문으로]

'시계열 자료분석 > 시계열 회귀모형' 카테고리의 다른 글

[FPP3] 7.4 시계열 회귀모형의 유용한 예측변수  (0) 2021.08.25
Distributed lag models  (0) 2021.03.05
ARIMA 오차 회귀모형  (2) 2021.03.05
허구적 회귀  (0) 2021.03.05
Prophet 모형  (0) 2020.07.06

댓글