❗️블로그 옮김: https://www.taemobang.com
우리가 시계열 분석에서 배우는 대부분의 기법은 자료가 연속적인 표본 공간을 갖는다고 가정한채로 진행이 됩니다. 그러나, 실제 시계열 자료분석을 진행하다 보면 개수를 센 형태의 시계열 자료(이하 count time series)를 상당히 많이 접할 수 있습니다. 예를 들면, 어떤 매장의 일별 방문자 수 또는 일별로 기록된 광역철도의 역별 수송량 등과 같은 것들이 있겠죠. 이러한 시계열들은 count data에 해당하므로 사실 연속적인 표본 공간을 갖지 않습니다. 그럼, count time series를 예측(e.g. ARIMA models, prophet, etc)하거나 또는 다른 변수들과의 관계를 모형화(e.g. 시계열 회귀, distributed lag models, etc)해야 할 때는 어떤 식으로 모델링을 진행해야 할까요?
결론부터 말씀드리면, 수집된 시계열 자료 값들이 충분히 크다면(>100) 별 다른 문제없이 우리가 배워왔던 연속적인 표본 공간을 갖는다고 가정한채로 모델링이 진행되는 일반적 시계열 예측 모형, 시계열 회귀모형들을 통해 모델링을 진행할 수 있습니다. 그 이유는 시계열에 관한 예측값을 구할 때 연속적인 표본 공간 $[100, \infty]$와 이산적인(discrete) 표본 공간 ${100, 101, 102, \cdots }$ 사이에는 눈에 띄는 차이가 발생하지 않습니다. 하지만, $(0, 1, 2)$ 처럼 수집된 시계열 값들이 작은 경우에는 음이 아닌 정수 표본 공간에 대해 적절한 예측 모델링을 수행해야합니다.😅
count time series 자료에 대해 모델링을 할 일이 생겨서 요 며칠동안 관련 자료들을 찾아본 결과, R의 {tscount} 패키지 외에 별다른 R 코드 reference나 패키지들을 찾지 못했는데, 이는 아마 시계열 자료의 값들이 충분히 큰 경우에는 앞서 말했듯이 일반적으로 쓰이는 시계열 예측 또는 회귀 기법을 통해 분석을 진행해도 문제가 없기 때문이라는 생각이 듭니다. 아울러, Rstudio의 블로그에서 수행한 COVID-19 자료에 관한 시계열 모델링도 일반적인 시계열 회귀를 통해 진행되고 있습니다. 혹시, count time series에 관한 모델링 작업을 수행하셔야 하는데 시계열 자료의 값들이 100보다 작은 경우라면 {tscount} 패키지에 관한 paper를 꼭 들여다보시고 공부해보시기 바랍니다.
📝 참고 문헌
Hyndman, R.J. and Athanasopoulos, G. (2018) Forecasting: principles and practice, 2nd edition, OTexts: Melbourne, Australia. OTexts.com/fpp2. Accessed on 17/03/2021
'시계열 자료분석' 카테고리의 다른 글
[FPP3] 1.1 시계열 자료의 예측 가능성에 대해 (0) | 2021.04.30 |
---|---|
계층적 시계열 분석 (0) | 2020.10.25 |
ARIMA 모형 (2) | 2020.07.02 |
시계열 평활법 (2) | 2020.07.01 |
댓글