시계열에 대한 선형적인 통계 모델을 볼 것이다. 이 모델들은 선행 회귀와 관련이 있지만, 각 데이터를 서로 독립적으로 가정하는 비시계열 데이터에 적용되는 표준방법과 다른 관점으로 같은 시계열 내 데이터 간 발생하는 상관관계를 알 수 있게 해준다.
시계열 통계모델의 종류
- 자기회귀 (autoregressive, AR) 모델
- 이동평균 (moving average, MA) 모델
- 자기회귀누적 이동평균(autoregressive intergrated moving average,ARIMA) 모델
- 벡터자기회귀 vector autoregression(VAR)
- 계측형 hierarchical 모델
1. 선형회귀를 사용하지 않는 이유
선형회귀를 다음과 같이 정의할 수 있다. 선형회귀분석은 독립항등분포 데이터가 있다는 것을 가정한다. 따라서 시계열 데이터에는 해당되지 않는다.
시계열 데이터는 시간에 가까운 데이터일수록 서로 강한 관계를 맺는 경향이 있다. 즉, 시계열 데이터에 시간적인 상관 관계가 없다면 이 데이터는 미래를 예측하거나 시간의 역동성을 이해하는 등 전통적인 시계열 작업에 유용하다고 보기 어렵다.
하지만 다음과 같은 조건이 충족될 대 일반적인 최소체곱 선형회귀 least squares linear regression 모델을 시계열 데이터 적용해 볼 수 있다.
시계열 대한 가정
- 시계열 예측 변수에 대한 선형적 반응을 보인다.
- 입력 변수는 시간에 다라 일정하지 않거나 다른 입력 변수와 완벽한 상관관계를 갖지 않는다. 이는 단순히 데이터의 시간 차원을 설명하기 위해 전통적인 선형회귀 독립변수에 대한 요구 사항을 확장 한 것이다.
오차에 대한 가정
- 각 시점의 데이터에 대한 모든 (앞뒤의) 시기의 모든 설명변수에 대한 예상 오차 값은 0이다.
- 특정 시기의 오차는 과거나 미래의 모든 시기에 대한 입력과 관련이 없습니다. 따라서 오차에 대한 자기상관 함수 그래프는 어떠한 패턴도 띄지 않는다.
- 오차의 분산은 시간으로부터 독립적이다.
이러한 가정이 성립된다면 보통최소제곱회귀 ordinary least squares regerssion는 주어진 입력에 대한 계수의 비편향추정량 unbiased estimator이 되며 시계열 데이터도 마찬가지이다.
이때 추정치의 표본분산은 표준선형회귀와 수학적으로 동일한 형태를 갖는다. 따라서 앞서 나열된 가정을 충족하는 데이터가 있다면 선형회귀를 적용할수 있다.
표준 선형회귀에 요구되는 가정을 지나칠 정도로 엄격하게 적용해 선형회귀 기법을 사용할 수 없게 된 것이 아닌지 의문을 가져보는 것이 타당하다. 실제로 현업 분석가는 모델의 가정을 통해 자유를 얻는다. 이러한 태도의 잠재적인 단점을 잘 이해하고 있는 경우에만 생산적일 수 있다.
모델의 가정을 고소하는 것의 중요성은 영역과 분야에 따라 크게 달라집니다. 때로는 보상대비 결과가 심각하지 않아서 기본적인 가정을 충족하지 않는 다는 것을 알아도, 이를 모델에 적용하는 경우가 있습니다. 가령 높은 빈도로 발생하는 거래라면 데이터가 모든 표준적인 가정을 엄격히 따르지 않더라도 선형모델을 사용하는 것은 꽤 인기가 있습니다.
예측작업에 선형휘귀가 적합하다는 판단을 내렸다면 tslm() 함수의 활용을 고려 해도 된다. forecast 패키지에 표함 되어있어, 이 함수는 시계열 데이터에 대한 쉬운 선형회귀 방법론을 제공할 수 있도록 설계 되었다.
댓글 없음:
댓글 쓰기