시계열을 위해 개발된 통계 모델 [AR 자기회귀모델]

    자기 회귀(autoregressive, AR) 모델은 과거가 미래를 예측한다는 직관적인 사실에 의존한다. 

대수학을 활용한 AR 처리 과정의 자귀회기는 과거 값들에 대한 회귀로 미래값을 예측하는 AR을 설명하는 시스템은 아래와 같다. 

    $$ y_i = b_0 +b_1 ×  y_{t-1} + e_i$$


자기 회귀모델

AR 모델은 하나의 원인 변수만 지닌 간단한 선형 회귀 모델과 동일한 형식이다. 
  $$ y = b_0 +b_1 × x + e $$

$b_0$와 $b_1$의 값을 알고 있다면 주어진 $y_{t-1}$  조건에서의 $y_t$의 기대 값과 분산을 모두 계산 할 수 있다. 

    $ 식1 : E(y_t|y_{t-1}) =  b_0 + b_1 × y_{y-t} +e $
           $ Var(y_t|y_{t-1}) = Var(e_t) = var(e)$

위의 식을 일반화 하면 가장 최근 값들이 p를 조절 할 수 있음 AR(p)라는 과정을 생성 할 수 있다. 

전통적인 표기법은 여기서 사용된 ϕ는 자기 회귀계수 autoregression cofficient를 나타낸다.
   $$ y_i = ϕ_0 +ϕ_1 × y_{t-1} + ϕ_2 × y_{t-2}  + \cdot\cdot\cdot + ϕ_p × y_{t-p} +e_i  $$


시계열의 핵심 개념은 정상성 이다.  정상성은 AR 모델을 포함한 많은 시계열 모델에서 기본으로 가정 한다. 

 정상성이 의미는 시계열 확률적인 성질들이 시간의 흐름에 따라 변화하지 않는 다는 것을 의미 한다.  평균과 분산 등 체계적인 변화가 없고 주기적인 변화가 없는 것을 의미 한다. 

  $ 식 2  : y_i =  ϕ_0 + ϕ_1 × y_{t-1} + e_t $

 과정이 정상이라고 가정하고, 계수에 대해 어떤 의미를 가지는지 알아보기 위해 '뒤에서 앞으로 backward'에 대해 알아 보겠다.   

  정상성 가정으로  부터 과정의 기대값은 모든 시간에서 동일 해야 한다는 사실을 알 수 있다. 

  $ E(y_i) = μ = E(y_{t-1}) $

정의에 따르면 $e_t$의 기대 값은 0이다.  또한 ϕ는 상수 항이므로 이들의 기대 값은 각각의 상수 값 그대로 입니다.  따라서 좌변을 기준으로 식 2는 다음과 같이 축약된다. 
 $ E(y_i) = E(ϕ_0 + ϕ_1 × y_{t-1} + e_t)$
 $ E(y_i) = μ $

식 2의 우변은 다음과 같이 표현된다. 
 $ ϕ_0 + ϕ_1 × μ +0 $
 
다음과 같이 단순화 할 수 있다. 
$μ = ϕ_0 + ϕ_1 × μ +0$

다시 말해서 식 3이 된다. 
  
  $ 식 3 : μ = { ϕ_0 \over  1-ϕ_1} $
따라서 과정의 평균과 근본적인 AR(1) 계수의 관걔를 알 수 있다. 

이와 유사한 단계를 수행 하여 일정한 분산과 공분산 ϕ 계수에 조건을 부과하는 방식을 알아 볼 수 있다. 

 $ 식 4 : ϕ_0 = μ × (1-ϕ_1) $

그리고 이것을 식 2에 대입한다. 
  $ y_t = ϕ_0 + ϕ_1 × y_{t-1} + e_t$
  $ y_t = (μ - μ × ϕ_1) + ϕ_1 × y_{t-1} + e_t $
  $ y_t  - μ = ϕ_1(y_{t-1} - μ) + e_t $

식 4를 살펴 보면 $y_i - μ $ 와 우변의 $y_{y-1} - μ 표현이 매우 유사하다는 점이 눈에 띈다. 이 시계열이 정상이라는 조건하에서 시간 t-1에서 계산은 시간 t 에서 계산과 동일 해야 한다는 것을 알 수 있다. 

 $ 식 5 : y_{t-1} - μ = ϕ_1(y_{t-2} - μ) + e_{t-1} $

 식 4에 대입 해 본다. 
  $y_t - μ = ϕ_1(ϕ_1(y_{t-2} - μ) + e_{t-1} ) + e_t $

명확성을 위해 식 6을 다시 정렬 한다. 
$ 식 6 : y_t -μ = e_t + ϕ_1(ϕ_1(y_{t-2} - μ)) $

 앞에서 살펴 보았듯이 식 6은 $(y_{t-2} - μ) $  또한 재귀적으로 대체 될 수 있다.  재귀적으로 대입을 계속 수행 하다 보면 아래와 같은 패턴이 나타난다. 

$ Y_t - μ = e_t + ϕ_1(ϕ_1(y_{t-2} - ϕ_1(y_{t-2} - μ)) $ 
$ = e_t + ϕ × e_{t-1} + ϕ^2 × e_{t-2} + ϕ^3 × e_{t-3}  + (식을 계속 대입 할 수 있음) $ 

아래와 같이 일반화된 결론에 도달 할 수 있다. 
$ y_t - μ = \sum_{i=1}^∞ × e_{t-1} $

이 수식은 $y_t$ 에서 과정의 평균을 뺀 오차항들에 대한 선행 함수라 정의 한다.

  이 결과 서로 다른 t에서 $e_t$값이 독립적 일때 기대값  $ y_{t-1} - μ = ϕ_1(y_{t-2} - μ) + e_t $ 계산에 사용될 수 있으며,  이로부터 $y_1$과 $e_t$의 공분산이 0이라는 결론을 내릴 수 있다.  그리고 유사한 논리로부터 이식을 제곱하여,  $y_t$의 분산도 계산 할 수 있다. 
 $ y_t - μ = ϕ_1(y_{t-1} - μ ) + e_t $
 $ var(y_t) =ϕ_1^2 var(y_{t-1} + var(e_t) $

 식의 양변에 있는 분산량은 정상성에 의해서 $(var(y_t) = var(y_t-1))) 처럼 같아야 하기 때문에 다음을 의미 한다고 볼 수 있다. 
 $$ var(y_t) = {  var(e_t)  \over  1 - ϕ_1^2 }$$

분산이 0보다 같아야 한다는 정의에 따라 위 식이 우변이 양수가 되게 하려면 $ϕ_1^2$ 가 반드시 1보다 작아야 한다.  이는 정상과정에서   $ ϕ_1$ 범위가 -1 <  $ ϕ_1$ < 1가 되어야 한다는 의미이다.  이 조건은 약한 정상성을 위한 필요 충분 조건이다. 

자기 회귀 모델 시작 부분인데,  분산과 회귀에 대한 이야기가 아주 많이 나왔다.  시계열을 하려면,  그 만큼 통계의 기초 부분이 매우 중요하다는 판단이 든다.    이 부분을 잘 익혀야 다음 부분의 해석이 가능 하다. 

참고자료 : 실전 시계열 분석 한빛 미디어


댓글 없음:

댓글 쓰기

css cheat sheet 클래스 선택자, margin(마진), display , center 조정 간단한 구성 요소

 앞에서는 html의 간단한 sheet를 소개 하였습니다.   html은  주로 골격을 나타나는 것이라, 디자인을 하는데는 css로 하여야 합니다.  아래 코드와 같이 css 관련 하여 매우 간단하게 코딩 하겠습니다.  body 부분의 css 코딩  ...