Skip to content

시계열분석 #
Find similar titles

시계열 분석이란? #

시계열 분석이란, 어떤 현상에 대하여 과거에서부터 현재까지의 시간에 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석하는 방법입니다. 시간의 흐름을 고려한다는 점이 일반 분석과는 다르다고 할 수 있습니다.

시계열 데이터의 특성 #

정상성(Stationary) vs 비정상성(Non-Stationary) #

시계열 데이터는 시간의 흐름에 따라 평균이나 분산 등의 통계적 특성이 변하지 않고, 일정한 추세가 없는 정상성(Stationary) 데이터와 시간에 따라 통계적 특성이 변화하는 비정상성(Non-Stationary) 데이터로 나눌 수 있습니다.

Image

비정상성 데이터의 정상성 변환 #

비정상성을 띠는 데이터의 경우 분석 시 예측 범위가 무한대이고 Variance, Autocorrelation 등의 다양한 파라미터를 고려해야 합니다. 따라서 아래와 같은 정상성 변환 과정을 통해 정상성 데이터로 변환하여 분석을 진행합니다.

  1. 평균의 정상화 - 차분(differencing)
  2. 분산의 안정화 - 자연로그 변환, 제곱/제곱근 변환

정상성 변환 과정을 통해 예측 범위가 무한대에서 일정 범위로 줄어들어 예측 효과가 증가하고, 고려해야 하는 파라미터의 수가 감소하여 단순한 알고리즘으로 예측할 수 있으며 이로 인해 over fitting도 방지할 수 있습니다.

정상성, 비정상성의 확인 #

정상성, 비정상성을 확인하기 위해 자기 상관 함수(Auto Correlation Function)와 편 자기 상관 함수(Partial Auto Correlation Function)를 이용할 수 있습니다. 자기 상관 및 편 자기 상관 함수는 현재 시점의 자료와 시점의 차이(Lag)를 가진 자료의 상관성을 나타내는 측도입니다.

Image

자기 상관 함수 (ACF, Auto Correlation Function) #

시점에 차이에 따른 자기 상관을 나타냅니다. 수식은 아래와 같습니다.

Image

편 자기 상관 함수(PACF, Partial Auto Correlation Function) #

시점의 차이에 따른 편 자기 상관을 나타냅니다. 자기 상관 함수와 차이점은 두 시점 내의 구간 값은 고려하지 않고 순수하게 두 시점의 상관관계를 확인한다는 것입니다. 수식은 아래와 같습니다.

Image

Image

ACF를 이용한 정상성과 비정상성의 구분 #

Lag 0의 값은 자기 자신과의 상관성을 나타내기 때문에 1을 가지게 됩니다. 따라서 해당 부분을 제외하고 추세를 파악합니다. 정상 시계열의 ACF는 상대적으로 빠르게 0에 수렴하고, 비정상 시계열은 천천히 감소하는 양상을 띠고, 큰 양의 값을 가집니다.

Image

비정상 시계열을 차분하여 정상 시계열로 변환한다면 정상 시계열의 ACF 양상을 띠는 것을 확인할 수 있습니다.

또한, ACF와 PACF의 추세를 활용하여 AR/MA, ARMA 등의 시계열 모형을 선택할 때 활용할 수 있습니다. 데이터에 따라 다르지만, 주로 아래의 표와 같이 활용될 수 있습니다.

Image

시계열 분석 모형 #

정상성 시계열 모형 #

1. AR(p) 모형 #

자기 회귀 모형(Auto Regressive), 자기 상관성을 시계열 모형으로 구성한 것으로, 변수의 과거값의 선형 조합을 이용하여 미래값을 예측하는 방법입니다. p는 독립 변수의 개수를 의미합니다.

Image

2. MA(q) 모형 #

이동 평균 모형 (Moving Average), 과거의 예측 오차값을 이용하여 미래값을 예측하는 방법입니다. q는 error parameter 개수를 의미합니다.

Image

3. ARMA(p, q) 모형 #

AR(p) 모형과 MA(q) 모형 각각의 단점을 보완하기 위해 두 가지를 합친 모형입니다. p와 q는 위의 설명과 같습니다.

Image

비정상성 시계열 모형 #

1. ARIMA(p, d, q) 모형 #

ARIMA 모형은 비정상성 시계열 데이터를 d 차 차분한 데이터에 대해 AR(p) 모형과 MA(q) 모형을 합친 모형으로 분석하는 것입니다. p와 q는 위의 설명과 같고, d는 차분한 횟수를 의미합니다.

Image

Reference #

0.0.1_20210630_7_v33