카테고리 없음

ADP 4과목 - 데이터분석 / 통계분석 3

df = real 2025. 2. 14. 00:45

1. 시계열 데이터의 개념

시계열 데이터는 시간의 순서에 따라 수집된 관측값들의 집합을 의미한다. 예를 들어, 월별 판매량, 일별 기온, 연도별 인구 수 등이 이에 해당한다. 이러한 데이터는 시간에 따른 추세, 계절성, 주기성 등을 분석하여 미래의 값을 예측하거나 과거의 패턴을 이해하는 데 활용된다.

2. 정상성(Stationarity)

시계열 분석에서 정상성은 시계열의 통계적 특성이 시간에 따라 변하지 않는 성질을 말한다. 정상성을 만족하는 시계열은 평균, 분산, 자기공분산 등이 시간에 의존하지 않는다. 일반적으로 시계열 분석을 수행하기 위해서는 데이터가 정상성을 만족해야 한다. 비정상 시계열의 경우, 차분(differencing)이나 변환(transformation) 등을 통해 정상성을 확보할 수 있다.

3. 시계열 모형

시계열 데이터를 분석하고 예측하기 위해 다양한 모형이 사용된다. 주요 모형은 다음과 같다.

3.1 자기회귀 모형 (AR: Autoregressive Model)

자기회귀 모형은 현재 시점의 값이 과거 시점의 값들의 선형 결합으로 표현되는 모형이다. AR(p) 모형은 p 시점 전까지의 값들을 사용하여 현재 값을 설명한다. 이 모형에서는 자기상관함수(ACF)가 시차가 증가함에 따라 점차 감소하고, 부분자기상관함수(PACF)는 p 시차 이후 급격히 감소하는 특징을 보인다.

3.2 이동평균 모형 (MA: Moving Average Model)

이동평균 모형은 현재 시점의 값이 과거 시점의 오차들의 선형 결합으로 표현되는 모형이다. MA(q) 모형은 q 시점 전까지의 오차들을 사용하여 현재 값을 설명한다. 이 모형에서는 ACF가 q 시차 이후 급격히 감소하고, PACF는 시차가 증가함에 따라 점차 감소하는 특징을 보인다.

3.3 자기회귀누적이동평균 모형 (ARIMA: Autoregressive Integrated Moving Average Model)

ARIMA 모형은 비정상 시계열 데이터를 분석하기 위한 모형으로, 차분을 통해 데이터를 정상화한 후 AR과 MA 모형을 결합하여 사용한다. ARIMA(p, d, q)에서 p는 AR 차수, d는 차분 횟수, q는 MA 차수를 나타낸다. 이 모형은 추세나 계절성이 있는 비정상 시계열 데이터를 효과적으로 분석하고 예측하는 데 활용된다.

4. 시계열 분해

시계열 분해는 시계열 데이터를 구성하는 주요 요인들을 분리하여 분석하는 방법이다. 일반적으로 시계열은 다음과 같은 구성 요소로 분해된다.

  • 추세 요인 (Trend): 데이터의 장기적인 증가나 감소 경향을 나타낸다.
  • 계절 요인 (Seasonal): 일정한 주기에 따라 반복되는 패턴을 나타낸다.
  • 순환 요인 (Cyclical): 추세나 계절성과는 다른 주기로 나타나는 변동을 의미한다.
  • 불규칙 요인 (Irregular): 위의 세 가지 요인으로 설명할 수 없는 불규칙한 변동을 나타낸다.

시계열 분해를 통해 각 구성 요소를 개별적으로 분석함으로써 데이터의 특성을 더욱 명확하게 파악할 수 있다.