실무에서 시계열분석을 할때
가장 먼저 떠올릴 수 있는 예시는 '매출추이' 이다.
예를들어 연 별로 매출추이를 그래프로 표현한다고 하자.
2022년에는 140만원
2023년에는 150만원
2024년에는 135만원
2025년에는?
이러한 추측에는 연간성장률(CAGR) 개념이 사용된다.
연간성장률을 구해서 (엑셀함수 RATE활용)
24년 매출에 더해주면 된다.
문제는 이러한 연간성장률의 경우
직전매출의 영향을 크게 받는다는것이다.
예를들어 24년의 매출이
150만원보다 높다면 연간성장률은 +로 나타나지만,
24년의 매출이 150만원보다 낮아지는 경우
연간성장률은 -로 나타나기도 한다.
현실에서는 이렇게 단순화한 방식으로는
미래를 예측하기 어렵다.
연간 매출이 아니라
월간, 주간매출의 경우 더욱 어려워진다.
실무에서의 데이터는 직선으로 성장하는게 아니고
특정한 시점에는 늘었다가, 특정한 시점에는 또 감소하는
패턴의 형식을 보이기 때문이다.
🕰️ 회귀분석과 시계열분석의 차이 🌟
1️⃣ 회귀분석: 곧게 뻗은 길 위를 걷는 여행자 🚶♂️
회귀분석은 데이터를 단순한 직선 관계로 분석한다. 예를 들어,
- 광고비가 늘어나면 매출이 얼마나 늘어날까?
- 공부 시간이 늘어나면 시험 점수가 얼마나 오를까?
회귀분석의 특징은, 한 방향으로만 데이터를 본다는 것이다. 데이터가 마치 직선 도로처럼 깔끔하게 보일 때 유용하다.
2️⃣ 시계열분석: 굽이치는 강물을 따라가는 여행자 🌊
하지만 현실의 데이터는 그리 간단하지 않다. 시계열분석은 시간에 따라 변화하는 데이터를 다룬다.
이 때 데이터는 단순히 일직선으로 움직이지 않고, 굽이치는 강물처럼 변화한다. 주식 시장, 날씨 변화, 매출 추세처럼 시간의 흐름에 따라 데이터가 변동한다는 점이 중요하다.
예를 들어:
- 주식 가격은 매일매일 오르락내리락 변동
- 날씨는 계절에 따라 주기적으로 변한다
시계열 데이터는 이런 변동성과 패턴을 분석해서 미래를 예측하는 데 강점을 가진다!
차이를 이해하기 위한 데이터 예시
구분 회귀분석 데이터 📉 시계열 데이터 📈
데이터 패턴 | 단순 직선 관계 (정적인 관계) | 시간 흐름에 따른 변동 (동적인 변화) |
주요 특징 | x와 y 변수 간 관계만 분석 | 시간의 흐름을 고려한 데이터 분석 |
- 회귀분석: 광고비 100만 원을 더 쓰면 매출이 50만 원 증가한다는 직선적인 관계를 나타냄.
- 시계열분석: 매출이 계절마다 변동하거나 특정 시점에 급증하는 패턴을 잡아냄
🔄 시계열분석의 자기상관성(ACF)란? 📊
자기상관성은 도미노처럼!
시계열분석의 데이터는 자기상관성을 가진다. 자기상관성이란 과거 데이터가 현재 데이터에 영향을 미치는 관계를 파악하는 것이다.
비유: 날씨 예보와 자기상관성
시계열 데이터를 날씨 변화에 비유해보자.
- 오늘의 날씨가 내일의 날씨에 영향을 미친다
- 오늘 비가 온다면, 내일도 비가 올 확률이 높을 수 있다. 이런 "오늘과 내일의 관계"가 자기상관성.
- 자기상관성 분석은 "어느 정도로 영향을 미치는지"를 수치화해서 알려준다.
- 과거 날씨 패턴이 반복된다
- 만약 매주 월요일에는 비가 자주 온다는 패턴이 있다면, 이건 과거와 현재가 상관관계가 있다는 뜻. 이를 기반으로 "미래 월요일에도 비가 올 가능성이 있다"고 예측할 수 있다.
왜 자기상관성을 보는 걸까?
- 미래 예측
- 과거가 현재에 영향을 준다면, 이 패턴을 활용해 미래를 예측할 수 있다. 예를 들어, 주식 가격, 날씨, 판매량 등.
- 패턴 발견
- 데이터가 규칙적인 주기를 가지고 있는지(예: 계절성, 주기성)를 파악.
- 모델 성능 개선
- 자기상관성을 고려하면 더 좋은 예측 모델(예: ARIMA 모델)을 설계할 수 있다.
결론
자기상관성을 보는 건, 마치 과거를 통해 미래를 읽는 열쇠를 찾는 것과 같다.
오늘 날씨가 내일 날씨에 영향을 미친다는 가정
- 자연현상이나 데이터의 연속성(시간적 관계)을 생각하면, 오늘의 날씨는 내일의 날씨에 영향을 미칠 가능성이 높다.
- 예를 들어, 오늘 비가 왔다면:
- 대기 중 수분이 많아져 내일도 비가 올 가능성이 높아질 수 있음.
- 저기압이나 장마와 같은 날씨 패턴이 연속될 가능성이 있음.
- 이런 방식으로 날씨는 연속적이고 서로 연결된 성질을 가지기 때문에, "오늘의 날씨"가 "내일의 날씨"와 상관관계를 가질 가능성이 크다고 본다.
- 예를 들어, 오늘 비가 왔다면:
독립적일 가능성
- 그러나, 모든 시계열 데이터가 반드시 의존적이지는 않다.
- 날씨가 완전히 독립적이라면, "오늘 비가 온 사실"이 "내일 비가 올 가능성"에 아무 영향을 주지 않는 경우.
- 예를 들어: 기상 시스템이 매우 불안정하거나 랜덤하다면(즉, 비가 오거나 맑은 날씨가 서로 상관없이 랜덤하게 나타난다면) 날씨는 독립적일 수 있다.
독립성과 의존성의 비유
도미노 게임으로 생각해보면:
- 의존적일 때: 첫 번째 도미노가 쓰러지면 두 번째 도미노도 쓰러지는 것처럼, 오늘의 날씨가 내일의 날씨에 영향을 미침.
- 독립적일 때: 도미노가 서로 떨어져 있어서 첫 번째 도미노가 쓰러져도 두 번째 도미노와는 아무런 상관이 없는 상태.
자기상관성과 독립성
자기상관성 분석은 데이터가 독립적인지, 아니면 자기 자신의 과거 상태에 의해 영향을 받는지를 확인하는 도구다.
- 의존적 데이터
- 자기상관성이 크다 → 과거가 현재나 미래에 큰 영향을 준다.
- 예: 날씨, 주식 가격, 판매량 등.
- 독립적 데이터
- 자기상관성이 거의 없다 → 과거와 현재/미래가 무관하다.
- 예: 주사위를 던진 결과, 완전히 랜덤한 이벤트.
결론
"오늘 비가 온다면 내일도 비가 올 가능성이 높아질까?"라는 질문은, 날씨가 독립적이지 않고 의존적이라는 가정을 담고 있다. 그리고 시계열 데이터의 많은 사례에서 데이터는 과거에 의존적이라는 가정이 유효하다.
ACF 그래프란?
ACF 그래프는 특정 시점과 과거 시점 간의 상관성을 시각적으로 보여준다.
- x축: 시간의 지연(Lag).
- y축: 상관계수(Correlation).
값이 1에 가까울수록 강한 상관관계를 의미하고, 0에 가까울수록 관계가 없다.
ACF를 이해하기 위한 시각적 예시
아래는 ACF 그래프의 예시이다:
Lag(시간 지연) 1 2 3 4 5
상관계수 | 0.9 | 0.7 | 0.4 | 0.2 | 0 |
📊 ACF 그래프 도표
1.0 | |
| |
0.8 |■■■■■
0.6 |■■■■
0.4 |■■■
0.2 |■■
0.0 |■
Lag → 1 2 3 4 5
이 그래프에서 Lag 1에서의 상관성이 높고, 시간이 지날수록 감소하는 걸 알 수 있다.
자기상관성을 보는 이유?
1️⃣ 미래 예측: 과거 데이터가 미래 데이터에 어떤 영향을 주는지 파악할 수 있다.
2️⃣ 모델링: 시계열 분석 모델을 만들 때 중요한 기초 자료가 된다
🌟 시계열 데이터를 더 잘 이해하려면 회귀분석처럼 단순한 직선 관계를 넘어서, 시간의 흐름과 변동성을 꼭 고려해야 한다. ACF 그래프를 그려보면서 자기상관성을 분석하면 더욱 정확한 예측이 가능하다 📈
'데이터 > 데이터' 카테고리의 다른 글
[내 머리로 시계열분석] 시계열 분해요소(계절성, 순환성, 추세성) 그리고 백색소음 (1) | 2025.01.01 |
---|---|
25년 빅분기/ADP 시험일정 (0) | 2024.12.29 |
AARRR 실무에서 활용하는 법 - w. 양승화, <그로스해킹> (5) | 2024.10.26 |
[방통대 통계데이터과학과] 베이즈분석 - 제프리스 어쩌고 공부내용 정리 (0) | 2024.09.19 |
[ADP] 내 머리로 이해하는 분산시스템 (0) | 2024.07.23 |