선형회귀분석에서 자주 나오는 오차(Error)와 잔차(Residual)는 비슷해 보이지만, 엄연히 다른 개념이다.
둘의 차이를 명확히 이해하면 통계 분석의 기초를 확실히 잡을 수 있다! 📊✨
1. 오차(Error): 진짜 값과의 차이
오차는 모집단 전체에서 예측값과 실제값(관측값)의 차이.
정의
오차는 모델이 모집단 데이터를 얼마나 잘 설명하지 못했는지를 나타낸다.
특징
- 모집단과 관련됨
오차는 모집단의 데이터를 기반으로 정의. - 관측할 수 없음
모집단의 진짜 값을 알 수 없기 때문에, 오차는 관측이 불가능하다.
한눈에 보기: 선형회귀의 오차 가정 4가지
선형성 | 독립변수와 종속변수의 관계는 선형이어야 함. | 비선형 변환 또는 비선형 모형 사용 |
독립성 | 오차항들 간에 상관관계가 없어야 함. | 시계열 분석, 복잡한 모형 도입 |
등분산성 | 오차항의 분산이 독립변수의 모든 값에서 일정해야 함. | 데이터 변환, 가중 회귀분석 |
정규성 | 오차항이 평균 0, 정규분포를 따라야 함. | 데이터 변환, 강건 회귀 사용 |
3. 한눈에 보기: 오차의 평균과 분산
평균 | 오차의 평균은 0이어야 함. | E(ϵ)=0E(\epsilon) = 0 |
분산 | 오차의 분산은 일정해야 함 (등분산성). | Var(ϵ)=σ2\text{Var}(\epsilon) = \sigma^2 |
2. 잔차(Residual): 표본 데이터에서의 차이
잔차는 표본 데이터에서 실제값과 모델 예측값의 차이를 말한다.
정의
잔차는 샘플(표본)의 데이터를 얼마나 잘 설명하지 못했는지를 나타낸다.
특징
- 표본 데이터와 관련됨
잔차는 우리가 관측한 표본 데이터를 기반으로 계산. - 관측 가능
표본 데이터와 모델이 있으면 잔차를 계산할 수 있다. - 잔차의 합은 0
선형회귀모형에서, 잔차의 총합은 항상 0이 됩니다: ∑ei=0\sum e_i = 0
3. 오차와 잔차의 차이
구분 오차 (Error) 잔차 (Residual)
대상 | 모집단 | 표본 |
계산식 | ϵi=yi−f(xi)\epsilon_i = y_i - f(x_i) | ei=yi−y^ie_i = y_i - \hat{y}_i |
관측 가능 여부 | 관측할 수 없음 | 관측 가능 |
정의 대상 | 진짜 모델과 실제 값 간 차이 | 추정 모델과 표본 값 간 차이 |
합 | 0이 아닐 수 있음 | 항상 0 |
4. 예시로 이해하기 🧮
오차와 잔차 비교
- 오차(Error)
- 모집단에서 진짜 값과 회귀식 간의 차이: ϵ\epsilon
- 예: 실제값 y=10y = 10, 모델 f(x)=9f(x) = 9 → 오차 ϵ=10−9=1\epsilon = 10 - 9 = 1
- 잔차(Residual)
- 샘플 데이터에서 관측값과 추정 모델 간의 차이: ee
- 예: 표본 y=10y = 10, 모델 예측 y^=8\hat{y} = 8 → 잔차 e=10−8=2e = 10 - 8 = 2
차이점:
- 오차는 모집단의 모델과 관련된 차이
- 잔차는 표본 데이터에서 추정 모델과의 차이
5. 오차와 잔차의 관계
잔차는 표본 데이터로부터 오차를 추정한 값.
- 오차: 진짜 데이터의 차이를 나타내는 이론적 개념
- 잔차: 우리가 실제로 계산할 수 있는 값
6. 요약
- 오차(Error): 모집단에서 모델의 실제값과 예측값의 차이 (관측 불가능).
- 잔차(Residual): 표본 데이터에서 모델의 실제값과 예측값의 차이 (관측 가능).
- 오차는 잔차의 이론적 기반, 잔차는 오차를 표본 데이터에서 추정한 결과.
오차와 잔차의 완벽이해🎯🔥
'데이터 > 방통대 - 바이오통계학' 카테고리의 다른 글
[방통대 통계데이터과학과] 진단 검사의 평가 - ROC와 AUC (0) | 2024.12.06 |
---|---|
[방통대 통계데이터과학과] 통계적 추정과 가설검정 (표본평균, 신뢰구간, 신뢰구간의 너비) (0) | 2024.12.05 |
[방통대 통계데이터과학과] 로지스틱 회귀분석 (2) | 2024.12.05 |
[방통대 통계데이터과학과] 바이오통계학 - 범주형 데이터의 비교 (상대위험도/ 오즈비/ 맥니마검정/ 피셔의 정확검정) (0) | 2024.12.02 |
[방통대 통계데이터과학과] 바이오통계학 - 연속형데이터의 비교 (이표본 T검정/ 대응표본 T검정) (0) | 2024.12.02 |