본문 바로가기
데이터/방통대 - 바이오통계학

[방통대 통계데이터과학과] 회귀분석에서 오차와 잔차

by 단단_SINCE 2023 2024. 12. 5.

 

선형회귀분석에서 자주 나오는 오차(Error)와 잔차(Residual)는 비슷해 보이지만, 엄연히 다른 개념이다.

둘의 차이를 명확히 이해하면 통계 분석의 기초를 확실히 잡을 수 있다! 📊✨

 


1. 오차(Error): 진짜 값과의 차이

오차는 모집단 전체에서 예측값과 실제값(관측값)의 차이.

정의

오차는 모델이 모집단 데이터를 얼마나 잘 설명하지 못했는지를 나타낸다.

특징

  1. 모집단과 관련됨
    오차는 모집단의 데이터를 기반으로 정의.
  2. 관측할 수 없음
    모집단의 진짜 값을 알 수 없기 때문에, 오차는 관측이 불가능하다.
    •  

한눈에 보기: 선형회귀의 오차 가정 4가지

선형성 독립변수와 종속변수의 관계는 선형이어야 함. 비선형 변환 또는 비선형 모형 사용
독립성 오차항들 간에 상관관계가 없어야 함. 시계열 분석, 복잡한 모형 도입
등분산성 오차항의 분산이 독립변수의 모든 값에서 일정해야 함. 데이터 변환, 가중 회귀분석
정규성 오차항이 평균 0, 정규분포를 따라야 함. 데이터 변환, 강건 회귀 사용

3. 한눈에 보기: 오차의 평균과 분산

평균 오차의 평균은 0이어야 함. E(ϵ)=0E(\epsilon) = 0
분산 오차의 분산은 일정해야 함 (등분산성). Var(ϵ)=σ2\text{Var}(\epsilon) = \sigma^2

2. 잔차(Residual): 표본 데이터에서의 차이

잔차는 표본 데이터에서 실제값과 모델 예측값의 차이를 말한다.

정의

잔차는 샘플(표본)의 데이터를 얼마나 잘 설명하지 못했는지를 나타낸다.

특징

  1. 표본 데이터와 관련됨
    잔차는 우리가 관측한 표본 데이터를 기반으로 계산.
  2. 관측 가능
    표본 데이터와 모델이 있으면 잔차를 계산할 수 있다.
  3. 잔차의 합은 0
    선형회귀모형에서, 잔차의 총합은 항상 0이 됩니다: ∑ei=0\sum e_i = 0

3. 오차와 잔차의 차이

구분 오차 (Error) 잔차 (Residual)

대상 모집단 표본
계산식 ϵi=yi−f(xi)\epsilon_i = y_i - f(x_i) ei=yi−y^ie_i = y_i - \hat{y}_i
관측 가능 여부 관측할 수 없음 관측 가능
정의 대상 진짜 모델과 실제 값 간 차이 추정 모델과 표본 값 간 차이
0이 아닐 수 있음 항상 0

4. 예시로 이해하기 🧮

오차와 잔차 비교

  1. 오차(Error)
    • 모집단에서 진짜 값과 회귀식 간의 차이: ϵ\epsilon
    • 예: 실제값 y=10y = 10, 모델 f(x)=9f(x) = 9 → 오차 ϵ=10−9=1\epsilon = 10 - 9 = 1
  2. 잔차(Residual)
    • 샘플 데이터에서 관측값과 추정 모델 간의 차이: ee
    • 예: 표본 y=10y = 10, 모델 예측 y^=8\hat{y} = 8 → 잔차 e=10−8=2e = 10 - 8 = 2

차이점:

  • 오차는 모집단의 모델과 관련된 차이
  • 잔차는 표본 데이터에서 추정 모델과의 차이

5. 오차와 잔차의 관계

잔차는 표본 데이터로부터 오차를 추정한 값.

  • 오차: 진짜 데이터의 차이를 나타내는 이론적 개념
  • 잔차: 우리가 실제로 계산할 수 있는 값

6. 요약

  • 오차(Error): 모집단에서 모델의 실제값과 예측값의 차이 (관측 불가능).
  • 잔차(Residual): 표본 데이터에서 모델의 실제값과 예측값의 차이 (관측 가능).
  • 오차는 잔차의 이론적 기반, 잔차는 오차를 표본 데이터에서 추정한 결과.

오차와 잔차의 완벽이해🎯🔥