본문 바로가기
데이터/데이터

[내 머리로 데이터시각화] 회귀모형의 추정과 검정

by 단단_SINCE 2023 2025. 3. 3.

모에화된 방통대인의 모습ㅋㅋㅋㅋ

 

📈 회귀모형의 추정과 검정: R을 활용한 데이터 분석

회귀모형의 추정과 검정R 코드로 풀어보자. 🧐

 

회귀분석은 데이터 분석에서 가장 기본적이면서도 강력한 도구,

이를 이해하면 데이터 해석 능력이 한층 더 업그레이드될 수 있다! 🚀


🎯 1. 회귀모형이란?

회귀모형은 한 변수가 다른 변수에 어떻게 영향을 주는지를 분석하는 모델이다.
예를 들어, **공부한 시간(독립변수, X)**에 따라 **시험 점수(종속변수, Y)**가 달라진다고 가정해보자.

이 관계를 단순회귀모형으로 표현하면 다음과 같다.

 

Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon

🔹 β0\beta_0 : 절편 (기본값)
🔹 β1\beta_1 : X가 1 증가할 때 Y가 얼마나 증가하는지 나타내는 계수
🔹 ϵ\epsilon : 오차(예측과 실제 값의 차이)

 

그럼 이 회귀식을 어떻게 구할까? 바로 추정(Estimation) 과정을 거쳐야 한다!


🛠️ 2. 회귀모형의 추정 (Estimation)

회귀식을 구하는 가장 대표적인 방법은 **최소제곱법(OLS, Ordinary Least Squares)**이다.

✨ 쉽게 설명하면?

공부한 시간(X)과 시험 점수(Y)의 관계를 알아보려면, 실제 데이터와 가장 잘 맞는 직선을 찾아야 한다. 📏
이때, 모든 데이터 포인트에서 직선까지의 거리를 최소로 만드는 방법최소제곱법이다.

 

즉, 오차(잔차, Residual)의 제곱합을 최소화하는 값으로 회귀계수를 추정한다! 🎯


🔍 3. 회귀모형의 검정 (Hypothesis Testing)

모형을 추정했다면, 이제 이 모형이 신뢰할 만한지 검증해야한다.
검정의 핵심은 회귀계수가 통계적으로 의미 있는지 확인하는 것이다.

📌 (1) 가설검정의 개념

귀무가설 (H0H_0) : X가 Y에 영향을 주지 않는다
대립가설 (H1H_1) : X가 Y에 영향을 준다

 

이 가설을 검정하려면 t-검정을 사용한다. 

p-value가 0.05보다 작다면 ➡️ 유의미한 변수라고 판단할 수 있다! ✅


📊 (2) 결정계수 R2R^2

회귀모형이 데이터를 얼마나 잘 설명하는지도 중요하다
이를 나타내는 지표가 결정계수 (R2R^2) 다.

 

📌 해석하기
✔️ R2R^2 값이 1에 가까울수록 모형이 데이터를 잘 설명! 🏆
✔️ R2R^2 값이 0에 가까우면 설명력이 부족한 모델... 🧐

 

하지만 R2R^2 만 보고 판단하면 안 되고, 잔차 분석이나 다른 평가 지표도 함께 보는것이 좋다!


💻 4. 실전 예제 (R 코드)

이제 실제 데이터를 가지고 R을 활용해 간단한 회귀분석을 해보자 🎯

# 필요 패키지 로드 (기본 함수만 사용하므로 따로 설치 필요 없음)

# 가상의 데이터 생성
set.seed(42)
X <- runif(100, min=0, max=10)  # 공부 시간
Y <- 2 + 3 * X + rnorm(100, mean=0, sd=2)  # 시험 점수 (오차 포함)

# 데이터 프레임 생성
df <- data.frame(StudyHours = X, Score = Y)

# 회귀 분석 수행
model <- lm(Score ~ StudyHours, data=df)

# 결과 출력
summary(model)

📌 5. R 코드 해석

✅ 주요 결과 확인

🔹 Estimate : 회귀 계수 (절편, 기울기)
🔹 Pr(>|t|) : p-value (0.05보다 작으면 유의미한 변수!)
🔹 R-squared : 모형의 설명력

 


🎯 6. 마무리

회귀모형의 추정(최소제곱법)검정(t-검정, 결정계수) 에 대해 알아봤다
데이터 분석에서 회귀모형은 기본 중의 기본🚀📊