통계학의 핵심인 표본평균의 특성과 신뢰구간에 대해 알아보자.
표본이 늘어나면 신뢰구간의 너비가 어떻게 바뀌는지도 살펴볼것이다 📊✨
1. 표본평균의 특성 🎯
표본평균은 모집단의 특성을 추정하기 위해 표본 데이터의 평균을 계산한 값이다.
다음은 표본평균의 주요 특성이다:
① 표본평균은 불편추정량이다
- 표본평균은 모집단 평균(μ\mu)을 추정하는 데 사용된다.
- 불편추정량이란, 표본평균의 기대값이 모집단 평균과 같다는 뜻.
② 표본평균의 분산은 표본 크기에 반비례한다
- 표본평균의 분산(즉, 표본평균이 얼마나 흩어져 있는지)은 표본 크기(nn)가 클수록 작아진다. (표본평균을 구하는 공식에서 표본크기는 분모에 해당하기 때문)
③ 중심극한정리
- 표본의 크기가 충분히 크면, 표본평균은 모집단 분포가 어떤 형태든지 간에 정규분포에 가까워진다는 정리.
2. 신뢰구간의 의미 ✨
신뢰구간이란?
신뢰구간(Confidence Interval, CI)은 모집단 평균과 같은 모수(parameter)가 포함될 가능성이 높은 구간을 의미.
- 예: "95% 신뢰구간이 [50, 60]이라면, 모집단 평균이 이 구간 안에 있을 확률이 95%라는 뜻."
3. 표본이 늘어날 때 신뢰구간의 너비는 어떻게 변할까? 📉
표본이 커질수록 신뢰구간은 점점 좁아진다
그 이유는 표본 크기 nn이 증가하면 표본평균의 표준오차(Standard Error)가 감소하기 때문.
직관적으로 이해하기
- 작은 표본: 데이터가 적으니, 모집단을 추정하는 데 불확실성이 크다 → 신뢰구간이 넓어짐.
- 큰 표본: 데이터가 많아지니, 모집단 추정이 더 정확해짐 → 신뢰구간이 좁아짐.
5. 신뢰구간과 표본 크기 변화 시각화 (파이썬 코드) 🐍
import numpy as np
import matplotlib.pyplot as plt
# 모집단의 평균과 표준편차
mu = 50
sigma = 10
# 표본 크기와 신뢰구간 계산
sample_sizes = np.array([10, 30, 50, 100, 500, 1000])
ci_widths = []
for n in sample_sizes:
se = sigma / np.sqrt(n) # 표준오차
ci_width = 1.96 * se * 2 # 신뢰구간 너비 (95%)
ci_widths.append(ci_width)
# 시각화
plt.figure(figsize=(8, 6))
plt.plot(sample_sizes, ci_widths, marker='o', color='blue', label="CI Width")
plt.title("Sample Size vs Confidence Interval Width", fontsize=14)
plt.xlabel("Sample Size (n)", fontsize=12)
plt.ylabel("Confidence Interval Width", fontsize=12)
plt.grid()
plt.legend()
plt.show()
6. 핵심 정리 ✍️
- 표본평균의 특성
- 모집단 평균의 불편추정량.
- 표본 크기가 클수록 분산이 작아지고 정확도가 높아짐.
- 신뢰구간의 의미
- "모집단 평균이 포함될 가능성이 높은 구간"을 나타냄.
- 표본평균을 기준으로 표준오차를 활용해 계산.
- 표본 크기가 늘어나면
- 표준오차가 감소 → 신뢰구간이 좁아짐 → 더 정확한 추정 가능.
'데이터 > 방통대 - 바이오통계학' 카테고리의 다른 글
[방통대 통계데이터과학과] 진단 검사의 평가 - ROC와 AUC (0) | 2024.12.06 |
---|---|
[방통대 통계데이터과학과] 회귀분석에서 오차와 잔차 (1) | 2024.12.05 |
[방통대 통계데이터과학과] 로지스틱 회귀분석 (2) | 2024.12.05 |
[방통대 통계데이터과학과] 바이오통계학 - 범주형 데이터의 비교 (상대위험도/ 오즈비/ 맥니마검정/ 피셔의 정확검정) (0) | 2024.12.02 |
[방통대 통계데이터과학과] 바이오통계학 - 연속형데이터의 비교 (이표본 T검정/ 대응표본 T검정) (0) | 2024.12.02 |