본문 바로가기
데이터/방통대 - 바이오통계학

[방통대 통계데이터과학과] 통계적 추정과 가설검정 (표본평균, 신뢰구간, 신뢰구간의 너비)

by 단단_SINCE 2023 2024. 12. 5.

 

 

통계학의 핵심인 표본평균의 특성신뢰구간에 대해 알아보자.

표본이 늘어나면 신뢰구간의 너비가 어떻게 바뀌는지도 살펴볼것이다 📊✨

 

 


1. 표본평균의 특성 🎯

표본평균은 모집단의 특성을 추정하기 위해 표본 데이터의 평균을 계산한 값이다.
다음은 표본평균의 주요 특성이다:

① 표본평균은 불편추정량이다

  • 표본평균은 모집단 평균(μ\mu)을 추정하는 데 사용된다.
  • 불편추정량이란, 표본평균의 기대값이 모집단 평균과 같다는 뜻. 

② 표본평균의 분산은 표본 크기에 반비례한다

  • 표본평균의 분산(즉, 표본평균이 얼마나 흩어져 있는지)은 표본 크기(nn)가 클수록 작아진다. (표본평균을 구하는 공식에서 표본크기는 분모에 해당하기 때문)

③ 중심극한정리

  • 표본의 크기가 충분히 크면, 표본평균은 모집단 분포가 어떤 형태든지 간에 정규분포에 가까워진다는 정리.

2. 신뢰구간의 의미 ✨

신뢰구간이란?

신뢰구간(Confidence Interval, CI)은 모집단 평균과 같은 모수(parameter)가 포함될 가능성이 높은 구간을 의미.

  • 예: "95% 신뢰구간이 [50, 60]이라면, 모집단 평균이 이 구간 안에 있을 확률이 95%라는 뜻."

3. 표본이 늘어날 때 신뢰구간의 너비는 어떻게 변할까? 📉

표본이 커질수록 신뢰구간은 점점 좁아진다
그 이유는 표본 크기 nn이 증가하면 표본평균의 표준오차(Standard Error)가 감소하기 때문.

직관적으로 이해하기

  • 작은 표본: 데이터가 적으니, 모집단을 추정하는 데 불확실성이 크다 → 신뢰구간이 넓어짐.
  • 큰 표본: 데이터가 많아지니, 모집단 추정이 더 정확해짐 → 신뢰구간이 좁아짐.

 


5. 신뢰구간과 표본 크기 변화 시각화 (파이썬 코드) 🐍

import numpy as np
import matplotlib.pyplot as plt

# 모집단의 평균과 표준편차
mu = 50
sigma = 10

# 표본 크기와 신뢰구간 계산
sample_sizes = np.array([10, 30, 50, 100, 500, 1000])
ci_widths = []

for n in sample_sizes:
    se = sigma / np.sqrt(n)  # 표준오차
    ci_width = 1.96 * se * 2  # 신뢰구간 너비 (95%)
    ci_widths.append(ci_width)

# 시각화
plt.figure(figsize=(8, 6))
plt.plot(sample_sizes, ci_widths, marker='o', color='blue', label="CI Width")
plt.title("Sample Size vs Confidence Interval Width", fontsize=14)
plt.xlabel("Sample Size (n)", fontsize=12)
plt.ylabel("Confidence Interval Width", fontsize=12)
plt.grid()
plt.legend()
plt.show()

6. 핵심 정리 ✍️

  1. 표본평균의 특성
    • 모집단 평균의 불편추정량.
    • 표본 크기가 클수록 분산이 작아지고 정확도가 높아짐.
  2. 신뢰구간의 의미
    • "모집단 평균이 포함될 가능성이 높은 구간"을 나타냄.
    • 표본평균을 기준으로 표준오차를 활용해 계산.
  3. 표본 크기가 늘어나면
    • 표준오차가 감소 → 신뢰구간이 좁아짐 → 더 정확한 추정 가능.