본문 바로가기
데이터/데이터

[내 머리로 빅분기] 기술통계 - 이산확률분포와 연속확률분포

by 단단_SINCE 2023 2025. 3. 5.

🎲 확률분포의 세계! 🎈

 

 

 

🏆 1. 이산 확률분포 (Discrete Probability Distribution)

이산 확률분포란? 👉 "셀 수 있는" 값들만 나오는 확률분포다.
쉽게 말해서, 딱 떨어지는 숫자들로 확률을 계산하는 경우.

🎲 예제: 주사위 던지기

💡 주사위를 던졌을 때 나올 수 있는 숫자는 1, 2, 3, 4, 5, 6!
이 숫자들은 연속적이지 않고 딱딱 끊어져 있다.

 

➡️ 각 숫자가 나올 확률은?
모든 면이 공평한 주사위라면, 각 숫자가 나올 확률은 1/6(약 16.7%)!

 

📌 이산 확률분포의 특징
✔️ 확률이 특정한 값에만 존재한다.
✔️ 확률의 합이 항상 1이다.
✔️ 예제: 동전 던지기, 시험에서 정답 개수 맞히기, 버스 정류장에 서 있는 사람 수 등.


📈 2. 연속 확률분포 (Continuous Probability Distribution)

연속 확률분포란? 👉 "셀 수 없는" 무한한 값들 사이에서 확률을 찾는 것
즉, 어떤 범위 내에서 값이 나올 확률을 계산하는 것이다

🌡️ 예제: 온도 측정하기

💡 오늘 기온이 25.3°C일 수도 있고, 25.31°C, 25.315°C일 수도 있다!
이렇게 무한히 많은 값들 중에서 특정한 값을 찍기는 어렵다.

 

➡️ 연속 확률분포에서는 특정한 숫자의 확률이 0?!
예를 들어 정확히 25°C가 나올 확률은 0이다!
대신, 24°C~26°C 사이에서 나올 확률처럼 범위를 정해야 한다!

 

📌 연속 확률분포의 특징
✔️ 특정한 값의 확률은 항상 0이다.
✔️ 확률을 계산할 때 **구간(범위)**을 사용한다.
✔️ 예제: 키, 몸무게, 속도, 시간 등.


🔥 핵심 정리

구분 이산 확률분포 🎲 연속 확률분포 📈

셀 수 있는 값 (1, 2, 3...) 셀 수 없는 값 (실수)
확률 특정한 값의 확률 계산 가능 특정한 값의 확률 = 0, 범위로 계산
예제 주사위, 동전 던지기, 학생 수 키, 몸무게, 기온, 속도

확률분포를 좀 더 자세히 들여다보자.


🎲 1. 이산 확률분포 (Discrete Probability Distributions)

이산 확률분포는 셀 수 있는 값(정수)에서 확률을 계산하는 분포다

 

1️⃣ 포아송 분포 (Poisson Distribution) 📦

  • 어떤 사건이 일정한 시간 또는 공간에서 몇 번 발생할지를 예측하는 분포
  • 예제:
    • 1시간 동안 들어오는 고객 수
    • 하루 동안 발생하는 지진 횟수

2️⃣ 베르누이 분포 (Bernoulli Distribution) 🪙

  • 성공(1) 또는 실패(0) 두 가지 결과만 존재하는 실험을 다루는 분포
  • 예제:
    • 동전 던지기 (앞면 vs 뒷면)
    • 시험 문제 정답 여부 (맞음 vs 틀림)

3️⃣ 이항 분포 (Binomial Distribution) 🎯

  • 베르누이 실험을 여러 번 반복했을 때 성공 횟수의 분포
  • 예제:
    • 10번 동전을 던졌을 때 앞면이 나오는 횟수
    • 20문제 시험에서 맞춘 문제 개수

4️⃣ 초기하 분포 (Hypergeometric Distribution) 🎰

  • 복원추출 없이 표본을 뽑을 때 특정한 유형이 나올 확률을 구하는 분포
  • 예제:
    • 상자 안에서 빨간 공을 뽑을 확률
    • 50명 중 5명을 뽑아 여성일 확률

📈 2. 연속 확률분포 (Continuous Probability Distributions)

연속 확률분포는 **셀 수 없는 값(실수)**에서 확률을 계산하는 분포

 

1️⃣ 정규 분포 (Normal Distribution) 📊

  • 가장 중요한 확률분포! 데이터가 평균을 중심으로 종 모양을 그린다
  • 예제:
    • 사람들의 키
    • 시험 점수

2️⃣ t-분포 (t-Distribution) 🔍

  • 표본의 크기가 작을 때 정규 분포 대신 사용
  • 예제:
    • 소규모 실험에서 평균 차이를 검정할 때

3️⃣ 지수분포 (Exponential Distribution) ⏳

  • 어떤 사건이 발생할 **"시간 간격"**을 모델링하는 분포!
  • 예제:
    • 콜센터에서 다음 전화가 걸려오기까지 걸리는 시간
    • 기계가 고장 날 때까지 걸리는 시간

🔹 특징:
✔️ 포아송 분포와 관련 있음 (포아송 분포는 일정 시간 동안의 사건 발생 횟수, 지수분포는 사건 간의 시간)
✔️ 기억 없음(메모리리스) 성질 → "지금까지 5분 기다렸어도 앞으로 얼마나 더 기다릴지는 여전히 랜덤!"


2️⃣ 카이제곱 분포 (Chi-Square Distribution) 📊

  • 표본 분산을 이용하여 **"분산이 같은지 검정"**할 때 사용하는 분포!
  • 예제:
    • A반과 B반 학생들의 성적 분산이 같은지 검정
    • 데이터가 특정한 분포(정규분포)를 따르는지 확인하는 적합도 검정

🔹 특징:
✔️ 자유도가 증가할수록 정규분포에 가까워짐
✔️ 언제나 0 이상의 값을 가짐


3️⃣ F-분포 (F-Distribution) 📏

  • 두 개의 표본 분산을 비교할 때 사용하는 분포예요!
  • 예제:
    • A반과 B반의 시험 점수 분산이 통계적으로 차이가 있는지 검정 (분산 분석, ANOVA)

🔹 특징:
✔️ 두 개의 카이제곱 분포를 나누어서 만든 분포
✔️ 언제나 0 이상의 값을 가짐
✔️ ANOVA(분산 분석)에서 많이 사용됨


🔥 핵심 정리

분포 종류 설명 예제

지수분포 사건이 발생할 시간 간격 모델링 다음 손님이 올 때까지의 대기 시간
카이제곱 분포 분산 비교, 적합도 검정 학생들의 점수 분산이 같은지 검정
F-분포 두 개의 표본 분산 비교 A반과 B반의 시험 점수 차이 검정 (ANOVA)