🎲 확률분포의 세계! 🎈
🏆 1. 이산 확률분포 (Discrete Probability Distribution)
이산 확률분포란? 👉 "셀 수 있는" 값들만 나오는 확률분포다.
쉽게 말해서, 딱 떨어지는 숫자들로 확률을 계산하는 경우.
🎲 예제: 주사위 던지기
💡 주사위를 던졌을 때 나올 수 있는 숫자는 1, 2, 3, 4, 5, 6!
이 숫자들은 연속적이지 않고 딱딱 끊어져 있다.
➡️ 각 숫자가 나올 확률은?
모든 면이 공평한 주사위라면, 각 숫자가 나올 확률은 1/6(약 16.7%)!
📌 이산 확률분포의 특징
✔️ 확률이 특정한 값에만 존재한다.
✔️ 확률의 합이 항상 1이다.
✔️ 예제: 동전 던지기, 시험에서 정답 개수 맞히기, 버스 정류장에 서 있는 사람 수 등.
📈 2. 연속 확률분포 (Continuous Probability Distribution)
연속 확률분포란? 👉 "셀 수 없는" 무한한 값들 사이에서 확률을 찾는 것
즉, 어떤 범위 내에서 값이 나올 확률을 계산하는 것이다
🌡️ 예제: 온도 측정하기
💡 오늘 기온이 25.3°C일 수도 있고, 25.31°C, 25.315°C일 수도 있다!
이렇게 무한히 많은 값들 중에서 특정한 값을 찍기는 어렵다.
➡️ 연속 확률분포에서는 특정한 숫자의 확률이 0?!
예를 들어 정확히 25°C가 나올 확률은 0이다! ❌
대신, 24°C~26°C 사이에서 나올 확률처럼 범위를 정해야 한다!
📌 연속 확률분포의 특징
✔️ 특정한 값의 확률은 항상 0이다.
✔️ 확률을 계산할 때 **구간(범위)**을 사용한다.
✔️ 예제: 키, 몸무게, 속도, 시간 등.
🔥 핵심 정리
구분 이산 확률분포 🎲 연속 확률분포 📈
값 | 셀 수 있는 값 (1, 2, 3...) | 셀 수 없는 값 (실수) |
확률 | 특정한 값의 확률 계산 가능 | 특정한 값의 확률 = 0, 범위로 계산 |
예제 | 주사위, 동전 던지기, 학생 수 | 키, 몸무게, 기온, 속도 |
확률분포를 좀 더 자세히 들여다보자.
🎲 1. 이산 확률분포 (Discrete Probability Distributions)
이산 확률분포는 셀 수 있는 값(정수)에서 확률을 계산하는 분포다
1️⃣ 포아송 분포 (Poisson Distribution) 📦
- 어떤 사건이 일정한 시간 또는 공간에서 몇 번 발생할지를 예측하는 분포
- 예제:
- 1시간 동안 들어오는 고객 수
- 하루 동안 발생하는 지진 횟수
2️⃣ 베르누이 분포 (Bernoulli Distribution) 🪙
- 성공(1) 또는 실패(0) 두 가지 결과만 존재하는 실험을 다루는 분포
- 예제:
- 동전 던지기 (앞면 vs 뒷면)
- 시험 문제 정답 여부 (맞음 vs 틀림)
3️⃣ 이항 분포 (Binomial Distribution) 🎯
- 베르누이 실험을 여러 번 반복했을 때 성공 횟수의 분포
- 예제:
- 10번 동전을 던졌을 때 앞면이 나오는 횟수
- 20문제 시험에서 맞춘 문제 개수
4️⃣ 초기하 분포 (Hypergeometric Distribution) 🎰
- 복원추출 없이 표본을 뽑을 때 특정한 유형이 나올 확률을 구하는 분포
- 예제:
- 상자 안에서 빨간 공을 뽑을 확률
- 50명 중 5명을 뽑아 여성일 확률
📈 2. 연속 확률분포 (Continuous Probability Distributions)
연속 확률분포는 **셀 수 없는 값(실수)**에서 확률을 계산하는 분포
1️⃣ 정규 분포 (Normal Distribution) 📊
- 가장 중요한 확률분포! 데이터가 평균을 중심으로 종 모양을 그린다
- 예제:
- 사람들의 키
- 시험 점수
2️⃣ t-분포 (t-Distribution) 🔍
- 표본의 크기가 작을 때 정규 분포 대신 사용
- 예제:
- 소규모 실험에서 평균 차이를 검정할 때
3️⃣ 지수분포 (Exponential Distribution) ⏳
- 어떤 사건이 발생할 **"시간 간격"**을 모델링하는 분포!
- 예제:
- 콜센터에서 다음 전화가 걸려오기까지 걸리는 시간
- 기계가 고장 날 때까지 걸리는 시간
🔹 특징:
✔️ 포아송 분포와 관련 있음 (포아송 분포는 일정 시간 동안의 사건 발생 횟수, 지수분포는 사건 간의 시간)
✔️ 기억 없음(메모리리스) 성질 → "지금까지 5분 기다렸어도 앞으로 얼마나 더 기다릴지는 여전히 랜덤!"
2️⃣ 카이제곱 분포 (Chi-Square Distribution) 📊
- 표본 분산을 이용하여 **"분산이 같은지 검정"**할 때 사용하는 분포!
- 예제:
- A반과 B반 학생들의 성적 분산이 같은지 검정
- 데이터가 특정한 분포(정규분포)를 따르는지 확인하는 적합도 검정
🔹 특징:
✔️ 자유도가 증가할수록 정규분포에 가까워짐
✔️ 언제나 0 이상의 값을 가짐
3️⃣ F-분포 (F-Distribution) 📏
- 두 개의 표본 분산을 비교할 때 사용하는 분포예요!
- 예제:
- A반과 B반의 시험 점수 분산이 통계적으로 차이가 있는지 검정 (분산 분석, ANOVA)
🔹 특징:
✔️ 두 개의 카이제곱 분포를 나누어서 만든 분포
✔️ 언제나 0 이상의 값을 가짐
✔️ ANOVA(분산 분석)에서 많이 사용됨
🔥 핵심 정리
분포 종류 설명 예제
지수분포 | 사건이 발생할 시간 간격 모델링 | 다음 손님이 올 때까지의 대기 시간 |
카이제곱 분포 | 분산 비교, 적합도 검정 | 학생들의 점수 분산이 같은지 검정 |
F-분포 | 두 개의 표본 분산 비교 | A반과 B반의 시험 점수 차이 검정 (ANOVA) |
'데이터 > 데이터' 카테고리의 다른 글
[내 머리로 빅분기] 자연어처리의 트랜스포머 (0) | 2025.03.20 |
---|---|
[내 머리로 빅분기] Q-Q plot에 대해 알아보자 (0) | 2025.03.18 |
[내 머리로 데이터시각화] 회귀모형의 추정과 검정 (0) | 2025.03.03 |
[내 머리로 텍스트분석] 텍스트 네트워크 분석의 설정값 (0) | 2025.02.16 |
[내 머리로 텍스트분석] 감정분석의 종류와 방법 - Liu Hu, Vader 외 (0) | 2025.02.16 |