머신러닝은 데이터를 가지고 '무엇인가를 예측'하거나 '결정'하는 도구이다. 이 중에서 분류(Classification)는 주어진 데이터를 특정 그룹으로 나누는 작업을 의미한다. 쉽게 말해, 분류는 "이 물건은 A 상자에 넣을까? B 상자에 넣을까?"를 고민하는 과정이다. 오늘은 분류 알고리즘 중 두 가지인 베이즈 분류기와 **k-근접 분류기(k-NN)**를 일상적인 비유로 설명해 보겠다. 🛠️
1️⃣ 베이즈 분류기: "과거 경험을 활용하는 통계학자"
베이즈 분류기는 "이전에 본 데이터"를 바탕으로 새로운 데이터를 판단한다. 마치 요리사가 음식을 맛보며 "이 맛은 예전에 먹었던 토마토 스프와 비슷해!"라고 판단하는 것과 비슷하다. 베이즈 분류기의 핵심은 확률이다. 예를 들어, 어떤 사람이 스팸 메일인지 아닌지 구분하는 베이즈 분류기는 이렇게 생각한다:
- "이 단어가 포함된 이메일 중 스팸이었던 확률은 얼마나 될까?"
- "그 확률을 모두 곱해보니 스팸일 가능성이 높군!"
결국, 베이즈 분류기는 통계적 가능성을 활용해 판단하는 알고리즘이다.
2️⃣ k-근접 분류기(k-NN): "다수결을 따르는 친구"
k-근접 분류기는 주변 이웃들의 '다수결'로 새로운 데이터를 판단한다. 예를 들어, 어떤 아이가 초코맛 아이스크림을 좋아하는지 물어본다고 하자. 이 알고리즘은 그 아이의 친구들에게 물어본다:
- "너 초코맛 좋아해? 넌 어때?"
그리고 친구들 중에서 가장 가까운 5명(k=5)이 좋아한다고 하면, "그럼 이 아이도 초코맛 좋아하겠군!"이라고 결론을 내린다.
여기서 중요한 것은 **가까운 친구들(k)**이다. 이 친구들은 데이터를 기준으로 "비슷한 특성"을 가진 이웃들을 의미한다. 즉, k-근접 분류기는 주변 친구의 의견에 따라 결정을 내리는 방식이다.
한눈에 보기
알고리즘 비유 특징
베이즈 분류기 | 과거 경험을 활용하는 통계학자 | 확률을 바탕으로 판단 |
k-NN | 다수결을 따르는 친구 | 가까운 이웃의 다수결에 따라 판단 |
머신러닝 알고리즘은 각기 다른 상황에 적합한 강점을 가지고 있다. 데이터를 가지고 판단을 내릴 때, 이런 알고리즘들이 어떻게 작동하는지 이해하면 더 좋은 결과를 얻을 수 있다 ✨
'데이터 > 방통대 - 머신러닝' 카테고리의 다른 글
[내 머리로 머신러닝] 모델 성능평가 지표 - MAE, MSE, RMSE, R²(결정계수) (0) | 2024.12.09 |
---|---|
[내 머리로 머신러닝] 특징추출 - 주성분분석, 선형판별분석, 축소방법 (0) | 2024.12.07 |
[내 머리로 머신러닝] 회귀 (2) | 2024.11.28 |
[내 머리로 머신러닝] 결정트리와 랜덤포레스트 (1) | 2024.11.28 |
[내 머리로 머신러닝] 군집화 (2) | 2024.11.28 |