본문 바로가기
데이터/방통대 - 바이오통계학

[방통대 통계데이터과학과] 진단 검사의 평가 - ROC와 AUC

by 단단_SINCE 2023 2024. 12. 6.

 

 

📈 ROC 곡선과 AUC: 모델 평가의 핵심 이해하기

분류 모델 평가에 자주 등장하는 **ROC 곡선(Receiver Operating Characteristic Curve)**과 **AUC(Area Under the Curve)**에 대해 알아보자.

 

 


🖼️ 1. ROC 곡선이란?

ROC 곡선은 분류 모델의 성능을 시각적으로 나타낸 그래프.

  • X축: False Positive Rate (FPR; 위양성 비율)
    • 잘못된 예측(실제로는 Negative인데 Positive로 예측)의 비율
  • Y축: True Positive Rate (TPR; 민감도 또는 재현율)
    • 올바른 예측(실제로 Positive인 경우를 Positive로 맞춘 비율)

🔍 ROC 곡선의 의미

  • 모델이 **결정 임계값(threshold)**을 변화시킬 때, FPR과 TPR의 변화를 보여준다
  • 비유: 마치 정밀한 저울처럼, 모델이 얼마나 정확하게 Positive와 Negative를 구분하는지 확인하는 과정이다

🖼️ 2. AUC란?

AUC는 **ROC 곡선 아래의 면적(Area Under the Curve)**을 의미하며, 모델의 분류 성능을 하나의 숫자로 나타낸다.

  • AUC 값 범위: 0 ~ 1
    • 1: 완벽한 분류
    • 0.5: 랜덤 분류 (동전 던지기 수준)
    • 0: 완전히 잘못된 분류

📊 ROC 곡선과 AUC의 관계

1. 완벽한 모델

  • ROC 곡선이 좌측 상단 코너를 딱 찍는 형태.
  • AUC = 1
  • 해석: 모델이 Positive와 Negative를 100% 완벽하게 구분!
  • 비유: 친구가 사과와 배를 정확히 구별해서 하나도 틀리지 않는 경우! 🍎🍐
    |
  1 |***********
    |           *
TPR |           *
  0 |************
    ----------------
        FPR

2. 랜덤 모델

  • ROC 곡선이 대각선 형태로 나타남.
  • AUC ≈ 0.5
  • 해석: 모델이 Positive와 Negative를 구분하지 못함.
  • 비유: 사과와 배를 찍어서 고르는 경우. 😅
    |
  1 |     *
    |    *
TPR |   *
  0 |  *
    ----------------
        FPR

3. 좋은 모델

  • ROC 곡선이 대각선보다 위쪽에 위치, 좌측 상단에 가까울수록 좋음.
  • AUC ≈ 0.7~0.9
  • 해석: 모델이 비교적 잘 작동하며, Positive와 Negative를 적절히 구분.
  • 비유: 친구가 대체로 사과와 배를 잘 구분하지만, 가끔 헷갈리는 경우! 🍎❓🍐
    |
  1 |***********
    |       *
TPR |    *
  0 |************
    ----------------
        FPR

🛠️ AUC 높을수록 의미

  • AUC 값이 1에 가까울수록 모델의 분류 성능이 뛰어나다는 뜻.
  • AUC > 0.9: 훌륭한 성능!
  • AUC 0.7~0.9: 괜찮은 성능.
  • AUC < 0.7: 모델 성능을 개선해야 할 수도.

💡 ROC 곡선과 AUC 활용하기

  1. 모델 성능 비교
    • 여러 모델의 ROC 곡선과 AUC 값을 비교해 더 나은 모델을 선택할 수 있다.
  2. 임계값 조정
    • ROC 곡선을 통해 False Positive와 False Negative 간의 균형을 확인하고, 최적의 임계값을 선택할 수 있다.
  3. 모델 이해와 개선
    • AUC 값이 낮다면, 데이터 품질을 개선하거나 더 복잡한 모델을 시도해볼 필요가 있다.

🏆 마무리

정리하자면 이렇다.

 

ROC 곡선은 모델의

예측 성능을 한눈에 파악할 수 있는 강력한 도구,

AUC 값은 이를 정량적으로 평가하는 기준.