본문 바로가기
데이터/데이터

[방통대 통계데이터과학과] 베이즈분석 - 제프리스 어쩌고 공부내용 정리

by 단단_SINCE 2023 2024. 9. 19.

 
 
하. 내가 왜 <베이즈분석>을 수강했을까.
정말 말도 안되게 어렵다.
일단 개념만 대충 훑어보기로 하자.
 
4강 베이즈가설검정에서는
사후오즈비 = 사전오즈비 X 베이즈인자
뭐 이런 공식이 나오면서
계산식이 어마무시하게 나오는데 저는 수포자란 말이에요
 
각설하고. 일단 제프리스 어쩌고 개념만 정리해두고자 한다.
 
 

 
 
 
 

1. 제프리스의 기준

 
제프리스의 기준은 베이즈 분석에서 사전 확률을 설정할 때 사용하는 방법이다. 예를 들어, 동전을 던질 때 앞면이 나올 확률을 모르지만, 앞면과 뒷면이 나올 확률이 같다고 생각하고 싶다면 제프리스의 기준을 적용할 수 있다. 물론 제프리스의 기준이 50:50처럼 반반으로 설정하는 것은 아니다. 문제에 맞게 가장 중립적이고 공평하게 사전 확률을 설정하려고 하는 방법이다.
 

예를 들어, 동전을 던질 때는 특별한 정보가 없으니까 50:50으로 설정하는 게 맞을 수 있지만, 다른 상황에서는 그 상황에 맞는 사전 확률을 다르게 정해야 한다.


제프리스의 기준은 정보가 변하는 정도에 따라 사전 확률을 계산해서, 그 문제에 적합한 값을 찾는다.
이를 통해 사전 지식이 없어도 데이터를 분석할 수 있는 기반을 제공해준다. 제프리스의 기준을 구할 때는 피셔 정보 행렬(Fisher Information Matrix)이라는 개념을 사용한다. 구체적으로는, 피셔 정보의 제곱근을 이용해 계산한다.
 
 
 

대충 이런 느낌 (...)

 
 


 

 

2. 제프리스의 역설

 
제프리스의 역설은 전통적인 통계 방법과 베이즈 분석이 서로 다른 결과를 내놓을 수 있다는 점을 말한다.

예를 들어, 고전적인 통계 방법으로 특정 신약이 효과가 있다고 나왔는데, 베이즈 방법으로 분석했을 때는 그 신약의 효과가 통계적으로 유의미하지 않다고 나올 수 있다. 이런 차이는 사전 확률과 데이터 해석 방식에서 기인한 것이다.

  • 고전적 통계는 주로 귀무가설을 기각할 수 있느냐에 초점을 맞추며, 데이터를 기반으로 계산된 p-값이 기준보다 작으면 가설을 기각하는 방식이다.
  • 베이즈 분석사전 확률과 데이터를 결합하여 새로운 정보를 추론한다. 그래서 사전 확률이 분석에 큰 영향을 미치게 된다.


제프리스의 역설은 특히 큰 표본일 때 잘 나타난다. 고전적 통계에서는 큰 표본일수록 미세한 차이도 유의미하게 검출되지만, 베이즈 분석은 그 차이가 실제로 의미가 없을 수 있다고 판단할 수 있다. 이로 인해 두 방법이 서로 다른 결론을 내는 것이다.
 


제프리스의 역설 사례는?

사례 1: 신약 효과 검증

어떤 신약이 기존 치료보다 효과가 있는지 실험한다고 가정해보자.

  • 고전적 통계 방법에서는 1,000명의 환자를 대상으로 실험을 했더니 p-값이 0.04로 나와, 신약이 효과가 있다는 결론을 내린다(유의수준 0.05를 기준으로).
  • 베이즈 분석에서는 사전 확률을 "이 신약이 기존 치료보다 더 효과적일 가능성이 낮다"로 설정했다고 가정한다. 그러면 같은 데이터라도 사후 확률은 "신약의 효과가 크지 않을 가능성이 높다"는 결론이 나올 수 있다.

사례 2: 동전 던지기에서의 차이

동전 던지기 실험을 했을 때, 어떤 사람이 1,000번 던져서 510번이 앞면이 나왔다고 하자.

  • 고전적 통계 방법에서는 510번 중 510/1,000 = 51%로, 앞면이 50%가 아닐 가능성이 있다고 결론을 낼 수 있다(p-값이 0.04 정도 나올 수 있다).
  • 베이즈 분석에서는 "동전이 공평할 가능성이 매우 높다"는 사전 확률을 적용할 수 있다. 그러면 51% 정도의 차이는 그냥 우연에 의한 것일 가능성이 높다는 결론에 도달하게 된다.

 


 

 

3. 제프리스의 파라독스

 
 
제프리스의 파라독스는 표본이 많아질수록 고전적인 통계 방법과 베이즈 분석이 더욱 다르게 작동할 수 있다는 점을 설명한다.

예를 들어, 설문조사에서 10,000명에게 "이 제품이 좋다고 생각하십니까?"라고 물었을 때, 5%의 사람들이 "그렇다"라고 대답했다면, 고전적인 방법에서는 이 5%가 충분히 의미 있는 차이라고 판단할 수 있다. 하지만 베이즈 분석에서는 5%의 차이가 매우 작은 차이라서 큰 의미가 없다고 판단할 수 있다. 표본이 많아질수록 이런 차이는 더욱 두드러지게 나타난다.
 
좀 더 자세히 들여다보자

  • 고전적 통계는 표본 크기가 커질수록 작은 차이도 "유의미하다"고 보면서 귀무가설을 기각할 가능성이 커진다.
  • 베이즈 분석은 표본이 커지더라도 사전 확률과 실제 의미를 더 중시하기 때문에, 같은 차이를 "실제로는 의미가 없다"고 판단할 수 있다.


어떤 회사의 제품 만족도를 조사했는데, 10,000명 중 5,050명이 만족한다고 답했다고 하자.

  • 고전적 통계는 이 작은 0.5%의 차이를 p-값 기준으로 보면 "유의미하다"고 판단할 수 있다. 즉, 만족하지 않는 사람이 더 많다고 결론지을 수 있다.
  • 하지만 베이즈 분석은 그 차이를 "우연"이나 "실제로는 중요하지 않은 차이"로 해석할 수 있다. 왜냐하면 그 0.5% 차이가 크게 의미가 없다고 볼 가능성이 높기 때문이다.


표본이 커질수록 고전적 통계는 미세한 차이도 크게 보려고 하고, 베이즈 분석은 그 차이가 실질적으로 중요한지를 더 따지기 때문에 제프리스의 파라독스가 발생한다.
 
 

고전분석 VS 베이즈분석 중 결과를 선택하는 방법은?

둘의 결과가 다를 경우에는 분석 목적에 따라 어떤 방법을 선택할지 결정해야 한다.

  • 규제나 표준화된 절차가 중요한 경우 고전적 통계 방법을 따르는 것이 더 적합하다.
  • 실질적인 해석과 사전 정보의 반영이 중요하다면 베이즈 분석이 더 유용할 수 있다.

둘을 보완적으로 사용할 수도 있다.

예를 들어, p-값을 보고 유의미한 차이가 있다는 결론을 내린 뒤, 베이즈 분석으로 그 차이가 실제로도 중요한지를 추가로 평가할 수 있다.