본문 바로가기
데이터/데이터

[책] 데이터 분석과 비판적 사고

by 단단_SINCE 2023 2024. 4. 28.

 

 

상관관계는 왜 인과관계를
내포하지 않는가?

 
데이터분석을 하다보면
누구나 원인과 결과가 분명한 그림을 갖기 소망한다.

원인은 a입니다.
a를 개선하면 b는 (자연스레) 높아질 수 있습니다.
 
물론 업무를 하다보면 이런 식의 인사이트는 나온다.
 
하지만 실무에서 상관관계를 넘어서는
인과관계를 파악하기는 쉽지 않다.
 

왜? 제3의 교란변수때문에

 
인과관계를 파악하기가 어려운 이유는 '교란변수' 때문이다. 데이터책을 보다보면 유명한 상관관계의 사례들이 나온다.
 
아이스크림 판매량과 악어의 공격
 
아이스크림이 판매량이 늘어나는것과
악어의 공격이 늘어나는 것은
데이터로만 보면 높은 상관관계가 나온다
 
하지만 누구도 아이스크림판매량-악어의공격이 인과관계라고 생각하진 않을 것이다
 
우리는 직관적으로 두 변수가 아닌
제 3의 교란변수가 있다는것을 눈치챌 수 있는데
이것은 바로 '날씨' 이다.
 
둘 다 여름에 발생하기 쉬운 것이고
그래서 상관관계가 높게 나왔던 것 뿐이다


 
또 하나의 사례는 '대안학교 재학여부와 성적의 상관관계' 이다.
 
대안학교를 다니는 학생들은
일반학교를 다니는 학생들에 비해서 성적이 높다.
 
그렇다면 대안학교에 '다니기 때문에' 성적이 높은것인가?
 
여기에도 교란변수가 있는데
바로 '부모의 경제력' 이다.
 
부모의 경제력이 높은 아이들은
대안학교에 다닐 확률이 높다.
부모의 경제력이 높은 아이들이 성적이 높을 확률도 높다.
 
집안에서 받는 서포트,
교육열 등등이 좌우하기 때문이다.
 
그래서 상관관계는 인과관계가 되지 못한다.
a 면 b 이다, 의 관계에서는 사실 보이지 않는 무수한 '교란변수' 들이 있기 때문이다.
 

왜? 역인과관계때문에

 
상관관계가 인과관계가 되기 어려운 또 하나의 이유는 '역인과관계' 때문이다.
 
선거자금을 많이 쓰면 당선될 확률이 높다, 를 보여주는 데이터가 있다고 치자.
 
하지만 '돈만 많이 쓴다고' 당선확률을 높일 수 있을까?
우리나라 역사에서도 정주영은 대통령이 되지못했고 정몽준은 대통령후보로 나왔지만 단일화에서 떨어졌다
 
선거라는건 인지도, 지지도, 정당, 정치경력등으로
대충 당선될 사람의 윤곽이 드러나있다.
 
즉 선거비용을 많이 써서 당선확률이 높아지는게 아니라
원래 당선될 확률이 높은 후보에게 돈이 많이몰리고 그래서 선거자금을 많이 쓰는것이다.
 
이와 같은 역인과관계가 발생할 수 있기 때문에
선거비용-선거당선확률은 인과관계로 성립하지 못한다
 


 
이 책은 <데이터분석과 비판적 사고>라는 제목과 같이
이런식으로 데이터를 바라보는 '비판적 사고'를 길러주는 책이다.
 
데이터를 어떻게하면 '제대로' 해석할 수 있는지
대학강의같은 느낌으로 술술 설명한다.
 
재미없을것 같아서 오랫동안 사놓고 보관만 했었는데(...)
생각보다 잘 읽혀서 좋았다.
 
추천지수 : ★ ★ ★ ★