내 머리로 이해하는 머신러닝 두번째,
앙상블 기법 중 그래디언트부스팅을 공부한다(배우는 중이라 틀릴 수 있다, 틀린 내용을 추후 발견하면 수정할 예정)
앙상블기법이란?
앙상블 기법이란 팀플이야.
여러 모델을 모아서 강력한 하나의 모델을 만드는것이지.
백지장도 맞들면 낫다는 말이 있잖아?
후레쉬맨이 합체하는걸 생각해봐
후레쉬맨은 하나하나가 세지만
결국 힘을 합쳐써 싸우잖아?
여럿이 모이니까 힘이 짱 세지고 (더 나은 성능)
과적합 방지, 유연성등의 강점을 가질 수 있지
랜덤포레스트 VS 그래디언트 부스팅
앙상블모델의 대표적인 분석방법은
그래디언트부스팅과 랜덤포레스트이야.
둘의 가장 큰 차이점?
그래디언트부스팅은 순차적으로 학습한다는 것이지
막내가 점심메뉴를 정한다고 가정해봐
대리님 이건 어떠세요?
과장님 이건 어떠세요?
부장님 이건 어떠세요?
이렇게 하나씩 물어서 점심메뉴를 정하면 오래걸리지만(그래디언트 부스팅)
모두 모여보세요
원하는 점심메뉴에 투표하세요
이렇게 점심메뉴를 투표하면(랜덤포레스트)
빨리 결정할 수 있잖아
그럼 그래디언트부스팅이 왜 필요해? 랜덤포레스트로 하면 되잖아?
랜덤포레스트가 물론 속도가 빠르지만
그래디언트부스팅은 그만큼 정교하다는 장점이 있지
예측오차를 줄이는게 중요한 경우에는
그래디언트부스팅을 쓰는거고
그래디언트 부스팅은 회귀와 분류 둘 다 쓰일 수 있는데
주택가격을 예측한다거나 고객이탈을 분류하는데 사용될 수 있어
머신러닝은
여러 모델을 돌려서 성능비교를 하잖아?
목적과 분석하려는 데이터의 특징에 따라
어떤게 좋을지는 달라질 수 있는거야
XGboost, LightGBM
유명한 알고리즘인 XGboost, LightGBM 이 그래디언트 부스팅을 기반으로 해
둘의 가장 큰 차이는 대칭/비대칭 여부인데
LightGBM은 비대칭으로 트리를 성장시킬 수 있고
따라서 속도가 빠른 특징이 있어
이것도 lightGBM이 속도는 빠르지만
모델의 정교함은 XGboost가 더 높아서
데이터의 특징에 맞게 선택이 필요해
속도와 정확도는 반비례한다고 할 수 있지
여기까지 오늘의 그래디언트부스팅 공부는 마칠게
ADsP시험볼때는
앙상블, 배깅, 부스팅 이런식으로 외우기만 했는데
분석기법을 하나씩 이해해보려니 역시 쉽지 않구나 ^,^
하지만 이 글의 목적은 완벽이 아니라
배움의 과정을 기록한다는데 있어
10년뒤에 이걸 보고 '이렇게 무식했다니?' 하고
웃을 수 있었으면 좋겠다. 그런 날이 오도록...
내가 나를 단단히 공부시킬것이야~
'데이터 > 방통대 - 머신러닝' 카테고리의 다른 글
[내 머리로 머신러닝] 신경망 (0) | 2024.11.24 |
---|---|
[내 머리로 머신러닝] SVM (2) | 2024.09.02 |
[머신러닝] 자연어처리 - 텍스트 전처리 과정 (토큰화, 정규화, 변환, 필터링) (0) | 2024.05.06 |
[머신러닝] 나이브베이즈(Naive Bayes) (0) | 2024.05.05 |
[머신러닝] 로지스틱회귀 - 고객이탈모델, 릿지/라쏘모델 차이, 오즈비 (0) | 2024.04.19 |