[내 머리로 데이터시각화] 회귀모형의 추정과 검정 📈 회귀모형의 추정과 검정: R을 활용한 데이터 분석회귀모형의 추정과 검정을 R 코드로 풀어보자. 🧐 회귀분석은 데이터 분석에서 가장 기본적이면서도 강력한 도구, 이를 이해하면 데이터 해석 능력이 한층 더 업그레이드될 수 있다! 🚀🎯 1. 회귀모형이란?회귀모형은 한 변수가 다른 변수에 어떻게 영향을 주는지를 분석하는 모델이다.예를 들어, **공부한 시간(독립변수, X)**에 따라 **시험 점수(종속변수, Y)**가 달라진다고 가정해보자.이 관계를 단순회귀모형으로 표현하면 다음과 같다. Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon🔹 β0\beta_0 : 절편 (기본값)🔹 β1\beta_1 : X가 1 증가할 때 Y가 얼마나 증가하는지 나타내는 계수🔹 ϵ\ep.. 2025. 3. 3. [내 머리로 연관분석] Apriori 알고리즘과 향상도를 활용한 이커머스 매출확대 전 이커머스에서 상품추천은 어떤 식으로 이루어질까?데이터분석에서는 연관분석-그 중에서도 Apriori알고리즘이 대표적이다. 📖 연관 분석(Apriori Algorithm)으로 숨겨진 소비자 패턴 찾기이커머스에서 고객이 원하는 제품을 예측하고 판매를 극대화하려면 연관 분석이 필수다. 연관 분석은 어떤 제품들이 함께 팔리는지 파악하여 추천 시스템에 활용할 수 있다. 직관적으로 쉽게 예상가능한 커피머신과 커피 캡슐을 예로 들어, 연관 분석의 핵심 개념과 활용 방법을 이야기해보자! ☕ 1️⃣ Apriori 알고리즘이란?Apriori 알고리즘은 고객의 구매 데이터를 분석해 연관성 높은 상품 조합을 찾아내는 방법이다. 2️⃣ 연관 분석의 핵심 지표연관 분석을 할 때 중요한 세 가지 지표를 커피머신과 캡슐의 사례로 .. 2025. 1. 28. [내 머리로 머신러닝] SVM 1. SVM의 정의SVM(Support Vector Machine)은 마치 두 팀의 축구 선수가 필드에서 자리를 잡는 것과 비슷하다. 빨간 팀과 파란 팀이 있는데, SVM은 이 두 팀이 서로 부딪치지 않도록 가운데 선을 그려주는 역할을 하는거다.이 선은 두 팀의 선수들로부터 최대한 멀리 떨어져서 그려지는데, 이게 바로 SVM이 데이터를 분류하는 방식이다.2. 최대 마진과 SVM의 장점최대한 멀리 떨어져서 그려지는 선. 이걸 “최대 마진”이라고 한다. 최대 마진은 선과 팀 사이의 거리를 최대한 넓게 만들어서, 새로운 데이터가 들어왔을 때도 잘 처리할 수 있게한다. (과대적합 방지) 3. 라그랑주 승수라그랑주 승수는 이 선을 최적의 위치에 두기 위해서 계산하는 특별한 값이다. 마치 축구 코치가 “여기서 조.. 2024. 9. 2. [책] 데이터 분석과 비판적 사고 상관관계는 왜 인과관계를 내포하지 않는가? 데이터분석을 하다보면 누구나 원인과 결과가 분명한 그림을 갖기 소망한다.원인은 a입니다. a를 개선하면 b는 (자연스레) 높아질 수 있습니다. 물론 업무를 하다보면 이런 식의 인사이트는 나온다. 하지만 실무에서 상관관계를 넘어서는인과관계를 파악하기는 쉽지 않다. 왜? 제3의 교란변수때문에 인과관계를 파악하기가 어려운 이유는 '교란변수' 때문이다. 데이터책을 보다보면 유명한 상관관계의 사례들이 나온다. 아이스크림 판매량과 악어의 공격 아이스크림이 판매량이 늘어나는것과 악어의 공격이 늘어나는 것은데이터로만 보면 높은 상관관계가 나온다 하지만 누구도 아이스크림판매량-악어의공격이 인과관계라고 생각하진 않을 것이다 우리는 직관적으로 두 변수가 아닌 제 3의 교란변수가 있.. 2024. 4. 28. [머신러닝] 로지스틱회귀 - 고객이탈모델, 릿지/라쏘모델 차이, 오즈비 내 머리로 이해하는 머신러닝, 첫번째공부만해서는 자꾸 휘발되는 느낌이라 블로그에 정리를 해둘까 한다 로지스틱회귀란 무엇일까?로지스틱회귀는 확률을 예측하여 두가지의 결과로 분류하는것이다. (이진분류) 합격하거나 불합격하거나 구매하거나 미구매하거나 고객이탈하거나 이탈하지 않거나 시험성적을 예를 들어보자. 합격할 것인지, 불합격인지를 예측할 수 있고이를 좌우하는 변수에는 여러가지가 있을것이다. 공부시간공부량문제풀이개수등등 이 중 합격에 미치는 영향이 가장 큰 변수는 무엇일까?변수의 영향력에 따라합격/불합격으로 예측할 수 있다. 로지스틱회귀 예시 3가지 대표적으로 실무에서 쓰이는 로지스틱회귀는 다음과 같다. 예시설명1. 이메일 스팸 필터링이메일을 스팸 또는 비스팸으로 분류하는 모델을 개발합니다. 이메일의 텍.. 2024. 4. 19. [자격증/후기] 데이터 자격증 ADsP, SQLD 한번에 합격 후기 작년, 올해 꾸준히 공부해서 데이터 자격증인 ADsP와 SQLD를 연달아 한번에 합격했다 인터넷에서는 뭐 3일, 7일만에 합격이니 말이 난무하던데그렇게 단기간에 딸 수 있는 자격증은 아니라고 생각한다. 직장인이기 때문에 둘 다 한달정도는 공부했고공부하면서는 굉장히 어려움을 느꼈다 나의 경우는기출문제 강의수강 -> 개념강의 수강 -> 기출문제풀이 순으로 공부했고모든 시험공부가 그러하듯 개념 잘 몰라도 기출문제로 먼저 진도를 나가고어떤게 중요한 개념인지(시험에 나오는 개념인지)를 파악하고나서 개념강의를 들었던게 주효했다고 생각한다 SQLD와 ADsP 차이 나도 처음에 시험 준비할땐 둘이 뭐가 다른거야? 싶었는데공부하고 시험 본 결과, 두 시험은 확실히 다르다. 둘 다 기본 데이터의 개념부터 시.. 2024. 4. 10. [수료증] 유데미 - 오렌지3를 활용한 인공지능 기반 데이터분석 입문 올해들어 3번째 유데미 완강 오렌지3는 ADsP를 공부하며 배운 인공지능 지식을 실습하기 위해 배웠다. 기본적으로 다룰 수 있긴 한데,좀 더 깊이있는 내용을 이해하고 싶어서 강의를 수강했고 무척 만족한다. 항상 모든 데이터툴은 배우기 쉬운것부터 차근차근해나가는게 맞다고 생각한다. 그리고 비전공자에게 그 기준은 노코딩, 시각화 중심이다. 오렌지3는 드래그앤드롭으로 플로우를 그리면서인공지능의 기본 프로세스를 실습하고 익힐 수 있다 제공하는 머신러닝방법도선형회귀/로지스틱회귀부터, KNN/그래디언트부스팅/랜덤포레스트등 다양하다. 나는 파이썬을 배우면서 오렌지3를 접했는데오렌지3로 구현한 결과와 파이썬을 통해 정식적으로 코딩을 하면서 구현한 내용이별로 큰 차이가 없어서 놀랬던 경험이 있다. 이 강의.. 2024. 4. 10. [감사일기] ADsP 합격, 뫄퉁, 성원장 - 3월 4주 즐겁게 한 것들 ADsP 합격 지난 2월 말 시험을 봤던 ADsP(데이터분석 준전문가) 자격증에 합격했다 시험 앞두고 본 모의고사에서 다 합격권 점수가 나와서 기대를 했지만, 실제 시험에서는 수식이 많이 나왔기때문에 당황했던것도 사실이었다. 하지만 노력은 배신하지 않는다! 작년에 SQLD 합격을 하고도 기분이 좋았는데 연달아 ADsP 합격을해서 너무 기분이 좋다 머신러닝이나 통계 개념이 더 어려워서 ADsP를 더 오래 공부했고 그래서인지 더 높은 점수로 합격할 수 있었다. 아무래도 아침마다 루틴하게 공부를 했던것이 주효했다고 생각 시험 잘보라고 응원해주고 떡볶이 사준 롸루에게 스페셜 땡스투♥내가 가장 먼저 합격 소식을 전한 사람도 롸루인데 하이파이브로 같이 기뻐해줘서 넘 좋았다(역시 기쁨은 나누면 두배 ^,^).. 2024. 3. 23. [수료증] 유데미 - 통계분석 마스터클래스 : 확률과 추론 올해들어 두번째 유데미 강의를 수강완료했다. 3월 완강목표로 달렸던 ADsP를 공부하면서 ‘카이제곱검정' 't검정'등의 개념을 익혔고실무에서 어떻게 활용할 수 있는지 심화학습하고자 선택했다 챗GPT의 도움으로 이 강의에서 배운걸 한장으로 요약하자면 이 표라고 할 수 있다. 예를 들면 카이제곱 검정이란 무엇인가?- 카이제곱 검정은 두 변수가 문자인 경우에 검정하는 방법이다 '가구수에 따라 선호하는 차량 타입의 차이가 있는가' 라는 문제를 던지고 검정하는데 사용할 수 있다. 이 경우에는 아래와 같은 절차를 따르는데, 1) 가구수에 따른 타입별 차량 빈도 확인 - 관측2) '차이가 없다'는 귀무가설 수립시에 예상되는 빈도 3) 예상빈도와 실제빈도의 차이4) 둘의 차이를 통해 계산한 p값 등으로 '가구수에.. 2024. 3. 21. 내 트위터 작성글 텍스트분석 (w. 챗GPT/오렌지3) 내 트윗글을 가지고 텍스트분석을 해봤다 텍스트분석은 이커머스에서 마케터이던 시절에 고객리뷰를 가지고 진행한적이 있다 그때는 파워쿼리를 활용해서 고객들의 구매 TPO를 파악하고 신규고객 인사이트에 적용하곤 했다 이번 텍스트분석에는 챗GPT와 오렌지3를 사용해보았다 #텍스트분석의 목적은 무엇인가? 모든 분석은 '목적'이 중요하다. 리뷰 텍스트 분석을 한 이유는 정량적 지표 (판매량, 재구매율 등)을 넘어서는 고객인사이트를 파악하기 위함이었다. 고객리뷰분석이라면 대개는 그 비슷한 이유일것이다 나는 트윗글을 분석하기에 나를 고객으로 가정하고 1) 페르소나 설계 2) 관심사 파악을 목표로 세웠다 사용된 텍스트 데이터는 24년 이후 작성된 트윗글로 총 200개이다. 가장 먼저 감정분석을 해봤다 실제 리뷰분석에서는 .. 2024. 3. 10. [책] 데이터 천재들은 어떻게 기획하고 분석할까 회사에서 데이터를 다루지만항상 다른 사람들이 어떻게 일하는지 궁금하다 더 잘할 수 있는 방법이 있을까?내가 모르는 다른 방법이 있을까?그래서 나는 꾸준히 책과 강의를 살핀다 이 책은 사실 제목때문에 관심이 없었는데'데이터천재? 뭐 엑셀천재가 된 홍대리 그런거임?'들춰보니까 진짜 데이터분야 교수님들이 쓴찐천재라 몹시 당황했다(...) 필자에 대한 신뢰를 회복했기 때문일까.내용 역시 충실하고 좋았다 내가 데이터 책을 읽는 이유는 두 가지다내가 얼마나 알고있는지 확인하기 (1) 메타인지내가 모르는 부분 확인하기 (2) 공부방향 설정 이 책은 군집분석, 텍스트분석, 이미지분석등을나누어서 데이터분석의 실 사례를 설명해주고분야별로 현재 내 수준을 진단하는데 큰 도움을 주었다. #텍스트분석 텍스트분석 파트를 보자 이.. 2024. 2. 12. [직장일기] 대시보드는 예쁘라고 만드는게 아닌뎁쇼 - 루커스튜디오, 태블로, MSTR 활용 ** 내가 네이버블로그에 작성한글을 여기에 옮긴다 짱짱 완전 반했어 팀장님이 내게 엄지척을 하고 가셨다. 요는 우리팀 대시보드를 완성했기 때문이다. 마케터가 아니고서야 GA를 잘 다루지 않기 때문인지, 전 회사에서도 지금 회사에서도 내가 루커스튜디오(구. 데이터스튜디오) 로 GA대시보드를 만들면 상사가 너무 좋아하며 감탄을 한다. 헤헷 사실 대시보드는 전 회사에서 정말 찍어내듯 많이 만들었다. 아무래도 앱서비스보다는 이커머스가... 이커머스는 매일매일 유입, 채널, 구매, 상품, 한눈에 표시해야 할 지표가 많았고, 그 연관성을 밝히면서 대시보드를 구성해야 했기에 더 많은 내용들이 촘촘하게 들어갔다. 내가 만들었던 이커머스 대시보드 일부 - 제목은 '어제를 한눈에'였다 한편, A/B테스트 같은걸.. 2024. 2. 8. [직장생활] 나의 슬기로운 태블로 생활 - 어쩌다 CRM 마케터가 되어 ** 내가 n년전에 브런치에 작성한글을 여기에 옮긴다 CRM 영역을 좀 맡아줬으면 좋겠는데 팀장님의 한마디에 별안간 CRM 마케터가 되었다. 네? CRM이요? 이놈의 스타트업... 잦은 업무변경과 조직개편은 이제 익숙해질법도 하건만 매번 당황스러웠다. 내 업무는 타 부서로 이관한다고 했다. 최근에는 홍보업무를 중점적으로 하고 있었는데, 바닥부터 일궈온 홍보업무를 내려놓는게 시원섭섭했다. 기자응대가 싫어서 홍보업무가 좋지만은 않았지만 요즘 좋은 성과를 내고 있던터라 빼앗긴 느낌이 들었다. 실컷 기반 닦아놨더니 다른 일을 하라니.. 과장님은 이 일을 아주 잘할것 같아요 살짝 부아가 치밀었지만 'CRM엔 올라운더인 니가 적임자다' 라는 팀장의 꼬임에 넘어가 알겠다고 했다. 그리고 뭐, 생각해보니 요즘은 CRM.. 2024. 2. 8. 좋아하는 것의 리스트가 곧 나다 나라는 사람은 언제 확인하는지 아세요? 내가 뭘 좋아하는지에 대한 리스트에요. 없으면, 여러분 자신을 모르는거에요. 내가 뭐를 좋아하는지가 내가 어떤 사람인지에요. - 강신주 오랜만에 2024년 버전의 '내가 좋아하는 것' 리스트를 업데이트 해본다. 이전에는 떡볶이 킬러였지만 건강의 중요도가 높은 요즘은 그렇게 선호하지 않는다. 많은 사람들을 좋아했지만 이제는 '내가 왜 저 인간을 좋아했지?' 싶은 경우가 있다. 좋아하는게 바뀌면 나도 바뀌는 것. 좋아하는것의 리스트 = 나 라는 말에 공감한다. 그런의미에서 2024년의 나는 이러하다. 관심사 (자주 읽는 책, 자주 보는 동영상 분야) 데이터분석 건강 과학 자기계발 심리학 음악 옥주현 브로콜리너마저 음식 쌈밥 두부전골 보리밥 고등어구이 스타벅스 유자민트 .. 2024. 1. 6. 이전 1 다음