내 트윗글을 가지고 텍스트분석을 해봤다
텍스트분석은
이커머스에서 마케터이던 시절에
고객리뷰를 가지고 진행한적이 있다
그때는 파워쿼리를 활용해서
고객들의 구매 TPO를 파악하고
신규고객 인사이트에 적용하곤 했다
이번 텍스트분석에는 챗GPT와 오렌지3를 사용해보았다
#텍스트분석의 목적은 무엇인가?
모든 분석은 '목적'이 중요하다.
리뷰 텍스트 분석을 한 이유는
정량적 지표 (판매량, 재구매율 등)을
넘어서는 고객인사이트를 파악하기 위함이었다.
고객리뷰분석이라면 대개는 그 비슷한 이유일것이다
나는 트윗글을 분석하기에
나를 고객으로 가정하고
1) 페르소나 설계
2) 관심사 파악을 목표로 세웠다
사용된 텍스트 데이터는
24년 이후 작성된 트윗글로 총 200개이다.
가장 먼저 감정분석을 해봤다
실제 리뷰분석에서는 감정분석이 중요하게 작용한다
고객의 만족도를 파악할 수 있는 척도이기 때문이다
내 트윗글의 긍/부정, 중립분포는 중립이 80%
긍정이 19%, 부정이 1% 정도 된다.
어떤식으로 감정분류를 했는지 알아보기위해서
기준과 예시를 파악해봤다
내가 쓴 글이기에 파악이 훨씬 수월했는데
예시글을 보니 감정분류가 제대로 된것으로 보인다.
감정분류 기준은 긍/부정 키워드가
문장에 포함된 경우,
나머지는 중립으로 분류했다
글에서 가장 많이 사용된 단어를 파악해보았다
워드클라우드로도 만들어보았는데
황당 그 자체... ㅡ.,ㅡ
챗GPT는 한글폰트가 지원이 안되는 경우가 있어서
이렇게 이상한 단어조합이 나온다
하는 수 없이 워드클라우드는 오렌지3의 도움을 빌렸다
일단 나열해보니
너무, 내가, 이 등의
쓸데없는 단어들이 많이 보인다.
이를 불용어(STOPWORD)처리한 후
다시 워드클라우드를 생성해보았다
훨씬 나은 결과가 나왔음을 확인할 수 있다
어떤 사람인지 파악해보기 위해서
몇 가지 추정항목을 제시해 보았다
챗GPT는 역시 조심스러운 가운데 (능력 미달일수도)
직업, 성격, 태도등을 추청해주었다.
추정의 근거가 함께 나와있어
이해를 하는데 도움이 된다
텍스트 기반으로 특성을 추정하면 다음과 같다
- 긍정적인 태도
- 사회적 상호작용
- 일상의 소중함
내가 이렇게 살고있구나?좋다
관심사를 정리하니 보다 축약된 내용을 추출해낸다
전문성향상, 협력, 일상의소소한기쁨
페르소나 지정 시 자주 사용하는
그 사람의 하루도 추정해보았다
이게 바로 나?
근데 나 루틴 진짜 중요시하는데
바로 잡아내서 놀랬다. 역시 챗GPT.. 똑똑한 노무 시키
그림으로 그렸더니 이렇겤ㅋ.ㅋ..ㅋㅋㅋㅋㅋ
다시 몇가지 프롬프트를 더 썼더니 이렇게 나왔다
우아하게 그려줘서 고맙긴한데...응 아니야~ ㅋㅋㅋㅋ
토픽모델링 같은것도 해보고싶은데
아직은 내가 그 수준까지 역부족
내 트윗으로 해보니 정확도가 꽤 쏠쏠하고
이걸 고객리뷰나 브랜드 모니터링에 적용하면
꽤 좋은 인사이트를 낼 수 있을것 같다
텍스트분석, 너무 재밌다!
'데이터 > 데이터' 카테고리의 다른 글
[ADP] 내 머리로 이해하는 분산시스템 (0) | 2024.07.23 |
---|---|
[책] 데이터 분석과 비판적 사고 (0) | 2024.04.28 |
[책] 데이터분석 리포트는 이렇게 쓰는거에요 - 데이터 드리븐 리포트 (0) | 2024.03.06 |
[책] 감으로만 일하던 김팀장은 어떻게 데이터 좀 아는 팀장이 되었나 (0) | 2024.02.26 |
[책] 데이터 천재들은 어떻게 기획하고 분석할까 (0) | 2024.02.12 |