📌 Corpus to Network란?
Corpus to Network는 **텍스트 데이터(말뭉치, Corpus)**를 네트워크(Network) 구조로 변환하는 과정이다.
즉, 단어와 단어 사이의 관계를 시각화해 네트워크 그래프 형태로 표현하는 것! 🔍
✨ 왜 사용할까요?
- 텍스트의 숨겨진 패턴과 관계를 시각적으로 이해할 수 있다.
- 단어의 연결성, 빈도, 중심성을 파악할 수 있다.
- **자연어 처리(NLP)**와 **소셜 네트워크 분석(SNA)**에서 널리 사용
🕸️ Corpus to Network의 기본 과정
텍스트 데이터를 네트워크로 변환하는 과정은 **노드(Node)**와 **엣지(Edge)**로 단어의 관계를 연결한다.
- 노드 (Node): 단어(혹은 키워드)를 의미
- 엣지 (Edge): 단어들 사이의 관계 또는 공동 출현(co-occurrence)을 나타낸다
예시 📖
- 노드: “데이터”, “분석”, “AI”
- 엣지: “데이터”와 “분석”이 같은 문장에서 여러 번 등장했다면, 이 둘을 엣지로 연결
🌟 중요 개념 3가지: Threshold, Window Size, Frequency Threshold
1️⃣ Threshold (임계값)
엣지(edge)를 생성할 기준값을 의미한다. 단어들이 함께 등장한 횟수가 threshold 값을 넘을 때만 엣지를 생성
✔️ 왜 중요할까요?
- 너무 낮으면 모든 단어가 연결돼 복잡한 네트워크가 된다. 🕸️
- 너무 높으면 의미 있는 연결도 사라질 수 있다. 🚫
예시
- Threshold = 3 → 3회 이상 함께 등장한 단어들만 연결
2️⃣ Window Size (윈도우 크기)
단어들의 **공동 출현(co-occurrence)**을 계산할 때 몇 개의 단어 범위를 볼 것인지 정하는 값.
즉, 분석할 단어 범위를 몇 개로 설정할지를 결정한다.
✔️ 왜 중요할까요?
- 작은 윈도우 크기 (예: 2~3 단어): 밀접한 관계를 더 정확히 분석할 수 있다
- 큰 윈도우 크기 (예: 10 단어 이상): 넓은 관계를 포착할 수 있지만, 노이즈도 많아진다.
예시
- Window Size = 2: 단어가 연속된 2개의 단어 안에서 함께 등장하는지 확인
- Window Size = 5: 앞뒤 5단어 내에서 공동 출현을 검사
3️⃣ Frequency Threshold (빈도 임계값)
단어가 전체 말뭉치에서 몇 번 이상 등장할 때만 분석에 포함할지를 결정한다
즉, 너무 자주 등장하거나 거의 등장하지 않는 단어는 제외
✔️ 왜 필요할까요?
- 너무 낮은 빈도 단어는 의미 없는 단어일 가능성이 큽니다.
- 너무 높은 빈도 단어는 “은, 는, 이, 가” 같은 불용어(stopword)일 수 있다
예시
- Frequency Threshold = 5 → 5회 이상 등장한 단어만 노드로 사용
🛠️ Corpus to Network의 활용 사례
- 소셜 네트워크 분석 (SNA): 특정 주제에서 주요 키워드 간 관계를 파악
- 연구 논문 분석: 학술 논문에서 핵심 개념 간의 연결성 시각화
- 뉴스 기사 분석: 사건의 연관성을 시각적으로 보여줌
- 마케팅: 고객 리뷰에서 감정적 연관성을 분석
🎯 Corpus to Network의 최적 설정 팁
1️⃣ Threshold 값: 데이터에 따라 조정, 25 사이부터 시작하는 것이 좋다
2️⃣ Window Size: **작은 값 (23)**로 먼저 테스트하고, 필요에 따라 늘리기
3️⃣ Frequency Threshold: 너무 낮은 빈도 단어는 제거, 5~10 이상의 값이 적당
실습은 여기에
'데이터 > 데이터' 카테고리의 다른 글
[내 머리로 빅분기] 기술통계 - 이산확률분포와 연속확률분포 (0) | 2025.03.05 |
---|---|
[내 머리로 데이터시각화] 회귀모형의 추정과 검정 (0) | 2025.03.03 |
[내 머리로 텍스트분석] 감정분석의 종류와 방법 - Liu Hu, Vader 외 (0) | 2025.02.16 |
[내 머리로 텍스트분석] 텍스트마이닝의 5가지 방법 (엔그램부터 워드투벡까지) (0) | 2025.02.01 |
[내 머리로 시계열분석] 시계열 데이터의 정상성의 의미 - 평균이 일정, 시점에는 의존하지 않는다에 대하여 (0) | 2025.02.01 |