본문 바로가기
데이터/데이터

[내 머리로 텍스트분석] 텍스트 네트워크 분석의 설정값

by 단단_SINCE 2023 2025. 2. 16.


📌 Corpus to Network란?

Corpus to Network는 **텍스트 데이터(말뭉치, Corpus)**를 네트워크(Network) 구조로 변환하는 과정이다.
즉, 단어와 단어 사이의 관계를 시각화해 네트워크 그래프 형태로 표현하는 것! 🔍

✨ 왜 사용할까요?

  • 텍스트의 숨겨진 패턴과 관계를 시각적으로 이해할 수 있다.
  • 단어의 연결성, 빈도, 중심성을 파악할 수 있다.
  • **자연어 처리(NLP)**와 **소셜 네트워크 분석(SNA)**에서 널리 사용

🕸️ Corpus to Network의 기본 과정

텍스트 데이터를 네트워크로 변환하는 과정은 **노드(Node)**와 **엣지(Edge)**로 단어의 관계를 연결한다.

  • 노드 (Node): 단어(혹은 키워드)를 의미
  • 엣지 (Edge): 단어들 사이의 관계 또는 공동 출현(co-occurrence)을 나타낸다

예시 📖

  • 노드: “데이터”, “분석”, “AI”
  • 엣지: “데이터”와 “분석”이 같은 문장에서 여러 번 등장했다면, 이 둘을 엣지로 연결

🌟 중요 개념 3가지: Threshold, Window Size, Frequency Threshold

1️⃣ Threshold (임계값)

엣지(edge)를 생성할 기준값을 의미한다. 단어들이 함께 등장한 횟수가 threshold 값을 넘을 때만 엣지를 생성

✔️ 왜 중요할까요?

  • 너무 낮으면 모든 단어가 연결돼 복잡한 네트워크가 된다. 🕸️
  • 너무 높으면 의미 있는 연결도 사라질 수 있다. 🚫

예시

  • Threshold = 3 → 3회 이상 함께 등장한 단어들만 연결

2️⃣ Window Size (윈도우 크기)

단어들의 **공동 출현(co-occurrence)**을 계산할 때 몇 개의 단어 범위를 볼 것인지 정하는 값.
즉, 분석할 단어 범위를 몇 개로 설정할지를 결정한다.

✔️ 왜 중요할까요?

  • 작은 윈도우 크기 (예: 2~3 단어): 밀접한 관계를 더 정확히 분석할 수 있다
  • 큰 윈도우 크기 (예: 10 단어 이상): 넓은 관계를 포착할 수 있지만, 노이즈도 많아진다.

예시

  • Window Size = 2: 단어가 연속된 2개의 단어 안에서 함께 등장하는지 확인
  • Window Size = 5: 앞뒤 5단어 내에서 공동 출현을 검사

3️⃣ Frequency Threshold (빈도 임계값)

단어가 전체 말뭉치에서 몇 번 이상 등장할 때만 분석에 포함할지를 결정한다
즉, 너무 자주 등장하거나 거의 등장하지 않는 단어는 제외

✔️ 왜 필요할까요?

  • 너무 낮은 빈도 단어는 의미 없는 단어일 가능성이 큽니다.
  • 너무 높은 빈도 단어는 “은, 는, 이, 가” 같은 불용어(stopword)일 수 있다

예시

  • Frequency Threshold = 5 → 5회 이상 등장한 단어만 노드로 사용

🛠️ Corpus to Network의 활용 사례

  • 소셜 네트워크 분석 (SNA): 특정 주제에서 주요 키워드 간 관계를 파악
  • 연구 논문 분석: 학술 논문에서 핵심 개념 간의 연결성 시각화
  • 뉴스 기사 분석: 사건의 연관성을 시각적으로 보여줌
  • 마케팅: 고객 리뷰에서 감정적 연관성을 분석

🎯 Corpus to Network의 최적 설정 팁

1️⃣ Threshold 값: 데이터에 따라 조정, 25 사이부터 시작하는 것이 좋다
2️⃣ Window Size: **작은 값 (23)**로 먼저 테스트하고, 필요에 따라 늘리기

3️⃣ Frequency Threshold: 너무 낮은 빈도 단어는 제거, 5~10 이상의 값이 적당


실습은 여기에