본문 바로가기
데이터/데이터

[내 머리로 텍스트분석] 비정형데이터의 정의와 코퍼스

by 단단_SINCE 2023 2025. 1. 31.

 

📌 비정형데이터란? 쉽게 이해하는 데이터의 세계!


📊 데이터의 종류

데이터는 크게 정형, 반정형, 비정형 데이터로 나눌 수 있다. 

데이터 종류 설명 예시 📌

정형데이터 행과 열로 정리된 깔끔한 데이터 엑셀, 데이터베이스 테이블, 학생 성적표 📊
반정형데이터 어느 정도 구조는 있지만 완전히 정형화되지 않은 데이터 JSON, XML, 로그 파일 📝
비정형데이터 정해진 형식 없이 자유로운 데이터 사진, 영상, 음성, SNS 글, 뉴스 기사 📰📸🎙️

 

비정형데이터는 우리가 인터넷에서 접하는 대부분의 정보다! 예를 들면 유튜브 영상, 인스타그램 사진, 카카오톡 메시지 등이 다 비정형데이터에 속한다. 

 

 


📖 코퍼스(corpus)란?

비정형데이터 중에서도 텍스트(글자) 데이터를 분석할 때 코퍼스(corpus)라는 걸 사용한다.

 

🧐 코퍼스란?
👉 여러 문서를 모아놓은 "말뭉치"를 뜻함.
👉 쉽게 말해 텍스트 데이터 모음집이라고 보면 됨!

 

예를 들어, 뉴스 기사 10만 개를 모아둔 데이터가 있다면 이것을 "뉴스 코퍼스"라고 해요.
또는, SNS 댓글을 모아서 만든 데이터는 "SNS 코퍼스"!

코퍼스를 활용하면 자연어 처리(NLP) 기술로 텍스트를 분석할 수 있다. 


🔍 비정형데이터의 분석법

비정형데이터는 정형데이터처럼 표로 정리되어 있지 않아서, 분석할 때 특별한 방법이 필요하다. 대표적인 두 가지 방법은

🗣️ 1. 자연어 처리(NLP: Natural Language Processing)

사람이 말하고 쓰는 자연어(한국어, 영어 등)를 컴퓨터가 이해하고 분석하는 기술!
예를 들면:
감성 분석: SNS 댓글을 분석해서 긍정/부정 감정을 구분하기
챗봇: AI가 사람처럼 대화할 수 있도록 만들기
자동 번역: 네이버 파파고, 구글 번역기처럼 언어를 자동으로 변환하기

💡 자연어 처리는 텍스트 데이터를 분석하는 핵심 기술이다!


📸 2. 이미지 분석(Computer Vision)

이미지나 동영상을 분석하는 기술! 우리가 스마트폰에서 얼굴 인식 잠금을 할 때도 이 기술이 쓰인다.
예를 들면:
얼굴 인식: 사진에서 사람 얼굴을 찾아내기 (예: 아이폰 Face ID)
OCR(문자인식): 사진 속 글자를 읽어서 텍스트로 변환하기
의료 영상 분석: 엑스레이 사진에서 질병을 찾아내기

💡 이미지 분석 덕분에 AI가 사진을 보고 의미를 파악할 수 있다!


🎯 마무리

정리하면,
비정형데이터는 정해진 형식 없이 자유로운 데이터! (예: 사진, 영상, 텍스트)
✅ **코퍼스(corpus)**는 텍스트 데이터를 모아놓은 데이터 모음!
✅ 비정형데이터는 자연어 처리이미지 분석 같은 기술로 분석할 수 있다!