본문 바로가기
데이터/방통대 - 머신러닝

[머신러닝] 자연어처리 - 텍스트 전처리 과정 (토큰화, 정규화, 변환, 필터링)

by 단단_SINCE 2023 2024. 5. 6.

 
오늘은 자연어처리 중 텍스트 전처리 과정에 대해서 공부하겠다.
 
전반적인 과정은 오렌지3로 진행했고,
각 단계의 이해를 높이는 것을 목표로 한다
 

 
 
텍스트 전처리 과정은 크게 4가지가 있는데
토큰화, 정규화, 필터링, 변환이다.
 
먼저 토큰화부터 살펴보도록 하자
 


 

토큰화 - 분할하기

 

 
 
토큰화는 한마디로 자르는 것이다.
이렇게 5가지 영역이 있는데 각 영역을 설명하면 다음과 같다
 

 
 
가장 쉬운 공백 토큰화는 말 그대로 공백단위로 나누는 것이다
how are you -> [how] [are] [you]
파워쿼리등에서 전처리를 할때 주로 공백토큰화를 사용한다.
 
트윗토큰화는 트윗의 형식을 빌어 해시태그등을 하나로 묶는다
 

 
제일 어려운게 정규식표현 토큰화인데
문장구조의 정규식을 넣어 해당 기준으로 자연어를 분류한다고 보면 된다.
 
(사이트참고)
https://regexper.com/
 


정규화 - 어근찾기

 
다음은 정규화다.
정규화의 가장 대표적인 예시는
단어에서 어간을 추출하는 것이다
 
running -> run 의 방식으로
 

 
 
오렌지3에서 제공하는 정규화에는 5가지가 있는데
각각의 설명은 다음과 같다.
 

 
UDP는 잘 이해가 안가는데
일단 넘어가도록 하자 (...)
 
그나저나 WORDNET의 방법이 놀랍다.
 
CAR와 AUTOMOBILE을 유의어로 간주한다니
 

 
 
WORDNET에서 제공하는 다른 유의어의 예시는 위와같다
 


 

필터링 - 제외하기

 
다음은 필터링이다.
필터링은 확실히 자주 쓰이는 말이라서 그런지 직관적으로 이해가 된다.
 
말그대로 제외한다는 듯
 

 
 
STOPWORD는 불용어처리
영어로 따지면 the, to, a 처럼
의미와 무관한 관사등을 제외하는 것이다

numbers는 3pm 같이
숫자가 들어간 내용을 제외하는 것.

 

 
 


변환- 대소문자 정리

 

 
 
 
변환은 대표적으로 HELLO를 hello로 바꾸는 대소문자 변환이 있다
 

 
html 기호를 제거하거나,
URL을 제거하는 방식등이 추가된다.

 
다시 정리하면 이렇다.
 

 
 
정규화 - 어간추출
토큰화 - 자르기
변환 - 대소문자 전환
필터링 - 불용어 삭제
 
이상으로 자연어처리 전처리 방법
4가지에 대해서 공부해보았다

자연어처리 너무 재밌어서 더 열심히 배우고싶다.
 
천재가 되는 그날까지...
KEEP GOING ON~