오늘은 자연어처리 중 텍스트 전처리 과정에 대해서 공부하겠다.
전반적인 과정은 오렌지3로 진행했고,
각 단계의 이해를 높이는 것을 목표로 한다
텍스트 전처리 과정은 크게 4가지가 있는데
토큰화, 정규화, 필터링, 변환이다.
먼저 토큰화부터 살펴보도록 하자
토큰화 - 분할하기
토큰화는 한마디로 자르는 것이다.
이렇게 5가지 영역이 있는데 각 영역을 설명하면 다음과 같다
가장 쉬운 공백 토큰화는 말 그대로 공백단위로 나누는 것이다
how are you -> [how] [are] [you]
파워쿼리등에서 전처리를 할때 주로 공백토큰화를 사용한다.
트윗토큰화는 트윗의 형식을 빌어 해시태그등을 하나로 묶는다
제일 어려운게 정규식표현 토큰화인데
문장구조의 정규식을 넣어 해당 기준으로 자연어를 분류한다고 보면 된다.
(사이트참고)
https://regexper.com/
정규화 - 어근찾기
다음은 정규화다.
정규화의 가장 대표적인 예시는
단어에서 어간을 추출하는 것이다
running -> run 의 방식으로
오렌지3에서 제공하는 정규화에는 5가지가 있는데
각각의 설명은 다음과 같다.
UDP는 잘 이해가 안가는데
일단 넘어가도록 하자 (...)
그나저나 WORDNET의 방법이 놀랍다.
CAR와 AUTOMOBILE을 유의어로 간주한다니
WORDNET에서 제공하는 다른 유의어의 예시는 위와같다
필터링 - 제외하기
다음은 필터링이다.
필터링은 확실히 자주 쓰이는 말이라서 그런지 직관적으로 이해가 된다.
말그대로 제외한다는 듯
STOPWORD는 불용어처리로
영어로 따지면 the, to, a 처럼
의미와 무관한 관사등을 제외하는 것이다
numbers는 3pm 같이
숫자가 들어간 내용을 제외하는 것.
변환- 대소문자 정리
변환은 대표적으로 HELLO를 hello로 바꾸는 대소문자 변환이 있다
html 기호를 제거하거나,
URL을 제거하는 방식등이 추가된다.
다시 정리하면 이렇다.
정규화 - 어간추출
토큰화 - 자르기
변환 - 대소문자 전환
필터링 - 불용어 삭제
이상으로 자연어처리 전처리 방법
4가지에 대해서 공부해보았다
자연어처리 너무 재밌어서 더 열심히 배우고싶다.
천재가 되는 그날까지...
KEEP GOING ON~
'데이터 > 방통대 - 머신러닝' 카테고리의 다른 글
[내 머리로 머신러닝] 신경망 (0) | 2024.11.24 |
---|---|
[내 머리로 머신러닝] SVM (2) | 2024.09.02 |
[머신러닝] 나이브베이즈(Naive Bayes) (0) | 2024.05.05 |
[머신러닝] 앙상블 기법 1 - 그래디언트부스팅, XGboost, LightGBM (0) | 2024.04.27 |
[머신러닝] 로지스틱회귀 - 고객이탈모델, 릿지/라쏘모델 차이, 오즈비 (0) | 2024.04.19 |