[머신러닝] 자연어처리 - 텍스트 전처리 과정 (토큰화, 정규화, 변환, 필터링)

오늘은 자연어처리 중 텍스트 전처리 과정에 대해서 공부하겠다.

전반적인 과정은 오렌지3로 진행했고,
각 단계의 이해를 높이는 것을 목표로 한다

텍스트 전처리 과정은 크게 4가지가 있는데
토큰화, 정규화, 필터링, 변환이다.

먼저 토큰화부터 살펴보도록 하자

토큰화 - 분할하기

토큰화는 한마디로 자르는 것이다.
이렇게 5가지 영역이 있는데 각 영역을 설명하면 다음과 같다

가장 쉬운 공백 토큰화는 말 그대로 공백단위로 나누는 것이다
how are you -> [how] [are] [you]
파워쿼리등에서 전처리를 할때 주로 공백토큰화를 사용한다.

트윗토큰화는 트윗의 형식을 빌어 해시태그등을 하나로 묶는다

제일 어려운게 정규식표현 토큰화인데
문장구조의 정규식을 넣어 해당 기준으로 자연어를 분류한다고 보면 된다.

(사이트참고)
https://regexper.com/

정규화 - 어근찾기

다음은 정규화다.
정규화의 가장 대표적인 예시는
단어에서 어간을 추출하는 것이다

running -> run 의 방식으로

오렌지3에서 제공하는 정규화에는 5가지가 있는데
각각의 설명은 다음과 같다.

UDP는 잘 이해가 안가는데
일단 넘어가도록 하자 (...)

그나저나 WORDNET의 방법이 놀랍다.

CAR와 AUTOMOBILE을 유의어로 간주한다니

WORDNET에서 제공하는 다른 유의어의 예시는 위와같다

필터링 - 제외하기

다음은 필터링이다.
필터링은 확실히 자주 쓰이는 말이라서 그런지 직관적으로 이해가 된다.

말그대로 제외한다는 듯

STOPWORD는 불용어처리로
영어로 따지면 the, to, a 처럼
의미와 무관한 관사등을 제외하는 것이다

numbers는 3pm 같이
숫자가 들어간 내용을 제외하는 것.

변환- 대소문자 정리

변환은 대표적으로 HELLO를 hello로 바꾸는 대소문자 변환이 있다

html 기호를 제거하거나,
URL을 제거하는 방식등이 추가된다.

다시 정리하면 이렇다.

정규화 - 어간추출
토큰화 - 자르기
변환 - 대소문자 전환
필터링 - 불용어 삭제

이상으로 자연어처리 전처리 방법
4가지에 대해서 공부해보았다
자연어처리 너무 재밌어서 더 열심히 배우고싶다.

천재가 되는 그날까지...
KEEP GOING ON~

'데이터 > 방통대 - 머신러닝' 카테고리의 다른 글

[내 머리로 머신러닝] 신경망 (0)	2024.11.24
[내 머리로 머신러닝] SVM (2)	2024.09.02
[머신러닝] 나이브베이즈(Naive Bayes) (0)	2024.05.05
[머신러닝] 앙상블 기법 1 - 그래디언트부스팅, XGboost, LightGBM (0)	2024.04.27
[머신러닝] 로지스틱회귀 - 고객이탈모델, 릿지/라쏘모델 차이, 오즈비 (0)	2024.04.19

지속적 우상향을 꿈꾸며

[머신러닝] 자연어처리 - 텍스트 전처리 과정 (토큰화, 정규화, 변환, 필터링)

'데이터 > 방통대 - 머신러닝' 카테고리의 다른 글

티스토리툴바

[머신러닝] 자연어처리 - 텍스트 전처리 과정 (토큰화, 정규화, 변환, 필터링)

'데이터 > 방통대 - 머신러닝' 카테고리의 다른 글

관련글

티스토리툴바