본문 바로가기

NLP 프로젝트 일지[0505~]

3. 텍스트 전처리

NLP에서 텍스트 자체를 바로 피처로 사용할 수는 없다. 텍스트를 전처리하여 벡터화 해야 모델에 적용할 수 있다. (모든 머신러닝 프로세스가 그렇듯 이 부분이 가장 지루하다..)

 

0. 헉.. 놓치고 있던 부분이 있다.... 텍스트 전처리를 하기 위해서는... 당연하겠지만 전처리를 할 텍스트가 필요하다....! 프로젝트 github에서 저장되어 있는 신문 기사들을 다운받아와야겠다.... 텍스트 분석하기(link

 

 

텍스트 전처리에는 다음과 같은 작업이 필요하다.

텍스트 전처리(Text Preprocessing): 대/소문자 변경, 특수문자 삭제, 이모티콘 삭제 등의 전처리 작업, 단어(Word) 토큰화 작업, 불용어(Stop word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행하는 것이 텍스틑 전처리 단계에 속합니다.

출처: 귀퉁이 서재 블로그

 

 

(1) 정제: 대/소문자 변경, 특수문자 삭제, 이모티콘 삭제 등의 전처리 작업 : 사실 내가 다루는 텍스트가 한글로 된 신문기사이기 때문에 이 작업은 넘어가면 된다~!

아니다. 기사 제목에는 [속보] [특보] 등등의 쓸데없는 단어가 있다.... 이걸 여기서 삭제할지 불용어 제거시 삭제할지 고민해야 한다.....

 

(2) 분절: 단어(Word) 토큰화 작업:

말뭉치라고도 불리는 코퍼스는 다수의 문장으로 구성되어있는 자연어처리 분야의 머신러닝을 수행하기 위한 훈련 데이터이다! 말뭉치(Corpus)로부터 토큰을 분리하는 작업을 수행한다. 텍스트 토큰화는 크게 문장 토큰화단어 토큰화로 나눌 수 있다.

 

  • - 문장 토큰화 : NLTK 모듈을 사용하면 된다.

  • - 단어 토큰화 : 

 

한글의 경우 

 

 

(3) 불용어(Stop word) 제거 작업,

(4)어근 추출(Stemming/Lemmatization)

 

 

Reference 

귀퉁이서재 (link)