NLP에서 텍스트 자체를 바로 피처로 사용할 수는 없다. 텍스트를 전처리하여 벡터화 해야 모델에 적용할 수 있다. (모든 머신러닝 프로세스가 그렇듯 이 부분이 가장 지루하다..)
0. 헉.. 놓치고 있던 부분이 있다.... 텍스트 전처리를 하기 위해서는... 당연하겠지만 전처리를 할 텍스트가 필요하다....! 프로젝트 github에서 저장되어 있는 신문 기사들을 다운받아와야겠다.... 텍스트 분석하기(link)
텍스트 전처리에는 다음과 같은 작업이 필요하다.
텍스트 전처리(Text Preprocessing): 대/소문자 변경, 특수문자 삭제, 이모티콘 삭제 등의 전처리 작업, 단어(Word) 토큰화 작업, 불용어(Stop word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행하는 것이 텍스틑 전처리 단계에 속합니다.
출처: 귀퉁이 서재 블로그
(1) 정제: 대/소문자 변경, 특수문자 삭제, 이모티콘 삭제 등의 전처리 작업 : 사실 내가 다루는 텍스트가 한글로 된 신문기사이기 때문에 이 작업은 넘어가면 된다~!
아니다. 기사 제목에는 [속보] [특보] 등등의 쓸데없는 단어가 있다.... 이걸 여기서 삭제할지 불용어 제거시 삭제할지 고민해야 한다.....
(2) 분절: 단어(Word) 토큰화 작업:
말뭉치라고도 불리는 코퍼스는 다수의 문장으로 구성되어있는 자연어처리 분야의 머신러닝을 수행하기 위한 훈련 데이터이다! 말뭉치(Corpus)로부터 토큰을 분리하는 작업을 수행한다. 텍스트 토큰화는 크게 문장 토큰화와 단어 토큰화로 나눌 수 있다.
- - 문장 토큰화 : NLTK 모듈을 사용하면 된다.
- - 단어 토큰화 :
한글의 경우
(3) 불용어(Stop word) 제거 작업,
(4)어근 추출(Stemming/Lemmatization)
Reference
귀퉁이서재 (link)
'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글
[5.12] 서브워드 분절 중... (0) | 2020.05.12 |
---|---|
[5.11] 3.1. NLP 모델 데이터 전처리 (0) | 2020.05.11 |
2.2. 훈련 데이터셋 만들기 (0) | 2020.05.07 |
2.1. 기사 다운받고 저장 형식분석하기 (0) | 2020.05.05 |
1. NLP 처리 프로세스 정리 (0) | 2020.05.05 |