목표: (1) 데이터셋 만들기 데이터 (2) 라벨링 확인하고 오분류 처리하기
1. 토치 텍스트를 이용하여 데이터셋 만들기
- TEXT 필드에서 tokenize 파라미터에 Mecab 함수 넣으면 됨(기본값은 str.split )
2. 구글 코랩에서 작업하고 있기 때문에 작업 시간이 오래걸리는 객체는 미리미리 파일로 저장해 두는 것이 좋다..
- pickle 객체 저장하기
- 구글 코랩에서 로컬 컴퓨터로 파일 내려받기
from google.colab import files
import pickle
tokenized = """ 토큰화 한 객체 """
with open('data.pickle','wb') as NLP:
pickle.dump(tokenized,NLP)
files.download('tk_data.pickle')
결과
(1) 데이터셋 완성! 데이터셋 만드는건 생각보다 엄청.. 쉬웠다.. 이제 모델링만 남았다.
(2) 오분류된 라벨 바꾸는 함수 완성. 이제 하나하나 보면서 제대로 분류하는 작업만 남음.....
- 이젠 진짜 gpu 가 필요한 작업이 남았다..
- 텍스트 분류 알고리즘 조사하기
'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글
새로운 task (0) | 2020.06.01 |
---|---|
[모듈화작업] - 코드 뜯어보기 (0) | 2020.05.25 |
[5.12] 서브워드 분절 중... (0) | 2020.05.12 |
[5.11] 3.1. NLP 모델 데이터 전처리 (0) | 2020.05.11 |
3. 텍스트 전처리 (0) | 2020.05.07 |