본문 바로가기

NLP 프로젝트 일지[0505~]

[5.13] torchtext를 이용하여 NLP 데이터셋 만들기

목표: (1) 데이터셋 만들기 데이터 (2) 라벨링 확인하고 오분류 처리하기

 

1. 토치 텍스트를 이용하여 데이터셋 만들기

참고 링크 (link0) (link1) (link2)

 

  • TEXT 필드에서 tokenize 파라미터에 Mecab 함수 넣으면 됨(기본값은 str.split )

 

2. 구글 코랩에서 작업하고 있기 때문에 작업 시간이 오래걸리는 객체는 미리미리 파일로 저장해 두는 것이 좋다..

참고 링크 (link)(link)

  • pickle 객체 저장하기
  • 구글 코랩에서 로컬 컴퓨터로 파일 내려받기
from google.colab import files
import pickle

tokenized = """ 토큰화 한 객체 """

with open('data.pickle','wb') as NLP:
  pickle.dump(tokenized,NLP)

files.download('tk_data.pickle')

 

 

 

 

 

결과
(1) 데이터셋 완성! 데이터셋 만드는건 생각보다 엄청.. 쉬웠다.. 이제 모델링만 남았다.
(2) 오분류된 라벨 바꾸는 함수 완성. 이제 하나하나 보면서 제대로 분류하는 작업만 남음.....

- 이젠 진짜 gpu 가 필요한 작업이 남았다.. 
- 텍스트 분류 알고리즘 조사하기

'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글

새로운 task  (0) 2020.06.01
[모듈화작업] - 코드 뜯어보기  (0) 2020.05.25
[5.12] 서브워드 분절 중...  (0) 2020.05.12
[5.11] 3.1. NLP 모델 데이터 전처리  (0) 2020.05.11
3. 텍스트 전처리  (0) 2020.05.07