본문 바로가기

NLP 프로젝트 일지[0505~]

[5.12] 서브워드 분절 중...

목표: (1)토치텍스트를 이용하여 샘플 데이터셋 만들기
사용 노트 ( link )

 

0. 파이썬 객체 저장하기 - pickle (link)

 

1. 텍스트 데이터 전처리 

  • 띄어쓰기 정규화하기 -> 현재 단계에서 불가능
    - 버전 관리: tensorflow = 1.4.0. , keras = 2.1.5
    - 한 계산에 198 글자 이상 들어가면 warning이 뜬다.
    - 신문 기사이므로 기본적인 띄어쓰기나 맞춤법을 준수할 것이라 기대. 띄어쓰기 정규화를 하지 않더라도 성능이 나쁘지 않을 것으로 예상됨. 
  • 'tag'가 기사 본문에 추가되어있었다. 어차피 서브워드 분절 단계에서 나눠질 것이므로 토크나이징 후 불용어처리.

2. 토큰화(현재 단계): 데이터 크기가 너무 커서 하루종일 돌려놔야 임베딩이 될 것 같다.

  • 서브워드 분절은 Mecab() 사용. (구글 코랩에서 사용할 수 있는 mecab github link)

 

3. 정수 인코딩

 

4. 토치텍스트를 이용하여 데이터로더 생성하기

 

결과
(1) 빅데이터는 시간과의 싸움임... GPU 사줘...ㅠ
- 토크나이징이 되면 그걸 저장해두고 다음에 곧장 사용할 수 있는 방법을 찾아놔야겠다.. -> pickle 로 객체 저장하기
- 슬슬 모델 코드를 찾아야 한다.. Bert 를 사용해 보려고 한다. XLNet 도 찾아뒀는데 hugging face도 더 알아보기..
- text classifier 모델