[5.12] 서브워드 분절 중...

목표: (1)토치텍스트를 이용하여 샘플 데이터셋 만들기
사용 노트 ( link )

0. 파이썬 객체 저장하기 - pickle (link)

1. 텍스트 데이터 전처리

띄어쓰기 정규화하기 -> 현재 단계에서 불가능
- 버전 관리: tensorflow = 1.4.0. , keras = 2.1.5
- 한 계산에 198 글자 이상 들어가면 warning이 뜬다.
- 신문 기사이므로 기본적인 띄어쓰기나 맞춤법을 준수할 것이라 기대. 띄어쓰기 정규화를 하지 않더라도 성능이 나쁘지 않을 것으로 예상됨.
'tag'가 기사 본문에 추가되어있었다. 어차피 서브워드 분절 단계에서 나눠질 것이므로 토크나이징 후 불용어처리.

2. 토큰화(현재 단계): 데이터 크기가 너무 커서 하루종일 돌려놔야 임베딩이 될 것 같다.

서브워드 분절은 Mecab() 사용. (구글 코랩에서 사용할 수 있는 mecab github link)

3. 정수 인코딩

4. 토치텍스트를 이용하여 데이터로더 생성하기

결과
(1) 빅데이터는 시간과의 싸움임... GPU 사줘...ㅠ
- 토크나이징이 되면 그걸 저장해두고 다음에 곧장 사용할 수 있는 방법을 찾아놔야겠다.. -> pickle 로 객체 저장하기
- 슬슬 모델 코드를 찾아야 한다.. Bert 를 사용해 보려고 한다. XLNet 도 찾아뒀는데 hugging face도 더 알아보기..
- text classifier 모델

저작자표시 비영리 동일조건

'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글

[모듈화작업] - 코드 뜯어보기 (0)	2020.05.25
[5.13] torchtext를 이용하여 NLP 데이터셋 만들기 (0)	2020.05.13
[5.11] 3.1. NLP 모델 데이터 전처리 (0)	2020.05.11
3. 텍스트 전처리 (0)	2020.05.07
2.2. 훈련 데이터셋 만들기 (0)	2020.05.07

코딩하며 삽질하는 블로그

[5.12] 서브워드 분절 중...

'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글

티스토리툴바

[5.12] 서브워드 분절 중...

'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글

'NLP 프로젝트 일지[0505~]' Related Articles

티스토리툴바