1. 테스트 데이터 크기가 너무 작아 아직 불안정하다.
1. 한국어 성별불평등 데이터셋 찾기
2. 우리가 가지고 있는 데이터를 일일히 손으로 레이블링
2. 한국어 토크나이저 비교/활용 해보기
1. Mecab
2. berttoknizer
3. khaii (링크)
4. Google: SentencePiece Tutorial (링크)
LM 비교/ 활용하기
1. BERT (링크)
2. XLNET
3. 일렉트라 (설명1: 링크 설명2: 링크 ) (코드: 링크)
4. kobert (코드 : link)
'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글
[tesseract]pycharm 에서 ocr 사용하기 (0) | 2020.07.15 |
---|---|
Doc2vec 만들기 (0) | 2020.06.15 |
[모듈화작업] - 코드 뜯어보기 (0) | 2020.05.25 |
[5.13] torchtext를 이용하여 NLP 데이터셋 만들기 (0) | 2020.05.13 |
[5.12] 서브워드 분절 중... (0) | 2020.05.12 |