본문 바로가기

NLP 프로젝트 일지[0505~]

새로운 task

1. 테스트 데이터 크기가 너무 작아 아직 불안정하다.

1. 한국어 성별불평등 데이터셋 찾기

2. 우리가 가지고 있는 데이터를 일일히 손으로 레이블링

 

2. 한국어 토크나이저 비교/활용 해보기

(링크) 기록 남기기 참고 (링크)

1. Mecab

2. berttoknizer

3. khaii (링크)

4. Google: SentencePiece Tutorial (링크)

 

LM 비교/ 활용하기

1. BERT (링크)

2. XLNET

3. 일렉트라 (설명1: 링크 설명2: 링크 ) (코드: 링크)

4. kobert (코드 : link)