자연어 처리는 word embedding 기준으로 크게 1) 단어의 갯수를 세는 방식과 2) 단어의 벡터거리를 기준으로 유사도를 확인할 수 있는 방식으로 나뉜다.
1)의 경우 TF-IDF 알고리즘을 사용하여 분석
2)의 경우 doc2vec를 사용하여 분석
참고
http://hero4earth.com/blog/projects/2018/01/21/naver_movie_review/
'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글
[tesseract]pycharm 에서 ocr 사용하기 (0) | 2020.07.15 |
---|---|
새로운 task (0) | 2020.06.01 |
[모듈화작업] - 코드 뜯어보기 (0) | 2020.05.25 |
[5.13] torchtext를 이용하여 NLP 데이터셋 만들기 (0) | 2020.05.13 |
[5.12] 서브워드 분절 중... (0) | 2020.05.12 |