목표 : (1)토치텍스트를 이용하여 샘플 데이터셋 만들기 (2) csv 파일 살펴보며 오분류 확인하기-> 수정 코드 만들기!
사용 노트 ( link )
1. csv 파일 형식 확인하기
파일 저장 형식 확인
필요한 컬럼은 text와 label 이므로 나머지는 날려준다.특정 조건을 만족하는 행만 불러오기: df [ df[ 'col' ] >조건 ] 참고 블로그(link)
2. 정제하기
- 정제할 때 혹시 모르니 원본 데이터의 copy 를 만들어 두기! from copy import copy
-
참고 블로그 (1)
전각문자 제거하기 : 아마 숫자가 전각문자일 수도..속보, 특보 등의 글자 re를 이용하여 제거하기 -> 불용어 사전에 추가하기me too 의 경우가 있으므로.... 대문자 -> 소문자로 변환해야 한다 헐~!- 띄어쓰기 정규화해야 하나? (참고 블로그KoSpacing : link )
3.분절하기
- 문장단위 분절: NLTK 모듈 사용하기
- 단어 분절 : Mecab or KoNLPy
- 서브워드 분절:
결과:
(1) 뜻밖의 복병 : csv 데이터가 너무 커서 업로드하느라 시간이 너무 오래잡아먹혔다... 아직도 구글 드라이브에 업로드 안됨...;
(2) csv 파일 살펴보며 오분류 확인하기-> 라벨 1 인 애들만 오분류가 없도록 수정하기.
- 원하는 컬럼만 남긴 후, 텍스트 전처리하는 함수 완성
- 그러나 아직 띄어쓰기 함수는 넣지 못함.. 실제 코드노트에서 만들 예정.
- 라벨 1인 애들만 뽑아내는 코드 완성. 수정 코드 만드는 중
'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글
[5.13] torchtext를 이용하여 NLP 데이터셋 만들기 (0) | 2020.05.13 |
---|---|
[5.12] 서브워드 분절 중... (0) | 2020.05.12 |
3. 텍스트 전처리 (0) | 2020.05.07 |
2.2. 훈련 데이터셋 만들기 (0) | 2020.05.07 |
2.1. 기사 다운받고 저장 형식분석하기 (0) | 2020.05.05 |