[5.11] 3.1. NLP 모델 데이터 전처리

목표 : (1)토치텍스트를 이용하여 샘플 데이터셋 만들기 (2) csv 파일 살펴보며 오분류 확인하기-> 수정 코드 만들기!
사용 노트 ( link )

1. csv 파일 형식 확인하기

~~파일 저장 형식 확인~~

~~필요한 컬럼은 text와 label 이므로 나머지는 날려준다.~~
~~특정 조건을 만족하는 행만 불러오기~~ : df [ df[ 'col' ] >조건 ] 참고 블로그(link)

2. 정제하기

- 정제할 때 혹시 모르니 원본 데이터의 copy 를 만들어 두기! from copy import copy
-

참고 블로그 (1)

~~전각문자 제거하기 : 아마 숫자가 전각문자일 수도..~~
~~속보, 특보 등의 글자 re를 이용하여 제거하기 -> 불용어 사전에 추가하기~~
~~me too 의 경우가 있으므로.... 대문자 -> 소문자로 변환해야 한다 헐~!~~
띄어쓰기 정규화해야 하나? (참고 블로그KoSpacing : link )

3.분절하기

문장단위 분절: NLTK 모듈 사용하기
단어 분절 : Mecab or KoNLPy
서브워드 분절:

결과:
(1) 뜻밖의 복병 : csv 데이터가 너무 커서 업로드하느라 시간이 너무 오래잡아먹혔다... 아직도 구글 드라이브에 업로드 안됨...;
(2) csv 파일 살펴보며 오분류 확인하기-> 라벨 1 인 애들만 오분류가 없도록 수정하기.

- 원하는 컬럼만 남긴 후, 텍스트 전처리하는 함수 완성
- 그러나 아직 띄어쓰기 함수는 넣지 못함.. 실제 코드노트에서 만들 예정.
- 라벨 1인 애들만 뽑아내는 코드 완성. 수정 코드 만드는 중

저작자표시 비영리 동일조건

'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글

[5.13] torchtext를 이용하여 NLP 데이터셋 만들기 (0)	2020.05.13
[5.12] 서브워드 분절 중... (0)	2020.05.12
3. 텍스트 전처리 (0)	2020.05.07
2.2. 훈련 데이터셋 만들기 (0)	2020.05.07
2.1. 기사 다운받고 저장 형식분석하기 (0)	2020.05.05

코딩하며 삽질하는 블로그

[5.11] 3.1. NLP 모델 데이터 전처리

'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글

티스토리툴바

[5.11] 3.1. NLP 모델 데이터 전처리

'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글

'NLP 프로젝트 일지[0505~]' Related Articles

티스토리툴바