본문 바로가기

NLP 프로젝트 일지[0505~]

[5.11] 3.1. NLP 모델 데이터 전처리

목표 : (1)토치텍스트를 이용하여 샘플 데이터셋 만들기 (2) csv 파일 살펴보며 오분류 확인하기-> 수정 코드 만들기!
사용 노트 ( link )

 

1. csv 파일 형식 확인하기

  • 파일 저장 형식 확인

파일 형식

  • 필요한 컬럼은 text와 label 이므로 나머지는 날려준다.
  • 특정 조건을 만족하는 행만 불러오기 : df [ df[ 'col' ] >조건 ] 참고 블로그(link)

 

2. 정제하기

- 정제할 때 혹시 모르니 원본 데이터의 copy 를 만들어 두기! from copy import copy

 

참고 블로그 (1)

  • 전각문자 제거하기 : 아마 숫자가 전각문자일 수도..
  • 속보, 특보 등의 글자 re를 이용하여 제거하기 -> 불용어 사전에 추가하기
  • me too 의 경우가 있으므로.... 대문자 -> 소문자로 변환해야 한다 헐~!
  • 띄어쓰기 정규화해야 하나? (참고 블로그KoSpacing : link )

3.분절하기

  • 문장단위 분절: NLTK 모듈 사용하기
  • 단어 분절 : Mecab or KoNLPy 
  • 서브워드 분절: 
결과:
(1) 뜻밖의 복병 : csv 데이터가 너무 커서 업로드하느라 시간이 너무 오래잡아먹혔다... 아직도 구글 드라이브에 업로드 안됨...;
(2) csv 파일 살펴보며 오분류 확인하기-> 라벨 1 인 애들만 오분류가 없도록 수정하기.

- 원하는 컬럼만 남긴 후, 텍스트 전처리하는 함수 완성
- 그러나 아직 띄어쓰기 함수는 넣지 못함.. 실제 코드노트에서 만들 예정.
- 라벨 1인 애들만 뽑아내는 코드 완성. 수정 코드 만드는 중