본문 바로가기

NLP 프로젝트 일지[0505~]

2.2. 훈련 데이터셋 만들기

NLP 블로그 (link)

 

해야 할 일
1. 뉴스 기사 크롤링 코드 분석해서 기사 전문 받아오기
2. 여성혐오 기사인 것과 아닌 것을 분류하기.
3. csv 파일 추가하는 방법 찾아보기...

1. 우리가 저장해 둔 뉴스 기사가지고 우선 데이터셋을 만드는게 빠를 것 같다.-> csv 파일을 읽고 append 하기 

2. pd.df 형식으로 받아온 csv 파일 중에서 필요한 정보만 추려서 다시 저장하기 

필요한 정보는 title, description 을 합친 컬럼 하나와 레이블 컬럼 하나이다.

2.2. title, description 을 합치기 

3. 레이블링 하기..