다운받는 방법 파악하기, 형식 파악하기!
Windows는 pyenv 설치 지원을 하지 않습니다.
미쳣다
우분투를 따로 설치해야하나 하루에도 몇 번씩 고민하는 삶...
혹은 비교적 신생 의존성 관리툴인 poetry 설치하기?(link)
1. 데이터 저장소에서 텍스트가 저장되어 있는 형식 파악하기
기존 저장소 중 news 는 원본을 수집하는 역할을 하고 done-it-again 은 수집한 뉴스를 분석하는 일과 웹사이트를 생성하는 일을 해요. done-it-again 저장소가 두 가지 일을(분석 + 웹 사이트) 하는 구조가 별로 좋지 않은 것 같아서 별도의 저장소로 분리하고자 합니다. 분석은 done-it-again-analysis 저장소에서 하도록 분리하고 done-it-again 저장소는 분석 결과를 보여주는 웹사이트를 생성하는 일만 하도록 분리할게요.
데이터 다운로드 :
데이터 설명 :
- article_id: 기사 고유 번호. https://news.v.daum.net/v/ 뒤에 붙이면 url
- cp_name: 언론사 이름
- title: 기사 제목
- description: 기사 본문 앞부분 발췌 -> 기사 본문 앞부분을 발췌하지 않고 전체 기사를 받아와야한다.
- authors: 기자. 구분자는 ;
- keywords: 키워드 목록. 구분자는 ;
파일은 gz 형식으로 압축되어 csv 파일로 저장되어 있다.
저장되어 있는 양이 상당하므로 데이터 다운받는 것까지 자동화하면 좋을 것 같다.
1. gz 형식의 파일은 gzip 라이브러리(link)를 이용하면 압축을 풀지 않고 내용을 읽을 수 있다.
2. 읽은 내용은 csv 파일이다.
3. 데이터 중 머신 트레이닝에 필요한 feature 는 기사제목 + 기사 전체 , lable 이다.
3. 1 달 단위로 기사를 모아 새로운 csv 파일로 저장하면 트레이닝 할 때 사용하기 편할 것 같다.
세상에.. 지금보니까 기사 본문 앞부분 발췌한 건.. 못쓴다.... 따로 크롤링해서 기사를 수집해야겟다........
tip... 항상.. 데이터 설명을 잘 살펴보는 습관을 들이자....
내일 할 일
1. 뉴스 기사 크롤링 코드 분석해서 기사 전문 받아오기
2. 여성혐오 기사인 것과 아닌 것을 분류하기.
3. csv 파일 추가하는 방법 찾아보기...
추후 하면 좋을 일.
3. 여성혐오 기사에 주로 나오는 단어들을 군집화하기
'NLP 프로젝트 일지[0505~]' 카테고리의 다른 글
[5.11] 3.1. NLP 모델 데이터 전처리 (0) | 2020.05.11 |
---|---|
3. 텍스트 전처리 (0) | 2020.05.07 |
2.2. 훈련 데이터셋 만들기 (0) | 2020.05.07 |
1. NLP 처리 프로세스 정리 (0) | 2020.05.05 |
밖에 드러내야지 행동을 할 것 같아 만든 카테고리 (0) | 2020.05.05 |