본문 바로가기

NLP 프로젝트 일지[0505~]

2.1. 기사 다운받고 저장 형식분석하기

다운받는 방법 파악하기, 형식 파악하기!

 

Windows는 pyenv 설치 지원을 하지 않습니다.

 

미쳣다

 

우분투를 따로 설치해야하나 하루에도 몇 번씩 고민하는 삶...

혹은 비교적 신생 의존성 관리툴인 poetry 설치하기?(link)

 

 

1. 데이터 저장소에서 텍스트가 저장되어 있는 형식 파악하기

기존 저장소 중 news 는 원본을 수집하는 역할을 하고 done-it-again 은 수집한 뉴스를 분석하는 일과 웹사이트를 생성하는 일을 해요. done-it-again 저장소가 두 가지 일을(분석 + 웹 사이트) 하는 구조가 별로 좋지 않은 것 같아서 별도의 저장소로 분리하고자 합니다. 분석은 done-it-again-analysis 저장소에서 하도록 분리하고 done-it-again 저장소는 분석 결과를 보여주는 웹사이트를 생성하는 일만 하도록 분리할게요.

 

데이터 다운로드 :

 

데이터 설명 :

  • article_id: 기사 고유 번호. https://news.v.daum.net/v/ 뒤에 붙이면 url
  • cp_name: 언론사 이름
  • title: 기사 제목
  • description: 기사 본문 앞부분 발췌 -> 기사 본문 앞부분을 발췌하지 않고 전체 기사를 받아와야한다.
  • authors: 기자. 구분자는 ;
  • keywords: 키워드 목록. 구분자는 ;

파일은  gz 형식으로 압축되어 csv 파일로 저장되어 있다. 

저장되어 있는 양이 상당하므로 데이터 다운받는 것까지 자동화하면 좋을 것 같다.

 

1. gz 형식의 파일은 gzip 라이브러리(link)를 이용하면 압축을 풀지 않고 내용을 읽을 수 있다.

2. 읽은 내용은 csv 파일이다.

3. 데이터 중 머신 트레이닝에 필요한 feature 는 기사제목 + 기사 전체 lable 이다. 

3. 1 달 단위로 기사를 모아 새로운 csv 파일로 저장하면 트레이닝 할 때 사용하기 편할 것 같다. 

 

 

세상에.. 지금보니까 기사 본문 앞부분 발췌한 건.. 못쓴다.... 따로 크롤링해서 기사를 수집해야겟다........

tip... 항상.. 데이터 설명을 잘 살펴보는 습관을 들이자....

 

내일 할 일

1. 뉴스 기사 크롤링 코드 분석해서 기사 전문 받아오기

2. 여성혐오 기사인 것과 아닌 것을 분류하기.

3. csv 파일 추가하는 방법 찾아보기...

 

추후 하면 좋을 일.

3. 여성혐오 기사에 주로 나오는 단어들을 군집화하기