본문 바로가기

전체 글

(68)
[5.11] 3.1. NLP 모델 데이터 전처리 목표 : (1)토치텍스트를 이용하여 샘플 데이터셋 만들기 (2) csv 파일 살펴보며 오분류 확인하기-> 수정 코드 만들기! 사용 노트 ( link ) 1. csv 파일 형식 확인하기 파일 저장 형식 확인 필요한 컬럼은 text와 label 이므로 나머지는 날려준다. 특정 조건을 만족하는 행만 불러오기 : df [ df[ 'col' ] >조건 ] 참고 블로그(link) 2. 정제하기 - 정제할 때 혹시 모르니 원본 데이터의 copy 를 만들어 두기! from copy import copy - 참고 블로그 (1) 전각문자 제거하기 : 아마 숫자가 전각문자일 수도.. 속보, 특보 등의 글자 re를 이용하여 제거하기 -> 불용어 사전에 추가하기 me too 의 경우가 있으므로.... 대문자 -> 소문자로 변환..
[Hacker Rank] Sherlock and Anagrams 기가막히다.. 문자열 반복 문제는 해시테이블을 이용하여 하나씩 카운트하면 편할 것 같다. 1. total int 값을 선언하고, 청크 dic 을 만든다. 여기에 청크의 개수를 메모할 것이다. 2. for 문을 두 개 돌린다. 하나는 청크의 길이, 하나는 시작 인덱스임. 2.1. for 문을 이용해 만든 청크를 정렬하여 반복을 없앤다. 2.2. 청크 dic에 정렬한 청크를 입력하고 카운트를 한다. 2.2.1 청크를 구성한문자가 같다면 똑같은 문자열으로 만들 수 있다. 2.2.2. 청크 하나일 때는 만들 수 있는 청크가 0이므로 dic 디폴트 값은 0으로 설정한다. 2.2.3. 청크가 n(n>1)개일 때, 만들 수 있는 청크는 n-1개 이다. 2.3. 따라서 청크의 디폴트 값은 0으로 설정한 후 이를 tot..
[HackerRank] New Year Chaos 두 가지 방법을 생각했다. 1. array를 보고 뇌물 먹인 횟수 계산하기 2. 직접 elements 위치를 바꿔가며 몇 번 뇌물을 먹였는지 세기 첫번째 방법을 하다가 포기했다. 고려할 상황이 너무 많았음 더보기 1. index 와 index에 현재 위치한 값을 비교한다. 2. index == 현재값 은 넘어간다 3. index 현재값 : 뇌물을 받은 사람이다. 4.1. 4. 인 사람 중에서도 뇌물을 준 사람이 있다. q[i] > q[i+1] 인 경우 두번째 방법은 직접 원소를 옮겨가며 횟수를 카운트했다. 인터넷의 도움을 받았다. 더보기 1. index 와 메모 dic 을 준비한..
3. 텍스트 전처리 NLP에서 텍스트 자체를 바로 피처로 사용할 수는 없다. 텍스트를 전처리하여 벡터화 해야 모델에 적용할 수 있다. (모든 머신러닝 프로세스가 그렇듯 이 부분이 가장 지루하다..) 0. 헉.. 놓치고 있던 부분이 있다.... 텍스트 전처리를 하기 위해서는... 당연하겠지만 전처리를 할 텍스트가 필요하다....! 프로젝트 github에서 저장되어 있는 신문 기사들을 다운받아와야겠다.... 텍스트 분석하기(link) 텍스트 전처리에는 다음과 같은 작업이 필요하다. 텍스트 전처리(Text Preprocessing): 대/소문자 변경, 특수문자 삭제, 이모티콘 삭제 등의 전처리 작업, 단어(Word) 토큰화 작업, 불용어(Stop word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 ..
2.2. 훈련 데이터셋 만들기 NLP 블로그 (link) 해야 할 일 1. 뉴스 기사 크롤링 코드 분석해서 기사 전문 받아오기 2. 여성혐오 기사인 것과 아닌 것을 분류하기. 3. csv 파일 추가하는 방법 찾아보기... 1. 우리가 저장해 둔 뉴스 기사가지고 우선 데이터셋을 만드는게 빠를 것 같다.-> csv 파일을 읽고 append 하기 2. pd.df 형식으로 받아온 csv 파일 중에서 필요한 정보만 추려서 다시 저장하기 필요한 정보는 title, description 을 합친 컬럼 하나와 레이블 컬럼 하나이다. 2.2. title, description 을 합치기 3. 레이블링 하기..
2.1. 기사 다운받고 저장 형식분석하기 다운받는 방법 파악하기, 형식 파악하기! Windows는 pyenv 설치 지원을 하지 않습니다. 미쳣다 우분투를 따로 설치해야하나 하루에도 몇 번씩 고민하는 삶... 혹은 비교적 신생 의존성 관리툴인 poetry 설치하기?(link) 1. 데이터 저장소에서 텍스트가 저장되어 있는 형식 파악하기 기존 저장소 중 news 는 원본을 수집하는 역할을 하고 done-it-again 은 수집한 뉴스를 분석하는 일과 웹사이트를 생성하는 일을 해요. done-it-again 저장소가 두 가지 일을(분석 + 웹 사이트) 하는 구조가 별로 좋지 않은 것 같아서 별도의 저장소로 분리하고자 합니다. 분석은 done-it-again-analysis 저장소에서 하도록 분리하고 done-it-again 저장소는 분석 결과를 보여..
1. NLP 처리 프로세스 정리 목적 NLP 를 이용하여 성차별적 관행을 따르는 기사 분류하기 기간 5.10일까지 1. 기사 분류는 텍스트 분류 혹은 텍스트 군집화에 속한다. (텍스트 분류 후 텍스트 군집화를 이용하면 스스로 분류하지 않을까?) 2. 기사가 성차별적 관행에 대하여 비판적으로 서술하는지 여부는 텍스트 요약에 해당할 것 같지만. 일단 지금은 해당 기사가 여성혐오 사건을 다루는 기사인지를 분류하는 것이 우선이다. 3. NLP 처리를 하기 위해서 (1)텍스트 전처리를 하고 (2) 피처 백터화를 하고 (3) 머신러닝 모델링을 수행한다. 4. 다음 게시글에서는 텍스트 전처리 부분을 진행하고 정리하겠다.
밖에 드러내야지 행동을 할 것 같아 만든 카테고리 제목 그대로다. 4월부터 개발이 정체되어 있다. 공개적으로 프로젝트 개발 행보를 기록해 놓아야겠다. 너무 많은 걸 한번에 생각해서 손도 못 대고 있었던 것 같다. 하나하나 해치워가야겠다. 목적 NLP 를 이용하여 성차별적 관행을 따르는 기사 분류하기 기간 5.10일까지