본문 바로가기

전체 글

(68)
새로운 task 1. 테스트 데이터 크기가 너무 작아 아직 불안정하다. 1. 한국어 성별불평등 데이터셋 찾기 2. 우리가 가지고 있는 데이터를 일일히 손으로 레이블링 2. 한국어 토크나이저 비교/활용 해보기 (링크) 기록 남기기 참고 (링크) 1. Mecab 2. berttoknizer 3. khaii (링크) 4. Google: SentencePiece Tutorial (링크) LM 비교/ 활용하기 1. BERT (링크) 2. XLNET 3. 일렉트라 (설명1: 링크 설명2: 링크 ) (코드: 링크) 4. kobert (코드 : link)
[모듈화작업] - 코드 뜯어보기 - tqdm 라이브러리 - time 라이브러리 데이터를 다운받을 때, 작업 진행 상황을 시각화하고 싶을 때 진행상태바가 0%에서 100%로 막대바가 채워지는 것을 본 적이 있을 것이다. 이는 데이터 양이 많아 진행 상황이 한세월인 딥러닝 진행 과정에서 뭔가 되고는 있구나 하는 심리적 안정감을 주기 위해 필요하다... from tqdm import tqdm from time import sleep for i, line in enumerate(tqdm(range(900), total=10, desc="Loading Dataset", unit=" lines")): sleep(0.01) pass - range(900) : 900만큼 반복한다. - total : 10 개 마다 상태바 업데이트 - desc : 상태..
깃허브 프로젝트 관리 기능 정리 https://www.notion.so/Github-6c6ae00cc24a4717bb737a2b5826a330
[딥러닝 구조] tf https://github.com/MrGemy95/Tensorflow-Project-Template MrGemy95/Tensorflow-Project-Template A best practice for tensorflow project template architecture. - MrGemy95/Tensorflow-Project-Template github.com torch https://cs230.stanford.edu/blog/pytorch/ Introduction to Pytorch Code Examples This post follows the main post announcing the CS230 Project Code Examples. Here we explain some details ..
[5.13] torchtext를 이용하여 NLP 데이터셋 만들기 목표: (1) 데이터셋 만들기 데이터 (2) 라벨링 확인하고 오분류 처리하기 1. 토치 텍스트를 이용하여 데이터셋 만들기 참고 링크 (link0) (link1) (link2) TEXT 필드에서 tokenize 파라미터에 Mecab 함수 넣으면 됨(기본값은 str.split ) 2. 구글 코랩에서 작업하고 있기 때문에 작업 시간이 오래걸리는 객체는 미리미리 파일로 저장해 두는 것이 좋다.. 참고 링크 (link)(link) pickle 객체 저장하기 구글 코랩에서 로컬 컴퓨터로 파일 내려받기 from google.colab import files import pickle tokenized = """ 토큰화 한 객체 """ with open('data.pickle','wb') as NLP: pickle.du..
에러 종류
[programmers] 자물쇠와 열쇠 1 사용 알고리즘 및 아이디어 - Greedy search 다짜고짜 살펴보는 문제인듯.. - CNN 할 때도 사용하는 padding 개념이 여기에도 들어갔다. 원본의 가장자리에 가짜 값(나는 2를 넣음)을 추가해 원본의 크기를 늘리는 padding 기법은 모든 섭셋을 매칭할 때 유용하다. - 2차원 배열을 90도 회전하는 방법 - 모듈화 연습. 2. 리뷰 (1) 항상 막혔던 부분: 2d-array의 부분집합을 인덱싱하는 방법을 확실하게 이해할 수 있었던 문제. 내가 맨날 하던 방법 df[i:i+n][j:j+m] 을 하면 n개의 행만 추출되더라.. 완전 헛다리 짚고 있었음.. 인덱싱 할 때, 시작좌표 ( start_x , start_y ) 값을 잡은 후, 부분집합 크기 i, j 만큼 더해주면 원하는 부분만..
[5.12] 서브워드 분절 중... 목표: (1)토치텍스트를 이용하여 샘플 데이터셋 만들기 사용 노트 ( link ) 0. 파이썬 객체 저장하기 - pickle (link) 1. 텍스트 데이터 전처리 띄어쓰기 정규화하기 -> 현재 단계에서 불가능 - 버전 관리: tensorflow = 1.4.0. , keras = 2.1.5 - 한 계산에 198 글자 이상 들어가면 warning이 뜬다. - 신문 기사이므로 기본적인 띄어쓰기나 맞춤법을 준수할 것이라 기대. 띄어쓰기 정규화를 하지 않더라도 성능이 나쁘지 않을 것으로 예상됨. 'tag'가 기사 본문에 추가되어있었다. 어차피 서브워드 분절 단계에서 나눠질 것이므로 토크나이징 후 불용어처리. 2. 토큰화(현재 단계): 데이터 크기가 너무 커서 하루종일 돌려놔야 임베딩이 될 것 같다. 서브워드 분..