토크나이징 (1) 썸네일형 리스트형 [5.12] 서브워드 분절 중... 목표: (1)토치텍스트를 이용하여 샘플 데이터셋 만들기 사용 노트 ( link ) 0. 파이썬 객체 저장하기 - pickle (link) 1. 텍스트 데이터 전처리 띄어쓰기 정규화하기 -> 현재 단계에서 불가능 - 버전 관리: tensorflow = 1.4.0. , keras = 2.1.5 - 한 계산에 198 글자 이상 들어가면 warning이 뜬다. - 신문 기사이므로 기본적인 띄어쓰기나 맞춤법을 준수할 것이라 기대. 띄어쓰기 정규화를 하지 않더라도 성능이 나쁘지 않을 것으로 예상됨. 'tag'가 기사 본문에 추가되어있었다. 어차피 서브워드 분절 단계에서 나눠질 것이므로 토크나이징 후 불용어처리. 2. 토큰화(현재 단계): 데이터 크기가 너무 커서 하루종일 돌려놔야 임베딩이 될 것 같다. 서브워드 분.. 이전 1 다음