10월 25일(월) 멘토링 강의 내용 #36
hharimjung
started this conversation in
멘토링
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
기획서 수정 관련
ex)휘핑크림 올려주세요. 를 어떻게 토큰화할것인가
데이터 구축 필요
해야 할 일 : 에트리 모델 신청하기. 기획안 수정하기. 데이터를 기획하고 만들기. 기계적인 데이터 증강.
데이터 만들 때 주의할 점
ex) singer : 아이유, 소녀시대, 박효신, 김광석, …
title : 좋은날, 소원을 말해 봐, 야생화, ,...
ex) 나는 /singer;{}/ 너무 좋아!
ex) 나는 /singer;아이유/ 너무 좋아!
나는 /singer;소녀시대/ 너무 좋아!
나는 /singer;박효신/ 너무 좋아!
나는 /singer;김광석/ 너무 좋아!
토큰화(tokenization)
어절이나 글자는 프로그래밍으로 간단히 분류되지만, 형태소는 하나씩 기준을 설정해주어야 함.
토큰분류 데이터 포맷 / Goo et al.(2018)
: 하나의 파일이 존재(data.txt : 한 줄에 한 문장이 존재하는 텍스트 파일)
: data.txt = 토큰화를 하지 않은 상태. 중요 슬롯은 "슬래시 태그 세미콜론 토큰 슬래시" 형태로 표시. 해당 파일을 먼저 만들어둔 후에 파이썬 코드를 사용하여 GOO ET AL. 포맷으로 변환.
ex) /singer;아이유/노래 좋더라.
/title;눈의꽃/ 듣고 싶다.
Beta Was this translation helpful? Give feedback.
All reactions