한국어 밈 데이터셋 제작 중간 보고(데이터 수집까지) #35
4N3MONE
started this conversation in
Korean-Culture
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
프로젝트 중간보고서
1. 프로젝트 개요
배경 및 필요성
최근 공개되는 대부분의 대형 언어 모델(LLM)은 영어와 중국어 등 주요 언어 중심으로 학습된 모델로, 한국어 데이터에 대한 학습이 상대적으로 부족합니다. 따라서 한글 및 한국어, 한국 문화를 담은 데이터셋을 제작하여 평가한다면 한국어 사용자들의 경험을 크게 개선할 수 있습니다.
프로젝트 목표
본 프로젝트는 참가자들이 데이터셋 라이프사이클(수집-정제-학습-평가)을 경험하는 것을 주요 목표로 하며, 한국어의 특색을 잘 반영하는 신조어 데이터셋 제작을 최종 목표로 삼았습니다. 완성된 데이터셋은 HuggingFace에 공개하여 널리 활용되도록 하고자 합니다.
2. 데이터셋 선정 및 이유
참가자 논의 결과 벤치마크보다는 데이터셋 제작이 더 큰 기여와 학습 경험을 제공할 것으로 판단하였으며, 신조어를 중심으로 한 데이터셋 제작을 결정했습니다.
3. 데이터 수집 현황
다음의 두 가지 주요 소스에서 데이터 수집이 완료되었습니다.
이미지 OCR 파이프라인 제작을 통해 트렌드어워드의 카드뉴스 데이터도 효과적으로 추출하였습니다.
4. 데이터 정제 방침
정제 과정에서는 다음과 같은 기준을 마련하였습니다.
트렌드와 유행어 분류:
나무위키 데이터 특성 대응:
5. 데이터셋 최종 스키마
유행어/밈 데이터셋
아재개그 데이터셋
6. 유해성 판별 기준
유해성 발화를 정의하는 공통적인 기준은 다음과 같습니다.
Beta Was this translation helpful? Give feedback.
All reactions