한국어 밈 데이터셋 제작 중간 보고(데이터 수집까지) #35

4N3MONE · 2025-05-01T11:33:32Z

4N3MONE
May 1, 2025
Collaborator

프로젝트 중간보고서

1. 프로젝트 개요

배경 및 필요성

최근 공개되는 대부분의 대형 언어 모델(LLM)은 영어와 중국어 등 주요 언어 중심으로 학습된 모델로, 한국어 데이터에 대한 학습이 상대적으로 부족합니다. 따라서 한글 및 한국어, 한국 문화를 담은 데이터셋을 제작하여 평가한다면 한국어 사용자들의 경험을 크게 개선할 수 있습니다.

프로젝트 목표

본 프로젝트는 참가자들이 데이터셋 라이프사이클(수집-정제-학습-평가)을 경험하는 것을 주요 목표로 하며, 한국어의 특색을 잘 반영하는 신조어 데이터셋 제작을 최종 목표로 삼았습니다. 완성된 데이터셋은 HuggingFace에 공개하여 널리 활용되도록 하고자 합니다.

2. 데이터셋 선정 및 이유

참가자 논의 결과 벤치마크보다는 데이터셋 제작이 더 큰 기여와 학습 경험을 제공할 것으로 판단하였으며, 신조어를 중심으로 한 데이터셋 제작을 결정했습니다.

신조어를 선택한 이유:
- 데이터 수집 및 생성이 용이함
- 한국어 특색을 잘 나타냄
- 학습 후 사용자에게 재미와 강력한 경험 제공

3. 데이터 수집 현황

다음의 두 가지 주요 소스에서 데이터 수집이 완료되었습니다.

Trendaword: 텍스트와 이미지 OCR을 통해 데이터 수집 완료
나무위키(국내밈/해외밈/유행어): 문서 제목, 개요, 추가 정보를 수집

이미지 OCR 파이프라인 제작을 통해 트렌드어워드의 카드뉴스 데이터도 효과적으로 추출하였습니다.

4. 데이터 정제 방침

정제 과정에서는 다음과 같은 기준을 마련하였습니다.

트렌드와 유행어 분류:
- 유행어가 아닌 트렌드는 별도의 Q&A 형식으로 데이터 구축
- 트렌드 및 유행어는 명확히 구분하여 라벨링 진행
나무위키 데이터 특성 대응:
- 개요 정보가 부족할 경우 소제목 정보 활용
- 이미지나 특수 형식의 문서는 별도의 전처리와 수작업으로 보완

5. 데이터셋 최종 스키마

유행어/밈 데이터셋

칼럼명	설명
title	유행어 또는 밈의 제목
description	나무위키 및 트렌드어워드에서 수집한 설명 및 내용
category	유행어와 트렌드 구분
date	최초 게시 및 문서 작성 날짜

아재개그 데이터셋

칼럼명	설명
question	아재개그 질문
answer	아재개그 정답
reasoning	선택적으로 추가한 아재개그의 리즈닝 과정 (언어유희 설명 등)

6. 유해성 판별 기준

유해성 발화를 정의하는 공통적인 기준은 다음과 같습니다.

공격적 언어 사용: 욕설, 모욕, 비하, 위협 등의 표현이 포함된 경우 유해한 발언으로 간주됩니다.
특정 대상의 공격: 개인이나 특정 집단을 겨냥한 모욕 및 공격적인 발언을 유해 발언으로 구분합니다.
차별적 속성 기반 공격: 인종, 성별, 성적 지향, 종교, 연령, 장애 등 사회적 차별 요소를 기반으로 한 공격을 명백한 혐오 발언으로 간주합니다.
맥락적 이해 중요: 언어의 문자적 의미뿐만 아니라 사용 맥락을 고려하여 유해성 여부를 판단합니다.
암시적 표현 포함: 명시적 욕설 외에도 암시적이고 우회적인 표현 역시 유해 발언으로 간주합니다.
편견과 혐오의 연관성: 사회적 편견과 혐오 발언 간의 밀접한 연관성을 고려합니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

한국어 밈 데이터셋 제작 중간 보고(데이터 수집까지) #35

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

한국어 밈 데이터셋 제작 중간 보고(데이터 수집까지) #35

Uh oh!

Uh oh!

4N3MONE May 1, 2025 Collaborator

프로젝트 중간보고서

1. 프로젝트 개요

배경 및 필요성

프로젝트 목표

2. 데이터셋 선정 및 이유

3. 데이터 수집 현황

4. 데이터 정제 방침

5. 데이터셋 최종 스키마

유행어/밈 데이터셋

아재개그 데이터셋

6. 유해성 판별 기준

Replies: 0 comments

4N3MONE
May 1, 2025
Collaborator