[3/30] Text-to-SQL Data Collection Discusion #24
nuatmochoi
started this conversation in
Text-to-SQL
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
1. 프로젝트 현황
2. 번역 작업 중 발생 이슈
2.1. 번역 프롬프트 최적화
→ 여러 개의 선택지와 추가 설명이 포함되는 문제 발생 (ex> "가수가 총 몇 명이야?" 또는 "가수는 전부 몇 명이야?" 이렇게 자연스러운 일상 대화체로 번역할 수 있습니다.)
→ 개선 후에도 쌍따옴표 포함 문제 있음 → pandas 등으로 후처리 예정
2.2. 기술적 고려사항
3. 데이터셋 개선 및 확장 방안
3.1. 데이터 다양성 확장
도메인(db_id에 이미 포함)등의 정보 추가 기입3.2. 데이터 정확도 개선
4. 추가 데이터셋 활용 가능성
4.1. Kaggle WikiSQL-Korean - 링크
4.2. AI Hub 데이터 - 링크
5. 논의 포인트 - 역할 분담 (데이터셋 수집 과정 기간)
역할 1: 번역 작업물 결과물 통합 조정
역할 2: 데이터 확장 방향성 구체화
역할 3: 추가 데이터셋 활용 전략 수립
Beta Was this translation helpful? Give feedback.
All reactions