LLM 모델 평가 방법론 #33
suil0109
started this conversation in
Seminar Materials
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
LLM 모델 평가 방법론
목차
LLM 모델 평가의 중요성
핵심 포인트
LLM 모델 평가가 중요한 이유?
→ LLM 평가는 적합한 모델 선택부터 안전성 확보, UX 향상까지 모든 운영의 기준이 됩니다
평가 중요성 목록
내용
1. 적합한 모델 선정을 위한 객관적 기준 제공
2. 신뢰성·안전성 점검
3. Fine-tuning 필요성 판단 + 방향 설정
4. 사용자 만족도 & 서비스 품질 향상
LLM vs ML 모델 평가 차이
핵심 포인트
LLM 평가가 기존 ML 모델 평가와 다른 점
→ LLM 평가는 기존 ML보다 더 사람 중심이고, 다양한 기준과 윤리성까지 함께 고려해야 합니다.
LLM vs ML 평가 비교 요약
내용
1. 다양성과 주관적 평가
2. 환각, 편향, 유해성 등 특수 항목 평가
주요 LLM 평가 벤치 마크
LLM 벤치마크
분야 + 난이도별
1. 지식 (General Knowledge)
MMLU (Massive Multitask Language Understanding)
GPQA (Graduate-level Professional QA)
2. 수학 (Mathematical Reasoning)
GSM8K (Grade School Math 8K)
MATH (Mathematics Dataset)
3. 코딩 (Code Generation)
HumanEval
SWE-bench
예시
DeepSeek R1
Llama 3
Kanana
KMMLU 데이터셋
LLM 성능 평가 지표
핵심 포인트
LLM의 평가 지표
내용
1. Classification (정답 매칭)
정답이 명확하게 존재하는 문제에서, 모델이 정확히 맞췄는지를 평가합니다.
2. NLP Generation (문장 생성)
요약, 번역처럼 다양한 표현이 가능한 과제에서 정답과의 유사도를 평가합니다.
3. Coding (코드 생성)
작성된 코드가 실제로 작동하는지를 평가합니다.
4. Reasoning (추론 평가)
정답뿐 아니라 사고 과정이 논리적으로 타당한지를 평가합니다.
5. Dialogue (대화 품질)
사용자와의 상호작용에서 응답의 자연스러움, 유익함을 평가합니다.
6. LLM as a Judge (LLM이 직접 평가)
사람 대신 상위 LLM이 응답을 평가하는 방식입니다.
대표 지표: LLM 평가 점수
설명: GPT-4 등 고성능 모델이 비교 응답을 분석하고 판단
활용 사례: OpenAI, Anthropic의 모델 튜닝 및 대규모 검증 환경
예시
LLM 모델 평가 시 고려 사항
핵심 포인트
LLM 모델 평가 시 고려사항
내용
1. 환각 현상 (Hallucination)
2. 편향성 (Bias)
3. 유해 콘텐츠 대응 (Toxicity & Safety)
4. 효율성 (Efficiency)
LLM 오픈소스 리더 보드
LLM 오픈소스 리더보드 예시
1. Open Ko-LLM Leaderboard
2. LMSYS Chatbot Arena
3. Stanford HELM (Holistic Evaluation of Language Models)
Beta Was this translation helpful? Give feedback.
All reactions