LLM Eval

按领域/专项能力

Math

GSM8K
OpenAI发布的数学应用题数据集，包含8,500道小学至中学水平题目，侧重数学推理能力。
发布 2021年 OpenAI

MATH500
发布 OpenAI

AIME 2024 American Invitational Mathematics Examination
美国数学邀请赛，针对中学生，3h15道题目。

Code

Codeforces
算法竞赛平台

SWE-bench
一句话介绍：测试模型解决github上流行的python项目的真实问题的能力。
SWE-Bench是由普林斯顿大学和芝加哥大学研究者提出（ICLR 2024发表）的真实世界软件工程评测基准，通过2,294个来自12个流行Python开源项目的GitHub真实问题与PR任务，评估大语言模型在复杂代码库中完成跨文件bug修复和功能改进的能力，要求生成代码通过原库测试验证，并具备处理数十万行代码的长上下文及持续扩展特性。
发布 2024/03 Princeton HuggleFace

multi-swe-bench
一句话介绍：测试模型解决github上多语言项目的真实问题的能力。
发布 2025/04 字节

事实评估

SimpleQA
事实性基准测试，用于衡量语言模型回答简短的事实搜索类问题的能力。
发布 2024/10 OpenAI 英文

C-SimpleQA
中文版事实性基准测试，用于衡量语言模型回答简短的事实搜索类问题的能力。
发布 2024/11 中文 OpenStellarTeam
3000个高质量问题组成，涵盖6个主要主题和99个细分主题

阅读理解

DROP A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs
基于给定的段落文字，提取信息进行推理，计算和排序。发布 2019/03 英文

推理能力

BIG-Bench
测评大模型一般推理能力（不局限数学和编码），涉及200多个推理任务。
发布 2021 Google

BIG-Bench Extra Hard
BIG-Bench的增强版，每个任务的难度显著增强。
发布 2025 Google

通用能力/多学科跨领域

c-eval
中文综合能力测试，覆盖52个学科、13,948道多选择题，评测模型对中文知识体系的理解。发布 2023年 HKUST

MMLU Massive Multitask Language Understanding
英文多任务测试，涵盖57个学科（如数学、法律、伦理），评估跨领域知识掌握能力。发布 2021 UCBerkeley

MMLU-Pro MMLU进阶版，提高了问题的质量，增加了问题的难度。
选择题从4个选项变成10个选项，提高了题目中推理能力的要求，增加了大学考试级别的问题。

发布 2024/07

CMMLU
Chinese Massive Multitask Language Understanding
中文版多任务测试，继承MMLU框架。涵盖多个学科和领域，评估跨领域知识掌握能力。常识类、人文、社科、理工等共67个主题 11,528道多选题，其中67个主题每个主题至少105道题

GPQA AGraduate-Level Google-Proof Q&ABenchmark
研究生级别且无法通过google搜索得到答案的问答测试。由领域内（生物化学和物理）专家编写的448道多选题。
发布日期 2023/11月

GPQA Diamond
GPQA挑选出来的的高质量子集，包含其中198道题目。挑选标准：由领域专家选择，且，非专家答对概率低于 1/3。

FRAMES
测评大模型基于维基百科的RAG回答的效果。
发布 2024/09 Google HuggineFace

多模态

MMMU 多模态（文字+图像），多科学和领域

测试平台

FlagEval
北京智源
评测领域：自然语言处理（NLP）、计算机视觉（CV）、音频（Audio）、多模态（Multimodal）

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

LLM Eval

按领域/专项能力

Math

Code

事实评估

阅读理解

推理能力

通用能力/多学科跨领域

多模态

测试平台

About

Uh oh!

Releases

Packages

dd-rongfa/llm_eval

Folders and files

Latest commit

History

Repository files navigation

LLM Eval

按领域/专项能力

Math

Code

事实评估

阅读理解

推理能力

通用能力/多学科跨领域

多模态

测试平台

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages