SmartBench 是第一个专门针对中文智能手机场景下设备端大语言模型(LLM)能力评估的基准。它通过分析智能手机制造商提供的功能,将设备端 LLM 功能分为五个类别,共 20 个具体任务,涵盖了文本摘要、文本问答、信息抽取、内容创作和通知管理等实际应用场景。SmartBench 提供高质量的数据集和定制化的评估标准,旨在标准化评估设备端 LLM 的能力,推动其在实际移动应用中的进一步发展和优化。
随着大语言模型(LLM)在智能手机上的广泛应用,其作为智能助手的能力受到了广泛关注。然而,现有的 LLM 评估基准大多侧重于英语中的客观任务,如数学和编程,这些任务并不能完全反映设备端 LLM 在实际移动场景中的使用情况,尤其是对于中文用户。为了填补这一空白,SmartBench 应运而生。
SmartBench 将设备端 LLM 功能分为以下五个类别,共 20 个具体任务:
数据主要来源于三个渠道:
- 通过人工收集和 LLM 生成手机应用真实场景问答对,并进行人工筛选和编辑以确保数据质量。
- 补充收集、筛选与智能手机应用真实场景相关的开源数据集。
- 部分收集数据集,利用先进的 LLM(如 Qwen-Max、Gemini Pro)为缺乏适当问答的数据集生成答案。
由具有多年端侧 AI 经验的数据专家进行验证,重点关注以下五个核心标准:
- 与真实世界智能手机交互场景的一致性。
- 检测有毒或有害信息。
- 识别潜在的隐私泄露风险。
- 标记社会争议性或极化性话题。
- 全面评估参考答案的正确性与指令遵循能力。
采用“LLM-as-a-Judge”方法进行主观问题评估。为每个功能类别精心设计不同的 LLM 评估提示,特别是对于内容创作、信息抽取和通知管理,为每个任务设计了独特的评分提示,使评分更符合人类感知。每个问题总分为 10 分,并为每个任务的评估提示提供详细的评分维度和标准,以文本续写为例:
评估了 BlueLM-3B、InternVL2.5-4B、MiniCPM3-4B、Qwen2.5-3B 和 Qwen2-VL-2B 等代表性设备端 LLM/MLLM 在 SmartBench 上的表现(BF16 参数精度)。使用 GPT-4 Turbo(gpt-4-turbo-04-09)作为评判 LLM。
将 BlueLM-3B 和 Qwen2.5-3B 模型部署在搭载高通骁龙 8 Gen 3 SoC 的 vivo iQOO 12 智能手机的 NPU 上,量化模型为 W4A16。量化模型保留了超过 80% 的原始能力,整体平均保留率约为 90%。
通过多位人类专家对不同设备端模型的输出进行排名,验证 LLM-as-a-Judge 评估方法的有效性。结果显示,SmartBench 设计的评估提示在所有类别中均优于 MT-Bench 的评估提示。
# 生成评估结果
cd code
python generate_results.py --test_model_path <path_to_model> --data_path <path_to_data> --model_res <path_to_eval_date>
# 运行自动化评估
python evaluate_results.py --eval_prompts_path <path_to_eval_prompts> --model_res <path_to_eval_date> --eval_res <path_to_eval_res>
# 处理评估结果
python process_results.py --eval_res <path_to_eval_res> --score_save_path <path_to_final_results>
SmartBench 使用的开源数据集及其许可信息如下表所示:
数据集来源 | 许可证 |
---|---|
nlp_chinese_corpus | MIT License |
WenetSpeech | CC BY 4.0 |
LCCC | MIT License |
Alimeeting4MUG | CC BY 4.0 |
VCSum | MIT License |
CMRC 2018 | CC BY-SA 4.0 |
DuReader-2.0 | Apache License 2.0 |
CC BY-SA 3.0 | |
MSRA | CC BY 4.0 |
OntoNotes Release 4.0 | Apache License 2.0 |
CSCD-NS | MIT License |
-
随着技术的进步,设备端 LLM 的功能将持续演变。我们将继续根据新功能的发布更新数据集。
-
SmartBench 是专门为中文用户使用场景设计的。不同国家的智能手机用户的使用习惯和方法可能差异显著。未来,我们将继续支持多种语言。