本项目致力于构建一个系统化的大模型技术体系开源影响力评估框架。我们通过科学、可操作的评估标准,旨在帮助开发者、研究者和企业更准确地理解和衡量开源大模型技术体系的实际价值。我们的目标是从数据、模型、系统和评测平台四个关键技术维度,全面评估开源大模型技术体系的影响力。
目前有以下评估维度可供参考:
- 数据维度:数据集覆盖度、大模型生命周期覆盖度及数据处理工具等评估维度;
- 模型维度:模型的使用量、模型模态覆盖度、模型规模、贡献者活跃度、模型开源开放度、模型适配的芯片数量等评估维度;
- 系统维度:算子库、并行训练与推理框架、深度学习框架、开源AI编译器、通信库以及贡献者活跃度等评估维度;
- 评测平台维度:评测榜单、评测模型、评测数据、以及评测方法等评估维度。
这种对大模型技术体系维度的全面覆盖,保证了评估框架在衡量开源大模型技术体系时的系统性和科学性。
- 数据维度:HuggingFace, ModelScope , GitHub , GitCode , Gitee , BAAI数据平台 , OpenDataLab , Google官网 , META官网 , OpenI启智等。
- 模型维度:HuggingFace , ModelScope , GitHub , GitCode , Gitee , OpenI启智等。
- 系统维度: GitHub , GitCode , PaddlePaddle , Mindspore , Tensorflow , PyTorch等。
- 评测平台维度:HuggingFace , GitHub , Gitee , GitCode以及各机构官网(OpenCompass
- 数据指标:同一项目的多个仓库 ,根据仓库README文件及关联论文划分每个数据仓库所属的模态、生命周期。
- 模型指标:统计各个机构下属所有子机构/组织的仓库,仅统计月下载量大于50的模型,仅统计 transformer 之后的架构的大模型,排除 CNN/RNN 等传统深度学习模型,排除参数量小于 500M 的语言模型。
- 系统指标:支持异构训练、接入训练芯片厂商数量、大模型生命周期支持程度均通过从 GitHub、Paddle、Mindspore 等网站获取。
- 评测平台指标:评测模型、评测数据数量从2023年后开始统计。仅统计公开可查的模型,为数据集发布而评测的模型不计其中。仅统计保持更新的评测平台,随数据集发布而评测的榜单不计其中。评测模型以评测平台上的数据为准。
我们总共获取了来自17个平台,11673个链接中的多种指标数据,数据收集时间周期为每月一次,本次为数据统计截止到 2025年4月7日。
所有指标均采用Min-Max正则化后求平均的方式计算影响力得分。
目前我们鼓励大家积极参与,直接提交Issue提出建议和反馈。您的反馈将帮助我们不断优化评估方法,提高数据完整度与质量。
感谢您对大模型开源技术体系影响力榜单的关注和支持。我们期待与您一起推动开源技术的发展和创新。