为什么qwen3 235B和Deepseek 671B的生成速度基本没有差异？ #1388

zhangjiekui · 2025-06-13T04:04:07Z

zhangjiekui
Jun 13, 2025

现在应用ktransformers、llamacpp等异构大模型推理框架，部署qwen3 235B和Deepseek 671B这两个MoE模型时，这两个模型的参数量差别很大（两者基本都是同时使用Q3或Q4量化），但为什么两者的生成速度基本没有差异？