feat: add qwen3 (#114)

11zhouxuan · web-flow · commit 82c5022513cd · 2025-04-30T00:06:04.000+08:00
* merge

* merge

* add Mistral-Small-3.1-24B-Instruct-2503

* modify qwq-32b deploy

* add txgemma model;

* modify model list command

* fix typo

* add some ecs parameters

* add glm4-z1 models

* modify vllm backend

* add qwen3

* fix cli bugs

* fix
diff --git a/src/emd/models/engines.py b/src/emd/models/engines.py
@@ -140,9 +140,9 @@ class KtransformersEngine(OpenAICompitableEngine):
 
 vllm_qwen3_engin084 = VllmEngine(**{
              **vllm_engine064.model_dump(),
-             "engine_dockerfile_config": {"VERSION":"v0.8.4"},
+             "engine_dockerfile_config": {"VERSION":"v0.8.5"},
             "environment_variables": "export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True",
-            "default_cli_args": " --max_model_len 16000 --disable-log-stats  --enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes --enable-prefix-caching"
+            "default_cli_args": " --max_model_len 16000 --max_num_seq 30 --disable-log-stats  --enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes --enable-prefix-caching"
 })
 
 
diff --git a/src/emd/models/llms/qwen.py b/src/emd/models/llms/qwen.py
@@ -578,7 +578,7 @@
             g5d4xlarge_instance,
             g5d8xlarge_instance,
             g5d16xlarge_instance,
-            g4dn2xlarge_instance,
+            # g4dn2xlarge_instance,
             # g5d24xlarge_instance,
             # g5d48xlarge_instance,
             local_instance
@@ -671,6 +671,44 @@
     )
 )
 
+
+# ValueError("type fp8e4nv not supported in this architecture. The supported fp8 dtypes are ('fp8e4b15', 'fp8e5')")
+# The g5 instance may not support fp8e4nv
+# Model.register(
+#     dict(
+#         model_id = "Qwen3-14B-FP8",
+#         supported_engines=[vllm_qwen3_engin084],
+#         supported_instances=[
+#             g5d2xlarge_instance,
+#             g5d4xlarge_instance,
+#             g5d8xlarge_instance,
+#             g5d16xlarge_instance,
+#             # g4dn2xlarge_instance,
+#             # g5d24xlarge_instance,
+#             # g5d48xlarge_instance,
+#             local_instance
+#         ],
+#         supported_services=[
+#             sagemaker_service,
+#             sagemaker_async_service,
+#             ecs_service,
+#             local_service
+#         ],
+#         supported_frameworks=[
+#             fastapi_framework
+#         ],
+#         allow_china_region=True,
+#         huggingface_model_id="Qwen/Qwen3-14B-FP8",
+#         modelscope_model_id="Qwen/Qwen3-14B-FP8",
+#         require_huggingface_token=False,
+#         application_scenario="Agent, tool use, translation, summary",
+#         description="The latest series of Qwen LLMs, offers base and tuned models from 0.5B to 72B\n parameters, featuring enhanced knowledge, improved coding and math skills, better instruction\n following, long-text generation, structured data handling, 128K token context support, and\n multilingual capabilities for 29+ languages.",
+#         model_type=ModelType.LLM,
+#         model_series=QWEN3_SERIES
+#     )
+# )
+
+
 Model.register(
     dict(
         model_id = "Qwen3-32B",