fix:fix qwen3 deployment (#125)

11zhouxuan · web-flow · commit d5362a4e20e1 · 2025-05-14T14:16:33.000+08:00
* merge

* merge

* add Mistral-Small-3.1-24B-Instruct-2503

* modify qwq-32b deploy

* add txgemma model;

* modify model list command

* fix typo

* add some ecs parameters

* add glm4-z1 models

* modify vllm backend

* add qwen3

* fix cli bugs

* fix

* add deeseek r1/Qwen3-235B-A22B

* fix local deploy account bug

* add qwen 3 awq models

* fix serialize_utils bugs

* modify qwen3 deployment
diff --git a/src/emd/models/engines.py b/src/emd/models/engines.py
@@ -145,9 +145,9 @@ class KtransformersEngine(OpenAICompitableEngine):
 
 vllm_qwen3_engin084 = VllmEngine(**{
              **vllm_engine064.model_dump(),
-             "engine_dockerfile_config": {"VERSION":"v0.8.5"},
+             "engine_dockerfile_config": {"VERSION":"v0.8.5.dev649_g0189a65a2"},
             "environment_variables": "export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True",
-            "default_cli_args": " --max_model_len 16000 --max_num_seq 30 --disable-log-stats  --enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes --enable-prefix-caching"
+            "default_cli_args": " --max_model_len 16000 --max_num_seq 30 --disable-log-stats  --enable-reasoning --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser hermes --enable-prefix-caching"
 })
 
 
diff --git a/src/emd/models/vlms/qwen.py b/src/emd/models/vlms/qwen.py
@@ -114,6 +114,44 @@
     )
 )
 
+
+
+Model.register(
+    dict(
+        model_id = "Qwen2.5-VL-7B-Instruct",
+        supported_engines=[vllm_qwen25vl72b_engine073],
+        supported_instances=[
+            g5d2xlarge_instance,
+            g5d4xlarge_instance,
+            g5d8xlarge_instance,
+            g5d12xlarge_instance,
+            g5d16xlarge_instance,
+            g5d24xlarge_instance,
+            g5d48xlarge_instance,
+            g6e2xlarge_instance,
+            local_instance
+        ],
+        supported_services=[
+            sagemaker_service,
+            sagemaker_async_service,
+            ecs_service,
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="Qwen/Qwen2.5-VL-7B-Instruct",
+        modelscope_model_id="Qwen/Qwen2.5-VL-7B-Instruct",
+        require_huggingface_token=False,
+        application_scenario="vision llms for image understanding",
+        description="The latest series of Qwen2.5 VL",
+        model_type=ModelType.VLM,
+        model_series=QWEN2VL_SERIES
+    )
+)
+
+
 Model.register(
     dict(
         model_id = "QVQ-72B-Preview-AWQ",
@@ -156,7 +194,10 @@
             local_instance
         ],
         supported_services=[
-            sagemaker_service, sagemaker_async_service,local_service
+            sagemaker_service,
+            sagemaker_async_service,
+            ecs_service,
+            local_service
         ],
         supported_frameworks=[
             fastapi_framework