feat:add qwen3 (#117)

11zhouxuan · web-flow · commit 11d36795ded9 · 2025-05-07T20:00:37.000+08:00
* merge

* merge

* add Mistral-Small-3.1-24B-Instruct-2503

* modify qwq-32b deploy

* add txgemma model;

* modify model list command

* fix typo

* add some ecs parameters

* add glm4-z1 models

* modify vllm backend

* add qwen3

* fix cli bugs

* fix

* add deeseek r1/Qwen3-235B-A22B
diff --git a/src/emd/commands/deploy.py b/src/emd/commands/deploy.py
@@ -399,6 +399,7 @@ def deploy(
             else:
                 gpu_num = get_gpu_num()
                 support_gpu_num = model.supported_instances[0].gpu_num
+                support_gpu_num = support_gpu_num or gpu_num
                 default_gpus_str = ",".join([str(i) for i in range(min(gpu_num,support_gpu_num))])
                 gpus_to_deploy = questionary.text(
                         "input the local gpu ids to deploy the model (e.g. 0,1,2):",
diff --git a/src/emd/models/engines.py b/src/emd/models/engines.py
@@ -108,6 +108,11 @@ class KtransformersEngine(OpenAICompitableEngine):
 
 vllm_deepseek_r1_distill_llama_engine071 = vllm_deepseek_r1_distill_qwen_engine071
 
+vllm_deepseek_r1_engine084 = VllmEngine(**{
+            **vllm_engine064.model_dump(),
+            "engine_dockerfile_config": {"VERSION":"v0.8.4"},
+            "default_cli_args": "--max_num_seq 10 --max_model_len 16000 --chat-template emd/models/chat_templates/deepseek_r1.jinja"
+})
 
 vllm_qwen2d5_72b_engine064 = VllmEngine(**{
              **vllm_engine064.model_dump(),
@@ -165,7 +170,7 @@ class KtransformersEngine(OpenAICompitableEngine):
             "engine_dockerfile_config": {"VERSION":"v0.8.4"},
             "dockerfile_name":"Dockerfile_qwen25_vl",
             "environment_variables": "export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True",
-            "default_cli_args": " --max_model_len 32000 --disable-log-stats --limit-mm-per-prompt image=1,video=1 --max_num_seq 1 --gpu_memory_utilization 0.9"
+            "default_cli_args": " --max_model_len 32000 --disable-log-stats --limit-mm-per-prompt image=1,video=1 --max_num_seq 1 --gpu_memory_utilization 0.7"
 })
 
 vllm_qwq_engine073 = VllmEngine(**{
diff --git a/src/emd/models/llms/deepseek.py b/src/emd/models/llms/deepseek.py
@@ -7,6 +7,7 @@
     llama_cpp_deepseek_r1_distill_engineb9ab0a4,
     tgi_deepseek_r1_llama_70b_engine301,
     ktransformers_engine,
+    vllm_deepseek_r1_engine084
 )
 from ..services import (
     sagemaker_service,
@@ -450,6 +451,31 @@
     )
 )
 
+Model.register(
+    dict(
+        model_id = "DeepSeek-R1",
+        supported_engines=[vllm_deepseek_r1_engine084],
+        supported_instances=[
+            local_instance
+        ],
+        supported_services=[
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        need_prepare_model=False,
+        huggingface_model_id="unsloth/DeepSeek-R1",
+        modelscope_model_id="unsloth/DeepSeek-R1",
+        require_huggingface_token=False,
+        application_scenario="Agent, tool use, translation, summary",
+        description="The latest series of DeepSeek LLMs for reasoning",
+        model_type=ModelType.LLM,
+        model_series=DEEPSEEK_REASONING_MODEL
+    )
+)
+
 Model.register(
     dict(
         model_id = "deepseek-r1-671b-4bit_gguf",
diff --git a/src/emd/models/llms/qwen.py b/src/emd/models/llms/qwen.py
@@ -773,3 +773,52 @@
         model_series=QWEN3_SERIES
     )
 )
+
+
+Model.register(
+    dict(
+        model_id = "Qwen3-235B-A22B",
+        supported_engines=[vllm_qwen3_engin084],
+        supported_instances=[
+            local_instance
+        ],
+        supported_services=[
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="Qwen/Qwen3-235B-A22B",
+        modelscope_model_id="Qwen/Qwen3-235B-A22B",
+        require_huggingface_token=False,
+        application_scenario="Agent, tool use, translation, summary",
+        description="The latest series of Qwen LLMs, offers base and tuned models from 0.5B to 72B\n parameters, featuring enhanced knowledge, improved coding and math skills, better instruction\n following, long-text generation, structured data handling, 128K token context support, and\n multilingual capabilities for 29+ languages.",
+        model_type=ModelType.LLM,
+        model_series=QWEN3_SERIES
+    )
+)
+
+Model.register(
+    dict(
+        model_id = "Qwen3-235B-A22B-FP8",
+        supported_engines=[vllm_qwen3_engin084],
+        supported_instances=[
+            local_instance
+        ],
+        supported_services=[
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="Qwen/Qwen3-235B-A22B-FP8",
+        modelscope_model_id="Qwen/Qwen3-235B-A22B-FP8",
+        require_huggingface_token=False,
+        application_scenario="Agent, tool use, translation, summary",
+        description="The latest series of Qwen LLMs, offers base and tuned models from 0.5B to 72B\n parameters, featuring enhanced knowledge, improved coding and math skills, better instruction\n following, long-text generation, structured data handling, 128K token context support, and\n multilingual capabilities for 29+ languages.",
+        model_type=ModelType.LLM,
+        model_series=QWEN3_SERIES
+    )
+)