FlagOpen
diff --git a/‎examples/ernie45/conf/serve.yaml
Lines changed: 22 additions & 0 deletions b/‎examples/ernie45/conf/serve.yaml
Lines changed: 22 additions & 0 deletions
diff --git a/‎examples/ernie45/conf/serve/300b.yaml
Lines changed: 24 additions & 0 deletions b/‎examples/ernie45/conf/serve/300b.yaml
Lines changed: 24 additions & 0 deletions
@@ -0,0 +1,22 @@
+defaults:
+- _self_
+- serve: 300b
+
+experiment:
+  exp_name: ernie45_300b
+  exp_dir: outputs/${experiment.exp_name}
+  task:
+    type: serve
+  runner:
+    hostfile: null
+    deploy:
+      use_fs_serve: false
+  envs:
+    CUDA_VISIBLE_DEVICES: 0,1,2,3,4,5,6,7
+    CUDA_DEVICE_MAX_CONNECTIONS: 1
+
+action: run
+
+hydra:
+  run:
+    dir: ${experiment.exp_dir}/hydra
@@ -0,0 +1,24 @@
+- serve_id: vllm_model
+  engine: vllm
+  engine_args:
+    model: /nfs/hcr/models/PaddlePaddle/ERNIE-4.5-300B-A47B-Base-PT
+    host: 0.0.0.0
+    max_model_len: 256
+    max_num_seqs: 1
+    uvicorn_log_level: warning
+    port: 30000
+  engine_args_specific:
+    vllm:
+      tensor_parallel_size: 8
+      pipeline_parallel_size: 1
+      gpu_memory_utilization: 0.98
+      trust_remote_code: true
+      # GMEM not enough if disable eager mode
+      enforce_eager: true
+      # enable_chunked_prefill: true
+  profile:
+    prefix_len: 0
+    input_len: 1024
+    output_len: 1024
+    num_prompts: 128
+    range_ratio: 1