fix

YuanRisheng · YuanRisheng · commit cf394db0b1a5 · 2025-07-10T03:43:11.000Z
diff --git a/fastdeploy/config.py b/fastdeploy/config.py
@@ -187,7 +187,7 @@ def __init__(
         else:
             raise NotImplementedError
         # enable the custom all-reduce kernel and fall back to NCCL(dist.all_reduce).
-        enable_custom_all_reduce: str = "store_true"
+        self.enable_custom_all_reduce: bool = False
 
 @dataclass
 class SpeculativeConfig:
@@ -225,7 +225,7 @@ def __init__(
         # During benchmarking, we need to enforce that the number of accepted tokens is 1.
         # This means no tokens from MTP are accepted.
         # This ensures that the specified simulation acceptance rate is not affected.
-        benchmark_mode: bool = False
+        self.benchmark_mode: bool = False
 
         for key, value in args.items():
             if hasattr(self, key):
diff --git a/fastdeploy/worker/vl_gpu_model_runner.py b/fastdeploy/worker/vl_gpu_model_runner.py
@@ -25,9 +25,10 @@
 from paddleformers.transformers.model_utils import load_tp_checkpoint
 from safetensors import safe_open
 
-from fastdeploy.config import (DecodingConfig, DeviceConfig, FDConfig, GraphOptimizationConfig,
-                               LoadConfig, ModelConfig, MoEPhase,
-                               ParallelConfig, SpeculativeConfig)
+from fastdeploy.config import (DecodingConfig, DeviceConfig, FDConfig,
+                               GraphOptimizationConfig, LoadConfig,
+                               ModelConfig, MoEPhase, ParallelConfig,
+                               SpeculativeConfig)
 from fastdeploy.input.ernie_tokenizer import ErnieBotTokenizer
 from fastdeploy.input.mm_processor import DataProcessor
 from fastdeploy.model_executor.layers.attention import get_attention_backend
@@ -266,8 +267,9 @@ def _load_model(
         self.image_preprocess = image_preprocess
 
         graph_opt_config = GraphOptimizationConfig(
-            self.args.enable_static_graph_inference, self.args.use_cudagraph,
-            self.args.max_capture_batch_size)
+            self.args.enable_static_graph_inference,
+            self.args.max_capture_batch_size,
+            vars(self.args))
 
         fd_config, self.model = build_stream_line_model(
             self.args.model_name_or_path,
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
@@ -615,9 +615,9 @@ def initialize_fd_config(args: argparse.Namespace) -> FDConfig:
 
     if quantization_config is not None:
         quant_config_name = quantization_config["quantization"]
-    elif getattr(config_or_args, 'quantization', None) != "None":
+    elif args.quantization != "None":
         quantization_config = {}
-        quant_config_name = getattr(config_or_args, 'quantization', None)
+        quant_config_name = args.quantization
         quantization_config["quantization"] = quant_config_name
         # Special handling for Ernie models
         is_ernie = "Ernie4_5_ForCausalLM" in model_config.architectures or \
@@ -647,7 +647,7 @@ def initialize_fd_config(args: argparse.Namespace) -> FDConfig:
             logger.info(
                 "Model Status: Original (will apply online quantization)")
 
-        logger.info(f"Quantization Method: {getattr(config_or_args, 'quantization', 'None')}")
+        logger.info(f"{quantization_config}")
     else:
         logger.info(
             "No quantization config found and use original weight and act dtype."