fix xpu

YuanRisheng · YuanRisheng · commit 137eaf14bfaa · 2025-07-10T08:03:56.000Z
diff --git a/fastdeploy/engine/engine.py b/fastdeploy/engine/engine.py
@@ -1194,10 +1194,10 @@ def detect_thread():
                                              r'set state for layer (\d+)',
                                              line)):
                     progress = eval(match.group(
-                        1)) * 1.0 / self.cfg.model_config.num_layers
+                        1)) * 1.0 / self.cfg.model_config.num_hidden_layers
                     self.worker_init_status["layer_loadding"] = progress
                     if self.worker_init_status[
-                            "layer_loadding"] == self.cfg.model_config.num_layers - 1:
+                            "layer_loadding"] == self.cfg.model_config.num_hidden_layers - 1:
                         self.worker_init_status["finished"] = True
 
         self.checking_worker_status_thread = threading.Thread(
diff --git a/fastdeploy/model_executor/layers/attention/iluvatar_attn_backend.py b/fastdeploy/model_executor/layers/attention/iluvatar_attn_backend.py
@@ -101,7 +101,7 @@ def __init__(self, llm_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.head_dim = head_dim
         # note: scale need to change if using MLA
         self.attention_metadata.scale = 1.0 / sqrt(head_dim)
-        self.num_layers = llm_config.model_config.num_layers
+        self.num_layers = llm_config.model_config.num_hidden_layers
         self.record_block_table_metadata = {}
         self.only_use_flash_attn = int(
             os.getenv("FD_ILUVATAR_ONLY_USE_FLASH_ATTN", 0)) == 1
diff --git a/fastdeploy/model_executor/layers/backends/gcu/attention/flash_attn_backend.py b/fastdeploy/model_executor/layers/backends/gcu/attention/flash_attn_backend.py
@@ -91,7 +91,7 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.num_heads = num_heads
         self.head_dim = head_dim
         self.scaling = 1.0 / (self.head_dim**0.5)
-        self.num_layers = fd_config.model_config.num_layers
+        self.num_layers = fd_config.model_config.num_hidden_layers
         self.position_ids_base = paddle.arange(self.max_seq_len)
 
         # TODO(zhengjun): Need to adapt the allocation logic and
diff --git a/fastdeploy/model_executor/layers/backends/gcu/attention/mem_efficient_attn_backend.py b/fastdeploy/model_executor/layers/backends/gcu/attention/mem_efficient_attn_backend.py
@@ -90,7 +90,7 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.num_heads = num_heads
         self.head_dim = head_dim
         self.scaling = 1.0 / (self.head_dim**0.5)
-        self.num_layers = fd_config.model_config.num_layers
+        self.num_layers = fd_config.model_config.num_hidden_layers
         self.position_ids_base = paddle.arange(self.max_seq_len)
 
         # TODO(zhengjun): Need to adapt the allocation logic and
diff --git a/fastdeploy/model_executor/load_weight_utils.py b/fastdeploy/model_executor/load_weight_utils.py
@@ -43,7 +43,7 @@ def load_ep_checkpoint(model_path: str,
     filtered_map = {k: v for k, v in weight_list.items() if "experts" not in k}
     num_local_ffn_keys = []
 
-    for i in range(config.moe_layer_start_index, config.num_layers):
+    for i in range(config.moe_layer_start_index, config.num_hidden_layers):
         for j in range(
                 config.num_experts_start_offset,
                 config.num_experts_start_offset + config.num_experts_per_rank,
diff --git a/fastdeploy/model_executor/models/deepseek_v3.py b/fastdeploy/model_executor/models/deepseek_v3.py
@@ -758,5 +758,5 @@ def get_tensor_parallel_split_mappings(num_layers):
 
             return final_actions
 
-        mappings = get_tensor_parallel_split_mappings(config.num_layers)
+        mappings = get_tensor_parallel_split_mappings(config.num_hidden_layers)
         return mappings
diff --git a/fastdeploy/model_executor/models/ernie4_5_moe.py b/fastdeploy/model_executor/models/ernie4_5_moe.py
@@ -618,7 +618,7 @@ def get_tensor_parallel_split_mappings(num_layers, moe_num_experts,
         elif isinstance(config.moe_layer_start_index, int):
             moe_layer_start_index = config.moe_layer_start_index
 
-        mappings = get_tensor_parallel_split_mappings(config.num_layers,
+        mappings = get_tensor_parallel_split_mappings(config.num_hidden_layers,
                                                       moe_num_experts,
                                                       moe_layer_start_index,
                                                       config.prefix_name)
diff --git a/fastdeploy/model_executor/models/ernie4_5_mtp.py b/fastdeploy/model_executor/models/ernie4_5_mtp.py
@@ -237,7 +237,7 @@ def get_tensor_parallel_split_mappings(num_layers, moe_num_experts,
 
         moe_num_experts = 0
         mappings = get_tensor_parallel_split_mappings(
-            config.num_layers,
+            config.num_hidden_layers,
             moe_num_experts,
             config.moe_layer_start_index,
         )
diff --git a/fastdeploy/model_executor/models/qwen2.py b/fastdeploy/model_executor/models/qwen2.py
@@ -427,6 +427,6 @@ def get_tensor_parallel_split_mappings(num_layers):
 
             return final_actions
 
-        mappings = get_tensor_parallel_split_mappings(config.num_layers)
+        mappings = get_tensor_parallel_split_mappings(config.num_hidden_layers)
 
         return mappings
diff --git a/fastdeploy/model_executor/models/qwen3.py b/fastdeploy/model_executor/models/qwen3.py
@@ -357,5 +357,5 @@ def get_tensor_parallel_split_mappings(num_layers):
 
             return final_actions
 
-        mappings = get_tensor_parallel_split_mappings(config.num_layers)
+        mappings = get_tensor_parallel_split_mappings(config.num_hidden_layers)
         return mappings
diff --git a/fastdeploy/model_executor/models/qwen3moe.py b/fastdeploy/model_executor/models/qwen3moe.py
@@ -502,7 +502,7 @@ def get_tensor_parallel_split_mappings(num_layers, moe_num_experts):
                 f"Not support type of moe_num_experts [{type(config.moe_num_experts)}]"
             )
 
-        mappings = get_tensor_parallel_split_mappings(config.num_layers,
+        mappings = get_tensor_parallel_split_mappings(config.num_hidden_layers,
                                                       moe_num_experts)
 
         return mappings
diff --git a/fastdeploy/rl/rollout_model.py b/fastdeploy/rl/rollout_model.py
@@ -278,7 +278,7 @@ def _add_layer_mappings(layer_idx):
                     f"{train_base_name}.{layer_idx}.mlp.down_proj.{ph}"
 
         for layer_idx in range(
-                self.fd_config.model_config.num_layers):
+                self.fd_config.model_config.num_hidden_layers):
             _add_layer_mappings(layer_idx)
 
         return infer_to_train
diff --git a/fastdeploy/worker/gcu_model_runner.py b/fastdeploy/worker/gcu_model_runner.py
@@ -673,7 +673,7 @@ def initialize_kv_cache(self) -> None:
                 "prefix_caching is not support by GCUModelRunner."
             )
         else:
-            for i in range(self.model_config.num_layers):
+            for i in range(self.model_config.num_hidden_layers):
 
                 cache_kvs["key_caches_{}".format(i)] = paddle.full(
                     shape=kv_cache_shape,
@@ -1186,11 +1186,11 @@ def cal_theortical_kvcache(self):
             byte_of_dtype = 2
 
         hidden_dim = self.model_config.head_dim * self.model_config.kv_num_heads
-        num_layers = self.model_config.num_layers + \
+        num_layers = self.model_config.num_hidden_layers + \
             self.speculative_config.num_gpu_block_expand_ratio if \
                 self.speculative_method in [
             "mtp"
-        ] else self.model_config.num_layers
+        ] else self.model_config.num_hidden_layers
         required_memory = (
             byte_of_dtype * 2 *  # k + v
             (self.parallel_config.block_size * hidden_dim) * num_layers)
diff --git a/fastdeploy/worker/iluvatar_model_runner.py b/fastdeploy/worker/iluvatar_model_runner.py
@@ -645,7 +645,7 @@ def initialize_kv_cache(self) -> None:
                 or self.parallel_config.splitwise_role != "mixed"):
             raise NotImplementedError("Iluvatar does not support yet")
         else:
-            for i in range(self.model_config.num_layers):
+            for i in range(self.model_config.num_hidden_layers):
 
                 cache_kvs["key_caches_{}".format(i)] = paddle.full(
                     shape=kv_cache_shape,
@@ -1142,11 +1142,11 @@ def cal_theortical_kvcache(self):
 
         hidden_dim = self.model_config.head_dim * self.model_config.kv_num_heads
         # NOTE(liuzichang): Implement multi-layer MTP architecture in the future
-        num_layers = self.model_config.num_layers + \
+        num_layers = self.model_config.num_hidden_layers + \
             self.speculative_config.num_gpu_block_expand_ratio if \
                 self.speculative_method in [
             "mtp"
-        ] else self.model_config.num_layers
+        ] else self.model_config.num_hidden_layers
         required_memory = (
             byte_of_dtype * 2 *  # k + v
             (self.parallel_config.block_size * hidden_dim) * num_layers)

Original file line number	Diff line number	Diff line change
`@@ -237,7 +237,7 @@ def get_tensor_parallel_split_mappings(num_layers, moe_num_experts,`
`237`	`237`
`238`	`238`	`moe_num_experts = 0`
`239`	`239`	`mappings = get_tensor_parallel_split_mappings(`
`240`		`- config.num_layers,`
	`240`	`+ config.num_hidden_layers,`
`241`	`241`	`moe_num_experts,`
`242`	`242`	`config.moe_layer_start_index,`
`243`	`243`	`)`