PaddlePaddle
diff --git a/‎fastdeploy/config.py
Lines changed: 273 additions & 268 deletions b/‎fastdeploy/config.py
Lines changed: 273 additions & 268 deletions
diff --git a/‎fastdeploy/model_executor/layers/attention/append_attn_backend.py
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/model_executor/layers/attention/append_attn_backend.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎fastdeploy/model_executor/layers/attention/attention.py
Lines changed: 2 additions & 2 deletions b/‎fastdeploy/model_executor/layers/attention/attention.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎fastdeploy/model_executor/layers/attention/flash_attn_backend.py
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/model_executor/layers/attention/flash_attn_backend.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎fastdeploy/model_executor/layers/attention/iluvatar_attn_backend.py
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/model_executor/layers/attention/iluvatar_attn_backend.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎fastdeploy/model_executor/layers/attention/mla_attention_backend.py
Lines changed: 8 additions & 8 deletions b/‎fastdeploy/model_executor/layers/attention/mla_attention_backend.py
Lines changed: 8 additions & 8 deletions
diff --git a/‎fastdeploy/model_executor/layers/attention/utils.py
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/model_executor/layers/attention/utils.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎fastdeploy/model_executor/layers/attention/xpu_attn_backend.py
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/model_executor/layers/attention/xpu_attn_backend.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎fastdeploy/model_executor/layers/backends/gcu/attention/flash_attn_backend.py
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/model_executor/layers/backends/gcu/attention/flash_attn_backend.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎fastdeploy/model_executor/layers/backends/gcu/attention/mem_efficient_attn_backend.py
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/model_executor/layers/backends/gcu/attention/mem_efficient_attn_backend.py
Lines changed: 1 addition & 1 deletion
@@ -95,7 +95,7 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.kv_num_heads: int = kv_num_heads
         self.num_heads: int = num_heads
         self.head_dim: int = fd_config.model_config.head_dim
-        self.num_layers: int = fd_config.model_config.num_layers
+        self.num_layers: int = fd_config.model_config.num_hidden_layers
         self.max_partition_size: int = int(
             os.getenv("FLAGS_max_partition_size", 32768))
 
 
@@ -67,10 +67,10 @@ def __init__(
             ValueError: If the `v_head_dim` is less than 0.
         """
         super().__init__()
-        self.num_heads: int = fd_config.model_config.num_attention_heads // fd_config.parallel_config.tensor_parallel_degree
+        self.num_heads: int = fd_config.model_config.num_attention_heads // fd_config.parallel_config.tensor_parallel_size
         self.head_dim: int = fd_config.model_config.head_dim
         self.kv_num_heads: int = \
-            max(1, fd_config.model_config.num_key_value_heads // fd_config.parallel_config.tensor_parallel_degree)
+            max(1, fd_config.model_config.num_key_value_heads // fd_config.parallel_config.tensor_parallel_size)
         self.layer_id: int = layer_id
         self.v_head_dim: int = v_head_dim if v_head_dim > 0 else self.head_dim
         self.rope_type: str = rope_type
 
@@ -96,7 +96,7 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.head_dim = fd_config.model_config.head_dim
         self.hidden_size = fd_config.model_config.hidden_size
         self.block_size = fd_config.parallel_config.block_size
-        self.num_layers: int = fd_config.model_config.num_layers
+        self.num_layers: int = fd_config.model_config.num_hidden_layers
 
         self.speculative_method = fd_config.speculative_config.method
         self.use_speculate = self.speculative_method is not None
 
@@ -102,7 +102,7 @@ def __init__(self, llm_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.head_dim = head_dim
         # note: scale need to change if using MLA
         self.attention_metadata.scale = 1.0 / sqrt(head_dim)
-        self.num_layers = llm_config.model_config.num_layers
+        self.num_layers = llm_config.model_config.num_hidden_layers
         self.record_block_table_metadata = {}
         self.only_use_flash_attn = int(
             os.getenv("FD_ILUVATAR_ONLY_USE_FLASH_ATTN", 0)) == 1
 
@@ -113,18 +113,18 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.kv_num_heads: int = kv_num_heads
         self.num_heads: int = num_heads
         self.head_dim: int = fd_config.model_config.head_dim
-        self.num_layers: int = fd_config.model_config.num_layers
+        self.num_layers: int = fd_config.model_config.num_hidden_layers
 
         # For Multi Head Latent Attention
-        self.kv_lora_rank: int = fd_config.model_config.deepseekv3.kv_lora_rank
-        self.qk_rope_head_dim: int = fd_config.model_config.deepseekv3.qk_rope_head_dim
-        self.qk_head_dim: int = fd_config.model_config.deepseekv3.qk_nope_head_dim \
-            + fd_config.model_config.deepseekv3.qk_rope_head_dim
+        self.kv_lora_rank: int = fd_config.model_config.kv_lora_rank
+        self.qk_rope_head_dim: int = fd_config.model_config.qk_rope_head_dim
+        self.qk_head_dim: int = fd_config.model_config.qk_nope_head_dim \
+            + fd_config.model_config.qk_rope_head_dim
         self.attn_softmax_scale: float = self.qk_head_dim**-0.5
-        if fd_config.model_config.deepseekv3.rope_scaling:
-            mscale_all_dim = fd_config.model_config.deepseekv3.rope_scaling.get(
+        if fd_config.model_config.rope_scaling:
+            mscale_all_dim = fd_config.model_config.rope_scaling.get(
                 "mscale_all_dim", False)  # 1.0
-            scaling_factor = fd_config.model_config.deepseekv3.rope_scaling[
+            scaling_factor = fd_config.model_config.rope_scaling[
                 "factor"]  # 40
             mscale = yarn_get_mscale(scaling_factor, float(mscale_all_dim))
             self.attn_softmax_scale = self.attn_softmax_scale * mscale * mscale
 
@@ -22,7 +22,7 @@ def init_rank_and_device_id(fd_config: FDConfig):
     
     """
     rank = (fd_config.parallel_config.expert_parallel_rank * 
-        fd_config.parallel_config.tensor_parallel_degree + fd_config.parallel_config.tensor_parallel_rank)
+        fd_config.parallel_config.tensor_parallel_size + fd_config.parallel_config.tensor_parallel_rank)
 
     cuda_visible_devices = os.getenv("CUDA_VISIBLE_DEVICES", None)
 
 
@@ -95,7 +95,7 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.kv_num_heads: int = kv_num_heads
         self.num_heads: int = num_heads
         self.head_dim: int = head_dim
-        self.num_layers: int = fd_config.model_config.num_layers
+        self.num_layers: int = fd_config.model_config.num_hidden_layers
 
         # pd_disaggregation
         self.use_pd_disaggregation: int = int(
 
@@ -88,7 +88,7 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.num_heads = num_heads
         self.head_dim = head_dim
         self.scaling = 1.0 / (self.head_dim**0.5)
-        self.num_layers = fd_config.model_config.num_layers
+        self.num_layers = fd_config.model_config.num_hidden_layers
         self.position_ids_base = paddle.arange(self.max_seq_len)
 
         # TODO(zhengjun): Need to adapt the allocation logic and
 
@@ -88,7 +88,7 @@ def __init__(self, fd_config: FDConfig, kv_num_heads: int, num_heads: int,
         self.num_heads = num_heads
         self.head_dim = head_dim
         self.scaling = 1.0 / (self.head_dim**0.5)
-        self.num_layers = fd_config.model_config.num_layers
+        self.num_layers = fd_config.model_config.num_hidden_layers
         self.position_ids_base = paddle.arange(self.max_seq_len)
 
         # TODO(zhengjun): Need to adapt the allocation logic and