[0.9.1][bugfix] fix chunked_prefill_mla input for MTP (#1473)

underfituu · web-flow · commit 10df64c5f779 · 2025-07-03T20:19:42.000+08:00
### What this PR does / why we need it?

fix chunked_prefill_mla output for MTP
### Does this PR introduce _any_ user-facing change?


### How was this patch tested?


---------

Signed-off-by: underfituu &lt;hzhucong@163.com&gt;
diff --git a/.github/workflows/vllm_ascend_test_long_term.yaml b/.github/workflows/vllm_ascend_test_long_term.yaml
@@ -95,11 +95,11 @@ jobs:
         run: |
           if [[ "${{ matrix.os }}" == "linux-arm64-npu-1" ]]; then
             # v0 spec decode test
-            VLLM_USE_MODELSCOPE=True pytest -sv tests/long_term/spec_decode_v0/e2e/test_mtp_correctness.py  # it needs a clean process
-            pytest -sv tests/long_term/spec_decode_v0 --ignore=tests/long_term/spec_decode_v0/e2e/test_mtp_correctness.py
+            # VLLM_USE_MODELSCOPE=True pytest -sv tests/long_term/spec_decode_v0/e2e/test_mtp_correctness.py  # it needs a clean process
+            # pytest -sv tests/long_term/spec_decode_v0 --ignore=tests/long_term/spec_decode_v0/e2e/test_mtp_correctness.py
             # v1 spec decode test
             # TODO: revert me when test_v1_mtp_correctness.py is fixed
-            # VLLM_USE_MODELSCOPE=True pytest -sv tests/long_term/spec_decode_v1/test_v1_mtp_correctness.py
+            VLLM_USE_MODELSCOPE=True pytest -sv tests/long_term/spec_decode_v1/test_v1_mtp_correctness.py
             # TODO: revert me when test_v1_spec_decode.py::test_ngram_correctness is fixed
             # VLLM_USE_MODELSCOPE=True pytest -sv tests/long_term/spec_decode_v1/test_v1_spec_decode.py
             # accuracy test single card
diff --git a/tests/long_term/spec_decode_v1/test_v1_mtp_correctness.py b/tests/long_term/spec_decode_v1/test_v1_mtp_correctness.py
@@ -63,7 +63,10 @@ def test_mtp_correctness(
     with monkeypatch.context() as m:
         m.setenv("VLLM_USE_V1", "1")
 
-        ref_llm = LLM(model=model_name, max_model_len=256, enforce_eager=True)
+        ref_llm = LLM(model=model_name,
+                      max_model_len=256,
+                      gpu_memory_utilization=0.8,
+                      enforce_eager=True)
         ref_outputs = ref_llm.chat(test_prompts, sampling_config)
         del ref_llm
 
@@ -74,6 +77,7 @@ def test_mtp_correctness(
                            "num_speculative_tokens": 1,
                        },
                        max_model_len=256,
+                       gpu_memory_utilization=0.8,
                        enforce_eager=True)
         spec_outputs = spec_llm.chat(test_prompts, sampling_config)
         matches = 0
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -2041,6 +2041,7 @@ def _generate_mtp_token_ids(
             cu_num_tokens, token_indices = self.drafter.prepare_inputs(
                 attn_metadata.query_start_loc,
                 num_rejected_tokens,
+                force_one_token=True,
             )
             target_token_ids = self.input_ids[token_indices]
             target_positions = positions[token_indices]
diff --git a/vllm_ascend/worker/mtp_proposer_v1.py b/vllm_ascend/worker/mtp_proposer_v1.py
@@ -64,10 +64,11 @@ def __init__(
 
     @staticmethod
     def prepare_inputs(
-        # [batch_size + 1]
-        cu_target_query_lens: torch.Tensor,
-        # [batch_size]
-        num_rejected_tokens: torch.Tensor,
+            # [batch_size + 1]
+            cu_target_query_lens: torch.Tensor,
+            # [batch_size]
+            num_rejected_tokens: torch.Tensor,
+            force_one_token: bool = False
     ) -> tuple[torch.Tensor, torch.Tensor]:
         # cu_target_query_lens: [0, a, a + b, a + b + c]
         # num_rejected_tokens: [n1, n2, n3]
@@ -76,32 +77,39 @@ def prepare_inputs(
         # token_indices: [0, 1, ..., a - n1 - 1,
         #                 a, a + 1, ..., a + b - n2 - 1,
         #                 a + b, a + b + 1, ..., a + b + c - n3 - 1]
-
         # [0, a, a + b, a + b + c] -> [a, b, c]
         query_len_per_req = (cu_target_query_lens[1:] -
                              cu_target_query_lens[:-1])
         # [a, b, c] -> [a - n1, b - n2, c - n3]
         num_tokens_per_req = query_len_per_req - num_rejected_tokens
+        if force_one_token:
+            # enable force_one_token means we only focus on the last token position of each request
+            # token_indices: [batch_size]
+            cu_num_tokens = torch.arange(cu_target_query_lens.size(0),
+                                         device=cu_target_query_lens.device,
+                                         dtype=torch.int32)
+            relative_index = query_len_per_req - num_rejected_tokens - 1
+            token_indices = cu_target_query_lens[:-1] + relative_index
+        else:
+            cu_num_tokens = torch.empty_like(cu_target_query_lens)
+            torch.cumsum(num_tokens_per_req, dim=0, out=cu_num_tokens[1:])
+            cu_num_tokens[0] = 0
+
+            # FIXME(woosuk): Avoid synchronization.
+            num_tokens = cu_num_tokens[-1].item()
+            token_indices = torch.empty(
+                num_tokens,
+                dtype=torch.int32,
+                device=cu_num_tokens.device,
+            )
 
-        cu_num_tokens = torch.empty_like(cu_target_query_lens)
-        torch.cumsum(num_tokens_per_req, dim=0, out=cu_num_tokens[1:])
-        cu_num_tokens[0] = 0
-
-        # FIXME(woosuk): Avoid synchronization.
-        num_tokens = cu_num_tokens[-1].item()
-        token_indices = torch.empty(
-            num_tokens,
-            dtype=torch.int32,
-            device=cu_num_tokens.device,
-        )
-
-        BLOCK_SIZE = 1024
-        prepare_input_kernel(
-            token_indices,
-            cu_target_query_lens,
-            cu_num_tokens,
-            block_size=BLOCK_SIZE,
-        )
+            BLOCK_SIZE = 1024
+            prepare_input_kernel(
+                token_indices,
+                cu_target_query_lens,
+                cu_num_tokens,
+                block_size=BLOCK_SIZE,
+            )
         return cu_num_tokens, token_indices
 
     def propose(
@@ -160,7 +168,9 @@ def propose(
             common_prefix_len=0,
             common_attn_metadata=common_attn_metadata,
         )
-
+        # When proposing, we set the prefill query_lens to 1.
+        if attn_metadata.prefill is not None:
+            attn_metadata.prefill.query_lens[:] = 1
         with set_ascend_forward_context(attn_metadata, self.vllm_config):
             hidden_states = self.model(
                 input_ids=input_ids,

Original file line number	Diff line number	Diff line change
`@@ -2041,6 +2041,7 @@ def _generate_mtp_token_ids(`
`2041`	`2041`	`cu_num_tokens, token_indices = self.drafter.prepare_inputs(`
`2042`	`2042`	`attn_metadata.query_start_loc,`
`2043`	`2043`	`num_rejected_tokens,`
	`2044`	`+ force_one_token=True,`
`2044`	`2045`	`)`
`2045`	`2046`	`target_token_ids = self.input_ids[token_indices]`
`2046`	`2047`	`target_positions = positions[token_indices]`