[BugFix] Fix full cuda graph slot_mapping (#21228)

fhl2000 · web-flow · commit 2e8cbb58f395 · 2025-07-19T14:13:18.000-07:00
Signed-off-by: fhl2000 &lt;63384265+fhl2000@users.noreply.github.com&gt;
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -2079,7 +2079,7 @@ def _dummy_run(
                     block_table_tensor=self.input_batch.block_table[
                         kv_cache_group_id].get_device_tensor()[:num_reqs],
                     slot_mapping=self.input_batch.
-                    block_table[kv_cache_group_id].slot_mapping[:num_reqs])
+                    block_table[kv_cache_group_id].slot_mapping[:num_tokens])
 
                 attn_metadata_i = self.attn_metadata_builders[
                     kv_cache_group_id].build_for_cudagraph_capture(