fix flex attention warning

LucasWilkinson · LucasWilkinson · commit 557ee9e91d16 · 2025-07-07T14:51:32.000Z
Signed-off-by: Lucas Wilkinson &lt;lwilkins@redhat.com&gt;
diff --git a/vllm/v1/attention/backends/flex_attention.py b/vllm/v1/attention/backends/flex_attention.py
@@ -301,9 +301,8 @@ def build(self,
             block_table_tensor, self.cache_config.num_gpu_blocks)
 
         # Get the original offset tensor
-        offset_tensor = torch.tensor(
-            common_attn_metadata.num_computed_tokens_cpu[:num_reqs]).to(
-                self.device, non_blocking=True)
+        offset_tensor = common_attn_metadata.num_computed_tokens_cpu.to(
+            self.device, non_blocking=True)
 
         out = FlexAttentionMetadata(
             num_actual_tokens=num_actual_tokens,