Fixed: v0 style broken issue in vllm main branch.

gawainx · gawainx · commit de379a5dc940 · 2025-05-14T22:48:03.000+08:00
diff --git a/vllm_ascend/core/scheduler.py b/vllm_ascend/core/scheduler.py
@@ -132,7 +132,7 @@ def skip_cur_request():
                 continue
 
             new_blocks = self.kv_cache_manager.allocate_slots(
-                request, num_new_tokens, computed_blocks)
+                request, num_new_tokens, num_computed_tokens, computed_blocks)
             if new_blocks is None:
                 # The request cannot be scheduled.
                 break
@@ -151,7 +151,7 @@ def skip_cur_request():
             if self.lora_config and request.lora_request:
                 scheduled_loras.add(request.lora_request.lora_int_id)
             req_to_new_block_ids[request.request_id] = [
-                b.block_id for b in computed_blocks + new_blocks
+                b.block_id for b in computed_blocks.blocks + new_blocks.blocks
             ]
             # Update request info.
             num_scheduled_tokens[request.request_id] = num_new_tokens
@@ -211,7 +211,7 @@ def skip_cur_request():
                 scheduled_running_reqs.append(request)
                 self.scheduled_req_ids.add(request.request_id)
                 req_to_new_block_ids[request.request_id] = [
-                    b.block_id for b in new_blocks
+                    b.block_id for b in new_blocks.blocks
                 ]
                 num_scheduled_tokens[request.request_id] = num_new_tokens
                 token_budget -= num_new_tokens
@@ -307,7 +307,7 @@ def _check_watermark_for_prefill(self,
                                      num_new_tokens,
                                      computed_blocks,
                                      watermark=0.01):
-        computed_blocks = computed_blocks or []
+        computed_blocks = computed_blocks.blocks() or []
         watermark_blocks = self.kv_cache_config.num_blocks * watermark
         num_computed_tokens = (request.num_computed_tokens +
                                len(computed_blocks) * self.block_size)