[Bugfix][CPU] Fix InputBatch for pooling models in the CPU v1 (vllm-project#20014)

bigPYJ1151 · gmarinho2 · commit 0e0329d3f858 · 2025-06-26T18:38:44.000-03:00
Signed-off-by: jiang1.li &lt;jiang1.li@intel.com&gt;
diff --git a/tests/models/language/pooling/test_reward.py b/tests/models/language/pooling/test_reward.py
@@ -101,4 +101,4 @@ def test_prm_models(
         hf_output = torch.tensor(hf_output)
         vllm_output = torch.tensor(vllm_output)
 
-        assert torch.allclose(hf_output, vllm_output, 1e-2)
+        assert torch.allclose(hf_output, vllm_output, 1.5e-2)
diff --git a/vllm/v1/worker/cpu_model_runner.py b/vllm/v1/worker/cpu_model_runner.py
@@ -7,6 +7,7 @@
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor.model_loader import get_model
+from vllm.model_executor.models.interfaces import has_step_pooler
 from vllm.v1.worker.gpu_model_runner import GPUModelRunner
 
 logger = init_logger(__name__)
@@ -52,6 +53,9 @@ def load_model(self) -> None:
         logger.info("Starting to load model %s...", self.model_config.model)
         self.model = get_model(vllm_config=self.vllm_config)
 
+        if has_step_pooler(self.model):
+            self.input_batch.logits_processing_needs_token_ids = True
+
         if self.lora_config:
             self.model = self.load_lora_model(self.model, self.model_config,
                                               self.scheduler_config,