delete

Your Name · Your Name · commit b8908f962127 · 2025-07-07T04:05:30.000Z
diff --git a/vllm/beam/filtering.py b/vllm/beam/filtering.py
@@ -4,6 +4,8 @@
 from urllib.request import Request
 from vllm.beam.debug import BeamDebugInfo
 import torch
+from starlette.datastructures import MutableHeaders
+
 from vllm.entrypoints.openai.protocol import CompletionRequest, CompletionResponse, \
     ErrorResponse
 from vllm.logger import init_logger
@@ -40,6 +42,7 @@ def __init__(self, classi_idx, classifier_names):
 
     async def get_n_valid_beams(self, create_completion: Callable,
                                 request: CompletionRequest,
+                                chunk_num: int,
                                 raw_request: Optional[Request] = None) -> list[
         Union[AsyncGenerator[str, None], CompletionResponse, ErrorResponse]]:
         request.stream = False
@@ -55,9 +58,12 @@ async def get_n_valid_beams(self, create_completion: Callable,
         tasks = []
         # TODO(@tanuj): deep copy request and raw_request?
         for _ in range(n):
-            request = request
             if original_request_id is not None:
-                raw_request.headers.update({"X-Request-Id": f"original_request_id-beam_{n}"})
+                mh = MutableHeaders(scope=raw_request.scope)
+                del mh["x-request-id"]
+                if hasattr(raw_request, "_headers"):
+                    delattr(raw_request, "_headers")
+
             tasks.append(create_completion(
                 request,
                 raw_request=raw_request,
diff --git a/vllm/entrypoints/openai/serving_completion.py b/vllm/entrypoints/openai/serving_completion.py
@@ -115,7 +115,7 @@ async def _chunk_generator():
             # TODO(@tanuj): calc created tokens
             while num_chunks < max_chunks and not should_stop:
                 num_chunks += 1
-                beams = await self.beam_validator.get_n_valid_beams(create_completion=self.create_completion, request=request, raw_request=raw_request)
+                beams = await self.beam_validator.get_n_valid_beams(create_completion=self.create_completion, request=request, raw_request=raw_request, chunk_num=num_chunks)
                 if isinstance(beams, ErrorResponse):
                     yield f"data: {beams.model_dump_json()}\n\n"
                     break