yield last chunk if it's usage

Your Name · Your Name · commit 55bc634e3e1c · 2025-07-03T00:45:26.000Z
diff --git a/vllm/entrypoints/openai/serving_completion.py b/vllm/entrypoints/openai/serving_completion.py
@@ -274,6 +274,7 @@ async def completion_stream_generator(
         else:
             include_usage, include_continuous_usage = False, False
 
+        chunk = None
         try:
             async for prompt_idx, res in result_generator:
                 prompt_token_ids = res.prompt_token_ids
@@ -393,6 +394,12 @@ async def completion_stream_generator(
                     choices=[],
                     usage=final_usage_info,
                 )
+
+                # if accumulate, send the usage info attached to last chunk instead
+                if request.accumulate:
+                    chunk.usage = final_usage_info
+                    final_usage_chunk = chunk
+
                 final_usage_data = (final_usage_chunk.model_dump_json(
                     exclude_unset=False, exclude_none=True))
                 yield f"data: {final_usage_data}\n\n"