feat: Add --enable-log-outputs flag for logging model generations

mizadri · mizadri · commit 94ff415756ef · 2025-07-10T12:33:30.000+04:00
Add optional output logging functionality to complement existing input logging.
By default, vLLM only logs incoming requests but not model outputs. This feature
adds comprehensive output logging controlled by a new CLI flag.

Key features:
- New --enable-log-outputs CLI flag (disabled by default)
- Logs both streaming and non-streaming responses
- Supports individual token deltas in streaming mode
- Handles tool calls and function arguments
- Respects existing --max-log-len truncation settings
- Maintains full backward compatibility

Implementation:
- Added RequestLogger.log_outputs() method for output logging
- Enhanced OpenAIServingChat with output logging in both generators
- Enhanced OpenAIServingResponses with output logging support
- Added comprehensive test coverage for all scenarios

Usage:
python -m vllm.entrypoints.openai.api_server --model MODEL_NAME --enable-log-outputs

Docker:
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest --model MODEL_NAME --enable-log-outputs

This addresses the common need for debugging and monitoring model outputs
while preserving the existing behavior by default.

Signed-off-by: Adrian Garcia &lt;mizadri.gg@gmail.com&gt;
diff --git a/tests/test_logger.py b/tests/test_logger.py
@@ -10,11 +10,12 @@
 from json.decoder import JSONDecodeError
 from tempfile import NamedTemporaryFile
 from typing import Any
-from unittest.mock import patch
+from unittest.mock import patch, MagicMock
 from uuid import uuid4
 
 import pytest
 
+from vllm.entrypoints.logger import RequestLogger
 from vllm.logger import (_DATE_FORMAT, _FORMAT, _configure_vllm_root_logger,
                          enable_trace_function_call, init_logger)
 from vllm.logging_utils import NewLineFormatter
@@ -253,3 +254,202 @@ class CustomClass:
 
     assert (prepare_object_to_dump(CustomClass(
         1, 'b')) == "CustomClass(a=1, b='b')")
+
+
+def test_request_logger_log_outputs():
+    """Test the new log_outputs functionality."""
+    # Create a mock logger to capture log calls
+    mock_logger = MagicMock()
+    
+    with patch('vllm.entrypoints.logger.logger', mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+        
+        # Test basic output logging
+        request_logger.log_outputs(
+            request_id="test-123",
+            outputs="Hello, world!",
+            output_token_ids=[1, 2, 3, 4],
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False
+        )
+        
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args[0]
+        assert "Generated response test-123" in call_args[0]
+        assert "Hello, world!" in call_args[1]
+        assert [1, 2, 3, 4] == call_args[2]
+        assert "stop" == call_args[3]
+
+
+def test_request_logger_log_outputs_streaming_delta():
+    """Test log_outputs with streaming delta mode."""
+    mock_logger = MagicMock()
+    
+    with patch('vllm.entrypoints.logger.logger', mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+        
+        # Test streaming delta logging
+        request_logger.log_outputs(
+            request_id="test-456",
+            outputs="Hello",
+            output_token_ids=[1],
+            finish_reason=None,
+            is_streaming=True,
+            delta=True
+        )
+        
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args[0]
+        assert "Generated response test-456 (streaming delta)" in call_args[0]
+        assert "Hello" == call_args[1]
+        assert [1] == call_args[2]
+        assert call_args[3] is None
+
+
+def test_request_logger_log_outputs_streaming_complete():
+    """Test log_outputs with streaming complete mode."""
+    mock_logger = MagicMock()
+    
+    with patch('vllm.entrypoints.logger.logger', mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+        
+        # Test streaming complete logging
+        request_logger.log_outputs(
+            request_id="test-789",
+            outputs="Complete response",
+            output_token_ids=[1, 2, 3],
+            finish_reason="length",
+            is_streaming=True,
+            delta=False
+        )
+        
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args[0]
+        assert "Generated response test-789 (streaming complete)" in call_args[0]
+        assert "Complete response" == call_args[1]
+        assert [1, 2, 3] == call_args[2]
+        assert "length" == call_args[3]
+
+
+def test_request_logger_log_outputs_with_truncation():
+    """Test log_outputs respects max_log_len setting."""
+    mock_logger = MagicMock()
+    
+    with patch('vllm.entrypoints.logger.logger', mock_logger):
+        # Set max_log_len to 10
+        request_logger = RequestLogger(max_log_len=10)
+        
+        # Test output truncation
+        long_output = "This is a very long output that should be truncated"
+        long_token_ids = list(range(20))  # 20 tokens
+        
+        request_logger.log_outputs(
+            request_id="test-truncate",
+            outputs=long_output,
+            output_token_ids=long_token_ids,
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False
+        )
+        
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args
+        
+        # Check that output was truncated to first 10 characters
+        logged_output = call_args[0][1]
+        assert logged_output == "This is a "
+        assert len(logged_output) == 10
+        
+        # Check that token IDs were truncated to first 10 tokens
+        logged_token_ids = call_args[0][2]
+        assert logged_token_ids == list(range(10))
+        assert len(logged_token_ids) == 10
+
+
+def test_request_logger_log_outputs_none_values():
+    """Test log_outputs handles None values correctly."""
+    mock_logger = MagicMock()
+    
+    with patch('vllm.entrypoints.logger.logger', mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+        
+        # Test with None output_token_ids
+        request_logger.log_outputs(
+            request_id="test-none",
+            outputs="Test output",
+            output_token_ids=None,
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False
+        )
+        
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args[0]
+        assert "Generated response test-none" in call_args[0]
+        assert "Test output" == call_args[1]
+        assert call_args[2] is None
+        assert "stop" == call_args[3]
+
+
+def test_request_logger_log_outputs_empty_output():
+    """Test log_outputs handles empty output correctly."""
+    mock_logger = MagicMock()
+    
+    with patch('vllm.entrypoints.logger.logger', mock_logger):
+        request_logger = RequestLogger(max_log_len=5)
+        
+        # Test with empty output
+        request_logger.log_outputs(
+            request_id="test-empty",
+            outputs="",
+            output_token_ids=[],
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False
+        )
+        
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args[0]
+        assert "Generated response test-empty" in call_args[0]
+        assert "" == call_args[1]
+        assert [] == call_args[2]
+        assert "stop" == call_args[3]
+
+
+def test_request_logger_log_outputs_integration():
+    """Test that log_outputs can be called alongside log_inputs."""
+    mock_logger = MagicMock()
+    
+    with patch('vllm.entrypoints.logger.logger', mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+        
+        # Test that both methods can be called without interference
+        request_logger.log_inputs(
+            request_id="test-integration",
+            prompt="Test prompt",
+            prompt_token_ids=[1, 2, 3],
+            prompt_embeds=None,
+            params=None,
+            lora_request=None,
+            prompt_adapter_request=None
+        )
+        
+        request_logger.log_outputs(
+            request_id="test-integration",
+            outputs="Test output",
+            output_token_ids=[4, 5, 6],
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False
+        )
+        
+        # Should have been called twice - once for inputs, once for outputs
+        assert mock_logger.info.call_count == 2
+        
+        # Check that the calls were made with correct patterns
+        input_call = mock_logger.info.call_args_list[0][0]
+        output_call = mock_logger.info.call_args_list[1][0]
+        
+        assert "Received request test-integration" in input_call[0]
+        assert "Generated response test-integration" in output_call[0]
diff --git a/vllm/entrypoints/logger.py b/vllm/entrypoints/logger.py
@@ -48,3 +48,29 @@ def log_inputs(
             prompt, params, prompt_token_ids,
             prompt_embeds.shape if prompt_embeds is not None else None,
             lora_request, prompt_adapter_request)
+
+    def log_outputs(
+        self,
+        request_id: str,
+        outputs: str,
+        output_token_ids: Optional[list[int]],
+        finish_reason: Optional[str] = None,
+        is_streaming: bool = False,
+        delta: bool = False,
+    ) -> None:
+        max_log_len = self.max_log_len
+        if max_log_len is not None:
+            if outputs is not None:
+                outputs = outputs[:max_log_len]
+
+            if output_token_ids is not None:
+                output_token_ids = output_token_ids[:max_log_len]
+
+        stream_info = ""
+        if is_streaming:
+            stream_info = " (streaming delta)" if delta else " (streaming complete)"
+
+        logger.info(
+            "Generated response %s%s: output: %r, "
+            "output_token_ids: %s, finish_reason: %s", 
+            request_id, stream_info, outputs, output_token_ids, finish_reason)
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
@@ -1504,6 +1504,7 @@ async def init_app_state(
         reasoning_parser=args.reasoning_parser,
         enable_prompt_tokens_details=args.enable_prompt_tokens_details,
         enable_force_include_usage=args.enable_force_include_usage,
+        enable_log_outputs=args.enable_log_outputs,
     ) if model_config.runner_type == "generate" else None
     state.openai_serving_chat = OpenAIServingChat(
         engine_client,
@@ -1521,6 +1522,7 @@ async def init_app_state(
         reasoning_parser=args.reasoning_parser,
         enable_prompt_tokens_details=args.enable_prompt_tokens_details,
         enable_force_include_usage=args.enable_force_include_usage,
+        enable_log_outputs=args.enable_log_outputs,
     ) if model_config.runner_type == "generate" else None
     state.openai_serving_completion = OpenAIServingCompletion(
         engine_client,
diff --git a/vllm/entrypoints/openai/cli_args.py b/vllm/entrypoints/openai/cli_args.py
@@ -295,6 +295,14 @@ def make_arg_parser(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
         help=
         "If set to True, enable tracking server_load_metrics in the app state."
     )
+    parser.add_argument(
+        "--enable-log-outputs",
+        action='store_true',
+        default=False,
+        help=
+        "If set to True, enable logging of model outputs (generations) "
+        "in addition to the input logging that is enabled by default."
+    )
 
     return parser
 
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
@@ -67,6 +67,7 @@ def __init__(
         tool_parser: Optional[str] = None,
         enable_prompt_tokens_details: bool = False,
         enable_force_include_usage: bool = False,
+        enable_log_outputs: bool = False,
     ) -> None:
         super().__init__(engine_client=engine_client,
                          model_config=model_config,
@@ -78,6 +79,7 @@ def __init__(
         self.response_role = response_role
         self.chat_template = chat_template
         self.chat_template_content_format: Final = chat_template_content_format
+        self.enable_log_outputs = enable_log_outputs
 
         # set up tool use
         self.enable_auto_tools: bool = enable_auto_tools
@@ -823,6 +825,24 @@ async def chat_completion_stream_generator(
                     if delta_message is None:
                         continue
 
+                    # Log individual streaming delta if output logging is enabled
+                    if self.enable_log_outputs and self.request_logger:
+                        delta_content = ""
+                        if delta_message.content:
+                            delta_content = delta_message.content
+                        elif delta_message.tool_calls and delta_message.tool_calls[0].function and delta_message.tool_calls[0].function.arguments:
+                            delta_content = delta_message.tool_calls[0].function.arguments
+                        
+                        if delta_content:
+                            self.request_logger.log_outputs(
+                                request_id=request_id,
+                                outputs=delta_content,
+                                output_token_ids=list(output.token_ids),
+                                finish_reason=output.finish_reason,
+                                is_streaming=True,
+                                delta=True,
+                            )
+
                     if output.finish_reason is None:
                         # Send token-by-token response for each request.n
                         choice_data = ChatCompletionResponseStreamChoice(
@@ -943,6 +963,19 @@ async def chat_completion_stream_generator(
                 completion_tokens=num_completion_tokens,
                 total_tokens=num_prompt_tokens + num_completion_tokens)
 
+            # Log complete streaming response if output logging is enabled
+            if self.enable_log_outputs and self.request_logger:
+                # Collect all generated text from the SSE decoder if available
+                # For now, we'll log the completion tokens count as final output
+                self.request_logger.log_outputs(
+                    request_id=request_id,
+                    outputs=f"<streaming_complete: {num_completion_tokens} tokens>",
+                    output_token_ids=None,
+                    finish_reason="streaming_complete",
+                    is_streaming=True,
+                    delta=False,
+                )
+
         except Exception as e:
             # TODO: Use a vllm-specific Validation Error
             logger.exception("Error in chat completion stream generator.")
@@ -1156,6 +1189,35 @@ async def chat_completion_full_generator(
             kv_transfer_params=final_res.kv_transfer_params,
         )
 
+        # Log complete response if output logging is enabled
+        if self.enable_log_outputs and self.request_logger:
+            for choice in choices:
+                output_text = ""
+                if choice.message.content:
+                    output_text = choice.message.content
+                elif choice.message.tool_calls:
+                    # For tool calls, log the function name and arguments
+                    tool_call_info = []
+                    for tool_call in choice.message.tool_calls:
+                        if hasattr(tool_call.function, 'name') and hasattr(tool_call.function, 'arguments'):
+                            tool_call_info.append(f"{tool_call.function.name}({tool_call.function.arguments})")
+                    output_text = f"[tool_calls: {', '.join(tool_call_info)}]"
+                
+                if output_text:
+                    # Get the corresponding output token IDs
+                    output_token_ids = None
+                    if choice.index < len(final_res.outputs):
+                        output_token_ids = final_res.outputs[choice.index].token_ids
+                    
+                    self.request_logger.log_outputs(
+                        request_id=request_id,
+                        outputs=output_text,
+                        output_token_ids=output_token_ids,
+                        finish_reason=choice.finish_reason,
+                        is_streaming=False,
+                        delta=False,
+                    )
+
         return response
 
     def _get_top_logprobs(
diff --git a/vllm/entrypoints/openai/serving_responses.py b/vllm/entrypoints/openai/serving_responses.py