[Docs] add enable_logprob parameter description (#2850)

zhenwenDang · Jiang-Jia-Jun · web-flow · commit 5fc659b90014 · 2025-07-15T19:47:45.000+08:00
* add enable_logprob parameter description

* add enable_logprob parameter description

* add enable_logprob parameter description

* add enable_logprob parameter description

* add enable_logprob parameter description

* add enable_logprob parameter description

---------

Co-authored-by: Jiang-Jia-Jun &lt;163579578+Jiang-Jia-Jun@users.noreply.github.com&gt;
diff --git a/docs/online_serving/README.md b/docs/online_serving/README.md
@@ -9,6 +9,16 @@ python -m fastdeploy.entrypoints.openai.api_server \
        --max-model-len 32768
 ```
 
+To enable log probability output, simply deploy with the following command:
+
+```bash
+python -m fastdeploy.entrypoints.openai.api_server \
+       --model baidu/ERNIE-4.5-0.3B-Paddle \
+       --port 8188 --tensor-parallel-size 8 \
+       --max-model-len 32768 \
+       --enable-logprob
+```
+
 For more usage methods of the command line during service deployment, refer to [Parameter Descriptions](../parameters.md).
 
 ## Sending User Requests
@@ -26,6 +36,18 @@ curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
   ]
 }'
 ```
+Here's an example curl command demonstrating how to include the logprobs parameter in a user request:
+
+```bash
+curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
+-H "Content-Type: application/json" \
+-d '{
+  "messages": [
+    {"role": "user", "content": "Hello!"}, "logprobs": true, "top_logprobs": 5
+  ]
+}'
+```
+
 Here is an example of sending a user request using a Python script:
 ```python
 import openai
@@ -55,6 +77,8 @@ The differences in request parameters between FastDeploy and the OpenAI protocol
 
 - `prompt` (supported only in the `v1/completions` interface)
 - `messages` (supported only in the `v1/chat/completions` interface)
+- `logprobs`: Optional[bool] = False (supported only in the `v1/chat/completions` interface)
+- `top_logprobs`: Optional[int] = None (supported only in the `v1/chat/completions` interface. An integer between 0 and 20,logprobs must be set to true if this parameter is used)
 - `frequency_penalty`: Optional[float] = 0.0
 - `max_tokens`: Optional[int] = 16
 - `presence_penalty`: Optional[float] = 0.0
diff --git a/docs/parameters.md b/docs/parameters.md
@@ -44,6 +44,7 @@ When using FastDeploy to deploy models (including offline inference and service
 | ```speculative_config``` | `dict[str]` | Speculative decoding configuration, only supports standard format JSON string, default: None |
 | ```dynamic_load_weight``` | `int` | Whether to enable dynamic weight loading, default: 0 |
 | ```enable_expert_parallel``` | `bool` | Whether to enable expert parallel |
+| ```enable_logprob``` | `bool` | Whether to enable return log probabilities of the output tokens or not. If true, returns the log probabilities of each output token returned in the content of message.If logrpob is not used, this parameter can be omitted when starting |
 
 
 ## 1. Relationship between KVCache allocation, ```num_gpu_blocks_override``` and ```block_size```?
diff --git a/docs/zh/online_serving/README.md b/docs/zh/online_serving/README.md
@@ -9,6 +9,17 @@ python -m fastdeploy.entrypoints.openai.api_server \
        --max-model-len 32768
 ```
 
+如果要启用输出token的logprob，用户可以通过如下命令快速进行部署：
+
+```bash
+python -m fastdeploy.entrypoints.openai.api_server \
+       --model baidu/ERNIE-4.5-0.3B-Paddle \
+       --port 8188 --tensor-parallel-size 8 \
+       --max-model-len 32768 \
+       --enable-logprob
+```
+
+
 服务部署时的命令行更多使用方式参考[参数说明](../parameters.md)。
 
 ## 发送用户请求
@@ -26,6 +37,19 @@ curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
   ]
 }'
 ```
+
+使用 curl 命令示例，演示如何在用户请求中包含logprobs参数：
+
+```bash
+curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
+-H "Content-Type: application/json" \
+-d '{
+  "messages": [
+    {"role": "user", "content": "Hello!"}, "logprobs": true, "top_logprobs": 5
+  ]
+}'
+```
+
 使用 Python 脚本发送用户请求示例如下：
 ```python
 import openai
@@ -54,6 +78,8 @@ print('\n')
 FastDeploy 与 OpenAI 协议的请求参数差异如下，其余请求参数会被忽略：
 - `prompt` (仅支持 `v1/completions` 接口)
 - `messages` (仅支持 `v1/chat/completions` 接口)
+- `logprobs`: Optional[bool] = False (仅支持 `v1/chat/completions` 接口)
+- `top_logprobs`: Optional[int] = None (仅支持 `v1/chat/completions` 接口。如果使用这个参数必须设置logprobs为True，取值大于等于0小于20)
 - `frequency_penalty`: Optional[float] = 0.0
 - `max_tokens`: Optional[int] = 16
 - `presence_penalty`: Optional[float] = 0.0
diff --git a/docs/zh/parameters.md b/docs/zh/parameters.md
@@ -43,6 +43,7 @@
 | ```speculative_config```           | `dict[str]` | 投机解码配置，仅支持标准格式json字符串，默认为None |
 | ```dynamic_load_weight```          | `int`       | 是否动态加载权重，默认0 |
 | ```enable_expert_parallel```       | `bool`      | 是否启用专家并行 |
+| ```enable_logprob```       | `bool`      | 是否启用输出token返回logprob。如果未使用 logrpob，则在启动时可以省略此参数。 |
 
 
 ## 1. KVCache分配与```num_gpu_blocks_override```、```block_size```的关系？