Disable prefix cache by default for benchmark (vllm-project#18639)

cascade812 · web-flow · commit aaa4ac1c95aa · 2025-05-27T20:06:34.000+08:00
Signed-off-by: cascade812 &lt;cascade812@outlook.com&gt;
diff --git a/benchmarks/benchmark_latency.py b/benchmarks/benchmark_latency.py
@@ -189,5 +189,8 @@ def run_to_completion(profile_dir: Optional[str] = None):
     )
 
     parser = EngineArgs.add_cli_args(parser)
+    # V1 enables prefix caching by default which skews the latency
+    # numbers. We need to disable prefix caching by default.
+    parser.set_defaults(enable_prefix_caching=False)
     args = parser.parse_args()
     main(args)
diff --git a/vllm/benchmarks/latency.py b/vllm/benchmarks/latency.py
@@ -80,6 +80,9 @@ def add_cli_args(parser: argparse.ArgumentParser):
     )
 
     parser = EngineArgs.add_cli_args(parser)
+    # V1 enables prefix caching by default which skews the latency
+    # numbers. We need to disable prefix caching by default.
+    parser.set_defaults(enable_prefix_caching=True)
 
 
 def main(args: argparse.Namespace):

Original file line number	Diff line number	Diff line change
`@@ -189,5 +189,8 @@ def run_to_completion(profile_dir: Optional[str] = None):`
`189`	`189`	`)`
`190`	`190`
`191`	`191`	`parser = EngineArgs.add_cli_args(parser)`
	`192`	`+ # V1 enables prefix caching by default which skews the latency`
	`193`	`+ # numbers. We need to disable prefix caching by default.`
	`194`	`+ parser.set_defaults(enable_prefix_caching=False)`
`192`	`195`	`args = parser.parse_args()`
`193`	`196`	`main(args)`
Original file line number	Diff line number	Diff line change
`@@ -80,6 +80,9 @@ def add_cli_args(parser: argparse.ArgumentParser):`
`80`	`80`	`)`
`81`	`81`
`82`	`82`	`parser = EngineArgs.add_cli_args(parser)`
	`83`	`+ # V1 enables prefix caching by default which skews the latency`
	`84`	`+ # numbers. We need to disable prefix caching by default.`
	`85`	`+ parser.set_defaults(enable_prefix_caching=True)`
`83`	`86`
`84`	`87`
`85`	`88`	`def main(args: argparse.Namespace):`