[Minor] Zero-initialize attn output buffer (#19784)

WoosukKwon · web-flow · commit f04d60456792 · 2025-06-18T06:59:27.000Z
Signed-off-by: Woosuk Kwon &lt;woosuk.kwon@berkeley.edu&gt;
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
@@ -209,7 +209,7 @@ def forward(
         if self.use_output:
             output_shape = (output_shape
                             if output_shape is not None else query.shape)
-            output = torch.empty(output_shape,
+            output = torch.zeros(output_shape,
                                  dtype=query.dtype,
                                  device=query.device)
             hidden_size = output_shape[-1]