[Bugfix] Fix Tensor Parallelism Padding Consistency in Granite Models (#20843)

alex-jw-brooks · Chen-zexi · commit 2faf0d02fe86 · 2025-07-13T02:50:26.000-04:00
Signed-off-by: Alex-Brooks &lt;Alex.Brooks@ibm.com&gt;
diff --git a/vllm/model_executor/models/granite.py b/vllm/model_executor/models/granite.py
@@ -273,6 +273,10 @@ def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
                 self.vocab_size,
                 config.hidden_size,
                 org_num_embeddings=config.vocab_size,
+                padding_size=DEFAULT_VOCAB_PADDING_SIZE
+                # We need bigger padding if using lora for kernel
+                # compatibility
+                if not lora_config else lora_config.lora_vocab_padding_size,
                 quant_config=quant_config,
             )
         else: