Support for LlamaForSequenceClassification (#20807)

thechaos16 · web-flow · commit bd4c1e6fdbec · 2025-07-13T00:09:34.000-07:00
Signed-off-by: thechaos16 &lt;thechaos16@gmail.com&gt;
diff --git a/tests/models/registry.py b/tests/models/registry.py
@@ -330,6 +330,7 @@ def check_available_online(
                                                       hf_overrides={"architectures": ["GemmaForSequenceClassification"], # noqa: E501
                                                                     "classifier_from_token": ["Yes"], # noqa: E501
                                                                     "method": "no_post_processing"}), # noqa: E501
+    "LlamaForSequenceClassification": _HfExamplesInfo("Skywork/Skywork-Reward-V2-Llama-3.2-1B"), # noqa: E501
     "ModernBertForSequenceClassification": _HfExamplesInfo("Alibaba-NLP/gte-reranker-modernbert-base", v0_only=True), # noqa: E501
     "RobertaForSequenceClassification": _HfExamplesInfo("cross-encoder/quora-roberta-base", v0_only=True),  # noqa: E501
     "XLMRobertaForSequenceClassification": _HfExamplesInfo("BAAI/bge-reranker-v2-m3", v0_only=True),  # noqa: E501
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
@@ -49,6 +49,7 @@
 from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
+from .adapters import as_seq_cls_model
 from .interfaces import SupportsLoRA, SupportsPP
 from .utils import (AutoWeightsLoader, PPMissingLayer, extract_layer_index,
                     is_pp_missing_parameter,
@@ -645,3 +646,6 @@ def permute(w: torch.Tensor, n_heads: int):
                 name = name.replace(item, mapping[item])
 
         return name, loaded_weight
+
+
+LlamaForSequenceClassification = as_seq_cls_model(LlamaForCausalLM)
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
@@ -183,7 +183,8 @@
     "GemmaForSequenceClassification": ("gemma", "GemmaForSequenceClassification"), # noqa: E501
     "Qwen2ForSequenceClassification": ("qwen2", "Qwen2ForSequenceClassification"), # noqa: E501
     "Qwen3ForSequenceClassification": ("qwen3", "Qwen3ForSequenceClassification"), # noqa: E501
-    "JinaVLForRanking": ("jina_vl", "JinaVLForSequenceClassification"), # noqa: E501
+    "LlamaForSequenceClassification": ("llama", "LlamaForSequenceClassification"), # noqa: E501
+    "JinaVLForRanking": ("jina_vl", "JinaVLForSequenceClassification"), # noqa: E501,
 }
 
 _MULTIMODAL_MODELS = {

Original file line number	Diff line number	Diff line change
`@@ -183,7 +183,8 @@`
`183`	`183`	`"GemmaForSequenceClassification": ("gemma", "GemmaForSequenceClassification"), # noqa: E501`
`184`	`184`	`"Qwen2ForSequenceClassification": ("qwen2", "Qwen2ForSequenceClassification"), # noqa: E501`
`185`	`185`	`"Qwen3ForSequenceClassification": ("qwen3", "Qwen3ForSequenceClassification"), # noqa: E501`
`186`		`- "JinaVLForRanking": ("jina_vl", "JinaVLForSequenceClassification"), # noqa: E501`
	`186`	`+ "LlamaForSequenceClassification": ("llama", "LlamaForSequenceClassification"), # noqa: E501`
	`187`	`+ "JinaVLForRanking": ("jina_vl", "JinaVLForSequenceClassification"), # noqa: E501,`
`187`	`188`	`}`
`188`	`189`
`189`	`190`	`_MULTIMODAL_MODELS = {`