minor fixes to make classifier heads more usable (#10)

rohingarg-c · web-flow · commit 0642536807c8 · 2025-06-27T17:36:24.000-07:00
Signed-off-by: Rohin Garg &lt;rohin@character.ai&gt;
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
@@ -1292,6 +1292,47 @@ class PoolingResponse(OpenAIBaseModel):
     usage: UsageInfo
 
 
+class ClassificationRequest(OpenAIBaseModel):
+    model: Optional[str] = None
+    input: Union[list[str], str]
+    truncate_prompt_tokens: Optional[int] = None
+    user: Optional[str] = None
+
+    # --8<-- [start:classification-pooling-params]
+    additional_data: Optional[Any] = None
+    # --8<-- [end:classification-pooling-params]
+
+    # --8<-- [start:classification-extra-params]
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."),
+    )
+
+    # --8<-- [end:classification-extra-params]
+
+    def to_pooling_params(self):
+        return PoolingParams(additional_data=self.additional_data)
+
+
+class ClassificationData(OpenAIBaseModel):
+    index: int
+    label: Optional[str]
+    probs: list[float]
+    num_classes: int
+
+
+class ClassificationResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"classify-{random_uuid()}")
+    object: str = "list"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    data: list[ClassificationData]
+    usage: UsageInfo
+
+
 class ScoreResponseData(OpenAIBaseModel):
     index: int
     object: str = "score"
diff --git a/vllm/model_executor/model_loader/loader.py b/vllm/model_executor/model_loader/loader.py
@@ -465,9 +465,13 @@ def load_model(self, vllm_config: VllmConfig) -> nn.Module:
             if model_config.quantization is None and loaded_weights is not None:
                 weights_not_loaded = weights_to_load - loaded_weights
                 if weights_not_loaded:
-                    raise ValueError(
+                    logger.error(
                         "Following weights were not initialized from "
-                        f"checkpoint: {weights_not_loaded}")
+                        "checkpoint: %s", weights_not_loaded)
+
+                    # raise ValueError(
+                    #     "Following weights were not initialized from "
+                    #     f"checkpoint: {weights_not_loaded}")
 
             _process_weights_after_loading(model, model_config, target_device)
 
diff --git a/vllm/model_executor/models/transformers.py b/vllm/model_executor/models/transformers.py
@@ -267,7 +267,7 @@ def create_attention_instances(self) -> dict[int, Attention]:
                 self.config.global_attention_layers, list):
             global_attention_layers = self.config.global_attention_layers
         else:
-            global_attention_layers = None
+            global_attention_layers = []
 
         for i in range(start, end):
             sliding_window = None