parmas-related fix

huydt-bti · huydt-bti · commit 03693fa2a835 · 2025-06-06T16:51:37.000+09:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -3946,7 +3946,6 @@ def set_vocab(self):
 
     def set_gguf_parameters(self):
         super().set_gguf_parameters()
-        self._try_set_pooling_type()
         self.gguf_writer.add_sliding_window(self.hparams["local_attention"])
         self.gguf_writer.add_rope_freq_base(self.hparams["global_rope_theta"])
         self.gguf_writer.add_rope_freq_base_swa(self.hparams["local_rope_theta"])
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -724,7 +724,6 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_EPS,    hparams.f_norm_eps);
                 ml.get_key(LLM_KV_ATTENTION_CAUSAL,           hparams.causal_attn);
                 ml.get_key(LLM_KV_POOLING_TYPE,               hparams.pooling_type, false);
-                ml.get_arr_n(LLM_KV_CLASSIFIER_OUTPUT_LABELS, hparams.n_cls_out, false);
 
                 switch (hparams.n_layer) {
                     case 22:
@@ -2237,6 +2236,7 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                     cls_norm   = create_tensor(tn(LLM_TENSOR_CLS_NORM, "weight"), {n_embd}, TENSOR_NOT_REQUIRED);
 
                     cls_out   = create_tensor(tn(LLM_TENSOR_CLS_OUT, "weight"), {n_embd, hparams.n_cls_out}, TENSOR_NOT_REQUIRED);
+                    cls_out_b = create_tensor(tn(LLM_TENSOR_CLS_OUT, "bias"),   {hparams.n_cls_out},         TENSOR_NOT_REQUIRED);
                 } break;
             case LLM_ARCH_JINA_BERT_V2:
                 {