llama : update WavTokenizer to non-causal attn

ggerganov · ggerganov · commit 6be275d6510b · 2024-12-17T12:14:16.000+02:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -2069,6 +2069,8 @@ def set_gguf_parameters(self):
         self.gguf_writer.add_convnext_embedding_length(self.hparams["convnext"]["n_embd"])
         self.gguf_writer.add_convnext_block_count     (self.hparams["convnext"]["n_layer"])
 
+        self.gguf_writer.add_causal_attention(False)
+
 
 @Model.register("Qwen2MoeForCausalLM")
 class Qwen2MoeModel(Model):
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -6393,6 +6393,7 @@ static void llm_load_hparams(
                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_EPS,    hparams.f_norm_eps);
                 ml.get_key(LLM_KV_ATTENTION_GROUPNORM_EPS,    hparams.f_norm_group_eps);
                 ml.get_key(LLM_KV_ATTENTION_GROUPNORM_GROUPS, hparams.n_norm_groups);
+                ml.get_key(LLM_KV_ATTENTION_CAUSAL,           hparams.causal_attn);
             } break;
         default: (void)0;
     }

Original file line number	Diff line number	Diff line change
`@@ -6393,6 +6393,7 @@ static void llm_load_hparams(`
`6393`	`6393`	`ml.get_key(LLM_KV_ATTENTION_LAYERNORM_EPS, hparams.f_norm_eps);`
`6394`	`6394`	`ml.get_key(LLM_KV_ATTENTION_GROUPNORM_EPS, hparams.f_norm_group_eps);`
`6395`	`6395`	`ml.get_key(LLM_KV_ATTENTION_GROUPNORM_GROUPS, hparams.n_norm_groups);`
	`6396`	`+ ml.get_key(LLM_KV_ATTENTION_CAUSAL, hparams.causal_attn);`
`6396`	`6397`	`} break;`
`6397`	`6398`	`default: (void)0;`
`6398`	`6399`	`}`