Update llama-quant.cpp

danielhanchen · danielhanchen · commit ae8b7ac3abe7 · 2025-03-25T14:40:55.000-07:00
diff --git a/src/llama-quant.cpp b/src/llama-quant.cpp
@@ -217,6 +217,7 @@ static ggml_type llama_tensor_get_type(quantize_state_impl & qs, ggml_type new_t
                 else if (i_layer < 12) new_type = GGML_TYPE_Q3_K; // 3.5 bpw
                 else if (i_layer < 18) new_type = GGML_TYPE_IQ2_XXS; // 2.06 bpw
                 else if (i_layer > 58) new_type = GGML_TYPE_IQ2_XXS; // 3.5 bpw
+                else new_type = GGML_TYPE_IQ3_S;
             }
             else {
                 if  (i_layer < 6) new_type = GGML_TYPE_Q4_K;

Original file line number	Diff line number	Diff line change
`@@ -217,6 +217,7 @@ static ggml_type llama_tensor_get_type(quantize_state_impl & qs, ggml_type new_t`
`217`	`217`	`else if (i_layer < 12) new_type = GGML_TYPE_Q3_K; // 3.5 bpw`
`218`	`218`	`else if (i_layer < 18) new_type = GGML_TYPE_IQ2_XXS; // 2.06 bpw`
`219`	`219`	`else if (i_layer > 58) new_type = GGML_TYPE_IQ2_XXS; // 3.5 bpw`
	`220`	`+ else new_type = GGML_TYPE_IQ3_S;`
`220`	`221`	`}`
`221`	`222`	`else {`
`222`	`223`	`if (i_layer < 6) new_type = GGML_TYPE_Q4_K;`