Update llama-quant.cpp

danielhanchen · danielhanchen · commit 32c2df20196a · 2025-03-25T09:18:24.000-07:00
diff --git a/src/llama-quant.cpp b/src/llama-quant.cpp
@@ -216,8 +216,8 @@ static ggml_type llama_tensor_get_type(quantize_state_impl & qs, ggml_type new_t
                 if (i_layer < 9) new_type = GGML_TYPE_IQ2_XXS; // 2.06 bpw
             }
             else {
-                if  (i_layer < 6) new_type = GGML_TYPE_Q3_K;
-                else new_type = GGML_TYPE_Q2_K;
+                if  (i_layer < 6) new_type = GGML_TYPE_Q4_K;
+                else new_type = GGML_TYPE_Q3_K;
             }
             ++qs.i_ffn_down;
         }
@@ -338,7 +338,8 @@ static ggml_type llama_tensor_get_type(quantize_state_impl & qs, ggml_type new_t
         if      (ftype == LLAMA_FTYPE_MOSTLY_Q2_K) {
             // Layers 0, 1, 2 are Dense so Q4_K
             // 3, 4, 5 left as Q3_K
-            new_type = GGML_TYPE_Q3_K;
+            if   (i_layer < 6) new_type = GGML_TYPE_Q4_K;
+            else new_type = GGML_TYPE_Q3_K;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_Q2_K_S) {
             if (i_layer < n_layer/8) new_type = GGML_TYPE_Q4_K;

Original file line number	Diff line number	Diff line change
`@@ -216,8 +216,8 @@ static ggml_type llama_tensor_get_type(quantize_state_impl & qs, ggml_type new_t`
`216`	`216`	`if (i_layer < 9) new_type = GGML_TYPE_IQ2_XXS; // 2.06 bpw`
`217`	`217`	`}`
`218`	`218`	`else {`
`219`		`- if (i_layer < 6) new_type = GGML_TYPE_Q3_K;`
`220`		`- else new_type = GGML_TYPE_Q2_K;`
	`219`	`+ if (i_layer < 6) new_type = GGML_TYPE_Q4_K;`
	`220`	`+ else new_type = GGML_TYPE_Q3_K;`
`221`	`221`	`}`
`222`	`222`	`++qs.i_ffn_down;`
`223`	`223`	`}`
`@@ -338,7 +338,8 @@ static ggml_type llama_tensor_get_type(quantize_state_impl & qs, ggml_type new_t`
`338`	`338`	`if (ftype == LLAMA_FTYPE_MOSTLY_Q2_K) {`
`339`	`339`	`// Layers 0, 1, 2 are Dense so Q4_K`
`340`	`340`	`// 3, 4, 5 left as Q3_K`
`341`		`- new_type = GGML_TYPE_Q3_K;`
	`341`	`+ if (i_layer < 6) new_type = GGML_TYPE_Q4_K;`
	`342`	`+ else new_type = GGML_TYPE_Q3_K;`
`342`	`343`	`}`
`343`	`344`	`else if (ftype == LLAMA_FTYPE_MOSTLY_Q2_K_S) {`
`344`	`345`	`if (i_layer < n_layer/8) new_type = GGML_TYPE_Q4_K;`