metal : disable fast math in all quantize kernels (llama/14528)

ggerganov · ggerganov · commit 10d0d28f7c79 · 2025-07-12T19:23:56.000+03:00
ggml-ci
diff --git a/ggml/src/ggml-metal/ggml-metal.metal b/ggml/src/ggml-metal/ggml-metal.metal
@@ -109,6 +109,7 @@ void dequantize_q4_0_t4(device const block_q4_0 * xb, short il, thread type4 & r
 }
 
 void quantize_q4_0(device const float * src, device block_q4_0 & dst) {
+#pragma METAL fp math_mode(safe)
     float amax = 0.0f; // absolute max
     float max  = 0.0f;
 
@@ -167,6 +168,7 @@ void quantize_q4_1(device const float * src, device block_q4_1 & dst) {
 }
 
 void quantize_q5_0(device const float * src, device block_q5_0 & dst) {
+#pragma METAL fp math_mode(safe)
     float amax = 0.0f; // absolute max
     float max  = 0.0f;
 
@@ -461,6 +463,7 @@ void dequantize_q8_0_t4(device const block_q8_0 *xb, short il, thread type4 & re
 }
 
 void quantize_q8_0(device const float * src, device block_q8_0 & dst) {
+#pragma METAL fp math_mode(safe)
     float amax = 0.0f; // absolute max
 
     for (int j = 0; j < QK8_0; j++) {

Original file line number	Diff line number	Diff line change
`@@ -109,6 +109,7 @@ void dequantize_q4_0_t4(device const block_q4_0 * xb, short il, thread type4 & r`
`109`	`109`	`}`
`110`	`110`
`111`	`111`	`void quantize_q4_0(device const float * src, device block_q4_0 & dst) {`
	`112`	`+#pragma METAL fp math_mode(safe)`
`112`	`113`	`float amax = 0.0f; // absolute max`
`113`	`114`	`float max = 0.0f;`
`114`	`115`
`@@ -167,6 +168,7 @@ void quantize_q4_1(device const float * src, device block_q4_1 & dst) {`
`167`	`168`	`}`
`168`	`169`
`169`	`170`	`void quantize_q5_0(device const float * src, device block_q5_0 & dst) {`
	`171`	`+#pragma METAL fp math_mode(safe)`
`170`	`172`	`float amax = 0.0f; // absolute max`
`171`	`173`	`float max = 0.0f;`
`172`	`174`
`@@ -461,6 +463,7 @@ void dequantize_q8_0_t4(device const block_q8_0 *xb, short il, thread type4 & re`
`461`	`463`	`}`
`462`	`464`
`463`	`465`	`void quantize_q8_0(device const float * src, device block_q8_0 & dst) {`
	`466`	`+#pragma METAL fp math_mode(safe)`
`464`	`467`	`float amax = 0.0f; // absolute max`
`465`	`468`
`466`	`469`	`for (int j = 0; j < QK8_0; j++) {`