@@ -235,24 +235,15 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
235
235
// FATTN_VEC_F16_CASE(128, GGML_TYPE_Q5_0, GGML_TYPE_F16)
236
236
// FATTN_VEC_F16_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_F16)
237
237
// FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_F16)
238
- FATTN_VEC_F16_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_F16)
238
+ // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_F16)
239
239
FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
240
240
// FATTN_VEC_F16_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
241
241
242
242
FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
243
243
244
-
245
244
// FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
246
245
// FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_IQ4_NL)
247
246
248
- // FATTN_VEC_F16_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_IQ4_NL)
249
- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_IQ4_NL)
250
-
251
- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_IQ4_NL)
252
- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_Q5_0)
253
- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_Q6_0)
254
- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_Q6_0)
255
- // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_Q6_0)
256
247
#else
257
248
FATTN_VEC_F16_CASE (128 , GGML_TYPE_Q4_0, GGML_TYPE_Q4_0)
258
249
@@ -262,7 +253,6 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
262
253
FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
263
254
FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
264
255
265
-
266
256
// FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
267
257
// FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
268
258
// FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -369,7 +359,7 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
369
359
// FATTN_VEC_F32_CASE(128, GGML_TYPE_Q5_0, GGML_TYPE_F16)
370
360
// FATTN_VEC_F32_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_F16)
371
361
// FATTN_VEC_F32_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_F16)
372
- FATTN_VEC_F32_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_F16)
362
+ // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_F16)
373
363
FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
374
364
// FATTN_VEC_F32_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
375
365
0 commit comments