musa: enable fp16 mma (all) and cublas on qy2 (ggml-org#13842)

yeahdongcn · JohannesGaessler · Minh141120 · commit 1f6a41e3d895 · 2025-07-05T23:55:35.000+07:00
* musa: enable fp16 mma (all) and cublas on qy2

Signed-off-by: Xiaodong Ye &lt;xiaodong.ye@mthreads.com&gt;

* Update ggml/src/ggml-cuda/ggml-cuda.cu

Co-authored-by: Johannes Gäßler &lt;johannesg@5d6.de&gt;

* Address review comments

Signed-off-by: Xiaodong Ye &lt;xiaodong.ye@mthreads.com&gt;

* Address review comments

Signed-off-by: Xiaodong Ye &lt;xiaodong.ye@mthreads.com&gt;

* musa: disable MUL_MAT_ID (q2_k × f32) due to precision issues

Signed-off-by: Xiaodong Ye &lt;xiaodong.ye@mthreads.com&gt;

---------

Signed-off-by: Xiaodong Ye &lt;xiaodong.ye@mthreads.com&gt;
Co-authored-by: Johannes Gäßler &lt;johannesg@5d6.de&gt;
diff --git a/ggml/src/ggml-cuda/common.cuh b/ggml/src/ggml-cuda/common.cuh
@@ -262,22 +262,6 @@ static bool fp16_mma_hardware_available(const int cc) {
         (GGML_CUDA_CC_IS_MTHREADS(cc) && cc >= GGML_CUDA_CC_QY2);
 }
 
-static bool bf16_mma_hardware_available(const int cc) {
-    return (GGML_CUDA_CC_IS_NVIDIA(cc) && cc >= GGML_CUDA_CC_AMPERE) || GGML_CUDA_CC_IS_CDNA(cc) || cc >= GGML_CUDA_CC_RDNA3;
-}
-
-static bool fp32_mma_hardware_available(const int cc) {
-    return GGML_CUDA_CC_IS_CDNA(cc);
-}
-
-static bool bf16_mma_hardware_available(const int cc) {
-    return (GGML_CUDA_CC_IS_NVIDIA(cc) && cc >= GGML_CUDA_CC_AMPERE) || GGML_CUDA_CC_IS_CDNA(cc) || cc >= GGML_CUDA_CC_RDNA3;
-}
-
-static bool fp32_mma_hardware_available(const int cc) {
-    return GGML_CUDA_CC_IS_CDNA(cc);
-}
-
 // Volta technically had FP16 tensor cores but they work very differently compared to Turing and later.
 static bool new_mma_available(const int cc) {
     return GGML_CUDA_CC_IS_NVIDIA(cc) && ggml_cuda_highest_compiled_arch(cc) >= GGML_CUDA_CC_TURING;