[Optim] Enable cuBLAS GeMM for bfloat16 (#3220)

MasterJH5574 · web-flow · commit 3fb97a7a732f · 2025-05-01T09:40:15.000-04:00
This PR enables using cuBLAS GeMM dispatch for bfloat16 gemm.
diff --git a/python/mlc_llm/interface/compiler_flags.py b/python/mlc_llm/interface/compiler_flags.py
@@ -101,7 +101,7 @@ def _cublas_gemm(target, quantization) -> bool:
             if not target.kind.name in ["cuda", "rocm"]:
                 return False
             if not (
-                quantization.name in ["q0f16", "q0f32"]
+                quantization.name in ["q0f16", "q0bf16", "q0f32"]
                 or "e4m3" in quantization.name
                 or "e5m2" in quantization.name
             ):