Nexesenex
diff --git a/‎ggml/src/ggml-cuda/fattn-common.cuh
Lines changed: 4 additions & 0 deletions b/‎ggml/src/ggml-cuda/fattn-common.cuh
Lines changed: 4 additions & 0 deletions
@@ -826,10 +826,14 @@ void launch_fattn(
 ) {
     constexpr int ncols = ncols1 * ncols2;
 
+    const bool is_mla = DV == 512; // TODO better parameterization
+
     const ggml_tensor * Q = dst->src[0];
     const ggml_tensor * K = dst->src[1];
     const ggml_tensor * V = dst->src[2];
 
+    GGML_ASSERT(V || is_mla);
+
     const ggml_tensor * mask = dst->src[3];
 
     ggml_tensor * KQV = dst;