Fix KleidiAI compilation errors with -DGGML_NATIVE=OFF (issue #14464)

baonudesifeizhai · baonudesifeizhai · commit f14a70fb9583 · 2025-07-16T14:07:30.000-04:00
This commit fixes compilation errors that occur when building with -DGGML_NATIVE=OFF, which resulted in zero-size arrays in KleidiAI code. Changes made: 1. kernels.cpp: - Add conditional compilation around gemm_gemv_kernels array - Provide fallback empty array when no ARM features available - Guard kernel selection functions with feature checks 2. kleidiai.cpp: - Replace GGML_ASSERT(kernels) with null pointer checks - Return appropriate error codes when no kernels available - Prevent crashes when KleidiAI is unavailable 3. CMakeLists.txt: - Add architecture check to only enable KleidiAI on ARM systems - Fix KleidiAI download URL (GitHub -> GitLab) - Use git clone instead of archive download for reliability Fixes: #14464 Tested: Successfully compiles with -DGGML_NATIVE=OFF on x86_64
diff --git a/ggml/src/ggml-cpu/CMakeLists.txt b/ggml/src/ggml-cpu/CMakeLists.txt
@@ -486,7 +486,7 @@ function(ggml_add_cpu_backend_variant_impl tag_name)
         target_compile_definitions(${GGML_CPU_NAME} PRIVATE GGML_USE_CPU_REPACK)
     endif()
 
-    if (GGML_CPU_KLEIDIAI)
+    if (GGML_CPU_KLEIDIAI AND GGML_CPU_AARCH64 AND (CMAKE_SYSTEM_PROCESSOR STREQUAL "aarch64" OR CMAKE_SYSTEM_PROCESSOR STREQUAL "arm64"))
         message(STATUS "Using KleidiAI optimized kernels if applicable")
 
         # Disable the KleidiAI tests
@@ -495,17 +495,17 @@ function(ggml_add_cpu_backend_variant_impl tag_name)
         # Fetch KleidiAI sources:
         include(FetchContent)
         set(KLEIDIAI_COMMIT_TAG "v1.9.0")
-        set(KLEIDIAI_DOWNLOAD_URL "https://github.com/ARM-software/kleidiai/archive/refs/tags/${KLEIDIAI_COMMIT_TAG}.tar.gz")
-        set(KLEIDIAI_ARCHIVE_MD5  "2a8e1bb55d201557553545536489a017")
+        set(KLEIDIAI_DOWNLOAD_URL "https://git.gitlab.arm.com/kleidi/kleidiai/-/archive/${KLEIDIAI_COMMIT_TAG}/kleidiai-${KLEIDIAI_COMMIT_TAG}.tar.gz")
+        set(KLEIDIAI_ARCHIVE_MD5  "e4c9fcb5de397ba3532d593672d56e95")
 
         if (POLICY CMP0135)
             cmake_policy(SET CMP0135 NEW)
         endif()
 
         FetchContent_Declare(KleidiAI_Download
-            URL ${KLEIDIAI_DOWNLOAD_URL}
-            DOWNLOAD_EXTRACT_TIMESTAMP NEW
-            URL_HASH MD5=${KLEIDIAI_ARCHIVE_MD5})
+            GIT_REPOSITORY https://git.gitlab.arm.com/kleidi/kleidiai.git
+            GIT_TAG ${KLEIDIAI_COMMIT_TAG}
+            GIT_SHALLOW TRUE)
 
         FetchContent_MakeAvailable(KleidiAI_Download)
         FetchContent_GetProperties(KleidiAI_Download
diff --git a/ggml/src/ggml-cpu/kleidiai/kernels.cpp b/ggml/src/ggml-cpu/kleidiai/kernels.cpp
@@ -25,6 +25,9 @@
 #include "kernels.h"
 
 #define NELEMS(x) sizeof(x) / sizeof(*x)
+
+// Check if any ARM features are available
+#if defined(__ARM_FEATURE_SME) || defined(__ARM_FEATURE_DOTPROD) || defined(__ARM_FEATURE_MATMUL_INT8)
 static ggml_kleidiai_kernels gemm_gemv_kernels[] = {
 #if defined(__ARM_FEATURE_SME)
     {
@@ -304,10 +307,15 @@ static ggml_kleidiai_kernels gemm_gemv_kernels[] = {
 #endif
 #endif
 };
+#else
+// Fallback for when no ARM features are available - provide an empty array
+static ggml_kleidiai_kernels gemm_gemv_kernels[1] = {};
+#endif
 
 ggml_kleidiai_kernels * ggml_kleidiai_select_kernels(cpu_feature cpu_features, const ggml_tensor * tensor) {
     ggml_kleidiai_kernels * kernel = nullptr;
 
+#if defined(__ARM_FEATURE_SME) || defined(__ARM_FEATURE_DOTPROD) || defined(__ARM_FEATURE_MATMUL_INT8)
     if (tensor->op == GGML_OP_MUL_MAT && tensor->src[0] != nullptr && tensor->src[1] != nullptr) {
         for (size_t i = 0; i < NELEMS(gemm_gemv_kernels); ++i) {
             if ((cpu_features & gemm_gemv_kernels[i].required_cpu) == gemm_gemv_kernels[i].required_cpu &&
@@ -319,19 +327,22 @@ ggml_kleidiai_kernels * ggml_kleidiai_select_kernels(cpu_feature cpu_features, c
             }
         }
     }
+#endif
 
     return kernel;
 }
 
 ggml_kleidiai_kernels * ggml_kleidiai_select_kernels_q4_0(cpu_feature features) {
     ggml_kleidiai_kernels * kernels = nullptr;
 
+#if defined(__ARM_FEATURE_SME) || defined(__ARM_FEATURE_DOTPROD) || defined(__ARM_FEATURE_MATMUL_INT8)
     for (size_t i = 0; i < NELEMS(gemm_gemv_kernels); ++i) {
         if ((features & gemm_gemv_kernels[i].required_cpu) == gemm_gemv_kernels[i].required_cpu) {
             kernels = &gemm_gemv_kernels[i];
             break;
         }
     }
+#endif
 
     return kernels;
 }
diff --git a/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp b/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp
@@ -103,7 +103,9 @@ static void transpose_f32kxn_f16nxk(size_t n, size_t k, float * dst, const uint1
 class tensor_traits : public ggml::cpu::tensor_traits {
     bool work_size(int /* n_threads */, const struct ggml_tensor * op, size_t & size) override {
         ggml_kleidiai_kernels *kernels = ggml_kleidiai_select_kernels(ctx.features, op);
-        GGML_ASSERT(kernels);
+        if (!kernels) {
+            return false;  // No suitable kernel available
+        }
         kernel_info * kernel = op->src[1]->ne[1] == 1 ? &kernels->gemv : &kernels->gemm;
 
         size_t k = op->src[0]->ne[0];
@@ -148,7 +150,9 @@ class tensor_traits : public ggml::cpu::tensor_traits {
         GGML_TENSOR_BINARY_OP_LOCALS
 
         ggml_kleidiai_kernels *kernels = ggml_kleidiai_select_kernels(ctx.features, dst);
-        GGML_ASSERT(kernels);
+        if (!kernels) {
+            return false;  // No suitable kernel available
+        }
 
         kernel_info * kernel = src1->ne[1] == 1 ? &kernels->gemv : &kernels->gemm;
         GGML_ASSERT(kernel);
@@ -276,7 +280,9 @@ class tensor_traits : public ggml::cpu::tensor_traits {
         GGML_TENSOR_BINARY_OP_LOCALS
 
         ggml_kleidiai_kernels *kernels = ggml_kleidiai_select_kernels(ctx.features, dst);
-        GGML_ASSERT(kernels);
+        if (!kernels) {
+            return false;  // No suitable kernel available
+        }
 
         kernel_info * kernel = src1->ne[1] == 1 ? &kernels->gemv : &kernels->gemm;
         lhs_packing_info * lhs_info = &kernels->lhs_info;
@@ -344,7 +350,9 @@ class tensor_traits : public ggml::cpu::tensor_traits {
 
 public:
     int repack(struct ggml_tensor * tensor, const void * data, size_t data_size) {
-        GGML_ASSERT(ctx.kernels);
+        if (!ctx.kernels) {
+            return -1;  // No suitable kernel available
+        }
         const size_t n = tensor->ne[1];
         const size_t k = tensor->ne[0];
         size_t nr      = ctx.kernels->gemm.get_nr();

Original file line number	Diff line number	Diff line change
`@@ -25,6 +25,9 @@`
`25`	`25`	`#include "kernels.h"`
`26`	`26`
`27`	`27`	`#define NELEMS(x) sizeof(x) / sizeof(*x)`
	`28`	`+`
	`29`	`+// Check if any ARM features are available`
	`30`	`+#if defined(__ARM_FEATURE_SME) \|\| defined(__ARM_FEATURE_DOTPROD) \|\| defined(__ARM_FEATURE_MATMUL_INT8)`
`28`	`31`	`static ggml_kleidiai_kernels gemm_gemv_kernels[] = {`
`29`	`32`	`#if defined(__ARM_FEATURE_SME)`
`30`	`33`	`{`
`@@ -304,10 +307,15 @@ static ggml_kleidiai_kernels gemm_gemv_kernels[] = {`
`304`	`307`	`#endif`
`305`	`308`	`#endif`
`306`	`309`	`};`
	`310`	`+#else`
	`311`	`+// Fallback for when no ARM features are available - provide an empty array`
	`312`	`+static ggml_kleidiai_kernels gemm_gemv_kernels[1] = {};`
	`313`	`+#endif`
`307`	`314`
`308`	`315`	`ggml_kleidiai_kernels * ggml_kleidiai_select_kernels(cpu_feature cpu_features, const ggml_tensor * tensor) {`
`309`	`316`	`ggml_kleidiai_kernels * kernel = nullptr;`
`310`	`317`
	`318`	`+#if defined(__ARM_FEATURE_SME) \|\| defined(__ARM_FEATURE_DOTPROD) \|\| defined(__ARM_FEATURE_MATMUL_INT8)`
`311`	`319`	`if (tensor->op == GGML_OP_MUL_MAT && tensor->src[0] != nullptr && tensor->src[1] != nullptr) {`
`312`	`320`	`for (size_t i = 0; i < NELEMS(gemm_gemv_kernels); ++i) {`
`313`	`321`	`if ((cpu_features & gemm_gemv_kernels[i].required_cpu) == gemm_gemv_kernels[i].required_cpu &&`
`@@ -319,19 +327,22 @@ ggml_kleidiai_kernels * ggml_kleidiai_select_kernels(cpu_feature cpu_features, c`
`319`	`327`	`}`
`320`	`328`	`}`
`321`	`329`	`}`
	`330`	`+#endif`
`322`	`331`
`323`	`332`	`return kernel;`
`324`	`333`	`}`
`325`	`334`
`326`	`335`	`ggml_kleidiai_kernels * ggml_kleidiai_select_kernels_q4_0(cpu_feature features) {`
`327`	`336`	`ggml_kleidiai_kernels * kernels = nullptr;`
`328`	`337`
	`338`	`+#if defined(__ARM_FEATURE_SME) \|\| defined(__ARM_FEATURE_DOTPROD) \|\| defined(__ARM_FEATURE_MATMUL_INT8)`
`329`	`339`	`for (size_t i = 0; i < NELEMS(gemm_gemv_kernels); ++i) {`
`330`	`340`	`if ((features & gemm_gemv_kernels[i].required_cpu) == gemm_gemv_kernels[i].required_cpu) {`
`331`	`341`	`kernels = &gemm_gemv_kernels[i];`
`332`	`342`	`break;`
`333`	`343`	`}`
`334`	`344`	`}`
	`345`	`+#endif`
`335`	`346`
`336`	`347`	`return kernels;`
`337`	`348`	`}`