quantize : handle user-defined pruning of whole layers (blocks) (ggml-org#13037)

EAddario · qnixsynapse · commit f50e66cf8975 · 2025-07-10T08:06:18.000+05:30
diff --git a/include/llama.h b/include/llama.h
@@ -390,6 +390,7 @@ extern "C" {
         void * imatrix;                       // pointer to importance matrix data
         void * kv_overrides;                  // pointer to vector containing overrides
         void * tensor_types;                  // pointer to vector containing tensor types
+        void * prune_layers;                  // pointer to vector containing layer indices to prune
     } llama_model_quantize_params;
 
     typedef struct llama_logit_bias {