kv-cache : simplify interface (wip)

ggerganov · ggerganov · commit 6b50ba752ce5 · 2025-05-02T13:25:35.000+03:00
ggml-ci
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -1108,7 +1108,7 @@ int llama_context::decode(llama_batch & inp_batch) {
 
     // decide if we need to defrag the kv cache
     if (cparams.defrag_thold > 0.0f) {
-        kv_self->defrag(cparams.defrag_thold);
+        kv_self->defrag_sched(cparams.defrag_thold);
     }
 
     // Reset state for the next token before backend sync, to allow the CPU activities in the reset to
@@ -2150,7 +2150,7 @@ void llama_kv_cache_seq_cp(
          llama_seq_id   seq_id_dst,
             llama_pos   p0,
             llama_pos   p1) {
-    return llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);
+    llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);
 }
 
 void llama_kv_self_seq_cp(
@@ -2164,14 +2164,14 @@ void llama_kv_self_seq_cp(
         return;
     }
 
-    return kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);
+    kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);
 }
 
 // deprecated
 void llama_kv_cache_seq_keep(
         llama_context * ctx,
          llama_seq_id   seq_id) {
-    return llama_kv_self_seq_keep(ctx, seq_id);
+    llama_kv_self_seq_keep(ctx, seq_id);
 }
 
 void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {
@@ -2180,7 +2180,7 @@ void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {
         return;
     }
 
-    return kv->seq_keep(seq_id);
+    kv->seq_keep(seq_id);
 }
 
 // deprecated
@@ -2190,7 +2190,7 @@ void llama_kv_cache_seq_add(
             llama_pos   p0,
             llama_pos   p1,
             llama_pos   delta) {
-    return llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);
+    llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);
 }
 
 void llama_kv_self_seq_add(
@@ -2204,7 +2204,7 @@ void llama_kv_self_seq_add(
         return;
     }
 
-    return kv->seq_add(seq_id, p0, p1, delta);
+    kv->seq_add(seq_id, p0, p1, delta);
 }
 
 // deprecated
@@ -2214,7 +2214,7 @@ void llama_kv_cache_seq_div(
             llama_pos   p0,
             llama_pos   p1,
                   int   d) {
-    return llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);
+    llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);
 }
 
 void llama_kv_self_seq_div(
@@ -2228,7 +2228,7 @@ void llama_kv_self_seq_div(
         return;
     }
 
-    return kv->seq_div(seq_id, p0, p1, d);
+    kv->seq_div(seq_id, p0, p1, d);
 }
 
 // deprecated
@@ -2247,7 +2247,7 @@ llama_pos llama_kv_self_seq_pos_max(llama_context * ctx, llama_seq_id seq_id) {
 
 // deprecated
 void llama_kv_cache_defrag(llama_context * ctx) {
-    return llama_kv_self_defrag(ctx);
+    llama_kv_self_defrag(ctx);
 }
 
 void llama_kv_self_defrag(llama_context * ctx) {
@@ -2257,7 +2257,7 @@ void llama_kv_self_defrag(llama_context * ctx) {
     }
 
     // force defrag
-    return kv->defrag(-1.0f);
+    kv->defrag_sched(-1.0f);
 }
 
 // deprecated
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
@@ -284,24 +284,7 @@ void llm_graph_input_s_copy::set_input(const llama_ubatch * ubatch) {
 
         // assuming copy destinations ALWAYS happen ONLY on the cells between head and head+n
         for (uint32_t i = 0; i < n_kv; ++i) {
-            const uint32_t  cell_id = i + kv_self->head;
-
-            //////////////////////////////////////////////
-            // TODO: this should not mutate the KV cache !
-            llama_kv_cell & kv_cell = const_cast<class llama_kv_cache_recurrent *>(kv_self)->cells[i];
-
-            // prevent out-of-bound sources
-            if (kv_cell.src < 0 || (uint32_t) kv_cell.src >= kv_self->size) {
-                kv_cell.src = cell_id;
-            }
-
-            data[i] = kv_cell.src;
-
-            // TODO: do not mutate the KV cache
-            // ensure copy only happens once
-            if (kv_cell.src != (int32_t) cell_id) {
-                kv_cell.src = cell_id;
-            }
+            data[i] = kv_self->s_copy(i);
         }
     }
 }
@@ -317,18 +300,7 @@ void llm_graph_input_s_mask::set_input(const llama_ubatch * ubatch) {
 
         // clear unused states
         for (int i = 0; i < n_kv; ++i) {
-            const uint32_t  cell_id = i + kv_self->head;
-
-            //////////////////////////////////////////////
-            // TODO: this should not mutate the KV cache !
-            llama_kv_cell & kv_cell = const_cast<class llama_kv_cache_recurrent *>(kv_self)->cells[i];
-
-            data[i] = (float) (kv_cell.src >= 0);
-
-            // only clear once
-            if (kv_cell.src < 0) {
-                kv_cell.src = cell_id;
-            }
+            data[i] = kv_self->s_mask(i);
         }
     }
 }
diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -130,14 +130,6 @@ int32_t llama_kv_cache_unified::get_used_cells() const {
     return used;
 }
 
-bool llama_kv_cache_unified::get_has_shift() const {
-    return has_shift;
-}
-
-bool llama_kv_cache_unified::get_do_defrag() const {
-    return do_defrag;
-}
-
 size_t llama_kv_cache_unified::total_size() const {
     size_t size = 0;
     for (const auto & buf : bufs) {
@@ -358,10 +350,10 @@ llama_pos llama_kv_cache_unified::seq_pos_max(llama_seq_id seq_id) const {
     return result;
 }
 
-void llama_kv_cache_unified::defrag(float thold) {
+void llama_kv_cache_unified::defrag_sched(float thold) {
     // - do not defrag small contexts (i.e. < 2048 tokens)
     // - count the padding towards the number of used tokens
-    const float fragmentation = n >= 2048 ? std::max(0.0f, 1.0f - float(used + padding)/float(n)) : 0.0f;
+    const float fragmentation = n >= 2048 ? std::max(0.0f, 1.0f - (float(used + padding)/n)) : 0.0f;
 
     // queue defragmentation for next llama_kv_cache_update
     if (fragmentation > thold) {
@@ -699,7 +691,7 @@ bool llama_kv_cache_unified::update(const graph_params & params) {
 
     const auto & sched = params.sched;
 
-    if (get_has_shift()) {
+    if (has_shift) {
         if (!get_can_shift()) {
             GGML_ABORT("The current KV cache / model configuration does not support K-shift");
         }
@@ -732,7 +724,7 @@ bool llama_kv_cache_unified::update(const graph_params & params) {
         }
     }
 
-    if (get_do_defrag()) {
+    if (do_defrag) {
         LLAMA_LOG_DEBUG("%s: defragmenting KV cache\n", __func__);
 
         if (defrag_prepare(params.n_max_nodes)) {
@@ -1496,14 +1488,6 @@ int32_t llama_kv_cache_recurrent::get_used_cells() const {
     return used;
 }
 
-bool llama_kv_cache_recurrent::get_has_shift() const {
-    return false;
-}
-
-bool llama_kv_cache_recurrent::get_do_defrag() const {
-    return false;
-}
-
 size_t llama_kv_cache_recurrent::total_size() const {
     size_t size = 0;
     for (const auto & buf : bufs) {
@@ -1716,7 +1700,7 @@ llama_pos llama_kv_cache_recurrent::seq_pos_max(llama_seq_id seq_id) const {
     return result;
 }
 
-void llama_kv_cache_recurrent::defrag(float thold) {
+void llama_kv_cache_recurrent::defrag_sched(float thold) {
     GGML_UNUSED(thold);
     // noop
 }
@@ -1742,6 +1726,46 @@ bool llama_kv_cache_recurrent::get_can_shift() const {
     return false;
 }
 
+int32_t llama_kv_cache_recurrent::s_copy(int i) const {
+    const uint32_t cell_id = i + head;
+
+    //////////////////////////////////////////////
+    // TODO: this should not mutate the KV cache !
+    llama_kv_cell & kv_cell = const_cast<llama_kv_cell &>(cells[i]);
+
+    // prevent out-of-bound sources
+    if (kv_cell.src < 0 || (uint32_t) kv_cell.src >= size) {
+        kv_cell.src = cell_id;
+    }
+
+    int32_t res = kv_cell.src;
+
+    // TODO: do not mutate the KV cache
+    // ensure copy only happens once
+    if (kv_cell.src != (int32_t) cell_id) {
+        kv_cell.src = cell_id;
+    }
+
+    return res;
+}
+
+float llama_kv_cache_recurrent::s_mask(int i) const {
+    const uint32_t cell_id = i + head;
+
+    //////////////////////////////////////////////
+    // TODO: this should not mutate the KV cache !
+    llama_kv_cell & kv_cell = const_cast<llama_kv_cell &>(cells[i]);
+
+    float res = (float) (kv_cell.src >= 0);
+
+    // only clear once
+    if (kv_cell.src < 0) {
+        kv_cell.src = cell_id;
+    }
+
+    return res;
+}
+
 bool llama_kv_cache_recurrent::find_slot(
        const llama_ubatch & ubatch) {
     const uint32_t n_tokens = ubatch.n_tokens;
diff --git a/src/llama-kv-cache.h b/src/llama-kv-cache.h

Original file line number	Diff line number	Diff line change
`@@ -1108,7 +1108,7 @@ int llama_context::decode(llama_batch & inp_batch) {`
`1108`	`1108`
`1109`	`1109`	`// decide if we need to defrag the kv cache`
`1110`	`1110`	`if (cparams.defrag_thold > 0.0f) {`
`1111`		`- kv_self->defrag(cparams.defrag_thold);`
	`1111`	`+ kv_self->defrag_sched(cparams.defrag_thold);`
`1112`	`1112`	`}`
`1113`	`1113`
`1114`	`1114`	`// Reset state for the next token before backend sync, to allow the CPU activities in the reset to`
`@@ -2150,7 +2150,7 @@ void llama_kv_cache_seq_cp(`
`2150`	`2150`	`llama_seq_id seq_id_dst,`
`2151`	`2151`	`llama_pos p0,`
`2152`	`2152`	`llama_pos p1) {`
`2153`		`- return llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);`
	`2153`	`+ llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);`
`2154`	`2154`	`}`
`2155`	`2155`
`2156`	`2156`	`void llama_kv_self_seq_cp(`
`@@ -2164,14 +2164,14 @@ void llama_kv_self_seq_cp(`
`2164`	`2164`	`return;`
`2165`	`2165`	`}`
`2166`	`2166`
`2167`		`- return kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);`
	`2167`	`+ kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);`
`2168`	`2168`	`}`
`2169`	`2169`
`2170`	`2170`	`// deprecated`
`2171`	`2171`	`void llama_kv_cache_seq_keep(`
`2172`	`2172`	`llama_context * ctx,`
`2173`	`2173`	`llama_seq_id seq_id) {`
`2174`		`- return llama_kv_self_seq_keep(ctx, seq_id);`
	`2174`	`+ llama_kv_self_seq_keep(ctx, seq_id);`
`2175`	`2175`	`}`
`2176`	`2176`
`2177`	`2177`	`void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {`
`@@ -2180,7 +2180,7 @@ void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {`
`2180`	`2180`	`return;`
`2181`	`2181`	`}`
`2182`	`2182`
`2183`		`- return kv->seq_keep(seq_id);`
	`2183`	`+ kv->seq_keep(seq_id);`
`2184`	`2184`	`}`
`2185`	`2185`
`2186`	`2186`	`// deprecated`
`@@ -2190,7 +2190,7 @@ void llama_kv_cache_seq_add(`
`2190`	`2190`	`llama_pos p0,`
`2191`	`2191`	`llama_pos p1,`
`2192`	`2192`	`llama_pos delta) {`
`2193`		`- return llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);`
	`2193`	`+ llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);`
`2194`	`2194`	`}`
`2195`	`2195`
`2196`	`2196`	`void llama_kv_self_seq_add(`
`@@ -2204,7 +2204,7 @@ void llama_kv_self_seq_add(`
`2204`	`2204`	`return;`
`2205`	`2205`	`}`
`2206`	`2206`
`2207`		`- return kv->seq_add(seq_id, p0, p1, delta);`
	`2207`	`+ kv->seq_add(seq_id, p0, p1, delta);`
`2208`	`2208`	`}`
`2209`	`2209`
`2210`	`2210`	`// deprecated`
`@@ -2214,7 +2214,7 @@ void llama_kv_cache_seq_div(`
`2214`	`2214`	`llama_pos p0,`
`2215`	`2215`	`llama_pos p1,`
`2216`	`2216`	`int d) {`
`2217`		`- return llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);`
	`2217`	`+ llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);`
`2218`	`2218`	`}`
`2219`	`2219`
`2220`	`2220`	`void llama_kv_self_seq_div(`
`@@ -2228,7 +2228,7 @@ void llama_kv_self_seq_div(`
`2228`	`2228`	`return;`
`2229`	`2229`	`}`
`2230`	`2230`
`2231`		`- return kv->seq_div(seq_id, p0, p1, d);`
	`2231`	`+ kv->seq_div(seq_id, p0, p1, d);`
`2232`	`2232`	`}`
`2233`	`2233`
`2234`	`2234`	`// deprecated`
`@@ -2247,7 +2247,7 @@ llama_pos llama_kv_self_seq_pos_max(llama_context * ctx, llama_seq_id seq_id) {`
`2247`	`2247`
`2248`	`2248`	`// deprecated`
`2249`	`2249`	`void llama_kv_cache_defrag(llama_context * ctx) {`
`2250`		`- return llama_kv_self_defrag(ctx);`
	`2250`	`+ llama_kv_self_defrag(ctx);`
`2251`	`2251`	`}`
`2252`	`2252`
`2253`	`2253`	`void llama_kv_self_defrag(llama_context * ctx) {`
`@@ -2257,7 +2257,7 @@ void llama_kv_self_defrag(llama_context * ctx) {`
`2257`	`2257`	`}`
`2258`	`2258`
`2259`	`2259`	`// force defrag`
`2260`		`- return kv->defrag(-1.0f);`
	`2260`	`+ kv->defrag_sched(-1.0f);`
`2261`	`2261`	`}`
`2262`	`2262`
`2263`	`2263`	`// deprecated`