kv-cache : bounds-check when accessing slot_info indices

ggerganov · ggerganov · commit f3da97e61b0e · 2025-07-02T15:49:18.000+03:00
diff --git a/src/llama-kv-cache-unified.cpp b/src/llama-kv-cache-unified.cpp
@@ -717,7 +717,7 @@ void llama_kv_cache_unified::apply_ubatch(const slot_info & sinfo, const llama_u
     assert(ubatch.n_tokens == sinfo.idxs.size());
 
     for (uint32_t i = 0; i < ubatch.n_tokens; ++i) {
-        const auto idx = sinfo.idxs[i];
+        const auto idx = sinfo.idxs.at(i);
 
         if (!cells.is_empty(idx)) {
             assert(cells.seq_count(idx) == 1);
@@ -915,7 +915,7 @@ void llama_kv_cache_unified::set_input_k_idxs(ggml_tensor * dst, const llama_uba
     int64_t * data = (int64_t *) dst->data;
 
     for (int64_t i = 0; i < n_tokens; ++i) {
-        data[i] = sinfo.idxs[i];
+        data[i] = sinfo.idxs.at(i);
     }
 }
 
@@ -930,7 +930,7 @@ void llama_kv_cache_unified::set_input_v_idxs(ggml_tensor * dst, const llama_uba
     int64_t * data = (int64_t *) dst->data;
 
     for (int64_t i = 0; i < n_tokens; ++i) {
-        data[i] = sinfo.idxs[i];
+        data[i] = sinfo.idxs.at(i);
     }
 }
 
diff --git a/src/llama-kv-cache-unified.h b/src/llama-kv-cache-unified.h
@@ -42,7 +42,7 @@ class llama_kv_cache_unified : public llama_memory_i {
         idx_vec_t idxs;
 
         uint32_t head() const {
-            return idxs[0];
+            return idxs.at(0);
         }
 
         bool empty() const {

Original file line number	Diff line number	Diff line change
`@@ -717,7 +717,7 @@ void llama_kv_cache_unified::apply_ubatch(const slot_info & sinfo, const llama_u`
`717`	`717`	`assert(ubatch.n_tokens == sinfo.idxs.size());`
`718`	`718`
`719`	`719`	`for (uint32_t i = 0; i < ubatch.n_tokens; ++i) {`
`720`		`- const auto idx = sinfo.idxs[i];`
	`720`	`+ const auto idx = sinfo.idxs.at(i);`
`721`	`721`
`722`	`722`	`if (!cells.is_empty(idx)) {`
`723`	`723`	`assert(cells.seq_count(idx) == 1);`
`@@ -915,7 +915,7 @@ void llama_kv_cache_unified::set_input_k_idxs(ggml_tensor * dst, const llama_uba`
`915`	`915`	`int64_t * data = (int64_t *) dst->data;`
`916`	`916`
`917`	`917`	`for (int64_t i = 0; i < n_tokens; ++i) {`
`918`		`- data[i] = sinfo.idxs[i];`
	`918`	`+ data[i] = sinfo.idxs.at(i);`
`919`	`919`	`}`
`920`	`920`	`}`
`921`	`921`
`@@ -930,7 +930,7 @@ void llama_kv_cache_unified::set_input_v_idxs(ggml_tensor * dst, const llama_uba`
`930`	`930`	`int64_t * data = (int64_t *) dst->data;`
`931`	`931`
`932`	`932`	`for (int64_t i = 0; i < n_tokens; ++i) {`
`933`		`- data[i] = sinfo.idxs[i];`
	`933`	`+ data[i] = sinfo.idxs.at(i);`
`934`	`934`	`}`
`935`	`935`	`}`
`936`	`936`
Original file line number	Diff line number	Diff line change
`@@ -42,7 +42,7 @@ class llama_kv_cache_unified : public llama_memory_i {`
`42`	`42`	`idx_vec_t idxs;`
`43`	`43`
`44`	`44`	`uint32_t head() const {`
`45`		`- return idxs[0];`
	`45`	`+ return idxs.at(0);`
`46`	`46`	`}`
`47`	`47`
`48`	`48`	`bool empty() const {`