ggml-org
diff --git a/‎common/common.cpp
Lines changed: 1 addition & 1 deletion b/‎common/common.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎common/sampling.cpp
Lines changed: 24 additions & 65 deletions b/‎common/sampling.cpp
Lines changed: 24 additions & 65 deletions
diff --git a/‎common/sampling.h
Lines changed: 3 additions & 5 deletions b/‎common/sampling.h
Lines changed: 3 additions & 5 deletions
diff --git a/‎examples/batched-bench/batched-bench.cpp
Lines changed: 1 addition & 1 deletion b/‎examples/batched-bench/batched-bench.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/batched/batched.cpp
Lines changed: 1 addition & 1 deletion b/‎examples/batched/batched.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/embedding/embedding.cpp
Lines changed: 1 addition & 1 deletion b/‎examples/embedding/embedding.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/eval-callback/eval-callback.cpp
Lines changed: 1 addition & 1 deletion b/‎examples/eval-callback/eval-callback.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/gbnf-validator/gbnf-validator.cpp
Lines changed: 5 additions & 24 deletions b/‎examples/gbnf-validator/gbnf-validator.cpp
Lines changed: 5 additions & 24 deletions
diff --git a/‎examples/imatrix/imatrix.cpp
Lines changed: 1 addition & 1 deletion b/‎examples/imatrix/imatrix.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/infill/infill.cpp
Lines changed: 4 additions & 4 deletions b/‎examples/infill/infill.cpp
Lines changed: 4 additions & 4 deletions
@@ -2127,7 +2127,7 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
         llama_decode(lctx, llama_batch_get_one(tmp.data(), std::min(tmp.size(), (size_t) params.n_batch), 0, 0));
         llama_kv_cache_clear(lctx);
         llama_synchronize(lctx);
-        llama_reset_timings(lctx, nullptr, nullptr);
+        llama_reset_timings(lctx, nullptr);
     }
 
     return std::make_tuple(model, lctx);
 
@@ -2,41 +2,20 @@
 
 #include <random>
 
-struct llama_sampling_context * llama_sampling_init(const struct llama_sampling_params & params, struct llama_sampling * smpl) {
-    struct llama_sampling_context * result = new llama_sampling_context();
-
-    result->params  = params;
-    result->smpl    = smpl;
-    result->grammar = nullptr;
+struct llama_sampling_context * llama_sampling_init(const struct llama_sampling_params & params, const struct llama_model * model) {
+    auto result = llama_sampling_init(params, llama_sampling_init(model, params.grammar.c_str(), "root"));
 
-    // if there is a grammar, parse it
-    if (!params.grammar.empty()) {
-        result->parsed_grammar = grammar_parser::parse(params.grammar.c_str());
+    result->owned = true;
 
-        // will be empty (default) if there are parse errors
-        if (result->parsed_grammar.rules.empty()) {
-            fprintf(stderr, "%s: failed to parse grammar\n", __func__);
-            delete result;
-            return nullptr;
-        }
+    return result;
+}
 
-        // Ensure that there is a "root" node.
-        if (result->parsed_grammar.symbol_ids.find("root") == result->parsed_grammar.symbol_ids.end()) {
-            fprintf(stderr, "%s: grammar does not contain a 'root' symbol\n", __func__);
-            delete result;
-            return nullptr;
-        }
+struct llama_sampling_context * llama_sampling_init(const struct llama_sampling_params & params, struct llama_sampling * smpl) {
+    struct llama_sampling_context * result = new llama_sampling_context();
 
-        std::vector<const llama_grammar_element *> grammar_rules(result->parsed_grammar.c_rules());
-
-        struct llama_grammar * grammar = llama_grammar_init(
-                grammar_rules.data(),
-                grammar_rules.size(), result->parsed_grammar.symbol_ids.at("root"));
-        if (grammar == nullptr) {
-            throw std::runtime_error("Failed to initialize llama_grammar");
-        }
-        result->grammar = grammar;
-    }
+    result->params = params;
+    result->owned  = false;
+    result->smpl   = smpl;
 
     result->prev.resize(params.n_prev);
 
@@ -48,46 +27,27 @@ struct llama_sampling_context * llama_sampling_init(const struct llama_sampling_
 }
 
 void llama_sampling_free(struct llama_sampling_context * ctx) {
-    if (ctx->grammar != NULL) {
-        llama_grammar_free(ctx->grammar);
+    if (ctx->owned) {
+        llama_sampling_free(ctx->smpl);
     }
 
     delete ctx;
 }
 
 void llama_sampling_reset(llama_sampling_context * ctx) {
-    if (ctx->grammar != NULL) {
-        llama_grammar_free(ctx->grammar);
-        ctx->grammar = NULL;
-    }
-
-    if (!ctx->parsed_grammar.rules.empty()) {
-        std::vector<const llama_grammar_element *> grammar_rules(ctx->parsed_grammar.c_rules());
-
-        struct llama_grammar * grammar = llama_grammar_init(
-                grammar_rules.data(),
-                grammar_rules.size(), ctx->parsed_grammar.symbol_ids.at("root"));
-        if (grammar == nullptr) {
-            throw std::runtime_error("Failed to initialize llama_grammar");
-        }
-        ctx->grammar = grammar;
-    }
+    llama_sampling_reset(ctx->smpl, ctx->params.grammar.c_str(), "root");
 
     std::fill(ctx->prev.begin(), ctx->prev.end(), 0);
     ctx->cur.clear();
     ctx->n_valid = 0;
 }
 
 void llama_sampling_cp(llama_sampling_context * src, llama_sampling_context * dst) {
-    if (dst->grammar) {
-        llama_grammar_free(dst->grammar);
-        dst->grammar = nullptr;
-    }
-
-    if (src->grammar) {
-        dst->grammar = llama_grammar_copy(src->grammar);
+    if (dst->smpl) {
+        llama_sampling_free(dst->smpl);
     }
 
+    dst->smpl = llama_sampling_cp(src->smpl);
     dst->prev = src->prev;
 }
 
@@ -277,7 +237,7 @@ static llama_token llama_sampling_sample_impl(
 
     std::vector<float> original_logits;
     auto cur_p = llama_sampling_prepare(ctx_sampling, ctx_main, ctx_cfg, idx, /* apply_grammar= */ is_resampling, &original_logits);
-    if (ctx_sampling->grammar != NULL && !is_resampling) {
+    if (!is_resampling) {
         GGML_ASSERT(!original_logits.empty());
     }
     llama_token id = 0;
@@ -320,7 +280,7 @@ static llama_token llama_sampling_sample_impl(
         }
     }
 
-    if (ctx_sampling->grammar != NULL && !is_resampling) {
+    if (!is_resampling) {
         // Get a pointer to the logits
         float * logits = llama_get_logits_ith(ctx_main, idx);
 
@@ -329,7 +289,7 @@ static llama_token llama_sampling_sample_impl(
         llama_token_data_array single_token_data_array = { &single_token_data, 1, false };
 
         // Apply grammar constraints to the single token
-        llama_grammar_sample(ctx_sampling->grammar, ctx_main, &single_token_data_array);
+        llama_sampling_grammar(ctx_sampling->smpl, &single_token_data_array);
 
         // Check if the token is valid according to the grammar by seeing if its logit has been set to -INFINITY
         bool is_valid = single_token_data_array.data[0].logit != -INFINITY;
@@ -376,7 +336,7 @@ static llama_token_data_array llama_sampling_prepare_impl(
     // Get a pointer to the logits
     float * logits = llama_get_logits_ith(ctx_main, idx);
 
-    if (ctx_sampling->grammar != NULL && !apply_grammar) {
+    if (!apply_grammar) {
         GGML_ASSERT(original_logits != NULL);
         // Only make a copy of the original logits if we are not applying grammar checks, not sure if I actually have to do this.
         *original_logits = {logits, logits + n_vocab};
@@ -421,8 +381,8 @@ static llama_token_data_array llama_sampling_prepare_impl(
     }
 
     // apply grammar checks before sampling logic
-    if (apply_grammar && ctx_sampling->grammar != NULL) {
-        llama_grammar_sample(ctx_sampling->grammar, ctx_main, &cur_p);
+    if (apply_grammar) {
+        llama_sampling_grammar(ctx_sampling->smpl, &cur_p);
     }
 
     return cur_p;
@@ -449,13 +409,12 @@ llama_token_data_array llama_sampling_prepare(
 
 void llama_sampling_accept(
         struct llama_sampling_context * ctx_sampling,
-        struct llama_context * ctx_main,
         llama_token id,
         bool apply_grammar) {
     ctx_sampling->prev.erase(ctx_sampling->prev.begin());
     ctx_sampling->prev.push_back(id);
 
-    if (ctx_sampling->grammar != NULL && apply_grammar) {
-        llama_grammar_accept_token(ctx_sampling->grammar, ctx_main, id);
+    if (apply_grammar) {
+        llama_sampling_accept(ctx_sampling->smpl, id);
     }
 }
@@ -71,11 +71,9 @@ struct llama_sampling_context {
     // mirostat sampler state
     float mirostat_mu;
 
-    llama_sampling * smpl;
-    llama_grammar * grammar;
+    bool owned;
 
-    // internal
-    grammar_parser::parse_state parsed_grammar;
+    llama_sampling * smpl;
 
     // TODO: replace with ring-buffer
     std::vector<llama_token>      prev;
@@ -87,6 +85,7 @@ struct llama_sampling_context {
 #include "common.h"
 
 // Create a new sampling context instance.
+struct llama_sampling_context * llama_sampling_init(const struct llama_sampling_params & params, const struct llama_model * model);
 struct llama_sampling_context * llama_sampling_init(const struct llama_sampling_params & params, struct llama_sampling * smpl);
 
 void llama_sampling_free(struct llama_sampling_context * ctx);
@@ -150,6 +149,5 @@ llama_token_data_array llama_sampling_prepare(
 
 void llama_sampling_accept(
         struct llama_sampling_context * ctx_sampling,
-        struct llama_context * ctx_main,
         llama_token id,
         bool apply_grammar);
@@ -200,7 +200,7 @@ int main(int argc, char ** argv) {
         }
     }
 
-    llama_print_timings(ctx, nullptr, nullptr);
+    llama_print_timings(ctx, nullptr);
 
     llama_batch_free(batch);
 
 
@@ -245,7 +245,7 @@ int main(int argc, char ** argv) {
     LOG_TEE("%s: decoded %d tokens in %.2f s, speed: %.2f t/s\n",
             __func__, n_decode, (t_main_end - t_main_start) / 1000000.0f, n_decode / ((t_main_end - t_main_start) / 1000000.0f));
 
-    llama_print_timings(ctx, smpl, nullptr);
+    llama_print_timings(ctx, smpl);
 
     fprintf(stderr, "\n");
 
 
@@ -258,7 +258,7 @@ int main(int argc, char ** argv) {
     }
 
     // clean up
-    llama_print_timings(ctx, nullptr, nullptr);
+    llama_print_timings(ctx, nullptr);
     llama_batch_free(batch);
     llama_free(ctx);
     llama_free_model(model);
 
@@ -182,7 +182,7 @@ int main(int argc, char ** argv) {
         return 1;
     }
 
-    llama_print_timings(ctx, nullptr, nullptr);
+    llama_print_timings(ctx, nullptr);
 
     llama_free(ctx);
     llama_free_model(model);
 
@@ -1,7 +1,7 @@
-#include "grammar-parser.h"
 #include "ggml.h"
 #include "llama.h"
-#include "llama-impl.h"
+#include "llama-vocab.h" // TMP
+#include "llama-grammar.h"
 #include "unicode.h"
 
 #include <cstdio>
@@ -84,27 +84,8 @@ int main(int argc, char** argv) {
         grammar_str = buffer.str();
     }
 
-    // Parse the GBNF grammar
-    auto parsed_grammar = grammar_parser::parse(grammar_str.c_str());
-
-    // will be empty (default) if there are parse errors
-    if (parsed_grammar.rules.empty()) {
-        fprintf(stdout, "%s: failed to parse grammar\n", __func__);
-        return 1;
-    }
-
-    // Ensure that there is a "root" node.
-    if (parsed_grammar.symbol_ids.find("root") == parsed_grammar.symbol_ids.end()) {
-        fprintf(stdout, "%s: grammar does not contain a 'root' symbol\n", __func__);
-        return 1;
-    }
-
-    std::vector<const llama_grammar_element *> grammar_rules(parsed_grammar.c_rules());
-
-    // Create the LLAMA grammar
-    auto grammar = llama_grammar_init(
-            grammar_rules.data(),
-            grammar_rules.size(), parsed_grammar.symbol_ids.at("root"));
+    llama_vocab vocab; // TMP
+    llama_grammar * grammar = llama_grammar_init_impl(vocab, grammar_str.c_str(), "root");
     if (grammar == nullptr) {
         throw std::runtime_error("Failed to initialize llama_grammar");
     }
@@ -130,7 +111,7 @@ int main(int argc, char** argv) {
     }
 
     // Clean up
-    llama_grammar_free(grammar);
+    llama_grammar_free_impl(grammar);
 
     return 0;
 }
@@ -638,7 +638,7 @@ int main(int argc, char ** argv) {
 
     g_collector.save_imatrix();
 
-    llama_print_timings(ctx, nullptr, nullptr);
+    llama_print_timings(ctx, nullptr);
 
     llama_free(ctx);
     llama_free_model(model);
 
@@ -93,7 +93,7 @@ static void sigint_handler(int signo) {
         } else {
             console::cleanup();
             printf("\n");
-            llama_print_timings(*g_ctx, (*g_ctx_sampling)->smpl, (*g_ctx_sampling)->grammar);
+            llama_print_timings(*g_ctx, (*g_ctx_sampling)->smpl);
             write_logfile(*g_ctx, *g_params, *g_model, *g_input_tokens, g_output_ss->str(), *g_output_tokens);
             _exit(130);
         }
@@ -422,7 +422,7 @@ int main(int argc, char ** argv) {
         if ((int) embd_inp.size() <= n_consumed && !is_interacting) {
             const llama_token id = llama_sampling_sample(ctx_sampling, ctx, nullptr);
 
-            llama_sampling_accept(ctx_sampling, ctx, id, true);
+            llama_sampling_accept(ctx_sampling, id, true);
 
             LOG("last: %s\n", LOG_TOKENS_TOSTR_PRETTY(ctx, ctx_sampling->prev).c_str());
 
@@ -443,7 +443,7 @@ int main(int argc, char ** argv) {
 
                 // push the prompt in the sampling context in order to apply repetition penalties later
                 // for the prompt, we don't apply grammar rules
-                llama_sampling_accept(ctx_sampling, ctx, embd_inp[n_consumed], false);
+                llama_sampling_accept(ctx_sampling, embd_inp[n_consumed], false);
 
                 ++n_consumed;
                 if ((int) embd.size() >= params.n_batch) {
@@ -637,7 +637,7 @@ int main(int argc, char ** argv) {
         fflush(stdout);
     }
 
-    llama_print_timings(ctx, ctx_sampling->smpl, ctx_sampling->grammar);
+    llama_print_timings(ctx, ctx_sampling->smpl);
     write_logfile(ctx, params, model, input_tokens, output_ss.str(), output_tokens);
 
     llama_free(ctx);
Original file line number	Diff line number	Diff line change
`@@ -2127,7 +2127,7 @@ std::tuple<struct llama_model , struct llama_context > llama_init_from_gpt_par`
`2127`	`2127`	`llama_decode(lctx, llama_batch_get_one(tmp.data(), std::min(tmp.size(), (size_t) params.n_batch), 0, 0));`
`2128`	`2128`	`llama_kv_cache_clear(lctx);`
`2129`	`2129`	`llama_synchronize(lctx);`
`2130`		`- llama_reset_timings(lctx, nullptr, nullptr);`
	`2130`	`+ llama_reset_timings(lctx, nullptr);`
`2131`	`2131`	`}`
`2132`	`2132`
`2133`	`2133`	`return std::make_tuple(model, lctx);`
Original file line number	Diff line number	Diff line change
`@@ -200,7 +200,7 @@ int main(int argc, char ** argv) {`
`200`	`200`	`}`
`201`	`201`	`}`
`202`	`202`
`203`		`- llama_print_timings(ctx, nullptr, nullptr);`
	`203`	`+ llama_print_timings(ctx, nullptr);`
`204`	`204`
`205`	`205`	`llama_batch_free(batch);`
`206`	`206`
Original file line number	Diff line number	Diff line change
`@@ -258,7 +258,7 @@ int main(int argc, char ** argv) {`
`258`	`258`	`}`
`259`	`259`
`260`	`260`	`// clean up`
`261`		`- llama_print_timings(ctx, nullptr, nullptr);`
	`261`	`+ llama_print_timings(ctx, nullptr);`
`262`	`262`	`llama_batch_free(batch);`
`263`	`263`	`llama_free(ctx);`
`264`	`264`	`llama_free_model(model);`
Original file line number	Diff line number	Diff line change
`@@ -182,7 +182,7 @@ int main(int argc, char ** argv) {`
`182`	`182`	`return 1;`
`183`	`183`	`}`
`184`	`184`
`185`		`- llama_print_timings(ctx, nullptr, nullptr);`
	`185`	`+ llama_print_timings(ctx, nullptr);`
`186`	`186`
`187`	`187`	`llama_free(ctx);`
`188`	`188`	`llama_free_model(model);`