token healing : change argument order

mare5x · mare5x · commit 50af2fce192c · 2024-07-08T10:31:26.000+02:00
diff --git a/common/sampling.cpp b/common/sampling.cpp
@@ -128,8 +128,8 @@ static llama_token_healing_output llama_token_healing_get_prefix(
 
 llama_token_healing_output llama_token_healing_rollback(
                            const llama_context * ctx_main,
-                           llama_token_healing_type th_type,
                            std::vector<llama_token> & tokens,
+                           llama_token_healing_type th_type,
                            int max_to_remove) {
     // NB. To avoid returning empty `tokens`, at least 1 token will remain in `tokens` after rolling back.
     //     It is the caller's responsibility to add BOS to the start of the prompt if they want to roll back the whole prompt.
diff --git a/common/sampling.h b/common/sampling.h
@@ -189,8 +189,8 @@ struct llama_token_healing_output {
 // Call `llama_token_healing_set_prefix` with the returned prefix before the first sampling.
 llama_token_healing_output llama_token_healing_rollback(
                            const llama_context * ctx_main,
-                           llama_token_healing_type th_type,
                            std::vector<llama_token> & tokens,
+                           llama_token_healing_type th_type,
                            int max_to_remove = -1);
 
 void llama_token_healing_set_prefix(llama_sampling_context * ctx_sampling, const std::string & prefix);
diff --git a/examples/main/main.cpp b/examples/main/main.cpp
@@ -293,8 +293,8 @@ int main(int argc, char ** argv) {
     }
     llama_token_healing_output token_healing_out{};
     if (!params.interactive_first && sparams.token_healing.enabled) {
-        token_healing_out = llama_token_healing_rollback(ctx, sparams.token_healing.type, embd_inp,
-                                                              sparams.token_healing.n_rollback);
+        token_healing_out = llama_token_healing_rollback(ctx, embd_inp,
+            sparams.token_healing.type, sparams.token_healing.n_rollback);
     }
 
     // Should not run without any tokens
@@ -953,7 +953,7 @@ int main(int argc, char ** argv) {
                         const int max_to_remove = sparams.token_healing.n_rollback < 0
                                                    ? n_new_tokens
                                                    : std::min(sparams.token_healing.n_rollback, n_new_tokens);
-                        token_healing_out = llama_token_healing_rollback(ctx, sparams.token_healing.type, embd_inp, max_to_remove);
+                        token_healing_out = llama_token_healing_rollback(ctx, embd_inp, sparams.token_healing.type, max_to_remove);
                         n_bytes_to_skip = token_healing_out.prefix.size();
                     }
 
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -2076,8 +2076,8 @@ struct server_context {
 
                             if (slot.sparams.token_healing.enabled) {
                                 // For FIM roll back only the prefix part (i.e. cursor location)
-                                token_healing_out = llama_token_healing_rollback(ctx, slot.sparams.token_healing.type,
-                                    prefix_tokens, slot.sparams.token_healing.n_rollback);
+                                token_healing_out = llama_token_healing_rollback(ctx, prefix_tokens,
+                                    slot.sparams.token_healing.type, slot.sparams.token_healing.n_rollback);
                             }
 
                             auto embd_inp = params.spm_infill ? suffix_tokens : prefix_tokens;
@@ -2097,8 +2097,8 @@ struct server_context {
                             prompt_tokens = tokenize(slot.prompt, system_prompt.empty()); // add BOS if there isn't system prompt
 
                             if (slot.sparams.token_healing.enabled) {
-                                token_healing_out = llama_token_healing_rollback(ctx, slot.sparams.token_healing.type,
-                                    prompt_tokens, slot.sparams.token_healing.n_rollback);
+                                token_healing_out = llama_token_healing_rollback(ctx, prompt_tokens,
+                                    slot.sparams.token_healing.type, slot.sparams.token_healing.n_rollback);
                             }
                         }
 

Original file line number	Diff line number	Diff line change
`@@ -293,8 +293,8 @@ int main(int argc, char ** argv) {`
`293`	`293`	`}`
`294`	`294`	`llama_token_healing_output token_healing_out{};`
`295`	`295`	`if (!params.interactive_first && sparams.token_healing.enabled) {`
`296`		`- token_healing_out = llama_token_healing_rollback(ctx, sparams.token_healing.type, embd_inp,`
`297`		`- sparams.token_healing.n_rollback);`
	`296`	`+ token_healing_out = llama_token_healing_rollback(ctx, embd_inp,`
	`297`	`+ sparams.token_healing.type, sparams.token_healing.n_rollback);`
`298`	`298`	`}`
`299`	`299`
`300`	`300`	`// Should not run without any tokens`
`@@ -953,7 +953,7 @@ int main(int argc, char ** argv) {`
`953`	`953`	`const int max_to_remove = sparams.token_healing.n_rollback < 0`
`954`	`954`	`? n_new_tokens`
`955`	`955`	`: std::min(sparams.token_healing.n_rollback, n_new_tokens);`
`956`		`- token_healing_out = llama_token_healing_rollback(ctx, sparams.token_healing.type, embd_inp, max_to_remove);`
	`956`	`+ token_healing_out = llama_token_healing_rollback(ctx, embd_inp, sparams.token_healing.type, max_to_remove);`
`957`	`957`	`n_bytes_to_skip = token_healing_out.prefix.size();`
`958`	`958`	`}`
`959`	`959`
Original file line number	Diff line number	Diff line change
`@@ -2076,8 +2076,8 @@ struct server_context {`
`2076`	`2076`
`2077`	`2077`	`if (slot.sparams.token_healing.enabled) {`
`2078`	`2078`	`// For FIM roll back only the prefix part (i.e. cursor location)`
`2079`		`- token_healing_out = llama_token_healing_rollback(ctx, slot.sparams.token_healing.type,`
`2080`		`- prefix_tokens, slot.sparams.token_healing.n_rollback);`
	`2079`	`+ token_healing_out = llama_token_healing_rollback(ctx, prefix_tokens,`
	`2080`	`+ slot.sparams.token_healing.type, slot.sparams.token_healing.n_rollback);`
`2081`	`2081`	`}`
`2082`	`2082`
`2083`	`2083`	`auto embd_inp = params.spm_infill ? suffix_tokens : prefix_tokens;`
`@@ -2097,8 +2097,8 @@ struct server_context {`
`2097`	`2097`	`prompt_tokens = tokenize(slot.prompt, system_prompt.empty()); // add BOS if there isn't system prompt`
`2098`	`2098`
`2099`	`2099`	`if (slot.sparams.token_healing.enabled) {`
`2100`		`- token_healing_out = llama_token_healing_rollback(ctx, slot.sparams.token_healing.type,`
`2101`		`- prompt_tokens, slot.sparams.token_healing.n_rollback);`
	`2100`	`+ token_healing_out = llama_token_healing_rollback(ctx, prompt_tokens,`
	`2101`	`+ slot.sparams.token_healing.type, slot.sparams.token_healing.n_rollback);`
`2102`	`2102`	`}`
`2103`	`2103`	`}`
`2104`	`2104`