Nexesenex
diff --git a/‎ggml/src/ggml-cuda/ggml-cuda.cu
Lines changed: 1 addition & 1 deletion b/‎ggml/src/ggml-cuda/ggml-cuda.cu
Lines changed: 1 addition & 1 deletion
diff --git a/‎gpttype_adapter.cpp
Lines changed: 3 additions & 2 deletions b/‎gpttype_adapter.cpp
Lines changed: 3 additions & 2 deletions
diff --git a/‎kcpp_adapters/AutoGuess.json
Lines changed: 24 additions & 24 deletions b/‎kcpp_adapters/AutoGuess.json
Lines changed: 24 additions & 24 deletions
@@ -221,7 +221,7 @@ static ggml_cuda_device_info ggml_cuda_init() {
 //#else
 //    GGML_LOG_INFO("%s: GGML_CUDA_FORCE_CUBLAS: no\n", __func__);
 //#endif // GGML_CUDA_FORCE_CUBLAS
-    GGML_LOG_INFO("---\nInitializing CUDA/HIP, please wait, the following step may take a few minutes (only for first launch)...\nJust a moment, Please Be Patient...\n---\n");
+    GGML_LOG_INFO("---\nInitializing CUDA/HIP, please wait, the following step may take a few minutes (only for first launch)...\n---\n");
     GGML_LOG_INFO("%s: found %d " GGML_CUDA_NAME " devices:\n", __func__, info.device_count);
     for (int id = 0; id < info.device_count; ++id) {
         int device_vmm = 0;
 
@@ -1942,8 +1942,8 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
         {
             printf("GLM-4 is broken on larger batch sizes in Vulkan. Clamp ignored in debug.\n");
         } else {
-            printf("GLM-4 is broken on larger batch sizes in Vulkan. Clamping ubatch size to 16.\n");
-            kcpp_data->n_ubatch = 16;
+            printf("GLM-4 is broken on larger batch sizes in Vulkan. Clamping ubatch size to 8.\n");
+            kcpp_data->n_ubatch = 8;
         }
     }
     #endif
@@ -2440,6 +2440,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
                 add_bos_token = false;
             }
         }
+        printf("Starting model warm up, please wait a moment...\n");
 
         //warmup at least 33 tokens to trigger batch
         std::vector<int> tmp;
 
@@ -14,25 +14,25 @@
     "search": ["<|im_start|>assistant", "<|im_end|>", "You are provided with function signatures within <tools>"],
     "name": "ChatML (Qwen 2.5 based).",
     "adapter": {
-        "system_start": "<|im_start|>system\n\n",
-        "system_end": "<|im_end|>\n\n",
-        "user_start": "<|im_start|>user\n\n",
-        "user_end": "<|im_end|>\n\n",
-        "assistant_start": "<|im_start|>assistant\n\n",
-        "assistant_end": "<|im_end|>\n\n",
+        "system_start": "<|im_start|>system\n",
+        "system_end": "<|im_end|>\n",
+        "user_start": "<|im_start|>user\n",
+        "user_end": "<|im_end|>\n",
+        "assistant_start": "<|im_start|>assistant\n",
+        "assistant_end": "<|im_end|>\n",
         "tools_start": "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n\n<tools>\n",
         "tools_end": "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n"
     }
 }, {
     "search": ["<|im_start|>assistant", "<|im_end|>"],
     "name": "ChatML (Generic).",
     "adapter": {
-        "system_start": "<|im_start|>system\n\n",
-        "system_end": "<|im_end|>\n\n",
-        "user_start": "<|im_start|>user\n\n",
-        "user_end": "<|im_end|>\n\n",
-        "assistant_start": "<|im_start|>assistant\n\n",
-        "assistant_end": "<|im_end|>\n\n"
+        "system_start": "<|im_start|>system\n",
+        "system_end": "<|im_end|>\n",
+        "user_start": "<|im_start|>user\n",
+        "user_end": "<|im_end|>\n",
+        "assistant_start": "<|im_start|>assistant\n",
+        "assistant_end": "<|im_end|>\n"
     }
 }, {
     "search": ["System role not supported", "<start_of_turn>"],
@@ -61,11 +61,11 @@
     "name": "Llama 3.x.",
     "adapter": {
         "system_start": "<|start_header_id|>system<|end_header_id|>\n\n",
-        "system_end": "<|eot_id|>\n\n",
+        "system_end": "<|eot_id|>",
         "user_start": "<|start_header_id|>user<|end_header_id|>\n\n",
-        "user_end": "<|eot_id|>\n\n",
+        "user_end": "<|eot_id|>",
         "assistant_start": "<|start_header_id|>assistant<|end_header_id|>\n\n",
-        "assistant_end": "<|eot_id|>\n\n"
+        "assistant_end": "<|eot_id|>"
     }
 }, {
     "search": ["<|header_start|>assistant<|header_end|>"],
@@ -82,22 +82,22 @@
     "search": ["[/INST]", "[SYSTEM_PROMPT]"],
     "name": "Mistral V7 (with system prompt)",
     "adapter": {
-        "system_start": "[SYSTEM_PROMPT] ",
+        "system_start": "[SYSTEM_PROMPT]",
         "system_end": "[/SYSTEM_PROMPT]",
-        "user_start": "[INST] ",
-        "user_end": "[/INST]",
-        "assistant_start": " ",
+        "user_start": "[INST]",
+        "user_end": "",
+        "assistant_start": "[/INST]",
         "assistant_end": "</s>"
     }
 }, {
     "search": ["[/INST]", "\"[INST] \" + system_message"],
     "name": "Mistral V3",
     "adapter": {
         "system_start": "[INST] ",
-        "system_end": "[/INST] ",
+        "system_end": "[/INST]",
         "user_start": "[INST] ",
-        "user_end": "[/INST] ",
-        "assistant_start": "",
+        "user_end": "",
+        "assistant_start": "[/INST]",
         "assistant_end": "</s>"
     }
 }, {
@@ -107,8 +107,8 @@
         "system_start": "[INST]",
         "system_end": "[/INST]\n",
         "user_start": "[INST]",
-        "user_end": "[/INST]\n",
-        "assistant_start": "",
+        "user_end": "",
+        "assistant_start": "[/INST]\n",
         "assistant_end": "</s>"
     }
 }, {
Original file line number	Diff line number	Diff line change
`@@ -1942,8 +1942,8 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`1942`	`1942`	`{`
`1943`	`1943`	`printf("GLM-4 is broken on larger batch sizes in Vulkan. Clamp ignored in debug.\n");`
`1944`	`1944`	`} else {`
`1945`		`- printf("GLM-4 is broken on larger batch sizes in Vulkan. Clamping ubatch size to 16.\n");`
`1946`		`- kcpp_data->n_ubatch = 16;`
	`1945`	`+ printf("GLM-4 is broken on larger batch sizes in Vulkan. Clamping ubatch size to 8.\n");`
	`1946`	`+ kcpp_data->n_ubatch = 8;`
`1947`	`1947`	`}`
`1948`	`1948`	`}`
`1949`	`1949`	`#endif`
`@@ -2440,6 +2440,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`2440`	`2440`	`add_bos_token = false;`
`2441`	`2441`	`}`
`2442`	`2442`	`}`
	`2443`	`+ printf("Starting model warm up, please wait a moment...\n");`
`2443`	`2444`
`2444`	`2445`	`//warmup at least 33 tokens to trigger batch`
`2445`	`2446`	`std::vector<int> tmp;`