huggingface
diff --git a/‎README.md
Lines changed: 68 additions & 4 deletions b/‎README.md
Lines changed: 68 additions & 4 deletions
diff --git a/‎package-lock.json
Lines changed: 51 additions & 1 deletion b/‎package-lock.json
Lines changed: 51 additions & 1 deletion
diff --git a/‎package.json
Lines changed: 1 addition & 0 deletions b/‎package.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/lib/buildPrompt.ts
Lines changed: 14 additions & 30 deletions b/‎src/lib/buildPrompt.ts
Lines changed: 14 additions & 30 deletions
diff --git a/‎src/lib/server/models.ts
Lines changed: 50 additions & 2 deletions b/‎src/lib/server/models.ts
Lines changed: 50 additions & 2 deletions
diff --git a/‎src/lib/server/websearch/generateQuery.ts
Lines changed: 3 additions & 15 deletions b/‎src/lib/server/websearch/generateQuery.ts
Lines changed: 3 additions & 15 deletions
diff --git a/‎src/lib/server/websearch/summarizeWeb.ts
Lines changed: 7 additions & 12 deletions b/‎src/lib/server/websearch/summarizeWeb.ts
Lines changed: 7 additions & 12 deletions
@@ -120,9 +120,8 @@ MODELS=`[
     "websiteUrl": "https://open-assistant.io",
     "userMessageToken": "<|prompter|>", # This does not need to be a token, can be any string
     "assistantMessageToken": "<|assistant|>", # This does not need to be a token, can be any string
-    "messageEndToken": "<|endoftext|>", # This does not need to be a token, can be any string
-    # "userMessageEndToken": "", # Applies only to user messages, messageEndToken has no effect if specified. Can be any string.
-    # "assistantMessageEndToken": "", # Applies only to assistant messages, messageEndToken has no effect if specified. Can be any string.
+    "userMessageEndToken": "<|endoftext|>", # Applies only to user messages. Can be any string.
+    "assistantMessageEndToken": "<|endoftext|>", # Applies only to assistant messages. Can be any string.
     "preprompt": "Below are a series of dialogues between various people and an AI assistant. The AI tries to be helpful, polite, honest, sophisticated, emotionally aware, and humble-but-knowledgeable. The assistant is happy to help with almost anything, and will do its best to understand exactly what is needed. It also tries to avoid giving false or misleading information, and it caveats when it isn't entirely sure about the right answer. That said, the assistant is practical and really does its best, and doesn't let caution get too much in the way of being useful.\n-----\n",
     "promptExamples": [
       {
@@ -152,7 +151,72 @@ MODELS=`[
 
 You can change things like the parameters, or customize the preprompt to better suit your needs. You can also add more models by adding more objects to the array, with different preprompts for example.
 
-### Running your own models using a custom endpoint
+#### Custom prompt templates:
+
+By default the prompt is constructed using `userMessageToken`, `assistantMessageToken`, `userMessageEndToken`, `assistantMessageEndToken`, `preprompt` parameters and a series of default templates.
+
+However, these templates can be modified by setting the `chatPromptTemplate`, `webSearchSummaryPromptTemplate`, and `webSearchQueryPromptTemplate` parameters. Note that if WebSearch is not enabled, only `chatPromptTemplate` needs to be set. The template language is https://handlebarsjs.com. The templates have access to the model's prompt parameters (`preprompt`, etc.). However, if the templates are specified it is recommended to inline the prompt parameters, as using the references (`{{preprompt}}`) is deprecated.
+
+For example:
+
+```
+<System>You are an AI, called ChatAI.</System>
+{{#each messages}}
+  {{#ifUser}}<User>{{content}}</User>{{/ifUser}}
+  {{#ifAssistant}}<Assistant>{{content}}</Assistant>{{/ifAssistant}}
+{{/each}}
+<Assistant>
+```
+
+**chatPromptTemplate**
+
+When quering the model for a chat response, the `chatPromptTemplate` template is used. `messages` is an array of chat messages, it has the format `[{ content: string }, ...]`. To idenify if a message is a user message or an assistant message the `ifUser` and `ifAssistant` block helpers can be used.
+
+The following is the default `chatPromptTemplate`, although newlines and indentiation have been added for readability.
+
+```
+{{preprompt}}
+{{#each messages}}
+  {{#ifUser}}{{@root.userMessageToken}}{{content}}{{@root.userMessageEndToken}}{{/ifUser}}
+  {{#ifAssistant}}{{@root.assistantMessageToken}}{{content}}{{@root.assistantMessageEndToken}}{{/ifAssistant}}
+{{/each}}
+{{assistantMessageToken}}
+```
+
+**webSearchQueryPromptTemplate**
+
+When performing a websearch, the search query is constructed using the `webSearchQueryPromptTemplate` template. It is recommended that that the prompt instructs the chat model to only return a few keywords.
+
+The following is the default `webSearchQueryPromptTemplate`. Note that not all models supports consecutive user-messages which this template uses.
+
+```
+{{userMessageToken}}
+  The following messages were written by a user, trying to answer a question.
+{{userMessageEndToken}}
+{{#each messages}}
+  {{#ifUser}}{{@root.userMessageToken}}{{content}}{{@root.userMessageEndToken}}{{/ifUser}}
+{{/each}}
+{{userMessageToken}}
+  What plain-text english sentence would you input into Google to answer the last question? Answer with a short (10 words max) simple sentence.
+{{userMessageEndToken}}
+{{assistantMessageToken}}Query:
+```
+
+**webSearchSummaryPromptTemplate**
+
+The search-engine response (`answer`) is summarized using the following prompt template. However, when `HF_ACCESS_TOKEN` is provided, a dedicated summary model is used instead. Additionally, the model's `query` response to `webSearchQueryPromptTemplate` is also available to this template.
+
+The following is the default `webSearchSummaryPromptTemplate`. Note that not all models supports consecutive user-messages which this template uses.
+
+```
+{{userMessageToken}}{{answer}}{{userMessageEndToken}}
+{{userMessageToken}}
+  The text above should be summarized to best answer the query: {{query}}.
+{{userMessageEndToken}}
+{{assistantMessageToken}}Summary:
+```
+
+#### Running your own models using a custom endpoint
 
 If you want to, instead of hitting models on the Hugging Face Inference API, you can run your own models locally.
 
 
@@ -46,6 +46,7 @@
 		"aws4fetch": "^1.0.17",
 		"date-fns": "^2.29.3",
 		"dotenv": "^16.0.3",
+		"handlebars": "^4.7.8",
 		"highlight.js": "^11.7.0",
 		"jsdom": "^22.0.0",
 		"marked": "^4.3.0",
 
@@ -13,24 +13,6 @@ export async function buildPrompt(
 	model: BackendModel,
 	webSearchId?: string
 ): Promise<string> {
-	const userEndToken = model.userMessageEndToken ?? model.messageEndToken;
-	const assistantEndToken = model.assistantMessageEndToken ?? model.messageEndToken;
-
-	const prompt =
-		messages
-			.map((m) =>
-				m.from === "user"
-					? model.userMessageToken +
-					  m.content +
-					  (m.content.endsWith(userEndToken) ? "" : userEndToken)
-					: model.assistantMessageToken +
-					  m.content +
-					  (m.content.endsWith(assistantEndToken) ? "" : assistantEndToken)
-			)
-			.join("") + model.assistantMessageToken;
-
-	let webPrompt = "";
-
 	if (webSearchId) {
 		const webSearch = await collections.webSearches.findOne({
 			_id: new ObjectId(webSearchId),
@@ -39,20 +21,22 @@ export async function buildPrompt(
 		if (!webSearch) throw new Error("Web search not found");
 
 		if (webSearch.summary) {
-			webPrompt =
-				model.assistantMessageToken +
-				`The following context was found while searching the internet: ${webSearch.summary}` +
-				model.assistantMessageEndToken;
+			messages = [
+				{
+					from: "assistant",
+					content: `The following context was found while searching the internet: ${webSearch.summary}`,
+				},
+				...messages,
+			];
 		}
 	}
-	const finalPrompt =
-		model.preprompt +
-		webPrompt +
-		prompt
+
+	return (
+		model
+			.chatPromptRender({ messages })
+			// Not super precise, but it's truncated in the model's backend anyway
 			.split(" ")
 			.slice(-(model.parameters?.truncate ?? 0))
-			.join(" ");
-
-	// Not super precise, but it's truncated in the model's backend anyway
-	return finalPrompt;
+			.join(" ")
+	);
 }
@@ -1,4 +1,10 @@
 import { HF_ACCESS_TOKEN, MODELS, OLD_MODELS } from "$env/static/private";
+import type {
+	ChatTemplateInput,
+	WebSearchQueryTemplateInput,
+	WebSearchSummaryTemplateInput,
+} from "$lib/types/Template";
+import { compileTemplate } from "$lib/utils/template";
 import { z } from "zod";
 
 const sagemakerEndpoint = z.object({
@@ -46,13 +52,46 @@ const modelsRaw = z
 			modelUrl: z.string().url().optional(),
 			datasetName: z.string().min(1).optional(),
 			datasetUrl: z.string().url().optional(),
-			userMessageToken: z.string(),
+			userMessageToken: z.string().default(""),
 			userMessageEndToken: z.string().default(""),
-			assistantMessageToken: z.string(),
+			assistantMessageToken: z.string().default(""),
 			assistantMessageEndToken: z.string().default(""),
 			messageEndToken: z.string().default(""),
 			preprompt: z.string().default(""),
 			prepromptUrl: z.string().url().optional(),
+			chatPromptTemplate: z
+				.string()
+				.default(
+					"{{preprompt}}" +
+						"{{#each messages}}" +
+						"{{#ifUser}}{{@root.userMessageToken}}{{content}}{{@root.userMessageEndToken}}{{/ifUser}}" +
+						"{{#ifAssistant}}{{@root.assistantMessageToken}}{{content}}{{@root.assistantMessageEndToken}}{{/ifAssistant}}" +
+						"{{/each}}" +
+						"{{assistantMessageToken}}"
+				),
+			webSearchSummaryPromptTemplate: z
+				.string()
+				.default(
+					"{{userMessageToken}}{{answer}}{{userMessageEndToken}}" +
+						"{{userMessageToken}}" +
+						"The text above should be summarized to best answer the query: {{query}}." +
+						"{{userMessageEndToken}}" +
+						"{{assistantMessageToken}}Summary: "
+				),
+			webSearchQueryPromptTemplate: z
+				.string()
+				.default(
+					"{{userMessageToken}}" +
+						"The following messages were written by a user, trying to answer a question." +
+						"{{userMessageEndToken}}" +
+						"{{#each messages}}" +
+						"{{#ifUser}}{{@root.userMessageToken}}{{content}}{{@root.userMessageEndToken}}{{/ifUser}}" +
+						"{{/each}}" +
+						"{{userMessageToken}}" +
+						"What plain-text english sentence would you input into Google to answer the last question? Answer with a short (10 words max) simple sentence." +
+						"{{userMessageEndToken}}" +
+						"{{assistantMessageToken}}Query: "
+				),
 			promptExamples: z
 				.array(
 					z.object({
@@ -80,6 +119,15 @@ export const models = await Promise.all(
 		...m,
 		userMessageEndToken: m?.userMessageEndToken || m?.messageEndToken,
 		assistantMessageEndToken: m?.assistantMessageEndToken || m?.messageEndToken,
+		chatPromptRender: compileTemplate<ChatTemplateInput>(m.chatPromptTemplate, m),
+		webSearchSummaryPromptRender: compileTemplate<WebSearchSummaryTemplateInput>(
+			m.webSearchSummaryPromptTemplate,
+			m
+		),
+		webSearchQueryPromptRender: compileTemplate<WebSearchQueryTemplateInput>(
+			m.webSearchQueryPromptTemplate,
+			m
+		),
 		id: m.id || m.name,
 		displayName: m.displayName || m.name,
 		preprompt: m.prepromptUrl ? await fetch(m.prepromptUrl).then((r) => r.text()) : m.preprompt,
 
@@ -1,21 +1,9 @@
 import type { Message } from "$lib/types/Message";
 import { generateFromDefaultEndpoint } from "../generateFromDefaultEndpoint";
-import type { BackendModel } from "../models";
-
-export async function generateQuery(messages: Message[], model: BackendModel) {
-	const promptSearchQuery =
-		model.userMessageToken +
-		"The following messages were written by a user, trying to answer a question." +
-		model.userMessageEndToken +
-		messages
-			.filter((message) => message.from === "user")
-			.map((message) => model.userMessageToken + message.content + model.userMessageEndToken) +
-		model.userMessageToken +
-		"What plain-text english sentence would you input into Google to answer the last question? Answer with a short (10 words max) simple sentence." +
-		model.userMessageEndToken +
-		model.assistantMessageToken +
-		"Query: ";
+import { defaultModel } from "../models";
 
+export async function generateQuery(messages: Message[]) {
+	const promptSearchQuery = defaultModel.webSearchQueryPromptRender({ messages });
 	const searchQuery = await generateFromDefaultEndpoint(promptSearchQuery).then((query) => {
 		const arr = query.split(/\r?\n/);
 		return arr[0].length > 0 ? arr[0] : arr[1];
 
@@ -1,7 +1,8 @@
 import { HF_ACCESS_TOKEN } from "$env/static/private";
 import { HfInference } from "@huggingface/inference";
-import { generateFromDefaultEndpoint } from "../generateFromDefaultEndpoint";
+import { defaultModel } from "$lib/server/models";
 import type { BackendModel } from "../models";
+import { generateFromDefaultEndpoint } from "../generateFromDefaultEndpoint";
 
 export async function summarizeWeb(content: string, query: string, model: BackendModel) {
 	// if HF_ACCESS_TOKEN is set, we use a HF dedicated endpoint for summarization
@@ -23,19 +24,13 @@ export async function summarizeWeb(content: string, query: string, model: Backen
 	}
 
 	// else we use the LLM to generate a summary
-	const summaryPrompt =
-		model.userMessageToken +
-		content
+	const summaryPrompt = defaultModel.webSearchSummaryPromptRender({
+		answer: content
 			.split(" ")
 			.slice(0, model.parameters?.truncate ?? 0)
-			.join(" ") +
-		model.userMessageEndToken +
-		model.userMessageToken +
-		`The text above should be summarized to best answer the query: ${query}.` +
-		model.userMessageEndToken +
-		model.assistantMessageToken +
-		"Summary: ";
-
+			.join(" "),
+		query: query,
+	});
 	const summary = await generateFromDefaultEndpoint(summaryPrompt).then((txt: string) =>
 		txt.trim()
 	);