mongodb
diff --git a/‎package-lock.json
Lines changed: 9 additions & 9 deletions b/‎package-lock.json
Lines changed: 9 additions & 9 deletions
diff --git a/‎packages/benchmarks/package.json
Lines changed: 2 additions & 2 deletions b/‎packages/benchmarks/package.json
Lines changed: 2 additions & 2 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/docs100/config.ts
Lines changed: 14 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/docs100/config.ts
Lines changed: 14 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/docs100/docs100PromptCompletionBenchmark.ts
Lines changed: 22 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/docs100/docs100PromptCompletionBenchmark.ts
Lines changed: 22 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/docs100/uploadDocs100PromptCompletionDataset.ts
Lines changed: 62 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/docs100/uploadDocs100PromptCompletionDataset.ts
Lines changed: 62 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/globalConfig.ts
Lines changed: 37 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/globalConfig.ts
Lines changed: 37 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/marketing/config.ts
Lines changed: 14 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/marketing/config.ts
Lines changed: 14 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/marketing/marketingPromptCompletionBenchmark.ts
Lines changed: 22 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/marketing/marketingPromptCompletionBenchmark.ts
Lines changed: 22 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/marketing/uploadMarketingDataset.ts
Lines changed: 65 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/marketing/uploadMarketingDataset.ts
Lines changed: 65 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/nlPromptResponse/bin/productKnowledge/config.ts
Lines changed: 14 additions & 0 deletions b/‎packages/benchmarks/src/nlPromptResponse/bin/productKnowledge/config.ts
Lines changed: 14 additions & 0 deletions
@@ -51,7 +51,7 @@
     "@ai-sdk/openai": "^1.3.6",
     "@supercharge/promise-pool": "^3.2.0",
     "ai": "^4.2.10",
-    "autoevals": "^0.0.127",
+    "autoevals": "^0.0.129",
     "csv-writer": "^1.6.0",
     "dotenv": "^16",
     "mongodb-chatbot-server": "*",
@@ -60,4 +60,4 @@
     "yaml": "^2.7.1",
     "zod": "^3.23.8"
   }
-}
+}
@@ -0,0 +1,14 @@
+import { BenchmarkConfig } from "../../runNlPromptResponseBenchmark";
+
+const projectName = "docs-100-prompt-completion";
+
+export const docs100Config: BenchmarkConfig = {
+  datasets: [
+    {
+      projectName,
+      datasetName: "docs-100-prompt-completion",
+    },
+  ],
+  projectName,
+  experimentBaseName: "docs-100",
+};
@@ -0,0 +1,22 @@
+import "dotenv/config";
+import {
+  models,
+  judgeModelsConfig,
+  MAX_CONCURRENT_EXPERIMENTS,
+  MAX_CONCURRENCY,
+  EXPERIMENT_TYPE,
+  BRAINTRUST_API_KEY,
+} from "../globalConfig";
+import { runNlPromptResponseBenchmark } from "../../runNlPromptResponseBenchmark";
+
+import { docs100Config } from "./config";
+
+runNlPromptResponseBenchmark({
+  ...docs100Config,
+  models,
+  judgeModelsConfig,
+  experimentType: EXPERIMENT_TYPE,
+  maxConcurrentPerExperiment: MAX_CONCURRENCY,
+  maxConcurrentExperiments: MAX_CONCURRENT_EXPERIMENTS,
+  braintrustApiKey: BRAINTRUST_API_KEY,
+});
@@ -0,0 +1,62 @@
+import { uploadDatasetToBraintrust } from "mongodb-rag-core/braintrust";
+import { docs100Config } from "./config";
+import { BRAINTRUST_ENV_VARS, assertEnvVars } from "mongodb-rag-core";
+import path from "path";
+import { createOpenAI } from "@ai-sdk/openai";
+import { getOpenAiEndpointAndApiKey, models } from "mongodb-rag-core/models";
+import { strict as assert } from "assert";
+import PromisePool from "@supercharge/promise-pool";
+import { loadDocs100QACsv, parseDocs100QARow } from "../../loadDocs100Dataset";
+
+async function main() {
+  const { BRAINTRUST_API_KEY } = assertEnvVars({
+    ...BRAINTRUST_ENV_VARS,
+  });
+
+  const modelLabel = "gpt-4.1";
+  const modelConfig = models.find((m) => m.label === modelLabel);
+  assert(modelConfig, `Model ${modelLabel} not found`);
+
+  const openai = createOpenAI({
+    ...(await getOpenAiEndpointAndApiKey(modelConfig)),
+  });
+  const csvPath = path.join(
+    __dirname,
+    "..",
+    "..",
+    "..",
+    "..",
+    "testData",
+    "docs_100_qa.csv"
+  );
+
+  console.log(`Loading dataset from ${csvPath}`);
+  const { results: dataset } = await PromisePool.withConcurrency(
+    // Dividing by 3 b/c there are 3 concurrent llm calls
+    modelConfig.maxConcurrency / 3
+  )
+    .for(loadDocs100QACsv(csvPath))
+    .handleError((error, row) => {
+      console.error(
+        `Error processing row for question: ${row.Question}`,
+        error
+      );
+    })
+    .process(async (row) => {
+      return await parseDocs100QARow(row, openai.languageModel(modelLabel));
+    });
+
+  console.log(`Loaded ${dataset.length} records`);
+  console.log(`Total number of records: ${dataset.length}`);
+  const { datasets, projectName } = docs100Config;
+  const res = await uploadDatasetToBraintrust({
+    apiKey: BRAINTRUST_API_KEY,
+    datasetName: datasets[0].datasetName,
+    projectName,
+    description:
+      "Docs 100 prompt completion dataset. Created by Docs team, May 2025.",
+    dataset,
+  });
+  console.log(res);
+}
+main();
@@ -0,0 +1,37 @@
+import { getModelsFromLabels } from "../../benchmarkModels";
+import { assertEnvVars } from "mongodb-rag-core";
+
+const { BRAINTRUST_API_KEY } = assertEnvVars({
+  BRAINTRUST_API_KEY: "",
+});
+export { BRAINTRUST_API_KEY };
+
+export const EXPERIMENT_TYPE = "prompt-response";
+
+export const MAX_CONCURRENT_EXPERIMENTS = 2;
+
+// Have to set low to allow for judge token limits :(
+export const MAX_CONCURRENCY = 15;
+
+export const judgeModelsConfig = getModelsFromLabels(["gpt-4.1"]);
+
+export const models = getModelsFromLabels([
+  "gpt-4.1",
+  "gpt-4.1-mini",
+  "gpt-4.1-nano",
+  "claude-37-sonnet",
+  "gpt-4o",
+  "gpt-4o-mini",
+  "claude-35-sonnet-v2",
+  "claude-35-sonnet",
+  "llama-3.1-70b",
+  "llama-3.2-90b",
+  "llama-3.3-70b",
+  "o3-mini",
+  "o3",
+  "o4-mini",
+  "gemini-2-flash",
+  "gemini-2.0-flash-lite",
+  "gemini-2.5-flash",
+  "gemini-2.5-pro-preview-03-25",
+]);
@@ -0,0 +1,14 @@
+import { BenchmarkConfig } from "../../runNlPromptResponseBenchmark";
+
+const projectName = "marketing-prompt-completion";
+
+export const marketingConfig: BenchmarkConfig = {
+  datasets: [
+    {
+      projectName,
+      datasetName: "marketing-prompt-completion",
+    },
+  ],
+  projectName,
+  experimentBaseName: "marketing",
+};
@@ -0,0 +1,22 @@
+import "dotenv/config";
+import {
+  models,
+  judgeModelsConfig,
+  MAX_CONCURRENT_EXPERIMENTS,
+  MAX_CONCURRENCY,
+  EXPERIMENT_TYPE,
+  BRAINTRUST_API_KEY,
+} from "../globalConfig";
+import { runNlPromptResponseBenchmark } from "../../runNlPromptResponseBenchmark";
+
+import { marketingConfig } from "./config";
+
+runNlPromptResponseBenchmark({
+  ...marketingConfig,
+  models,
+  judgeModelsConfig,
+  experimentType: EXPERIMENT_TYPE,
+  maxConcurrentPerExperiment: MAX_CONCURRENCY,
+  maxConcurrentExperiments: MAX_CONCURRENT_EXPERIMENTS,
+  braintrustApiKey: BRAINTRUST_API_KEY,
+});
@@ -0,0 +1,65 @@
+import { uploadDatasetToBraintrust } from "mongodb-rag-core/braintrust";
+import { marketingConfig } from "./config";
+import { BRAINTRUST_ENV_VARS, assertEnvVars } from "mongodb-rag-core";
+import path from "path";
+import { createOpenAI } from "@ai-sdk/openai";
+import { getOpenAiEndpointAndApiKey, models } from "mongodb-rag-core/models";
+import { strict as assert } from "assert";
+import PromisePool from "@supercharge/promise-pool";
+import {
+  loadMarketingQACsv,
+  parseMarketingQARow,
+} from "../../loadMarketingDataset";
+
+async function main() {
+  const { BRAINTRUST_API_KEY } = assertEnvVars({
+    ...BRAINTRUST_ENV_VARS,
+  });
+
+  const modelLabel = "gpt-4.1";
+  const modelConfig = models.find((m) => m.label === modelLabel);
+  assert(modelConfig, `Model ${modelLabel} not found`);
+
+  const openai = createOpenAI({
+    ...(await getOpenAiEndpointAndApiKey(modelConfig)),
+  });
+  const csvPath = path.join(
+    __dirname,
+    "..",
+    "..",
+    "..",
+    "..",
+    "testData",
+    "marketing_qa.csv"
+  );
+
+  console.log(`Loading dataset from ${csvPath}`);
+  const { results: dataset } = await PromisePool.withConcurrency(
+    // Dividing by 3 b/c there are 3 concurrent llm calls
+    modelConfig.maxConcurrency / 3
+  )
+    .for(loadMarketingQACsv(csvPath))
+    .handleError((error, row) => {
+      console.error(
+        `Error processing row for question: ${row.Question}`,
+        error
+      );
+    })
+    .process(async (row) => {
+      return await parseMarketingQARow(row, openai.languageModel(modelLabel));
+    });
+
+  console.log(`Loaded ${dataset.length} records`);
+  console.log(`Total number of records: ${dataset.length}`);
+  const { datasets, projectName } = marketingConfig;
+  const res = await uploadDatasetToBraintrust({
+    apiKey: BRAINTRUST_API_KEY,
+    datasetName: datasets[0].datasetName,
+    projectName,
+    description:
+      "Marketing prompt completion dataset. Created by Marketing team, spring 2025.",
+    dataset,
+  });
+  console.log(res);
+}
+main();
@@ -0,0 +1,14 @@
+import { BenchmarkConfig } from "../../runNlPromptResponseBenchmark";
+
+const projectName = "product-knowledge-prompt-completion";
+
+export const productKnowledgeConfig: BenchmarkConfig = {
+  datasets: [
+    {
+      projectName,
+      datasetName: "product-knowledge-prompt-completion",
+    },
+  ],
+  projectName,
+  experimentBaseName: "product-knowledge",
+};