Add support for prompt caching (#1051)

toshikwa · web-flow · commit 2765eee8c51a · 2025-05-14T13:09:15.000+09:00
diff --git a/packages/cdk/lambda/utils/models.ts b/packages/cdk/lambda/utils/models.ts
@@ -26,6 +26,10 @@ import {
   ContentBlock,
 } from '@aws-sdk/client-bedrock-runtime';
 import { modelFeatureFlags } from '@generative-ai-use-cases/common';
+import {
+  applyAutoCacheToMessages,
+  applyAutoCacheToSystem,
+} from './promptCache';
 
 // Default Models
 
@@ -121,72 +125,104 @@ const RINNA_PROMPT: PromptTemplate = {
 // Model Params
 
 const CLAUDE_3_5_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 8192,
-  temperature: 0.6,
-  topP: 0.8,
+  inferenceConfig: {
+    maxTokens: 8192,
+    temperature: 0.6,
+    topP: 0.8,
+  },
 };
 
 const CLAUDE_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 4096,
-  temperature: 0.6,
-  topP: 0.8,
+  inferenceConfig: {
+    maxTokens: 4096,
+    temperature: 0.6,
+    topP: 0.8,
+  },
 };
 
 const TITAN_TEXT_DEFAULT_PARAMS: ConverseInferenceParams = {
   // Converse API only accepts 3000, instead of 3072, which is described in the doc.
   // If 3072 is accepted, revert to 3072.
   // https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-titan-text.html
-  maxTokens: 3000,
-  temperature: 0.7,
-  topP: 1.0,
+  inferenceConfig: {
+    maxTokens: 3000,
+    temperature: 0.7,
+    topP: 1.0,
+  },
 };
 
 const LLAMA_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 2048,
-  temperature: 0.5,
-  topP: 0.9,
-  stopSequences: ['<|eot_id|>'],
+  inferenceConfig: {
+    maxTokens: 2048,
+    temperature: 0.5,
+    topP: 0.9,
+    stopSequences: ['<|eot_id|>'],
+  },
 };
 
 const MISTRAL_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 8192,
-  temperature: 0.6,
-  topP: 0.99,
+  inferenceConfig: {
+    maxTokens: 8192,
+    temperature: 0.6,
+    topP: 0.99,
+  },
 };
 
 const MIXTRAL_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 4096,
-  temperature: 0.6,
-  topP: 0.99,
+  inferenceConfig: {
+    maxTokens: 4096,
+    temperature: 0.6,
+    topP: 0.99,
+  },
 };
 
 const COMMANDR_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 4000,
-  temperature: 0.3,
-  topP: 0.75,
+  inferenceConfig: {
+    maxTokens: 4000,
+    temperature: 0.3,
+    topP: 0.75,
+  },
 };
 
 const NOVA_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 5120,
-  temperature: 0.7,
-  topP: 0.9,
+  inferenceConfig: {
+    maxTokens: 5120,
+    temperature: 0.7,
+    topP: 0.9,
+  },
 };
 
 const DEEPSEEK_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 32768,
-  temperature: 0.6,
-  topP: 0.95,
+  inferenceConfig: {
+    maxTokens: 32768,
+    temperature: 0.6,
+    topP: 0.95,
+  },
 };
 
 const PALMYRA_DEFAULT_PARAMS: ConverseInferenceParams = {
-  maxTokens: 8192,
-  temperature: 1,
-  topP: 0.9,
+  inferenceConfig: {
+    maxTokens: 8192,
+    temperature: 1,
+    topP: 0.9,
+  },
 };
 
 const USECASE_DEFAULT_PARAMS: UsecaseConverseInferenceParams = {
+  '/chat': {
+    promptCachingConfig: {
+      autoCacheFields: ['system', 'messages'],
+    },
+  },
   '/rag': {
-    temperature: 0.0,
+    inferenceConfig: {
+      temperature: 0.0,
+    },
+  },
+  '/diagram': {
+    promptCachingConfig: {
+      autoCacheFields: ['system'],
+    },
   },
 };
 
@@ -313,32 +349,40 @@ const createConverseCommandInput = (
     };
   });
 
-  const usecaseParams = usecaseConverseInferenceParams[normalizeId(id)];
-  const inferenceConfig = usecaseParams
-    ? { ...defaultConverseInferenceParams, ...usecaseParams }
-    : defaultConverseInferenceParams;
+  // Merge model's default params with use-case specific ones
+  const usecaseParams = usecaseConverseInferenceParams[normalizeId(id)] || {};
+  const params = { ...defaultConverseInferenceParams, ...usecaseParams };
+
+  // Apply prompt caching
+  const autoCacheFields = params.promptCachingConfig?.autoCacheFields || [];
+  const conversationWithCache = autoCacheFields.includes('messages')
+    ? applyAutoCacheToMessages(conversation, model.modelId)
+    : conversation;
+  const systemContextWithCache = autoCacheFields.includes('system')
+    ? applyAutoCacheToSystem(systemContext, model.modelId)
+    : systemContext;
 
   const guardrailConfig = createGuardrailConfig();
 
   const converseCommandInput: ConverseCommandInput = {
     modelId: model.modelId,
-    messages: conversation,
-    system: systemContext,
-    inferenceConfig: inferenceConfig,
-    guardrailConfig: guardrailConfig,
+    messages: conversationWithCache,
+    system: systemContextWithCache,
+    inferenceConfig: params.inferenceConfig,
+    guardrailConfig,
   };
 
   if (
     modelFeatureFlags[model.modelId].reasoning &&
     model.modelParameters?.reasoningConfig?.type === 'enabled'
   ) {
     converseCommandInput.inferenceConfig = {
-      ...inferenceConfig,
+      ...(params.inferenceConfig || {}),
       temperature: 1, // reasoning requires temperature to be 1
       topP: undefined, // reasoning does not require topP
       maxTokens:
         (model.modelParameters?.reasoningConfig?.budgetTokens || 0) +
-        (inferenceConfig?.maxTokens || 0),
+        (params.inferenceConfig?.maxTokens || 0),
     };
     converseCommandInput.additionalModelRequestFields = {
       reasoning_config: {
diff --git a/packages/cdk/lambda/utils/promptCache.ts b/packages/cdk/lambda/utils/promptCache.ts
@@ -0,0 +1,72 @@
+import {
+  ContentBlock,
+  Message,
+  SystemContentBlock,
+} from '@aws-sdk/client-bedrock-runtime';
+import { SUPPORTED_CACHE_FIELDS } from '@generative-ai-use-cases/common';
+
+const CACHE_POINT = {
+  cachePoint: { type: 'default' },
+} as ContentBlock.CachePointMember;
+
+const SYSTEM_CACHE_POINT = {
+  cachePoint: { type: 'default' },
+} as SystemContentBlock.CachePointMember;
+
+const getSupportedCacheFields = (modelId: string) => {
+  // Remove CRI prefix
+  const baseModelId = modelId.replace(/^(us|eu|apac)\./, '');
+  return SUPPORTED_CACHE_FIELDS[baseModelId] || [];
+};
+
+export const applyAutoCacheToMessages = (
+  messages: Message[],
+  modelId: string
+) => {
+  const cacheFields = getSupportedCacheFields(modelId);
+  if (!cacheFields.includes('messages') || messages.length === 0) {
+    return messages;
+  }
+
+  // Insert cachePoint into the last two user messages (for cache read and write respectively)
+  const isToolsSupported = cacheFields.includes('tools');
+  const cachableIndices = messages
+    .map((message, index) => ({ message, index }))
+    .filter(({ message }) => message.role === 'user')
+    .filter(
+      ({ message }) =>
+        isToolsSupported ||
+        // For Amazon Nova, placing cachePoint after toolResult is not supported
+        !message.content?.some((content) => content.toolResult)
+    )
+    .slice(-2)
+    .map(({ index }) => index);
+
+  return messages.map((message, index) => {
+    if (
+      !cachableIndices.includes(index) ||
+      message.content?.at(-1)?.cachePoint // Already inserted
+    ) {
+      return message;
+    }
+    return {
+      ...message,
+      content: [...(message.content || []), CACHE_POINT],
+    };
+  });
+};
+
+export const applyAutoCacheToSystem = (
+  system: SystemContentBlock[],
+  modelId: string
+) => {
+  const cacheFields = getSupportedCacheFields(modelId);
+  if (
+    !cacheFields.includes('system') ||
+    system.length === 0 ||
+    system.at(-1)?.cachePoint // Already inserted
+  ) {
+    return system;
+  }
+  return [...system, SYSTEM_CACHE_POINT];
+};
diff --git a/packages/common/src/application/model.ts b/packages/common/src/application/model.ts
@@ -1,4 +1,4 @@
-import { FeatureFlags } from 'generative-ai-use-cases';
+import { FeatureFlags, PromptCacheField } from 'generative-ai-use-cases';
 
 // Manage Model Feature
 // https://docs.aws.amazon.com/bedrock/latest/userguide/conversation-inference-supported-models-features.html
@@ -214,3 +214,13 @@ export const BEDROCK_RERANKING_MODELS = Object.keys(modelFeatureFlags).filter(
 export const BEDROCK_SPEECH_TO_SPEECH_MODELS = Object.keys(
   modelFeatureFlags
 ).filter((model) => modelFeatureFlags[model].speechToSpeech);
+
+// Prompt caching
+// https://docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html
+export const SUPPORTED_CACHE_FIELDS: Record<string, PromptCacheField[]> = {
+  'anthropic.claude-3-7-sonnet-20250219-v1:0': ['messages', 'system', 'tools'],
+  'anthropic.claude-3-5-haiku-20241022-v1:0': ['messages', 'system', 'tools'],
+  'amazon.nova-pro-v1:0': ['messages', 'system'],
+  'amazon.nova-lite-v1:0': ['messages', 'system'],
+  'amazon.nova-micro-v1:0': ['messages', 'system'],
+};
diff --git a/packages/types/src/text.d.ts b/packages/types/src/text.d.ts
@@ -1,10 +1,16 @@
 // ConverseAPI
+
+import { InferenceConfiguration } from '@aws-sdk/client-bedrock-runtime';
+
+export type PromptCacheField = 'messages' | 'system' | 'tools';
+export type PromptCachingConfig = {
+  autoCacheFields: PromptCacheField[];
+};
+
 // https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html#API_runtime_Converse_RequestSyntax
 export type ConverseInferenceParams = {
-  maxTokens?: number;
-  stopSequences?: string[];
-  temperature?: number;
-  topP?: number;
+  inferenceConfig?: InferenceConfiguration;
+  promptCachingConfig?: PromptCachingConfig;
 };
 
 export type UsecaseConverseInferenceParams = {