Qu'est-ce que le Prompt Caching ?
Le prompt caching permet de réutiliser des préfixes de prompts déjà traités par Claude, réduisant les coûts jusqu'à 90% et la latence de manière significative. Idéal pour les system prompts longs, les conversations multi-tours, et les documents de référence volumineux.
Comment ça fonctionne
Quand vous envoyez un message avec un préfixe identique à un appel précédent, Anthropic peut réutiliser le calcul déjà effectué. Vous payez : - Écriture cache : 25% plus cher que le prix normal (une seule fois) - Lecture cache (hit) : 90% moins cher que le prix normal
Le cache a un TTL de 5 minutes, renouvelé à chaque hit.
Implémentation avec le SDK
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();
const response = await client.messages.create({
model: "claude-sonnet-4-20250514",
max_tokens: 1024,
system: [
{
type: "text",
text: "Vous êtes un assistant expert en droit français...",
cache_control: { type: "ephemeral" }
}
],
messages: [
{ role: "user", content: "Quelle est la procédure de licenciement ?" }
]
});
// Vérifier les métriques de cache
console.log(response.usage.cache_creation_input_tokens);
console.log(response.usage.cache_read_input_tokens);Stratégies de caching optimales
1. System prompt volumineux
Placez vos instructions longues, documentation de référence, et exemples dans le system prompt avec cache_control.
2. Conversations multi-tours Le préfixe de la conversation (messages précédents) est automatiquement caché si vous structurez correctement :
const messages = [
// Ces messages sont le préfixe stable
{ role: "user", content: "contexte initial..." },
{ role: "assistant", content: "compris..." },
// Marquer le dernier message stable comme cacheable
{ role: "user", content: [{
type: "text",
text: "suite de la conversation...",
cache_control: { type: "ephemeral" }
}]},
{ role: "assistant", content: "..." },
// Nouveau message (non caché)
{ role: "user", content: "nouvelle question" }
];3. Documents de référence Pour du RAG ou de l'analyse de documents, injectez le document comme contexte caché.
Conditions pour le cache hit
- Le préfixe doit être exactement identique (byte-perfect)
- Minimum 1024 tokens pour le contenu caché (2048 pour Claude Opus 4)
- Même modèle entre les appels
- TTL de 5 minutes (renouvelé à chaque utilisation)
Calcul des économies
Pour un system prompt de 10 000 tokens appelé 100 fois : - Sans cache : 10 000 × 100 = 1M tokens facturés au prix input - Avec cache : 10 000 × 1.25 (écriture) + 10 000 × 99 × 0.1 (lectures) = 111 500 tokens équivalents - Économie : ~89%