?
GuideintermédiaireVérifié le 2025-05

Prompt caching : réduire les coûts de 90%

Implémenter le prompt caching pour les conversations longues et les system prompts volumineux.

Qu'est-ce que le Prompt Caching ?

Le prompt caching permet de réutiliser des préfixes de prompts déjà traités par Claude, réduisant les coûts jusqu'à 90% et la latence de manière significative. Idéal pour les system prompts longs, les conversations multi-tours, et les documents de référence volumineux.

Comment ça fonctionne

Quand vous envoyez un message avec un préfixe identique à un appel précédent, Anthropic peut réutiliser le calcul déjà effectué. Vous payez : - Écriture cache : 25% plus cher que le prix normal (une seule fois) - Lecture cache (hit) : 90% moins cher que le prix normal

Le cache a un TTL de 5 minutes, renouvelé à chaque hit.

Implémentation avec le SDK

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

const response = await client.messages.create({
  model: "claude-sonnet-4-20250514",
  max_tokens: 1024,
  system: [
    {
      type: "text",
      text: "Vous êtes un assistant expert en droit français...",
      cache_control: { type: "ephemeral" }
    }
  ],
  messages: [
    { role: "user", content: "Quelle est la procédure de licenciement ?" }
  ]
});

// Vérifier les métriques de cache
console.log(response.usage.cache_creation_input_tokens);
console.log(response.usage.cache_read_input_tokens);

Stratégies de caching optimales

1. System prompt volumineux Placez vos instructions longues, documentation de référence, et exemples dans le system prompt avec cache_control.

2. Conversations multi-tours Le préfixe de la conversation (messages précédents) est automatiquement caché si vous structurez correctement :

const messages = [
  // Ces messages sont le préfixe stable
  { role: "user", content: "contexte initial..." },
  { role: "assistant", content: "compris..." },
  // Marquer le dernier message stable comme cacheable
  { role: "user", content: [{
    type: "text",
    text: "suite de la conversation...",
    cache_control: { type: "ephemeral" }
  }]},
  { role: "assistant", content: "..." },
  // Nouveau message (non caché)
  { role: "user", content: "nouvelle question" }
];

3. Documents de référence Pour du RAG ou de l'analyse de documents, injectez le document comme contexte caché.

Conditions pour le cache hit

  • Le préfixe doit être exactement identique (byte-perfect)
  • Minimum 1024 tokens pour le contenu caché (2048 pour Claude Opus 4)
  • Même modèle entre les appels
  • TTL de 5 minutes (renouvelé à chaque utilisation)

Calcul des économies

Pour un system prompt de 10 000 tokens appelé 100 fois : - Sans cache : 10 000 × 100 = 1M tokens facturés au prix input - Avec cache : 10 000 × 1.25 (écriture) + 10 000 × 99 × 0.1 (lectures) = 111 500 tokens équivalents - Économie : ~89%

Sources

APIcachingcoûts