L'Atelier — Réseau francophone IA (produit, tech, business)

Qu'est-ce que le Prompt Caching ?

Le prompt caching permet de réutiliser des préfixes de prompts déjà traités par Claude, réduisant les coûts jusqu'à 90% et la latence de manière significative. Idéal pour les system prompts longs, les conversations multi-tours, et les documents de référence volumineux.

Comment ça fonctionne

Quand vous envoyez un message avec un préfixe identique à un appel précédent, Anthropic peut réutiliser le calcul déjà effectué. Vous payez : - Écriture cache : 25% plus cher que le prix normal (une seule fois) - Lecture cache (hit) : 90% moins cher que le prix normal

Le cache a un TTL de 5 minutes, renouvelé à chaque hit.

Implémentation avec le SDK

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

const response = await client.messages.create({
  model: "claude-sonnet-4-20250514",
  max_tokens: 1024,
  system: [
    {
      type: "text",
      text: "Vous êtes un assistant expert en droit français...",
      cache_control: { type: "ephemeral" }
    }
  ],
  messages: [
    { role: "user", content: "Quelle est la procédure de licenciement ?" }
  ]
});

// Vérifier les métriques de cache
console.log(response.usage.cache_creation_input_tokens);
console.log(response.usage.cache_read_input_tokens);

Stratégies de caching optimales

1. System prompt volumineux Placez vos instructions longues, documentation de référence, et exemples dans le system prompt avec `cache_control`.

2. Conversations multi-tours Le préfixe de la conversation (messages précédents) est automatiquement caché si vous structurez correctement :

const messages = [
  // Ces messages sont le préfixe stable
  { role: "user", content: "contexte initial..." },
  { role: "assistant", content: "compris..." },
  // Marquer le dernier message stable comme cacheable
  { role: "user", content: [{
    type: "text",
    text: "suite de la conversation...",
    cache_control: { type: "ephemeral" }
  }]},
  { role: "assistant", content: "..." },
  // Nouveau message (non caché)
  { role: "user", content: "nouvelle question" }
];

3. Documents de référence Pour du RAG ou de l'analyse de documents, injectez le document comme contexte caché.

Conditions pour le cache hit

Le préfixe doit être exactement identique (byte-perfect)
Minimum 1024 tokens pour le contenu caché (2048 pour Claude Opus 4)
Même modèle entre les appels
TTL de 5 minutes (renouvelé à chaque utilisation)

Calcul des économies

Pour un system prompt de 10 000 tokens appelé 100 fois : - Sans cache : 10 000 × 100 = 1M tokens facturés au prix input - Avec cache : 10 000 × 1.25 (écriture) + 10 000 × 99 × 0.1 (lectures) = 111 500 tokens équivalents - Économie : ~89%

Prompt caching : réduire les coûts de 90%

Qu'est-ce que le Prompt Caching ?

Comment ça fonctionne

Implémentation avec le SDK

Stratégies de caching optimales

1. System prompt volumineux Placez vos instructions longues, documentation de référence, et exemples dans le system prompt avec `cache_control`.

2. Conversations multi-tours Le préfixe de la conversation (messages précédents) est automatiquement caché si vous structurez correctement :

3. Documents de référence Pour du RAG ou de l'analyse de documents, injectez le document comme contexte caché.

Conditions pour le cache hit

Calcul des économies

Sources

Prompt caching : réduire les coûts de 90%

Qu'est-ce que le Prompt Caching ?

Comment ça fonctionne

Implémentation avec le SDK

Stratégies de caching optimales

1. System prompt volumineux Placez vos instructions longues, documentation de référence, et exemples dans le system prompt avec cache_control.

2. Conversations multi-tours Le préfixe de la conversation (messages précédents) est automatiquement caché si vous structurez correctement :

3. Documents de référence Pour du RAG ou de l'analyse de documents, injectez le document comme contexte caché.

Conditions pour le cache hit

Calcul des économies

Sources

1. System prompt volumineux Placez vos instructions longues, documentation de référence, et exemples dans le system prompt avec `cache_control`.