?
Skilldébutant

Vision : analyser des images avec Claude

Envoyer des images à Claude et exploiter ses capacités multimodales via l'API.

Vision multimodale avec Claude

Tous les modèles Claude 3 et ultérieurs supportent la vision. Claude peut analyser des images pour en extraire du texte, décrire du contenu, interpréter des graphiques, lire des captures d'écran, et bien plus.

Envoyer une image via l'API

Image encodée en base64

import Anthropic from "@anthropic-ai/sdk";
import fs from "fs";

const client = new Anthropic();
const imageData = fs.readFileSync("screenshot.png").toString("base64");

const response = await client.messages.create({
  model: "claude-sonnet-4-20250514",
  max_tokens: 1024,
  messages: [
    {
      role: "user",
      content: [
        {
          type: "image",
          source: {
            type: "base64",
            media_type: "image/png",
            data: imageData
          }
        },
        {
          type: "text",
          text: "Décris ce que tu vois dans cette capture d'écran."
        }
      ]
    }
  ]
});

Image via URL

const response = await client.messages.create({
  model: "claude-sonnet-4-20250514",
  max_tokens: 1024,
  messages: [
    {
      role: "user",
      content: [
        {
          type: "image",
          source: {
            type: "url",
            url: "https://example.com/chart.png"
          }
        },
        {
          type: "text",
          text: "Analyse ce graphique et résume les tendances."
        }
      ]
    }
  ]
});

Formats supportés

  • JPEG (image/jpeg)
  • PNG (image/png)
  • GIF (image/gif)
  • WebP (image/webp)

Cas d'usage pratiques

1. OCR et extraction de texte __CODE_BLOCK_2__

2. Analyse de graphiques __CODE_BLOCK_3__

3. Description d'interfaces __CODE_BLOCK_4__

4. Comparaison d'images Vous pouvez envoyer plusieurs images dans un même message : __CODE_BLOCK_5__

Limites et bonnes pratiques

  • Taille maximale : Les images sont redimensionnées automatiquement si nécessaire (max ~1568px côté le plus long)
  • Tokens consommés : Une image typique coûte 1000-5000 tokens selon sa complexité
  • Texte petit : Claude peut avoir du mal avec du texte très petit ou à faible contraste
  • Pas de génération : Claude analyse les images mais ne les génère pas
  • Multiple images : Jusqu'à 20 images par message

Optimisation des coûts

  • Redimensionnez les images avant envoi si la résolution complète n'est pas nécessaire
  • Utilisez le prompt caching pour des analyses répétées sur la même image
  • Recadrez pour ne montrer que la zone pertinente

Sources

APIvisionmultimodal