?
SkillintermédiaireVérifié le 2025-05

Évaluation de prompts : métriques et scoring

Utiliser les outils d'évaluation intégrés pour mesurer la qualité de vos prompts.

Évaluation de prompts dans AI Studio

Mesurer la qualité d'un prompt est essentiel pour passer du prototypage à la production. AI Studio et l'écosystème Google offrent des outils pour évaluer systématiquement vos prompts.

Pourquoi évaluer ?

  • Objectivité : Remplacer l'intuition par des métriques
  • Régression : Détecter quand un changement dégrade la qualité
  • Comparaison : Choisir entre plusieurs versions d'un prompt
  • Confiance : Valider avant la mise en production

Métriques courantes

Métriques automatiques

  • Exactitude : La réponse correspond-elle à la référence attendue ?
  • Cohérence : Les réponses sont-elles consistantes entre elles ?
  • Format : Le JSON est-il valide ? Les contraintes de longueur respectées ?
  • Latence : Temps de réponse acceptable ?

Métriques sémantiques

  • Pertinence : La réponse adresse-t-elle la question ?
  • Complétude : Tous les points importants sont-ils couverts ?
  • Factualité : Les informations sont-elles correctes ?
  • Ton : Le style correspond-il aux attentes ?

Méthodologie d'évaluation

1. Créer un jeu de test

Préparez 20-50 cas de test avec : - Entrées variées et représentatives - Sorties attendues (golden answers) - Cas limites identifiés

2. Définir les critères

Pour chaque cas, évaluez sur une échelle : - 1 = Incorrect ou inutilisable - 2 = Partiellement correct - 3 = Correct mais améliorable - 4 = Bon - 5 = Excellent

3. Automatiser avec Gemini

Utilisez Gemini comme évaluateur (LLM-as-judge) :

evaluation_prompt = """
Évalue la réponse suivante sur ces critères (1-5) :
- Pertinence
- Complétude  
- Clarté

Question : {question}
Réponse : {response}
Référence : {reference}

Retourne un JSON avec les scores et justifications.
"""

4. Itérer

  • Identifiez les patterns d'échec
  • Modifiez le prompt pour adresser les faiblesses
  • Ré-évaluez et comparez les scores

Outils complémentaires

  • Vertex AI Evaluation : Évaluation à grande échelle en production
  • AI Studio Test Cases : Tests intégrés dans l'interface
  • Prompt versioning : Gardez un historique de vos itérations

Bonnes pratiques

  • Évaluez AVANT de changer de modèle ou de prompt
  • Séparez les données de test des données utilisées pour le few-shot
  • Impliquez des humains pour les métriques subjectives
  • Automatisez les évaluations dans votre CI/CD

Sources

AI-Studioévaluationqualité