L'Atelier — Réseau francophone IA (produit, tech, business)

Évaluation de prompts dans AI Studio

Mesurer la qualité d'un prompt est essentiel pour passer du prototypage à la production. AI Studio et l'écosystème Google offrent des outils pour évaluer systématiquement vos prompts.

Pourquoi évaluer ?

Objectivité : Remplacer l'intuition par des métriques
Régression : Détecter quand un changement dégrade la qualité
Comparaison : Choisir entre plusieurs versions d'un prompt
Confiance : Valider avant la mise en production

Métriques courantes

Métriques automatiques

Exactitude : La réponse correspond-elle à la référence attendue ?
Cohérence : Les réponses sont-elles consistantes entre elles ?
Format : Le JSON est-il valide ? Les contraintes de longueur respectées ?
Latence : Temps de réponse acceptable ?

Métriques sémantiques

Pertinence : La réponse adresse-t-elle la question ?
Complétude : Tous les points importants sont-ils couverts ?
Factualité : Les informations sont-elles correctes ?
Ton : Le style correspond-il aux attentes ?

Méthodologie d'évaluation

1. Créer un jeu de test

Préparez 20-50 cas de test avec : - Entrées variées et représentatives - Sorties attendues (golden answers) - Cas limites identifiés

2. Définir les critères

Pour chaque cas, évaluez sur une échelle : - 1 = Incorrect ou inutilisable - 2 = Partiellement correct - 3 = Correct mais améliorable - 4 = Bon - 5 = Excellent

3. Automatiser avec Gemini

Utilisez Gemini comme évaluateur (LLM-as-judge) :

evaluation_prompt = """
Évalue la réponse suivante sur ces critères (1-5) :
- Pertinence
- Complétude  
- Clarté

Question : {question}
Réponse : {response}
Référence : {reference}

Retourne un JSON avec les scores et justifications.
"""

4. Itérer

Identifiez les patterns d'échec
Modifiez le prompt pour adresser les faiblesses
Ré-évaluez et comparez les scores

Outils complémentaires

Vertex AI Evaluation : Évaluation à grande échelle en production
AI Studio Test Cases : Tests intégrés dans l'interface
Prompt versioning : Gardez un historique de vos itérations

Bonnes pratiques

Évaluez AVANT de changer de modèle ou de prompt
Séparez les données de test des données utilisées pour le few-shot
Impliquez des humains pour les métriques subjectives
Automatisez les évaluations dans votre CI/CD

Évaluation de prompts : métriques et scoring