Évaluation de prompts dans AI Studio
Mesurer la qualité d'un prompt est essentiel pour passer du prototypage à la production. AI Studio et l'écosystème Google offrent des outils pour évaluer systématiquement vos prompts.
Pourquoi évaluer ?
- Objectivité : Remplacer l'intuition par des métriques
- Régression : Détecter quand un changement dégrade la qualité
- Comparaison : Choisir entre plusieurs versions d'un prompt
- Confiance : Valider avant la mise en production
Métriques courantes
Métriques automatiques
- Exactitude : La réponse correspond-elle à la référence attendue ?
- Cohérence : Les réponses sont-elles consistantes entre elles ?
- Format : Le JSON est-il valide ? Les contraintes de longueur respectées ?
- Latence : Temps de réponse acceptable ?
Métriques sémantiques
- Pertinence : La réponse adresse-t-elle la question ?
- Complétude : Tous les points importants sont-ils couverts ?
- Factualité : Les informations sont-elles correctes ?
- Ton : Le style correspond-il aux attentes ?
Méthodologie d'évaluation
1. Créer un jeu de test
Préparez 20-50 cas de test avec : - Entrées variées et représentatives - Sorties attendues (golden answers) - Cas limites identifiés
2. Définir les critères
Pour chaque cas, évaluez sur une échelle : - 1 = Incorrect ou inutilisable - 2 = Partiellement correct - 3 = Correct mais améliorable - 4 = Bon - 5 = Excellent
3. Automatiser avec Gemini
Utilisez Gemini comme évaluateur (LLM-as-judge) :
evaluation_prompt = """
Évalue la réponse suivante sur ces critères (1-5) :
- Pertinence
- Complétude
- Clarté
Question : {question}
Réponse : {response}
Référence : {reference}
Retourne un JSON avec les scores et justifications.
"""4. Itérer
- Identifiez les patterns d'échec
- Modifiez le prompt pour adresser les faiblesses
- Ré-évaluez et comparez les scores
Outils complémentaires
- Vertex AI Evaluation : Évaluation à grande échelle en production
- AI Studio Test Cases : Tests intégrés dans l'interface
- Prompt versioning : Gardez un historique de vos itérations
Bonnes pratiques
- Évaluez AVANT de changer de modèle ou de prompt
- Séparez les données de test des données utilisées pour le few-shot
- Impliquez des humains pour les métriques subjectives
- Automatisez les évaluations dans votre CI/CD