Module 6

Évaluation & Qualité

Mesurer, tester et garantir la qualité des systèmes IA en continu.

Expert~6h5 sous-modules17 leçons

6.1Méthodologie d'évaluation

▶

Vidéo · 10 minVidéo à venir

Pourquoi évaluer est si difficile avec les LLMs

Les défis uniques de l'évaluation de systèmes non-déterministes.

▶

Vidéo · 12 minVidéo à venir

Types d'évaluation : offline, online, human

Les trois approches complémentaires et quand utiliser chacune.

▶

Vidéo · 10 minVidéo à venir

Définir des critères d'évaluation métier

Traduire les attentes business en métriques mesurables pour le LLM.

✎

Exercice · 20 minVidéo à venir

Exercice : créer une grille d'évaluation

Construire une grille d'évaluation complète pour un assistant de support.

6.2LLM-as-judge et biais circulaire

▶

Vidéo · 12 minVidéo à venir

LLM-as-judge : principes et implémentation

Utiliser un LLM pour évaluer automatiquement les sorties d'un autre LLM.

▶

Vidéo · 10 minVidéo à venir

Biais circulaire : quand le juge se trompe

Identifier et mitiger les biais quand un LLM évalue un LLM du même type.

▶

Vidéo · 10 minVidéo à venir

Calibration et accord inter-annotateurs

Mesurer la fiabilité du juge LLM par rapport à des évaluateurs humains.

✎

Exercice · 25 minVidéo à venir

Exercice : implémenter un judge pipeline

Coder un système d'évaluation automatique avec LLM-as-judge et métriques.

6.3Datasets d'évaluation

▶

Vidéo · 12 minVidéo à venir

Construire un golden dataset

Méthodologie pour créer un jeu de données de référence représentatif et fiable.

▶

Vidéo · 10 minVidéo à venir

Synthetic data : générer des cas de test

Utiliser un LLM pour générer des données de test variées et réalistes.

▶

Vidéo · 10 minVidéo à venir

Edge cases et adversarial testing

Identifier et tester les cas limites qui pourraient faire échouer le système.

6.4CI/CD pour systèmes IA

▶

Vidéo · 10 minVidéo à venir

Tests de régression pour prompts

Détecter quand un changement de prompt dégrade les performances sur des cas existants.

▶

Vidéo · 12 minVidéo à venir

Pipeline CI avec évaluation automatique

Intégrer l'évaluation LLM dans GitHub Actions pour bloquer les régressions.

◆

Projet · 30 minVidéo à venir

Projet : CI/CD complète pour un chatbot

Mettre en place un pipeline CI complet avec tests, éval et déploiement conditionnel.

6.5A/B testing en production

▶

Vidéo · 10 minVidéo à venir

A/B testing de prompts : méthodologie

Concevoir des expériences statistiquement valides pour comparer des prompts.

▶

Vidéo · 10 minVidéo à venir

Feature flags et déploiement progressif

Déployer de nouveaux prompts graduellement avec contrôle et rollback.

▶

Vidéo · 8 minVidéo à venir

Analyser les résultats et prendre des décisions

Interpréter les métriques d'un A/B test et décider quand promouvoir un variant.