?
Cheatsheetdébutant

Benchmarks IA : lesquels comptent vraiment ?

Décryptage des benchmarks (MMLU, HumanEval, MT-Bench) et leur pertinence réelle.

Les benchmarks majeurs décryptés

Les benchmarks sont des tests standardisés pour comparer les modèles de langage. Mais tous ne sont pas également pertinents pour vos cas d'usage. Voici un guide pour les interpréter.

Benchmarks de connaissance générale

MMLU (Massive Multitask Language Understanding)

  • 57 sujets : mathématiques, histoire, sciences, droit, médecine...
  • Format QCM à 4 choix
  • Mesure les connaissances factuelles du modèle
  • Scores actuels : GPT-4o ~88%, Claude 3.5 Sonnet ~89%
  • Limite : Ne teste pas le raisonnement complexe ni la génération

ARC (AI2 Reasoning Challenge)

  • Questions de sciences niveau primaire/collège
  • Division Easy et Challenge
  • Teste le raisonnement scientifique de base

Benchmarks de code

HumanEval

  • 164 problèmes de programmation Python
  • Mesure la capacité à générer du code fonctionnel
  • Métrique : pass@k (le code passe les tests unitaires)
  • Scores actuels : GPT-4o ~91%, Claude 3.5 Sonnet ~92%
  • Limite : Problèmes simples, ne reflète pas le développement réel

SWE-bench

  • Résolution de vraies issues GitHub
  • Beaucoup plus réaliste que HumanEval
  • Teste la capacité à comprendre un codebase existant
  • Score de référence plus exigeant

Benchmarks de conversation

MT-Bench

  • 80 questions multi-tours (2 tours de conversation)
  • Évaluation par GPT-4 (LLM-as-judge)
  • 8 catégories : writing, roleplay, reasoning, math, coding, extraction, STEM, humanities
  • Score sur 10

Chatbot Arena (LMSYS)

  • Évaluation humaine en aveugle (A/B testing)
  • Classement Elo comme aux échecs
  • Le benchmark le plus fiable car basé sur des préférences humaines réelles
  • Mis à jour en continu

Benchmarks de raisonnement

GSM8K

  • 8500 problèmes mathématiques niveau collège
  • Teste le raisonnement étape par étape
  • Quasi-saturé par les meilleurs modèles (>95%)

MATH

  • Problèmes mathématiques niveau compétition
  • Beaucoup plus difficile que GSM8K
  • Teste le raisonnement mathématique avancé

Comment interpréter les benchmarks

Ce qu'ils disent

  • Tendances générales entre modèles
  • Forces relatives (code vs raisonnement vs connaissances)
  • Progression dans le temps

Ce qu'ils ne disent pas

  • Performance sur VOTRE cas d'usage spécifique
  • Qualité de suivi d'instructions complexes
  • Robustesse en production (latence, cohérence)
  • Performance en français ou autres langues non-anglaises

Recommandation pratique

Ne choisissez jamais un modèle uniquement sur les benchmarks. Testez toujours sur vos propres données avec vos propres métriques. Les benchmarks sont un filtre initial, pas une décision finale.

Sources

evalbenchmarkscompréhension