Qu'est-ce que Constitutional AI ?
Constitutional AI (CAI) est l'approche d'alignement développée par Anthropic pour entraîner Claude. Plutôt que de s'appuyer uniquement sur du feedback humain (RLHF), CAI utilise un ensemble de principes écrits — une "constitution" — pour guider le comportement du modèle.
Comment ça fonctionne
L'entraînement se déroule en deux phases :
Phase 1 : Auto-critique (SL-CAI) 1. Claude génère des réponses à des prompts 2. Claude critique ses propres réponses selon les principes constitutionnels 3. Claude génère une version révisée 4. Le modèle est fine-tuné sur les réponses révisées
Phase 2 : Apprentissage par renforcement (RL-CAI) 1. Un modèle évalue les réponses selon la constitution 2. Ce feedback est utilisé pour l'entraînement par renforcement 3. Pas besoin d'annotateurs humains pour les jugements éthiques
Les principes de Claude
La constitution de Claude inclut des principes comme : - Être honnête et ne pas tromper - Être utile tout en évitant les dommages - Respecter l'autonomie de l'utilisateur - Être transparent sur ses limites - Ne pas aider à des activités illégales ou dangereuses
Travailler AVEC les principes
Ce qui fonctionne bien - Contexte professionnel clair : Expliquer pourquoi vous avez besoin d'une information sensible - Rôle légitime : "En tant que chercheur en sécurité, j'ai besoin de comprendre..." - Transparence : Être honnête sur vos intentions
Ce qui déclenche les refus - Demandes de contenu nuisible sans contexte légitime - Tentatives de manipulation ou de jailbreak - Requêtes qui semblent viser à contourner les garde-fous
Implications pratiques pour les développeurs
System prompts et safety Votre system prompt ne peut pas désactiver les principes fondamentaux de Claude. Cependant, vous pouvez : - Ajuster le ton et le niveau de prudence pour votre cas d'usage - Fournir un contexte qui aide Claude à comprendre la légitimité - Définir un scope clair qui réduit les ambiguïtés
Design de produit - Anticipez les refus : Votre UX doit gérer gracieusement les cas où Claude refuse - Guidez les utilisateurs : Aidez-les à reformuler plutôt qu'à insister - Audit logging : Identifiez les patterns de refus pour améliorer vos prompts
Différence avec la compétition
Contrairement au RLHF pur (utilisé par d'autres labs), CAI : - Est plus scalable (moins de feedback humain nécessaire) - Est plus transparent (principes publics et explicites) - Permet une itération plus rapide sur les valeurs - Réduit le biais des annotateurs individuels
Ressources
Anthropique publie régulièrement sur ses recherches d'alignement. Les papiers de recherche détaillent l'évolution de l'approche CAI et ses résultats empiriques.