?
Guideintermédiaire

Constitutional AI : comprendre les gardes-fous

Comment Claude est entraîné et comment travailler avec (pas contre) ses principes.

Qu'est-ce que Constitutional AI ?

Constitutional AI (CAI) est l'approche d'alignement développée par Anthropic pour entraîner Claude. Plutôt que de s'appuyer uniquement sur du feedback humain (RLHF), CAI utilise un ensemble de principes écrits — une "constitution" — pour guider le comportement du modèle.

Comment ça fonctionne

L'entraînement se déroule en deux phases :

Phase 1 : Auto-critique (SL-CAI) 1. Claude génère des réponses à des prompts 2. Claude critique ses propres réponses selon les principes constitutionnels 3. Claude génère une version révisée 4. Le modèle est fine-tuné sur les réponses révisées

Phase 2 : Apprentissage par renforcement (RL-CAI) 1. Un modèle évalue les réponses selon la constitution 2. Ce feedback est utilisé pour l'entraînement par renforcement 3. Pas besoin d'annotateurs humains pour les jugements éthiques

Les principes de Claude

La constitution de Claude inclut des principes comme : - Être honnête et ne pas tromper - Être utile tout en évitant les dommages - Respecter l'autonomie de l'utilisateur - Être transparent sur ses limites - Ne pas aider à des activités illégales ou dangereuses

Travailler AVEC les principes

Ce qui fonctionne bien - Contexte professionnel clair : Expliquer pourquoi vous avez besoin d'une information sensible - Rôle légitime : "En tant que chercheur en sécurité, j'ai besoin de comprendre..." - Transparence : Être honnête sur vos intentions

Ce qui déclenche les refus - Demandes de contenu nuisible sans contexte légitime - Tentatives de manipulation ou de jailbreak - Requêtes qui semblent viser à contourner les garde-fous

Implications pratiques pour les développeurs

System prompts et safety Votre system prompt ne peut pas désactiver les principes fondamentaux de Claude. Cependant, vous pouvez : - Ajuster le ton et le niveau de prudence pour votre cas d'usage - Fournir un contexte qui aide Claude à comprendre la légitimité - Définir un scope clair qui réduit les ambiguïtés

Design de produit - Anticipez les refus : Votre UX doit gérer gracieusement les cas où Claude refuse - Guidez les utilisateurs : Aidez-les à reformuler plutôt qu'à insister - Audit logging : Identifiez les patterns de refus pour améliorer vos prompts

Différence avec la compétition

Contrairement au RLHF pur (utilisé par d'autres labs), CAI : - Est plus scalable (moins de feedback humain nécessaire) - Est plus transparent (principes publics et explicites) - Permet une itération plus rapide sur les valeurs - Réduit le biais des annotateurs individuels

Ressources

Anthropique publie régulièrement sur ses recherches d'alignement. Les papiers de recherche détaillent l'évolution de l'approche CAI et ses résultats empiriques.

Sources

safetyconstitutional-AI