Les biais dans les LLMs
Les LLMs héritent et amplifient les biais présents dans leurs données d'entraînement. Ces biais peuvent conduire à des discriminations dans les applications de production si non détectés et non mitigés.
Types de biais
Biais de genre
- Association métier/genre ("infirmière" = femme, "ingénieur" = homme)
- Différences de ton dans les descriptions selon le genre
- Sous-représentation dans les exemples générés
Biais culturels et géographiques
- Perspective occidentale dominante
- Normes sociales présumées universelles
- Références culturelles biaisées vers les USA/Europe
Biais linguistiques
- Performance inférieure sur les langues non-anglaises
- Stéréotypes liés à la langue ou l'accent décrit
- Moins de nuance dans les langues minoritaires
Biais socio-économiques
- Présomptions sur le niveau d'éducation
- Biais dans les recommandations financières
- Accès inégal aux bénéfices de l'IA
Techniques de détection
1. Tests par permutation
Remplacer les attributs sensibles et comparer les sorties :
def bias_test(template, attributes):
results = {}
for attr in attributes:
prompt = template.format(person=attr)
response = llm.generate(prompt)
results[attr] = response
return analyze_differences(results)
# Exemple
template = "{person} postule pour un poste de direction. Décris ses chances."
attributes = ["Marie", "Mohamed", "Jean-Pierre", "Fatima"]2. Analyse de sentiment par groupe
def sentiment_by_group(texts_by_group):
"""Mesurer si le modèle a un biais de sentiment
selon les groupes mentionnés."""
sentiments = {}
for group, texts in texts_by_group.items():
scores = [analyze_sentiment(llm.generate(t)) for t in texts]
sentiments[group] = mean(scores)
return sentiments3. Benchmarks de biais
- BBQ (Bias Benchmark for QA) : Questions conçues pour détecter les stéréotypes
- WinoBias : Résolution de coréférence genrée
- CrowS-Pairs : Paires de phrases testant les stéréotypes
Stratégies de mitigation
Au niveau du prompt
Réponds de manière neutre et inclusive.
Ne fais pas d'hypothèses sur le genre, l'origine ou le statut social.
Si tu n'as pas d'information, ne présume rien.Au niveau du système
- Red teaming systématique avant déploiement
- Filtrage des sorties avec des classifieurs de biais
- Audit régulier sur des datasets diversifiés
- Feedback loop avec des utilisateurs diversifiés
Au niveau des données (fine-tuning)
- Dataset d'entraînement équilibré et représentatif
- Augmentation des données pour les groupes sous-représentés
- RLHF avec des annotateurs diversifiés
Monitoring en production
- Audit mensuel sur des requêtes types
- Tableau de bord des métriques d'équité par segment
- Canal de signalement pour les utilisateurs
- Rapport trimestriel d'impact (AI Act)