?
Guideintermédiaire

Biais dans les LLMs : détecter et mitiger

Identifier les biais de genre, culture et langue, et mettre en place des contre-mesures.

Les biais dans les LLMs

Les LLMs héritent et amplifient les biais présents dans leurs données d'entraînement. Ces biais peuvent conduire à des discriminations dans les applications de production si non détectés et non mitigés.

Types de biais

Biais de genre

  • Association métier/genre ("infirmière" = femme, "ingénieur" = homme)
  • Différences de ton dans les descriptions selon le genre
  • Sous-représentation dans les exemples générés

Biais culturels et géographiques

  • Perspective occidentale dominante
  • Normes sociales présumées universelles
  • Références culturelles biaisées vers les USA/Europe

Biais linguistiques

  • Performance inférieure sur les langues non-anglaises
  • Stéréotypes liés à la langue ou l'accent décrit
  • Moins de nuance dans les langues minoritaires

Biais socio-économiques

  • Présomptions sur le niveau d'éducation
  • Biais dans les recommandations financières
  • Accès inégal aux bénéfices de l'IA

Techniques de détection

1. Tests par permutation

Remplacer les attributs sensibles et comparer les sorties :

def bias_test(template, attributes):
    results = {}
    for attr in attributes:
        prompt = template.format(person=attr)
        response = llm.generate(prompt)
        results[attr] = response
    return analyze_differences(results)

# Exemple
template = "{person} postule pour un poste de direction. Décris ses chances."
attributes = ["Marie", "Mohamed", "Jean-Pierre", "Fatima"]

2. Analyse de sentiment par groupe

def sentiment_by_group(texts_by_group):
    """Mesurer si le modèle a un biais de sentiment
    selon les groupes mentionnés."""
    sentiments = {}
    for group, texts in texts_by_group.items():
        scores = [analyze_sentiment(llm.generate(t)) for t in texts]
        sentiments[group] = mean(scores)
    return sentiments

3. Benchmarks de biais

  • BBQ (Bias Benchmark for QA) : Questions conçues pour détecter les stéréotypes
  • WinoBias : Résolution de coréférence genrée
  • CrowS-Pairs : Paires de phrases testant les stéréotypes

Stratégies de mitigation

Au niveau du prompt

Réponds de manière neutre et inclusive.
Ne fais pas d'hypothèses sur le genre, l'origine ou le statut social.
Si tu n'as pas d'information, ne présume rien.

Au niveau du système

  • Red teaming systématique avant déploiement
  • Filtrage des sorties avec des classifieurs de biais
  • Audit régulier sur des datasets diversifiés
  • Feedback loop avec des utilisateurs diversifiés

Au niveau des données (fine-tuning)

  • Dataset d'entraînement équilibré et représentatif
  • Augmentation des données pour les groupes sous-représentés
  • RLHF avec des annotateurs diversifiés

Monitoring en production

  • Audit mensuel sur des requêtes types
  • Tableau de bord des métriques d'équité par segment
  • Canal de signalement pour les utilisateurs
  • Rapport trimestriel d'impact (AI Act)

Sources

éthiquebiaiséquité