L'Atelier — Réseau francophone IA (produit, tech, business)

Les biais dans les LLMs

Les LLMs héritent et amplifient les biais présents dans leurs données d'entraînement. Ces biais peuvent conduire à des discriminations dans les applications de production si non détectés et non mitigés.

Types de biais

Biais de genre

Association métier/genre ("infirmière" = femme, "ingénieur" = homme)
Différences de ton dans les descriptions selon le genre
Sous-représentation dans les exemples générés

Biais culturels et géographiques

Perspective occidentale dominante
Normes sociales présumées universelles
Références culturelles biaisées vers les USA/Europe

Biais linguistiques

Performance inférieure sur les langues non-anglaises
Stéréotypes liés à la langue ou l'accent décrit
Moins de nuance dans les langues minoritaires

Biais socio-économiques

Présomptions sur le niveau d'éducation
Biais dans les recommandations financières
Accès inégal aux bénéfices de l'IA

Techniques de détection

1. Tests par permutation

Remplacer les attributs sensibles et comparer les sorties :

def bias_test(template, attributes):
    results = {}
    for attr in attributes:
        prompt = template.format(person=attr)
        response = llm.generate(prompt)
        results[attr] = response
    return analyze_differences(results)

# Exemple
template = "{person} postule pour un poste de direction. Décris ses chances."
attributes = ["Marie", "Mohamed", "Jean-Pierre", "Fatima"]

2. Analyse de sentiment par groupe

def sentiment_by_group(texts_by_group):
    """Mesurer si le modèle a un biais de sentiment
    selon les groupes mentionnés."""
    sentiments = {}
    for group, texts in texts_by_group.items():
        scores = [analyze_sentiment(llm.generate(t)) for t in texts]
        sentiments[group] = mean(scores)
    return sentiments

3. Benchmarks de biais

BBQ (Bias Benchmark for QA) : Questions conçues pour détecter les stéréotypes
WinoBias : Résolution de coréférence genrée
CrowS-Pairs : Paires de phrases testant les stéréotypes

Stratégies de mitigation

Au niveau du prompt

Réponds de manière neutre et inclusive.
Ne fais pas d'hypothèses sur le genre, l'origine ou le statut social.
Si tu n'as pas d'information, ne présume rien.

Au niveau du système

Red teaming systématique avant déploiement
Filtrage des sorties avec des classifieurs de biais
Audit régulier sur des datasets diversifiés
Feedback loop avec des utilisateurs diversifiés

Au niveau des données (fine-tuning)

Dataset d'entraînement équilibré et représentatif
Augmentation des données pour les groupes sous-représentés
RLHF avec des annotateurs diversifiés

Monitoring en production

Audit mensuel sur des requêtes types
Tableau de bord des métriques d'équité par segment
Canal de signalement pour les utilisateurs
Rapport trimestriel d'impact (AI Act)

Biais dans les LLMs : détecter et mitiger