RAG en production
Construire des systèmes de génération augmentée par la récupération robustes et performants.
4.1Pipeline d'ingestion
Parsing de documents : PDF, HTML, Markdown
Extraire du texte propre depuis différents formats avec préservation de la structure.
Stratégies de chunking : taille et overlap
Choisir la bonne stratégie de découpage selon le type de contenu et les requêtes attendues.
Enrichissement : metadata et contexte
Ajouter des métadonnées aux chunks pour améliorer le filtrage et la pertinence.
Embedding : choisir et optimiser son modèle
Comparaison des modèles d'embedding et optimisation pour le français.
Exercice : construire un pipeline d'ingestion
Implémenter un pipeline complet : parsing PDF → chunking → embedding → stockage.
4.2Vector stores
Pinecone : vector DB managée et scalable
Configurer Pinecone, indexer des vecteurs et effectuer des recherches.
Weaviate : recherche hybride et modules IA
Exploiter Weaviate pour combiner recherche vectorielle et filtrage structuré.
pgvector : IA dans votre PostgreSQL existant
Ajouter la recherche vectorielle à une base Postgres sans infrastructure supplémentaire.
Comparatif et critères de choix
Matrice de décision : coût, performance, features, complexité opérationnelle.
4.3Retrieval strategies
Hybrid search : combiner BM25 et sémantique
Fusionner recherche lexicale et vectorielle pour couvrir plus de cas.
Reranking : filtrer le bruit après retrieval
Utiliser un reranker pour affiner les résultats et ne garder que le pertinent.
Query expansion et reformulation
Enrichir la requête utilisateur pour améliorer le rappel du retrieval.
Multi-index et routing de requêtes
Router vers le bon index selon le type de question pour des réponses spécialisées.
Projet : RAG hybride avec reranking
Construire un pipeline RAG complet avec recherche hybride et reranking.
4.4Évaluation et monitoring
Métriques RAG : faithfulness, relevance, recall
Comprendre et mesurer les métriques clés de qualité d'un système RAG.
RAGAS et évaluation automatisée
Mettre en place RAGAS pour évaluer votre RAG de manière continue.
Monitoring en production : Langfuse et traces
Instrumenter votre RAG pour tracer chaque requête du retrieval à la génération.
Exercice : créer un pipeline d'évaluation
Mettre en place une évaluation automatique qui tourne à chaque déploiement.
4.5Scaling et coûts
Optimiser les coûts d'embedding et de stockage
Réduire les coûts : quantization des vecteurs, caching, batch processing.
Scaling horizontal : sharding et réplication
Architectures pour faire passer votre RAG de 1000 à 10M de documents.
Performance : latency P99 sous 500ms
Optimisations pour garantir une latence acceptable même sous charge.
Projet final : RAG production-ready
Assembler tous les composants en un système RAG prêt pour la production.