Module 4

RAG en production

Construire des systèmes de génération augmentée par la récupération robustes et performants.

Praticien~10h5 sous-modules22 leçons

4.1Pipeline d'ingestion

▶

Vidéo · 12 minVidéo à venir

Parsing de documents : PDF, HTML, Markdown

Extraire du texte propre depuis différents formats avec préservation de la structure.

▶

Vidéo · 15 minVidéo à venir

Stratégies de chunking : taille et overlap

Choisir la bonne stratégie de découpage selon le type de contenu et les requêtes attendues.

▶

Vidéo · 10 minVidéo à venir

Enrichissement : metadata et contexte

Ajouter des métadonnées aux chunks pour améliorer le filtrage et la pertinence.

▶

Vidéo · 12 minVidéo à venir

Embedding : choisir et optimiser son modèle

Comparaison des modèles d'embedding et optimisation pour le français.

✎

Exercice · 30 minVidéo à venir

Exercice : construire un pipeline d'ingestion

Implémenter un pipeline complet : parsing PDF → chunking → embedding → stockage.

4.2Vector stores

▶

Vidéo · 12 minVidéo à venir

Pinecone : vector DB managée et scalable

Configurer Pinecone, indexer des vecteurs et effectuer des recherches.

▶

Vidéo · 12 minVidéo à venir

Weaviate : recherche hybride et modules IA

Exploiter Weaviate pour combiner recherche vectorielle et filtrage structuré.

▶

Vidéo · 10 minVidéo à venir

pgvector : IA dans votre PostgreSQL existant

Ajouter la recherche vectorielle à une base Postgres sans infrastructure supplémentaire.

▶

Vidéo · 8 minVidéo à venir

Comparatif et critères de choix

Matrice de décision : coût, performance, features, complexité opérationnelle.

4.3Retrieval strategies

▶

Vidéo · 12 minVidéo à venir

Hybrid search : combiner BM25 et sémantique

Fusionner recherche lexicale et vectorielle pour couvrir plus de cas.

▶

Vidéo · 10 minVidéo à venir

Reranking : filtrer le bruit après retrieval

Utiliser un reranker pour affiner les résultats et ne garder que le pertinent.

▶

Vidéo · 10 minVidéo à venir

Query expansion et reformulation

Enrichir la requête utilisateur pour améliorer le rappel du retrieval.

▶

Vidéo · 12 minVidéo à venir

Multi-index et routing de requêtes

Router vers le bon index selon le type de question pour des réponses spécialisées.

◆

Projet · 35 minVidéo à venir

Projet : RAG hybride avec reranking

Construire un pipeline RAG complet avec recherche hybride et reranking.

4.4Évaluation et monitoring

▶

Vidéo · 12 minVidéo à venir

Métriques RAG : faithfulness, relevance, recall

Comprendre et mesurer les métriques clés de qualité d'un système RAG.

▶

Vidéo · 10 minVidéo à venir

RAGAS et évaluation automatisée

Mettre en place RAGAS pour évaluer votre RAG de manière continue.

▶

Vidéo · 12 minVidéo à venir

Monitoring en production : Langfuse et traces

Instrumenter votre RAG pour tracer chaque requête du retrieval à la génération.

✎

Exercice · 25 minVidéo à venir

Exercice : créer un pipeline d'évaluation

Mettre en place une évaluation automatique qui tourne à chaque déploiement.

4.5Scaling et coûts

▶

Vidéo · 10 minVidéo à venir

Optimiser les coûts d'embedding et de stockage

Réduire les coûts : quantization des vecteurs, caching, batch processing.

▶

Vidéo · 12 minVidéo à venir

Scaling horizontal : sharding et réplication

Architectures pour faire passer votre RAG de 1000 à 10M de documents.

▶

Vidéo · 10 minVidéo à venir

Performance : latency P99 sous 500ms

Optimisations pour garantir une latence acceptable même sous charge.

◆

Projet · 40 minVidéo à venir

Projet final : RAG production-ready

Assembler tous les composants en un système RAG prêt pour la production.