Open Source
4 catégories de ressources
RAG
Chunking strategies : trouver la bonne taille
Comparatif des stratégies de découpage : fixed, semantic, recursive, document-aware.
Embedding models : lequel choisir ?
Benchmark des modèles d'embedding pour le français : OpenAI, Cohere, BGE, E5.
Rerankers : améliorer la précision du retrieval
Implémenter un reranker (Cohere, BGE) pour filtrer les résultats non pertinents.
Hybrid search : BM25 + sémantique
Combiner recherche lexicale et sémantique pour un retrieval plus robuste.
Template : pipeline RAG avec LangChain
Boilerplate complet pour un pipeline RAG production-ready avec LangChain.
RAG avancé : query expansion et HyDE
Techniques avancées pour améliorer la qualité du retrieval sur des questions complexes.
Agents
LangGraph : agents avec état et cycles
Construire des agents complexes avec graphes d'état, conditions et boucles.
CrewAI : équipes d'agents collaboratifs
Orchestrer plusieurs agents avec des rôles définis pour résoudre des tâches complexes.
AutoGen : conversations multi-agents Microsoft
Implémenter des dialogues entre agents avec AutoGen pour de la résolution de problèmes.
Orchestrateur custom : quand les frameworks ne suffisent pas
Architecture d'un orchestrateur d'agents maison pour des besoins spécifiques.
Tool selection : choisir les bons outils pour l'agent
Patterns pour définir, documenter et sélectionner dynamiquement les outils d'un agent.
Évaluation
RAGAS : évaluer un pipeline RAG
Mettre en place RAGAS pour mesurer la fidélité, pertinence et complétude de votre RAG.
LLM-as-judge : évaluation automatisée
Utiliser un LLM comme évaluateur avec des grilles de scoring structurées.
Construire un dataset d'évaluation
Méthodologie pour créer un golden dataset représentatif et sans biais.
Benchmarks IA : lesquels comptent vraiment ?
Décryptage des benchmarks (MMLU, HumanEval, MT-Bench) et leur pertinence réelle.
CI/CD pour évaluation continue
Intégrer l'évaluation LLM dans votre pipeline CI pour détecter les régressions.
Infrastructure
GPU optimization : maximiser le throughput
Techniques pour saturer vos GPUs : batching, KV cache, speculative decoding.
Model serving : architectures de production
Patterns de déploiement : load balancing, auto-scaling, failover pour l'inférence LLM.
Coûts GPU : AWS vs GCP vs Azure vs Lambda
Comparatif actualisé des coûts d'inférence et training par provider cloud.
Observabilité LLM : logs, traces, métriques
Instrumenter vos déploiements LLM avec OpenTelemetry, Langfuse ou Helicone.
Scaling de 0 à 1M requêtes/jour
Étude de cas : faire évoluer une infra LLM de prototype à production à haute charge.