Meta
2 catégories de ressources
Llama
Llama 3 : guide de démarrage
Télécharger, configurer et faire tourner Llama 3 en local ou sur le cloud.
Fine-tuning Llama avec QLoRA
Fine-tuner Llama sur vos données avec QLoRA pour un coût GPU minimal.
Déployer Llama sur AWS/GCP/Azure
Comparatif et guides de déploiement Llama sur les trois grands clouds.
Quantization : GGUF, GPTQ, AWQ
Comprendre et appliquer les techniques de quantization pour réduire les besoins GPU.
Llama Guard : filtrage de contenu open source
Implémenter Llama Guard pour la modération de contenu dans vos applications.
Benchmark Llama vs modèles propriétaires
Tests comparatifs sur des tâches francophones : résumé, code, raisonnement.
Open Source Stack
vLLM : servir des modèles à haute performance
Configurer vLLM pour de l'inférence rapide avec PagedAttention et batching continu.
Ollama : LLMs en local en 3 commandes
Installer et utiliser Ollama pour exécuter des modèles localement sans configuration.
Architecture de déploiement local
Concevoir une stack complète pour de l'inférence locale : hardware, software, monitoring.
Open WebUI : interface ChatGPT-like pour vos modèles
Déployer une interface web pour interagir avec vos modèles locaux.
Comparatif des frameworks d'inférence
vLLM vs TGI vs llama.cpp vs Ollama : performances, features, cas d'usage.