← Bibliothèque

🟣 Meta

Meta

2 catégories de ressources

Llama

Llama 3 : guide de démarrage

Télécharger, configurer et faire tourner Llama 3 en local ou sur le cloud.

Llamainstallationdémarrage

Fine-tuning Llama avec QLoRA

Fine-tuner Llama sur vos données avec QLoRA pour un coût GPU minimal.

Llamafine-tuningQLoRA

guideintermédiaire

Déployer Llama sur AWS/GCP/Azure

Comparatif et guides de déploiement Llama sur les trois grands clouds.

Llamadéploiementcloud

Quantization : GGUF, GPTQ, AWQ

Comprendre et appliquer les techniques de quantization pour réduire les besoins GPU.

Llamaquantizationoptimisation

toolintermédiaire

Llama Guard : filtrage de contenu open source

Implémenter Llama Guard pour la modération de contenu dans vos applications.

Llamasécuritémodération

cheatsheetdébutant

Benchmark Llama vs modèles propriétaires

Tests comparatifs sur des tâches francophones : résumé, code, raisonnement.

Llamabenchmarkfrancophone

Open Source Stack

vLLM : servir des modèles à haute performance

Configurer vLLM pour de l'inférence rapide avec PagedAttention et batching continu.

vLLMinférenceperformance

Ollama : LLMs en local en 3 commandes

Installer et utiliser Ollama pour exécuter des modèles localement sans configuration.

Ollamalocaldémarrage

templateavancé

Architecture de déploiement local

Concevoir une stack complète pour de l'inférence locale : hardware, software, monitoring.

localarchitecturehardware

Open WebUI : interface ChatGPT-like pour vos modèles

Déployer une interface web pour interagir avec vos modèles locaux.

Open-WebUIinterfacelocal

cheatsheetintermédiaire

Comparatif des frameworks d'inférence

vLLM vs TGI vs llama.cpp vs Ollama : performances, features, cas d'usage.

inférencecomparaisonframeworks