Guide de démarrage avec Llama
La famille Llama de Meta est la référence des modèles open source. En mai 2025, les modèles disponibles incluent Llama 4 Scout (17B actifs, 109B total MoE), Llama 4 Maverick (17B actifs, 400B total MoE), et Llama 3.3 70B largement déployé.
Choisir son modèle
Llama 4 Scout
- 17B paramètres actifs, 109B total (architecture MoE)
- Excellent rapport performance/coût
- Idéal pour la majorité des applications
Llama 4 Maverick
- 17B paramètres actifs, 400B total (architecture MoE)
- Performances proches des modèles propriétaires
- Requiert plus de ressources GPU
Llama 3.3 70B
- Modèle dense, très stable et éprouvé
- Large écosystème d'outils et quantizations disponibles
- Choix sûr pour la production
Installation locale avec Ollama
La méthode la plus simple pour tester en local :
# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Télécharger et lancer Llama 3.3
ollama run llama3.3
# Le modèle est prêt, tapez votre question
>>> Explique-moi le machine learning en 3 phrasesDéploiement cloud
Via Hugging Face
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "meta-llama/Llama-3.3-70B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)Via les cloud providers
- AWS : Amazon Bedrock ou SageMaker
- GCP : Vertex AI Model Garden
- Azure : Azure AI Model Catalog
Licence
Les modèles Llama sont distribués sous licence Apache 2.0, permettant un usage commercial sans restrictions majeures.
Prérequis matériels
- Llama 3.3 70B (quantized Q4) : 40 Go RAM/VRAM
- Llama 3.3 70B (full) : 140 Go VRAM (2x A100 80GB)
- Llama 4 Scout : Variable selon quantization, environ 60 Go VRAM
Bonnes pratiques
- Commencez avec Ollama pour le prototypage local
- Utilisez des versions quantifiées pour réduire les besoins GPU
- Testez la qualité sur votre cas d'usage spécifique avant de choisir la taille
- Pour la production, préférez vLLM pour les performances d'inférence