L'Atelier — Réseau francophone IA (produit, tech, business)

Guide de démarrage avec Llama

La famille Llama de Meta est la référence des modèles open source. En mai 2025, les modèles disponibles incluent Llama 4 Scout (17B actifs, 109B total MoE), Llama 4 Maverick (17B actifs, 400B total MoE), et Llama 3.3 70B largement déployé.

Choisir son modèle

Llama 4 Scout

17B paramètres actifs, 109B total (architecture MoE)
Excellent rapport performance/coût
Idéal pour la majorité des applications

Llama 4 Maverick

17B paramètres actifs, 400B total (architecture MoE)
Performances proches des modèles propriétaires
Requiert plus de ressources GPU

Llama 3.3 70B

Modèle dense, très stable et éprouvé
Large écosystème d'outils et quantizations disponibles
Choix sûr pour la production

Installation locale avec Ollama

La méthode la plus simple pour tester en local :

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Télécharger et lancer Llama 3.3
ollama run llama3.3

# Le modèle est prêt, tapez votre question
>>> Explique-moi le machine learning en 3 phrases

Déploiement cloud

Via Hugging Face

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

Via les cloud providers

AWS : Amazon Bedrock ou SageMaker
GCP : Vertex AI Model Garden
Azure : Azure AI Model Catalog

Licence

Les modèles Llama sont distribués sous licence Apache 2.0, permettant un usage commercial sans restrictions majeures.

Prérequis matériels

Llama 3.3 70B (quantized Q4) : 40 Go RAM/VRAM
Llama 3.3 70B (full) : 140 Go VRAM (2x A100 80GB)
Llama 4 Scout : Variable selon quantization, environ 60 Go VRAM

Bonnes pratiques

Commencez avec Ollama pour le prototypage local
Utilisez des versions quantifiées pour réduire les besoins GPU
Testez la qualité sur votre cas d'usage spécifique avant de choisir la taille
Pour la production, préférez vLLM pour les performances d'inférence

Llama 3 : guide de démarrage