?
GuidedébutantVérifié le 2025-05

Llama 3 : guide de démarrage

Télécharger, configurer et faire tourner Llama 3 en local ou sur le cloud.

Guide de démarrage avec Llama

La famille Llama de Meta est la référence des modèles open source. En mai 2025, les modèles disponibles incluent Llama 4 Scout (17B actifs, 109B total MoE), Llama 4 Maverick (17B actifs, 400B total MoE), et Llama 3.3 70B largement déployé.

Choisir son modèle

Llama 4 Scout

  • 17B paramètres actifs, 109B total (architecture MoE)
  • Excellent rapport performance/coût
  • Idéal pour la majorité des applications

Llama 4 Maverick

  • 17B paramètres actifs, 400B total (architecture MoE)
  • Performances proches des modèles propriétaires
  • Requiert plus de ressources GPU

Llama 3.3 70B

  • Modèle dense, très stable et éprouvé
  • Large écosystème d'outils et quantizations disponibles
  • Choix sûr pour la production

Installation locale avec Ollama

La méthode la plus simple pour tester en local :

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Télécharger et lancer Llama 3.3
ollama run llama3.3

# Le modèle est prêt, tapez votre question
>>> Explique-moi le machine learning en 3 phrases

Déploiement cloud

Via Hugging Face

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

Via les cloud providers

  • AWS : Amazon Bedrock ou SageMaker
  • GCP : Vertex AI Model Garden
  • Azure : Azure AI Model Catalog

Licence

Les modèles Llama sont distribués sous licence Apache 2.0, permettant un usage commercial sans restrictions majeures.

Prérequis matériels

  • Llama 3.3 70B (quantized Q4) : 40 Go RAM/VRAM
  • Llama 3.3 70B (full) : 140 Go VRAM (2x A100 80GB)
  • Llama 4 Scout : Variable selon quantization, environ 60 Go VRAM

Bonnes pratiques

  • Commencez avec Ollama pour le prototypage local
  • Utilisez des versions quantifiées pour réduire les besoins GPU
  • Testez la qualité sur votre cas d'usage spécifique avant de choisir la taille
  • Pour la production, préférez vLLM pour les performances d'inférence

Sources

Llamainstallationdémarrage