?
GuidedébutantVérifié le 2025-05

Ollama : LLMs en local en 3 commandes

Installer et utiliser Ollama pour exécuter des modèles localement sans configuration.

Ollama : LLMs en local sans friction

Ollama est l'outil le plus simple pour exécuter des modèles de langage en local. Trois commandes suffisent pour passer de zéro à une conversation avec un LLM.

Installation

macOS

brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

Téléchargez l'installeur depuis https://ollama.com/download

Démarrage en 3 commandes

# 1. Lancer le service Ollama
ollama serve

# 2. Télécharger un modèle
ollama pull llama3.3

# 3. Discuter avec le modèle
ollama run llama3.3

C'est tout. Le modèle se télécharge et démarre automatiquement.

Modèles disponibles

Ollama héberge un catalogue de modèles pré-quantifiés :

  • llama3.3 : Llama 3.3 70B (recommandé, 40 Go)
  • llama3.2 : 1B et 3B (ultra-légers, pour laptop)
  • mistral : Mistral 7B (bon rapport taille/qualité)
  • qwen2.5 : Qwen 2.5 (excellent en multilingue)
  • codellama : Spécialisé code
  • llama-guard3 : Modération de contenu
# Voir les modèles disponibles localement
ollama list

# Supprimer un modèle
ollama rm llama3.3

API REST

Ollama expose une API REST locale sur le port 11434 :

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "Explique Docker en 3 phrases",
  "stream": false
}'

Depuis Python

import ollama

response = ollama.chat(
    model='llama3.3',
    messages=[{'role': 'user', 'content': 'Bonjour !'}]
)
print(response['message']['content'])

Modelfile : personnaliser un modèle

Créez un modèle custom avec un Modelfile :

FROM llama3.3

SYSTEM "Tu es un assistant spécialisé en cuisine française. Réponds toujours en français."

PARAMETER temperature 0.7
PARAMETER num_ctx 4096
ollama create mon-chef -f Modelfile
ollama run mon-chef

Performances et hardware

  • Mac M1/M2/M3 : Excellent support Metal, 7B fluide sur 8 Go RAM
  • GPU NVIDIA : Support CUDA automatique
  • CPU seul : Fonctionne mais plus lent, préférez les modèles < 7B

Bonnes pratiques

  • Commencez avec un petit modèle (3B) pour tester votre setup
  • Utilisez les variantes quantifiées adaptées à votre RAM
  • Gardez Ollama en service (serve) pour éviter les temps de chargement
  • Explorez les Modelfiles pour créer des assistants spécialisés
  • Combinez avec Open WebUI pour une interface graphique

Sources

Ollamalocaldémarrage