L'Atelier — Réseau francophone IA (produit, tech, business)

Ollama : LLMs en local sans friction

Ollama est l'outil le plus simple pour exécuter des modèles de langage en local. Trois commandes suffisent pour passer de zéro à une conversation avec un LLM.

Installation

macOS

brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

Téléchargez l'installeur depuis https://ollama.com/download

Démarrage en 3 commandes

# 1. Lancer le service Ollama
ollama serve

# 2. Télécharger un modèle
ollama pull llama3.3

# 3. Discuter avec le modèle
ollama run llama3.3

C'est tout. Le modèle se télécharge et démarre automatiquement.

Modèles disponibles

Ollama héberge un catalogue de modèles pré-quantifiés :

llama3.3 : Llama 3.3 70B (recommandé, 40 Go)
llama3.2 : 1B et 3B (ultra-légers, pour laptop)
mistral : Mistral 7B (bon rapport taille/qualité)
qwen2.5 : Qwen 2.5 (excellent en multilingue)
codellama : Spécialisé code
llama-guard3 : Modération de contenu

# Voir les modèles disponibles localement
ollama list

# Supprimer un modèle
ollama rm llama3.3

API REST

Ollama expose une API REST locale sur le port 11434 :

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "Explique Docker en 3 phrases",
  "stream": false
}'

Depuis Python

import ollama

response = ollama.chat(
    model='llama3.3',
    messages=[{'role': 'user', 'content': 'Bonjour !'}]
)
print(response['message']['content'])

Modelfile : personnaliser un modèle

Créez un modèle custom avec un Modelfile :

FROM llama3.3

SYSTEM "Tu es un assistant spécialisé en cuisine française. Réponds toujours en français."

PARAMETER temperature 0.7
PARAMETER num_ctx 4096

ollama create mon-chef -f Modelfile
ollama run mon-chef

Performances et hardware

Mac M1/M2/M3 : Excellent support Metal, 7B fluide sur 8 Go RAM
GPU NVIDIA : Support CUDA automatique
CPU seul : Fonctionne mais plus lent, préférez les modèles < 7B

Bonnes pratiques

Commencez avec un petit modèle (3B) pour tester votre setup
Utilisez les variantes quantifiées adaptées à votre RAM
Gardez Ollama en service (serve) pour éviter les temps de chargement
Explorez les Modelfiles pour créer des assistants spécialisés
Combinez avec Open WebUI pour une interface graphique

Ollama : LLMs en local en 3 commandes