Ollama : LLMs en local sans friction
Ollama est l'outil le plus simple pour exécuter des modèles de langage en local. Trois commandes suffisent pour passer de zéro à une conversation avec un LLM.
Installation
macOS
brew install ollamaLinux
curl -fsSL https://ollama.com/install.sh | shWindows
Téléchargez l'installeur depuis https://ollama.com/download
Démarrage en 3 commandes
# 1. Lancer le service Ollama
ollama serve
# 2. Télécharger un modèle
ollama pull llama3.3
# 3. Discuter avec le modèle
ollama run llama3.3C'est tout. Le modèle se télécharge et démarre automatiquement.
Modèles disponibles
Ollama héberge un catalogue de modèles pré-quantifiés :
- llama3.3 : Llama 3.3 70B (recommandé, 40 Go)
- llama3.2 : 1B et 3B (ultra-légers, pour laptop)
- mistral : Mistral 7B (bon rapport taille/qualité)
- qwen2.5 : Qwen 2.5 (excellent en multilingue)
- codellama : Spécialisé code
- llama-guard3 : Modération de contenu
# Voir les modèles disponibles localement
ollama list
# Supprimer un modèle
ollama rm llama3.3API REST
Ollama expose une API REST locale sur le port 11434 :
curl http://localhost:11434/api/generate -d '{
"model": "llama3.3",
"prompt": "Explique Docker en 3 phrases",
"stream": false
}'Depuis Python
import ollama
response = ollama.chat(
model='llama3.3',
messages=[{'role': 'user', 'content': 'Bonjour !'}]
)
print(response['message']['content'])Modelfile : personnaliser un modèle
Créez un modèle custom avec un Modelfile :
FROM llama3.3
SYSTEM "Tu es un assistant spécialisé en cuisine française. Réponds toujours en français."
PARAMETER temperature 0.7
PARAMETER num_ctx 4096ollama create mon-chef -f Modelfile
ollama run mon-chefPerformances et hardware
- Mac M1/M2/M3 : Excellent support Metal, 7B fluide sur 8 Go RAM
- GPU NVIDIA : Support CUDA automatique
- CPU seul : Fonctionne mais plus lent, préférez les modèles < 7B
Bonnes pratiques
- Commencez avec un petit modèle (3B) pour tester votre setup
- Utilisez les variantes quantifiées adaptées à votre RAM
- Gardez Ollama en service (serve) pour éviter les temps de chargement
- Explorez les Modelfiles pour créer des assistants spécialisés
- Combinez avec Open WebUI pour une interface graphique