CheatsheetintermédiaireVérifié le 2025-05
Coûts GPU : AWS vs GCP vs Azure vs Lambda
Comparatif actualisé des coûts d'inférence et training par provider cloud.
Comparatif des coûts GPU cloud
Les coûts GPU varient énormément selon le provider, le type d'instance et le mode de facturation. Ce guide compare les options principales pour l'inférence et le fine-tuning de LLMs.
GPUs populaires pour l'inférence LLM
NVIDIA A100 (80GB)
- Le standard pour les modèles 70B en FP16
- 80GB VRAM, suffisant pour Llama 3 70B en INT8
| Provider | Prix/heure (on-demand) | Prix/heure (spot/preemptible) |
|---|
| AWS (p4d.24xlarge, 8xA100) | ~$32/h | ~$13/h |
| GCP (a2-highgpu-8g) | ~$29/h | ~$9/h |
| Azure (ND96amsr_A100_v4) | ~$32/h | ~$10/h |
| Lambda Labs (1xA100) | ~$1.10/h | N/A |
| RunPod (1xA100) | ~$1.64/h | ~$1.24/h |
NVIDIA H100 (80GB)
- 2-3x plus rapide que A100 pour l'inférence
- Nécessaire pour les modèles >70B paramètres
| Provider | Prix/heure (on-demand) |
|---|
| AWS (p5.48xlarge, 8xH100) | ~$98/h |
| GCP (a3-highgpu-8g) | ~$98/h |
| Lambda Labs (1xH100) | ~$2.49/h |
| RunPod (1xH100) | ~$3.89/h |
Serverless GPU (pay-per-use)
Modal
- Facturation à la seconde
- Scale-to-zero (pas de coût quand idle)
- A100 : ~$0.001/seconde (~$3.60/h active)
- Cold start : 30-60s (avec container cached: 5-10s)
RunPod Serverless
- Facturation à la seconde
- Scale-to-zero
- Cold start configurable
- Autoscaling automatique
Optimisation des coûts
Spot/Preemptible instances
- 60-80% de réduction vs on-demand
- Interruption possible (2 min de préavis sur AWS)
- Idéal pour : fine-tuning, batch inference, workloads non-critiques
- Pas recommandé pour : serving temps réel critique
Reserved instances
- 30-60% de réduction pour un engagement 1-3 ans
- Rentable si utilisation > 60% du temps
- Calculer : (coût on-demand x utilisation) vs coût reserved
Quantization = économie directe
- FP16 → INT8 : Divise les besoins GPU par 2
- FP16 → INT4 : Divise par 4
- Llama 3 70B en INT4 tient sur 1 seul A100 (au lieu de 2)
Calcul du coût par requête
Coût/requête = (coût_GPU/heure) / (requêtes/heure)
Exemple : A100 à $1.10/h, throughput 50 req/s
= $1.10 / (50 * 3600) = $0.000006/requête
= $6 pour 1M requêtes
Recommandations
- Prototype : Modal ou RunPod Serverless (pas de coût fixe)
- Production low-traffic : RunPod ou Lambda Labs (bon prix/performance)
- Production high-traffic : Reserved instances AWS/GCP + spot pour les pics
- Fine-tuning : Spot instances (économies de 70%, interruption acceptable)