?
CheatsheetintermédiaireVérifié le 2025-05

Coûts GPU : AWS vs GCP vs Azure vs Lambda

Comparatif actualisé des coûts d'inférence et training par provider cloud.

Comparatif des coûts GPU cloud

Les coûts GPU varient énormément selon le provider, le type d'instance et le mode de facturation. Ce guide compare les options principales pour l'inférence et le fine-tuning de LLMs.

GPUs populaires pour l'inférence LLM

NVIDIA A100 (80GB)

  • Le standard pour les modèles 70B en FP16
  • 80GB VRAM, suffisant pour Llama 3 70B en INT8
ProviderPrix/heure (on-demand)Prix/heure (spot/preemptible)
AWS (p4d.24xlarge, 8xA100)~$32/h~$13/h
GCP (a2-highgpu-8g)~$29/h~$9/h
Azure (ND96amsr_A100_v4)~$32/h~$10/h
Lambda Labs (1xA100)~$1.10/hN/A
RunPod (1xA100)~$1.64/h~$1.24/h

NVIDIA H100 (80GB)

  • 2-3x plus rapide que A100 pour l'inférence
  • Nécessaire pour les modèles >70B paramètres
ProviderPrix/heure (on-demand)
AWS (p5.48xlarge, 8xH100)~$98/h
GCP (a3-highgpu-8g)~$98/h
Lambda Labs (1xH100)~$2.49/h
RunPod (1xH100)~$3.89/h

Serverless GPU (pay-per-use)

Modal

  • Facturation à la seconde
  • Scale-to-zero (pas de coût quand idle)
  • A100 : ~$0.001/seconde (~$3.60/h active)
  • Cold start : 30-60s (avec container cached: 5-10s)

RunPod Serverless

  • Facturation à la seconde
  • Scale-to-zero
  • Cold start configurable
  • Autoscaling automatique

Optimisation des coûts

Spot/Preemptible instances

  • 60-80% de réduction vs on-demand
  • Interruption possible (2 min de préavis sur AWS)
  • Idéal pour : fine-tuning, batch inference, workloads non-critiques
  • Pas recommandé pour : serving temps réel critique

Reserved instances

  • 30-60% de réduction pour un engagement 1-3 ans
  • Rentable si utilisation > 60% du temps
  • Calculer : (coût on-demand x utilisation) vs coût reserved

Quantization = économie directe

  • FP16 → INT8 : Divise les besoins GPU par 2
  • FP16 → INT4 : Divise par 4
  • Llama 3 70B en INT4 tient sur 1 seul A100 (au lieu de 2)

Calcul du coût par requête

Coût/requête = (coût_GPU/heure) / (requêtes/heure)

Exemple : A100 à $1.10/h, throughput 50 req/s
= $1.10 / (50 * 3600) = $0.000006/requête
= $6 pour 1M requêtes

Recommandations

  • Prototype : Modal ou RunPod Serverless (pas de coût fixe)
  • Production low-traffic : RunPod ou Lambda Labs (bon prix/performance)
  • Production high-traffic : Reserved instances AWS/GCP + spot pour les pics
  • Fine-tuning : Spot instances (économies de 70%, interruption acceptable)

Sources

infracoûtscloud