L'Atelier — Réseau francophone IA (produit, tech, business)

Comparatif des coûts GPU cloud

Les coûts GPU varient énormément selon le provider, le type d'instance et le mode de facturation. Ce guide compare les options principales pour l'inférence et le fine-tuning de LLMs.

GPUs populaires pour l'inférence LLM

NVIDIA A100 (80GB)

Le standard pour les modèles 70B en FP16
80GB VRAM, suffisant pour Llama 3 70B en INT8

Provider	Prix/heure (on-demand)	Prix/heure (spot/preemptible)
AWS (p4d.24xlarge, 8xA100)	~$32/h	~$13/h
GCP (a2-highgpu-8g)	~$29/h	~$9/h
Azure (ND96amsr_A100_v4)	~$32/h	~$10/h
Lambda Labs (1xA100)	~$1.10/h	N/A
RunPod (1xA100)	~$1.64/h	~$1.24/h

NVIDIA H100 (80GB)

2-3x plus rapide que A100 pour l'inférence
Nécessaire pour les modèles >70B paramètres

Provider	Prix/heure (on-demand)
AWS (p5.48xlarge, 8xH100)	~$98/h
GCP (a3-highgpu-8g)	~$98/h
Lambda Labs (1xH100)	~$2.49/h
RunPod (1xH100)	~$3.89/h

Serverless GPU (pay-per-use)

Modal

Facturation à la seconde
Scale-to-zero (pas de coût quand idle)
A100 : ~$0.001/seconde (~$3.60/h active)
Cold start : 30-60s (avec container cached: 5-10s)

RunPod Serverless

Facturation à la seconde
Scale-to-zero
Cold start configurable
Autoscaling automatique

Optimisation des coûts

Spot/Preemptible instances

60-80% de réduction vs on-demand
Interruption possible (2 min de préavis sur AWS)
Idéal pour : fine-tuning, batch inference, workloads non-critiques
Pas recommandé pour : serving temps réel critique

Reserved instances

30-60% de réduction pour un engagement 1-3 ans
Rentable si utilisation > 60% du temps
Calculer : (coût on-demand x utilisation) vs coût reserved

Quantization = économie directe

FP16 → INT8 : Divise les besoins GPU par 2
FP16 → INT4 : Divise par 4
Llama 3 70B en INT4 tient sur 1 seul A100 (au lieu de 2)

Calcul du coût par requête

Coût/requête = (coût_GPU/heure) / (requêtes/heure)

Exemple : A100 à $1.10/h, throughput 50 req/s
= $1.10 / (50 * 3600) = $0.000006/requête
= $6 pour 1M requêtes

Recommandations

Prototype : Modal ou RunPod Serverless (pas de coût fixe)
Production low-traffic : RunPod ou Lambda Labs (bon prix/performance)
Production high-traffic : Reserved instances AWS/GCP + spot pour les pics
Fine-tuning : Spot instances (économies de 70%, interruption acceptable)

Coûts GPU : AWS vs GCP vs Azure vs Lambda

Comparatif des coûts GPU cloud

GPUs populaires pour l'inférence LLM

NVIDIA A100 (80GB)

NVIDIA H100 (80GB)

Serverless GPU (pay-per-use)

Modal

RunPod Serverless

Optimisation des coûts

Spot/Preemptible instances

Reserved instances

Quantization = économie directe

Calcul du coût par requête

Recommandations

Sources