Optimiser les coûts Vertex AI
Les coûts d'inférence Gemini sur Vertex AI peuvent monter rapidement en production. Voici les stratégies éprouvées pour optimiser votre facture GCP.
Structure des coûts
Facturation par tokens
- Input tokens : Coût par million de tokens en entrée
- Output tokens : Coût par million de tokens en sortie (plus cher)
- Modèle : Gemini 2.5 Pro > 2.5 Flash > 2.0 Flash
Autres coûts
- Stockage des modèles tunés
- Vertex AI Search (par requête)
- Pipelines (par durée de compute)
- Context caching (par heure de stockage)
Stratégies d'optimisation
1. Choisir le bon modèle
- Gemini 2.0 Flash : Tâches simples, classification, extraction
- Gemini 2.5 Flash : Bon compromis qualité/coût pour la majorité des cas
- Gemini 2.5 Pro : Réserver aux tâches complexes à haute valeur ajoutée
Règle : commencez avec Flash, montez en gamme uniquement si la qualité est insuffisante.
2. Réduire les tokens
- Prompts concis : éliminez les instructions redondantes
- System prompts courts et précis
- Limitez max_output_tokens au strict nécessaire
- Utilisez le structured output pour éviter le texte superflu
3. Context caching
Pour les prompts avec un long contexte réutilisé :
from vertexai.generative_models import GenerativeModel
from vertexai.caching import CachedContent
# Cacher un long document
cached = CachedContent.create(
model_name="gemini-2.5-pro",
contents=[long_document],
ttl="3600s" # 1 heure
)
# Requêtes suivantes : seule la question est facturée en full
model = GenerativeModel.from_cached_content(cached)
response = model.generate_content("Résume la section 3")Économie : jusqu'à 75% sur les tokens input récurrents.
4. Batching
- Regroupez les requêtes non-urgentes
- Utilisez le batch prediction pour les traitements en masse
- Coût réduit de 50% vs inférence en ligne
5. Provisioned throughput
Pour les volumes prévisibles et élevés : - Engagement sur un débit garanti - Réduction significative du coût par token - Idéal pour les applications à trafic stable
Monitoring des coûts
- Activez les budget alerts dans GCP
- Utilisez Cloud Billing pour suivre les coûts par service
- Créez des dashboards par application/endpoint
- Identifiez les prompts les plus coûteux
Quick wins
- Migrer les tâches simples de Pro vers Flash : -80% immédiat
- Activer le context caching : -50 à -75% sur les requêtes répétitives
- Limiter max_output_tokens : économie proportionnelle
- Batch les traitements non-temps-réel : -50%