L'Atelier — Réseau francophone IA (produit, tech, business)

Optimiser les coûts Vertex AI

Les coûts d'inférence Gemini sur Vertex AI peuvent monter rapidement en production. Voici les stratégies éprouvées pour optimiser votre facture GCP.

Structure des coûts

Facturation par tokens

Input tokens : Coût par million de tokens en entrée
Output tokens : Coût par million de tokens en sortie (plus cher)
Modèle : Gemini 2.5 Pro > 2.5 Flash > 2.0 Flash

Autres coûts

Stockage des modèles tunés
Vertex AI Search (par requête)
Pipelines (par durée de compute)
Context caching (par heure de stockage)

Stratégies d'optimisation

1. Choisir le bon modèle

Gemini 2.0 Flash : Tâches simples, classification, extraction
Gemini 2.5 Flash : Bon compromis qualité/coût pour la majorité des cas
Gemini 2.5 Pro : Réserver aux tâches complexes à haute valeur ajoutée

Règle : commencez avec Flash, montez en gamme uniquement si la qualité est insuffisante.

2. Réduire les tokens

Prompts concis : éliminez les instructions redondantes
System prompts courts et précis
Limitez max_output_tokens au strict nécessaire
Utilisez le structured output pour éviter le texte superflu

3. Context caching

Pour les prompts avec un long contexte réutilisé :

from vertexai.generative_models import GenerativeModel
from vertexai.caching import CachedContent

# Cacher un long document
cached = CachedContent.create(
    model_name="gemini-2.5-pro",
    contents=[long_document],
    ttl="3600s"  # 1 heure
)

# Requêtes suivantes : seule la question est facturée en full
model = GenerativeModel.from_cached_content(cached)
response = model.generate_content("Résume la section 3")

Économie : jusqu'à 75% sur les tokens input récurrents.

4. Batching

Regroupez les requêtes non-urgentes
Utilisez le batch prediction pour les traitements en masse
Coût réduit de 50% vs inférence en ligne

5. Provisioned throughput

Pour les volumes prévisibles et élevés : - Engagement sur un débit garanti - Réduction significative du coût par token - Idéal pour les applications à trafic stable

Monitoring des coûts

Activez les budget alerts dans GCP
Utilisez Cloud Billing pour suivre les coûts par service
Créez des dashboards par application/endpoint
Identifiez les prompts les plus coûteux

Quick wins

Migrer les tâches simples de Pro vers Flash : -80% immédiat
Activer le context caching : -50 à -75% sur les requêtes répétitives
Limiter max_output_tokens : économie proportionnelle
Batch les traitements non-temps-réel : -50%

Coûts Vertex AI : optimiser la facture GCP