?
CheatsheetintermédiaireVérifié le 2025-05

Coûts Vertex AI : optimiser la facture GCP

Stratégies pour réduire les coûts d'inférence et de training sur Vertex AI.

Optimiser les coûts Vertex AI

Les coûts d'inférence Gemini sur Vertex AI peuvent monter rapidement en production. Voici les stratégies éprouvées pour optimiser votre facture GCP.

Structure des coûts

Facturation par tokens

  • Input tokens : Coût par million de tokens en entrée
  • Output tokens : Coût par million de tokens en sortie (plus cher)
  • Modèle : Gemini 2.5 Pro > 2.5 Flash > 2.0 Flash

Autres coûts

  • Stockage des modèles tunés
  • Vertex AI Search (par requête)
  • Pipelines (par durée de compute)
  • Context caching (par heure de stockage)

Stratégies d'optimisation

1. Choisir le bon modèle

  • Gemini 2.0 Flash : Tâches simples, classification, extraction
  • Gemini 2.5 Flash : Bon compromis qualité/coût pour la majorité des cas
  • Gemini 2.5 Pro : Réserver aux tâches complexes à haute valeur ajoutée

Règle : commencez avec Flash, montez en gamme uniquement si la qualité est insuffisante.

2. Réduire les tokens

  • Prompts concis : éliminez les instructions redondantes
  • System prompts courts et précis
  • Limitez max_output_tokens au strict nécessaire
  • Utilisez le structured output pour éviter le texte superflu

3. Context caching

Pour les prompts avec un long contexte réutilisé :

from vertexai.generative_models import GenerativeModel
from vertexai.caching import CachedContent

# Cacher un long document
cached = CachedContent.create(
    model_name="gemini-2.5-pro",
    contents=[long_document],
    ttl="3600s"  # 1 heure
)

# Requêtes suivantes : seule la question est facturée en full
model = GenerativeModel.from_cached_content(cached)
response = model.generate_content("Résume la section 3")

Économie : jusqu'à 75% sur les tokens input récurrents.

4. Batching

  • Regroupez les requêtes non-urgentes
  • Utilisez le batch prediction pour les traitements en masse
  • Coût réduit de 50% vs inférence en ligne

5. Provisioned throughput

Pour les volumes prévisibles et élevés : - Engagement sur un débit garanti - Réduction significative du coût par token - Idéal pour les applications à trafic stable

Monitoring des coûts

  • Activez les budget alerts dans GCP
  • Utilisez Cloud Billing pour suivre les coûts par service
  • Créez des dashboards par application/endpoint
  • Identifiez les prompts les plus coûteux

Quick wins

  • Migrer les tâches simples de Pro vers Flash : -80% immédiat
  • Activer le context caching : -50 à -75% sur les requêtes répétitives
  • Limiter max_output_tokens : économie proportionnelle
  • Batch les traitements non-temps-réel : -50%

Sources

Vertexcoûtsoptimisation