?
GuideintermédiaireVérifié le 2025-05

Gemini multimodal : texte, image, audio, vidéo

Exploiter les capacités multimodales de Gemini pour des applications riches.

Gemini : un modèle nativement multimodal

La famille Gemini (2.5 Pro, 2.5 Flash, 2.0 Flash) se distingue par sa capacité native à traiter simultanément du texte, des images, de l'audio et de la vidéo dans un même prompt. Contrairement aux approches qui convertissent tout en texte, Gemini comprend directement chaque modalité.

Modalités supportées

Entrées acceptées

  • Texte : prompts, documents, code
  • Images : photos, captures d'écran, diagrammes (PNG, JPEG, WebP, GIF)
  • Audio : fichiers audio, transcription et compréhension du contenu sonore
  • Vidéo : fichiers vidéo complets avec analyse frame par frame

Cas d'usage concrets

  • Analyser une image et générer une description détaillée
  • Extraire des données structurées d'une photo de document
  • Résumer une vidéo de formation en points clés
  • Transcrire et analyser un podcast audio
  • Combiner image + texte pour du visual question answering

Utilisation via l'API

import google.generativeai as genai

model = genai.GenerativeModel('gemini-2.5-pro')

# Image + texte
response = model.generate_content([
    "Décris cette image en détail",
    image_part  # PIL Image ou bytes
])

# Vidéo
video_file = genai.upload_file("video.mp4")
response = model.generate_content([
    "Résume cette vidéo",
    video_file
])

Limites et bonnes pratiques

  • Les images très haute résolution sont redimensionnées automatiquement
  • Pour la vidéo, préférez des segments courts (< 10 min) pour de meilleurs résultats
  • Combinez les modalités intelligemment : image + question précise > image seule
  • Gemini 2.5 Pro offre la meilleure qualité multimodale, 2.0 Flash le meilleur rapport qualité/coût

Comparaison des modèles

  • Gemini 2.5 Pro : Meilleure compréhension, raisonnement complexe sur contenu multimodal
  • Gemini 2.5 Flash : Bon compromis vitesse/qualité pour le multimodal
  • Gemini 2.0 Flash : Ultra-rapide, idéal pour le traitement en masse

Sources

Geminimultimodalcapacités