Gemini : un modèle nativement multimodal
La famille Gemini (2.5 Pro, 2.5 Flash, 2.0 Flash) se distingue par sa capacité native à traiter simultanément du texte, des images, de l'audio et de la vidéo dans un même prompt. Contrairement aux approches qui convertissent tout en texte, Gemini comprend directement chaque modalité.
Modalités supportées
Entrées acceptées
- Texte : prompts, documents, code
- Images : photos, captures d'écran, diagrammes (PNG, JPEG, WebP, GIF)
- Audio : fichiers audio, transcription et compréhension du contenu sonore
- Vidéo : fichiers vidéo complets avec analyse frame par frame
Cas d'usage concrets
- Analyser une image et générer une description détaillée
- Extraire des données structurées d'une photo de document
- Résumer une vidéo de formation en points clés
- Transcrire et analyser un podcast audio
- Combiner image + texte pour du visual question answering
Utilisation via l'API
import google.generativeai as genai
model = genai.GenerativeModel('gemini-2.5-pro')
# Image + texte
response = model.generate_content([
"Décris cette image en détail",
image_part # PIL Image ou bytes
])
# Vidéo
video_file = genai.upload_file("video.mp4")
response = model.generate_content([
"Résume cette vidéo",
video_file
])Limites et bonnes pratiques
- Les images très haute résolution sont redimensionnées automatiquement
- Pour la vidéo, préférez des segments courts (< 10 min) pour de meilleurs résultats
- Combinez les modalités intelligemment : image + question précise > image seule
- Gemini 2.5 Pro offre la meilleure qualité multimodale, 2.0 Flash le meilleur rapport qualité/coût
Comparaison des modèles
- Gemini 2.5 Pro : Meilleure compréhension, raisonnement complexe sur contenu multimodal
- Gemini 2.5 Flash : Bon compromis vitesse/qualité pour le multimodal
- Gemini 2.0 Flash : Ultra-rapide, idéal pour le traitement en masse