Google IA présente Gemini Embedding 2 : un modèle de plongement multimodal pour convertir texte, images, vidéos, audio et documents en représentations vectorielles
Google a lancé Gemini Embedding 2, un modèle d'intégration multimodal de deuxième génération capable de convertir texte, images, vidéos, audio et PDF en un espace vectoriel unifié — sans pipelines séparés. Il supporte des entrées combinées (jusqu'à 8 192 tokens, 6 images, 120 secondes de vidéo, 80 secondes d'audio) et utilise le Matryoshka Representation Learning (MRL) pour compresser intelligemment les vecteurs en 768, 1 536 ou 3 072 dimensions selon les besoins de performance. Cette architecture permet aux systèmes RAG de faire une première recherche rapide sur des vecteurs courts, puis un reclassement précis sur les vecteurs complets.


