Modèle multimodal
Définition
Un modèle IA capable de traiter et générer plusieurs types de données simultanément : texte, images, audio, vidéo. Il comprend les relations entre ces formats différents, pas seulement chacun isolément.
ChatGPT avec vision peut analyser une photo de ta facture d'électricité ET lire le texte pour t'expliquer les charges. Claude analyse des documents PDF avec graphiques. Gemini génère une image à partir d'une description.
C'est la tendance actuelle : les modèles puissants combinent maintenant texte+image+audio. Ça change ce qu'on peut demander à une IA.
Voir aussi
Articles qui en parlent

Google partage 250 000 outils IA : comment la science avance en open
Google a libéré une décennie de recherche : 250 000 scientifiques utilisent maintenant ses modèles gratuitement pour refaire la science.

DeepSeek V4 : enfin à la hauteur des géants, 10x moins cher
DeepSeek sort deux modèles open-weight qui rivalisent avec GPT-5.5 sur le code, à un dixième du prix.