Top Qs
Chronologie
Chat
Contexte
Multimodalité (IA)
capacité à traiter ou générer plusieurs types de données De Wikipédia, l'encyclopédie libre
Remove ads
En apprentissage automatique, la multimodalité est la capacité d'un système à traiter ou à générer plusieurs types d'information (texte, images, son, actions...)[1].
Là où les premiers grands modèles de langage ne pouvaient traiter que du texte, dès 2024, de nombreux nouveaux grands modèles de langage (parfois appelés grands modèles multimodaux)[1] comme GPT-4o peuvent également traiter et générer des images et du son[2],[3]. Les modèles vision-image-son, souvent utilisés en robotique, peuvent comprendre des requêtes textuelles et l'environnement visuel, et générer une série de mouvements à effectuer[4].
Remove ads
Références
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads