Multimodalité (IA)

En apprentissage automatique, la multimodalité est la capacité d'un système à traiter ou à générer plusieurs types d'information (texte, images, son, actions...)^[1].

Cet article est une ébauche concernant l'intelligence artificielle.

Là où les premiers grands modèles de langage ne pouvaient traiter que du texte, dès 2024, de nombreux nouveaux grands modèles de langage (parfois appelés grands modèles multimodaux)^[1] comme GPT-4o peuvent également traiter et générer des images et du son^[2]^,^[3]. Les modèles vision-image-son, souvent utilisés en robotique, peuvent comprendre des requêtes textuelles et l'environnement visuel, et générer une série de mouvements à effectuer^[4].

[1]

[2]

[3]

[4]

Multimodalité (IA)

Références

Wikiwand - on