Top Qs
Chronologie
Chat
Contexte

Modèle texte-image

technologie de création d'image au moyen de l'intelligence artificielle De Wikipédia, l'encyclopédie libre

Modèle texte-image
Remove ads

Un modèle texte-image (ou texte-image) est un modèle d'apprentissage automatique qui prend en entrée une description en langage naturel et produit une image correspondant à cette description.

Thumb
Une image conditionnée par le prompt un astronaute montant un cheval, par Hiroshige, générée par Stable Diffusion 3.5, un modèle texte-image à grande échelle initialement publié en 2022

Les modèles texte-image commencent à se développer au milieu des années 2010 lors des débuts du boom de l'IA en raison des avancées en apprentissage profond[1] . En 2022, la sortie des modèles texte-image de pointe – tels que DALL-E 2 d'OpenAI, Imagen de Google Brain, Stable Diffusion de Stability AI et Midjourney – s'approche de la qualité des photographies réelles et de l’art dessiné par des humains.

Les modèles texte-image sont généralement des modèles de diffusion latente, qui combinent un modèle de langage, qui transforme le texte d'entrée en une représentation latente, et un modèle génératif d'image, qui produit une image conditionnée par cette représentation. Les modèles les plus efficaces s'entraînent généralement sur d'importantes quantités de données image et texte extraites du web[1].

Remove ads

Histoire

Résumé
Contexte

Avant l'essor de l'apprentissage profond[2], les tentatives de construire des modèles texte-image se limitent à des collages en arrangeant des images composantes existantes, telles que celles provenant d'une base de données de clip art[3].

La tâche inverse, le légendage d'images, est plus accessible, et plusieurs modèles de légendage d'images basés sur l'apprentissage profond apparaissent avant les premiers modèles texte-image[4].

Le premier modèle moderne de texte-image, alignDRAW, apparaît en 2015 grâce à des chercheurs de l'Université de Toronto. alignDRAW étend l'architecture DRAW précédemment introduite (qui utilise un réseau de neurones récurrents sous la forme d'un auto-encodeur variationnel récurrent avec un mécanisme d'attention) pour être conditionnée par des séquences de texte[4]. Les images générées par alignDRAW présentent une faible résolution d'image (32×32 pixels, obtenus par redimensionnement d'image) et sont considérées comme «faiblement diverses». Le modèle parvient à généraliser à des objets non représentés dans les données d'entraînement (tel qu'un autobus scolaire rouge) et gère de manière appropriée des consignes inédites telles que «un panneau stop vole dans un ciel bleu», démontrant que sa sortie ne se contente pas de «mémoriser» les données de l'ensemble d'entraînement[4],[5].

En 2016, Reed, Akata, Yan et al. utilisent pour la première fois des réseaux antagonistes génératifs pour la tâche de texte-image[5],[6]. Avec des modèles entraînés sur des ensembles de données étroits et spécifiques à un domaine, ils parviennent à générer des images «visuellement plausibles» d'oiseaux et de fleurs à partir de légendes telles que «un oiseau entièrement noir avec un bec épais et arrondi». Un modèle entraîné sur l'ensemble de données plus diversifié COCO (Common Objects in Context) produit des images qui, «de loin... sont encourageantes», mais qui manquent de cohérence dans leurs détails[5]. Des systèmes ultérieurs incluent VQGAN-CLIP[7], XMC-GAN, et GauGAN2[8].

Thumb
Thumb
Thumb
Thumb
Les images générées par DALL·E 2 (en haut, avril 2022) et par DALL·E 3 (en bas, septembre 2023) pour la consigne Un panneau stop vole dans un ciel bleu

L'un des premiers modèles texte-image à capter l'attention du grand public est OpenAI's DALL-E, un système basé sur le transformeur annoncé en janvier 2021[9]. Un successeur capable de générer des images plus complexes et réalistes, DALL-E 2, est dévoilé en avril 2022[10], suivi de Stable Diffusion qui est rendu public en août 2022[11]. En août 2022, la personnalisation texte-image permet d'enseigner au modèle un nouveau concept à l'aide d'un petit ensemble d'images d'un nouvel objet qui n'est pas inclus dans l'ensemble d'entraînement du modèle de base. Ceci s'obtient par inversion textuelle, c'est-à-dire en trouvant un nouveau terme textuel qui correspond à ces images.

À la suite d'autres modèles texte-image, des plateformes texte-vers-vidéo propulsées par des modèles de langage telles que Runway, Make-A-Video[12], Imagen Video[13], Midjourney[14], et Phenaki[15] peuvent générer des vidéos à partir de textes et/ou de consignes textuelles ou image[16].

Remove ads

Architecture et entraînement

Résumé
Contexte
Thumb
Architecture de haut niveau montrant l'état des modèles d'apprentissage automatique pour l'art par IA, ainsi que des modèles et applications notables, sous forme de carte image SVG cliquable

Les modèles texte-image se construisent à l'aide de diverses architectures. L'étape d'encodage du texte peut être effectuée avec un réseau de neurones récurrents tel qu'un réseau long short-term memory, bien que les modèles transformeur soient depuis devenus une option plus populaire. Pour l'étape de génération d'image, des réseaux antagonistes génératifs conditionnels (GANs) s'utilisent couramment, tandis que les modèles de diffusion gagnent en popularité ces dernières années. Plutôt que d'entraîner directement un modèle à produire une image haute résolution conditionnée par un encodage de texte, une technique populaire consiste à entraîner un modèle à générer des images de basse résolution, puis à utiliser un ou plusieurs modèles d'apprentissage profond auxiliaires pour l'upscaler en complétant les détails fins.

Les modèles texte-image s'entraînent sur d'importants ensembles de paires (texte, image), souvent extraites du web. Avec leur modèle Imagen de 2022, Google Brain rapporte des résultats positifs en utilisant un grand modèle de langage entraîné séparément sur un corpus de texte seul (avec des poids ensuite figés), marquant ainsi une rupture avec l'approche standard jusque-là[17].

Remove ads

Jeux de données

Résumé
Contexte
Thumb
Exemples d'images et de légendes provenant de trois ensembles de données publics communément utilisés pour entraîner des modèles texte-image

L'entraînement d'un modèle texte-image nécessite un ensemble de données associant des images à des légendes textuelles. Un ensemble de données couramment utilisé à cet effet est l'ensemble de données COCO. Publié par Microsoft en 2014, COCO se compose d'environ 123 000 images représentant une diversité d'objets avec cinq légendes par image, générées par des annotateurs humains. À l'origine, l'objectif principal de COCO porte sur la reconnaissance d'objets et de scènes dans les images. Oxford-120 Flowers et CUB-200 Birds sont des ensembles de données plus restreints d'environ 10 000 images chacun, se concentrant respectivement sur les fleurs et les oiseaux. Il apparaît moins difficile d'entraîner un modèle texte-image de haute qualité avec ces ensembles de données en raison de leur champ thématique étroit[6].

L'un des plus grands ensembles de données ouverts pour l'entraînement de modèles texte-image est LAION-5B, contenant plus de 5 000 000 000 paires image-texte. Cet ensemble de données s'obtient par extraction web et filtrage automatique basé sur la similarité avec des œuvres d'art de haute qualité et des photographies professionnelles. Cependant, il comporte également du contenu controversé, ce qui suscite des discussions sur l'éthique de son utilisation.

Certaines plateformes d'IA modernes ne se contentent pas de générer des images à partir de texte, elles créent également des ensembles de données synthétiques pour améliorer l'entraînement et l'affinage des modèles. Ces ensembles de données aident à éviter les problèmes de droit d'auteur et élargissent la diversité des données d'entraînement[18].

Évaluation de la qualité

L'évaluation et la comparaison de la qualité des modèles texte-image impliquent l'appréciation de multiples propriétés souhaitables. Un critère spécifique aux modèles texte-image est que les images générées s'alignent sémantiquement avec les légendes utilisées pour les générer. Plusieurs schémas sont mis au point pour évaluer ces qualités, certains automatisés et d'autres basés sur le jugement humain[6].

Une métrique algorithmique courante pour évaluer la qualité et la diversité des images est le Score d'inception, qui se fonde sur la distribution des étiquettes prédites par un modèle de classification d'image Inceptionv3 préentraîné lorsqu'il s'applique à un échantillon d'images générées par le modèle texte-image. Le score augmente lorsque le modèle de classification prédit une étiquette unique avec une forte probabilité, une méthode destinée à favoriser des images générées «distinctes». Une autre métrique populaire est la distance d'inception de Fréchet, qui compare la distribution des images générées à celle des images réelles d'entraînement selon les caractéristiques extraites par l'une des dernières couches d'un modèle de classification d'image préentraîné[6].

Remove ads

Liste des modèles notables de texte-image

Davantage d’informations Nom, Date de sortie ...
Remove ads

Voir aussi

Références

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads