Top Qs
Chronologie
Chat
Contexte

Modèle texte-vidéo

modèle de génération de vidéo à partir d'un texte au moyen de l'intelligence artificielle De Wikipédia, l'encyclopédie libre

Modèle texte-vidéo
Remove ads

Un modèle texte-vidéo est un modèle d'apprentissage automatique qui utilise une description en langage naturel comme entrée pour produire une vidéo pertinente par rapport au texte d'entrée[1].

Une vidéo générée à l'aide du modèle texte-vidéo Sora, utilisant le prompt (traduit de l'anglais) : Une femme élégante marche dans une rue de Tokyo éclairée par un néon chaud et des enseignes animées. Elle porte une veste en cuir noir, une longue robe rouge et des bottes noires, et tient un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres. Elle marche avec assurance et décontraction. La rue est humide et réfléchissante, créant un effet miroir des lumières colorées. De nombreux piétons circulent.

Les avancées pendant les années 2020 dans la génération de vidéos de haute qualité conditionnées par du texte sont en grande partie conduites par le développement de modèles de diffusion vidéo[2].

Remove ads

Modèles

Il existe différents modèles, y compris des modèles open source. Entrée en langue chinoise[3] CogVideo est le premier modèle texte-vidéo contenant « 9,4 milliards de paramètres » à être développé, avec sa version de démonstration de codes open source présentée pour la première fois sur GitHub en 2022[4]. Cette année, Meta Platforms lance un modèle texte-vidéo partiel appelé « Make-A-Video »[5],[6],[7], et Google ainsi que Brain (puis Google DeepMind) introduisent Imagen Video, un modèle texte-vidéo avec un U-Net 3D[8],[6],[9],[10],[11] En mars 2023, un article de recherche intitulé « VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation » est publié, présentant une approche novatrice de la génération vidéo[12]. Le modèle VideoFusion décompose le processus de diffusion en deux composantes : le bruit de base et le bruit résiduel, qui sont partagés entre les images pour assurer une cohérence temporelle. En utilisant un modèle de diffusion d'image pré-entraîné comme générateur de base, le modèle génère efficacement des vidéos de haute qualité et cohérentes. Le réglage fin du modèle pré-entraîné sur des données vidéo comble l'écart de domaine entre les images et les vidéos, renforçant ainsi la capacité du modèle à produire des séquences vidéo réalistes et cohérentes[12]. Le même mois, Adobe Inc. introduit Firefly AI dans le cadre de ses fonctionnalités[13]. En janvier 2024, Google annonce le développement d'un modèle texte-vidéo nommé Lumiere, qui devrait intégrer des capacités avancées d'édition vidéo[14]. Matthias Niessner et Lourdes Agapito chez l'entreprise d'IA Synthesia travaillent au développement de techniques de rendu neuronal 3D qui synthétisent des vidéos réalistes en utilisant des représentations neuronales 2D et 3D de la forme, de l'apparence et du mouvement pour une synthèse vidéo contrôlable des avatars[15]. En juin 2024, Luma Labs lance son outil vidéo Dream Machine[16],[17]. Ce même mois[18], Kuaishou étend son modèle texte-vidéo Kling AI aux utilisateurs internationaux. En juillet 2024, le propriétaire de TikTok ByteDance lance Jimeng AI en Chine, via sa filiale Faceu Technology[19]. En septembre 2024, l'entreprise chinoise d'IA MiniMax présente son modèle video-01, rejoignant d'autres entreprises établies de modèles d'IA telles que Zhipu AI, Baichuan et Moonshot AI, qui contribuent à l'implication de la Chine dans la technologie de l'IA[20].

Des approches alternatives aux modèles texte-vidéo incluent[21] Google avec Phenaki, Hour One, Colossyan[3], le Gen-3 Alpha de Runway[22],[23] et Sora d'OpenAI[24],[25]. Plusieurs autres modèles texte-vidéo, tels que Plug-and-Play, Text2LIVE et TuneAVideo, émergent[26]. Google se prépare également à lancer un outil de génération vidéo nommé Veo pour YouTube Shorts en 2025[27]. Le développeur de FLUX.1, Black Forest Labs, annonce son modèle texte-vidéo SOTA[28].

Remove ads

Architecture et entraînement

Il existe plusieurs architectures utilisées pour créer des modèles texte-vidéo. Similaires aux modèles Text-to-Image, ces modèles peuvent être entraînés à l'aide de réseaux de neurones récurrents (RNN) tels que les réseaux LSTM, utilisés pour les modèles de transformation de pixels et les modèles de génération vidéo stochastiques, qui contribuent respectivement à la cohérence et au réalisme[29]. Une alternative consiste à utiliser des modèles transformateurs. Les réseaux antagonistes génératifs (GAN) et les Auto-encodeurs variationnels (VAE) — qui contribuent à la prédiction du mouvement humain[30] — et les modèles de diffusion ont également été utilisés pour développer les aspects de génération d'images du modèle[31]. Les ensembles de données texte-vidéo utilisés pour entraîner les modèles incluent, sans s'y limiter, WebVid-10M, HDVILA-100M, CCV, ActivityNet et Panda-70M[32],[33]. Ces ensembles de données contiennent des millions de vidéos originales d'intérêt, des vidéos générées, des vidéos sous-titrées et des informations textuelles qui aident à entraîner les modèles pour plus de précision. Les ensembles de données texte-vidéo utilisés pour entraîner les modèles incluent, sans s'y limiter, PromptSource, DiffusionDB et VidProM[32],[33]. Ces ensembles de données offrent la gamme d'entrées textuelles nécessaires pour apprendre aux modèles à interpréter une variété d'invites textuelles. Le processus de génération vidéo implique la synchronisation des entrées textuelles avec les images vidéo, garantissant ainsi l'alignement et la cohérence de l'ensemble de la séquence[33]. Ce processus prédictif voit sa qualité diminuer à mesure que la longueur de la vidéo augmente en raison de limitations en ressources[33].

Remove ads

Limitations

Malgré l'évolution rapide des modèles texte-vidéo dans leurs performances, une limitation majeure est qu'ils sont très gourmands en ressources informatiques, ce qui limite leur capacité à fournir des rendus de haute qualité et de longue durée[29],[31]. De plus, ces modèles nécessitent une grande quantité de données d'entraînement spécifiques pour pouvoir générer des rendus de haute qualité et cohérents, ce qui pose la question de leur accessibilité[31],[29]. En outre, les modèles peuvent mal interpréter les invites textuelles, produisant des vidéos qui s'écartent du sens voulu. Cela survient en raison de limitations dans la capture du contexte sémantique contenu dans le texte, ce qui affecte la capacité du modèle à aligner la vidéo générée avec le message souhaité par l'utilisateur[31],[33].

Éthique

Le déploiement des modèles texte-vidéo soulève des considérations éthiques liées à la génération de contenu. Ces modèles ont le potentiel de créer un contenu inapproprié ou non autorisé, incluant du matériel explicite, de la violence graphique, de la désinformation et des ressemblances avec de vraies personnes sans consentement[34]. Assurer que le contenu généré par l'IA respecte les normes établies en matière d'utilisation sûre et éthique est essentiel, car le contenu généré par ces modèles n'est pas toujours facilement identifiable comme nuisible ou trompeur. La capacité de l'IA à reconnaître et filtrer les contenus NSFW ou protégés par le droit d'auteur reste un défi permanent, avec des implications tant pour les créateurs que pour le public[34].

Remove ads

Impacts et applications

Les modèles texte-vidéo offrent une vaste gamme d'applications susceptibles de bénéficier à divers domaines, de l'éducation et la promotion aux industries créatives. Ces modèles simplifient la création de contenu pour les vidéos de formation, les avant-premières de films, les ressources pour les jeux et les visualisations, facilitant ainsi la génération d'un contenu dynamique et de haute qualité[31]. Ces fonctionnalités apportent des avantages économiques et personnels aux utilisateurs. Le long-métrage The Reality of Time, premier film au monde à intégrer entièrement l'IA générative pour la vidéo, est achevé en 2024. Narré en partie par John de Lancie (célèbre pour son rôle emblématique de « Q » dans Star Trek: The Next Generation), sa production utilise des outils d'IA avancés, notamment Runway Gen-3 Alpha et Kling 1.6, comme décrit dans le livre Cinematic A.I. Ce livre explore les limitations de la technologie textuelle-vidéo, les défis de sa mise en œuvre, et comment les techniques image-vidéo sont employées pour de nombreuses séquences clés du film.

Remove ads

Comparaison des modèles existants

Davantage d’informations Entreprise, Année de sortie ...
Remove ads

Voir aussi

Références

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads