Top Qs
Chronologie
Chat
Contexte

Sora (IA)

modèle d'intelligence artificielle de génération automatique de vidéo développé par OpenAI De Wikipédia, l'encyclopédie libre

Sora (IA)
Remove ads

Sora est un modèle texte-vidéo développé par OpenAI. Grâce à des modèles d'IA de pointe, cette IA peut générer des vidéos de haute qualité, fluides, cohérentes, réalistes et immersives, basées sur de courtes invites descriptives[2], ainsi que prolonger les vidéos existantes vers l'avant ou vers l'arrière dans le temps[3]. Sora peut générer des vidéos avec une résolution allant jusqu'à 1920 x 1080 et jusqu'à 1080 x 1920. La durée maximale des vidéos générées est de 1 minute.

Faits en bref Créateur, Développé par ...
Vidéo générée par Sora à partir du texte suivant : « A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about[1]. »

Comme Dall-E, Sora s'appuie sur des modèles de langage sophistiqués lui permettant d'analyser et comprendre les nuances du langage humain dans les descriptions textuelles.

Cette IA, comme toutes les IA générative perfectionnées et par sa capacité à transformer des phrases simples (prompts) en vidéos ouvre de nouvelles perspectives créatives pour la communication, la pédagogie, l'art, le divertissement et bien d'autres domaines, mais tout en suscitant des questions éthiques, juridiques, morales, économiques et des inquiétudes nouvelles concernant le respect des droit d'auteur, et des utilisations malveillantes.

Remove ads

Dénomination

L'équipe qui développe Sora lui donne le nom du mot japonais signifiant ciel pour signifier « son potentiel créatif illimité ». La technologie derrière Sora est une adaptation de la technologie derrière le modèle texte-image DALL-E 3[4].

Histoire

OpenAI présente au grand public quelques vidéos haute définition créées par Sora le 15 février 2024, déclarant que la technologie est capable de générer des vidéos d'une durée allant jusqu'à une minute.

Il ne partage pas de rapport technique ni ne démontre comment les vidéos sont générées par le modèle. Il reconnait certaines lacunes du système, notamment des difficultés à simuler une physique complexe[5]. Will Douglas Heaven de la MIT Technology Review qualifie les vidéos de démonstration d'« impressionnantes », mais note qu'elles doivent avoir été sélectionnées avec soin et qu'elles peuvent ne pas être représentatives de la production typique de Sora.

Sora a été lancée au grand public parmi les utilisateurs payants de ChatGPT Plus et de ChatGPT Pro en décembre 2024[6].

Depuis le 26 mars 2025, Sora est aussi capable de créer des images en utilisant le nouveau modèle ChatGPT-4o Images[7], et aussi générer des vidéos directement à partir de ces images[8].

Remove ads

Distribution et précautions

OpenAI déclare qu'il n'a pas l'intention de rendre Sora public. Préoccupés par le potentiel d'utilisation abusive de Sora, l'accès sera limité à une petite équipe rouge comprenant des universitaires et des chercheurs.

Les vidéos générées par Sora sont étiquetées avec des métadonnées C2PA pour indiquer qu'elles sont générées par l'IA. Ils partagent également Sora avec un petit groupe de professionnels de la création, notamment des vidéastes et des artistes, pour obtenir des commentaires sur son utilité.

Technologie

Le « rapport technique » ne contient essentiellement aucune information technique selon laquelle il s'agit d'une diffusion débruitante dans l'espace latent avec (au moins) un transformeur comme débruiteur. Cette conception est standard pour les générateurs d'images de diffusion comme Stable Diffusion (sauf que Stable Diffusion utilise un U-Net au lieu d'un transformeur). Une vidéo est générée dans l'espace latent par débruitage de « patchs » 3D (2D d'espace et 1D de temps), puis transformée en espace standard par un décompresseur vidéo. Le re-sous-titrage est utilisé pendant la formation pour créer de bons sous-titres sur des vidéos qui n'en ont pas.

Remove ads

Critiques

De nombreux commentateurs, tel l'universitaire américain Oren Etzioni (en) s'inquiètent des détournement possibles de cette technologie à des fins d'influence et de désinformation en ligne, en particulier pour les campagnes politiques. La vidéo crée par IA a en effet le potentiel de renforcer la crédibilité et la propagation de deepfakes de plus en plus sophistiqués, et plus généralement de fausses informations, ou encore des contenus dits inappropriés ou offensants (ce pourquoi ces vidéos seront taguées au moyen d'un filigrane numérique pour faciliter la détection de mésusages et d'éventuelles poursuites contre leurs auteurs).

OpenAI entraîne ce système à l'aide de vidéos accessibles au public ainsi, peut-être, que de vidéos protégées par le droit d'auteur (sous licence à cet effet), mais ne révèle pas le nombre ni la source exacte des vidéos.

Remove ads

Voir aussi

Notes et références

Voir aussi

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads