Sora (人工知能モデル)

Sora
Soraが生成した東京の通りを歩く女性の動画
開発元	OpenAI
初版	2024年12月9日 (7か月前) (2024-12-09)
プラットフォーム	OpenAI
種別	Text-to-videoモデル（英語版）
公式サイト	sora.com
テンプレートを表示

歴史

Sora以前にも、MetaのMake-A-Video、Runway（英語版）のGen-2、GoogleのLumiereといったテキストから動画を生成するモデルが開発されており、Lumiereは2024年2月時点でも研究段階にある^[2]。Soraを開発したOpenAIは、2023年9月にtext-to-imageモデルのDALL-E 3をリリースした企業でもある^[3]。

Soraを開発したチームは、その「無限の創造力」を表すために、モデルに日本語の「空」という語句にちなんで「Sora」と名付けた^[4]。2024年2月15日、OpenAIはSoraが生成した高解像度の動画クリップを複数公開し、最初のプレビューを実施した。公開された動画には、山道を走るSUV、ろうそくの隣にいる「短くてふわふわしたモンスター」のアニメーション、雪の中を東京で歩く二人、そしてカリフォルニア・ゴールドラッシュの偽の歴史映像が含まれており、最大1分間の動画を生成できると発表した^[2]。その後、モデルのトレーニング手法を詳述した技術報告書が共有された^[5]^[6]。また、OpenAIのCEOであるサム・アルトマンはXでユーザーのプロンプトに応じてSoraが生成した動画を投稿した。

OpenAIは、将来的にSoraを一般公開する計画を示しているが、具体的な時期は明言しておらず、すぐに公開する予定はないと述べた^[2]^[7]。同社は、誤情報やバイアスの専門家を含む少数の「レッドチーム」に限定的なアクセスを提供し、モデルに対する敵対的テスト（英語版）を行った^[3]。また、動画制作者やアーティストを含む少数のクリエイティブな専門家にも共有し、創造的分野での有用性についてのフィードバックを求めた^[8]。

2024年11月24日、Hugging Faceで、テスターグループによってSoraのAPIキーが流出し、テスターグループは、Soraが「アートウォッシング（英語版）」に使用されていると主張し、抗議する声明を発表した。このAPIキーは流出から3時間以内にOpenAIによってアクセスが取り消された。OpenAIは声明で「数百人のアーティスト」が開発に貢献しており、「参加は任意」であると述べた^[9]。

Remove ads

能力と限界

Soraが生成した、ベッドに人が横たわりその隣に猫が乗っている動画（ハルシネーションがある）

Soraの技術は、DALL-E 3の技術を応用したものである。OpenAIによれば、Soraは拡散トランスフォーマーであり^[10]、デノイズ型潜在拡散モデルで、Transformerがデノイザーとして機能する。動画は、3D「パッチ」をデノイズして潜在空間で生成され、その後、ビデオデコンプレッサーによって標準空間に変換される。再キャプション付けは、video-to-textモデルを使用して、動画に詳細なキャプションを作成することで、トレーニングデータを補強（英語版）するために使われる^[6]。

OpenAIは、一般に公開されている動画と目的のためにライセンスされた著作権保護された動画を使用してモデルをトレーニングしたが、具体的な数やソースについては明かしていない^[4]。発表時にSoraの限界についても認めており、複雑な物理現象のシミュレーションや因果関係の理解、左右の区別が苦手であると述べている^[11]。例えば、オオカミの子オオカミの集団が増殖して収束する場面が理解しにくいシナリオを作り出すことがある^[12]。また、既存の安全慣行に従い、性的、暴力的、憎悪的、さらに有名人や既存の知的財産を含む内容のプロンプトを制限すると発表した^[3]。

Soraの研究者であるティム・ブルックスは、モデルがデータセットだけで3Dグラフィックスを生成する方法を習得したと述べている。同じくSoraの研究者であるビル・ピーブルズは、モデルがプロンプトなしで異なるビデオアングルを自動的に作成したと述べた^[2]。OpenAIによれば、Soraが生成した動画にはAIで生成したことを示すC2PAメタデータ（英語版）がタグ付けされている^[4]。

Remove ads

反応

MIT Technology Reviewのウィル・ダグラス・ヘブンは、デモ動画を「印象的」と評価する一方で、選別されたものでありSoraの典型的な出力を代表していない可能性があると指摘した^[8]。アメリカの学者オーレン・エツィオーニ（英語版）は、この技術が政治キャンペーンにおけるオンライン上の偽情報の作成に使われる可能性について懸念を表明した^[4]。同様にWiredのスティーブン・レヴィは、誤情報の温床となる潜在的な危険性を指摘し、プレビュークリップについては「印象的だが完璧ではない」と述べ、「映画的な文法を芽生えさせた」点を評価した。しかし、「テキストから動画を生成する技術が実際の映画制作を脅かすのは、仮にその時が来るとしても、非常に長い時間がかかるだろう」とも述べた^[2]。CNETのリサ・レイシーは、例示動画を「人間の顔が近くで映る場面や海洋生物が泳ぐ場面を除けば、驚くほどリアル」と評した^[3]。

映画監督のタイラー・ペリーは、Soraが映画業界に与える潜在的な影響への懸念を理由に、自身がアトランタに計画していたスタジオの8億ドル規模の拡張を保留すると発表した^[13]^[14]。

Sora (人工知能モデル)

歴史

能力と限界

反応

関連項目

脚注

外部リンク

Wikiwand - on