文本到视频生成模型

文本到視頻模型（英語：Text-to-Video Model）是一種機器學習模型，它使用自然語言描述作為輸入，生成與輸入文本相關的視頻。^[1] 2020年代，高質量文本到視頻生成的進展主要得益於視頻擴散模型的發展。^[2]

使用OpenAI的Sora文本到視頻模型生成的視頻，提示詞為：

一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，手持黑色手提包。她戴着太阳镜和红色口红，自信而随意地行走。街道潮湿且反光，形成了彩色灯光的镜面效果。许多行人穿梭其中。

模型

此section論述以部分區域為主，未必有普世通用的觀點。 (2024年8月1日)

目前存在多種文本到視頻模型，包括開源模型。中文輸入的模型^[3] CogVideo是最早開發的文本到視頻模型之一，擁有94億參數，其開源代碼演示版本於2022年在GitHub上發布。^[4] 同年，Meta Platforms發布了部分文本到視頻模型「Make-A-Video」，^[5]^[6]^[7] 而Google的Brain（後為Google DeepMind）推出了Imagen Video，這是一個基於3D U-Net的文本到視頻模型。^[8]^[9]^[10]^[11]^[12]

2023年3月，一篇題為「VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation」的研究論文發表，提出了一種新的視頻生成方法。^[13] VideoFusion模型將擴散過程分解為兩個部分：基礎噪聲和殘差噪聲，這些部分在幀之間共享以確保時間一致性。通過使用預訓練的圖像擴散模型作為基礎生成器，該模型能夠高效生成高質量且連貫的視頻。通過在視頻數據上微調預訓練模型，解決了圖像和視頻數據之間的領域差距，增強了模型生成逼真且一致視頻序列的能力。^[14] 同月，Adobe在其功能中引入了Firefly AI。^[15]

2024年1月，Google宣布開發了一款名為Lumiere的文本到視頻模型，預計將集成先進的視頻編輯功能。^[16] Matthias Niessner和Lourdes Agapito在AI公司Synthesia致力於開發3D神經渲染技術，通過使用2D和3D神經表示形狀、外觀和運動，實現可控的視頻合成。^[17] 2024年6月，Luma Labs推出了其Dream Machine視頻工具。^[18]^[19] 同月，^[20] 快手將其Kling AI文本到視頻模型擴展到國際用戶。2024年7月，TikTok母公司字節跳動通過其子公司Faceu Technology在中國發布了Jimeng AI。^[21] 到2024年9月，中國AI公司MiniMax推出了其video-01模型，加入了智譜AI、百川智能和月之暗面等AI模型公司的行列，推動中國在AI技術領域的參與。^[22]

文本到視頻模型的替代方法包括^[23] Google的Phenaki、Hour One、Colossyan，^[3] Runway的Gen-3 Alpha，^[24]^[25] 以及OpenAI的Sora。^[26] ^[27] 此外，還出現了Plug-and-Play、Text2LIVE和TuneAVideo等文本到視頻模型。^[28] Google還計劃在2025年為YouTube Shorts推出名為Veo的視頻生成工具。^[29] FLUX.1的開發者Black Forest Labs宣布了其文本到視頻模型SOTA。^[30]

Remove ads

架構與訓練

文本到視頻模型的開發採用多種架構。與文生圖模型類似，這些模型可使用循環神經網絡（如長短期記憶網絡）進行訓練，此類方法應用於像素轉換模型和隨機視頻生成模型，分別提升連貫性與真實感。^[31] 其他替代架構包括Transformer模型。生成對抗網絡、變分自編碼器（用於人體運動預測）^[32] 以及擴散模型也被用於圖像生成部分的開發。^[33]

用於模型訓練的文本-視頻數據集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。^[34]^[35] 這些數據集包含數百萬原始視頻、生成視頻、帶字幕視頻及輔助訓練的文本信息。此外PromptSource、DiffusionDB和VidProM等數據集提供多樣化文本輸入，指導模型解析不同提示。^[34]^[35]

視頻生成過程需要同步文本輸入與視頻幀序列，保證時序對齊與內容一致性。^[35] 由於計算資源限制，視頻長度增加時生成質量可能下降。^[35]

Remove ads

局限性

儘管文本到視頻模型性能快速提升，但其主要局限在於計算強度過高，導致難以生成高質量長視頻。^[36]^[37] 此外，模型需大量特定訓練數據才能生成高質量內容，造成數據獲取難題。^[37]^[36]

模型可能誤解文本提示，導致視頻內容偏離預期。這源於語義上下文捕捉不足，影響視頻與文本的語義對齊能力。^[37]^[35] 當前正在優化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等，旨在提升文本-視頻對齊性能。^[37]

倫理問題

文本到視頻模型引發與內容生成相關的倫理和法律問題，可能產生不適當或未經授權的內容，包括侵權信息、虛假信息及未經許可使用真實人物肖像。^[38] 確保AI生成內容符合安全倫理標準至關重要，因其生成內容可能難以識別有害性。AI對NSFW內容或版權材料的識別過濾仍存挑戰，影響創作者與受眾雙方。^[38]

影響與應用

文本到視頻模型在教育宣傳、創意產業等領域具有廣泛應用前景，可簡化培訓視頻、電影預告、遊戲資產及可視化內容的生成流程。^[39] 這些功能為用戶帶來經濟效益與個性化體驗。 2024年完成的首部全AI生成長片《時間真相》，部分旁白由約翰·德·蘭西（《星際迷航：下一代》中"Q"的扮演者）擔任。該片採用Runway Gen-3 Alpha和Kling 1.6等先進工具製作，相關著作《電影人工智能》探討了文本到視頻技術的局限性與實施挑戰，以及圖像到視頻技術在關鍵鏡頭中的應用。

現有模型對比

更多信息 模型/產品, 公司 ...

模型/產品	公司	發布年份	狀態	核心功能	能力特點	定價	視頻時長	支持語言
Synthesia	Synthesia	2019	已發布	AI數字人、支持60+語言、定製化選項^[40]	專注企業培訓與營銷數字人生成^[40]	訂閱制，起價約30美元/月	依訂閱方案變化	60+
InVideo AI	InVideo	2021	已發布	AI視頻創作、大型素材庫、AI講解員^[40]	社交媒體模板適配^[40]	免費版可用，付費版起價16美元/月	依內容類型變化	多語言（未具體說明）
Fliki	Fliki AI	2022	已發布	支持AI數字人與語音、覆蓋70種語言^[40]	提供65+數字人與2000+語音庫^[40]	免費版可用，付費版起價30美元/月	依訂閱方案變化	70+
Runway Gen-2	Runway AI	2023	已發布	支持文本/圖像/視頻多模態輸入^[41]	高畫質生成，含風格化與分鏡模式^[41]	免費試用，付費方案未詳述	最長16秒	多語言（未具體說明）
Pika Labs	Pika Labs	2024	測試版	動態視頻生成、攝像機運動控制^[42]	自然動態生成，用戶友好界面^[42]	測試期免費	支持幀延續生成較長視頻	多語言（未具體說明）
Runway Gen-3 Alpha	Runway AI	2024	測試版	超高畫質、照片級人物生成、精細時序控制^[43]	影視級定製化生成^[43]	免費試用，企業定製定價	單片段最長10秒，可擴展	多語言（未具體說明）
OpenAI Sora	OpenAI	2024	測試版	深度語義理解、電影級視覺效果、多鏡頭生成^[44]	支持細節豐富、動態感強的情緒化視頻生成，處於安全測試階段^[44]	定價未公布	預計支持長視頻（時長待定）	多語言（未具體說明）

Remove ads

參考資料

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

文本到視頻生成模型

模型

架構與訓練

局限性

倫理問題

影響與應用

現有模型對比

相關條目

參考資料

Wikiwand - on