热门问题
时间线
聊天
视角

文本到視頻生成模型

来自维基百科,自由的百科全书

文本到视频生成模型
Remove ads

文本到視頻模型(英語:Text-to-Video Model)是一種機器學習模型,它使用自然語言描述作為輸入,生成與輸入文本相關的視頻[1] 2020年代,高質量文本到視頻生成的進展主要得益於視頻擴散模型的發展。[2]

使用OpenAI的Sora文本到視頻模型生成的視頻,提示詞為:一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。

模型

目前存在多種文本到視頻模型,包括開源模型。中文輸入的模型[3] CogVideo是最早開發的文本到視頻模型之一,擁有94億參數,其開源代碼演示版本於2022年在GitHub上發布。[4] 同年,Meta Platforms發布了部分文本到視頻模型「Make-A-Video」,[5][6][7]GoogleBrain(後為Google DeepMind)推出了Imagen Video,這是一個基於3D U-Net的文本到視頻模型。[8][9][10][11][12]

2023年3月,一篇題為「VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation」的研究論文發表,提出了一種新的視頻生成方法。[13] VideoFusion模型將擴散過程分解為兩個部分:基礎噪聲和殘差噪聲,這些部分在幀之間共享以確保時間一致性。通過使用預訓練的圖像擴散模型作為基礎生成器,該模型能夠高效生成高質量且連貫的視頻。通過在視頻數據上微調預訓練模型,解決了圖像和視頻數據之間的領域差距,增強了模型生成逼真且一致視頻序列的能力。[14] 同月,Adobe在其功能中引入了Firefly AI。[15]

2024年1月,Google宣布開發了一款名為Lumiere的文本到視頻模型,預計將集成先進的視頻編輯功能。[16] Matthias NiessnerLourdes Agapito在AI公司Synthesia致力於開發3D神經渲染技術,通過使用2D和3D神經表示形狀、外觀和運動,實現可控的視頻合成。[17] 2024年6月,Luma Labs推出了其Dream Machine視頻工具。[18][19] 同月,[20] 快手將其Kling AI文本到視頻模型擴展到國際用戶。2024年7月,TikTok母公司字節跳動通過其子公司Faceu Technology在中國發布了Jimeng AI。[21] 到2024年9月,中國AI公司MiniMax推出了其video-01模型,加入了智譜AI百川智能月之暗面等AI模型公司的行列,推動中國在AI技術領域的參與。[22]

文本到視頻模型的替代方法包括[23] Google的Phenaki、Hour One、Colossyan[3] Runway的Gen-3 Alpha,[24][25] 以及OpenAI的Sora[26] [27] 此外,還出現了Plug-and-Play、Text2LIVE和TuneAVideo等文本到視頻模型。[28] Google還計劃在2025年為YouTube Shorts推出名為Veo的視頻生成工具。[29] FLUX.1的開發者Black Forest Labs宣布了其文本到視頻模型SOTA。[30]

Remove ads

架構與訓練

文本到視頻模型的開發採用多種架構。與文生圖模型類似,這些模型可使用循環神經網絡(如長短期記憶網絡)進行訓練,此類方法應用於像素轉換模型和隨機視頻生成模型,分別提升連貫性與真實感。[31] 其他替代架構包括Transformer模型生成對抗網絡變分自編碼器(用於人體運動預測)[32] 以及擴散模型也被用於圖像生成部分的開發。[33]

用於模型訓練的文本-視頻數據集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[34][35] 這些數據集包含數百萬原始視頻、生成視頻、帶字幕視頻及輔助訓練的文本信息。此外PromptSource、DiffusionDB和VidProM等數據集提供多樣化文本輸入,指導模型解析不同提示。[34][35]

視頻生成過程需要同步文本輸入與視頻幀序列,保證時序對齊與內容一致性。[35] 由於計算資源限制,視頻長度增加時生成質量可能下降。[35]

Remove ads

局限性

儘管文本到視頻模型性能快速提升,但其主要局限在於計算強度過高,導致難以生成高質量長視頻。[36][37] 此外,模型需大量特定訓練數據才能生成高質量內容,造成數據獲取難題。[37][36]

模型可能誤解文本提示,導致視頻內容偏離預期。這源於語義上下文捕捉不足,影響視頻與文本的語義對齊能力。[37][35] 當前正在優化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文本-視頻對齊性能。[37]

倫理問題

文本到視頻模型引發與內容生成相關的倫理和法律問題,可能產生不適當或未經授權的內容,包括侵權信息、虛假信息及未經許可使用真實人物肖像。[38] 確保AI生成內容符合安全倫理標準至關重要,因其生成內容可能難以識別有害性。AI對NSFW內容或版權材料的識別過濾仍存挑戰,影響創作者與受眾雙方。[38]

影響與應用

文本到視頻模型在教育宣傳、創意產業等領域具有廣泛應用前景,可簡化培訓視頻、電影預告、遊戲資產及可視化內容的生成流程。[39] 這些功能為用戶帶來經濟效益與個性化體驗。 2024年完成的首部全AI生成長片《時間真相》,部分旁白由約翰·德·蘭西(《星際迷航:下一代》中"Q"的扮演者)擔任。該片採用Runway Gen-3 Alpha和Kling 1.6等先進工具製作,相關著作《電影人工智能》探討了文本到視頻技術的局限性與實施挑戰,以及圖像到視頻技術在關鍵鏡頭中的應用。

現有模型對比

更多信息 模型/產品, 公司 ...
Remove ads

相關條目

參考資料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads