热门问题
时间线
聊天
视角
文本到視頻生成模型
来自维基百科,自由的百科全书
Remove ads
文本到視頻模型(英語:Text-to-Video Model)是一種機器學習模型,它使用自然語言描述作為輸入,生成與輸入文本相關的視頻。[1] 2020年代,高質量文本到視頻生成的進展主要得益於視頻擴散模型的發展。[2]
一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。
模型
![]() | 此section論述以部分區域為主,未必有普世通用的觀點。 (2024年8月1日) |
目前存在多種文本到視頻模型,包括開源模型。中文輸入的模型[3] CogVideo是最早開發的文本到視頻模型之一,擁有94億參數,其開源代碼演示版本於2022年在GitHub上發布。[4] 同年,Meta Platforms發布了部分文本到視頻模型「Make-A-Video」,[5][6][7] 而Google的Brain(後為Google DeepMind)推出了Imagen Video,這是一個基於3D U-Net的文本到視頻模型。[8][9][10][11][12]
2023年3月,一篇題為「VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation」的研究論文發表,提出了一種新的視頻生成方法。[13] VideoFusion模型將擴散過程分解為兩個部分:基礎噪聲和殘差噪聲,這些部分在幀之間共享以確保時間一致性。通過使用預訓練的圖像擴散模型作為基礎生成器,該模型能夠高效生成高質量且連貫的視頻。通過在視頻數據上微調預訓練模型,解決了圖像和視頻數據之間的領域差距,增強了模型生成逼真且一致視頻序列的能力。[14] 同月,Adobe在其功能中引入了Firefly AI。[15]
2024年1月,Google宣布開發了一款名為Lumiere的文本到視頻模型,預計將集成先進的視頻編輯功能。[16] Matthias Niessner和Lourdes Agapito在AI公司Synthesia致力於開發3D神經渲染技術,通過使用2D和3D神經表示形狀、外觀和運動,實現可控的視頻合成。[17] 2024年6月,Luma Labs推出了其Dream Machine視頻工具。[18][19] 同月,[20] 快手將其Kling AI文本到視頻模型擴展到國際用戶。2024年7月,TikTok母公司字節跳動通過其子公司Faceu Technology在中國發布了Jimeng AI。[21] 到2024年9月,中國AI公司MiniMax推出了其video-01模型,加入了智譜AI、百川智能和月之暗面等AI模型公司的行列,推動中國在AI技術領域的參與。[22]
文本到視頻模型的替代方法包括[23] Google的Phenaki、Hour One、Colossyan,[3] Runway的Gen-3 Alpha,[24][25] 以及OpenAI的Sora。[26] [27] 此外,還出現了Plug-and-Play、Text2LIVE和TuneAVideo等文本到視頻模型。[28] Google還計劃在2025年為YouTube Shorts推出名為Veo的視頻生成工具。[29] FLUX.1的開發者Black Forest Labs宣布了其文本到視頻模型SOTA。[30]
Remove ads
架構與訓練
文本到視頻模型的開發採用多種架構。與文生圖模型類似,這些模型可使用循環神經網絡(如長短期記憶網絡)進行訓練,此類方法應用於像素轉換模型和隨機視頻生成模型,分別提升連貫性與真實感。[31] 其他替代架構包括Transformer模型。生成對抗網絡、變分自編碼器(用於人體運動預測)[32] 以及擴散模型也被用於圖像生成部分的開發。[33]
用於模型訓練的文本-視頻數據集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[34][35] 這些數據集包含數百萬原始視頻、生成視頻、帶字幕視頻及輔助訓練的文本信息。此外PromptSource、DiffusionDB和VidProM等數據集提供多樣化文本輸入,指導模型解析不同提示。[34][35]
視頻生成過程需要同步文本輸入與視頻幀序列,保證時序對齊與內容一致性。[35] 由於計算資源限制,視頻長度增加時生成質量可能下降。[35]
Remove ads
局限性
儘管文本到視頻模型性能快速提升,但其主要局限在於計算強度過高,導致難以生成高質量長視頻。[36][37] 此外,模型需大量特定訓練數據才能生成高質量內容,造成數據獲取難題。[37][36]
模型可能誤解文本提示,導致視頻內容偏離預期。這源於語義上下文捕捉不足,影響視頻與文本的語義對齊能力。[37][35] 當前正在優化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文本-視頻對齊性能。[37]
倫理問題
文本到視頻模型引發與內容生成相關的倫理和法律問題,可能產生不適當或未經授權的內容,包括侵權信息、虛假信息及未經許可使用真實人物肖像。[38] 確保AI生成內容符合安全倫理標準至關重要,因其生成內容可能難以識別有害性。AI對NSFW內容或版權材料的識別過濾仍存挑戰,影響創作者與受眾雙方。[38]
影響與應用
文本到視頻模型在教育宣傳、創意產業等領域具有廣泛應用前景,可簡化培訓視頻、電影預告、遊戲資產及可視化內容的生成流程。[39] 這些功能為用戶帶來經濟效益與個性化體驗。 2024年完成的首部全AI生成長片《時間真相》,部分旁白由約翰·德·蘭西(《星際迷航:下一代》中"Q"的扮演者)擔任。該片採用Runway Gen-3 Alpha和Kling 1.6等先進工具製作,相關著作《電影人工智能》探討了文本到視頻技術的局限性與實施挑戰,以及圖像到視頻技術在關鍵鏡頭中的應用。
現有模型對比
Remove ads
相關條目
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads