热门问题
时间线
聊天
视角
文字到影片生成模型
来自维基百科,自由的百科全书
Remove ads
文字到影片模型(英語:Text-to-Video Model)是一種機器學習模型,它使用自然語言描述作為輸入,生成與輸入文字相關的影片。[1] 2020年代,高品質文字到影片生成的進展主要得益於影片擴散模型的發展。[2]
一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。
模型
![]() | 此section論述以部分割區域為主,未必有普世通用的觀點。 (2024年8月1日) |
目前存在多種文字到影片模型,包括開源模型。中文輸入的模型[3] CogVideo是最早開發的文字到影片模型之一,擁有94億參數,其開原始碼演示版本於2022年在GitHub上發布。[4] 同年,Meta Platforms發布了部分文字到影片模型「Make-A-Video」,[5][6][7] 而Google的Brain(後為Google DeepMind)推出了Imagen Video,這是一個基於3D U-Net的文字到影片模型。[8][9][10][11][12]
2023年3月,一篇題為「VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation」的研究論文發表,提出了一種新的影片生成方法。[13] VideoFusion模型將擴散過程分解為兩個部分:基礎噪聲和殘差噪聲,這些部分在訊框之間共享以確保時間一致性。透過使用預訓練的圖像擴散模型作為基礎生成器,該模型能夠高效生成高品質且連貫的影片。透過在影片資料上微調預訓練模型,解決了圖像和影片資料之間的領域差距,增強了模型生成逼真且一致影片序列的能力。[14] 同月,Adobe在其功能中引入了Firefly AI。[15]
2024年1月,Google宣布開發了一款名為Lumiere的文字到影片模型,預計將整合先進的影片編輯功能。[16] Matthias Niessner和Lourdes Agapito在AI公司Synthesia致力於開發3D神經彩現技術,透過使用2D和3D神經表示形狀、外觀和運動,實現可控的影片合成。[17] 2024年6月,Luma Labs推出了其Dream Machine影片工具。[18][19] 同月,[20] 快手將其Kling AI文字到影片模型擴充到國際使用者。2024年7月,TikTok母公司字節跳動透過其子公司Faceu Technology在中國發布了Jimeng AI。[21] 到2024年9月,中國AI公司MiniMax推出了其video-01模型,加入了智譜AI、百川智慧型和月之暗面等AI模型公司的行列,推動中國在AI技術領域的參與。[22]
文字到影片模型的替代方法包括[23] Google的Phenaki、Hour One、Colossyan,[3] Runway的Gen-3 Alpha,[24][25] 以及OpenAI的Sora。[26] [27] 此外,還出現了Plug-and-Play、Text2LIVE和TuneAVideo等文字到影片模型。[28] Google還計劃在2025年為YouTube Shorts推出名為Veo的影片生成工具。[29] FLUX.1的開發者Black Forest Labs宣布了其文字到影片模型SOTA。[30]
Remove ads
架構與訓練
文字到影片模型的開發採用多種架構。與文生圖模型類似,這些模型可使用迴圈神經網路(如長短期記憶網路)進行訓練,此類別方法應用於像素轉換模型和隨機影片生成模型,分別提升連貫性與真實感。[31] 其他替代架構包括Transformer模型。生成對抗網路、變分自編碼器(用於人體運動預測)[32] 以及擴散模型也被用於圖像生成部分的開發。[33]
用於模型訓練的文字-影片資料集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[34][35] 這些資料集包含數百萬原始影片、生成影片、帶字幕影片及輔助訓練的文字資訊。此外PromptSource、DiffusionDB和VidProM等資料集提供多樣化文字輸入,指導模型解析不同提示。[34][35]
影片生成過程需要同步文字輸入與影片訊框序列,保證時序對齊與內容一致性。[35] 由於計算資源限制,影片長度增加時生成品質可能下降。[35]
Remove ads
局限性
儘管文字到影片模型效能快速提升,但其主要局限在於計算強度過高,導致難以生成高品質長影片。[36][37] 此外,模型需大量特定訓練資料才能生成高品質內容,造成資料取得難題。[37][36]
模型可能誤解文字提示,導致影片內容偏離預期。這源於語意上下文捕捉不足,影響影片與文字的語意對齊能力。[37][35] 當前正在最佳化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文字-影片對齊效能。[37]
倫理問題
文字到影片模型引發與內容生成相關的倫理和法律問題,可能產生不適當或未經授權的內容,包括侵權資訊、虛假資訊及未經許可使用真實人物肖像。[38] 確保AI生成內容符合安全倫理標準至關重要,因其生成內容可能難以辨識有害性。AI對NSFW內容或著作權材料的辨識過濾仍存挑戰,影響創作者與受眾雙方。[38]
影響與應用
文字到影片模型在教育宣傳、創意產業等領域具有廣泛應用前景,可簡化培訓影片、電影預告、遊戲資產及視覺化內容的生成流程。[39] 這些功能為使用者帶來經濟效益與個性化體驗。 2024年完成的首部全AI生成長片《時間真相》,部分旁白由約翰·德·蘭西(《星際迷航:下一代》中"Q"的扮演者)擔任。該片採用Runway Gen-3 Alpha和Kling 1.6等先進工具製作,相關著作《電影人工智慧》探討了文字到影片技術的局限性與實施挑戰,以及圖像到影片技術在關鍵鏡頭中的應用。
現有模型對比
Remove ads
相關條目
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads