热门问题
时间线
聊天
视角

文字到影片生成模型

来自维基百科,自由的百科全书

文本到视频生成模型
Remove ads

文字到影片模型(英語:Text-to-Video Model)是一種機器學習模型,它使用自然語言描述作為輸入,生成與輸入文字相關的影片[1] 2020年代,高品質文字到影片生成的進展主要得益於影片擴散模型的發展。[2]

使用OpenAI的Sora文字到影片模型生成的影片,提示詞為:一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。

模型

目前存在多種文字到影片模型,包括開源模型。中文輸入的模型[3] CogVideo是最早開發的文字到影片模型之一,擁有94億參數,其開原始碼演示版本於2022年在GitHub上發布。[4] 同年,Meta Platforms發布了部分文字到影片模型「Make-A-Video」,[5][6][7]GoogleBrain(後為Google DeepMind)推出了Imagen Video,這是一個基於3D U-Net的文字到影片模型。[8][9][10][11][12]

2023年3月,一篇題為「VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation」的研究論文發表,提出了一種新的影片生成方法。[13] VideoFusion模型將擴散過程分解為兩個部分:基礎噪聲和殘差噪聲,這些部分在訊框之間共享以確保時間一致性。透過使用預訓練的圖像擴散模型作為基礎生成器,該模型能夠高效生成高品質且連貫的影片。透過在影片資料上微調預訓練模型,解決了圖像和影片資料之間的領域差距,增強了模型生成逼真且一致影片序列的能力。[14] 同月,Adobe在其功能中引入了Firefly AI。[15]

2024年1月,Google宣布開發了一款名為Lumiere的文字到影片模型,預計將整合先進的影片編輯功能。[16] Matthias NiessnerLourdes Agapito在AI公司Synthesia致力於開發3D神經彩現技術,透過使用2D和3D神經表示形狀、外觀和運動,實現可控的影片合成。[17] 2024年6月,Luma Labs推出了其Dream Machine影片工具。[18][19] 同月,[20] 快手將其Kling AI文字到影片模型擴充到國際使用者。2024年7月,TikTok母公司字節跳動透過其子公司Faceu Technology在中國發布了Jimeng AI。[21] 到2024年9月,中國AI公司MiniMax推出了其video-01模型,加入了智譜AI百川智慧型月之暗面等AI模型公司的行列,推動中國在AI技術領域的參與。[22]

文字到影片模型的替代方法包括[23] Google的Phenaki、Hour One、Colossyan[3] Runway的Gen-3 Alpha,[24][25] 以及OpenAI的Sora[26] [27] 此外,還出現了Plug-and-Play、Text2LIVE和TuneAVideo等文字到影片模型。[28] Google還計劃在2025年為YouTube Shorts推出名為Veo的影片生成工具。[29] FLUX.1的開發者Black Forest Labs宣布了其文字到影片模型SOTA。[30]

Remove ads

架構與訓練

文字到影片模型的開發採用多種架構。與文生圖模型類似,這些模型可使用迴圈神經網路(如長短期記憶網路)進行訓練,此類別方法應用於像素轉換模型和隨機影片生成模型,分別提升連貫性與真實感。[31] 其他替代架構包括Transformer模型生成對抗網路變分自編碼器(用於人體運動預測)[32] 以及擴散模型也被用於圖像生成部分的開發。[33]

用於模型訓練的文字-影片資料集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[34][35] 這些資料集包含數百萬原始影片、生成影片、帶字幕影片及輔助訓練的文字資訊。此外PromptSource、DiffusionDB和VidProM等資料集提供多樣化文字輸入,指導模型解析不同提示。[34][35]

影片生成過程需要同步文字輸入與影片訊框序列,保證時序對齊與內容一致性。[35] 由於計算資源限制,影片長度增加時生成品質可能下降。[35]

Remove ads

局限性

儘管文字到影片模型效能快速提升,但其主要局限在於計算強度過高,導致難以生成高品質長影片。[36][37] 此外,模型需大量特定訓練資料才能生成高品質內容,造成資料取得難題。[37][36]

模型可能誤解文字提示,導致影片內容偏離預期。這源於語意上下文捕捉不足,影響影片與文字的語意對齊能力。[37][35] 當前正在最佳化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文字-影片對齊效能。[37]

倫理問題

文字到影片模型引發與內容生成相關的倫理和法律問題,可能產生不適當或未經授權的內容,包括侵權資訊、虛假資訊及未經許可使用真實人物肖像。[38] 確保AI生成內容符合安全倫理標準至關重要,因其生成內容可能難以辨識有害性。AI對NSFW內容或著作權材料的辨識過濾仍存挑戰,影響創作者與受眾雙方。[38]

影響與應用

文字到影片模型在教育宣傳、創意產業等領域具有廣泛應用前景,可簡化培訓影片、電影預告、遊戲資產及視覺化內容的生成流程。[39] 這些功能為使用者帶來經濟效益與個性化體驗。 2024年完成的首部全AI生成長片《時間真相》,部分旁白由約翰·德·蘭西(《星際迷航:下一代》中"Q"的扮演者)擔任。該片採用Runway Gen-3 Alpha和Kling 1.6等先進工具製作,相關著作《電影人工智慧》探討了文字到影片技術的局限性與實施挑戰,以及圖像到影片技術在關鍵鏡頭中的應用。

現有模型對比

更多資訊 模型/產品, 公司 ...
Remove ads

相關條目

參考資料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads