热门问题
时间线
聊天
视角
文本到视频生成模型
来自维基百科,自由的百科全书
Remove ads
文本到视频模型(英语:Text-to-Video Model)是一种机器学习模型,它使用自然语言描述作为输入,生成与输入文本相关的视频。[1] 2020年代,高质量文本到视频生成的进展主要得益于视频扩散模型的发展。[2]
一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。
模型
![]() | 此section论述以部分区域为主,未必有普世通用的观点。 (2024年8月1日) |
目前存在多种文本到视频模型,包括开源模型。中文输入的模型[3] CogVideo是最早开发的文本到视频模型之一,拥有94亿参数,其开源代码演示版本于2022年在GitHub上发布。[4] 同年,Meta Platforms发布了部分文本到视频模型“Make-A-Video”,[5][6][7] 而Google的Brain(后为Google DeepMind)推出了Imagen Video,这是一个基于3D U-Net的文本到视频模型。[8][9][10][11][12]
2023年3月,一篇题为“VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation”的研究论文发表,提出了一种新的视频生成方法。[13] VideoFusion模型将扩散过程分解为两个部分:基础噪声和残差噪声,这些部分在帧之间共享以确保时间一致性。通过使用预训练的图像扩散模型作为基础生成器,该模型能够高效生成高质量且连贯的视频。通过在视频数据上微调预训练模型,解决了图像和视频数据之间的领域差距,增强了模型生成逼真且一致视频序列的能力。[14] 同月,Adobe在其功能中引入了Firefly AI。[15]
2024年1月,Google宣布开发了一款名为Lumiere的文本到视频模型,预计将集成先进的视频编辑功能。[16] Matthias Niessner和Lourdes Agapito在AI公司Synthesia致力于开发3D神经渲染技术,通过使用2D和3D神经表示形状、外观和运动,实现可控的视频合成。[17] 2024年6月,Luma Labs推出了其Dream Machine视频工具。[18][19] 同月,[20] 快手将其Kling AI文本到视频模型扩展到国际用户。2024年7月,TikTok母公司字节跳动通过其子公司Faceu Technology在中国发布了Jimeng AI。[21] 到2024年9月,中国AI公司MiniMax推出了其video-01模型,加入了智谱AI、百川智能和月之暗面等AI模型公司的行列,推动中国在AI技术领域的参与。[22]
文本到视频模型的替代方法包括[23] Google的Phenaki、Hour One、Colossyan,[3] Runway的Gen-3 Alpha,[24][25] 以及OpenAI的Sora。[26] [27] 此外,还出现了Plug-and-Play、Text2LIVE和TuneAVideo等文本到视频模型。[28] Google还计划在2025年为YouTube Shorts推出名为Veo的视频生成工具。[29] FLUX.1的开发者Black Forest Labs宣布了其文本到视频模型SOTA。[30]
Remove ads
架构与训练
文本到视频模型的开发采用多种架构。与文生图模型类似,这些模型可使用循环神经网络(如长短期记忆网络)进行训练,此类方法应用于像素转换模型和随机视频生成模型,分别提升连贯性与真实感。[31] 其他替代架构包括Transformer模型。生成对抗网络、变分自编码器(用于人体运动预测)[32] 以及扩散模型也被用于图像生成部分的开发。[33]
用于模型训练的文本-视频数据集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[34][35] 这些数据集包含数百万原始视频、生成视频、带字幕视频及辅助训练的文本信息。此外PromptSource、DiffusionDB和VidProM等数据集提供多样化文本输入,指导模型解析不同提示。[34][35]
视频生成过程需要同步文本输入与视频帧序列,保证时序对齐与内容一致性。[35] 由于计算资源限制,视频长度增加时生成质量可能下降。[35]
Remove ads
局限性
尽管文本到视频模型性能快速提升,但其主要局限在于计算强度过高,导致难以生成高质量长视频。[36][37] 此外,模型需大量特定训练数据才能生成高质量内容,造成数据获取难题。[37][36]
模型可能误解文本提示,导致视频内容偏离预期。这源于语义上下文捕捉不足,影响视频与文本的语义对齐能力。[37][35] 当前正在优化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文本-视频对齐性能。[37]
伦理问题
文本到视频模型引发与内容生成相关的伦理和法律问题,可能产生不适当或未经授权的内容,包括侵权信息、虚假信息及未经许可使用真实人物肖像。[38] 确保AI生成内容符合安全伦理标准至关重要,因其生成内容可能难以识别有害性。AI对NSFW内容或版权材料的识别过滤仍存挑战,影响创作者与受众双方。[38]
影响与应用
文本到视频模型在教育宣传、创意产业等领域具有广泛应用前景,可简化培训视频、电影预告、游戏资产及可视化内容的生成流程。[39] 这些功能为用户带来经济效益与个性化体验。 2024年完成的首部全AI生成长片《时间真相》,部分旁白由约翰·德·兰西(《星际迷航:下一代》中"Q"的扮演者)担任。该片采用Runway Gen-3 Alpha和Kling 1.6等先进工具制作,相关著作《电影人工智能》探讨了文本到视频技术的局限性与实施挑战,以及图像到视频技术在关键镜头中的应用。
现有模型对比
Remove ads
相关条目
参考资料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads