热门问题
时间线
聊天
视角

Veo

来自维基百科,自由的百科全书

Remove ads

Veo是由Google DeepMind开发的文字转影片模型。与其他同类型模型一样,Veo利用生成式人工智能,根据使用者所输入的提示生成影片。

事实速览 开发者, 首次发布 ...

发展

2024年5月,在Google I/O2024大会上,Google发布了一款名为Veo的多模态英语Multimodality影片生成模型。[1]根据官方说法,该模型能够生成超过一分钟长的1080p 高清影片。[1]同年12月,Google推出Veo 2,透过VideoFX平台提供使用。该版本支援4K分辨率影片生成,并具备更精确的物理理解能力。 [2]

2025年4月,Google宣布Veo 2开始在Gemini上提供给进阶使用者使用。[3][4]同年5月,Google发布Veo 3,不仅能生成影片,亦可产生与画面同步的音讯,包括对白、音效与环境音。[5][6]Google 并同时推出名为 Flow 的影片创作工具,该工具结合Veo与Imagen技术驱动。[7]

Veo 3的一项重要创新,在于能生成与影片高度契合的音乐与语音。[8]Google DeepMind执行长杰米斯·哈萨比斯表示,此次发表标志着 AI 影片生成正式走出“无声电影时代”。[8]

Remove ads

反映

科技媒体Gizmodo的记者在Veo 3发布后指出,部分使用者倾向生成品质较低的内容,例如街头访问或开箱影片。[9]另有评论指出,该模型在面对不同提示时,经常重复相同的笑点。[10]

评论者推测Google可能使用YouTube影片[11]Reddit贴文作为模型训练资料。[10]不过Google官方未明确说明其训练素材的来源。[11]

参考资料

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads