热门问题

时间线

聊天

视角

Veo

来自维基百科，自由的百科全书

Remove ads

Veo是由Google DeepMind开发的文字转影片模型。与其他同类型模型一样，Veo利用生成式人工智能，根据使用者所输入的提示生成影片。

事实速览 开发者, 首次发布 ...

发展

2024年5月，在Google I/O2024大会上，Google发布了一款名为Veo的多模态（英语：Multimodality）影片生成模型。^[1]根据官方说法，该模型能够生成超过一分钟长的1080p 高清影片。^[1]同年12月，Google推出Veo 2，透过VideoFX平台提供使用。该版本支援4K分辨率影片生成，并具备更精确的物理理解能力。 ^[2]

2025年4月，Google宣布Veo 2开始在Gemini上提供给进阶使用者使用。^[3]^[4]同年5月，Google发布Veo 3，不仅能生成影片，亦可产生与画面同步的音讯，包括对白、音效与环境音。^[5]^[6]Google 并同时推出名为 Flow 的影片创作工具，该工具结合Veo与Imagen技术驱动。^[7]

Veo 3的一项重要创新，在于能生成与影片高度契合的音乐与语音。^[8]Google DeepMind执行长杰米斯·哈萨比斯表示，此次发表标志着 AI 影片生成正式走出“无声电影时代”。^[8]

Remove ads

反映

科技媒体Gizmodo的记者在Veo 3发布后指出，部分使用者倾向生成品质较低的内容，例如街头访问或开箱影片。^[9]另有评论指出，该模型在面对不同提示时，经常重复相同的笑点。^[10]

评论者推测Google可能使用YouTube影片^[11]或Reddit贴文作为模型训练资料。^[10]不过Google官方未明确说明其训练素材的来源。^[11]

参考资料

Loading content...

外部链接

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads