热门问题
时间线
聊天
视角

Veo

来自维基百科,自由的百科全书

Remove ads

Veo是由Google DeepMind開發的文字轉影片模型。與其他同類型模型一樣,Veo利用生成式人工智能,根據使用者所輸入的提示生成影片。

快速預覽 開發者, 首次發布 ...

發展

2024年5月,在Google I/O2024大會上,Google發布了一款名為Veo的多模態英語Multimodality影片生成模型。[1]根據官方說法,該模型能夠生成超過一分鐘長的1080p 高清影片。[1]同年12月,Google推出Veo 2,透過VideoFX平台提供使用。該版本支援4K解像度影片生成,並具備更精確的物理理解能力。 [2]

2025年4月,Google宣布Veo 2開始在Gemini上提供給進階使用者使用。[3][4]同年5月,Google發布Veo 3,不僅能生成影片,亦可產生與畫面同步的音訊,包括對白、音效與環境音。[5][6]Google 並同時推出名為 Flow 的影片創作工具,該工具結合Veo與Imagen技術驅動。[7]

Veo 3的一項重要創新,在於能生成與影片高度契合的音樂與語音。[8]Google DeepMind執行長傑米斯·哈薩比斯表示,此次發表標誌着 AI 影片生成正式走出「無聲電影時代」。[8]

Remove ads

反映

科技媒體Gizmodo的記者在Veo 3發布後指出,部分使用者傾向生成品質較低的內容,例如街頭訪問或開箱影片。[9]另有評論指出,該模型在面對不同提示時,經常重複相同的笑點。[10]

評論者推測Google可能使用YouTube影片[11]Reddit貼文作為模型訓練資料。[10]不過Google官方未明確說明其訓練素材的來源。[11]

參考資料

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads