热门问题

时间线

聊天

视角

Veo

来自维基百科，自由的百科全书

Remove ads

Veo是由Google DeepMind開發的文字轉影片模型。與其他同類型模型一樣，Veo利用生成式人工智能，根據使用者所輸入的提示生成影片。

快速預覽 開發者, 首次發布 ...

發展

2024年5月，在Google I/O2024大會上，Google發布了一款名為Veo的多模態（英語：Multimodality）影片生成模型。^[1]根據官方說法，該模型能夠生成超過一分鐘長的1080p 高清影片。^[1]同年12月，Google推出Veo 2，透過VideoFX平台提供使用。該版本支援4K解像度影片生成，並具備更精確的物理理解能力。 ^[2]

2025年4月，Google宣布Veo 2開始在Gemini上提供給進階使用者使用。^[3]^[4]同年5月，Google發布Veo 3，不僅能生成影片，亦可產生與畫面同步的音訊，包括對白、音效與環境音。^[5]^[6]Google 並同時推出名為 Flow 的影片創作工具，該工具結合Veo與Imagen技術驅動。^[7]

Veo 3的一項重要創新，在於能生成與影片高度契合的音樂與語音。^[8]Google DeepMind執行長傑米斯·哈薩比斯表示，此次發表標誌着 AI 影片生成正式走出「無聲電影時代」。^[8]

Remove ads

反映

科技媒體Gizmodo的記者在Veo 3發布後指出，部分使用者傾向生成品質較低的內容，例如街頭訪問或開箱影片。^[9]另有評論指出，該模型在面對不同提示時，經常重複相同的笑點。^[10]

評論者推測Google可能使用YouTube影片^[11]或Reddit貼文作為模型訓練資料。^[10]不過Google官方未明確說明其訓練素材的來源。^[11]

參考資料

Loading content...

外部連結

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads