Gemini (語言模型)
From Wikipedia, the free encyclopedia
Remove ads
Google Gemini 係一系列由 Google DeepMind 發展嘅多模態學習 大型語言模型,係 LaMDA 同 PaLM 2 嘅繼承者。家族成員包括 Gemini Ultra、Gemini Pro、Gemini Flash 同 Gemini Nano,喺 2023 年 12 月 6 日公佈,定位為OpenAI 嘅 GPT-4 嘅競爭對手。佢為同名聊天機械人提供動力。
歷史
發展
Google 喺 2023 年 5 月 10 日嘅 Google I/O 主題演講中宣佈由子公司 Google DeepMind 發展嘅 大型語言模型 (LLM) Gemini。佢被定位為 PaLM 2 嘅更強繼承者,喺同場活動中亦有公佈,Google CEO Sundar Pichai 表示 Gemini 仍喺早期發展階段。[1][2] 與其他 LLM 不同,Gemini 唔係單靠文本語料庫訓練,而係設計成多模態學習,即可以同時處理多種類型數據,包括文本、圖片、音頻、視頻同源代碼。[3] 佢係 DeepMind 同 Google Brain 合作發展嘅,兩者喺上個月合併為 Google DeepMind。[4] 喺《Wired》嘅訪問中,DeepMind CEO Demis Hassabis 吹捧 Gemini 嘅先進功能,佢相信呢個算法可以超越 OpenAI 嘅 ChatGPT,後者運行喺 GPT-4 上,並且憑借其日益受歡迎而被 Google 以 LaMDA 同 Bard 積極挑戰。Hassabis 強調 DeepMind 嘅 AlphaGo 計劃嘅優勢,2016 年當佢擊敗 圍棋冠軍 李世乭 時,引起全球關注,表示 Gemini 將結合 AlphaGo 同其他 Google–DeepMind LLMs 嘅力量。[5]
2023 年 8 月,《The Information》發佈一份報告,概述 Google 嘅 Gemini 路線圖,透露公司目標喺 2023 年底推出。根據報告,Google 希望通過結合大多數 LLMs 中嘅對話文本能力同 人工智能 驅動嘅圖像生成,超越 OpenAI 同其他競爭對手,使佢能夠創建上下文圖片,並適應更廣泛嘅使用情景。[6] 同 Bard 一樣,[7] Google 聯合創辦人 Sergey Brin 被召回出山協助發展 Gemini,同時仲有數百名來自 Google Brain 同 DeepMind 嘅工程師;[6][8] 佢後來被認為係 Gemini 嘅「核心貢獻者」。[9] 因為 Gemini 喺訓練過程中使用咗 YouTube 視頻嘅文字記錄,律師被引入過濾出任何潛在受版權保護嘅材料。[6]
隨著 Gemini 即將推出嘅消息,OpenAI 加快咗其將 GPT-4 同類似 Gemini 嘅多模態功能集成嘅工作。[10] 《The Information》喺九月報導幾家公司已經獲得「早期版本」LLM 嘅早期訪問權限,Google 計劃通過 Google Cloud 嘅 Vertex AI 服務提供畀客戶。該刊物亦指出,Google 正準備 Gemini 同 GPT-4 及 Microsoft 嘅 GitHub Copilot 競爭。[11][12]
發佈
2023 年 12 月 6 日,Pichai 同 Hassabis 喺一場虛擬新聞發佈會上宣佈「Gemini 1.0」。[13][14] 佢包括三個模型:Gemini Ultra,設計用於「高度複雜嘅任務」;Gemini Pro,設計用於「廣泛嘅任務」;同 Gemini Nano,設計用於「設備上嘅任務」。喺發佈時,Gemini Pro 同 Nano 被整合到 Bard 同 Pixel 8 Pro 智能手機中,而 Gemini Ultra 將為「Bard Advanced」提供動力,並喺 2024 年初提供畀軟件開發者。Google 計劃將 Gemini 整合到嘅其他產品包括 搜尋、廣告、Chrome、Google Workspace 嘅 Duet AI 同 AlphaCode 2。[15][14] 佢目前僅支持英文。[14][16] Google 宣佈 Gemini 係其「最大同最強大嘅 AI 模型」,設計模仿人類行為,[17][14][18] 公司表示,由於需要「廣泛嘅安全測試」,Gemini 唔會喺翌年之前廣泛供應。[13] Gemini 喺 Google 嘅 張量處理單元 (TPUs) 上進行訓練同提供動力,[13][16] 呢個名稱係參考 DeepMind–Google Brain 合併同 NASA 嘅 雙子座計劃。[19]
Gemini Ultra 被認為喺多個行業基準測試中表現優於 GPT-4、Anthropic 嘅 Claude 2、Inflection AI 嘅 Inflection-2、Meta 嘅 LLaMA 2 同 xAI 嘅 Grok 1,[20][21] 而 Gemini Pro 被認為優於 GPT-3.5。[22] Gemini Ultra 亦係首個喺 57 科目 大規模多任務語言理解 (MMLU) 測試中超越人類專家嘅語言模型,獲得 90% 嘅分數。[22][23] Gemini Pro 喺 12 月 13 日向 Google Cloud 客戶嘅 AI Studio 同 Vertex AI 提供,而 Gemini Nano 亦將提供畀 Android 開發者。[24][25]
架構
Google Gemini 係一個多模態學習模型,即能夠同時處理文本、圖片、音頻、視頻同源代碼。[22] 根據 Google,佢包含多層深度學習神經網絡,可以模仿人類嘅自然語言理解同生成能力。佢嘅核心架構係基於Transformer,一種被證明非常有效嘅深度學習模型架構。
應用
Google 計劃將 Gemini 整合到其多個產品中,包括搜尋、廣告、Chrome、Google Workspace 嘅 Duet AI 同 AlphaCode 2。[26][27] Gemini 嘅多模態能力亦使佢適合用於圖像生成、視頻理解同編碼建議等各種應用。Google 表示,佢哋會繼續優化 Gemini 嘅性能同擴展其應用範圍。
競爭
作為一個先進嘅大型語言模型,Gemini 面臨來自多個競爭對手嘅挑戰,包括 OpenAI 嘅 GPT-4、Anthropic 嘅 Claude 2、Inflection AI 嘅 Inflection-2、Meta 嘅 LLaMA 2 同 xAI 嘅 Grok 1。[20][21] 然而,Google 對 Gemini 嘅前景充滿信心,相信佢嘅多模態能力同強大性能可以使佢喺市場上脫穎而出。
更新
Google 喺 2024 年 1 月同 三星 合作,將 Gemini Nano 同 Gemini Pro 整合到其 Galaxy S24 智能手機系列中。[28][29] 喺嗰個月嘅之後,Bard 同 Duet AI 喺 Gemini 品牌下統一,[30][31] 並喺 Google One 訂閱服務中推出新嘅 "AI Premium" 層級,帶嚟 "Gemini Advanced with Ultra 1.0"。[32] Gemini Pro 亦都進行全球發布。[33]
到咗 2 月,Google 喺有限容量嘅情況下推出 "Gemini 1.5",呢個版本比 1.0 Ultra 更加強大同高效。[34][35][36] 呢個 "step change" 係通過多種技術進步實現嘅,包括新嘅架構、mixture-of-experts 方法,同埋一個更大嘅一百萬個 token 嘅context window,呢個大約相當於一個鐘嘅靜音視頻、11 個鐘嘅音頻、30,000 行代碼或者 700,000 字。[37] 喺同一個月,Google 推出咗 Gemma,一個家族嘅 free and open-source LLMs,作為 Gemini 嘅輕量版本。佢哋有兩個尺寸,分別係包含兩億同七億參數嘅神經網絡。多個出版物視呢個作為回應 Meta 同其他人開源佢哋嘅 AI 模型,以及與 Google 一貫保持 AI 專有權嘅做法形成鮮明對比嘅重大轉變。[38][39][40]
喺 Google I/O 2024 上,Gemini 1.5 Flash 發布咗。[41]
Remove ads
技術規格
第一代嘅 Gemini("Gemini 1")有三個模型,佢哋有相同嘅軟件架構。佢哋係只解碼嘅transformers,經過修改可以高效喺 TPU 上進行訓練同推理。佢哋有 32,768 個 token 嘅上下文長度,採用多重查詢注意力。兩個版本嘅 Gemini Nano,Nano-1(18 億參數)同 Nano-2(32.5 億參數),係由更大嘅 Gemini 模型蒸餾出嚟,設計畀邊緣設備例如智能手機使用。由於 Gemini 係多模態嘅,每個上下文窗口可以包含多種形式嘅輸入。唔同嘅模式可以交錯出現,唔需要按固定嘅順序展示,從而實現多模態對話。例如,用戶可以用混合文本、圖片、視頻同音頻開啟對話,並以任何順序展示,而 Gemini 亦可以以自由排序回應。
輸入圖片可以有唔同嘅解像度,而視頻則以一系列圖片輸入。音頻以 16 kHz 取樣,然後通過通用語音模型轉換成一系列嘅 token。Gemini 嘅數據集係多模態同多語言嘅,包括「網頁文檔、書籍同代碼,並包括圖片、音頻同視頻數據」。[42]
Demis Hassabis 聲稱訓練 Gemini 1 用咗「大約同 GPT-4 傳聞所需嘅計算量差唔多,甚至可能稍多」。[43]
第二代嘅 Gemini("Gemini 1.5")目前已發布兩個模型:[44]
Remove ads
反響
Template:見亦 Gemini 嘅推出喺幾個月嘅激烈揣測同期待之後進行,呢種情況被 MIT Technology Review 形容為「人工智能 hype 嘅巔峰」。[46][47] 喺 2023 年 8 月,研究公司 SemiAnalysis 嘅 Dylan Patel 同 Daniel Nishball 寫咗篇博客文章,宣稱 Gemini 嘅推出會「吞噬世界」,並且超越 GPT-4,促使 OpenAI CEO Sam Altman 喺X(之前叫 Twitter)嘲笑呢對二人。[48][49] 共同創辦 OpenAI 嘅商業大亨 Elon Musk 亦加入討論,問道:「數字錯咗咩?」[50] Business Insider 嘅 Hugh Langley 評論話,Gemini 會係 Google 嘅「生死關頭」,佢寫道:「如果 Gemini 令人驚艷,佢會幫助 Google 改變被 Microsoft 同 OpenAI 陰影所困嘅敘事。如果失望,將會鼓舞批評者話 Google 已經落後。」[51]
對於 2023 年 12 月 Gemini 嘅揭幕,華盛頓大學嘅名譽教授 Oren Etzioni 預測 Google 同 OpenAI 之間會有一場「針鋒相對嘅軍備競賽」。加州大學伯克利分校嘅 Alexei Efros 教授讚揚了 Gemini 嘅多模態方法嘅潛力,[19] 同時 聖塔菲研究所嘅科學家 Melanie Mitchell 稱 Gemini 為「非常複雜」。華盛頓大學嘅 Chirag Shah 教授則較少印象深刻,將 Gemini 嘅推出比擬為Apple 每年推出新 iPhone嘅常規操作。同樣地,斯坦福大學嘅 Percy Liang、華盛頓大學嘅 Emily Bender 同 高威大學嘅 Michael Madden 都警告話,冇了解訓練數據嘅情況下,解讀基準分數係困難嘅。[46][52] 為 Fast Company 撰文嘅 Mark Sullivan 認為 Google 有機會挑戰 iPhone 嘅主導市場份額,佢相信 Apple 可能冇能力開發類似 Gemini 嘅功能,特別係Siri 虛擬助手。[53] Gemini 推出嘅第二日,Google 嘅股價上升咗 5.3% 。[54][55]
Google 因為一段經過編輯嘅 Gemini 示範影片而受到批評,該影片唔係即時錄製嘅。[56]
參見
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads