Gemini (語言模型)

Google Gemini

開發者	Google DeepMind Google AI
初始版本	2023年12月6號，19個月之前 (2023-12-06)
話	English
軟件類別	Large language model
許可協議	Proprietary
網站	gemini.google.com

發展

Google CEO Sundar Pichai (L) 同 DeepMind CEO Demis Hassabis (R) 帶領發展 Gemini。

Google 喺 2023 年 5 月 10 日嘅 Google I/O 主題演講中宣佈由子公司 Google DeepMind 發展嘅大型語言模型 (LLM) Gemini。佢被定位為 PaLM 2 嘅更強繼承者，喺同場活動中亦有公佈，Google CEO Sundar Pichai 表示 Gemini 仍喺早期發展階段。^[1]^[2] 與其他 LLM 不同，Gemini 唔係單靠文本語料庫訓練，而係設計成多模態學習，即可以同時處理多種類型數據，包括文本、圖片、音頻、視頻同源代碼。^[3] 佢係 DeepMind 同 Google Brain 合作發展嘅，兩者喺上個月合併為 Google DeepMind。^[4] 喺《Wired》嘅訪問中，DeepMind CEO Demis Hassabis 吹捧 Gemini 嘅先進功能，佢相信呢個算法可以超越 OpenAI 嘅 ChatGPT，後者運行喺 GPT-4 上，並且憑借其日益受歡迎而被 Google 以 LaMDA 同 Bard 積極挑戰。Hassabis 強調 DeepMind 嘅 AlphaGo 計劃嘅優勢，2016 年當佢擊敗圍棋冠軍李世乭時，引起全球關注，表示 Gemini 將結合 AlphaGo 同其他 Google–DeepMind LLMs 嘅力量。^[5]

2023 年 8 月，《The Information》發佈一份報告，概述 Google 嘅 Gemini 路線圖，透露公司目標喺 2023 年底推出。根據報告，Google 希望通過結合大多數 LLMs 中嘅對話文本能力同人工智能驅動嘅圖像生成，超越 OpenAI 同其他競爭對手，使佢能夠創建上下文圖片，並適應更廣泛嘅使用情景。^[6] 同 Bard 一樣，^[7] Google 聯合創辦人 Sergey Brin 被召回出山協助發展 Gemini，同時仲有數百名來自 Google Brain 同 DeepMind 嘅工程師；^[6]^[8] 佢後來被認為係 Gemini 嘅「核心貢獻者」。^[9] 因為 Gemini 喺訓練過程中使用咗 YouTube 視頻嘅文字記錄，律師被引入過濾出任何潛在受版權保護嘅材料。^[6]

隨著 Gemini 即將推出嘅消息，OpenAI 加快咗其將 GPT-4 同類似 Gemini 嘅多模態功能集成嘅工作。^[10] 《The Information》喺九月報導幾家公司已經獲得「早期版本」LLM 嘅早期訪問權限，Google 計劃通過 Google Cloud 嘅 Vertex AI 服務提供畀客戶。該刊物亦指出，Google 正準備 Gemini 同 GPT-4 及 Microsoft 嘅 GitHub Copilot 競爭。^[11]^[12]

發佈

2023 年 12 月 6 日，Pichai 同 Hassabis 喺一場虛擬新聞發佈會上宣佈「Gemini 1.0」。^[13]^[14] 佢包括三個模型：Gemini Ultra，設計用於「高度複雜嘅任務」；Gemini Pro，設計用於「廣泛嘅任務」；同 Gemini Nano，設計用於「設備上嘅任務」。喺發佈時，Gemini Pro 同 Nano 被整合到 Bard 同 Pixel 8 Pro 智能手機中，而 Gemini Ultra 將為「Bard Advanced」提供動力，並喺 2024 年初提供畀軟件開發者。Google 計劃將 Gemini 整合到嘅其他產品包括搜尋、廣告、Chrome、Google Workspace 嘅 Duet AI 同 AlphaCode 2。^[15]^[14] 佢目前僅支持英文。^[14]^[16] Google 宣佈 Gemini 係其「最大同最強大嘅 AI 模型」，設計模仿人類行為，^[17]^[14]^[18] 公司表示，由於需要「廣泛嘅安全測試」，Gemini 唔會喺翌年之前廣泛供應。^[13] Gemini 喺 Google 嘅張量處理單元 (TPUs) 上進行訓練同提供動力，^[13]^[16] 呢個名稱係參考 DeepMind–Google Brain 合併同 NASA 嘅雙子座計劃。^[19]

Gemini Ultra 被認為喺多個行業基準測試中表現優於 GPT-4、Anthropic 嘅 Claude 2、Inflection AI 嘅 Inflection-2、Meta 嘅 LLaMA 2 同 xAI 嘅 Grok 1，^[20]^[21] 而 Gemini Pro 被認為優於 GPT-3.5。^[22] Gemini Ultra 亦係首個喺 57 科目大規模多任務語言理解 (MMLU) 測試中超越人類專家嘅語言模型，獲得 90% 嘅分數。^[22]^[23] Gemini Pro 喺 12 月 13 日向 Google Cloud 客戶嘅 AI Studio 同 Vertex AI 提供，而 Gemini Nano 亦將提供畀 Android 開發者。^[24]^[25]

架構

Google Gemini 係一個多模態學習模型，即能夠同時處理文本、圖片、音頻、視頻同源代碼。^[22] 根據 Google，佢包含多層深度學習神經網絡，可以模仿人類嘅自然語言理解同生成能力。佢嘅核心架構係基於Transformer，一種被證明非常有效嘅深度學習模型架構。

應用

Google 計劃將 Gemini 整合到其多個產品中，包括搜尋、廣告、Chrome、Google Workspace 嘅 Duet AI 同 AlphaCode 2。^[26]^[27] Gemini 嘅多模態能力亦使佢適合用於圖像生成、視頻理解同編碼建議等各種應用。Google 表示，佢哋會繼續優化 Gemini 嘅性能同擴展其應用範圍。

競爭

作為一個先進嘅大型語言模型，Gemini 面臨來自多個競爭對手嘅挑戰，包括 OpenAI 嘅 GPT-4、Anthropic 嘅 Claude 2、Inflection AI 嘅 Inflection-2、Meta 嘅 LLaMA 2 同 xAI 嘅 Grok 1。^[20]^[21] 然而，Google 對 Gemini 嘅前景充滿信心，相信佢嘅多模態能力同強大性能可以使佢喺市場上脫穎而出。

更新

Google 喺 2024 年 1 月同三星合作，將 Gemini Nano 同 Gemini Pro 整合到其 Galaxy S24 智能手機系列中。^[28]^[29] 喺嗰個月嘅之後，Bard 同 Duet AI 喺 Gemini 品牌下統一，^[30]^[31] 並喺 Google One 訂閱服務中推出新嘅 "AI Premium" 層級，帶嚟 "Gemini Advanced with Ultra 1.0"。^[32] Gemini Pro 亦都進行全球發布。^[33]

到咗 2 月，Google 喺有限容量嘅情況下推出 "Gemini 1.5"，呢個版本比 1.0 Ultra 更加強大同高效。^[34]^[35]^[36] 呢個 "step change" 係通過多種技術進步實現嘅，包括新嘅架構、mixture-of-experts 方法，同埋一個更大嘅一百萬個 token 嘅context window，呢個大約相當於一個鐘嘅靜音視頻、11 個鐘嘅音頻、30,000 行代碼或者 700,000 字。^[37] 喺同一個月，Google 推出咗 Gemma，一個家族嘅 free and open-source LLMs，作為 Gemini 嘅輕量版本。佢哋有兩個尺寸，分別係包含兩億同七億參數嘅神經網絡。多個出版物視呢個作為回應 Meta 同其他人開源佢哋嘅 AI 模型，以及與 Google 一貫保持 AI 專有權嘅做法形成鮮明對比嘅重大轉變。^[38]^[39]^[40]

喺 Google I/O 2024 上，Gemini 1.5 Flash 發布咗。^[41]

Template:見亦 Gemini 嘅推出喺幾個月嘅激烈揣測同期待之後進行，呢種情況被 MIT Technology Review 形容為「人工智能 hype 嘅巔峰」。^[46]^[47] 喺 2023 年 8 月，研究公司 SemiAnalysis 嘅 Dylan Patel 同 Daniel Nishball 寫咗篇博客文章，宣稱 Gemini 嘅推出會「吞噬世界」，並且超越 GPT-4，促使 OpenAI CEO Sam Altman 喺X（之前叫 Twitter）嘲笑呢對二人。^[48]^[49] 共同創辦 OpenAI 嘅商業大亨 Elon Musk 亦加入討論，問道：「數字錯咗咩？」^[50] Business Insider 嘅 Hugh Langley 評論話，Gemini 會係 Google 嘅「生死關頭」，佢寫道：「如果 Gemini 令人驚艷，佢會幫助 Google 改變被 Microsoft 同 OpenAI 陰影所困嘅敘事。如果失望，將會鼓舞批評者話 Google 已經落後。」^[51]

對於 2023 年 12 月 Gemini 嘅揭幕，華盛頓大學嘅名譽教授 Oren Etzioni 預測 Google 同 OpenAI 之間會有一場「針鋒相對嘅軍備競賽」。加州大學伯克利分校嘅 Alexei Efros 教授讚揚了 Gemini 嘅多模態方法嘅潛力，^[19] 同時聖塔菲研究所嘅科學家 Melanie Mitchell 稱 Gemini 為「非常複雜」。華盛頓大學嘅 Chirag Shah 教授則較少印象深刻，將 Gemini 嘅推出比擬為Apple 每年推出新 iPhone嘅常規操作。同樣地，斯坦福大學嘅 Percy Liang、華盛頓大學嘅 Emily Bender 同高威大學嘅 Michael Madden 都警告話，冇了解訓練數據嘅情況下，解讀基準分數係困難嘅。^[46]^[52] 為 Fast Company 撰文嘅 Mark Sullivan 認為 Google 有機會挑戰 iPhone 嘅主導市場份額，佢相信 Apple 可能冇能力開發類似 Gemini 嘅功能，特別係Siri 虛擬助手。^[53] Gemini 推出嘅第二日，Google 嘅股價上升咗 5.3% 。^[54]^[55]

Google 因為一段經過編輯嘅 Gemini 示範影片而受到批評，該影片唔係即時錄製嘅。^[56]

Gemini (語言模型)

歷史

發展

發佈

架構

應用

競爭

更新

技術規格

反響

參見

參考資料

Wikiwand - on