热门问题
时间线
聊天
视角
Gemini (語言模型)
語言模型 来自维基百科,自由的百科全书
Remove ads
Gemini是一個多模態大型語言模型系列,由谷歌DeepMind開發,是LaMDA的後繼,屬於PaLM 2系列的新一代。Gemini包含Gemini Ultra、Gemini Pro、Gemini Flash和Gemini Nano,於2023年12月6日面世,被定位為與OpenAI的GPT-4抗衡的產品系列。[1][2][3]
![]() | 此條目可參照英語維基百科相應條目來擴充。 |
Remove ads
歷史
Google在2023年5月10日的Google I/O上發布了Gemini,這是一個由其子公司Google DeepMind開發的大型語言模型。它被定位為PaLM 2更強大的繼任者,PaLM 2也在該活動中亮相。Google CEO桑達爾·皮查伊表示,Gemini當時仍處於早期開發階段。[4][5]與其他大型語言模型不同,Gemini的獨特之處在於它並非僅在文本語料庫上進行訓練,而是從一開始就被設計為多模態模型,這意味着它可以同時處理多種類型的數據,包括文本、圖像、音頻、視頻和代碼。[6]該模型由DeepMind和Google Brain合作開發,這兩個Google的分支已於前一個月合併為Google DeepMind。[7]在接受《連線》雜誌採訪時,DeepMind的CEO傑米斯·哈薩比斯宣傳了Gemini的先進能力,他相信該算法將勝過OpenAI的ChatGPT(其基於GPT-4運行)。哈薩比斯強調了DeepMind的AlphaGo項目的優勢——該項目在2016年擊敗圍棋世界冠軍李世乭而舉世聞名,並表示Gemini將結合AlphaGo及其他Google-DeepMind大型語言模型的能力。[8]
Remove ads
2023年12月6日,谷歌在一次虛擬記者招待會上宣布推出了「Gemini 1.0」。[1]它由三個模型組成:Gemini Ultra—用於「高度複雜的任務」,Gemini Pro—用於「廣泛的任務」, 以及Gemini Nano—用於「終端上設備的任務」。 在發布時,Gemini Pro和Gemini Nano分別被整合到Bard(後來更名為Gemini)和Pixel 8 Pro智慧型手機中,而Gemini Ultra則計劃在2024年初用於「Bard Advanced」服務並向開發者提供。Google亦計劃將Gemini整合到其他產品中,包括搜索、廣告、Chrome、Google Workspace的Duet AI以及AlphaCode 2。[3][2] 2024年2月5日,APP正式上線。
模型版本
下表列出了Gemini的主要模型版本,描述了每個版本所包含的重大變更:[9][10]
Remove ads
技術規格
由於Gemini是多模態模型,每個上下文窗口都可以包含多種形式的輸入。不同的模態可以交錯出現,無需按固定順序呈現,從而實現多模態對話。例如,用戶可以用任意順序混合文本、圖片、視頻和音頻來開啟對話,Gemini也可能以同樣自由的順序進行回復。輸入圖像可以是不同的分辨率,而視頻則作為圖像序列輸入。音頻以16kHz的頻率進行採樣,然後由通用語音模型(Universal Speech Model)轉換為tokens序列。Gemini的數據集是多模態和多語言的,由「網頁文檔、書籍和代碼組成,並包含圖像、音頻和視頻數據」。[18]
Gemini和Gemma模型是僅解碼器的Transformer,並經過修改以允許在TPU上進行高效的訓練和推理。1.0代的模型使用了多查詢注意力(multi-query attention)。[18]
Google未發布Gemini 2.0和Gemini 2.5的技術白皮書。
Remove ads
外界反響
Gemini的發布經歷了長達數月的市場猜測和高度期待,被《麻省理工科技評論》形容為「AI炒作的頂峰」。[21][22] 2023年8月,研究公司SemiAnalysis的分析師迪倫·帕特爾(Dylan Patel)和丹尼爾·尼什爾(Daniel Nishball)發表博文,宣稱Gemini的發布將「吞噬世界」並超越GPT-4,此舉引發了OpenAI CEO薩姆·阿爾特曼在X(原Twitter)上的嘲諷。[23][24] 商業巨頭、OpenAI的聯合創始人埃隆·馬斯克也參與討論,並問道:「是數字錯了嗎?」[25]《商業內幕》的休·蘭利(Hugh Langley)評論說,Gemini對谷歌而言是一個成敗的關鍵時刻,他寫道:「如果Gemini表現出色,將有助於谷歌改變其被微軟和OpenAI搶占先機的敘事。如果它令人失望,那麼批評者會更大膽地宣稱谷歌已經落後了。」[26]
在2023年12月Gemini發布後,華盛頓大學名譽教授奧倫·埃齊IONI預言,谷歌與OpenAI之間將展開一場「針鋒相對的軍備競賽」。[27] 加州大學柏克萊分校的教授阿列克謝·埃弗羅斯讚揚了Gemini多模態方法的潛力,[28]而聖菲研究所的科學家米蘭妮·米歇爾則稱其「非常複雜」。並非所有人都印象深刻,華盛頓大學的奇拉格·沙阿(Chirag Shah)教授將這次發布比作蘋果公司推出新款iPhone一樣的例行公事。同樣,斯坦福大學的珀西·梁(Percy Liang)、華盛頓大學的艾米麗·本德爾以及高威大學的邁克爾·馬登(Michael Madden)都警告說,在不了解訓練數據的情況下,很難解讀基準測試的分數。[21][29] 《快公司》的馬克·蘇利文(Mark Sullivan)認為,谷歌有機會挑戰iPhone的主導市場份額,因為他相信蘋果公司不太可能利用其Siri虛擬助手開發出與Gemini相媲美的功能。[30] 在Gemini發布後的第二天,谷歌股價上漲了5.3%。[31][32] 在Gemini發布時,谷歌發布了一段令人印象深刻的演示視頻,名為「與Gemini的上手體驗」,視頻展示了模型流暢、實時地響應語音和視覺提示的能力。然而,該視頻很快引發了爭議,因為谷歌承認這並非一次真實的實時互動錄像。批評者指出,視頻通過剪輯和後期處理,給用戶帶來了Gemini擁有極低延遲和強大語音對話能力的誤導性印象。根據報道,谷歌澄清該視頻是使用了視頻錄像中的靜態圖片幀,並結合文本提示詞來生成Gemini的回應,而非模型實時理解人類語音和連續的視覺畫面。之後,谷歌在視頻的YouTube描述中補充說:「為本次演示之目的,我們縮短了延遲並精簡了Gemini的輸出內容。」[33] Gemini 2.5 Pro實驗版在發布後登頂了衡量人類偏好的基準測試LMArena排行榜,顯示出強大的性能和輸出質量。[34][35] 該模型在評估推理、知識、科學、數學、編碼和長上下文性能的各種基準測試中,均取得了頂尖或極具競爭力的結果。[34][36][35][37] 初步評測強調了其相較於舊版本在推理能力和性能上的提升。[37][38] 同時,已發布的基準測試也顯示,在某些領域,來自Anthropic、xAI或OpenAI的同期模型仍保持優勢。[36][35]
Remove ads
參見
參考資料
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads