热门问题
时间线
聊天
视角
Gemini (语言模型)
語言模型 来自维基百科,自由的百科全书
Remove ads
Gemini是一个多模态大型语言模型系列,由谷歌DeepMind开发,是LaMDA的后继,属于PaLM 2系列的新一代。Gemini包含Gemini Ultra、Gemini Pro、Gemini Flash和Gemini Nano,于2023年12月6日面世,被定位为与OpenAI的GPT-4抗衡的产品系列。[1][2][3]
此条目可参照英语维基百科相应条目来扩充。 |
Remove ads
历史
Google在2023年5月10日的Google I/O上发布了Gemini,这是一个由其子公司Google DeepMind开发的大型语言模型。它被定位为PaLM 2更强大的继任者,PaLM 2也在该活动中亮相。Google CEO桑达尔·皮查伊表示,Gemini当时仍处于早期开发阶段。[4][5]与其他大型语言模型不同,Gemini的独特之处在于它并非仅在文本语料库上进行训练,而是从一开始就被设计为多模态模型,这意味着它可以同时处理多种类型的数据,包括文本、图像、音频、视频和代码。[6]该模型由DeepMind和Google Brain合作开发,这两个Google的分支已于前一个月合并为Google DeepMind。[7]在接受《连线》杂志采访时,DeepMind的CEO杰米斯·哈萨比斯宣传了Gemini的先进能力,他相信该算法将胜过OpenAI的ChatGPT(其基于GPT-4运行)。哈萨比斯强调了DeepMind的AlphaGo项目的优势——该项目在2016年击败围棋世界冠军李世乭而举世闻名,并表示Gemini将结合AlphaGo及其他Google-DeepMind大型语言模型的能力。[8]
Remove ads
2023年12月6日,谷歌在一次虚拟记者招待会上宣布推出了“Gemini 1.0”。[1]它由三个模型组成:Gemini Ultra—用于“高度复杂的任务”,Gemini Pro—用于“广泛的任务”, 以及Gemini Nano—用于“终端上设备的任务”。 在发布时,Gemini Pro和Gemini Nano分别被整合到Bard(后来更名为Gemini)和Pixel 8 Pro智慧型手机中,而Gemini Ultra则计划在2024年初用于“Bard Advanced”服务并向开发者提供。Google亦计划将Gemini整合到其他产品中,包括搜索、广告、Chrome、Google Workspace的Duet AI以及AlphaCode 2。[3][2] 2024年2月5日,APP正式上线。
模型版本
下表列出了Gemini的主要模型版本,描述了每个版本所包含的重大变更:[9][10]
Remove ads
技术规格
由于Gemini是多模态模型,每个上下文窗口都可以包含多种形式的输入。不同的模态可以交错出现,无需按固定顺序呈现,从而实现多模态对话。例如,用户可以用任意顺序混合文本、图片、视频和音频来开启对话,Gemini也可能以同样自由的顺序进行回复。输入图像可以是不同的分辨率,而视频则作为图像序列输入。音频以16kHz的频率进行采样,然后由通用语音模型(Universal Speech Model)转换为tokens序列。Gemini的数据集是多模态和多语言的,由“网页文档、书籍和代码组成,并包含图像、音频和视频数据”。[18]
Gemini和Gemma模型是仅解码器的Transformer,并经过修改以允许在TPU上进行高效的训练和推理。1.0代的模型使用了多查询注意力(multi-query attention)。[18]
Google未发布Gemini 2.0和Gemini 2.5的技术白皮书。
Remove ads
外界反响
Gemini的发布经历了长达数月的市场猜测和高度期待,被《麻省理工科技评论》形容为“AI炒作的顶峰”。[21][22] 2023年8月,研究公司SemiAnalysis的分析师迪伦·帕特尔(Dylan Patel)和丹尼尔·尼什尔(Daniel Nishball)发表博文,宣称Gemini的发布将“吞噬世界”并超越GPT-4,此举引发了OpenAI CEO萨姆·阿尔特曼在X(原Twitter)上的嘲讽。[23][24] 商业巨头、OpenAI的联合创始人埃隆·马斯克也参与讨论,并问道:“是数字错了吗?”[25]《商业内幕》的休·兰利(Hugh Langley)评论说,Gemini对谷歌而言是一个成败的关键时刻,他写道:“如果Gemini表现出色,将有助于谷歌改变其被微软和OpenAI抢占先机的叙事。如果它令人失望,那么批评者会更大胆地宣称谷歌已经落后了。”[26]
在2023年12月Gemini发布后,华盛顿大学名誉教授奥伦·埃齐IONI预言,谷歌与OpenAI之间将展开一场“针锋相对的军备竞赛”。[27] 加州大学柏克莱分校的教授阿列克谢·埃弗罗斯赞扬了Gemini多模态方法的潜力,[28]而圣菲研究所的科学家米兰妮·米歇尔则称其“非常复杂”。并非所有人都印象深刻,华盛顿大学的奇拉格·沙阿(Chirag Shah)教授将这次发布比作苹果公司推出新款iPhone一样的例行公事。同样,斯坦福大学的珀西·梁(Percy Liang)、华盛顿大学的艾米丽·本德尔以及高威大学的迈克尔·马登(Michael Madden)都警告说,在不了解训练数据的情况下,很难解读基准测试的分数。[21][29] 《快公司》的马克·苏利文(Mark Sullivan)认为,谷歌有机会挑战iPhone的主导市场份额,因为他相信苹果公司不太可能利用其Siri虚拟助手开发出与Gemini相媲美的功能。[30] 在Gemini发布后的第二天,谷歌股价上涨了5.3%。[31][32] 在Gemini发布时,谷歌发布了一段令人印象深刻的演示视频,名为“与Gemini的上手体验”,视频展示了模型流畅、实时地响应语音和视觉提示的能力。然而,该视频很快引发了争议,因为谷歌承认这并非一次真实的实时互动录像。批评者指出,视频通过剪辑和后期处理,给用户带来了Gemini拥有极低延迟和强大语音对话能力的误导性印象。根据报道,谷歌澄清该视频是使用了视频录像中的静态图片帧,并结合文本提示词来生成Gemini的回应,而非模型实时理解人类语音和连续的视觉画面。之后,谷歌在视频的YouTube描述中补充说:“为本次演示之目的,我们缩短了延迟并精简了Gemini的输出内容。”[33] Gemini 2.5 Pro实验版在发布后登顶了衡量人类偏好的基准测试LMArena排行榜,显示出强大的性能和输出质量。[34][35] 该模型在评估推理、知识、科学、数学、编码和长上下文性能的各种基准测试中,均取得了顶尖或极具竞争力的结果。[34][36][35][37] 初步评测强调了其相较于旧版本在推理能力和性能上的提升。[37][38] 同时,已发布的基准测试也显示,在某些领域,来自Anthropic、xAI或OpenAI的同期模型仍保持优势。[36][35]
Remove ads
参见
参考资料
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads