热门问题
时间线
聊天
视角

OpenAI o1

由OpenAI开发的基于转换器的生成式预训练模型 来自维基百科,自由的百科全书

Remove ads

OpenAI o1是一个基于转换器的生成式预训练模型。2024年9月12日,OpenAI发布了o1的预览版,完整版本于2024年12月5日发布。[1] o1在回答问题之前会进行“思考”,使得它在处理复杂的任务、科学和编程方面比GPT-4o更优秀。[2]

事实速览 開發者, 首次发布 ...

历史

背景

据泄露的信息显示,o1以前在OpenAI内部被称为“Q*”,后来更名为“草莓”。[3] 代号“Q*”于2023年11月首次披露,大约是在萨姆·阿尔特曼被罢免并随后复职的时期。据称这个实验模型在数学基准测试方面表现出更加理想的结果。[4]

2024年7月,路透社报道称OpenAI正在开发名为“草莓”的生成式预训练模型。[3]

发布

o1-preview和o1-mini于2024年9月12日面向ChatGPT Plus用户和ChatGPT for Teams用户发布。[2] GitHub在发布当天开始测试将o1-preview集成到Copilot服务中。[5] 2024年12月5日,o1完整版发布。[6] 同一天,ChatGPT Pro订阅服务发布,该订阅服务包括访问o1的专业版,该版本使用更多算力来提供更好的答案。[6]

OpenAI指出,o1是一系列“推理”模型中的第一个。o1-preview的API比GPT-4o贵好几倍。[7] OpenAI计划向免费用户提供o1-mini版模型,但在发布时尚未公布具体时间。[8]

2024年12月20日,OpenAI透露正在测试新版本推理模型OpenAI o3,预计将于1月底推出OpenAI o3-mini。[9][10]

功能

OpenAI称o1使用了一种新的优化算法和专门的数据集进行了训练,同时还将强化学习融入到其训练中。[7] OpenAI形容o1为GPT-4o的增强版。[11][12]

OpenAI-o1在回答问题前会花更多时间思考,这使得它在处理复杂思维任务时更加有效,特别是在科学和数学方面。[2] 与之前的模型相比,o1被训练为可以在输出最终答案之前生成较长的“思路链”。[13][14]米拉·穆拉蒂称,这种先思考后回答的能力代表了一种新的、额外的范例,通过在生成答案前使用更多的算力来改善模型输出,而模型扩展(model scaling paradigm)则通过增加模型大小、训练数据和训练算力来改进输出。[11] OpenAI的测试结果表明,准确率与回答前思考所花费的计算量之间存在相关性。[14][13]

o1-preview在物理、化学和生物相关的基准测试中的表现达到了博士水平。在美国数学邀请赛中,它解决了83%(12.5/15)的问题,而GPT-4o仅解决了13%(1.8/15)。它还在Codeforces编程竞赛中优于89%的参赛者。[15] o1-mini比o1-preview更快且便宜80%,它特别适合编程和理工科相关的任务,但没有o1-preview“广博”。[16]

OpenAI指出,o1的推理能力使其能更好地遵守上下文窗口中提供的安全规则。 OpenAI报告称,在一次测试中o1-preview的一个实例利用错误配置成功完成了一项本无法完成的任务。[17][18] OpenAI还授予美国和英国的人工智能安全研究所早期访问(early access)权限,以进行研究、评估和测试。根据OpenAI的评估,o1-preview和o1-mini在CBRN(生物、化学、放射和核武器)中属于“中等风险”。人工智能安全中心的主任丹·亨德里克斯(Dan Hendrycks)称:“模型在回答与生物武器相关的问题时的表现在大多数时候已经超过了博士科学家”,他表示,“这些令人担忧的能力还将继续增强”。[19]

Remove ads

局限性

o1通常需要比OpenAI的其他GPT模型更多的计算时间和电力,因为它会在做出最终回答前生成长思路链。 [13]

OpenAI表示,o1生成错误回答(fake alignment)的可能性小于0.38%。[20]

OpenAI禁止用户试图透露o1的思路链,该思路链被设计为是隐藏的,并且未经训练以遵守公司政策。用户的输入是受到监控的,有意或无意违反此规定的用户可能会失去对o1的访问权限。OpenAI以人工智能安全性和竞争为由实施了这一限制,而使用大型语言模型(LLM)的开发人员则认为这会导致透明度的丧失。[21]

2024年10月,苹果公司的研究人员提交了一份预印本报告,称o1之类的大型语言模型可能会重复模型自身训练数据中的推理步骤[22]。通过改变数学问题中使用的数字和名称,或者只是再次运行相同的问题,大型语言模型的表现会比其最佳基准的结果差。添加逻辑上的无关信息会导致性能大幅下降,其中o1-preview下降了17.5%,o1-mini下降了29.1%。而已测试的最差的模型则下降了65.7%。[23]

Remove ads

参考资料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads