热门问题

时间线

聊天

视角

OpenAI o3

大语言模型来自维基百科，自由的百科全书

Remove ads

OpenAI o3是由OpenAI发布的生成式预训练(GPT) 模型。作为截至2025年2月OpenAI最新发布的模型^[1]，OpenAI o3是OpenAI o1的升级版本，它在需要推理的问题上保留了更多的计算和思考时间，提高了回答的准确性和深度。 ^[2] ^[3]

事实速览 開發者, 首次发布 ...

命名

OpenAI之所以采用“o3”这一名称，是为了避免与欧洲电信运营商品牌O2的商标发生冲突。

版本

此代模型正式提供服务的包括两个版本：o3-mini和o3-mini-high^[1]，Open AI o3完整版于2025年4月17日发布。在2024年12月，OpenAI曾邀请安全研究人员进行内部试用。 ^[2] ^[4]2025年1月31日，OpenAI正式向所有ChatGPT用户（包括免费用户）和API用户发布了o3-mini，这也是免费用户首次可以使用的“推理”模型，其特点是在输出回答之前需要一段时间的“思考”。

2025年4月17日，OpenAI发布o4-mini。^[5]

使用限制

尽管o3-mini对所有注册用户开放使用，但目前o3-mini的使用仍然存在很多限制：对于plus用户，o3-mini限制每天150次提问；o3-mini-high限制每周50次提问（此限制未在OpenAI官网中标注，故未来可能会做出改变）。^[6]

特性

OpenAI o3-mini采用类似强化学习的方式，使其在回答之前进行“思考”。OpenAI将其称为“私有思维链（private chain of thought（英语：Chain_of_thought_prompting））”。这种方法使模型能够提前规划推理任务，执行一系列中间推理步骤来协助解决问题，但代价是需要额外的算力和更长的响应时间。^[7]

OpenAI o3、Open AI o3 mini与OpenAI o1的比较

更多信息 测试版, 正式版 ...

在编程、数学和科学等复杂逻辑任务上，o3的表现明显优于o1。^[2] 据OpenAI在其网站上发布的数据，o3在包含网上未公开的专家级科学问题的GPQA Diamond 基准上得分为87.7%，o3-mini(medium)为76.8%，o1则为78.0%。^[1] ^[8]

在评估解决实际GitHub问题能力的软件工程基准SWE-bench Verified中，o3的得分为71.7%，o3-mini(medium)的得分为42.9%，而o1的得分为48.9%。在Codeforces上，o3的Elo分数达到了2727，o3-mini(medium)的分数为2036，而o1的分数为1891。^[1]^[8]

在通用人工智能抽象与推理语料库 (ARC-AGI) 基准测试中，o3的准确率是o1的三倍。该测试用于评估人工智能解决新颖逻辑问题、和技能习得问题的能力。^[2] ^[9]

Remove ads

参考

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads