OpenAI o3
大语言模型 来自维基百科,自由的百科全书
OpenAI o3是由OpenAI發布的生成式預訓練(GPT) 模型。作為截至2025年2月OpenAI最新發布的模型[1],OpenAI o3是OpenAI o1的升級版本,它在需要推理的問題上保留了更多的計算和思考時間,提高了回答的準確性和深度。 [2] [3]
命名
OpenAI之所以採用「o3」這一名稱,是為了避免與歐洲電信運營商品牌O2的商標發生衝突。
版本
此代模型正式提供服務的包括兩個版本:o3-mini和o3-mini-high[1],Open AI o3完整版於2025年4月17日發布。在2024年12月,OpenAI曾邀請安全研究人員進行內部試用。 [2] [4]2025年1月31日,OpenAI正式向所有ChatGPT用戶(包括免費用戶)和API用戶發布了o3-mini,這也是免費用戶首次可以使用的「推理」模型,其特點是在輸出回答之前需要一段時間的「思考」。
2025年4月17日,OpenAI發布o4-mini。[5]
儘管o3-mini對所有註冊用戶開放使用,但目前o3-mini的使用仍然存在很多限制:對於plus用戶,o3-mini限制每天150次提問;o3-mini-high限制每周50次提問(此限制未在OpenAI官網中標註,故未來可能會做出改變)。[6]
特性
OpenAI o3-mini採用類似強化學習的方式,使其在回答之前進行「思考」。OpenAI將其稱為「私有思維鏈(private chain of thought)」。這種方法使模型能夠提前規劃推理任務,執行一系列中間推理步驟來協助解決問題,但代價是需要額外的算力和更長的響應時間。[7]
測試版 | 正式版 |
---|---|
o3-mini(low) | |
o3-mini(medium) | o3-mini |
o3-mini(high) | o3-mini-high |
o3 | o3 |
在編程、數學和科學等複雜邏輯任務上,o3的表現明顯優於o1。[2] 據OpenAI在其網站上發布的數據,o3在包含網上未公開的專家級科學問題的GPQA Diamond 基準上得分為87.7%,o3-mini(medium)為76.8%,o1則為78.0%。[1] [8]
在評估解決實際GitHub問題能力的軟件工程基準SWE-bench Verified中,o3的得分為71.7%,o3-mini(medium)的得分為42.9%,而o1的得分為48.9%。在Codeforces上,o3的Elo分數達到了2727,o3-mini(medium)的分數為2036,而o1的分數為1891。[1][8]
在通用人工智能抽象與推理語料庫 (ARC-AGI) 基準測試中,o3的準確率是o1的三倍。該測試用於評估人工智能解決新穎邏輯問題、和技能習得問題的能力。[2] [9]
參考
Wikiwand - on
Seamless Wikipedia browsing. On steroids.