GPT-4.1

GPT-4.1
開發者	OpenAI
首次发布	2025年4月14日，51天前（2025-04-14）

概述

三個版本的模型均具備一百萬個token的上下文視窗，知識截至（英语：knowledge cutoff）時間為2024年6月。^[4]

這些模型通過多項基準（英语：Benchmark (computing)）測試。學術類測試包括2024年AIME、GPQA（英语：GPQA）、MMLU（英语：MMLU）。^[4]程式設計能力相關的測試包含SWE-bench（英语：SWE-bench）與SWE-Lancer（英语：SWE-Lancer）。^[4]指令理解能力方面的測試則涵蓋COLLIE（英语：COLLIE）與IFEval（英语：IFEval）。^[4]視覺能力測試包含MMMU（英语：MMMU）（回答圖像相關問題）、MathVista（英语：MathVista）（解決與視覺有關的數學任務）與CharXiv（英语：CharXiv）（解析研究論文中的圖表）。^[4]

在長文本處理方面，OpenAI設計了兩項新的測試：「多輪指涉解析」（英語：multi-round coreference），要求模型找出在GPT-4o產生的模擬長對話中，第i次出現的目標；^[5]以及「圖形遍歷」（英語：Graphwalks），要求模型模擬廣度優先搜尋流程。^[4]

這些模型在工具使用訓練方面也有所加強。OpenAI的技術手冊（英語：OpenAI Cookbook）建議，在授權模型使用工具時，應專門透過tools欄位操作。^[6]此外，模型在理解和執行指令方面也更加精準，使得使用者能更清楚地引導模型行為。^[6]

Remove ads

評價

《The Verge》指出，GPT-4.1的推出代表OpenAI產品發表節奏出現轉變。^[1]HackerNoon（英语：HackerNoon）形容這次發表是「開發者的大勝利」，並表示其功能在某些方面超越了Gemini 2.5 Pro的長上下文處理能力與Claude 3.7 Sonnet的推理表現。^[7]茲維·莫肖維茨（英语：Zvi Mowshowitz）則認為GPT-4.1 mini是「非常實用的模型」，但他也批評OpenAI在安全測試方面投入不足，並表示「對這樣的先例感到不安」。^[8]

另外，兩個研究團隊——一個由牛津大學研究員奧文·埃文斯（英语：Owain Evans）領導，另一個來自AI紅隊新創公司SplxAI（英语：SplxAI）——分別獨立發現GPT-4.1在某些情況下的對齊程度可能低於GPT-4o。^[9]

概述

評價

參考資料

外部連結

Wikiwand - on