热门问题
时间线
聊天
视角
推理语言模型
可进行深度或高阶推理的大型语言模型 来自维基百科,自由的百科全书
Remove ads
推理语言模型(英语:Reasoning language model),或称推理大模型或大型推理模型,是一个进阶的大型语言模型,它能经过进一步训练,可以解决多步骤推理任务。推理语言模型在逻辑、数学或程式任务上的表现,一般都比传统的自我回归的大型语言模型更好,具有回溯能力,并使用时间测试计算作为训练范例、参数计数。[1]
历史
Open AI 在2024年9月推出o1-preview,为首个拥有高阶推理能力的大型语言模型.[2] 2024年12月, Open AI 推出 o1 正式版,并宣布推出o3 [3]
推理语言模型发展证明了 Rich Sutton 所说的“惨痛教训”:利用计算的通用方法,往往比依赖特定人类洞察力的方法表现更好。[4] 例如,一些科研团队,如Generative AI Research Lab (GAIR),最初探索了诸如树的遍历和强化学习等复杂技术,试图复制 o1 的能力。然而,正如他们在《o1 复制之旅》论文中所记录的那样,他们发现知识蒸馏——训练一个较小的模型来模仿 o1 的输出——效果出奇地好,这凸显了知识蒸馏的威力。
阿里巴巴在2024年11月,也推出了另一个推理语言模型Qwen。在2024年12月,Google在它的语言模型Gemini中推出深度研究 (Deep Research)功能[5]。2025年1月,深度求索推出Deepseek R1,以更低成本做到如o1一样的推理效果。[6]2025年2月,OpenAI推出OpenAI Deep Research,一种将推理和网路搜寻整合到大型语言模型的工具,允许使用者可以选择执行多步骤推理,以及搜查多个来源的资料合成的复杂研究任务。
Remove ads
参考
参见
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads