DeepSeek-R1 - Wikiwand

DeepSeek-R1是深度求索（DeepSeek）于2025年1月20日发布的人工智能大型语言模型，专门适用于数学、编码和逻辑等任务，性能对标OpenAI o1^[2]。

事实速览 開發者, 首次发布 ...

DeepSeek R1
開發者	深度求索
首次发布	2025年1月20日，10個月前（2025-01-20）
当前版本	1.0.0（2025年4月9日；穩定版本）^[1]
源代码库	github.com/deepseek-ai/DeepSeek-R1
前任	DeepSeek-R1-Lite
繼任	DeepSeek-V3.1
类型	大型语言模型基于转换器的生成式预训练模型基础模型
许可协议	MIT
网站	www.deepseek.com

訓練

DeepSeek-R1-Lite是Deepseek R1的預覽版，于2024年11月20日发布。^[3]后于2025年1月20日正式发布发布DeepSeek R1^[4]。

DeepSeek-R1与DeepSeek-R1-Zero^[5]基于DeepSeek-V3-Base，与其共享了相同的架构。而DeepSeek-R1-Distill系列模型则由其他预训练的开放权重模型（包括LLaMA和Qwen）初始化，然后基于R1生成的合成数据进行微调。^[6]

DeepSeek-R1-Zero的训练模板

A conversation between User and Assistant. The User asks a question and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer. The reasoning process and answer are enclosed within <think>...</think> and <answer>...</answer> tags, respectively, that is, <think> reasoning process here </think><answer> answer here </answer>. User: prompt^{[註 1]}. Assistant:

^[7]

DeepSeek-R1-Zero仅使用GRPO强化学习进行训练，未使用SFT。与之前的版本不同，它没有使用基于模型的奖励。所有奖励函数均基于规则。主主要分为两种类型（其他类型未具体说明）：准确率奖励和格式奖励。准确率奖励用于检查方框内的答案是否正确（针对数学问题）或代码是否通过测试（针对编程问题）。格式奖励用于检查模型是否将其思维轨迹置于<think>...</think>标签内。^[6]

DeepSeek-R1的论文中没有公布其训练成本等细节。^[8]

不过此前的论文中，深度求索透露其训练使用的是英伟达因为美国出口管制而针对中国市场特供的低配版GPU H800，训练成本为557.6万美元，远低于类似西方公司的闭源模型。^[2]^[9]^[10]

外界预估R1的训练成本DeepSeek-V3略高，或在600万美元上下。^[11]

Remove ads

特點

DeepSeek稱該模型用了強化學習訓練，並為用户展現了 o1 没有公开的完整思考过程。

Deepseek R1 Lite在回答問題前會花更多時間思考，因此準確度會增強。Deepseek的測試結果表明，在數學競賽上的得分與測驗所允許思考的長度緊密相關，而模型思維鍊長度增加展現了更高的效率。^[3]

DeepSeek-R1關鍵特點就是便宜，與OpenAI o1的價格相差極大。DeepSeek-R1上线时提供的API服务定价为每百万输入tokens 1元人民幣（缓存命中）/4元（缓存未命中），每百万输出tokens 16元，输出API价格仅仅只有OpenAI o1的3%。^[12]

測試成績

Deepseek-R1-Lite在數學、代碼和複雜邏輯推理上，獲得媲美 o1-preview 的推理效果。

在美国数学邀请赛中，DeepSeek 稱，該模型在美國邀請數學考試和 MATH 等既定基準上的表現超過了 OpenAI o1 Preview的水平，在國際數學奧林匹克正確率達到83%，

它還在Codeforces編程競賽中優於89%的參賽者，但在GPQA Diamond，LiveCodeBench和自然語言解謎中較為遜色。^[13]

應用情況

DeepSeek-R1使用MIT协议开源，意味着任何人都可以自由使用该模型，包括商业用途。

用户可以在DeepSeek官方网站和App使用官方提供的服务。

公共服务

中國

2025年2月起，中国多地政府部门相继将DeepSeek接入政务服务系统，用于公文写作、政策解读等方面^[14]。

2025年2月8日，广东省深圳市龙岗区政务服务和数据管理局就已经在政务外网部署了DeepSeek-R1模型。

2025年2月16日，深圳市正式为全市各区及各部门提供DeepSeek模型应用服务^[15]；其中，福田区基于DeepSeek开发了首批70名AI“数智员工”^[16]^[17]^[18]。

2025年2月17日，佛山市“江义村智慧乡村平台”于正式接入DeepSeek^[19]。

2025年2月18日，北京市丰台区在政务云本地部署DeepSeek大模型^[14]。

香港

香港生成式人工智能研發中心在DeepSeek的基礎上，開發HKGAI V1人工智能大語言開源基礎模型^[20]。

HKGAI V1支援粵語、普通話及英語，將DeepSeek本地化、使用香港本地數據^[21]，全參數微調，並持續訓練。

HKGAI V1涵蓋「港話通」、「港文通」、「港會通」、「港法通」、「港環通」等系統^[22]^[23]，當中的「港文通」為生成式人工智能文書輔助應用程式，在超過70個香港政府部門開始試用^[24]^[25]。

創新科技及工業局局長孫東表示，期望「港話通」手機版應用程序在2025年内推出^[26]，並以此提供更有個性化的服務^[27]。

2025年5月8日，廉政公署向公衆展出「深博士」(英語：Dr. Deep)，廉署在DeepSeek的基礎上開發的人工智能模型^[28]，可提供廉署資訊及防貪建議^[29]，未來有機會在廉署的分區辦事處、網上或手機使用^[30]。

其他

瀋陽飛機設計研究所在研發新戰機的過程中，引入了DeepSeek^[31]。

多家汽車製造商，包括BMW^[32]、東風汽車、比亞迪、廣汽、零跑^[33]、本田^[34]、日產^[35]，宣佈與DeepSeek合作，將其AI系統和中國版汽車結合。

在2025年緬甸地震的救援行動中，中國國家緊急語言服務團與北京語言大學團隊基於DeepSeek的大模型，研發中緬英互譯系統，支援中國國際救援隊進行救災工作^[36]^[37]^[38]，並在未來開源與其他地區使用。

外界反应

1月27日，DeepSeek超越ChatGPT，登顶苹果App Store美国区免费APP下载排行榜。^[39]

DeepSeek-R1爆火，引发全球投资者大量抛售人工智能相关股票。1月27日，英伟达美股股价下跌近17%，单日市值蒸发5890亿美元，为美国股市历史上最大。^[40]^[41]

DeepSeek-R1发布后不久，Meta首席执行官马克·扎克伯格就宣布，Meta计划在2025年投入超600亿美元，加大对人工智能的投入。^[11]据媒体1月27日报道，Meta成立了四个研究小组，专门研究DeepSeek的模型。^[42]其中两个小组研究其开发者如何降低训练和运行DeepSeek的成本，第三个小组研究训练模型可能使用了哪些数据，第四个小组研究基于DeepSeek模型属性重构其LLaMA模型的新技术。^[43]

OpenAI表示，其有证据表明DeepSeek使用OpenAI的专有模型来训练自己的开源模型，这违反了OpenAI的服务条款。^[44]在R1的Nature论文释出的同行评议文件中，DeepSeek-R1的研究人员称，R1 并没有使用OpenAI专有模型生成的样本但同时承认与大多数的生成模型一样，在训练过程中不可避免地使用了互联网上的由其他AI生成样本^[45]。

现状与替代方案

由于用户量激增，DeepSeek R1曾面临服务器频繁繁忙问题，主要归因可能有多种，包括算力需求、带宽限制及网络攻击。用户可通过本地部署（如Ollama工具）、调用API或使用第三方平台。

参见

OpenAI o1

注释

[註 1]
prompt在训练过程中会被具体的推理问题所替换。

参考资料

Loading content...

外部链接

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads