DeepSeek-R1 - Wikiwand

DeepSeek-R1是深度求索（DeepSeek）于2025年1月20日发布的人工智能大型语言模型，专门适用于数学、编码和逻辑等任务，性能对标OpenAI o1^[2]。

事实速览 开发者, 首次发布 ...

DeepSeek R1
开发者	深度求索
首次发布	2025年1月20日，10个月前（2025-01-20）
当前版本	1.0.0（2025年4月9日；稳定版本）^[1]
源代码库	github.com/deepseek-ai/DeepSeek-R1
前任	DeepSeek-R1-Lite
继任	DeepSeek-V3.1
类型	大型语言模型基于转换器的生成式预训练模型基础模型
许可协议	MIT
网站	www.deepseek.com

训练

DeepSeek-R1-Lite是Deepseek R1的预览版，于2024年11月20日发布。^[3]后于2025年1月20日正式发布发布DeepSeek R1^[4]。

DeepSeek-R1与DeepSeek-R1-Zero^[5]基于DeepSeek-V3-Base，与其共享了相同的架构。而DeepSeek-R1-Distill系列模型则由其他预训练的开放权重模型（包括LLaMA和Qwen）初始化，然后基于R1生成的合成数据进行微调。^[6]

DeepSeek-R1-Zero的训练模板

A conversation between User and Assistant. The User asks a question and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer. The reasoning process and answer are enclosed within <think>...</think> and <answer>...</answer> tags, respectively, that is, <think> reasoning process here </think><answer> answer here </answer>. User: prompt^{[注 1]}. Assistant:

^[7]

DeepSeek-R1-Zero仅使用GRPO强化学习进行训练，未使用SFT。与之前的版本不同，它没有使用基于模型的奖励。所有奖励函数均基于规则。主主要分为两种类型（其他类型未具体说明）：准确率奖励和格式奖励。准确率奖励用于检查方框内的答案是否正确（针对数学问题）或代码是否通过测试（针对编程问题）。格式奖励用于检查模型是否将其思维轨迹置于<think>...</think>标签内。^[6]

DeepSeek-R1的论文中没有公布其训练成本等细节。^[8]

不过此前的论文中，深度求索透露其训练使用的是英伟达因为美国出口管制而针对中国市场特供的低配版GPU H800，训练成本为557.6万美元，远低于类似西方公司的闭源模型。^[2]^[9]^[10]

外界预估R1的训练成本DeepSeek-V3略高，或在600万美元上下。^[11]

Remove ads

特点

DeepSeek称该模型用了强化学习训练，并为用户展现了 o1 没有公开的完整思考过程。

Deepseek R1 Lite在回答问题前会花更多时间思考，因此准确度会增强。Deepseek的测试结果表明，在数学竞赛上的得分与测验所允许思考的长度紧密相关，而模型思维炼长度增加展现了更高的效率。^[3]

DeepSeek-R1关键特点就是便宜，与OpenAI o1的价格相差极大。DeepSeek-R1上线时提供的API服务定价为每百万输入tokens 1元人民币（缓存命中）/4元（缓存未命中），每百万输出tokens 16元，输出API价格仅仅只有OpenAI o1的3%。^[12]

测试成绩

Deepseek-R1-Lite在数学、代码和复杂逻辑推理上，获得媲美 o1-preview 的推理效果。

在美国数学邀请赛中，DeepSeek 称，该模型在美国邀请数学考试和 MATH 等既定基准上的表现超过了 OpenAI o1 Preview的水平，在国际数学奥林匹克正确率达到83%，

它还在Codeforces编程竞赛中优于89%的参赛者，但在GPQA Diamond，LiveCodeBench和自然语言解谜中较为逊色。^[13]

应用情况

DeepSeek-R1使用MIT协议开源，意味着任何人都可以自由使用该模型，包括商业用途。

用户可以在DeepSeek官方网站和App使用官方提供的服务。

公共服务

中国

2025年2月起，中国多地政府部门相继将DeepSeek接入政务服务系统，用于公文写作、政策解读等方面^[14]。

2025年2月8日，广东省深圳市龙岗区政务服务和数据管理局就已经在政务外网部署了DeepSeek-R1模型。

2025年2月16日，深圳市正式为全市各区及各部门提供DeepSeek模型应用服务^[15]；其中，福田区基于DeepSeek开发了首批70名AI“数智员工”^[16]^[17]^[18]。

2025年2月17日，佛山市“江义村智慧乡村平台”于正式接入DeepSeek^[19]。

2025年2月18日，北京市丰台区在政务云本地部署DeepSeek大模型^[14]。

香港

香港生成式人工智能研发中心在DeepSeek的基础上，开发HKGAI V1人工智能大语言开源基础模型^[20]。

HKGAI V1支援粤语、普通话及英语，将DeepSeek本地化、使用香港本地数据^[21]，全参数微调，并持续训练。

HKGAI V1涵盖“港话通”、“港文通”、“港会通”、“港法通”、“港环通”等系统^[22]^[23]，当中的“港文通”为生成式人工智能文书辅助应用程式，在超过70个香港政府部门开始试用^[24]^[25]。

创新科技及工业局局长孙东表示，期望“港话通”手机版应用程序在2025年内推出^[26]，并以此提供更有个性化的服务^[27]。

2025年5月8日，廉政公署向公众展出“深博士”(英语：Dr. Deep)，廉署在DeepSeek的基础上开发的人工智能模型^[28]，可提供廉署资讯及防贪建议^[29]，未来有机会在廉署的分区办事处、网上或手机使用^[30]。

其他

沈阳飞机设计研究所在研发新战机的过程中，引入了DeepSeek^[31]。

多家汽车制造商，包括BMW^[32]、东风汽车、比亚迪、广汽、零跑^[33]、本田^[34]、日产^[35]，宣布与DeepSeek合作，将其AI系统和中国版汽车结合。

在2025年缅甸地震的救援行动中，中国国家紧急语言服务团与北京语言大学团队基于DeepSeek的大模型，研发中缅英互译系统，支援中国国际救援队进行救灾工作^[36]^[37]^[38]，并在未来开源与其他地区使用。

外界反应

1月27日，DeepSeek超越ChatGPT，登顶苹果App Store美国区免费APP下载排行榜。^[39]

DeepSeek-R1爆火，引发全球投资者大量抛售人工智能相关股票。1月27日，英伟达美股股价下跌近17%，单日市值蒸发5890亿美元，为美国股市历史上最大。^[40]^[41]

DeepSeek-R1发布后不久，Meta首席执行官马克·扎克伯格就宣布，Meta计划在2025年投入超600亿美元，加大对人工智能的投入。^[11]据媒体1月27日报道，Meta成立了四个研究小组，专门研究DeepSeek的模型。^[42]其中两个小组研究其开发者如何降低训练和运行DeepSeek的成本，第三个小组研究训练模型可能使用了哪些数据，第四个小组研究基于DeepSeek模型属性重构其LLaMA模型的新技术。^[43]

OpenAI表示，其有证据表明DeepSeek使用OpenAI的专有模型来训练自己的开源模型，这违反了OpenAI的服务条款。^[44]在R1的Nature论文释出的同行评议文件中，DeepSeek-R1的研究人员称，R1 并没有使用OpenAI专有模型生成的样本但同时承认与大多数的生成模型一样，在训练过程中不可避免地使用了互联网上的由其他AI生成样本^[45]。

现状与替代方案

由于用户量激增，DeepSeek R1曾面临服务器频繁繁忙问题，主要归因可能有多种，包括算力需求、带宽限制及网络攻击。用户可通过本地部署（如Ollama工具）、调用API或使用第三方平台。

参见

OpenAI o1

注释

[注 1]
prompt在训练过程中会被具体的推理问题所替换。

参考资料

Loading content...

外部链接

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads