热门问题
时间线
聊天
视角

DeepSeek-R1

大語言模型 来自维基百科,自由的百科全书

Remove ads

DeepSeek-R1深度求索(DeepSeek)于2025年1月20日发布的人工智能大型语言模型,专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1[1]

事实速览 开发者, 首次发布 ...

开发

事实速览 开发者, 首次发布 ...

DeepSeek-R1-Lite是深度求索于2024年11月20日发布的人工智能大型语言模型,是深度求索第一个推理模型。

训练

DeepSeek-R1的论文中没有公布其训练成本等细节。[2]

不过此前的论文中,DeepSeek透露其训练使用的是英伟达因为美国出口管制而针对中国市场特供的低配版GPU H800,训练成本为557.6万美元,远低于类似西方公司的闭源模型。[1][3][4]

外界预估R1的训练成本也不会比DeepSeek-V3高多少,或在600万美元上下。[5]

特点

DeepSeek-R1-Lite专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1。DeepSeek-R1-Lite是Deepseek R1的预览版。[6]

DeepSeek称该模型用了强化学习训练,并为用户展现了 o1 没有公开的完整思考过程。

Deepseek R1 Lite在回答问题前会花更多时间思考,因此准确度会增强。Deepseek的测试结果表明,在数学竞赛上的得分与测验所允许思考的长度紧密相关,而模型思维炼长度增加展现了更高的效率。[6]

DeepSeek-R1关键特点就是便宜,与OpenAI o1的价格相差极大。DeepSeek-R1上线时提供的API服务定价为每百万输入tokens 1元人民币(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,输出API价格仅仅只有OpenAI o1的3%。[7]

测试成绩

Deepseek-R1-Lite在数学、代码和复杂逻辑推理上,获得媲美 o1-preview 的推理效果。

美国数学邀请赛中,DeepSeek 称,该模型在美国邀请数学考试和 MATH 等既定基准上的表现超过了 OpenAI o1 Preview的水平,在国际数学奥林匹克正确率达到83%,

它还在Codeforces编程竞赛中优于89%的参赛者,但在GPQA Diamond,LiveCodeBench和自然语言解迷中较为逊色。[8]

应用情况

DeepSeek-R1使用MIT协议开源,意味着任何人都可以自由使用该模型,包括商业用途。

用户可以在DeepSeek官方网站和App使用官方提供的服务。

公共服务

中国

2025年2月起,中国多地政府部门相继将DeepSeek接入政务服务系统,用于公文写作、政策解读等方面[9]

2025年2月8日,广东省深圳市龙岗区政务服务和数据管理局就已经在政务外网部署了DeepSeek-R1模型。

2025年2月16日,深圳市正式为全市各区及各部门提供DeepSeek模型应用服务[10];其中,福田区基于DeepSeek开发了首批70名AI“数智员工”[11][12][13]

2025年2月17日,佛山市“江义村智慧乡村平台”于正式接入DeepSeek[14]

2025年2月18日,北京市丰台区在政务云本地部署DeepSeek大模型[9]

香港

香港生成式人工智能研发中心在DeepSeek的基础上,开发HKGAI V1人工智能大语言开源基础模型[15]

HKGAI V1支援粤语、普通话及英语,将DeepSeek本地化、使用香港本地数据[16],全参数微调并持续训练。

HKGAI V1涵盖“港话通”、“港文通”、“港会通”、“港法通”、“港环通”等系统[17][18],当中的“港文通”为生成式人工智能文书辅助应用程序,在超过70个香港政府部门开始试用[19][20]

创新科技及工业局局长孙东表示,期望“港话通”手机版应用程序在2025年内推出[21],并以此提供更有个性化的服务[22]

2025年5月8日,廉政公署向公众展出“深博士”(英语:Dr. Deep),廉署在DeepSeek的基础上开发的人工智能模型[23],可提供廉署资讯及防贪建议[24],未来有机会在廉署的分区办事处、网上或手机使用[25]

其他

沈阳飞机设计研究所在研发新战机的过程中,引入了DeepSeek[26]

多家汽车制造商,包括BMW[27]东风汽车比亚迪广汽零跑[28]本田[29]日产[30],宣布与DeepSeek合作,将其AI系统和中国版汽车结合。

2025年缅甸地震的救援行动中,中国国家紧急语言服务团与北京语言大学团队基于DeepSeek的大模型,研发中缅英互译系统,支援中国国际救援队进行救灾工作[31][32][33],并在未来开源与其他地区使用。

外界反应

1月27日,DeepSeek超越ChatGPT,登顶苹果App Store美国区免费APP下载排行榜。[34]

DeepSeek-R1爆火,引发全球投资者大量抛售人工智能相关股票。1月27日,英伟达美股股价下跌近17%,单日市值蒸发5890亿美元,为美国股市历史上最大。[35][36]

DeepSeek-R1发布后不久,Meta首席执行官马克·扎克伯格就宣布,Meta计划在2025年投入超600亿美元,加大对人工智能的投入。[5]据媒体1月27日报道,Meta成立了四个研究小组,专门研究DeepSeek的模型。[37]其中两个小组研究其开发者如何降低训练和运行DeepSeek的成本,第三个小组研究训练模型可能使用了哪些数据,第四个小组研究基于DeepSeek模型属性重构其LLaMA模型的新技术。[38]

OpenAI表示,其有证据表明DeepSeek使用OpenAI的专有模型来训练自己的开源模型,这违反了OpenAI的服务条款。[39]

Remove ads

现状与替代方案

由于用户量激增,DeepSeek R1曾面临服务器频繁繁忙问题,主要归因可能有多种,包括算力需求、带宽限制及网络攻击。用户可通过本地部署(如Ollama工具)、调用API或使用第三方平台。

参见

参考资料

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads