热门问题
时间线
聊天
视角

DeepSeek-V3

大语言模型 来自维基百科,自由的百科全书

Remove ads

DeepSeek-V3深度求索于2024年12月16日发布的人工智能大型语言模型,专门适用于数学、编码和中文等任务,性能对标GPT-4o等竞争产品[1]

事实速览 开发者, 首次发布 ...

开发

DeepSeek-V3于2024年12月26日发布。

性能

在性能方面,DeepSeek-V3展现出卓越实力。它不仅超越了Qwen2.5-72B和Llama-3.1-405B等知名开源模型,更在多项测试中与GPT-4和Claude-3.5-Sonnet不相上下。特别是在数学能力测试中,该模型以优异成绩超越了所有现有开源和闭源模型。[2]

最引人注目的是DeepSeek-V3的低成本优势。根据开源论文和DeepSeek披露,该大模型的训练系基于2,048块英伟达H800型GPU(针对中国大陆市场的低配版GPU)集群上执行55天完成;按每GPU小时2美元计算,模型全部训练成本仅为557.6万美元,这个数字只有(据估计投资超过5亿美元)前者的1%。[3]

训练

DeepSeek表示该大模型的训练系基于2,048块英伟达H800型GPU(针对中国大陆市场的低配版GPU)集群上运行55天完成,训练耗资557.6万美元[4]

为了提高训练效率,研究采用了 FP8 混合精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效率的训练方案,其发展与硬件性能的提升密切相关。

本研究首次在超大规模模型上,成功验证了 FP8 混合精度训练架构的有效性。透过采用 FP8 运算和存储技术,显著提升了训练速度并降低了 GPU 存储器占用。[5]

评测结果

DeepSeek-V3在所有模型中排名第七,在开源模型排第一;而且,DeepSeek-V3是全球前十中性价比最高的模型。[6]

DeepSeek-V3的评测成绩超越Qwen2.5-72B(阿里自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等开源模型,能与GPT-4oClaude 3.5-Sonnet(Anthropic自研大模型)等闭源模型相抗衡[7]

这款采用MoE(混合专家)架构的模型,不仅在性能上媲美顶级闭源模型,其低成本高效率的特点更是引发业界关注。相较于前代产品,新模型的生成速度提升了3倍,每秒钟可处理60个token,显著提升了实际应用效率。

使用

DeepSeek-V3使用MIT协议开源,意味着任何人都可以自由使用该模型,包括商业用途。用户可以在DeepSeek官方网站和App使用官方提供的服务。

DeepSeek-V3上线时提供的API服务优惠定价为每百万输入tokens 0.1元(缓存命中)或1元(缓存未命中),每百万输出tokens 2元。

2025年2月9日,DeepSeek-V3 API服务优惠期结束,价格变为输入token每百万两元,输出token每百万八元,涨幅明显。[8]

外界反应

DeepSeek-V3发布后,英伟达股价下跌了2%,被指与此模型有关。[6][可疑]

OpenAI创始团队成员、高级研究科学家Andrej Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3 405B(使用3080万小时GPU)更强的前沿模型,整体成本节省了11倍左右;这表明,即便在计算力有限的情况下,即使使用高质量的数据模型,更好的算法同样能训练出高性能大模型。[9]

Scale AI创办人亚历山大•王表示,中国领先的大型语言模型实验室DeepSeek选择在圣诞节发布其最新型号V3,这项举措颇具深意。性能与GPT-4o和Claude 3.5 Sonnet不相上下,但训练所使用的算力资源仅为前者的十分之一。

中国科技界的辛酸教训是:当美国休息时,中国正在工作,以更低的成本、更快的速度迎头赶上,变得更强。[10]

版本迭代

2025年3月24日,DeepSeek V3发布版本更新V3-0324。

据报道,该版本在所有基准测试中都有明显进步,尤其以编程能力提升为一大亮点,可能为迄今最强大的非推理模型。[11]

参见

参考资料

外部链接

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads