DeepSeek-V3

DeepSeek V3
開發者	深度求索
首次发布	2024年12月26日，11個月前（2024-12-26）
当前版本	2025年3月24日，8個月前（2025-03-24）
前任	DeepSeek-V2.5-1210
类型	大型语言模型基于转换器的生成式预训练模型基础模型
许可协议	MIT許可證
网站	www.deepseek.com

性能

在性能方面，DeepSeek-V3展現出卓越實力。它不僅超越了Qwen2.5-72B和Llama-3.1-405B等知名開源模型，更在多項測試中與GPT-4和Claude-3.5-Sonnet不相上下。特別是在數學能力測試中，該模型以優異成績超越了所有現有開源和閉源模型。^[2]

最引人注目的是DeepSeek-V3的低成本優勢。根據開源論文和DeepSeek披露，該大模型的訓練系基於2,048塊輝達H800型GPU（針對中國大陸市場的低配版GPU）叢集上執行55天完成；按每GPU小時2美元計算，模型全部訓練成本僅為557.6萬美元，這個數字只有（據估計投資超過5億美元）前者的1%。^[3]

訓練

DeepSeek表示该大模型的训练系基于2,048块英伟达H800型GPU（针对中国大陆市场的低配版GPU）集群上运行55天完成，训练耗资557.6万美元^[4]。

為了提高訓練效率，研究採用了 FP8 混合精度訓練技術並對訓練框架進行了全面優化。低精度訓練作為一種高效率的訓練方案，其發展與硬體效能的提升密切相關。

本研究首次在超大規模模型上，成功驗證了 FP8 混合精度訓練架構的有效性。透過採用 FP8 運算和儲存技術，顯著提升了訓練速度並降低了 GPU 記憶體佔用。^[5]

評測結果

DeepSeek-V3在所有模型中排名第七，在开源模型排第一；而且，DeepSeek-V3是全球前十中性价比最高的模型。^[6]

DeepSeek-V3的评测成绩超越Qwen2.5-72B（阿里自研大模型）和LLaMA 3.1-405B（Meta自研大模型）等开源模型，能与GPT-4o、Claude 3.5-Sonnet（Anthropic自研大模型）等闭源模型相抗衡^[7]。

這款採用MoE（混合專家）架構的模型，不僅在性能上媲美頂級閉源模型，其低成本高效率的特點更是引發業界關注。相較於前代產品，新模型的生成速度提升了3倍，每秒鐘可處理60個token，顯著提升了實際應用效率。

使用

DeepSeek-V3使用MIT协议开源，意味着任何人都可以自由使用该模型，包括商业用途。用户可以在DeepSeek官方网站和App使用官方提供的服务。

DeepSeek-V3上线时提供的API服务优惠定价为每百万输入tokens 0.1元（缓存命中）或1元（缓存未命中），每百万输出tokens 2元。

2025年2月9日，DeepSeek-V3 API服务优惠期结束，价格变为输入token每百万两元，输出token每百万八元，涨幅明显。^[8]

外界反应

DeepSeek-V3發布後，英偉達股價下跌了2%，被指与此模型有关。^[6]^[可疑]

OpenAI創始團隊成員、高級研究科學家Andrej Karpathy表示，DeepSeek僅用了280萬小時的GPU算力，就訓練出了比Llama-3 405B（使用3080萬小時GPU）更強的前沿模型，整體成本節省了11倍左右；這表明，即便在計算力有限的情況下，即使使用高品質的數據模型，更好的演算法同樣能訓練出高性能大模型。^[9]

Scale AI創辦人亞歷山大•王表示，中國領先的大型語言模型實驗室DeepSeek選擇在聖誕節發布其最新型號V3，這項舉措頗具深意。性能與GPT-4o和Claude 3.5 Sonnet不相上下，但訓練所使用的算力資源僅為前者的十分之一。

中國科技界的辛酸教訓是：當美國休息時，中國正在工作，以更低的成本、更快的速度迎頭趕上，變得更強。^[10]

开发

性能

訓練

評測結果

使用

外界反应

版本迭代

参见

参考资料

外部链接

Wikiwand - on