DeepSeek-R1 - Wikiwand

DeepSeek-R1是深度求索（DeepSeek）於2025年1月20日發布的人工智能大型語言模型，專門適用於數學、編碼和邏輯等任務，性能對標OpenAI o1^[2]。

事实速览 開發者, 首次發布 ...

DeepSeek R1
開發者	深度求索
首次發布	2025年1月20日，10個月前（2025-01-20）
當前版本	1.0.0（2025年4月9日；穩定版本）^[1]
源代碼庫	github.com/deepseek-ai/DeepSeek-R1
前任	DeepSeek-R1-Lite
繼任	DeepSeek-V3.1
類型	大型語言模型基於轉換器的生成式預訓練模型基礎模型
許可協議	MIT
網站	www.deepseek.com

訓練

DeepSeek-R1-Lite是Deepseek R1的預覽版，於2024年11月20日發布。^[3]後於2025年1月20日正式發布發布DeepSeek R1^[4]。

DeepSeek-R1與DeepSeek-R1-Zero^[5]基於DeepSeek-V3-Base，與其共享了相同的架構。而DeepSeek-R1-Distill系列模型則由其他預訓練的開放權重模型（包括LLaMA和Qwen）初始化，然後基於R1生成的合成數據進行微調。^[6]

DeepSeek-R1-Zero的訓練模板

A conversation between User and Assistant. The User asks a question and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer. The reasoning process and answer are enclosed within <think>...</think> and <answer>...</answer> tags, respectively, that is, <think> reasoning process here </think><answer> answer here </answer>. User: prompt^{[註 1]}. Assistant:

^[7]

DeepSeek-R1-Zero僅使用GRPO強化學習進行訓練，未使用SFT。與之前的版本不同，它沒有使用基於模型的獎勵。所有獎勵函數均基於規則。主主要分為兩種類型（其他類型未具體說明）：準確率獎勵和格式獎勵。準確率獎勵用於檢查方框內的答案是否正確（針對數學問題）或代碼是否通過測試（針對編程問題）。格式獎勵用於檢查模型是否將其思維軌跡置於<think>...</think>標籤內。^[6]

DeepSeek-R1的論文中沒有公布其訓練成本等細節。^[8]

不過此前的論文中，深度求索透露其訓練使用的是英偉達因為美國出口管制而針對中國市場特供的低配版GPU H800，訓練成本為557.6萬美元，遠低於類似西方公司的閉源模型。^[2]^[9]^[10]

外界預估R1的訓練成本DeepSeek-V3略高，或在600萬美元上下。^[11]

Remove ads

特點

DeepSeek稱該模型用了強化學習訓練，並為用戶展現了 o1 沒有公開的完整思考過程。

Deepseek R1 Lite在回答問題前會花更多時間思考，因此準確度會增強。Deepseek的測試結果表明，在數學競賽上的得分與測驗所允許思考的長度緊密相關，而模型思維鍊長度增加展現了更高的效率。^[3]

DeepSeek-R1關鍵特點就是便宜，與OpenAI o1的價格相差極大。DeepSeek-R1上線時提供的API服務定價為每百萬輸入tokens 1元人民幣（緩存命中）/4元（緩存未命中），每百萬輸出tokens 16元，輸出API價格僅僅只有OpenAI o1的3%。^[12]

測試成績

Deepseek-R1-Lite在數學、代碼和複雜邏輯推理上，獲得媲美 o1-preview 的推理效果。

在美國數學邀請賽中，DeepSeek 稱，該模型在美國邀請數學考試和 MATH 等既定基準上的表現超過了 OpenAI o1 Preview的水平，在國際數學奧林匹克正確率達到83%，

它還在Codeforces編程競賽中優於89%的參賽者，但在GPQA Diamond，LiveCodeBench和自然語言解謎中較為遜色。^[13]

應用情況

DeepSeek-R1使用MIT協議開源，意味着任何人都可以自由使用該模型，包括商業用途。

用戶可以在DeepSeek官方網站和App使用官方提供的服務。

公共服務

中國

2025年2月起，中國多地政府部門相繼將DeepSeek接入政務服務系統，用於公文寫作、政策解讀等方面^[14]。

2025年2月8日，廣東省深圳市龍崗區政務服務和數據管理局就已經在政務外網部署了DeepSeek-R1模型。

2025年2月16日，深圳市正式為全市各區及各部門提供DeepSeek模型應用服務^[15]；其中，福田區基於DeepSeek開發了首批70名AI「數智員工」^[16]^[17]^[18]。

2025年2月17日，佛山市「江義村智慧鄉村平台」於正式接入DeepSeek^[19]。

2025年2月18日，北京市豐臺區在政務雲本地部署DeepSeek大模型^[14]。

香港

香港生成式人工智能研發中心在DeepSeek的基礎上，開發HKGAI V1人工智能大語言開源基礎模型^[20]。

HKGAI V1支援粵語、普通話及英語，將DeepSeek本地化、使用香港本地數據^[21]，全參數微調，並持續訓練。

HKGAI V1涵蓋「港話通」、「港文通」、「港會通」、「港法通」、「港環通」等系統^[22]^[23]，當中的「港文通」為生成式人工智能文書輔助應用程式，在超過70個香港政府部門開始試用^[24]^[25]。

創新科技及工業局局長孫東表示，期望「港話通」手機版應用程序在2025年內推出^[26]，並以此提供更有個性化的服務^[27]。

2025年5月8日，廉政公署向公衆展出「深博士」(英語：Dr. Deep)，廉署在DeepSeek的基礎上開發的人工智能模型^[28]，可提供廉署資訊及防貪建議^[29]，未來有機會在廉署的分區辦事處、網上或手機使用^[30]。

其他

瀋陽飛機設計研究所在研發新戰機的過程中，引入了DeepSeek^[31]。

多家汽車製造商，包括BMW^[32]、東風汽車、比亞迪、廣汽、零跑^[33]、本田^[34]、日產^[35]，宣佈與DeepSeek合作，將其AI系統和中國版汽車結合。

在2025年緬甸地震的救援行動中，中國國家緊急語言服務團與北京語言大學團隊基於DeepSeek的大模型，研發中緬英互譯系統，支援中國國際救援隊進行救災工作^[36]^[37]^[38]，並在未來開源與其他地區使用。

外界反應

1月27日，DeepSeek超越ChatGPT，登頂蘋果App Store美國區免費APP下載排行榜。^[39]

DeepSeek-R1爆火，引發全球投資者大量拋售人工智能相關股票。1月27日，英偉達美股股價下跌近17%，單日市值蒸發5890億美元，為美國股市歷史上最大。^[40]^[41]

DeepSeek-R1發布後不久，Meta首席執行官馬克·扎克伯格就宣布，Meta計劃在2025年投入超600億美元，加大對人工智能的投入。^[11]據媒體1月27日報道，Meta成立了四個研究小組，專門研究DeepSeek的模型。^[42]其中兩個小組研究其開發者如何降低訓練和運行DeepSeek的成本，第三個小組研究訓練模型可能使用了哪些數據，第四個小組研究基於DeepSeek模型屬性重構其LLaMA模型的新技術。^[43]

OpenAI表示，其有證據表明DeepSeek使用OpenAI的專有模型來訓練自己的開源模型，這違反了OpenAI的服務條款。^[44]在R1的Nature論文釋出的同行評議文件中，DeepSeek-R1的研究人員稱，R1 並沒有使用OpenAI專有模型生成的樣本但同時承認與大多數的生成模型一樣，在訓練過程中不可避免地使用了互聯網上的由其他AI生成樣本^[45]。

現狀與替代方案

由於用戶量激增，DeepSeek R1曾面臨服務器頻繁繁忙問題，主要歸因可能有多種，包括算力需求、帶寬限制及網絡攻擊。用戶可通過本地部署（如Ollama工具）、調用API或使用第三方平台。

參見

OpenAI o1

注釋

[註 1]
prompt在訓練過程中會被具體的推理問題所替換。

參考資料

Loading content...

外部連結

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads