热门问题
时间线
聊天
视角

DeepSeek-R1

大語言模型 来自维基百科,自由的百科全书

Remove ads

DeepSeek-R1深度求索(DeepSeek)於2025年1月20日發布的人工智慧大型語言模型,專門適用於數學、編碼和邏輯等任務,性能對標OpenAI o1[1]

快速預覽 開發者, 首次發布 ...

開發

快速預覽 開發者, 首次發布 ...

DeepSeek-R1-Lite是深度求索於2024年11月20日發布的人工智慧大型語言模型,是深度求索第一個推理模型。

訓練

DeepSeek-R1的論文中沒有公布其訓練成本等細節。[2]

不過此前的論文中,DeepSeek透露其訓練使用的是英偉達因為美國出口管制而針對中國市場特供的低配版GPU H800,訓練成本為557.6萬美元,遠低於類似西方公司的閉源模型。[1][3][4]

外界預估R1的訓練成本也不會比DeepSeek-V3高多少,或在600萬美元上下。[5]

特點

DeepSeek-R1-Lite專門適用於數學、編碼和邏輯等任務,性能對標OpenAI o1。DeepSeek-R1-Lite是Deepseek R1的預覽版。[6]

DeepSeek稱該模型用了強化學習訓練,並為用戶展現了 o1 沒有公開的完整思考過程。

Deepseek R1 Lite在回答問題前會花更多時間思考,因此準確度會增強。Deepseek的測試結果表明,在數學競賽上的得分與測驗所允許思考的長度緊密相關,而模型思維鍊長度增加展現了更高的效率。[6]

DeepSeek-R1關鍵特點就是便宜,與OpenAI o1的價格相差極大。DeepSeek-R1上線時提供的API服務定價為每百萬輸入tokens 1元人民幣(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,輸出API價格僅僅只有OpenAI o1的3%。[7]

測試成績

Deepseek-R1-Lite在數學、代碼和複雜邏輯推理上,獲得媲美 o1-preview 的推理效果。

美國數學邀請賽中,DeepSeek 稱,該模型在美國邀請數學考試和 MATH 等既定基準上的表現超過了 OpenAI o1 Preview的水平,在國際數學奧林匹克正確率達到83%,

它還在Codeforces編程競賽中優於89%的參賽者,但在GPQA Diamond,LiveCodeBench和自然語言解迷中較為遜色。[8]

應用情況

DeepSeek-R1使用MIT協議開源,意味著任何人都可以自由使用該模型,包括商業用途。

用戶可以在DeepSeek官方網站和App使用官方提供的服務。

公共服務

中國

2025年2月起,中國多地政府部門相繼將DeepSeek接入政務服務系統,用於公文寫作、政策解讀等方面[9]

2025年2月8日,廣東省深圳市龍崗區政務服務和數據管理局就已經在政務外網部署了DeepSeek-R1模型。

2025年2月16日,深圳市正式為全市各區及各部門提供DeepSeek模型應用服務[10];其中,福田區基於DeepSeek開發了首批70名AI「數智員工」[11][12][13]

2025年2月17日,佛山市「江義村智慧鄉村平台」於正式接入DeepSeek[14]

2025年2月18日,北京市豐臺區在政務雲本地部署DeepSeek大模型[9]

香港

香港生成式人工智慧研發中心在DeepSeek的基礎上,開發HKGAI V1人工智慧大語言開源基礎模型[15]

HKGAI V1支援粵語、普通話及英語,將DeepSeek本地化、使用香港本地數據[16],全參數微調並持續訓練。

HKGAI V1涵蓋「港話通」、「港文通」、「港會通」、「港法通」、「港環通」等系統[17][18],當中的「港文通」為生成式人工智慧文書輔助應用程式,在超過70個香港政府部門開始試用[19][20]

創新科技及工業局局長孫東表示,期望「港話通」手機版應用程序在2025年內推出[21],並以此提供更有個性化的服務[22]

2025年5月8日,廉政公署向公衆展出「深博士」(英語:Dr. Deep),廉署在DeepSeek的基礎上開發的人工智慧模型[23],可提供廉署資訊及防貪建議[24],未來有機會在廉署的分區辦事處、網上或手機使用[25]

其他

瀋陽飛機設計研究所在研發新戰機的過程中,引入了DeepSeek[26]

多家汽車製造商,包括BMW[27]東風汽車比亞迪廣汽零跑[28]本田[29]日產[30],宣佈與DeepSeek合作,將其AI系統和中國版汽車結合。

2025年緬甸地震的救援行動中,中國國家緊急語言服務團與北京語言大學團隊基於DeepSeek的大模型,研發中緬英互譯系統,支援中國國際救援隊進行救災工作[31][32][33],並在未來開源與其他地區使用。

外界反應

1月27日,DeepSeek超越ChatGPT,登頂蘋果App Store美國區免費APP下載排行榜。[34]

DeepSeek-R1爆火,引發全球投資者大量拋售人工智慧相關股票。1月27日,英偉達美股股價下跌近17%,單日市值蒸發5890億美元,為美國股市歷史上最大。[35][36]

DeepSeek-R1發布後不久,Meta執行長馬克·扎克伯格就宣布,Meta計劃在2025年投入超600億美元,加大對人工智慧的投入。[5]據媒體1月27日報道,Meta成立了四個研究小組,專門研究DeepSeek的模型。[37]其中兩個小組研究其開發者如何降低訓練和運行DeepSeek的成本,第三個小組研究訓練模型可能使用了哪些數據,第四個小組研究基於DeepSeek模型屬性重構其LLaMA模型的新技術。[38]

OpenAI表示,其有證據表明DeepSeek使用OpenAI的專有模型來訓練自己的開源模型,這違反了OpenAI的服務條款。[39]

Remove ads

現狀與替代方案

由於用戶量激增,DeepSeek R1曾面臨伺服器頻繁繁忙問題,主要歸因可能有多種,包括算力需求、帶寬限制及網絡攻擊。用戶可通過本地部署(如Ollama工具)、調用API或使用第三方平台。

參見

參考資料

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads