トップQs
タイムライン
チャット
視点
DeepSeek
中国の人工知能(AI)開発企業 ウィキペディアから
Remove ads
DeepSeek(ディープシーク、簡体字: 深度求索; 拼音: Shēndù Qiúsuǒ)は、中国の人工知能研究所であり、オープンソースの大規模言語モデルを開発している。DeepSeekは、中国のヘッジファンド「幻方量化」による資金提供を主に受けており、両者とも浙江省杭州市を拠点とする梁文鋒によって設立・運営されている。またDeepseekによって開発されたAIモデル群は全て編集•再配布•改良•解体が許諾されたMITライセンスに基づく認証がされている為、hugging Faceにてダウンロード可能なDeepseekのモデル群をダウンロードしてオフライン環境•オンライン環境問わず、改変したり自分の好みに合うように回答内容を書き換えることが可能である。その場合は必ずDeepseekの名義だけはMITライセンスにより残す必要がある。
![]() | この記事は英語版の対応するページを翻訳することにより充実させることができます。(2025年1月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
Remove ads
沿革
2016年2月、AI愛好家である梁文鋒が「幻方量化」を共同設立した。彼は2007~2008年の金融危機の際に浙江大学に在学しながら取引を開始していた[2]。2019年までに、彼は「幻方量化」をAI取引アルゴリズムの開発と使用に特化したヘッジファンドとして確立した。2021年までには、幻方量化は取引においてAIのみを使用するようになった[3]。
2023年4月、幻方量化は金融事業とは独立したAIツールの研究開発に専念する汎用人工知能ラボを立ち上げた[4][5]。2023年5月、幻方量化を投資家の一つとして、そのラボは「DeepSeek」という独立企業となった[3][6][5]。しかし、短期間での収益化が難しいと予想されたため、ベンチャーキャピタルは資金提供に慎重だった[3]。
2024年5月、DeepSeekは高性能かつ低価格の「DeepSeek-V2」をリリースし、中国におけるAIモデルの価格競争の引き金となった。すぐに「AI業界の拼多多」と呼ばれるようになり、ByteDance、テンセント、百度、アリババグループといった大手テクノロジー企業も同社と競うためにAIモデルの価格を引き下げ始めた。DeepSeekは低価格で提供しながらも、赤字を出している競合他社と比べて収益を上げていた[7]。
Remove ads
リリース履歴
要約
視点
DeekSeek LLM
2023年11月2日、DeepSeekは初のモデル「DeepSeek Coder」を発表した。このモデルは研究者と商業利用者の双方に無料で提供されている[8]。モデルのコードはMITライセンスのもとでオープンソース化されており、モデルそのものについては「オープンかつ責任ある下流利用」に関する追加のライセンス契約が付随している[9]。
2023年11月29日、DeepSeekはパラメータ数を67Bに拡張した「DeepSeek LLM」をリリースした[10]。このモデルは、当時の他の大規模言語モデル(LLM)と競合するために開発され、GPT-4に近い性能を目指していた[8]。しかし、計算効率やスケーラビリティにおいて課題に直面した。さらに、このモデルを基盤とするチャットボット版「DeepSeek Chat」も公開された[11]。
DeepSeek-V2
2024年5月、DeepSeek-V2がリリースされた[12]。Financial Timesによれば、同モデルの価格は100万トークンの出力あたり2人民元と、競合モデルよりも安価であると報じられた。ウォータールー大学のTiger Labが提供するリーダーボードでは、DeepSeek-V2はLLMランキングで7位にランクインした[6]。
DeepSeek-V3
2024年12月、DeepSeek-V3がリリースされた。このモデルは6710億のパラメータを持ち、約55日間の学習期間と558万米ドルの費用でトレーニングされた[5]。これは競合モデルと比較して大幅に少ないリソースで実現されている。学習データセットは14.8兆トークンに及ぶものだった。ベンチマークテストでは、Llama 3.1やQwen 2.5を上回る性能を示し、GPT-4oやClaude 3.5 Sonnetに匹敵する結果を出した[5][13][14][15]。DeepSeekが限られたリソースで最適化を実現したことは、中国のAI開発に対する米国制裁の限界を浮き彫りにした[5][16]。「The Hill」の意見記事では、このリリースを「アメリカのAIがスプートニク・モーメントに達した」と評した[17]。
このモデルは、256のルーティングエキスパートと1つの共有エキスパートを含む「Multi-head Latent Attention Transformer」によるエキスパートの混合モデルである。各トークンが370億以上のパラメータを活性化する仕組みとなっている[18]。
DeepSeek-R1
→詳細は「DeepSeek-R1」を参照
2024年11月、DeepSeek R1-Lite-Previewがリリースされた。このモデルは、論理的推論、数学的推論、およびリアルタイムの問題解決のためにトレーニングされたものである。DeepSeekは、このモデルがAmerican Invitational Mathematics Examination(AIME)やMATHといったベンチマークにおいてOpenAI o1モデルを上回る性能を示したと主張した[19]。しかし、「The Wall Street Journal」によれば、2024年版のAIMEから15問を使用したテストでは、o1モデルの方がDeepSeek R1-Lite-Previewよりも迅速に解を導き出したという[20]。
2025年1月20日[21]、DeepSeek-R1およびDeepSeek-R1-Zeroがリリースされた[22]。これらはV3-Baseを基盤としており、V4と同様に6710億の総パラメータと370億のアクティブパラメータを持つエキスパートの混合モデルである。また、「DeepSeek-R1-Distill」と呼ばれる一部のモデルもリリースされたが、これらはR1を基盤としておらず、LLaMAやQwenのような他のオープンウェイトモデルに類似しており、R1が生成した合成データでファインチューニングされている。このDeep-Seek-R1は、中国における人工知能技術の発展がすでに米国と大差ないこと、そしてLLMトークンのコストは下げ、人工知能の進歩の道はモデル規模を拡大することだけではないことを象徴している[23]。
R1-Zeroは完全に強化学習(RL)のみでトレーニングされており、教師ありファインチューニング(Supervised Fine-Tuning、SFT)は一切行われていない[24]。このモデルはGroup Relative Policy Optimization(GRPO)を使用しており、批評モデルを用いず、グループスコアから基準を推定する仕組みである[25]。報酬システムはルールベースで構成され、主に精度報酬と形式報酬の2種類から成る。
R1-Zeroの出力は可読性が低く、英語と中国語が混在する傾向があったため、R1のトレーニングを通じてこれらの問題を解決し、さらに推論能力を向上させた[24]。
Remove ads
評価と反応
2025年1月20日にリリースされたスマートフォン向けAIチャットアプリは、iOS版がアメリカ合衆国や日本のApp Storeの無料アプリランキングで1位を取るなど、大きな注目を集めた[26]。同月27日、DeepSeekは「大規模なサイバー攻撃」を理由に、新規利用登録の一時制限を発表した[27]。
米中貿易戦争の影響で強化された最先端AIチップなどの対中輸出規制下において、ハードウェアへのアクセスに制限がある中国企業が開発したモデルを、AIの開発競争における「マイルストーン」と評価する専門家がいる一方で[28]、DeepSeekが公表している開発情報の信憑性などに対しては、米国のAI関係者からは懐疑的な意見も聞かれた[29]。株価で打撃を受けたNVIDIAのCEOのジェンスン・フアンは「優れたイノベーションであり、推論モデルをオープンソース化した」と評価しながらも依然として同社製品はAIで需要が見込めると述べて株式市場の懸念を払拭し[30]、競争相手のOpenAIのCEOのサム・アルトマンも価格性能比で「素晴らしいモデル」と称賛しつつも更に優れたモデルを開発していくと述べた[31]。
上記のような成功を受け、DeepSeekの創業者・梁文鋒は、「中国のサム・アルトマン」と称されるようになった[32][33]。中国製AIモデルへの世界的な注目は中国国内でも話題を呼び、李強首相は梁を会談に招いて「中国国民としてとても誇りに思う」と称賛しており[34]、中国全土でDeepSeekの採用が政府に後押しされるようになった[35]。
株式市場への影響
競合のモデルに比べて低コストで開発されたというR1の公開を受けて、米国の金融市場ではAI関連株の価格が急落し[36][37]、特にNVIDIAが時価総額で失った5890億ドルは1日当たりの減少額では米国企業史上最大の暴落であり[38]、日経平均株価も大幅に下落し[39]、「DeepSeekショック」と呼ばれ[39][40][41]、米国のドナルド・トランプ大統領もDeepSeekを「ポジティブに見ている」と評価しつつ「米国のAI企業への警鐘となるべき」と言及する事態となった[42]。
問題
要約
視点
検閲
→「w:Chinese censorship abroad」および「中国における検閲」も参照

中国にあるサーバーで動作するR1の公式APIは、中国政府にとって政治的にセンシティブとみなされるトピックに対して検閲を行っていることが確認されている。例としては、1989年の天安門事件、ウイグル人への迫害、習近平とクマのプーさんの比較、中国の人権問題などに関する質問には答えないようになっている[43][44][45]。上記のような質問に、AIは答えを生成する場合もあるが、回答はすぐに削除され、「Sorry, that's beyond my current scope. Let's talk about something else.(申し訳ありません、それは現在私の範囲外です。別の話をしましょう。)」といったメッセージに置き換わる[44]。統合された検閲メカニズムと制限は、R1モデルのオープンソース版では限られた範囲でしか解除できない。中国のインターネット規制当局が定めた「社会主義核心価値観」に触れる場合や、台湾問題が取り上げられた場合、会話はそこで打ち切られる[46]。NBCニュースによるテストでは、DeepSeek-R1は台湾を「中国の領土の不可分の一部」であるとし、「我々はいかなる形の台湾独立分離主義活動にも断固反対し、平和的手段によって祖国の完全な統一を実現することを誓う」と述べた[47]。しかし、西側の研究者たちは、文字の置き換えなどのトリックを使うことで、いくつかの話題で正確な回答を引き出すことに成功している[45]。また、尖閣諸島が日本の領土か尋ねたところ、「中国固有の領土」とする中国側の見解による答えが返ってきたという[48]。
セキュリティとプライバシー
一部の専門家は、中国政府がAIシステムを外国への影響力行使、偽情報の拡散、監視、サイバー兵器の開発に利用する可能性があることを懸念している[49][50][51]。DeepSeekのプライバシー規約は、収集した情報を「中華人民共和国にある安全なサーバーに保存する」とし、収集対象は「テキストや音声の入力、プロンプト、アップロードされたファイル、フィードバック、チャット履歴、またはその他のコンテンツ」としている。この規約はChatGPTのそれと同等であるが[52]、WIREDはこれをセキュリティ面での懸念とした[53]。イタリアやアイルランドの当局はプライバシーへの懸念を表明しており[54]、アメリカ国家安全保障会議も安全保障上の影響を精査していると報じられた[55]。
実コストと輸出規制
機械学習研究者のネイサン・ランバートは、DeepSeekが報告したトレーニング費用500万ドルに、研究要員、インフラ、電気代などの費用が含まれておらず、過少に報告されている可能性があるとし、実際の運営コストは年間5億ドルから10億ドルに近いと試算した[56]。スケールAIのアレキサンダー・ワンCEOは、DeepSeekは米国の輸出規制への違反を隠すため、GPUの数を過少に申告していると主張した[57][58]。
Remove ads
脚注
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads