DeepSeek - Wikiwand

DeepSeek^[a] (chinois simplifié : 深度求索 ; pinyin : Shēndù Qiúsuǒ) est une société chinoise d'intelligence artificielle et le nom de son agent conversationnel, qui exploite un grand modèle de langage. Établie à Hangzhou, la société est fondée et soutenue par le fonds spéculatif chinois High-Flyer (en).

Faits en bref Créateur, Première version ...

Informations
Créateur	Liang Wenfeng
Première version	29 novembre 2023
Dernière version	20 janvier 2025
État du projet	Développement actif
Type	Start-up Entreprise technologique (en)
Politique de distribution	Freemium
Site web	https://www.deepseek.com/

Début 2025, DeepSeek dévoile un agent conversationnel publié en open source sous licence MIT. Ce modèle, aux performances qui seraient comparables, voire supérieures, à celles des leaders américains, se démarque par son faible coût de développement et sa consommation réduite de ressources. La publication entraîne une réaction notable des marchés financiers. Les cours de plusieurs entreprises américaines, notamment ceux du leader mondial des puces graphiques utilisées dans l'intelligence artificielle Nvidia, enregistrent une forte baisse. Peu après, la société lance le modèle Janus-Pro-7B, qui génère des images à partir de prompt textuel, produit qui pourrait concurrencer DALL-E 3 d’OpenAI et Stable Diffusion.

Remove ads

Historique

Résumé

Contexte

Création et premiers modèles (2023-2024)

En avril 2023, High-Flyer, fonds spéculatif basé à Hangzhou et employant un modèle d'intelligence artificielle pour le trading à haute fréquence^[1], annonce par l'intermédiaire de son fondateur Liang Wenfeng lancer une entreprise indépendante spécialisée dans l'intelligence artificielle baptisée DeepSeek, pour développer et commercialiser une intelligence artificielle générale utilisant un grand modèle de langage développé par la firme^[2].

En novembre 2023, DeepSeek lance son premier modèle, baptisé DeepSeek Coder et spécialisé dans la génération et la compréhension de codes sources^[3].

Le 29 novembre de la même année, DeepSeek lance son premier agent conversationnel employant un grand modèle de langage unique baptisé DeepSeek LLM (à 67 milliards de paramètres, gratuit et open source^[4]).

Le 7 mai 2024, DeepSeek sort DeepSeek-V2, comportant cette fois 236 milliards de paramètres, et pouvant activer jusqu'à 21 milliards de paramètres à chaque jeton utilisé^[5]. Le mois suivant sort la deuxième version de DeepSeek Coder baptisée DeepSeek-Coder-V2^[6].

En décembre 2024, DeepSeek sort DeepSeek-V3, qui remplace la version précédente et se veut une alternative chinoise aux autres modèles de langage disponibles en ligne^[7]^,^[8]. 256 grappes ("clusters") comprenant chacune 8 cartes graphiques H800 soit un total de 2048 cartes graphiques durant 5000 heures sont nécessaires pour la partie apprentissage fin supervisé et l'apprentissage par renforcement de DeepSeek-V3 soit au total un équivalent de 2.79 millions d'heures en carte graphique en utilisant des optimisations. Cependant des doutes subsistent concernant le fait qu'un nombre si faible de grappes ait été utilisé^[9]. Après entrainement, il a été déployé aussi sur des grappes H800. Les cartes H800 d'une grappe sont connectées par interconnexion directe NVLink, et les grappes sont connectées par InfiniBand^[10].

Percée mondiale (2025)

Le 20 janvier 2025, l'entreprise annonce son premier modèle de raisonnement, DeepSeek-R1, qui emploie une chaîne de raisonnement développant des étapes logiques successives aux requêtes^[11]^,^[12]^,^[13]. Le modèle, publié avec son code source sous licence MIT, bouleverse le secteur de l'IA par un coût de développement significativement moins élevé que ses concurrents pour des performances comparables aux meilleurs acteurs du secteur (bien que plus lent)^[14], et une consommation en ressources de calcul notablement inférieure^[15]. Face à la rentabilité présumée de la technologie, le cours de la bourse de plusieurs géants du domaine, (dont celui de Nvidia, le fournisseur de processeurs GPU, qui perd 600 milliards de dollars)^[16], chute massivement^[17]^,^[18].

Remove ads

Modèles

Résumé

Contexte

Davantage d’informations Versions majeures, Date de sortie ...

Versions majeures	Date de sortie	Variantes principales	Remarques
DeepSeek Coder	2 novembre 2023	Base (préentraîné) ; Instruct (avec fine-tuning par instructions)	L'architecture est essentiellement la même que Llama.
DeepSeek-LLM	29 novembre 2023	Base ; Chat
DeepSeek-MoE	9 janvier 2024	Base ; Chat	Utilise une variante de l'architecture mixture of experts (MoE).
DeepSeek-Math	Avril 2024	Base	Initialisé avec DS-Coder-Base-v1.5
Instruct
RL (Reinforcement Learning, ce qui signifie apprentissage par renforcement)	Implémente Group Relative Policy Optimization (GRPO), une variante de Proximal Policy Optimization (PPO).
DeepSeek V2	Mai 2024	DeepSeek-V2, DeepSeek-V2-Chat DeepSeek-V2-Lite, DeepSeek-V2-Lite-Chat DeepSeek-Coder-V2 DeepSeek-V2.5	Intègre l'attention latente multi-têtes (MLA) et le système mixture of experts (MoE).
DeepSeek V3	Décembre 2024	DeepSeek-V3-Base DeepSeek-V3 (un modèle de chat)	L'architecture est essentiellement la même que V2.
DeepSeek R1	20 novembre 2024	DeepSeek-R1-Lite-Preview	Accessible uniquement via API et une interface de chat.
20 janvier 2025	DeepSeek-R1 DeepSeek-R1-Zero	Initialisé à partir de DeepSeek-V3-Base et partageant l'architecture V3.
Modèles distillés	Initialisés à partir d'autres modèles, tels que Llama, Qwen, etc. Distillés à partir de données synthétisées par R1 et R1-Zero.

Remove ads

Critiques

Résumé

Contexte

Sous-estimation des coûts

Le budget annoncé de 5,57 millions de dollars, spécifiquement alloué à un seul cycle d'apprentissage de DeepSeek V3, exclurait d'autres dépenses significatives telles que les salaires du personnel, les coûts liés au traitement des données, ainsi que ceux associés à la conception et à l'architecture du système^[19].

En outre, l'entraînement du modèle DeepSeek nécessiterait environ 2 048 cartes graphiques Nvidia H800, une version bridée du H100 développé par la même société et destinée à l'exportation en Chine. Avant les restrictions imposées par l'administration de Joe Biden au début de l'année 2025, le coût de ce matériel était estimé à environ 70 millions de dollars^[19]. Par ailleurs, les dépenses annuelles consacrées à ce projet seraient évaluées entre 500 millions et 1 milliard de dollars^[20].

Allégations de détournement de l'interface de programmation d'OpenAI

En janvier 2025, OpenAI et Microsoft soupçonnent DeepSeek d'avoir utilisé un processus de distillation des connaissances pour extraire des données des modèles d'OpenAI via son interface de programmation, en violation de ses conditions d'utilisation. Le modèle répondant même à des questions du type « Qui es-tu? » par « Je suis ChatGPT »^[21].

Microsoft dit avoir détecté fin 2024 d'importants transferts de données via des comptes développeurs OpenAI présumés liés à DeepSeek. OpenAI affirme détenir des preuves de ces pratiques, sans toutefois les détailler publiquement, et indique collaborer avec le gouvernement américain pour protéger sa propriété intellectuelle^[22]^,^[23]^,^[24].

Stockage des données

Selon sa politique de confidentialité, DeepSeek stocke les données utilisateur sur des serveurs situés en République populaire de Chine, y compris l'historique des conversations et les informations personnelles de ses utilisateurs^[25]. L'entreprise est tenue de collaborer avec les autorités chinoises conformément à la loi sur le renseignement national, ce qui suscite la préoccupation du professeur d'informatique britannique Michael Woodridge^[26] et du ministre australien des Sciences, Ed Husic (en)^[27].

Censure

Soumis aux réglementations de l'internet en république populaire de Chine, l'agent conversationnel de DeepSeek refuse d'aborder certains sujets politiquement sensibles en Chine (manifestations de la place Tian'anmen, statut de Taïwan, manifestations de 2019 à Hong Kong, accusations de travail forcé au Xinjiang) et redirige la conversation ou formule une réponse avant de l'effacer. L'agent conversationnel reconnaît occasionnellement que ses réponses s'alignent sur les positions officielles du gouvernement chinois^[26]^,^[28].

Remove ads

Plaintes et interdictions

Plaintes

En janvier 2025, Test-Achats, l'organisation de consommateurs belge, dépose plainte auprès de l'Autorité de protection des données contre DeepSeek. Lui est reproché un traitement des données en contravention avec le règlement général sur la protection des données (RGPD)^[29].

En janvier 2025, Altroconsumo (it), une organisation de consommateurs italienne, dépose plainte auprès du Garant de la protection des données personnelles (it) contre DeepSeek^[30]. L'association s'inquiète en effet d'un risque lié à la non conformité par DeepSeek au RGPD^[31].

Interdictions

L'Italie interdit l'accès par DeepSeek aux données d'utilisateurs italiens.

L'Australie et Taïwan interdisent à leurs fonctionnaires et à des infrastructures clés d’utiliser DeepSeek^[32].

Remove ads

Notes et références

Loading content...

Liens externes

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads