Top Qs
Chronologie
Chat
Contexte

DeepSeek

entreprise chinoise d'intelligence artificielle De Wikipédia, l'encyclopédie libre

Remove ads

DeepSeek[a] (chinois simplifié : 深度求索 ; pinyin : Shēndù Qiúsuǒ) est une société chinoise d'intelligence artificielle et le nom de son agent conversationnel, qui exploite un grand modèle de langage. Établie à Hangzhou, la société est fondée et soutenue par le fonds spéculatif chinois High-Flyer (en).

Faits en bref Créateur, Première version ...

Début 2025, DeepSeek dévoile un agent conversationnel publié en open source sous licence MIT. Ce modèle, aux performances qui seraient comparables, voire supérieures, à celles des leaders américains, se démarque par son faible coût de développement et sa consommation réduite de ressources. La publication entraîne une réaction notable des marchés financiers. Les cours de plusieurs entreprises américaines, notamment ceux du leader mondial des puces graphiques utilisées dans l'intelligence artificielle Nvidia, enregistrent une forte baisse. Peu après, la société lance le modèle Janus-Pro-7B, qui génère des images à partir de prompt textuel, produit qui pourrait concurrencer DALL-E 3 d’OpenAI et Stable Diffusion.

Remove ads

Historique

Résumé
Contexte

Création et premiers modèles (2023-2024)

En , High-Flyer, fonds spéculatif basé à Hangzhou et employant un modèle d'intelligence artificielle pour le trading à haute fréquence[1], annonce par l'intermédiaire de son fondateur Liang Wenfeng lancer une entreprise indépendante spécialisée dans l'intelligence artificielle baptisée DeepSeek, pour développer et commercialiser une intelligence artificielle générale utilisant un grand modèle de langage développé par la firme[2].

En , DeepSeek lance son premier modèle, baptisé DeepSeek Coder et spécialisé dans la génération et la compréhension de codes sources[3].

Le de la même année, DeepSeek lance son premier agent conversationnel employant un grand modèle de langage unique baptisé DeepSeek LLM (à 67 milliards de paramètres, gratuit et open source[4]).

Le , DeepSeek sort DeepSeek-V2, comportant cette fois 236 milliards de paramètres, et pouvant activer jusqu'à 21 milliards de paramètres à chaque jeton utilisé[5]. Le mois suivant sort la deuxième version de DeepSeek Coder baptisée DeepSeek-Coder-V2[6].

En , DeepSeek sort DeepSeek-V3, qui remplace la version précédente et se veut une alternative chinoise aux autres modèles de langage disponibles en ligne[7],[8]. 256 grappes ("clusters") comprenant chacune 8 cartes graphiques H800 soit un total de 2048 cartes graphiques durant 5000 heures sont nécessaires pour la partie apprentissage fin supervisé et l'apprentissage par renforcement de DeepSeek-V3 soit au total un équivalent de 2.79 millions d'heures en carte graphique en utilisant des optimisations. Cependant des doutes subsistent concernant le fait qu'un nombre si faible de grappes ait été utilisé[9]. Après entrainement, il a été déployé aussi sur des grappes H800. Les cartes H800 d'une grappe sont connectées par interconnexion directe NVLink, et les grappes sont connectées par InfiniBand[10].

Percée mondiale (2025)

Le , l'entreprise annonce son premier modèle de raisonnement, DeepSeek-R1, qui emploie une chaîne de raisonnement développant des étapes logiques successives aux requêtes[11],[12],[13]. Le modèle, publié avec son code source sous licence MIT, bouleverse le secteur de l'IA par un coût de développement significativement moins élevé que ses concurrents pour des performances comparables aux meilleurs acteurs du secteur (bien que plus lent)[14], et une consommation en ressources de calcul notablement inférieure[15]. Face à la rentabilité présumée de la technologie, le cours de la bourse de plusieurs géants du domaine, (dont celui de Nvidia, le fournisseur de processeurs GPU, qui perd 600 milliards de dollars)[16], chute massivement[17],[18].

Remove ads

Modèles

Résumé
Contexte
Davantage d’informations Versions majeures, Date de sortie ...
Remove ads

Critiques

Résumé
Contexte

Sous-estimation des coûts

Le budget annoncé de 5,57 millions de dollars, spécifiquement alloué à un seul cycle d'apprentissage de DeepSeek V3, exclurait d'autres dépenses significatives telles que les salaires du personnel, les coûts liés au traitement des données, ainsi que ceux associés à la conception et à l'architecture du système[19].

En outre, l'entraînement du modèle DeepSeek nécessiterait environ 2 048 cartes graphiques Nvidia H800, une version bridée du H100 développé par la même société et destinée à l'exportation en Chine. Avant les restrictions imposées par l'administration de Joe Biden au début de l'année 2025, le coût de ce matériel était estimé à environ 70 millions de dollars[19]. Par ailleurs, les dépenses annuelles consacrées à ce projet seraient évaluées entre 500 millions et 1 milliard de dollars[20].

Allégations de détournement de l'interface de programmation d'OpenAI

En janvier 2025, OpenAI et Microsoft soupçonnent DeepSeek d'avoir utilisé un processus de distillation des connaissances pour extraire des données des modèles d'OpenAI via son interface de programmation, en violation de ses conditions d'utilisation. Le modèle répondant même à des questions du type « Qui es-tu? » par « Je suis ChatGPT »[21].

Microsoft dit avoir détecté fin 2024 d'importants transferts de données via des comptes développeurs OpenAI présumés liés à DeepSeek. OpenAI affirme détenir des preuves de ces pratiques, sans toutefois les détailler publiquement, et indique collaborer avec le gouvernement américain pour protéger sa propriété intellectuelle[22],[23],[24].

Stockage des données

Selon sa politique de confidentialité, DeepSeek stocke les données utilisateur sur des serveurs situés en République populaire de Chine, y compris l'historique des conversations et les informations personnelles de ses utilisateurs[25]. L'entreprise est tenue de collaborer avec les autorités chinoises conformément à la loi sur le renseignement national, ce qui suscite la préoccupation du professeur d'informatique britannique Michael Woodridge[26] et du ministre australien des Sciences, Ed Husic (en)[27].

Censure

Soumis aux réglementations de l'internet en république populaire de Chine, l'agent conversationnel de DeepSeek refuse d'aborder certains sujets politiquement sensibles en Chine (manifestations de la place Tian'anmen, statut de Taïwan, manifestations de 2019 à Hong Kong, accusations de travail forcé au Xinjiang) et redirige la conversation ou formule une réponse avant de l'effacer. L'agent conversationnel reconnaît occasionnellement que ses réponses s'alignent sur les positions officielles du gouvernement chinois[26],[28].

Remove ads

Plaintes et interdictions

Plaintes

En , Test-Achats, l'organisation de consommateurs belge, dépose plainte auprès de l'Autorité de protection des données contre DeepSeek. Lui est reproché un traitement des données en contravention avec le règlement général sur la protection des données (RGPD)[29].

En , Altroconsumo (it), une organisation de consommateurs italienne, dépose plainte auprès du Garant de la protection des données personnelles (it) contre DeepSeek[30]. L'association s'inquiète en effet d'un risque lié à la non conformité par DeepSeek au RGPD[31].

Interdictions

L'Italie interdit l'accès par DeepSeek aux données d'utilisateurs italiens.

L'Australie et Taïwan interdisent à leurs fonctionnaires et à des infrastructures clés d’utiliser DeepSeek[32].

Remove ads

Notes et références

Liens externes

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads