DeepSeek - Wikiwand

DeepSeek (čínsky 深度求索, pinyin Shēndù Qiúsuǒ) je čínská společnost zabývající se umělou inteligencí, která vyvíjí open-source velké jazykové modely (LLM). Společnost je financována výhradně čínským hedge fondem High-Flyer. Obě společnosti, DeepSeek i High-Flyer, sídlí v Chang-čou v provincii Če-ťiang. Hlavní osobou firmy je Liang Wenfeng.

Stručná fakta Základní údaje, Právní forma ...

DeepSeek
Logo
Základní údaje
Právní forma	Soukromá
Datum založení	květen 2023
Zakladatel	Liang Wenfeng
Adresa sídla	Chang-čou, Če-ťiang, Čína
Charakteristika firmy
Oblast činnosti	informační technologie, umělá inteligence a velký jazykový model
Mateřská společnost	High-Flyer
Majitel	High-Flyer
Identifikátory
Oficiální web	deepseek.com
Některá data mohou pocházet z datové položky.

Remove ads

Pozadí

Společnost High-Flyer založili v roce 2015 tři inženýři z Čeťiangské univerzity, kteří začali během finanční krize v letech 2007–2008 ještě jako studenti obchodovat s cennými papíry. Firma využívala strojové učení k obchodování s akciemi.^[1] V roce 2019 založili firmu High-Flyer AI, která se věnovala výzkumu AI algoritmů a jejich základních aplikací.^[2] Do roku 2021 všechny strategie High-Flyer využívaly AI, a proto byla firma srovnávána s americkým hedge fondem Renaissance Technologies.^[3]

V dubnu 2023 High-Flyer oznámil, že vytvoří novou nezávislou divizi pro výzkum umělé obecné inteligence, která nebude využívána k obchodování s akciemi a bude oddělena od finančního byznysu High-Flyer.^[4]^[5] V květnu 2023 byla tato společnost spuštěna pod názvem DeepSeek.^[2]^[5] Práce firmy DeepSeek je financován společností High-Flyer.^[3]^[5] Rizikové kapitálové společnosti se totiž do financování nehrnuly, protože bylo nepravděpodobné, že by společnost byla schopna v krátkém časovém období dosáhnout exitu.^[2]

Po vydání DeepSeek-V2 v květnu 2024, které nabízelo vysoký výkon za nízkou cenu, se DeepSeek stal katalyzátorem cenové války na trhu s AI modely v Číně. Byl rychle označen jako „Pinduoduo v AI“ a další velké technologické společnosti jako ByteDance, Tencent, Baidu a Alibaba začaly snižovat ceny svých AI modelů, aby DeepSeeku dokázaly konkurovat. Navzdory nízké ceně byl DeepSeek ve srovnání se svými konkurenty ziskový, a oni prodělávali.^[6]

Zatím se DeepSeek zaměřuje výhradně na výzkum a nemá podrobné plány pro komercializaci.^[6] Při náboru nových zaměstnanců preferuje DeepSeek technické schopnosti před pracovními zkušenostmi, takže většina nových zaměstnanců jsou buď čerství absolventi univerzit, nebo vývojáři, kteří za sebou nenají zvláštní kariéru v oboru AI.^[5]

Než americká vláda uvalila na Čínu omezení týkající se čipů s umělou inteligencí, zakladatel Liang si vytvořil zásobu více než 10 000 grafických procesorů Nvidia A100. Některé odhady uvádějí až 50 000 kusů.^[7]

Remove ads

Kontroverze

DeepSeek čelí kritice kvůli obavám o bezpečnost dat a šíření propagandy. Aplikace ukládá uživatelská data na serverech v Číně a Liang Wenfeng má blízké konexe na Komunistickou stranu Číny,^[8] což vyvolává obavy z možného přístupu čínské vlády k těmto informacím.^[9] Chatbot poskytuje odpovědi v souladu s oficiálními čínskými postoji, například ohledně lidských práv nebo statusu Tchaj-wanu, což vyvolává obavy z šíření dezinformací a cenzury.^[10]^[11] Offline verze ale cenzurována být nemusí.^[12]

Tyto kontroverze vedly k výzvám odborníků k opatrnosti při používání aplikace DeepSeek, zejména kvůli možným rizikům spojeným s ochranou soukromí a národní bezpečností. Někteří odborníci varují před nahráváním citlivých informací do aplikace a upozorňují na riziko šíření dezinformací a možného zneužití dat čínskou vládou.^[13]

Izraelsko-americká společnost zaměřená na kybernetickou bezpečnost Wiz Research v lednu 2025 upozornila množství nezabezpečených dat, volně dostupných na internetu. Bez zabezpečení podle ní zůstaly digitální softwarové klíče a protokoly chatu, které podle všeho zachycovaly prompty odesílané uživateli. DeepSeek na dotaz agentury Reuters uvedl, že po upozornění data neprodleně zabezpečil.^[14]

Národní úřad pro kybernetickou a informační bezpečnost vydal 9. 7. 2025 varování před některými produkty společnosti DeepSeek. Ve stejný den přijala Vláda České republiky usnesení č. 537, kterým uložila povinnost zajistit, že ministerstva, úřady a další orgány státní správy nebudou pro výkon jejich pravomocí využívat služby a řešení poskytované společností DeepSeek.^[15]^[16]

Remove ads

Verze jazykových modelů Deepseek

Dne 2. listopadu 2023 DeepSeek představil svůj první model, DeepSeek Coder. Model je zdarma pro výzkumníky i komerční uživatele a je plně open source.^[17] Kód modelu je licencován pod licencí MIT s dodatkem licenční smlouvy týkajícím se „otevřeného a zodpovědného použití“ modelu.^[18]

Dne 29. listopadu 2023 DeepSeek spustil DeepSeek LLM, který dosáhl 67 miliard parametrů. Měl konkurovat jiným dostupným LLM s výkonem blízkým GPT-4, nicméně měl potíže v oblasti výpočetní efektivity a škálovatelnosti.^[17] Byla také vydána chatbotová verze tohoto modelu s názvem DeepSeek Chat.^[19]

Model V2

V květnu 2024 byl spuštěn DeepSeek-V2. Financial Times uvedl, že byl levnější než jeho konkurenti, s cenou 2 jüany za milion výstupních tokenů. Žebříček LLM University of Waterloo Tiger Lab zařadil DeepSeek-V2 na sedmé místo.^[3]

Model V3

V prosinci 2024 byl spuštěn DeepSeek-V3. Obsahoval 671 miliard parametrů a byl trénován přibližně 55 dní na datasetu 14,8 bilionu tokenů za cenu 5,58 milionu USD,^[5] což je výrazně méně zdrojů ve srovnání s konkurenty. Benchmarky ukázaly, že překonal modely Llama 3.1 a Qwen 2.5 a dosáhl srovnatelného výkonu s GPT-4o a Claude 3.5 Sonnet.^[5]^[20]^[21]^[22] Optimalizace DeepSeeku na omezené zdroje zdůraznila potenciální limity amerických sankcí na vývoj AI v Číně.^[5]^[23] Noviny The Hill popsaly vydání tohoto modelu jako „Sputnikovou událost“ americké AI, čímž je přirovnaly k šoku Američanů ve chvíli, když Sovětský svaz dokázal na oběžnou dráhu vyslat první umělou družici Země.^[24]

Model funguje jako komise expertů s Multi-head Latent Attention Transformerem a obsahuje 256 specializovaných expertů a 1 sdíleného experta. Každý token aktivuje 37 miliard parametrů a více.^[25]

Další informace Fáze, Náklady v tisících GPU hodin ...

Celkové náklady na trénování modelu DeepSeek-V3^[5]
Fáze	Náklady v tisících GPU hodin	Náklady v milionech USD
Předtrénování	2664	5,328
Rozšíření kontextu	119	0,24
Ladění	5	0,01
Celkem	2788	5,576

Model R1

V listopadu 2024 byl uveden model DeepSeek R1-Lite-Preview, trénovaný pro logické usuzování, matematické uvažování a řešení problémů v reálném čase. Ukázal se jako srovnatelný s modelem o1 od OpenAI.^[26]

Dne 20. ledna 2025^[27] byly vydány modely DeepSeek-R1 a DeepSeek-R1-Zero. Byly založeny na V3-Base. Mají MIT licenci, jsou open-source a volně použitelné.^[28] Stejně jako V3 je každý z nich založený na technice mixture of experts s 671 miliardami parametrů celkem a 37 miliardami aktivovaných parametrů při generování odpovědi. Společnost také vydala modely „DeepSeek-R1-Distill“, které však nejsou přímo založeny na R1. Místo toho jsou podobné jiným open-weight modelům, jako jsou LLaMA a Qwen, a byly doladěny na syntetických datech generovaných R1.

R1-Zero je trénován čistě pomocí zpětnovazebního učení (RL) pomocí metody group relative policy optimization (GRPO).^[29] Systém odměn je založen na pravidlech a skládá se hlavně ze dvou typů odměn: odměn za přesnost a odměn za formát.

R1 se v únoru 2025 nepodařilo projít bezpečnostními testy a umožňuje tak uživatelům obejít zabezpečený režim, poradí tak uživatelům s ilegálními aktivitami, nebo se objevily bezpečnostní díry v API nebo v zabezpečení databází.^[30]^[31]^[32]

Remove ads

Janus-Pro-7B

Ke konci ledna 2025 vydali čínští výzkumníci model pro tvorbu obrázků Janus-Pro-7B, který dle benchmarků předčil model DALL-E 3 od Open AI.^[33]^[34]

Reference

Loading content...

Externí odkazy

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads