DeepSeek

čínská společnost zabývající se umělou inteligencí From Wikipedia, the free encyclopedia

Remove ads

DeepSeek (čínsky 深度求索, pinyin Shēndù Qiúsuǒ) je čínská společnost zabývající se umělou inteligencí, která vyvíjí open-source velké jazykové modely (LLM). Společnost je financována výhradně čínským hedge fondem High-Flyer. Obě společnosti, DeepSeek i High-Flyer, sídlí v Chang-čou v provincii Če-ťiang. Hlavní osobou firmy je Liang Wenfeng.

Stručná fakta Základní údaje, Právní forma ...
Remove ads

Pozadí

Společnost High-Flyer založili v roce 2015 tři inženýři z Čeťiangské univerzity, kteří začali během finanční krize v letech 2007–2008 ještě jako studenti obchodovat s cennými papíry. Firma využívala strojové učení k obchodování s akciemi.[1] V roce 2019 založili firmu High-Flyer AI, která se věnovala výzkumu AI algoritmů a jejich základních aplikací.[2] Do roku 2021 všechny strategie High-Flyer využívaly AI, a proto byla firma srovnávána s americkým hedge fondem Renaissance Technologies.[3]

V dubnu 2023 High-Flyer oznámil, že vytvoří novou nezávislou divizi pro výzkum umělé obecné inteligence, která nebude využívána k obchodování s akciemi a bude oddělena od finančního byznysu High-Flyer.[4][5] V květnu 2023 byla tato společnost spuštěna pod názvem DeepSeek.[2][5] Práce firmy DeepSeek je financován společností High-Flyer.[3][5] Rizikové kapitálové společnosti se totiž do financování nehrnuly, protože bylo nepravděpodobné, že by společnost byla schopna v krátkém časovém období dosáhnout exitu.[2]

Po vydání DeepSeek-V2 v květnu 2024, které nabízelo vysoký výkon za nízkou cenu, se DeepSeek stal katalyzátorem cenové války na trhu s AI modely v Číně. Byl rychle označen jako „Pinduoduo v AI“ a další velké technologické společnosti jako ByteDance, Tencent, Baidu a Alibaba začaly snižovat ceny svých AI modelů, aby DeepSeeku dokázaly konkurovat. Navzdory nízké ceně byl DeepSeek ve srovnání se svými konkurenty ziskový, a oni prodělávali.[6]

Zatím se DeepSeek zaměřuje výhradně na výzkum a nemá podrobné plány pro komercializaci.[6] Při náboru nových zaměstnanců preferuje DeepSeek technické schopnosti před pracovními zkušenostmi, takže většina nových zaměstnanců jsou buď čerství absolventi univerzit, nebo vývojáři, kteří za sebou nenají zvláštní kariéru v oboru AI.[5]

Než americká vláda uvalila na Čínu omezení týkající se čipů s umělou inteligencí, zakladatel Liang si vytvořil zásobu více než 10 000 grafických procesorů Nvidia A100. Některé odhady uvádějí až 50 000 kusů.[7]

Remove ads

Kontroverze

DeepSeek čelí kritice kvůli obavám o bezpečnost dat a šíření propagandy. Aplikace ukládá uživatelská data na serverech v Číně a Liang Wenfeng má blízké konexe na Komunistickou stranu Číny,[8] což vyvolává obavy z možného přístupu čínské vlády k těmto informacím.[9] Chatbot poskytuje odpovědi v souladu s oficiálními čínskými postoji, například ohledně lidských práv nebo statusu Tchaj-wanu, což vyvolává obavy z šíření dezinformací a cenzury.[10][11] Offline verze ale cenzurována být nemusí.[12]

Tyto kontroverze vedly k výzvám odborníků k opatrnosti při používání aplikace DeepSeek, zejména kvůli možným rizikům spojeným s ochranou soukromí a národní bezpečností. Někteří odborníci varují před nahráváním citlivých informací do aplikace a upozorňují na riziko šíření dezinformací a možného zneužití dat čínskou vládou.[13]

Izraelsko-americká společnost zaměřená na kybernetickou bezpečnost Wiz Research v lednu 2025 upozornila množství nezabezpečených dat, volně dostupných na internetu. Bez zabezpečení podle ní zůstaly digitální softwarové klíče a protokoly chatu, které podle všeho zachycovaly prompty odesílané uživateli. DeepSeek na dotaz agentury Reuters uvedl, že po upozornění data neprodleně zabezpečil.[14]

Národní úřad pro kybernetickou a informační bezpečnost vydal 9. 7. 2025 varování před některými produkty společnosti DeepSeek. Ve stejný den přijala Vláda České republiky usnesení č. 537, kterým uložila povinnost zajistit, že ministerstva, úřady a další orgány státní správy nebudou pro výkon jejich pravomocí využívat služby a řešení poskytované společností DeepSeek.[15][16]

Remove ads

Verze jazykových modelů Deepseek

Dne 2. listopadu 2023 DeepSeek představil svůj první model, DeepSeek Coder. Model je zdarma pro výzkumníky i komerční uživatele a je plně open source.[17] Kód modelu je licencován pod licencí MIT s dodatkem licenční smlouvy týkajícím se „otevřeného a zodpovědného použití“ modelu.[18]

Dne 29. listopadu 2023 DeepSeek spustil DeepSeek LLM, který dosáhl 67 miliard parametrů. Měl konkurovat jiným dostupným LLM s výkonem blízkým GPT-4, nicméně měl potíže v oblasti výpočetní efektivity a škálovatelnosti.[17] Byla také vydána chatbotová verze tohoto modelu s názvem DeepSeek Chat.[19]

Model V2

V květnu 2024 byl spuštěn DeepSeek-V2. Financial Times uvedl, že byl levnější než jeho konkurenti, s cenou 2 jüany za milion výstupních tokenů. Žebříček LLM University of Waterloo Tiger Lab zařadil DeepSeek-V2 na sedmé místo.[3]

Model V3

V prosinci 2024 byl spuštěn DeepSeek-V3. Obsahoval 671 miliard parametrů a byl trénován přibližně 55 dní na datasetu 14,8 bilionu tokenů za cenu 5,58 milionu USD,[5] což je výrazně méně zdrojů ve srovnání s konkurenty. Benchmarky ukázaly, že překonal modely Llama 3.1 a Qwen 2.5 a dosáhl srovnatelného výkonu s GPT-4o a Claude 3.5 Sonnet.[5][20][21][22] Optimalizace DeepSeeku na omezené zdroje zdůraznila potenciální limity amerických sankcí na vývoj AI v Číně.[5][23] Noviny The Hill popsaly vydání tohoto modelu jako „Sputnikovou událost“ americké AI, čímž je přirovnaly k šoku Američanů ve chvíli, když Sovětský svaz dokázal na oběžnou dráhu vyslat první umělou družici Země.[24]

Model funguje jako komise expertů s Multi-head Latent Attention Transformerem a obsahuje 256 specializovaných expertů a 1 sdíleného experta. Každý token aktivuje 37 miliard parametrů a více.[25]

Další informace Fáze, Náklady v tisících GPU hodin ...

Model R1

V listopadu 2024 byl uveden model DeepSeek R1-Lite-Preview, trénovaný pro logické usuzování, matematické uvažování a řešení problémů v reálném čase. Ukázal se jako srovnatelný s modelem o1 od OpenAI.[26]

Dne 20. ledna 2025[27] byly vydány modely DeepSeek-R1 a DeepSeek-R1-Zero. Byly založeny na V3-Base. Mají MIT licenci, jsou open-source a volně použitelné.[28] Stejně jako V3 je každý z nich založený na technice mixture of experts s 671 miliardami parametrů celkem a 37 miliardami aktivovaných parametrů při generování odpovědi. Společnost také vydala modely „DeepSeek-R1-Distill“, které však nejsou přímo založeny na R1. Místo toho jsou podobné jiným open-weight modelům, jako jsou LLaMA a Qwen, a byly doladěny na syntetických datech generovaných R1.

R1-Zero je trénován čistě pomocí zpětnovazebního učení (RL) pomocí metody group relative policy optimization (GRPO).[29] Systém odměn je založen na pravidlech a skládá se hlavně ze dvou typů odměn: odměn za přesnost a odměn za formát.

R1 se v únoru 2025 nepodařilo projít bezpečnostními testy a umožňuje tak uživatelům obejít zabezpečený režim, poradí tak uživatelům s ilegálními aktivitami, nebo se objevily bezpečnostní díry v API nebo v zabezpečení databází.[30][31][32]

Remove ads

Janus-Pro-7B

Ke konci ledna 2025 vydali čínští výzkumníci model pro tvorbu obrázků Janus-Pro-7B, který dle benchmarků předčil model DALL-E 3 od Open AI.[33][34]

Reference

Externí odkazy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads