DeepSeek - Wikiwand

DeepSeek (кит. упр. 深度求索, пиньинь Shēndù Qiúsuǒ) — китайская компания, специализирующаяся на разработке искусственного интеллекта, а также семейство больших языковых моделей. Компания базируется в Ханчжоу, основана и поддерживается китайским хедж-фондом High-Flyer^[англ.]. DeepSeek выпустила свои модели с открытым исходным кодом. Версия DeepSeek-V3 считается сравнимой с другими языковыми моделями в 2024 году, такими как Qwen и ChatGPT.

Краткие факты Тип, Основание ...

DeepSeek
кит. упр. 杭州深度求索人工智能基础技术研究有限公司 англ. Hangzhou DeepSeek Artificial Intelligence Co., Ltd.

Тип	стартап и технологическая компания
Основание	май 2023; 2 года назад (2023-05)
Расположение	Китай: Ханчжоу, Чжэцзян
Ключевые фигуры	Лян Вэньфэн^[англ.]
Отрасль	информационные технологии
Продукция	DeepSeek^[вд]
Материнская компания	High-Flyer^[вд]
Сайт	deepseek.com (англ.) (кит.)
Медиафайлы на Викискладе

Выход модели DeepSeek-R1 в январе 2025 года вызвал кратковременное, но резкое снижение курсов акций мировых технологических компаний и дискуссии о переоценке инвестиций в ИИ➤.

Remove ads

История

Суммиров вкратце

Перспектива

В 2015 году три инженера из Чжэцзянского университета основали компанию High-Flyer. Она использовала машинное обучение для торговли акциями^[1]. В 2019 году создана компания High-Flyer AI, которая занималась исследованиями алгоритмов искусственного интеллекта^[2]. К 2021 году все стратегии High-Flyer использовали ИИ, её сравнивали с Renaissance Technologies^[3].

В апреле 2023 года High-Flyer объявила о новом проекте для исследования общего искусственного интеллекта. Он не будет использоваться для торговли акциями и отделится от финансового бизнеса High-Flyer^[4]^[5]. В мае 2023 года компания была запущена под названием DeepSeek, её возглавил один из сооснователей хедж-фонда High-Flyer Лян Вэньфэн^[англ.]^[2]^[5]. Разработка DeepSeek финансируется High-Flyer^[3]^[5].

Выпуск DeepSeek-V2 в мае 2024 года спровоцировал ценовую войну моделей искусственного интеллекта в Китае, так как предлагалась высокая производительность по низкой цене. Её окрестили «Pinduoduo ИИ», а другим крупным технологическим гигантам, таким как ByteDance, Tencent, Baidu и Alibaba, пришлось начать снижать цены на свои модели ИИ. Несмотря на низкую цену DeepSeek, компания отчиталась о прибыли по сравнению с конкурентами, которые, по-видимому, несли убытки^[6].

На конец 2024 года DeepSeek занимается исследованиями и не заявляет подробных планов коммерциализации^[6].

Китайская газета South China Morning Post пишет, что при найме новых сотрудников компания DeepSeek отдавала предпочтение способностям, а не опыту, поэтому большинство разработчиков — это либо недавние выпускники, либо находящиеся на ранней стадии своей карьеры в сфере ИИ^[5].

К 2025 году DeepSeek смогла создать ИИ с возможностями как у ведущих технологических компаний США, но, как заявлено, на менее мощных чипах и за малую часть стоимости. Сотрудники DeepSeek пишут, что обучали модель V3➤ на чипах Nvidia H800, а они значительно менее мощны, чем новые Nvidia Blackwell^[7]^[8]. Независимые наблюдатели отмечают, что DeepSeek и другие китайские компании имеют преимущество, так как на китайском рынке доступ к ChatGPT и ряду других моделей заблокирован Великим китайским файерволом. DeepSeek, вероятно, цензурирует выдачу➤. При этом не все деликатные для Китая темы этому подвержены^[9]^[10].

Реакция рынков 27 января 2025

Запуск новой модели R1, предположительно разработанной многократно дешевле стоимости конкурентов, спровоцировал резкое снижение курсов акций мировых технологических компаний. Так, 27 января 2025 года акции производителя оборудования для изготовления чипов ASML Holding NV упали более чем на 8 %. Nasdaq 100 снизился на 3 %, потеряв почти 1 триллион долларов. В Токио акции упали на 8,5 %. Акции Siemens Energy, производителя энергетического оборудования для ИИ-инфраструктуры, — на 20 %^[11]. Упали курсы акций энергетических компаний, в том числе на 21 % у Constellation Energy, так как у них раньше ожидались прибыли от резкого роста спроса из-за ИИ^[12]^[13].

По словам Вей-Серна Линга (Union Bancaire Privée), «DeepSeek показывает, что можно разрабатывать мощные модели ИИ, которые стоят дешевле»^[12]. Акции корпорации Nvidia упали за день на 17 %, что привело к потере около 600 млрд $ капитализации. Такое падение стало крупнейшим за историю американского фондового рынка^[14]^[15]. Многие эксперты прогнозируют сокращение закупок чипов Nvidia и рост недоверия инвесторов к ведущим технологическим компаниям, в то время как некоторые надеются на то, что вырастет доступность ИИ и расширится их использование, что поддержит спрос на чипы^[16]^[17]. 500 самых богатых людей мира потеряли в общей сложности 108 млрд $ из-за распродаж в технологическом секторе^[18].

Общая капитализация криптовалют, связанных с ИИ, сократилась на 22 % за сутки^[19].

При этом по состоянию на 27 января мобильное приложение «DeepSeek — AI Assistant» занимало первое место в App Store в США, ОАЭ, Южной Корее, Японии, Великобритании и Китае, потеснив ChatGPT^[12]^[20]. DeepSeek стал самым популярным ИИ в России в январе 2025 года^[21].

Президент США Дональд Трамп назвал DeepSeek «тревожным звонком» для американских технокомпаний^[22].

Дальнейшие последствия

Потрясения на мировых рынках из-за DeepSeek продлились короткое время^[23]. При этом аналитики Huaxi Securities сочли произошедшее переломным моментом, когда у китайских инвесторов вырос интерес к местным компаниям, работающим с ИИ^[24]. 12 февраля 2025 года Financial Times сообщила, что на фоне успеха DeepSeek в Гонконге индекс китайских технологических акций вырос более чем на 20 % за месяц^[25].

Таоша Ван (Fidelity International^[англ.]) в феврале 2025 года пишет, что стоимость разработки ведущих моделей ИИ уже упала примерно на 80 % за последние два года, а DeepSeek, возможно, ускорит эту тенденцию. По её мнению, «DeepSeek является напоминанием, как быстро всё может измениться и, скорее всего, изменится в эпоху ИИ»^[23].

Remove ads

Релизы

Суммиров вкратце

Перспектива

2 ноября 2023 года DeepSeek представила свою первую модель DeepSeek Coder, которая была бесплатной, в том числе для коммерческого использования^[26]. Компания DeepSeek делает модели с так называемым «открытым весом» (open-weight), которые немного отличаются от полностью открытого исходного кода: модель может свободно использоваться повторно по лицензии MIT, можно изучать и развивать алгоритм, но данные для обучения не представлены^[27]^[28].

29 ноября 2023 года DeepSeek запустила DeepSeek LLM (большую языковую модель) с 67 млрд параметров. Она была разработана, чтобы конкурировать с другими LLM того времени, и по производительности приближалась к GPT-4. У неё возникли проблемы с вычислительной эффективностью и масштабируемостью^[26]. Также была выпущена чат-версия модели под названием DeepSeek Chat^[29].

V2 и V3

В мае 2024 года вышла DeepSeek-V2. Financial Times сообщила, что она была дешевле аналогов, стоила 2 юаня за каждый миллион выпущенных токенов. В рейтинге LLM лаборатории Tiger Lab университета Ватерлоо DeepSeek-V2 заняла седьмое место^[3].

В декабре 2024 года запущена DeepSeek-V3. Тесты производительности показали, что версия превзошла Llama 3.1 и Qwen 2.5, а также соответствовала GPT-4o и Claude 3.5 Sonnet^[5]^[30]^[31]^[32]. На январь 2025 года независимые проверки продолжаются^[9]. Случай с DeepSeek показал, что санкции США в отношении развития искусственного интеллекта в Китае, вероятно, не очень эффективны^[5]^[33]. Американский аналитик Рэй Ванг предположил, что из-за отсутствия у Китая свободного доступа к передовым чипам ИИ китайские учёные внедряют инновации при ограниченных ресурсах^[9]. По данным производителя, общая стоимость обучения модели — около 5,58 млн долларов США, а само обучение заняло около двух месяцев^[5].

DeepSeek-V3 имеет 685 миллиардов параметров и мультиэкспертную архитектуру^[англ.] (MoE) с 256 экспертами, из которых 8 активируются для каждого токена. Каждый токен активирует 37 миллиардов параметров^[34].

Подробнее Этап, Затраты (тыс. GPU-часов) ...

Этап	Затраты (тыс. GPU-часов)	Стоимость (млн $)
предварительная подготовка	2664	5,328
расширение контекста	119	0,24
тонкая настройка	5	0,01
общий	2788	5,576

R1

В ноябре 2024 года появилась DeepSeek-R1-Lite-Preview для решения задач, требующих логического вывода, математических рассуждений и решения проблем в реальном времени. DeepSeek утверждала, что производительность превзошла OpenAI o1 в таких тестах, как AIME^[англ.] и MATH^[35]. Однако The Wall Street Journal отметила, что при использовании 15 задач из тестов AIME 2024 года OpenAI o1 нашёл решения быстрее, чем DeepSeek R1-Lite-Preview^[36].

В январе 2025 года вышли DeepSeek-R1 и DeepSeek-R1-Zero, основанные на V3. Эти модели более продвинутые, чем ранние. Они генерируют ответы шаг за шагом, аналогично рассуждению человека. По первым тестам, при выполнении определённых задач по математике, химии и программированию производительность R1 находится на одном уровне с o1^[27]^[37]^[38].

В мае 2025 года была выпущена улучшенная версия DeepSeek-R1, количество параметров которой выросло с 671 млрд до 685 млрд^[39]. Также вышла более легкая версия нейросети - DeepSeek-R1-0528-Qwen3-8B, созданная методом дистилляции с использованием языковой модели Qwen3-8B в качестве основы^[40].

V3.1

Крупная языковая модель, разработанная китайской компанией DeepSeek в 2025 году. Модель содержит около 685 миллиардов параметров и построена на гибридной архитектуре, объединяющей функции диалогового общения, логических рассуждений и программирования. DeepSeek V3.1 способна обрабатывать до 128 000 токенов контекста что позволяет анализировать тексты объёмом до нескольких сотен страниц^[41].

Remove ads

Критика и цензура

Суммиров вкратце

Перспектива

Thumb — Пример сравнения ChatGPT и DeepSeek о статусе Тайваня

Наблюдается, что официальная API-версия модели R1 использует механизмы цензуры для чувствительных тем, особенно тех, которые считаются политически значимыми в Китае. Например, модель отказывается отвечать на вопросы о событиях на площади Тяньаньмэнь в 1989 году. Иногда ИИ изначально генерирует ответ, но вскоре удаляет его и заменяет сообщением: «Sorry, that’s beyond my current scope. Let’s talk about something else.» (рус. «Извините, это выходит за рамки моих возможностей. Давайте поговорим о чём-нибудь другом.»)^[42]^[43].

Интегрированные механизмы цензуры и ограничения можно частично обойти только в открытой версии модели R1. Как только затрагиваются «основные социалистические ценности», определённые китайскими интернет-регуляторами, или поднимаются вопросы, связанные с Тайванем, дискуссии прекращаются^[44].

Журналист Энтони Кимери пишет, что система искусственного интеллекта потенциально может быть использована для влияния за границей: дезинформации, наблюдения и разработки кибероружия для китайских спецслужб. Или что приложение может передавать персональные данные пользователей в Китай^[45].

Газета The Indian Express отмечает, что распространены опасения по поводу времени запуска DeepSeek-R1 как сигнала Китая об уровне развития его ИИ. R1 появилась именно в тот момент, когда Дональд Трамп стал президентом США^[7].

Аналитики брокерской компании Bernstein предполагают, что общие затраты на обучение V3 намного выше, чем заявленные 5,58 млн $, и не считают модели DeepSeek чудом. Также они обращают внимание на то, что DeepSeek не раскрыла затраты на обучение R1. Генеральный директор компании Scale AI Александр Ван сказал в интервью, что якобы у DeepSeek есть 50 000 чипов Nvidia H100, но не привёл доказательств^[46]^[47]. OpenAI и Дэвид Сакс, спецпредставитель президента США по искусственному интеллекту, заподозрили, что DeepSeek использовала модели конкурента для обучения^[48]^[49].

Remove ads

См. также

Примечания

Loading content...

Ссылки

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads