Najlepsze pytania
Chronologia
Czat
Perspektywa

DeepSeek

chińskie przedsiębiorstwo zajmujące się sztuczną inteligencją Z Wikipedii, wolnej encyklopedii

Remove ads

DeepSeek (chiń. 深度求索, pinyin: Shēndù Qiúsuǒ) – chińskie przedsiębiorstwo zajmujące się sztuczną inteligencją, które opracowuje open-source’owe duże modele językowe. Siedziba firmy mieści się w Hangzhou w prowincji Zhejiang. Została założona w 2023 r., a jej pierwotny współtwórca, Liang Wenfeng, pełni funkcję jej dyrektora generalnego. Firma jest własnością chińskiego funduszu hedgingowego High-Flyer i jest przez niego w całości finansowana.

Szybkie fakty Państwo, Siedziba ...

DeepSeek uzyskał międzynarodowy rozgłos po wydaniu modelu DeepSeek R1 tworząc konkurencję dla takich chatbotów jak ChatGPT[2], mimo że według oficjalnego przekazu został opracowany przy znacznie niższych kosztach na poziomie 6 milionów dolarów amerykańskich, w porównaniu do 78 milionów dolarów za GPT-4 firmy OpenAI w 2023 r. i wymaga dziesiątej części mocy obliczeniowej porównywalnego LLM[3][4].

Remove ads

Modele i produkty

Podsumowanie
Perspektywa

Modele mieszanki ekspertów

9 stycznia 2024 został ogłoszony duży model językowy korzystający z techniki mieszanki ekspertów[5]. W porównaniu z modelem Llama od Meta dostępnym od lutego 2023, model wymagał tylko 28,5% wymaganych obliczeń[6].

Modele matematyczne

W kwietniu 2024 zespół wydał trzy modele matematyczne: Base, Instruct i RL. Modele te próbowały wykonać kroki logiczne podobne do operacji matematycznych po trenowaniu modelu równaniami matematycznymi[7].

V2

Thumb
Schemat mieszanki ekspertów i ukrytej uwagi wieloczłonowej w DeepSeek V2

Prace nad mechanizmem uwagi doprowadziły do opracowania własnej wersji tej techniki o nazwie Multihead Latent Attention (MLA)[8], która pozwala na uzyskanie ok. 10% zmniejszenia wielkości modelu w połączeniu w modelem mieszkanki ekspertów. Koszt inferencji modelu wyniósł jedną siódmą kosztu GPT-4[9].

V3

Thumb
Schemat działania modelu MTP

Wersja V3 modelu została oparta na V2 i stosuje technikę zwaną multi-token prediction training[10]. Podczas treningu zastosowano również zmienną precyzję zmiennoprzecinkową aby zmniejszyć czas treningu[11]. Trenowanie zajęło 2788 godzin na procesorach NVidia H800, z późniejszym dostrajaniem i uczeniem przez wzmacnianie. V3 składa się z 671 mld parametrów[12]. Porównania z modelami Llama i GPT-4 pokazywały przewagę V3 nad pozostałymi modelami[13][14].

R1

Zobacz też: model rozumujący.

Został R1 opracowany w okresie sankcji USA nałożonych na Chiny za układy scalone firmy Nvidia, których celem było ograniczenie możliwości kraju w zakresie opracowywania zaawansowanych systemów sztucznej inteligencji[15][16]. Dalsze ustalenia dziennikarskie wskazują jednak, że koszty wytworzenia modelu były znacznie wyższe. 6 milionów dolarów zostało wydane na fragment prac nad modelem, a całkowite koszty są trudne do ustalenia, chociaż najprawdopodobniej i tak pozostają niższe niż w przypadku ChatGPT. Według przecieków, do uczenia modelu wykorzystano około 50 tysięcy kart Nvidia, które w związku z nałożonymi sankcjami musiały zostać pozyskane nielegalnie[17].

Model został oparty na automatycznym uczeniu przez wzmacnianie, bez nadzorowanego dostrajania, które pozwoliło na osiągnięcie lepszego łańcucha myśli[18].

10 stycznia 2025 r. firma wydała swoją pierwszą bezpłatną aplikację chatbota, która do 27 stycznia prześcignęła ChatGPT i stała się najczęściej pobieraną bezpłatną aplikacją w App Store w Stanach Zjednoczonych, co spowodowało spadek ceny akcji firmy Nvidia o 18%[19][20][21].

DeepSeek udostępnił swój generatywny chatbot oparty na sztucznej inteligencji jako oprogramowanie typu open source, co oznacza, że jego kod jest swobodnie dostępny do użytku, modyfikacji i przeglądania[22].

Remove ads

Cenzura i obawy dotyczące prywatności

Podsumowanie
Perspektywa
Thumb
DeepSeek odpowiada na pytanie o Xi Jinpinga i Narendrę Modiego

Oficjalna wersja API R1 posiada filtr moderacyjny do filtrowania tematów drażliwych, zwłaszcza tych, które są uważane za politycznie drażliwe dla rządu Chińskiej Republiki Ludowej. Na przykład model ten odmawia odpowiedzi na pytania dotyczące protestów na placu Tian’anmen w 1989 r. i masakry na nim, prześladowań Ujgurów lub praw człowieka w Chinach[23]. Sztuczna inteligencja może początkowo wygenerować odpowiedź, ale wkrótce potem ją usunie i zastąpi wiadomością: „Przepraszam, to wykracza poza moje obecne kompetencje. Porozmawiajmy o czymś innym”[23]. Podczas testów przeprowadzonych przez NBC News, R1 DeepSeek opisał Tajwan jako „nieodłączną część terytorium Chin” i stwierdził: „Zdecydowanie sprzeciwiamy się wszelkim formom separatystycznych działań na rzecz «niepodległości Tajwanu» i jesteśmy zaangażowani w osiągnięcie całkowitego zjednoczenia ojczyzny za pomocą pokojowych środków”[24].

Istnieją również obawy, że system sztucznej inteligencji może zostać wykorzystany do wywierania wpływu na zagranicę, dezinformacji, nadzoru i opracowywania cyberbroni dla chińskich służb specjalnych[25]. Ponadto (podobnie jak w przypadku TikToka) eksperci ostrzegają, że aplikacja przesyła dane osobowe do ChRL[26].

Pod koniec stycznia 2025 dostęp do wersji internetowej i aplikacji mobilnej DeepSeek został zablokowany we Włoszech. Głównym powodem podanym przez rząd był brak transparentności odnośnie przechowywania danych[27]. DeepSeek został również zablokowany na poziomie administracji państwowej w Australii, Tajwanie i stanie Nowy Jork[28][29][30]. W lutym 2025 Korea Południowa zablokowała możliwość pobierania aplikacji mobilnej w celu zapewnienia zgodności z krajowymi przepisami o ochronie danych osobowych[31].

UODO zaleca ostrożność w korzystaniu z chatbota ze względu na możliwość przechowywania danych w ChRL, czyli kraju, dla którego Komisja Europejska nie wydała decyzji stwierdzającej odpowiedni poziom ochrony danych[32][33].

Remove ads

Przypisy

Linki zewnętrzne

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads