Najlepsze pytania
Chronologia
Czat
Perspektywa

Generatywna sztuczna inteligencja

sztuczna inteligencja korzystająca z modeli generatywnych Z Wikipedii, wolnej encyklopedii

Generatywna sztuczna inteligencja
Remove ads

Generatywna sztuczna inteligencja (ang. generative artificial intelligence, generative AI, GenAI) – ogół narzędzi sztucznej inteligencji służących do generowania tekstu, obrazów, filmów i innych danych z wykorzystaniem modeli generatywnych, najczęściej na podstawie podanych przez użytkownika podpowiedzi (ang. prompts)[1]. Modele generatywnej sztucznej inteligencji uczą się wzorców i struktury danych wejściowych, a następnie generują nowe dane o podobnych cechach[2].

Thumb
Théâtre D’opéra Spatial, obraz wygenerowany za pomocą Midjourney

Ulepszenia głębokich sieci neuronowych opartych na transformerach, w szczególności dużych modeli językowych (LLM), umożliwiły rozwój generatywnych systemów sztucznej inteligencji na początku lat dwudziestych XXI wieku. Należą do nich chatboty, takie jak ChatGPT, Copilot, Gemini, DeepSeek i Claude, systemy generowania obrazu oparte na sztucznej inteligencji przekształcające tekst na obraz, takie jak Stable Diffusion, Midjourney i DALL-E, a także generatory przetwarzające tekst na wideo (np Sora) lub muzykę. Firmy takie jak OpenAI, Anthropic, Microsoft, Google i Baidu, a także wiele mniejszych firm opracowały własne generatywne modele sztucznej inteligencji[3][4].

Generatywna sztuczna inteligencja ma zastosowania w wielu różnych branżach, w tym w tworzeniu oprogramowania, opiece zdrowotnej, finansach, rozrywce, obsłudze klienta[5], sprzedaży i marketingu[6], sztuce, literaturze[7], modzie[8] i projektowaniu produktów. Pojawiły się jednak obawy dotyczące potencjalnego niewłaściwego wykorzystania generatywnej sztucznej inteligencji (cyberprzestępczość, generowanie fałszywych wiadomości lub deepfakes do oszukiwania ludzi lub manipulowania nimi)[9][10].

Remove ads

Historia

Podsumowanie
Perspektywa

Wczesna historia

Thumb
Automaton Maillardeta - programowalne urządzenie potrafiące generować grafikę

Pomysł generatywnej sztuki był znany w starożytnej Grecji gdzie tacy wynalazcy jak Dedal czy Heron z Aleksandrii byli opisywani jako potrafiący tworzyć maszyny automaton(inne języki), które potrafiły pisać tekst, tworzyć dźwięki czy grać muzykę[11][12]. Jednym z bardziej znanych maszyn tego typu jest automaton Maillardeta(inne języki).

Łańcuch Markowa był używany do analizy tekstu naturalnego od pierwszej publikacji przez jego twórcę Andrieja Markowa, który w 1906 opublikował analizę samogłosek w powieści Eugeniusz Oniegin[13][14]. Gdy łańcuch nauczy się korpusu języka, może zostać użyty jako generator tekstu oparty na prawdopodobieństwie[15][16].

Badania nad sztuczną inteligencją

Od lat 50. XX wieku artyści i badacze wykorzystywali sztuczną inteligencję do tworzenia dzieł artystycznych. Już w latach 70. Harold Cohen tworzył i prezentował generatywne dzieła sztuki oparte na AI, stworzone za pomocą AARON-a – programu komputerowego zaprojektowanego w celu generowania obrazów[17].

Terminy planowanie generatywne był używany w latach 80. i 90. XX wieku w odniesieniu do systemów planowania wykorzystujących sztuczną inteligencję (zwłaszcza systemów CAPP), które służyły do generowania sekwencji kroków wymaganych do osiągnięcia określonego celu[18][19].

Systemy generatywnego planowania AI wykorzystywały symboliczne metody, takie jak przeszukiwanie przestrzeni stanów(inne języki) i rozwiązywanie problemów z ograniczeniami(inne języki), i były już stosunkowo dojrzałą technologią na początku lat 90. Wykorzystywano je do tworzenia planów działania w sytuacjach kryzysowych na potrzeby wojska[20], planów procesów produkcyjnych[21] oraz planów decyzyjnych, m.in. w prototypowych autonomicznych statkach kosmicznych[22].

Generatywne sieci neuronowe (2000–2019)

Thumb
Powyżej: przykład klasyfikacji obrazów oparty na modelu dyskryminacyjnym. Poniżej: model generatywny tworzący obraz z tekstu

Od początku swojego istnienia dziedzina uczenia maszynowego wykorzystywała do przewidywania danych zarówno modele dyskryminacyjne (zwracające przewidywaną klasyfikację lub rozkład warunkowy zmiennej objaśnianej), jak i generatywne (umożliwiające generowanie potencjalnych obserwacji). Począwszy od końca lat 2000, pojawienie się uczenia głębokiego napędziło postęp oraz badania w obszarach takich jak klasyfikacja obrazów, rozpoznawanie mowy czy przetwarzanie języka naturalnego. Sieci neuronowe w tym okresie były zazwyczaj trenowane jako modele dyskryminacyjne ze względu na trudności związane z modelowaniem generatywnym[23][24].

W miarę jak uczenie głębokie zyskiwało na popularności w latach 2010., coraz większym zainteresowaniem cieszyły się modele generowania obrazów z wykorzystaniem głębokich sieci neuronowych, takie jak DeepDream(inne języki) oparty na sieciach konwolucyjnych[25]. W 2014 roku pojawiły się przełomowe rozwiązania, takie jak autoenkodery wariacyjne i generatywne sieci przeciwstawne (GAN) pozwalające na tworzenie bardziej zaawansowanych modeli generatywnych.

Przedstawiona w 2017 architektura transformerach umożliwiła postęp w modelach generatywnych w porównaniu do starszych modeli wykorzystujących długą pamięć krótkotrwałą[26]. Doprowadziło to do stworzenia architektury GPT-1 w 2018 i GPT-2 w 2019[27].

Nowe modele generatywne wprowadzone w tym okresie pozwoliły na uczenie nienadzorowane, co pozwoliło na znaczne ograniczenie lub eliminację czynnika ludzkiego w przygotowywaniu zbiorów uczących, co pozwoliło na tworzenie dużych modeli językowych[28].

Rozkwit generatywnej sztucznej inteligencji (od 2020 roku)

W marcu 2020 roku udostępniono 15.ai – darmową aplikację internetową stworzoną przez anonimowego badacza z MIT, która potrafiła generować realistyczne głosy postaci przy użyciu minimalnej ilości danych treningowych. Był to jeden z pierwszych przypadków powszechnego wykorzystania generatywnej AI[29].

Pojawienie się w 2021 roku usługi DALL-E – modelu generującego obrazy z tekstu – stanowiło przełom w dziedzinie obrazów generowanych przez sztuczną inteligencję[30]. W ślad za tym, powstały takie narzędzia jak Midjourney[31] czy Stable Diffusion w 2022[32].

Thumb
Wykres pokazujący wielkość prywatnych inwestycji w sztuczną inteligencję (różowy) i generatywną sztuczną inteligencję (zielony)

W listopadzie 2022 OpenAI wydało ChatGPT[33], który potrafił przeprowadzać konwersację z użytkownikiem, a później także generować obrazy, asystować przy tworzeniu kodu i przeprowadzać analizy, co spowodowało debatę nad wpływem generatywnej sztucznej inteligencji w przemyśle, edukacji czy sztuce[34].

W grudniu 2023 Google wprowadziło Gemini, multimodalny model sztucznej inteligencji dostępny w czterech wersjach: Ultra, Pro, Flash i Nano[35]. Firma zintegrowała Gemini Pro ze swoim chatbotem Bard i zapowiedziała wprowadzenie „Bard Advanced” opartego na większym modelu Gemini Ultra[36]. W lutym 2024 r. firma Google połączyła programy Bard i Duet AI pod marką Gemini, wprowadzając aplikację mobilną na system Android i integrując usługę z aplikacją Google na system iOS[37].

W marcu 2024 Anthropic zaprezentował rodzinę dużych modeli językowych Claude 3, obejmującą modele Claude 3 Haiku, Sonnet i Opus[38]. Modele te wykazały znaczną poprawę wydajności w różnych testach porównawczych, a model Claude 3 Opus znacznie przewyższył czołowe modele firm OpenAI i Google[39]. W czerwcu 2024 roku Anthropic wprowadził na rynek Claude 3.5 Sonnet, który osiągał lepsze wyniki niż większy model Claude 3 Opus, zwłaszcza w takich obszarach jak kodowanie, wieloetapowe procesy robocze i analiza obrazów[40].

W styczniu 2025 firma DeepSeek wypuściła model R1, stanowiący alternatywę dla takich usług jak ChatGPT czy Claude[41].

Remove ads

Zastosowania

Podsumowanie
Perspektywa

Generatywna sztuczna inteligencja jest wykorzystywana w wielu branżach.

Generowanie tekstu i kodu

Główny artykuł: duży model językowy.
Zobacz też: vibe coding.

Generatywne systemy AI trenowane na korpusach tekstowych obejmują Bielik, PLLuM, GPT, Mistral, Gemini, Claude, DeepSeek, Qwen i inne. Są one używane do przetwarzania języka naturalnego, tłumaczenia maszynowego i generowania języka naturalnego.

Oprócz tekstu w języku naturalnym, duże modele językowe można trenować na kodzie języka programowania, co pozwala im generować kod źródłowy dla nowych programów komputerowych[42]. Przykładem zastosowania GenAI do generowania kodu jest GitHub Copilot.

Obrazy

Tworzenie obrazów jest jednym z głównych zastosowań generatywnej sztucznej inteligencji[43].

Wideo

Wideo wygenerowane przez Sora z podpowiedzią "Borneo wildlife on the Kinabatangan River"

Generatywna sztuczna inteligencja wytrenowana na oznaczonych filmach może generować spójne czasowo, szczegółowe i fotorealistyczne materiały wideo. Przykłady takich technologii to m.in. Sora firmy OpenAI[44], Runway(inne języki)[45] oraz Make-A-Video od Meta Platforms[46].

Robotyka

Generatywna sztuczna inteligencja może być również wytrenowana na podstawie ruchów systemu robotycznego, aby generować nowe trajektorie do planowania ruchu lub nawigacji[47][48].

Remove ads

Oprogramowanie i sprzęt

Podsumowanie
Perspektywa
Thumb
Architektura generatywnego agenta AI z wejściem, obróbką wstępną, dużym modelem językowym i obróbką końcową.

Generatywna sztuczna inteligencja znajduje zastosowanie m.in. w tworzeniu czatbotów, takich jak ChatGPT, narzędzi programistycznych, jak GitHub Copilot[49], generowaniu obrazów z tekstu (np. Stable Diffusion) oraz wideo z tekstu (np. Sora). Modele generatywne są również integrowane z produktami biurowymi, takimi jak Microsoft Office[50].

Mniejsze modele generatywne (poniżej 10 miliardów parametrów) mogą działać na niewielkich urządzeniach, takich jak Raspberry Pi[51] albo iPhone 11[52].

Z kolei modele zawierające dziesiątki miliardów parametrów mogą być uruchamiane na laptopach lub komputerach stacjonarnych, choć często wymagają one dodatkowych akceleratorów, takich jak GPU czy NPU[53].

Thumb
Nvidia H100, jedna z kart używana na początku 2020. do tworzenia dużych modeli generatywnej sztucznej inteligencji

Modele liczące setki miliardów parametrów, takie jak GPT-4, wymagają specjalistycznych serwerów wyposażonych w macierze GPU, jak Nvidia H100(inne języki), lub NPU (np. Google TPU). Centra danych obsługujące takie systemy potrafią pobierać 100-150 MW energii elektrycznej[54][55][56]. W 2024 roku cena jednej karty GPU klasy serwerowej, takiej jak Nvidia H100, wynosi 25-30 tys. USD[57].

W 2022 roku Stany Zjednoczone wprowadziły ograniczenia eksportu zaawansowanych układów obliczeniowych do Chin(inne języki). W odpowiedzi powstały takie rozwiązania jak Nvidia A800[58], H800[59] oraz Biren Technology BR104[60]. Kolejne zaostrzenia ogłoszone przez administrację Stanów Zjednoczonych[61] doprowadziły do opracowania układu Nvidia H20 w roku 2024, zaprojektowanego specjalnie z myślą o rynku chińskim[62], których sprzedaż została jednak zablokowana w kwietniu 2025[63].

W 2024 roku zaproponowano nowy system ograniczeń eksportu zaawansowanych chipów korzystających z technologii ze Stanów Zjednoczonych z podziałem na 3 grupy państw[64][65]:

  1. kraje bez ograniczeń w imporcie, takie jak Stany Zjednoczone, Niemcy, Francja czy Japonia,
  2. kraje z limitem wynoszącym 50 tys. zaawansowanych chipów, m.in. Polska, Izrael, Meksyk czy Indonezja,
  3. kraje objęte zakazem eksportu, takie jak Chiny, Rosja.

W maju 2025 administracja Trumpa odrzuciła propozycje kategoryzacji państw w eksporcie zaawansowanych chipów na rzecz bardziej restrykcyjnych przepisów wymagających wykorzystanie sprzętu za granicą tylko w ramach infrastruktury kontrolowanej przez amerykańskie firmy technologiczne[66].

W styczniu 2025 ogłoszono projekt Stargate zakładający inwestycje na poziomie 500 mld USD w centra danych w Stanach Zjednoczonych wspomagające działanie aplikacji sztucznej inteligencji[67], zaś trzy tygodnie później UE ogłosiła program inwestycji w AI w kwocie 200 mld euro[68].

Modele i techniki generatywne

Sieci generatywne GAN

Thumb
Porównanie wyników procesu generowania obrazu przez sieci VAE i GAN.

Sieci generatywne GAN składają się z dwóch sieci neuronowych: generatora i dyskryminatora. Generator tworzy dane testowe, przekształcając losowy szum w próbki przypominające zestaw danych treningowych. Dyskryminator jest trenowany, aby odróżniać autentyczne dane od danych testowych wytworzonych przez generator[69]. Oba modele biorą udział w grze o sumie zerowej: generator ma na celu tworzenie coraz bardziej realistycznych danych, aby „oszukać” dyskryminator, podczas gdy dyskryminator poprawia swoją zdolność odróżniania danych rzeczywistych od fałszywych. Ta ciągła konfiguracja treningowa umożliwia generatorowi generowanie realistycznych wyników wysokiej jakości[70].

Autoenkoder wariacyjny

Autoenkodery wariacyjne (VAE) to modele uczenia głębokiego, które losowo kodują dane. Są one zazwyczaj używane do zadań takich jak redukcja szumów z obrazów, kompresja danych, identyfikacja nietypowych wzorców i rozpoznawanie twarzy. W przeciwieństwie do standardowych autoenkoderów, które kompresują dane wejściowe do stałej reprezentacji ukrytej, VAE posiadają przestrzeń ukrytą jako rozkład prawdopodobieństwa, umożliwiając płynne próbkowanie i interpolację między punktami danych[71]. Stosuje się je w takich zastosowaniach, jak generowanie obrazu, interpolacja danych i wykrywanie anomalii.

Transformer

Thumb
Pełna architektura GPT

Transformery stały się podstawą wielu modeli generatywnych, w szczególności serii GPT opracowanych przez OpenAI. Wywarły one znaczący wpływ w przetwarzaniu języka naturalnego, zastępując tradycyjne modele rekurencyjne i konwolucyjne[72]. Transformery pozwalają modelom przetwarzać całe sekwencje jednocześnie i wychwytywać zagnieżdżone zależności bardziej efektywnie. Mechanizm samouwagi umożliwia modelowi wychwytywanie znaczenia każdego słowa w sekwencji podczas przewidywania kolejnego słowa, co poprawia jego kontekstowe zrozumienie. W przeciwieństwie do rekurencyjnych sieci neuronowych, transformery przetwarzają wszystkie tokeny równolegle, co poprawia wydajność i skalowalność szkolenia.

Remove ads

Regulacje prawne

Ta sekcja jest niekompletna. Jeśli możesz, rozbuduj ją.

Obowiązująca w Unii Europejskiej Ustawa o Sztucznej Inteligencji zawiera wytyczne dotyczące informowania o chronionych prawami autorskimi materiałach wykorzystywanych do trenowania generatywnych systemów sztucznej inteligencji oraz oznaczania jako takie wszelkich wytworzonych przez sztuczną inteligencję treści[73][74].

Zastrzeżenia i obawy

Podsumowanie
Perspektywa

Utrata zatrudnienia

Główny artykuł: Bezrobocie technologiczne.
Thumb
Demonstrant podczas strajku Writers Guild of America w 2023 roku. Chociaż nie było to priorytetem, jednym z postulatów WGA na rok 2023 były „przepisy regulujące wykorzystanie (generatywnej) sztucznej inteligencji”[75].

Od początku rozwoju sztucznej inteligencji pojawiały się argumenty, wysuwane między innymi przez twórcę ELIZY, Josepha Weizenbauma, dotyczące tego, czy zadania, które mogą być wykonywane przez komputery, rzeczywiście powinny być przez nie wykonywane, biorąc pod uwagę różnice między komputerami a ludźmi oraz między obliczeniami ilościowymi a jakościowymi, opartymi na wartościach osądami[76]. W kwietniu 2023 r. odnotowano, że w wyniku zastosowania sztucznej inteligencji do generowania obrazów zlikwidowano 70% stanowisk pracy dla ilustratorów gier wideo w Chinach[77][78]. W lipcu 2023 r. rozwój sztucznej inteligencji generatywnej przyczynił się do konfliktów pracowniczych w Hollywood w 2023 roku(inne języki). Podczas strajku SAG-AFTRA w 2023(inne języki) r. Fran Drescher, prezes Screen Actors Guild, oświadczyła, że „sztuczna inteligencja stanowi egzystencjalne zagrożenie dla zawodów kreatywnych”[79]. Sztuczna inteligencja służąca do generowania głosu jest postrzegana jako potencjalne zagrożenie dla branży aktorów głosowych(inne języki)[80][81].

Stronniczość dotycząca rasy i płci

Modele generatywnej sztucznej inteligencji mogą odzwierciedlać i wzmacniać wszelkie uprzedzenia kulturowe obecne w danych wejściowych. Na przykład model językowy może zakładać, że lekarze i sędziowie są mężczyznami, a sekretarki lub pielęgniarki są kobietami, jeśli takie uprzedzenia są powszechne w danych treningowych[82]. Podobnie model generujący obrazy, któremu podano tekst „zdjęcie CEO”, może w nieproporcjonalny sposób generować obrazy białych mężczyzn pełniących funkcję CEO[83], jeśli został przeszkolony na bazie danych obciążonych stronniczością rasową. Podjęto wiele prób złagodzenia tej stronniczości, np. poprzez zmianę poleceń wejściowych[84] i zmianę wagi danych treningowych[85].

Deepfake

Główny artykuł: Deepfake.

Deepfake (połączenie słów „deep learning” i „fake”[86][87]) to wygenerowane lub zmanipulowane przez sztuczną inteligencję obrazy, treści dźwiękowe lub treści wideo, które przypominają istniejące osoby, przedmioty, miejsca, podmioty lub zdarzenia, które odbiorca mógłby niesłusznie uznać za autentyczne lub prawdziwe[88]. Deepfake'i wzbudziły szerokie zainteresowanie i obawy ze względu na ich wykorzystanie do tworzenia pornograficznych filmów z udziałem celebrytów(inne języki), pornografii zemsty(inne języki)(ang. revenge porn)[89][90], fake newsów, mystyfikacji[91][92], dezinformacji dotyczących zdrowia[93], oszustw finansowych(inne języki)[94] oraz potajemnej zagranicznej ingerencji w wybory(inne języki)[95][96]. W związku z tym zarówno branża sztucznej inteligencji, jak i rząd Stanów Zjednoczonych podjęły działania mające na celu wychwytywanie i ograniczanie takich praktyk[97][98].

Nielegalne treści wizualne

Powstało wiele stron internetowych, które umożliwiają generowanie przez sztuczną inteligencję obrazów lub filmów o charakterze pornograficznym[99], co zostało wykorzystane do tworzenia nielegalnych treści, takich jak materiały przedstawiające zgwałcenia, wykorzystywanie seksualne dzieci[100][101][102], nekrofilię i zoofilię[103].

Zużycie energii i wpływ na środowisko

Sztuczna inteligencja ma znaczący ślad węglowy ze względu na rosnące zużycie energii zarówno podczas trenowania, jak i użytkowania[104][105]. Naukowcy i dziennikarze wyrazili obawy dotyczące skutków środowiskowych związanych z opracowywaniem i wykorzystywaniem modeli generatywnych: wysoka emisja CO2[106][107][108], duże zużycie wody słodkiej w centrach danych[109][110] oraz wysokie zużycie energii elektrycznej[107][111][112]. Istnieją również obawy, że wpływ ten może się zwiększyć w miarę włączania tych modeli do powszechnie używanych wyszukiwarek, takich jak Google Search i Bing[111], wraz ze wzrostem popularności chatbotów i innych aplikacji[110][111] oraz koniecznością ponownego trenowania modeli[113].

Uważa się, że ślad węglowy generatywnej sztucznej inteligencji na całym świecie stale rośnie, a jej szacunkowa roczna emisja w 2035 r. wyniesie od 18,21 do 245,94 mln ton CO2[114]. Najwyższe szacunki na rok 2035 są zbliżone do emisji generowanych przez przemysł hodowli bydła w Stanach Zjednoczonych (szacowane obecnie na 257,5 mln ton rocznie według stanu na rok 2024)[115].

Niska jakość generowanych treści

Thumb
Obraz „Krewetkowego Jezusa” jest często używanym przykładem tego, co określa się jako „AI slop

AI slop(inne języki) to określenie na masowo generowane przez sztuczną inteligencję treści niskiej jakości, często chaotyczne, bezsensowne i bezcelowe[116][117][118]. New York Times definiuje AI slop jako zjawisko analogiczne do spamu: „badziewne lub niepożądane treści generowane przez sztuczną inteligencję występujące w mediach społecznościowych, sztuce, książkach i... wynikach wyszukiwania”[119]. W dziennikarzach wzbudza niepokój skala generowanych treści niskiej jakości, zwłaszcza w obszarach takich jak: moderowanie treści w mediach społecznościowych[120], korzyści finansowe oferowane przez firmy zajmujące się mediami społecznościowymi za rozpowszechnianie takich treści[120][121], wprowadzające w błąd treści polityczne[121], zasypywanie serwisów naukowych dużą ilością przesyłanych artykułów[122], zwiększony nakład czasu i wysiłku potrzebny do znalezienia w Internecie treści o lepszej jakości lub pożądanych treści[118] i indeksowanie wygenerowanych treści przez wyszukiwarki internetowe[123] – a także ich wpływ na samo dziennikarstwo[124].

W artykule opublikowanym przez naukowców z Amazon Web Services AI Labs stwierdzono, że ponad 57% zdań z puli ponad 6 miliardów zdań pochodzących z Common Crawl(inne języki), czyli zbioru stron internetowych, zostało przetłumaczonych maszynowo. Jakość wielu z tych automatycznych tłumaczeń uznano za niską, zwłaszcza w przypadku zdań przetłumaczonych na co najmniej trzy języki. Wiele języków o niższych zasobach (np. Wolof, Xhosa) zostało przetłumaczonych na więcej języków niż języki o wyższych zasobach (np. angielski, francuski)[125][126].

Rozpowszechnienie narzędzi opartych na generatywnej sztucznej inteligencji doprowadziło do eksplozji treści generowanych przez AI w wielu dziedzinach. W badaniu przeprowadzonym przez University College London oszacowano, że w 2023 roku przy wsparciu LLM powstało ponad 60 000 artykułów naukowych — ponad 1% wszystkich publikacji[127]. Według Institute for Human-Centered AI na Uniwersytecie Stanforda, około 17,5% nowo opublikowanych artykułów z dziedziny nauk komputerowych i 16,9% recenzowanych tekstów zawiera obecnie treści wygenerowane za pomocą LLM[128]. Przedstawiciele wielu dyscyplin naukowych mają obawy co do wiarygodności treści akademickich generowanych przez sztuczną inteligencję[129].

Podobny trend dotyczy treści wizualnych. Szacuje się, że od czasu uruchomienia DALL-E 2 w 2022 r. generowano średnio 34 miliony obrazów dziennie. W sierpniu 2023 r. wygenerowano ponad 15 miliardów obrazów przy użyciu algorytmów zamiany tekstu na obraz, z czego 80% zostało stworzonych przez modele oparte na Stable Diffusion[130].

Remove ads

Przypisy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads