Wstępnie przeszkolony transformer generatywny

Wstępnie przeszkolony transformer generatywny (GPT) (ang. generative pre-trained transformer)^[1] – rodzaj dużego modelu językowego, czyli modelu uczenia maszynowego, który został wytrenowany na dużych zbiorach danych i potrafi generować tekst na podstawie podanego mu kontekstu. GPT jest jednym z największych i najbardziej zaawansowanych modeli językowych. Pierwszy model GPT został przedstawiony przez amerykańską spółkę OpenAI w 2018 roku^[2]. Do 2025 roku OpenAI przedstawiła pięć wersji GPT. Modele GPT są również rozwijane przez inne firmy, takie jak: EleutherAI^[3], Cerebras^[4].

W uproszczeniu można powiedzieć, że GPT jest programem komputerowym, który przetwarza ogromne ilości tekstu, aby nauczyć się reguł języka. Następnie, gdy dostanie fragment tekstu, potrafi wygenerować sensowne i poprawne gramatycznie kontynuacje zdania, a gdy dostanie zapytanie, potrafi wygenerować sensowne odpowiedzi^[5]. Model GPT był trenowany na różnorodnych źródłach danych, w tym na artykułach z Wikipedii, artykułach prasowych i różnorodnych tekstach z internetu^[5].

Tym, co odróżnia GPT od innych rozwiązań typu 'dużego modelu językowego' (LLM), jest fakt, że model może być trenowany metodą uczenia nienadzorowanego. Dzieje się tak w pierwszej fazie treningu. W kolejnej fazie model jest trenowany metodą nadzorowaną, ale skupioną na konkretnych zastosowaniach^[2].

GPT jest modelem opartym na sieciach neuronowych – transformerach, które zostały specjalnie zaprojektowane do przetwarzania sekwencji danych, takich jak tekst^[2]. Sieci neuronowe są matematycznymi modelami, które próbują naśladować sposób działania ludzkiego mózgu, dzięki czemu potrafią uczyć się na podstawie przykładów i przetwarzać duże ilości danych. W przypadku GPT, sieci neuronowe są wykorzystywane do trenowania modelu językowego na dużym zbiorze danych tekstowych.

Jednym z najbardziej znanych zastosowań modelu GPT jest aplikacja ChatGPT udostępniona przez OpenAI.

[1]

[2]

[3]

[4]

[5]

Model	Architektura	Parametry	Warstwy dekodera	Rozmiar kontekstu tokenów	Warstwa ukryta	Rozmiar partii	Koszt treningu
GPT-1	12-warstw, 12-częściowy dekoder transformera (bez koderów), wraz z funkcją softmax	117 milionów	12	512	768	64	30 dni na 8 kartach P600, 1 petaFLOPS-dni^[16]
GPT-2	GPT-1, ze zmodyfikowaną normalizacją	1,5 miliarda	48	1024	1600	512	"dziesiątki petaFLOPS-dni"^[17], lub $1.5^{21}$ operacji zmiennoprzecinkowych^[18]
GPT-3	GPT-2, z usprawnieniami zwiększającymi skalowanie	175 miliardów^[19]	96	2048	12 288	3,2 mln	"3640 petaFLOPS-dni"^[17], lub $3.1^{23}$ op. zmiennoprz.^[18]
GPT-4	nauczanie z predykcją tekstu i uczeniem się przez wzmacnianie na podstawie informacji zwrotnej od ludzi. Akceptuje tekst jak i obraz^[20]	Nieujawniona, szacunkowo ok. 1,7 biliona^[21]	768	8 192 do 32 768	49 152	Nieznany	Nieujawniona, szacunkowo $10^{25}$ op. zmiennoprz.^[18]
GPT-4o	?
GPT-4.5	?
GPT-4.1	?
GPT-5	?

Wstępnie przeszkolony transformer generatywny

Historia

Wczesne prace

Rozwój modeli GPT

Modele fundamentalne

Przypisy

Linki zewnętrzne

Wikiwand - on