Najlepsze pytania
Chronologia
Czat
Perspektywa
Wstępnie przeszkolony transformator generatywny
typ dużego modelu językowego Z Wikipedii, wolnej encyklopedii
Remove ads
Remove ads
Wstępnie przeszkolony transformator generatywny (GPT)[1] (ang. generative pre-trained transformer)[2] – rodzaj dużego modelu językowego, czyli modelu uczenia maszynowego, który został wytrenowany na dużych zbiorach danych i potrafi generować tekst na podstawie podanego mu kontekstu. GPT jest jednym z największych i najbardziej zaawansowanych modeli językowych. Pierwszy model GPT został przedstawiony przez amerykańską spółkę OpenAI w 2018 roku[3]. Do 2024 roku OpenAI przedstawiła cztery wersje GPT. Modele GPT są również rozwijane przez inne firmy, takie jak: EleutherAI[4], Cerebras[5].

W uproszczeniu można powiedzieć, że GPT jest programem komputerowym, który przetwarza ogromne ilości tekstu, aby nauczyć się reguł języka. Następnie, gdy dostanie fragment tekstu, potrafi wygenerować sensowne i poprawne gramatycznie kontynuacje zdania, a gdy dostanie zapytanie, potrafi wygenerować sensowne odpowiedzi[6]. Model GPT był trenowany na różnorodnych źródłach danych, w tym na artykułach z Wikipedii, artykułach prasowych i różnorodnych tekstach z internetu[6].
Tym, co odróżnia GPT od innych rozwiązań typu 'dużego modelu językowego' (LLM), jest fakt, że model może być trenowany metodą uczenia nienadzorowanego. Dzieje się tak w pierwszej fazie treningu. W kolejnej fazie model jest trenowany metodą nadzorowaną, ale skupioną na konkretnych zastosowaniach[3].
GPT jest modelem opartym na sieciach neuronowych – transformatorach, które zostały specjalnie zaprojektowane do przetwarzania sekwencji danych, takich jak tekst[3]. Sieci neuronowe są matematycznymi modelami, które próbują naśladować sposób działania ludzkiego mózgu, dzięki czemu potrafią uczyć się na podstawie przykładów i przetwarzać duże ilości danych. W przypadku GPT, sieci neuronowe są wykorzystywane do trenowania modelu językowego na dużym zbiorze danych tekstowych.
Jednym z najbardziej znanych zastosowań modelu GPT jest aplikacja ChatGPT udostępniona przez OpenAI.
Remove ads
Historia
Podsumowanie
Perspektywa
Wczesne prace
Generatywne wstępne przeszkolenie (ang. Generative pretraining, GP) jest pojęciem znanym wcześniej w zagadnieniach uczenia maszynowego[7][8]. Był oryginalnie używany w uczeniu półnadzorowanym, gdzie model jest najpierw uczony na nieoznaczonych zbiorach danych aby generować etykiety w zbiorze danych, dla którego potem jest przeprowadzanie uczenie się klasyfikatora[9].
W latach dwa tysiące dziesiątych problem tłumaczenia maszynowego był adresowany z użyciem sieci RNN wraz z mechanizmem uwagi[10]. Ta koncepcja została później ulepszona w architekturze transformatora[11]. To zapoczątkowało tworzenie dużych modeli językowych jak BERT w 2018, który posiada wstępnie wytrenowany transformer ale nie był stworzony jako model generatywny (BERT składał się tylko z koderów)[12].
Rozwój modeli GPT
GPT-1, pierwszy model z serii, został wydany w 2018 roku[13]. GPT-1 jako pierwszy model w serii GPT zastosował innowacyjne podejście do uczenia nienadzorowanego i uczenia transferowego. Umożliwiło to generowanie tekstów o większej spójności i zrozumiałości w porównaniu do wielu wcześniejszych modeli przetwarzania języka naturalnego, co stanowiło istotny krok w rozwoju sztucznej inteligencji opartej na przetwarzaniu języka naturalnego.
GPT-2 zostało wydane w lutym 2019 roku, a GPT-3 w czerwcu 2020 roku.
Kolejne wersje wprowadzały fundamentalne zmiany w architekturze i usprawnienia względem GPT-1, takie jak: zwiększenie liczby parametrów , co pozwoliło na lepsze modelowanie języka, oraz wytrenowanie na znacznie większym i bardziej zróżnicowanym zbiorze danych, dzięki czemu modele były w stanie lepiej generalizować i radzić sobie z różnorodnymi zadaniami związanymi z przetwarzaniem języka naturalnego.
Postęp w rozwoju modelu GPT-3 pozwolił na przełom w postaci nabycia przez model umiejętności wykonywania prostych zadań arytmetycznych, w tym tworzenia fragmentów kodu i wykonywania zadań wymagających pewnego poziomu inteligencji[14]. GPT-4, najnowsza generacja modeli GPT, została udostępniona 14 marca 2023 roku. Nowszy model charakteryzuje się o 82% niższym prawdopodobieństwem udzielenia odpowiedzi na żądania użytkowników dotyczących treści niedozwolonych oraz o 40% większym prawdopodobieństwem przedstawienia odpowiedzi zgodnych z faktami w porównaniu z modelem GPT-3.5[15].
Remove ads
Modele fundamentalne
Podsumowanie
Perspektywa
Postęp i złożoność kolejnych wersji modelu fundamentalnego GPT obrazuje tabela:
Remove ads
Przypisy
Linki zewnętrzne
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads