Generativni prethodno obučeni transformator

Generativni prethodno obučeni transformator (GPT) su tip velikih jezičkih modela (LLM)^[1]^[2]^[3] i prominentni okvir za generativnu veštačku inteligenciju.^[4]^[5] Oni su veštačke neuronske mreže koje se koriste u zadacima obrade prirodnog jezika.^[6] GPT-ovi su zasnovani na arhitekturi transformatora, prethodno obučeni za velike skupove podataka neoznačenog teksta i sposobni da generišu novi sadržaj slično ljudskom radu.^[2]^[3] Od 2023. godine većina LLM-a ima ove karakteristike^[7] i ponekad se široko nazivaju GPT-ovi.^[8]

Prvi GPT je uveo OpenAI 2018. godine.^[9] OpenAI je objavio veoma uticajne GPT fondacijske modele koji su naknadno numerisani, da bi obuhvatali svoju „GPT-n“ seriju.^[10] Svaki od njih je bio znatno sposobniji od prethodnog, zbog povećane veličine (broja parametara za obuku) i obuke. Najnoviji od njih, GPT-4, objavljen je u martu 2023. godine.^[11] Takvi modeli su bili osnova za njihove GPT sisteme koji su specifični za zadate zadatke, uključujući modele fino podešene za praćenje instrukcija — koji zauzvrat pokreću ChatGPT čatbot servis.^[1]

Termin „GPT” se takođe koristi u nazivima i opisima takvih modela koje su razvili drugi. Na primer, drugi modeli GPT osnova uključuju seriju modela kreiranih od strane EleutherAI,^[12] i sedam modela koje je kreirao Cerebras 2023. godine.^[13] Takođe, kompanije u različitim industrijama razvile su GPT-ove specifične za zadatke u svojim oblastima, kao što je Sejlsfosov „EinsteinGPT“ (za CRM)^[14] i Blumbergov „BloombergGPT“ (za finansije).^[15]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Generativni prethodno obučeni transformator

Reference

Wikiwand - on