Generative pre-trained transformer

Un generative pre-trained transformer (o GPT, in italiano trasformatore generativo pre-addestrato) è un tipo di modello linguistico di grandi dimensioni (LLM)^[1]^[2]^[3] e un importante framework per l’intelligenza artificiale generativa.^[4]^[5] Si tratta di una rete neurale artificiale usata per l’elaborazione del linguaggio naturale da parte delle macchine.^[6] È basata sull’architettura transformer del deep learning, pre-addestrata su grandi dataset di testi non etichettati e in grado di generare nuovi contenuti simili a quelli umani.^[2]^[3] A partire dal 2023, la maggior parte dei LLM presentava queste caratteristiche^[7] ed erano talvolta definiti in modo generico come GPT.^[8]

Il primo GPT è stato introdotto nel 2018 da OpenAI.^[9] OpenAI ha rilasciato importanti modelli fondamentali GPT numerati in sequenza, a formare la serie "GPT-n".^[10] Ognuno di questi era significativamente più potente del precedente, grazie all’aumento delle dimensioni (numero di parametri addestrabili) e dell’addestramento. Il più recente, GPT-4o, è stato rilasciato nel maggio 2024.^[11] Tali modelli hanno costituito la base per sistemi GPT specializzati, inclusi modelli ottimizzati per seguire istruzioni, che a loro volta alimentano ChatGPT.^[1]

Il termine "GPT" è utilizzato anche nei nomi e nelle descrizioni di modelli sviluppati da altri. Ad esempio, altri modelli fondamentali GPT includono una serie di modelli creati da EleutherAI,^[12] e sette modelli creati da Cerebras nel 2023.^[13] Aziende in vari settori hanno sviluppato GPT specializzati per compiti specifici nei rispettivi ambiti, come "EinsteinGPT" di Salesforce (per la CRM)^[14] e "BloombergGPT" di Bloomberg (per la finanza).^[15]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Generative pre-trained transformer

Note

Wikiwand - on