Modello linguistico di grandi dimensioni

Un modello linguistico di grandi dimensioni (anche modello linguistico ampio o modello linguistico grande),^[1] noto anche con l'inglese large language model (in sigla LLM) è un tipo di modello linguistico notevole per essere in grado di ottenere la comprensione e la generazione di linguaggio di ambito generale. Gli LLM acquisiscono questa capacità adoperando enormi quantità di dati per apprendere miliardi di parametri nell'addestramento e consumando grandi risorse di calcolo nell'operatività. L'aggettivo "grande" presente nel nome si riferisce alla grande quantità di parametri del modello probabilistico (nell'ordine dei miliardi).^[2] Gli LLM sono in larga parte reti neurali artificiali e in particolare trasformatori^[3] e sono (pre-)addestrati usando l'apprendimento autosupervisionato o l'apprendimento semisupervisionato.

Voce principale: Intelligenza Artificiale.

In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi.^[4] Fino al 2020, la regolazione fine dei parametri era l'unico modo di adattare un modello affinché fosse capace di compiere determinati compiti. Invece, per modelli più grandi, come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso (detto prompt, "spunto"), con un processo di ingegnerizzazione dello stesso chiamato appunto in inglese prompt engineering.^[5] Si pensa che questo genere di modelli acquisiscano implicitamente la conoscenza della sintassi, della semantica e della "ontologia" intrinseche nei corpi linguistici usati nell'addestramento, ma al contempo imprecisioni o pregiudizi eventualmente presenti negli stessi testi.^[6] Le principali sfide attuali di questi grandi modelli comprendono, tra le altre cose, errori fattuali,^[7] pregiudizi linguistici,^[8] pregiudizi di genere,^[9] pregiudizi razziali^[10] e pregiudizi politici.^[11]

Esempi noti di modelli linguistici grandi sono i modelli GPT di OpenAI (ad esempio GPT-3, oppure GPT-3.5 e GPT-4, usati in ChatGPT), PaLM di Google (usato in Gemini), e LLaMa di Meta, nonché BLOOM, Ernie 3.0 Titan, e Claude 2 di Anthropic.

Bias e limitazioni del modello linguistico sono ricerche in corso nel campo dell'elaborazione del linguaggio naturale (NLP). Sebbene i modelli linguistici abbiano mostrato notevoli capacità nel generare testo simile a quello umano, sono suscettibili di ereditare e amplificare i pregiudizi presenti nei loro dati di addestramento. Ciò può manifestarsi in rappresentazioni distorte o in un trattamento ingiusto di diversi dati demografici, come quelli basati su razza, genere, lingua e gruppi culturali. Inoltre, questi modelli spesso presentano limitazioni in termini di accuratezza fattuale. Lo studio e la mitigazione di questi pregiudizi e limitazioni sono cruciali per lo sviluppo etico e l’applicazione dell’IA in diversi ambiti sociali e professionali.

Bias linguistici

Il bias linguistico si riferisce a un tipo di bias di campionamento statistico legato alla lingua di una query che porta a "una deviazione sistematica nel campionamento delle informazioni che impedisce di rappresentare accuratamente la vera copertura degli argomenti e dei punti di vista disponibili nel loro archivio."^[8] Luo et al.^[8] mostrano che gli attuali modelli linguistici di grandi dimensioni, poiché sono formati prevalentemente su dati in lingua inglese, spesso presentano le opinioni anglo-americane come verità, mentre minimizzano sistematicamente le prospettive non inglesi come irrilevanti, sbagliate o rumorose. Interrogato su ideologie politiche come "Cos'è il liberalismo?", ChatGPT, poiché è stato formato su dati incentrati sull'inglese, descrive il liberalismo dalla prospettiva anglo-americana, enfatizzando aspetti dei diritti umani e dell'uguaglianza, mentre aspetti altrettanto validi come "si oppone allo stato sono assenti l'intervento nella vita personale ed economica" dal punto di vista dominante vietnamita e la "limitazione del potere governativo" dal punto di vista prevalente cinese.^[8]

Bias di genere

Lo stesso argomento in dettaglio: Stereotipi di genere nella tecnologia.

Il pregiudizio di genere si riferisce alla tendenza di questi modelli a produrre risultati che sono ingiustamente pregiudizievoli verso un genere rispetto a un altro. Questo pregiudizio deriva tipicamente dai dati su cui vengono addestrati questi modelli. Ad esempio, i modelli linguistici di grandi dimensioni spesso assegnano ruoli e caratteristiche in base alle norme di genere tradizionali; potrebbe associare infermieri o segretari prevalentemente a donne e ingegneri o amministratori delegati a uomini.^[9]

Stereotipi

Al di là del genere e della razza, questi modelli possono rafforzare un’ampia gamma di stereotipi, compresi quelli basati sull’età, sulla nazionalità, sulla religione o sull’occupazione. Ciò può portare a risultati che generalizzano ingiustamente o caricaturano gruppi di persone, talvolta in modi dannosi o dispregiativi.^[12]^[13]

Bias politico

Il pregiudizio politico si riferisce alla tendenza degli algoritmi a favorire sistematicamente determinati punti di vista, ideologie o risultati politici rispetto ad altri. I modelli linguistici possono anche mostrare pregiudizi politici. Poiché i dati di formazione includono un'ampia gamma di opinioni e coperture politiche, i modelli potrebbero generare risposte che si orientano verso particolari ideologie o punti di vista politici, a seconda della prevalenza di tali opinioni nei dati.^[11]

Modello linguistico di grandi dimensioni

Bias e limitazioni

Bias linguistici

Bias di genere

Stereotipi

Bias politico

Note

Voci correlate

Altri progetti

Collegamenti esterni

Wikiwand - on