Timeline
Chat
Prospettiva

Modello linguistico di grandi dimensioni

modello linguistico con grande numero di parametri Da Wikipedia, l'enciclopedia libera

Remove ads

Un modello linguistico di grandi dimensioni (anche modello linguistico ampio o modello linguistico grande),[1] noto anche con l'inglese large language model (in sigla LLM) è un tipo di modello linguistico notevole per essere in grado di ottenere la comprensione e la generazione di linguaggio di ambito generale. Gli LLM acquisiscono questa capacità adoperando enormi quantità di dati per apprendere miliardi di parametri nell'addestramento e consumando grandi risorse di calcolo nell'operatività. L'aggettivo "grande" presente nel nome si riferisce alla grande quantità di parametri del modello probabilistico (nell'ordine dei miliardi).[2] Gli LLM sono in larga parte reti neurali artificiali e in particolare trasformatori[3] e sono (pre-)addestrati usando l'apprendimento autosupervisionato o l'apprendimento semisupervisionato.

Voce principale: Intelligenza Artificiale.

In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi.[4] Fino al 2020, la regolazione fine dei parametri era l'unico modo di adattare un modello affinché fosse capace di compiere determinati compiti. Invece, per modelli più grandi, come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso (detto prompt, "spunto"), con un processo di ingegnerizzazione dello stesso chiamato appunto in inglese prompt engineering.[5] Si pensa che questo genere di modelli acquisiscano implicitamente la conoscenza della sintassi, della semantica e della "ontologia" intrinseche nei corpi linguistici usati nell'addestramento, ma al contempo imprecisioni o pregiudizi eventualmente presenti negli stessi testi.[6] Le principali sfide attuali di questi grandi modelli comprendono, tra le altre cose, errori fattuali,[7] pregiudizi linguistici,[8] pregiudizi di genere,[9] pregiudizi razziali[10] e pregiudizi politici.[11]

Esempi noti di modelli linguistici grandi sono i modelli GPT di OpenAI (ad esempio GPT-3, oppure GPT-3.5 e GPT-4, usati in ChatGPT), PaLM di Google (usato in Gemini), e LLaMa di Meta, nonché BLOOM, Ernie 3.0 Titan, e Claude 2 di Anthropic.

Remove ads

Bias e limitazioni

Riepilogo
Prospettiva

Bias e limitazioni del modello linguistico sono ricerche in corso nel campo dell'elaborazione del linguaggio naturale (NLP). Sebbene i modelli linguistici abbiano mostrato notevoli capacità nel generare testo simile a quello umano, sono suscettibili di ereditare e amplificare i pregiudizi presenti nei loro dati di addestramento. Ciò può manifestarsi in rappresentazioni distorte o in un trattamento ingiusto di diversi dati demografici, come quelli basati su razza, genere, lingua e gruppi culturali. Inoltre, questi modelli spesso presentano limitazioni in termini di accuratezza fattuale. Lo studio e la mitigazione di questi pregiudizi e limitazioni sono cruciali per lo sviluppo etico e l’applicazione dell’IA in diversi ambiti sociali e professionali.

Bias linguistici

Il bias linguistico si riferisce a un tipo di bias di campionamento statistico legato alla lingua di una query che porta a "una deviazione sistematica nel campionamento delle informazioni che impedisce di rappresentare accuratamente la vera copertura degli argomenti e dei punti di vista disponibili nel loro archivio."[8] Luo et al.[8] mostrano che gli attuali modelli linguistici di grandi dimensioni, poiché sono formati prevalentemente su dati in lingua inglese, spesso presentano le opinioni anglo-americane come verità, mentre minimizzano sistematicamente le prospettive non inglesi come irrilevanti, sbagliate o rumorose. Interrogato su ideologie politiche come "Cos'è il liberalismo?", ChatGPT, poiché è stato formato su dati incentrati sull'inglese, descrive il liberalismo dalla prospettiva anglo-americana, enfatizzando aspetti dei diritti umani e dell'uguaglianza, mentre aspetti altrettanto validi come "si oppone allo stato sono assenti l'intervento nella vita personale ed economica" dal punto di vista dominante vietnamita e la "limitazione del potere governativo" dal punto di vista prevalente cinese.[8]

Bias di genere

Lo stesso argomento in dettaglio: Stereotipi di genere nella tecnologia.

Il pregiudizio di genere si riferisce alla tendenza di questi modelli a produrre risultati che sono ingiustamente pregiudizievoli verso un genere rispetto a un altro. Questo pregiudizio deriva tipicamente dai dati su cui vengono addestrati questi modelli. Ad esempio, i modelli linguistici di grandi dimensioni spesso assegnano ruoli e caratteristiche in base alle norme di genere tradizionali; potrebbe associare infermieri o segretari prevalentemente a donne e ingegneri o amministratori delegati a uomini.[9]

Stereotipi

Al di là del genere e della razza, questi modelli possono rafforzare un’ampia gamma di stereotipi, compresi quelli basati sull’età, sulla nazionalità, sulla religione o sull’occupazione. Ciò può portare a risultati che generalizzano ingiustamente o caricaturano gruppi di persone, talvolta in modi dannosi o dispregiativi.[12][13]

Bias politico

Il pregiudizio politico si riferisce alla tendenza degli algoritmi a favorire sistematicamente determinati punti di vista, ideologie o risultati politici rispetto ad altri. I modelli linguistici possono anche mostrare pregiudizi politici. Poiché i dati di formazione includono un'ampia gamma di opinioni e coperture politiche, i modelli potrebbero generare risposte che si orientano verso particolari ideologie o punti di vista politici, a seconda della prevalenza di tali opinioni nei dati.[11]

Remove ads

Note

Voci correlate

Altri progetti

Collegamenti esterni

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads