Timeline
Chat
Prospettiva

Regressione logistica multinomiale

Da Wikipedia, l'enciclopedia libera

Remove ads

In statistica e apprendimento automatico la regressione logistica multinomiale è un metodo di classificazione che generalizza la regressione logistica al caso dei problemi multiclasse, cioè con più di due possibili esiti discreti.[1] Si tratta, cioè, di un modello utilizzato per predire le probabilità dei diversi possibili valori di una variabile dipendente distribuita categoricamente, dato un insieme di variabili indipendenti (che possono essere a valori reali, a valori binari, a valori categorici, ecc.).

La regressione logistica multinomiale è nota con una varietà di altri nomi, tra cui RL politomica, [2][3] RL multiclasse, regressione softmax, logit multinomiale (mlogit), classificatore di massima entropia (MaxEnt) e modello di massima entropia condizionata.[4]

Remove ads

Contesto

La regressione logistica multinomiale viene utilizzata quando la variabile dipendente in questione è nominale (ossia categorica, ovvero rientra in una qualsiasi delle categorie che non possono essere ordinate in qualche maniera significativa) e per la quale esistono più di due categorie.

Si tratta di problemi di classificazione statistica. Essi hanno in comune una variabile dipendente da predire, che deriva da un insieme limitato di elementi che non possono essere ordinati, e un insieme di variabili indipendenti (note anche come caratteristiche) utilizzate per prevedere la variabile dipendente. La regressione logistica multinomiale rappresenta una particolare soluzione per problemi di classificazione che utilizza una combinazione lineare delle caratteristiche osservate e alcuni parametri specifici del problema per stimare la probabilità di ciascun valore della variabile dipendente. I valori migliori dei parametri per un dato problema sono solitamente determinati da alcuni dati di addestramento.

Remove ads

Ipotesi

Riepilogo
Prospettiva

Il modello logistico multinomiale presuppone che i dati siano specifici per ogni caso; ossia, ogni variabile indipendente ha un singolo valore per ogni caso. Come con altri tipi di regressione, non è necessario che le variabili indipendenti siano statisticamente indipendenti l'una dall'altra (a differenza, ad esempio, di un classificatore Bayesiano ingenuo); tuttavia, si presume che la collinearità sia relativamente bassa, poiché diversamente diventa difficile distinguere l'impatto di diverse variabili. [5]

Se si usa il logit multinomiale per modellare le scelte, esso si basa sull'ipotesi di indipendenza delle alternative irrilevanti (IIA, acronimo in inglese), che non è sempre auspicabile. Con questa ipotesi la probabilità di preferire una classe rispetto a un'altra non dipende dalla presenza o dall'assenza di altre alternative "irrilevanti". Ad esempio, le probabilità relative di prendere un'auto o un autobus per andare al lavoro non cambiano se si aggiunge una bicicletta come possibilità aggiuntiva. Ciò consente di modellare la scelta di K alternative come un insieme di K  1 scelte binarie indipendenti, in cui un'alternativa viene scelta come "pivot" e le altre K  1 sono confrontate con questo, una alla volta. L'ipotesi IIA è un'assunzione fondamentale nella teoria della scelta razionale; tuttavia, numerosi studi in psicologia dimostrano che gli individui spesso violano questo presupposto quando fanno delle scelte. Un esempio di caso problematico si verifica se le scelte includono un'auto e un autobus blu. Supponiamo che il rapporto di probabilità tra i due casi sia 1. : 1. Ora, se viene introdotta l'opzione di un autobus rosso, una persona potrebbe rimanere indifferente nella scelta tra un autobus rosso e uno blu e quindi potrebbe esibire un rapporto di probabilità fra auto : autobus blu : autobus rosso di 1 : 0,5 : 0,5, mantenendo così un rapporto 1 : 1 fra auto : autobus qualsiasi mentre si adotta un rapporto modificato auto : autobus blu di 1 : 0,5. In questo caso l'opzione dell'autobus rosso non era irrilevante, perché un autobus rosso era un sostituto perfetto per l'autobus blu.

Se si usa il logit multinomiale per modellare le scelte, in alcune situazioni questo potrebbe imporre vincoli eccessivi sulle preferenze relative tra le diverse alternative. È particolarmente importante tenerne conto se l'analisi mira a prevedere come cambierebbero le scelte se un'alternativa dovesse scomparire (ad esempio se un candidato politico si ritirasse da una corsa a tre candidati). In questi casi possono essere utilizzati altri modelli, come il logit annidato o il probit multinomiale, che consentono la violazione dell'IIA. [6]

Remove ads

Modello

Riepilogo
Prospettiva

Introduzione

Esistono diversi modi equivalenti per descrivere il modello matematico alla base della regressione logistica multinomiale. Ciò può rendere difficile confrontare le diverse trattazioni dell'argomento fatte in testi diversi. La regressione logistica presenta diverse formulazioni equivalenti per il caso binario, molte delle quali hanno analogie nel modello logit multinomiale.

L'idea alla base di tutte queste trattazioni, come per molte altre tecniche di classificazione statistica, è quella di costruire una funzione di predizione lineare che produca un punteggio da un insieme di pesi che vengono combinati linearmente con le variabili esplicative (caratteristiche) di una data osservazione tramite un prodotto scalare:

dove Xi è il vettore delle caratteristiche che descrivono l'osservazione i, βk è un vettore di pesi (o coefficienti di regressione) corrispondenti all'esito k e punteggio(Xi, k) è il punteggio associato all'assegnazione dell'osservazione i alla categoria k. Nella teoria della scelta discreta, in cui le osservazioni rappresentano le persone e gli esiti rappresentano le scelte, il punteggio è da considerare come l'utilità associata alla scelta dell' k da parte della persona i. L'esito da predire è quello con il punteggio più alto.

La differenza tra il modello logit multinomiale e numerosi altri metodi, modelli, algoritmi, ecc. con la stessa impostazione di base (l'algoritmo del percettrone, le macchine a vettori di supporto, l'analisi discriminante lineare, ecc.) risiede nella procedura per determinare (addestrare) i pesi/coefficienti ottimali e nel modo in cui il punteggio viene interpretato. In particolare, nel modello logit multinomiale, il punteggio può essere convertito direttamente in un valore di probabilità, che indica la probabilità che di scegliere l'esito k per l'osservazione i, date le caratteristiche per essa misurate. Ciò fornisce un modo affidabile per incorporare la previsione di un particolare modello logit multinomiale in una procedura più ampia che può comportare più previsioni di questo tipo, ciascuna con una possibilità di errore. Senza questo mezzo di combinazione delle previsioni, gli errori tendono a moltiplicarsi. Ad esempio, si immagini un grande modello predittivo, suddiviso in una serie di sotto-modelli, in cui la predizione di un dato sotto-modello venga utilizzata come input per un altro sotto-modello, e tale predizione venga a sua volta utilizzata come input per un terzo sotto-modello, e così via. Se ogni sotto-modello ha un'accuratezza del 90% nelle sue predizioni e ci sono cinque sotto-modelli in serie, allora il modello complessivo ha un'accuratezza pari solo al 0,95 = 59%. Se ogni sotto-modello ha un'accuratezza dell'80%, l'accuratezza complessiva scende a 0,85 = 33%. Questo problema è noto come propagazione dell'errore ed è un problema serio nei modelli predittivi del mondo reale, che di solito sono composti da numerose parti. Predire le probabilità di ogni possibile risultato, piuttosto che semplicemente effettuare una singola predizione ottimale, è un modo per alleviare questo problema.

Impostazione

La configurazione di base è la stessa della regressione logistica, con l'unica differenza che le variabili dipendenti sono categoriche anziché binarie, ovvero ci sono K possibili risultati anziché solo due. La seguente descrizione è leggermente abbreviata; per maggiori dettagli, consultare la voce sulla regressione logistica .

Dati

Nello specifico, si presume di avere una serie di N punti osservati. Ogni punto i (compreso tra 1 e N ) è costituito da un insieme di M variabili esplicative x1,i ... xM,i (note anche come variabili indipendenti, o predittive, feature, ecc.) e da un risultato categorico associato Yi (noto anche come variabile dipendente o di risposta), che può assumere uno fra K possibili valori. Tali valori rappresentano categorie logicamente esclusive (ad esempio, diversi partiti politici, gruppi sanguigni, ecc.) e sono spesso descritti matematicamente assegnando arbitrariamente a ciascuna un numero da 1 a K. Le feature e il risultato rappresentano proprietà osservate dei dati e sono spesso considerati come originati dalle osservazioni di N "esperimenti", sebbene un "esperimento" possa consistere semplicemente nella raccolta di dati. L'obiettivo della regressione logistica multinomiale è costruire un modello che spieghi la relazione tra le variabili esplicative e l'esito, in modo che l'esito di un nuovo "esperimento" possa essere correttamente previsto per un nuovo punto per il quale sono disponibili i valori delle feature, ma non l'esito. Nel processo, il modello cerca di spiegare l'effetto relativo di diverse variabili esplicative sull'esito.

Alcuni esempi:

  • Gli esiti osservati sono diverse varianti di una malattia come l'epatite (come pure il caso di "nessuna malattia" e/o di altre malattie correlate) in un gruppo di pazienti, e le variabili esplicative potrebbero essere caratteristiche dei pazienti ritenute pertinenti (sesso, razza, età, pressione sanguigna, esiti di vari test di funzionalità epatica, ecc.). L'obiettivo è quindi predire quale malattia sta causando i sintomi epatici osservati in un nuovo paziente.
  • I risultati osservati sono il partito scelto da un gruppo di persone in un'elezione, e le variabili esplicative sono le caratteristiche demografiche di ogni persona (ad esempio sesso, razza, età, reddito, ecc.). L'obiettivo è quindi predire il probabile voto di un nuovo elettore con determinate caratteristiche.

Predittore lineare

Come in altre forme di regressione lineare, la regressione logistica multinomiale utilizza una funzione lineare di predizione al fine di predire la probabilità che l'osservazione i abbia esito k, della seguente forma:

dove è un coefficiente di regressione associato alla m-esima variabile esplicativa e al k-esimo risultato. Come spiegato nella voce sulla regressione logistica, i coefficienti di regressione e le variabili esplicative sono normalmente raggruppati in vettori di dimensione M + 1, in modo che la funzione predittiva possa essere scritta in modo più compatto come:

dove è il vettore dei coefficienti di regressione associati al risultato k, e (un vettore riga) raggruppa delle variabili esplicative associate all'osservazione i, precedute da 1 nella posizione 0.

Formulazione come insieme di regressioni binarie indipendenti

Per arrivare al modello logit multinomiale, si può immaginare, per K possibili risultati, di lavorare con K modelli di regressione logistica binaria indipendenti, scegliendo un esito come "pivot" mentre sugli altri K  1 vengono confrontati separatamente rispetto al pivot. Se si sceglie come pivot l'esito K (l'ultimo), le K  1 equazioni di regressione saranno:

.

Questa formulazione è anche nota come trasformazione del rapporto logaritmico additivo, comunemente utilizzata nell'analisi di dati composizionali. In altre applicazioni è definita anche "rischio relativo". [7]

Elevando a potenza entrambi i lati e trovando le probabilità, si ottiene:

Utilizzando il fatto che tutte le K probabilità devono sommare a uno, si trova che:

Possiamo usare questo per trovare le altre probabilità:

.

Il fatto che si lavori su più modelli di regressione regressioni spiega perché il modello si basi sul presupposto di indipendenza delle alternative irrilevanti descritto sopra.

Stima dei coefficienti

I parametri sconosciuti in ciascun vettore βk sono in genere stimati congiuntamente mediante stima del massimo a posteriori (MAP), che è un'estensione della massima verosimiglianza che usa la regolarizzazione dei pesi per prevenire soluzioni patologiche (solitamente una funzione di regolarizzazione quadratica, che equivale a imporre sui pesi una distribuzione a priori gaussiana a media nulla, ma sono possibili anche altre distribuzioni). In genere la soluzione viene trovata utilizzando una procedura iterativa come lo scaling iterativo generalizzato, [8] i minimi quadrati iterativamente riponderati (IRLS), [9] mediante algoritmi di ottimizzazione basati sul gradiente come L-BFGS,[4] o mediante algoritmi specializzati di discesa delle coordinate.[10]

Formulazione come modello log-lineare

La formulazione della regressione logistica binaria come modello log-lineare può essere estesa direttamente alla regressione a più vie. In altre parole, modelliamo il logaritmo della probabilità di ottenere un dato output utilizzando il predittore lineare e un ulteriore fattore di normalizzazione, il logaritmo della funzione di partizione:

Come nel caso binario, abbiamo bisogno del termine aggiuntivo per garantire che l'intero insieme di probabilità formi una distribuzione di probabilità, cioè che la loro somma sia pari a uno:

Il motivo per cui dobbiamo sommare un termine per garantire la normalizzazione, anziché moltiplicare come di consueto, è dovuta all'aver considerato il logaritmo delle probabilità. Elevando a potenza entrambi i membri, il termine additivo diventa un fattore moltiplicativo, in modo che la probabilità sia semplicemente la misura di Gibbs:

La quantità Z è chiamata funzione di partizione della distribuzione. Possiamo calcolare il valore della funzione di partizione applicando il vincolo sopra richiamato di somma unitaria:

Pertanto

Si noti che questo fattore è "costante" nel senso che non è funzione di Yi, che è la variabile sulla quale è definita la distribuzione di probabilità. Tuttavia, non è assolutamente costante rispetto alle variabili esplicative o, soprattutto, rispetto ai coefficienti di regressione sconosciuti βk , che vanno determinati attraverso una procedura di ottimizzazione.

Le equazioni risultanti per calcolare le probabilità sono

La seguente funzione:

è chiamata funzione softmax. Il motivo è che l'effetto dell'esponenziale dei valori è amplificare le differenze tra di essi. Di conseguenza, restituirà un valore vicino a 0 allorché sia significativamente minore del massimo di tutti i valori e restituirà un valore prossimo a 1 se applicato al valore massimo, a meno che non sia estremamente vicino al successivo valore più grande. Quindi la softmax può essere utilizzata per costruire una media pesata che si comporta come una funzione regolare (facilmente differenziabile, ecc.) capace di approssimare la funzione indicatrice.

Quindi, possiamo scrivere le equazioni di probabilità come

La softmax funge quindi da funzione equivalente alla funzione logistica nella regressione logistica binaria.

Si noti che non tutti i vettori di coefficienti sono identificabili in modo univoco. Ciò si deve al fatto che tutte le probabilità devono sommare a 1, rendendo una di esse completamente determinata una volta che tutte le altre sono note. Di conseguenza, ci sono solo probabilità specificabili separatamente, e quindi vettori di coefficienti identificabili separatamente. Si noti, infatti, che se si aggiunge un vettore costante a tutti i vettori di coefficienti, le equazioni rimangono identiche:

Di conseguenza, convenzionalmente si pone (o in alternativa, uno degli altri vettori di coefficienti). In sostanza, si imposti la costante in modo che uno dei vettori diventi , e tutti gli altri vettori vengono trasformati nella differenza tra quei vettori e il vettore che abbiamo scelto. Questo equivale a "far perno" su una delle K scelte ed esaminare quanto siano migliori o peggiori tutte le altre K  1 scelte relativamente alla scelta sulla quale si fa perno. Matematicamente, si trasformano i coefficienti come segue:

Ciò porta alle seguenti equazioni:

A parte i simboli primi sui coefficienti di regressione, questa è esattamente la stessa formulazione del modello descritta prima, in termini di K  1 modelli di regressione binaria indipendenti.

Formulazione come modello con variabili latenti

È anche possibile formulare la regressione logistica multinomiale come modello con variabili latenti, seguendo il modello con la variabile latente binaria descritto per la regressione logistica semplice. Questa formulazione è comune nella teoria dei modelli di scelta discreta e agevola il confronto della regressione logistica multinomiale con il modello probit multinomiale correlato, nonché la sua estensione a modelli più complessi.

Si ipotizzi che, per ogni osservazione i e possibile risultato k = 1,2,..., K, esista una variabile latente continua Yi,k* (ovvero una variabile casuale non osservata) distribuita come segue:

dove cioè una distribuzione di valori estremi standard di tipo 1.

Questa variabile latente può essere vista come l'utilità associata alla scelta dell'esito k per il punto i, con una certa casualità nella quantità effettiva di utilità registrata, che tiene conto di altri fattori non modellati che causino la scelta. Il valore della variabile effettiva viene quindi determinato in modo non casuale da queste variabili latenti (vale a dire la casualità è stata spostata dai risultati osservati alle variabili latenti), dove il risultato k viene scelto se e solo se l'utilità associata (il valore di ) è maggiore delle utilità di tutte le altre scelte, ovvero se l'utilità associata all'esito k è la massima tra tutte le utilità. Poiché le variabili latenti sono continue, la probabilità che due assumano esattamente lo stesso valore è nulla, quindi si può ignorare tale eventualità. Ovvero:

Oppure, in modo equivalente:

Osservando più da vicino la prima equazione, la si può scrivere come segue:

Ci sono alcune cose da tenere a mente:

  1. In generale, se e allora Ciò significa che la differenza di due variabili indipendenti con distribuzione identica dei valori estremi segue la distribuzione logistica, e il primo parametro è irrilevante. Ciò è comprensibile poiché il primo parametro è un parametro di posizione, ovvero sposta la media di una quantità fissa e se due valori vengono entrambi spostati della stessa quantità, la loro differenza rimane invariata. Ciò significa che tutti gli enunciati affermazioni relazionali alla base della probabilità di una data scelta coinvolgono la distribuzione logistica, il che rende la scelta iniziale della distribuzione dei valori estremi, che sembrava piuttosto arbitraria, in qualche modo più comprensibile.
  2. Il secondo parametro in una distribuzione di valori estremi o logistica è un parametro di scala, tale che se allora Ciò significa che l'effetto dell'utilizzo di una variabile di errore con un parametro di scala arbitrario al posto della scala 1 può essere compensato semplicemente moltiplicando tutti i vettori di regressione per la stessa scala. Insieme al punto precedente, questo dimostra che l'utilizzo di una distribuzione standard dei valori estremi (posizione 0, scala 1) per le variabili di errore non comporta alcuna perdita di generalità rispetto all'utilizzo di una distribuzione dei valori estremi arbitraria. Difatti il modello è non identificabile (non c'è un singolo insieme di coefficienti ottimali) se si utilizza la distribuzione più generale.
  3. Poiché vengono utilizzate solo le differenze dei vettori dei coefficienti di regressione, l'aggiunta a tutti i vettori di coefficienti di una costante arbitraria non ha alcun effetto sul modello. Ciò significa che, proprio come nel modello log-lineare, solo K  1 dei vettori dei coefficienti è identificabile e l'ultimo può essere impostato su un valore arbitrario (ad esempio 0).

In realtà trovare effettivamente i valori delle probabilità di cui sopra risulta piuttosto difficile, e consiste nel calcolare una particolare statistica d'ordine (la prima, cioè la massima) di un insieme di valori. Tuttavia, si può dimostrare che le espressioni risultanti sono le stesse delle formulazioni precedenti, ovvero sono equivalenti.

Remove ads

Stima dell'intercetta

Quando si utilizza la regressione logistica multinomiale, una categoria della variabile dipendente viene scelta come categoria di riferimento. Per ciascuna categoria della variabile dipendente vengono determinati odds ratio separati per tutte le variabili indipendenti, ad eccezione della categoria di riferimento, che viene omessa dall'analisi. Il coefficiente esponenziale beta rappresenta la variazione negli odds dell'appartenenza della variabile dipendente a una particolare categoria rispetto a quella di riferimento, associata a una variazione di un'unità della variabile indipendente corrispondente.

Remove ads

Funzione di verosimiglianza

Riepilogo
Prospettiva

I valori osservati per delle variabili dipendenti sono considerate come realizzazioni di variabili casuali stocasticamente indipendenti e distribuite categoricamente.

La funzione di verosimiglianza per questo modello è definita come segue:

dove l'indice denota le osservazioni da 1 a n e l'indice denota le classi da 1 a K.

è il delta di Kronecker .

Passando alla funzione di verosimiglianza logaritmica negativa si ha la ben nota entropia incrociata:

Remove ads

Voci correlate

Note

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads