Timeline
Chat
Prospettiva

Modello statistico

tipo di modello matematico Da Wikipedia, l'enciclopedia libera

Remove ads

Un modello statistico è un modello matematico che incorpora un insieme di assunzioni statistiche che riguardano la generazione di dati campione (e dati simili da una popolazione più ampia). Un modello statistico rappresenta, spesso in forma notevolmente idealizzata, il processo di generazione dei dati [1]. Quando si fa riferimento in modo specifico alle probabilità, si tratta di un modello probabilistico. Tutti i test di ipotesi statistiche e tutti gli stimatori statistici sono ricavati da modelli statistici. Più in generale, i modelli statistici costituiscono parte dei fondamenti dell'inferenza statistica. Un modello statistico viene solitamente specificato come relazione matematica tra una o più variabili casuali e altre variabili non casuali. Come tale, un modello statistico è "una rappresentazione formale di una teoria" [2].

Remove ads

Introduzione

Riepilogo
Prospettiva

In termini informali, un modello statistico può essere concepito come un'assunzione statistica (o un insieme di ipotesi statistiche) con una certa proprietà: quella di permettere di calcolare la probabilità di qualsiasi evento. Ad esempio, si consideri una coppia di normali dadi a sei facce. Si studieranno due diverse ipotesi statistiche sui dadi.

La prima assunzione è che, per ciascuno dei dadi, la probabilità che esca ciascuna faccia (1, 2, 3, 4, 5 o 6) sia di ⁠1/6⁠. Da questa assunzione, possiamo calcolare la probabilità che entrambi i dadi mostrino il 5: ⁠1/6⁠ × ⁠1/6⁠ = ⁠1/36⁠. Più in generale, si può calcolare la probabilità di qualsiasi evento: ad esempio 1 e 2, 3 e 3 o 5 e 6. L'assunzione alternativa è che, per ciascuno dei dadi, la probabilità che esca il 5 è di ⁠1/8⁠ (essendo i dadi sono truccati). Da tale assunzione, la probabilità che entrambi i dadi mostrino il 5: ⁠1/8⁠ × ⁠1/8⁠ = ⁠1/64⁠.⁠ Tuttavia, non si può calcolare la probabilità di qualsiasi altro evento non banale, poiché le probabilità delle altre facce sono sconosciute.

La prima assunzione costituisce un modello statistico: perché con questa sola ipotesi, si può calcolare la probabilità di qualsiasi evento. L'assunzione alternativa non costituisce un modello statistico: perché con la sola seconda ipotesi, non si può calcolare la probabilità di ogni evento. Nell'esempio precedente, con la prima assunzione, è facile calcolare la probabilità di ciascun evento. Con altri esempi, tuttavia, il calcolo può essere difficile, o addirittura impraticabile (ad esempio, potrebbe richiedere milioni di anni di calcoli). Una tale difficoltà è sufficiente perché un'assunzione possa costituire un modello statistico: il calcolo non dev'essere necessariamente fattibile sotto il profilo pratico, ma solo possibile sul piano teorico.

Remove ads

Definizione formale

Riepilogo
Prospettiva

In termini matematici, un modello statistico è una coppia ( ), dove è l'insieme di osservazioni possibili, cioè lo spazio campionario e è un insieme di distribuzioni di probabilità su [3]. L'insieme rappresenta tutti i modelli considerati possibili ed è tipicamente parametrizzato: . L'insieme definisce i parametri del modello. Se una parametrizzazione è tale che valori di parametri distinti danno origine a distribuzioni distinte, ossia se (mappatura iniettiva), si dice che essa è identificabile [3].

In alcuni casi il modello può essere più complesso:

  • Nella statistica bayesiana, il modello viene esteso aggiungendo una distribuzione di probabilità sullo spazio dei parametri .
  • Un modello statistico può talvolta distinguere due insiemi di distribuzioni di probabilità. Il primo insieme è l'insieme dei modelli considerati per l'inferenza. Il secondo insieme è l'insieme dei modelli che avrebbero potuto generare i dati che sono molto più grandi di Tali modelli statistici sono fondamentali per verificare che una determinata procedura sia robusta, ovvero che non produca errori catastrofici quando le sue ipotesi sui dati sono errate.
Remove ads

Un esempio

Si consideri una popolazione di bambini, con età distribuite uniformemente sulla popolazione. L'altezza di un bambino sarà stocasticamente correlata all'età: ad esempio, sapere che un bambino ha 7 anni influenza la probabilità che il bambino sia alto 1,5 metri. Si può formalizzare questa relazione in un modello di regressione lineare, nel modo seguente: , dove è l'intercetta, è un parametro per cui l'età viene moltiplicata per ottenere una previsione dell'altezza, è il termine di errore e identifica il bambino. Ciò implica che l'altezza possa essere predetta sulla base dell'età, con un certo errore.

Un modello ammissibile dev'essere coerente con tutti i punti dati. Pertanto difficilmente una retta () può risultare ammissibile come modello dei dati, a meno che non si adatti esattamente a tutti i punti dati, ovvero che tutti i punti dati giacciano perfettamente sulla retta. Si deve includere nell'equazione il termine di errore, , in modo che il modello sia coerente con tutti i punti dati. Per fare inferenza statistica, inizialmente si dovrebbero fare assunzioni sulle distribuzioni di probabilità per . Ad esempio, si potrebbe assumere che le distribuzioni di siano gaussiane iid, con media nulla. In tal caso, il modello avrebbe 3 parametri: , e la varianza della distribuzione gaussiana. Si potrà specificare formalmente il modello nella forma ( ) come segue. Lo spazio campionario, , del modello comprende l'insieme di tutte le possibili coppie (età, altezza). Ogni possibile valore di determina una distribuzione su ; si denoti tale distribuzione con . Se è l'insieme di tutti i possibili valori di allora (la parametrizzazione è identificabile come è facile verificare).

In questo esempio, il modello è determinato da (1) la specifica di e (2) dalla formulazione di alcune assunzioni rilevanti per . Ci sono due assunzioni: che l'altezza possa essere approssimata da una funzione lineare dell'età; che gli errori di approssimazione siano distribuiti come una gaussiana iid. Le assunzioni sono sufficienti per specificare come richiesto.

Remove ads

Considerazioni generali

Riepilogo
Prospettiva

I modelli statistici costituiscono una classe speciale di modelli matematici. Ciò che distingue un modello statistico da altri modelli matematici è che un modello statistico è non deterministico. Pertanto, in un modello statistico specificato tramite equazioni matematiche, alcune variabili non hanno valori specifici, ma invece distribuzioni di probabilità; ovvero alcune variabili sono aleatorie. Nell'esempio precedente sull'altezza dei bambini, ε è una variabile casuale; senza tale variabile casuale, il modello sarebbe deterministico. I modelli statistici vengono spesso utilizzati anche quando il processo di generazione dei dati modellato è deterministico. Ad esempio, il lancio di una moneta è, in linea di principio, un processo deterministico; tuttavia, è comunemente modellato come stocastico (come processo di Bernoulli). Scegliere un modello statistico atto a rappresentare un dato processo di generazione dei dati è a volte estremamente difficile e può richiedere la conoscenza sia del processo sia delle analisi statistiche pertinenti. In merito a questo, David Cox ha affermato: "Il modo in cui viene effettuata la traduzione dal problema in oggetto al modello statistico è spesso la parte più critica di un'analisi"[4].

Secondo Konishi & Kitagawa [5], un modello statistico ha tre obiettivi:

  1. la predizione
  2. l'estrazione di informazione
  3. la descrizione della struttura stocastica

Tali obiettivi corrispondono essenzialmente agli stessi dei scopi indicati da Friendly & Meyer: previsione, stima, descrizione [6].

Remove ads

Dimensione di un modello

Riepilogo
Prospettiva

Si consideri un modello statistico ( ) con . In notazione, si scrive che , dove è un numero intero positivo ( denota i numeri reali; in linea di principio si possono utilizzare altri insiemi). Qui, è chiamata la dimensione del modello. Il modello si dice parametrico se ha dimensione finita. Ad esempio, se si assume che i dati derivino da una distribuzione gaussiana univariata, allora si sta assumendo che

.

In questo esempio, la dimensione, k, è uguale a 2. Come altro esempio, si supponga che i dati siano costituiti da punti (x, y) che si assume siano distribuiti su una retta con residui gaussiani iid (con media nulla): ci si riconduce allo stesso modello statistico utilizzato nell'esempio per le altezze dei bambini. La dimensione del modello statistico è pari a 3: l'intercetta della retta, la sua pendenza e la varianza della distribuzione dei residui (si noti che l'insieme di tutte le possibili rette ha dimensione 2, anche se geometricamente una retta ha dimensione 1).

Sebbene formalmente costituisca un singolo parametro di dimensione , a volte lo si considera come comprendente parametri separati. Ad esempio, per la distribuzione gaussiana univariata, costituisce formalmente un singolo parametro con dimensione 2, ma viene spesso considerato come composto da 2 parametri separati: la media e la deviazione standard.

Un modello statistico si dice non parametrico se l'insieme dei parametri ha dimensione infinita. Un modello statistico si dice semiparametrico se ha parametri di dimensione sia finita sia infinita. Formalmente, se è la dimensione di e è il numero di campioni allora, sia per i modelli semiparametrici sia per quelli non parametrici, risulta che per . Se per , allora il modello è semiparametrico; altrimenti, il modello è non parametrico.

I modelli parametrici sono di gran lunga i modelli statistici più comunemente utilizzati. Per quanto riguarda i modelli semiparametrici e non parametrici, è stato affermato che: "Questi in genere implicano meno assunzioni relative alla struttura e alla forma della distribuzione, ma di solito includono assunzioni forti di indipendenza" [1].

Remove ads

Modelli annidati

Riepilogo
Prospettiva

Due modelli statistici si dicono annidati se il primo può essere trasformato nel secondo imponendo vincoli sui suoi parametri.

Ad esempio, l'insieme di tutte le distribuzioni gaussiane ha, annidato al suo interno, l'insieme delle distribuzioni gaussiane a media nulla: si vincola la media nell'insieme di tutte le distribuzioni gaussiane per ottenere le distribuzioni a media nulla.

Come secondo esempio, si consideri il modello quadratico

che ha, annidato al suo interno, il modello lineare

— vincolando il parametro ad essere nullo.

In entrambi gli esempi, il primo modello ha una dimensione maggiore rispetto al secondo modello (per il primo esempio, il modello a media zero ha dimensione 1). Questo accade spesso, ma non sempre. Come esempio di modelli di pari dimensioni, si consideri l'insieme delle distribuzioni gaussiane a media positiva il quale è annidato nell'insieme di tutte le distribuzioni gaussiane; entrambi i modelli hanno dimensione 2.

Remove ads

Modelli statistici e apprendimento automatico

Determinare approssimazioni (in senso probabilistico) di modelli statistici che possano verosimilmente aver generato i dati osservati (valori per le variabili del modello) ossia i campioni di addestramento, rappresenta lo scopo principale degli algoritmi di apprendimento automatico (statistico). Costruito il modello, si potranno fare predizioni su valori nuovi (non osservati) attraverso metodi di inferenza. Fra i modelli statistici più utilizzati in questo campo vi sono i cosiddetti modelli grafici, per i quali le assunzioni sulle variabili del modello sono codificate da strutture a grafo.

Remove ads

Confronto fra modelli

Il confronto dei modelli statistici (selezione dei modelli) è fondamentale per gran parte dell'inferenza statistica. Konishi e Kitagawa hanno affermato: "La maggior parte dei problemi di inferenza statistica può essere considerati come problemi legati alla modellazione statistica. Tipicamente essi sono formulati come confronti fra diversi modelli statistici".

Criteri comuni utilizzati per il confronto dei modelli comprendono, fra gli altri, il coefficiente R 2, il fattore di Bayes, il criterio informativo di Akaike e il test del rapporto di verosimiglianza o della sua generalizzazione, la verosimiglianza relativa.

Un altro modo di confrontare due modelli statistici è basato sulla nozione di carenza (deficiency) introdotta da Le Cam[7].

Remove ads

Note

Voci collegate

Riferimenti Bibliografici

Ulteriori letture

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads