Timeline
Chat
Prospettiva
Apprendimento semi-supervisionato
paradigma di apprendimento in cui si dispone solo di una parte di dati etichettati e di molti dati non etichettati Da Wikipedia, l'enciclopedia libera
Remove ads
L'apprendimento semi-supervisionato (o debolmente supervisionato) è un paradigma di apprendimento automatico, la cui rilevanza e significatività è aumentata con l'avvento dei modelli linguistici di grandi dimensioni a causa della grande quantità di dati necessari per addestrarli. È caratterizzato dall'uso di una combinazione di un piccolo quantitativo di dati etichettati da un esperto (usati esclusivamente nel paradigma di apprendimento supervisionato, più costoso e dispendioso in termini di tempo) e da una grande quantità di dati non etichettati (usati tipicamente nel paradigma apprendimento non supervisionato). In altre parole, si dispone dei valori di output desiderati solo per un sottoinsieme dei dati di addestramento. I rimanenti non sono etichettati o lo sono in maniera imprecisa. Intuitivamente, si può fare l'esempio di un esame in cui i dati etichettati rappresentano problemi risolti dal docente per la classe come aiuto nella risoluzione di un altro insieme di problemi. Nel setting transduttivo, i problemi insoluti (dati non etichettati) costituiscono una sorta di domande d'esame; in quello induttivo, essi diventano problemi per esercitarsi simili a quelli che costituiranno la prova d'esame.
Remove ads
Definizione
Riepilogo
Prospettiva
Più formalmente, l'apprendimento semi-supervisionato presuppone di elaborare un insieme di esempi distribuiti in modo indipendente e identico (i.i.d.) con etichette corrispondenti e esempi non etichettati . L'apprendimento semi-supervisionato combina tali informazioni per migliorare le prestazioni in compiti supervisionati ottenute scartando i dati non etichettati e applicando l'apprendimento supervisionato o scartando le etichette e applicando l'apprendimento non supervisionato.
L'apprendimento semi-supervisionato può essere condotto in modo transduttivo o induttivo[1]. L'obiettivo dell'apprendimento transduttivo è quello di dedurre le etichette corrette per i dati non etichettati . L'obiettivo dell'apprendimento induttivo è dedurre la mappatura corretta da a .
Non è necessario (e, secondo il principio di Vapnik, è imprudente) usare l'apprendimento transduttivo per dedurre una regola di classificazione sull'intero spazio di input; tuttavia, nella pratica, gli algoritmi formalmente progettati per la trasduzione o l'induzione sono spesso utilizzati in modo intercambiabile.
Remove ads
Assunzioni
Riepilogo
Prospettiva
Per poter utilizzare dati non etichettati, deve esistere una qualche relazione con la distribuzione dei dati sottesa. Gli algoritmi di apprendimento semi-supervisionato fanno uso di almeno una della seguenti assunzioni:
Assunzione di continuità (smoothness)
Punti vicini tra loro hanno maggiori probabilità di condividere un'etichetta. Questa ipotesi viene generalmente assunta anche nell'apprendimento supervisionato e determina una preferenza per confini di decisione geometricamente semplici. Nel caso dell'apprendimento semi-supervisionato, l'ipotesi di continuità determina inoltre una preferenza per confini decisionali in regioni a bassa densità, in modo che pochi punti siano vicini tra loro ma appartenenti a classi diverse[2].
Assunzione di clustering
I dati tendono a formare cluster discreti e i punti dello stesso cluster hanno maggiori probabilità di condividere un'etichetta (anche se i dati che condividono un'etichetta possono essere distribuiti su più cluster). Questo è un caso particolare dell'ipotesi di continuità e dà origine all'apprendimento delle feature con algoritmi di clustering.
Assunzione di manifold
I dati giacciono approssimativamente su un manifold (varietà) di dimensioni molto inferiori rispetto allo spazio di input. In questo caso, l'apprendimento del manifold utilizzando sia i dati etichettati che quelli non etichettati può evitare la maledizione della dimensionalità. L'apprendimento può quindi procedere utilizzando le distanze e le densità definite sul manifold.
L'ipotesi del manifold è funzionale quando i dati ad alta dimensionalità sono generati da un processo che può essere difficile da modellare direttamente, ma che ha solo pochi gradi di libertà. Ad esempio, la voce umana è controllata da poche corde vocali e le immagini delle varie espressioni facciali sono controllate da pochi muscoli. In questi casi, è meglio considerare le distanze e la smoothness nello spazio naturale del problema di generazione, piuttosto che nello spazio di tutte le possibili onde acustiche o immagini, rispettivamente.
Remove ads
Note
Bibliografia
Voci correlate
Collegamenti esterni
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads