Apprendimento per similarità

Tipologie

Riepilogo

Prospettiva

Esistono diverse tipologie di apprendimento per similarità (o metriche di distanza):

Regressione: In questo caso, sono date coppie di oggetti $(x_{i}^{1},x_{i}^{2})$ e una misura della loro similarità $y_{i}\in R$ . L'obiettivo è quello di imparare una funzione che che approssimi $f(x_{n}^{1},x_{n}^{2})\sim y_{n}$ per ciascuna nuova tripla d'esempio $(x_{n}^{1},x_{n}^{2},y_{n})$ . Il problema si risolve minimizzando una loss regolarizzata: $\min _{W}\sum _{i}loss(w;x_{i}^{1},x_{i}^{2},y_{i})+reg(w)$ .
Classificazione: Siano dati due insiemi di coppie di oggetti simili $(x_{i},x_{i}^{+})$ e non $(x_{i},x_{i}^{-})$ . In una formulazione equivalente ogni coppia $(x_{i}^{1},x_{i}^{2})$ può essere assieme a un'etichetta binaria $y_{i}\in \{0,1\}$ che ne indichi la similarità. Di nuovo l'obiettivo è imparare un classificatore che sappia decidere se una nuova coppia di oggetti siano simili o meno.
Ranking: Siano date triple di oggetti $(x_{i},x_{i}^{+},x_{i}^{-})$ la cui similarità relativa segua un ordine predefinito: si sa che $x_{i}$ è più simile a $x_{i}^{+}$ che a $x_{i}^{-}$ . L'obiettivo è imparare una funzione $f$ tale che per ogni nuova tripla di oggetti $(x,x^{+},x^{-})$ , si verifichi $f(x,x^{+})>f(x,x^{-})$ (contrastive learning). Questa impostazione assume una forma più debole di supervisione rispetto alla regressione, in quanto invece di fornire una misura di similarità vera e propria si deve fornire solo un ordinamento relativo. per tale ragione, il ranking per similarità risulta di più facile applicazione su problemi reali di larga scala.^[1]
Locality sensitive hashing (LSH)^[2]: Il metodo crea una funzione di hash per gli oggetti in input in modo tale che, con elevata probabilità, oggetti simili siano mappati nelle stesse posizioni in memoria (il numero di posizioni - bucket - sarà molto più piccolo dell'intero universo dei possibili oggetti). Il metodo è spesso applicato nel nearest neighbor su dati ad alta dimensionalità e larga scala, e.g., database di immagini o serie temporali, corpus di documenti, e database sul genoma.^[3]

Un approccio comune nell'apprendimento per similarità è modellare la funzione di similarità in forma bilineare. Ad esempio, nel caso dell'apprendimento relativo al ranking, si mira ad apprendere una matrice W che parametrizzi la funzione di similarità. $f_{W}(x,z)=x^{T}Wz$ Quando i dati sono abbondanti, un approccio comune è quello di apprendere una rete siamese, un modello di rete profonda con condivisione dei parametri.

Remove ads

Apprendimento di metriche

Riepilogo

Prospettiva

L'apprendimento per similarità è strettamente correlato all'apprendimento di metriche di distanza. L'apprendimento di metriche consiste nell'apprendere una funzione di distanza sugli oggetti. Una metrica o funzione di distanza deve rispettare quattro assiomi: non negatività, identità degli indiscernibili, simmetria e subadditività (o disuguaglianza triangolare). Nella pratica, gli algoritmi di apprendimento di metriche ignorano la condizione di identità degli indiscernibili e apprendono una pseudo-metrica.

Quando gli oggetti $x_{i}$ sono vettori in $R^{d}$ , allora qualsiasi matrice $W$ nel cono semidefinito positivo simmetrico $S_{+}^{d}$ definisce una distanza pseudo-metrica dello spazio di x attraverso la forma $D_{W}(x_{1},x_{2})^{2}=(x_{1}-x_{2})^{\top }W(x_{1}-x_{2})$ . Quando $W$ è una matrice simmetrica definita positiva, $D_{W}$ è una metrica. Inoltre, come qualsiasi matrice semidefinita positiva simmetrica $W\in S_{+}^{d}$ può essere decomposta come $W=L^{\top }L$ , dove $L\in R^{e\times d}$ e $e\geq rank(W)$ , la funzione distanza $D_{W}$ può quindi essere riscritta in modo equivalente come $D_{W}(x_{1},x_{2})^{2}=(x_{1}-x_{2})^{\top }L^{\top }L(x_{1}-x_{2})=\|L(x_{1}-x_{2})\|_{2}^{2}$ .

La distanza $D_{W}(x_{1},x_{2})^{2}=\|x_{1}'-x_{2}'\|_{2}^{2}$ corrisponde alla distanza euclidea tra i vettori di feature trasformate $x_{1}'=Lx_{1}$ e $x_{2}'=Lx_{2}$ .

Sono state proposte numerose formulazioni per l'apprendimento di metriche ^[4]. Alcuni approcci degli più popolari comprendono l'apprendimento da confronti relativi, ^[5] che si basa sulla loss di tripla (triplet loss), sul vicino più prossimo con margine ampio, ^[6] e l'apprendimento di metriche basato sulla teoria dell'informazione (ITML). ^[7]

In statistica, si usa talvolta la matrice di covarianza dei dati per definire una metrica detta distanza di Mahalanobis.

Remove ads

Applicazioni

L'apprendimento per similarità viene utilizzato nel recupero delle informazioni per imparare a ordinare (ranking), nella verifica o identificazione di volti, ^[8] ^[9] e nei sistemi di raccomandazione. Inoltre, molti approcci di apprendimento automatico si basano su metriche. Essi comprendono forme di apprendimento non supervisionato, come il clustering, che raggruppa oggetti vicini o simili. Essi includono anche approcci supervisionati come l'algoritmo K-nearest neighbor che si basa sulle etichette degli oggetti vicini per decidere l'etichetta di un nuovo oggetto. L'apprendimento di metriche è considerato come una fase di pre-elaborazione in molti di questi approcci. ^[10]

Scalabilità

L'apprendimento di metriche o similarità scala quadraticamente rispetto alla dimensionalità dello spazio di input, come si può facilmente vedere quando la metrica appresa ha la forma bilineare $f_{W}(x,z)=x^{T}Wz$ . Si può scalare verso dimensioni superiori imponendo la sparsità della matrice del modello, come fatto in HDSL, ^[11] e COMET. ^[12]

Remove ads

Software

metric-learn ^[13] è una libreria free Python che offre implementazioni efficienti di diversi algoritmi di apprendimento di metriche e di similarità supervisionati e debolmente supervisionati. L'API di metric-learn è compatibile con scikit-learn. ^[14]
OpenMetricLearning ^[15] è un framework Python per addestrare e convalidare i modelli che producono embedding di alta qualità.

Apprendimento per similarità

Tipologie

Apprendimento di metriche

Applicazioni

Scalabilità

Software

Ulteriori informazioni

Voci correlate

Note

Wikiwand - on