Locality sensitive hashing

Définition

Une famille LSH ${\mathcal {F}}$ est définie pour un espace métrique ${\mathcal {M}}=(M,d)$ , un seuil $R>0$ et un facteur d'approximation $c>1$ et deux valeurs de probabilité $P_{1}$ et $P_{2}$ ^[1]^,^[2]. En pratique, on a souvent ${\mathcal {M}}=\mathbb {R} ^{d}$ .

${\mathcal {F}}$ est une famille de fonctions $h:M\to S$ satisfaisant les conditions suivantes pour deux points quelconques $p,q\in M$ , et une fonction $h$ choisie aléatoirement parmi la famille ${\mathcal {F}}$ :

si $d(p,q)\leq R$ , alors $Pr_{h\in H}[h(p)=h(q)]\geq P_{1}$
si $d(p,q)\geq cR$ , alors $Pr_{h\in H}[h(p)=h(q)]\leq P_{2}$

Par construction, les fonctions de hachage doivent permettre aux points proches d'entrer fréquemment en collision (i.e. $h(p)=h(q)$ ). Inversement, les points éloignés ne doivent entrer que rarement en collision. Pour que la famille LSH soit intéressante, il faut donc $P_{2}<P_{1}$ . La famille ${\mathcal {F}}$ est alors appelée $(R,cR,P_{1},P_{2})$ -sensitive. La famille est d'autant plus intéressante si $P_{1}$ est très supérieure à $P_{2}$ .

Une définition alternative^[3] s'appuie sur un univers $U$ possédant une fonction de similarité $\phi :U\times U\to [0,1]$ . Une famille LSH est alors un ensemble de fonctions de hachage $H$ et une distribution de probabilité $D$ sur les fonctions, telle qu'une fonction $h\in H$ choisie selon $D$ satisfait la propriété $Pr_{h\in H}[h(a)=h(b)]=\phi (a,b)$ pour tout $a,b\in U$ .

Remove ads

Méthodes

Résumé

Contexte

Échantillonnage par bit pour la distance de Hamming

L'échantillonnage de bit^[2]^,^[5] est une méthode simple permettant de construire une famille LSH. Cette approche est adaptée à la distance de Hamming dans un espace binaire de dimension $d$ , i.e. quand un point de l'espace appartient à $\{0,1\}^{d}$ . La famille ${\mathcal {F}}$ de fonctions de hachage est alors l'ensemble des projections sur une des $d$ coordonnées, i.e., ${\mathcal {F}}=\{h:\{0,1\}^{d}\to \{0,1\}\mid h(x)=x_{i},i=1...d\}$ , où $x_{i}$ est la i^e coordonnée de $x$ . Une fonction aléatoire $h$ de ${\mathcal {F}}$ ne fait donc que sélectionner un bit au hasard dans le vecteur $x$ d'origine.

Cette famille possède les paramètres suivants :

$P_{1}=1-R/d$
$P_{2}=1-cR/d$ .

Remove ads

L'algorithme LSH pour la recherche de plus proches voisins

Résumé

Contexte

L'application principale de LSH est de fournir un algorithme efficace de recherche des plus proches voisins.

L'algorithme donne une méthode de construction d'une famille LSH ${\mathcal {G}}$ utilisable, c'est-à-dire telle que $P_{1}\gg P_{2}$ , et ceci à partir d'une famille LSH ${\mathcal {F}}$ de départ. L'algorithme a deux paramètres principaux : le paramètre de largeur $k$ et le nombre de tables de hachage $L$ .

Pré-traitement

En pré-traitement, l'algorithme définit donc une nouvelle famille ${\mathcal {G}}$ de fonctions de hachage $g$ , où chaque fonction $g$ est obtenue par concaténation de $k$ fonctions $h_{1},...,h_{k}$ de ${\mathcal {F}}$ , i.e., $g(p)=[h_{1}(p),...,h_{k}(p)]$ . En d'autres termes, une fonction de hachage aléatoire $g$ est obtenue par concaténation de $k$ fonctions de hachage choisies aléatoirement dans ${\mathcal {H}}$ .

L'algorithme construit ensuite $L$ tables de hachage, correspondant chacune à une fonction de hachage $g$ . La j^e table de hachage contient alors les points de ${\mathcal {M}}$ hachés par la fonction $g_{j}$ . Seules les positions non-vides des tables de hachage sont conservées, en utilisant un hachage standard des valeurs de $g_{j}(p)$ . Les tables de hachage résultats n'ont alors que $n$ entrées (non-vides), réduisant l'espace mémoire par table à $O(n)$ et donc $O(nL)$ pour la structure de donnée totale.

Recherche d'un point requête $q$

Pour un point requête $q$ , l'algorithme itère sur les $L$ fonctions de hachage $g$ . Pour chaque $g$ considérée, on trouve les points hachés à la même position que le point requête $q$ dans la table correspondante. Le processus s'arrête dès qu'un point r est trouvé tel que $d(r,q)\leq cR$ .

Étant donné les paramètres $k$ et $L$ , l'algorithme a les garanties de performance suivantes :

temps de pré-traitement : $O(nLkt)$ , où $t$ est le temps d'évaluation d'une fonction $h\in F$ d'un point $p$ ;
mémoire : $O(nL)$
temps de requête : $O(L(kt+dnP_{2}^{k}))$ ;
l'algorithme a une probabilité de trouver un point à une distance $cR$ de la requête $q$ (si un tel point existe) avec une probabilité $\Omega (\min\{1,LP_{1}^{k}\})$ .

Remove ads

Locality sensitive hashing

Définition

Applications

Méthodes

Échantillonnage par bit pour la distance de Hamming

L'algorithme LSH pour la recherche de plus proches voisins

Notes et références

Voir aussi

Wikiwand - on