Loading AI tools
De Wikipédia, l'encyclopédie libre
La distance de Jaro-Winkler mesure la similarité entre deux chaînes de caractères. Il s'agit d'une variante proposée en 1999 par William E. Winkler, découlant de la distance de Jaro (1989, Matthew A. Jaro) qui est principalement utilisée dans la détection de doublons.
Le résultat est normalisé de façon à avoir une mesure entre 0 et 1, donc 0 représente l'absence de similarité et 1, l'égalité des chaines comparées.
Cette mesure est particulièrement adaptée au traitement de chaînes courtes comme des noms ou des mots de passe.
La distance de Jaro entre les chaînes et est définie par :
où:
Deux caractères identiques de et de sont considérés comme correspondants si leur éloignement (i.e. la différence entre leurs positions dans leurs chaînes respectives) ne dépasse pas :
Le nombre de transpositions est obtenu en comparant le i-ème caractère correspondant de avec le i-ème caractère correspondant de . Le nombre de fois où ces caractères sont différents, divisé par deux, donne le nombre de transpositions.
La méthode introduite par Winkler utilise un coefficient de préfixe qui favorise les chaînes commençant par un préfixe de longueur (avec ). En considérant deux chaînes et , leur distance de Jaro-Winkler est :
où :
Soit deux chaînes MARTHA et MARHTA. Nous allons dresser leur table de correspondance. Ici, l'éloignement maximal vaut 6 / 2 - 1 = 2. Dans les cases jaunes de la table ci-dessous, on inscrira donc 1 lorsque les caractères sont identiques (il y a correspondance) et 0 sinon :
M | A | R | T | H | A | |
M | 1 | 0 | 0 | 0 | 0 | 0 |
A | 0 | 1 | 0 | 0 | 0 | 0 |
R | 0 | 0 | 1 | 0 | 0 | 0 |
H | 0 | 0 | 0 | 0 | 1 | 0 |
T | 0 | 0 | 0 | 1 | 0 | 0 |
A | 0 | 0 | 0 | 0 | 0 | 1 |
La distance de Jaro est :
La distance de Jaro-Winkler avec avec un préfixe de longueur devient
Avec les chaînes DWAYNE et DUANE on trouve :
La distance de Jaro est :
Celle de Jaro-Winkler avec :
Avec les chaînes DIXON et DICKSONX, on obtient :
D | I | X | O | N | |
D | 1 | 0 | 0 | 0 | 0 |
I | 0 | 1 | 0 | 0 | 0 |
C | 0 | 0 | 0 | 0 | 0 |
K | 0 | 0 | 0 | 0 | 0 |
S | 0 | 0 | 0 | 0 | 0 |
O | 0 | 0 | 0 | 1 | 0 |
N | 0 | 0 | 0 | 0 | 1 |
X | 0 | 0 | 0 | 0 | 0 |
On calcule l'éloignement maximum pour le critère de correspondance
La distance de Jaro :
La distance de Jaro-Winkler avec
Avec les chaînes 75000 et 75020 on doit trouver :
Les correspondances entre les deux chaînes de caractères ne sont pas les mêmes ("75000" pour la première et "7500" pour la seconde). Par conséquent, il faut prendre au lieu de .
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.