Top Qs
Chronologie
Chat
Contexte

Unification

processus algorithmique qui, étant donnés deux termes, trouve une substitution qui appliquée aux deux termes les rend identiques De Wikipédia, l'encyclopédie libre

Unification
Remove ads

En informatique et en logique, l'unification est un processus algorithmique qui, étant donnés deux termes, trouve une substitution qui appliquée aux deux termes les rend identiques[1]. Par exemple, et peuvent être rendus identiques par la substitution et , qui donne quand on l'applique à chacun de ces termes le terme . Dit autrement, l'unification est la résolution d'une équation dans l'algèbre des termes (unification syntaxique) ou dans une algèbre quotient par un ensemble d'identités (unification modulo une théorie) ; la solution de l'équation est la substitution qui rend les deux termes identiques et que l'on appelle l'unificateur. L'unification a des applications en inférence de types, programmation logique, en démonstration automatique de théorèmes, en système de réécriture, en traitement du langage naturel[1].

Thumb
Unifier deux termes, c'est les rendre identiques en remplaçant les variables.

Souvent, on s'intéresse à l'unification syntaxique où il faut que les termes obtenus par application de l'unificateur soient syntaxiquement égaux, comme dans l'exemple ci-dessus. Par exemple, le problème d'unification syntaxique ayant pour données et n'a pas de solution[2]. Le filtrage par motif (ou pattern matching) est une restriction de l'unification où l'unificateur n'est appliquée qu'à un seul des deux termes. Par exemple, et sont rendus égaux par la substitution .

La fin de l'article présente aussi l'unification modulo une théorie, qui est le cas où on dispose de connaissances supplémentaires sur les fonctions (par exemple, est commutatif).

Remove ads

Histoire

Résumé
Contexte
Thumb
Jacques Herbrand en 1931, considéré comme le précurseur de l'unification
Thumb
John Alan Robinson, considéré comme le fondateur de l'unification.

Invention de la notion d'unification

Le premier chercheur à évoquer un algorithme d'unification est Jacques Herbrand dans sa thèse en 1930[3]. Il s'agit d'un algorithme non-déterministe pour unifier deux termes. Herbrand était intéressé par la résolution d'équations. En 1960, Prawitz et Voghera[4] ont généralisé le calcul propositionnel à des formules du premier ordre non instanciées, ou tout au moins en les instanciant a minima. L'unification a ensuite été redécouverte en 1963, mais l'article qui la décrit est publié seulement en 1965, par John Alan Robinson[5],[6] dans le cadre de sa méthode de résolution en démonstration automatique. Selon Baader et Snyder[7], c'est Knuth et Bendix[8],[9], en 1970, qui ont introduit le concept de "substitution la plus générale" dans leur travail sur la confluence locale d'un système de réécriture. Un an avant la publication de l'article de Robinson, soit en 1964, Guard a indépendamment étudié le problème d'unification sous le nom de matching[10].

Course vers l'efficacité

L'algorithme originel de Robinson est inefficace car il s'exécute en temps exponentiel et demande une quantité de mémoire exponentielle. Robinson écrit alors une note en 1971 où il exhibe une représentation des termes plus concise[11]. L'algorithme utilise alors un espace mémoire polynomial. Boyer et Moore donnent aussi un algorithme qui utilise un espace mémoire polynomial en temps exponentiel dans le pire cas[12]. Venturini-Zilli introduit un système de marquage pour que l'algorithme de Robinson s'exécute en temps quadratique, dans le pire cas, en la taille des termes[13]. Huet travaille sur l'unification d'ordre supérieur et améliore le temps d'exécution de l'algorithme syntaxique du premier ordre : son algorithme est quasi linéaire[14]. D'autres chercheurs ont exhibé des algorithmes quasi linéaires[15],[16],[17].

Une étape importante est ensuite la découverte d'algorithmes linéaires en 1976 par Martelli et Montanari[18], Paterson et Wegman[19],[20] et Huet[réf. nécessaire]. Comme les articles de Paterson et Wegman sont courts, Dennis de Champeaux a réexpliqué l'idée de l'algorithme en 1986[20].

En 1982, Martelli et Montanari présentent un algorithme presque-linéaire mais plus efficace en pratique[21].

En 1984, Dwork et al. démontrent que l'unification est P-complet[22], ce qui signifie qu'a priori l'unification est difficile à paralléliser. Par opposition, le problème de filtrage par motif (pattern matching) est dans NC[22], c'est-à-dire facile à paralléliser.

Prolog a aussi beaucoup contribué à sa popularisation[évasif]. Des algorithmes spécifiques pour les termes de certaines théories, appelés aussi unification équationnelle (en particulier associative et commutative par Stickel) ont été proposés (voir ci-dessus).

Remove ads

Description

Résumé
Contexte

Problèmes d'unification

Un problème d'unification peut être présenté comme la donnée de deux termes, ou alors comme une équation, ou alors comme un ensemble de termes à unifier, ou alors comme un ensemble de couples de termes, ou alors comme un ensemble d'équations. Le problème d'unification a une solution car substituer (i.e. remplacer) le terme à la variable et le terme à la variable , dans les deux termes et donne le même terme . En revanche, le problème d'unification n'a pas de solution et le problème d'unification non plus.

Solution principale

Un problème d'unification peut avoir une infinité de solutions. Par exemple, a une infinité de solutions : , , , etc. De toutes ces solutions, on exhibe des solutions dites principales car elles permettent de construire toutes les autres solutions : c'est le concept de solution principale, ou unificateur le plus général (most general unifier, mgu).

Tout d'abord, une solution d'un problème d'unification est dite plus générale qu'une solution , si est obtenue en substituant des termes à des variables dans . Par exemple, si on considère le problème d'unification , alors la solution est plus générale que la solution qui est obtenue en substituant le terme à la variable dans . De même, la solution est plus générale que la solution , qui est obtenue en substituant le terme à la variable dans la solution .

Une solution d'un problème d'unification est dite principale si elle est plus générale que toutes les solutions de ce problème, c'est-à-dire si toute solution est obtenue en substituant des termes à des variables dans . Dans cet exemple, la solution est une solution principale du problème.

Le théorème de la solution principale exprime que si un problème d'unification a une solution, alors il a une solution principale. Un algorithme d'unification calcule une solution principale ou échoue si les termes ne sont pas unifiables.

Exemples

La table suivante donne des exemples de problèmes d'unification. En plus, nous donnons aussi, dans la colonne de gauche, les exemples avec la syntaxe de Prolog : une variable commence par une majuscule, les constantes et symboles de fonction commencent par une minuscule. Pour les notations mathématiques, x,y,z sont des variables, , f,g sont des symboles de fonction et a,b sont des constantes.

Davantage d’informations Notation Prolog, Notation mathématique ...
Remove ads

Applications

Résumé
Contexte

Filtrage par motif dans les langages de programmation

Le filtrage par motif est la restriction de l'unification dans laquelle, dans chaque équation, les variables n'apparaissent que dans le terme de gauche. Par exemple, le problèmeest un problème de filtrage, car le terme ne contient pas de variables. Le filtrage est utilisé dans les langages fonctionnels comme Haskell, Caml, LISP.

Dans le cas du filtrage, l'algorithme de Martelli et Montanari se simplifie.

On choisit une équation dans le système.

Si cette équation a la forme

on la remplace par les équations , ..., et on résout le système obtenu.

Si cette équation a la forme

et sont des symboles différents, on échoue.


Si cette équation a la forme

on substitue le terme à la variable dans le reste du système, on résout le système obtenu, ce qui donne une solution et on retourne la solution .

Programmation logique

L'unification est ce qui distingue le plus le langage de programmation Prolog des autres langages de programmation.

En Prolog, l’unification est associée au symbole « = » et ses règles sont les suivantes :

  1. une variable X non instanciée (c'est-à-dire ne possédant pas encore de valeur) peut être unifiée avec une autre variable (instanciée ou pas); les deux variables deviennent alors simplement des synonymes l'une de l'autre et représenteront dorénavant le même objet (ou la même structure) ;
  2. une variable X non instanciée peut être unifiée avec un terme ou un atome et représentera dorénavant ce terme ou atome ;
  3. un atome peut être unifié seulement avec lui-même ;
  4. un terme peut être unifié avec un autre terme : si leurs noms[Quoi ?] sont identiques, si leurs nombres d'arguments sont identiques et si chacun des arguments du premier terme est unifiable avec l'argument correspondant du second terme.

En raison de sa nature déclarative, l'ordre dans une suite d'unifications ne joue aucun rôle.

Remove ads

Algorithmes

Résumé
Contexte

Algorithme de Robinson

L'algorithme de Robinson de 1965 a été reformulé, par Corbin et Bidoit en 1983 [23], puis amélioré par Ruzicka et Prívara en 1989[24], puis repris par Melvin Fitting en 1990 comme un algorithme non-déterministe[25], présentation également reprise par Apt en 1996[26]. Nous présentons cette version également. L'algorithme prend en entrée deux termes t1 et t2 à unifier, donnés sous la forme de deux arbres. Il repose sur la notion de disagreement pair qui est la donnée d'un sous-terme de t1 et d'un sous-terme de t2, dont les nœuds dans les arbres de t1 et t2 sont à la même position depuis les racines mais avec des étiquettes différentes. Une telle disagreement pair est simple si l'un des sous-termes est une variable qui n'apparaît pas dans l'autre sous-terme. L'algorithme calcule une substitution, initialement vide. L'algorithme continue tant que la substitution ne rend pas les deux termes égaux. Il choisit de façon non-déterministe un disagreement pair. S'il n'est pas simple, l'algorithme échoue. Sinon, il enrichit la substitution.

Algorithme de Martelli et Montanari

En 1982, Martelli et Montanari décrivent un algorithme sous la forme d'un ensemble de règles qui transforment un ensemble d'équations[21]. L'algorithme est présenté dans des ouvrages pédagogiques[27],[28],[29]. Il est similaire à l'algorithme proposé par Herbrand dans sa thèse[30]. Selon Baader et Snyder[31], un algorithme sous la forme d'un ensemble de règles dégage les concepts essentiels et permet de démontrer la correction de plusieurs algorithmes pratiques en même temps.

On se donne un ensemble fini d'équations G = { s1t1, ..., sntn } où les si et ti sont des termes du premier ordre. L'objectif est de calculer une substitution la plus générale. On applique alors les règles suivantes à l'ensemble G jusqu'à épuisement :

G ∪ { tt } G supprimer
G ∪ { f(s1,...,sk) ≐ f(t1,...,tk) } G ∪ { s1t1, ..., sktk } décomposer
G ∪ { f(t⃗) ≐ x } G ∪ { xf(t⃗) } échanger
G ∪ { xt } G{xt} ∪ { xt } si xvars(t) et xvars(G) éliminer

La règle supprimer supprime une équation tt, c'est-à-dire où les termes de la partie gauche et de la partie droite sont les mêmes. La règle décomposer supprime une équation de la forme f(s1,...,sk) ≐ f(t1,...,tk) et la remplace par les équations s1t1, ..., sktk. La règle échanger oriente les équations pour que la variable x soit en partie gauche. En présence d'une équation xt où la variable x n'apparaît pas dans le terme t, la règle éliminer remplace les occurrences de x par t dans les autres équations.

Les règles suivantes sont également ajoutées en guise d'optimisation[29] :

G ∪ { f(s⃗) ≐ g(t⃗) } si fg or km conflit
G ∪ { xf(s⃗) } si xvars(f(s⃗)) vérifier (occurs-check)

Si l'ensemble contient une équation de la forme f(s⃗) ≐ g(t⃗) où f et g ne sont pas les mêmes symboles de fonctions ou alors si les nombres d'arguments ne sont pas les mêmes (km) la règle conflit fait échouer le processus d'unification. La règle vérifier (occurs-check), quant à elle, fait échouer l'unification si l'ensemble contient une équation xf(s⃗) où x apparaît dans f(s⃗).

L'algorithme est en temps exponentiel et demande un espace mémoire au plus exponentiel si l'on représente les termes par leurs arbres syntaxiques. Néanmoins, on peut n'utiliser qu'un espace mémoire linéaire si on représente les termes par des graphes.

Améliorations de l'algorithme de Robinson

Implémentation avec des graphes

Thumb
L'algorithme d'unification prend en entrée deux termes représentés par des graphes, ici f(x, g(x, x)) et f(h(y), g(z, h(1))). En sortie, une substitution la plus générale est représentée par des pointeurs (en bleu).

En implémentant l'algorithme avec des graphes, l'espace mémoire est linéaire en la taille de l'entrée même si le temps reste exponentiel dans le pire des cas. L'algorithme prend en entrée deux termes sous la forme de graphes, c'est-à-dire un graphe acyclique où les nœuds sont les sous-termes. En particulier, il y a un unique nœud par variables (cf. figure à droite). L'algorithme retourne en sortie une substitution la plus générale : elle est écrite en place dans le graphe représentant les termes à l'aide de pointeurs (en bleu dans la figure à droite). c'est-à-dire, en plus du graphe décrivant la structure des termes (qui sont des pointeurs aussi), nous avons des pointeurs particuliers pour représenter la substitution. Par exemple si x := h(1) est la substitution courante, x pointe vers le nœud correspondant au terme h(1).


Algorithme quadratique

L'algorithme présenté dans cette sous-section est dû à Corbin et Bidoit (1983)[32]. Pour avoir une complexité quadratique, il y a deux améliorations de l'algorithme précédent.

Tester qu'une variable apparaît dans un sous-terme
Thumb
Le graphe des deux termes avec les pointeurs en bleu.

L'implémentation pour tester si une variable x apparaît dans un sous-terme t est a priori en temps exponentiel. L'idée est d'éviter de parcourir plusieurs fois les mêmes nœuds. On marque les nœuds visités comme dans un parcours en profondeur de graphe. Une fois un test d'appartenance effectué, il faut a priori démarquer les nœuds. Au lieu de cela, on les marque avec le "temps actuel". On ajoute alors un champ aux nœuds du graphe que l'on appelle poinçon qui contient le "temps actuel". Nous disposons d'une variable globale "temps actuel" qui est incrémenté à chaque test d'appartenance.


Éviter des appels inutiles à unifier

Pour éviter des appels inutiles à la procédure qui cherche à unifier deux termes, on utilise des pointeurs pour tous les nœuds et pas seulement les variables. On peut montrer que le nombre d'appels à la procédure qui unifie est O(|A|) où |A| est le nombre d'arcs dans le graphe. Le traitement interne utilise un parcours de pointeurs "find" en O(|S|) où |S| est le nombre de sommets et un test d'appartenance d'une variable dans un terme qui est en O(|S|+|A|) = O(|A|) car le graphe est connexe. Donc l'algorithme est bien quadratique.



Algorithme quasi linéaire

L'algorithme[29] est inspiré de l'algorithme quadratique de la section précédente. Le test de savoir si x apparaît dans t n'est plus effectué au cours de l'algorithme mais uniquement à la fin : à la fin, on vérifie que le graphe est acyclique. Enfin, les pointeurs de la substitution et "find" sont implémentés à l'aide d'une structure de données Union-find. Plus précisément, on conserve les pointeurs dans la structure mais on dispose en plus une structure annexe Union-find. Dans la structure de données Union-find, les classes d'équivalence ne contiennent soit que des variables soit que des termes complexes. Pour passer d'une variable à un terme complexe, on utilise les pointeurs éventuels qui sont dans le graphe.


Construction de graphes à partir d'arbres

Pour construire un graphe à partir d'un arbre, on parcourt l'arbre et on utilise une table de symboles (implémenté avec une table de hachage ou un arbre binaire de recherche) pour les variables car il faut garantir l'unicité du nœud x pour une variable x.

Remove ads

Unification modulo une théorie

Résumé
Contexte

L'unification modulo une théorie, aussi appelée (unification équationnelle, E-unification, unification dans une théorie) est l'extension de l'unification syntaxique dans les cas où les opérateurs sont assujettis à des axiomes, formant une théorie E. Généralement cette théorie est décrite par un ensemble d'égalités universelles. Par exemple, une théorie E peut contenir l'identité où les variables et sont implicitement quantifiées universellement et qui dit que l'opérateur est commutatif. Dès lors, bien que les termes et ne soient pas syntaxiquement unifiables, ils sont E-unifiables :

{xb, ya}
= en appliquant la substitution
= car est commutatif.
= {xb, ya} en appliquant la substitution

Exemple de théories E

Conventions de nommages des propriétés
u,v,w u*(v*w) = (u*v)*w A Associativité de *
u,v u*v = v*u C Commutativité de *
u,v,w u*(v+w) = u*v+u*w Dl Distributivité gauche de * sur +
u,v,w: (v+w)*u = v*u+w*u Dr Distributivité droite de * sur +
u: u*u = u I Idempotence de *
u: n*u = u Nl n est élément neutre gauche de *
u: u*n = u     Nr     n est élément neutre droit de *

L'E-unification est décidable pour une théorie E s'il existe un algorithme pour cette théorie qui termine sur chaque entrée et résout le problème d'E-unification. Il est semi-décidable s'il existe un algorithme qui se termine pour les entrées qui ont une solution et qui peut boucler pour des équations sans solution.

L'E-unification est décidable pour les théories suivantes :

L'E-unification est semi-decidable pour les théories suivantes :

Remove ads

Unification et logique d'ordre supérieur

Si on se place en logique d'ordre supérieur, c'est-à-dire si on s'autorise à utiliser des variables comme symboles de fonction ou comme prédicats, on perd la décidabilité et l'unicité de l'unificateur quand il existe. Au pire, deux termes peuvent même avoir une infinité d'unificateurs tous différents, dans le sens suivant: soit t et deux termes qu'on veut unifier, il peut exister un ensemble infini U d'unificateurs de t et tel que si σ et ρ sont dans U, alors σ n'est pas plus général que ρ et ρ n'est pas plus général que σ.

Remove ads

Liens externes

Notes et références

Article lié

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads