Top Qs
Chronologie
Chat
Contexte

Simplification de textes

méthode de traitement de textes De Wikipédia, l'encyclopédie libre

Remove ads

La simplification de textes (TS) est une opération utilisée en traitement automatique du langage naturel. Il s'agit d'un processus ayant pour but une simplification syntaxique ou lexicale d'un texte, qui résulte en un texte cohérent.

Elle permet de modifier, de perfectionner, d'organiser un texte afin que sa grammaire et sa structure soient considérablement simplifié, tout en préservant la signification fondamentale de l'information.

Remove ads

Objectifs de la simplification d'un texte

Les phrases longues et complexes posent divers problèmes à de nombreuses technologies du langage naturel.

Lors d'une décomposition analytique, les phrases syntaxiquement lourdes augmentent le nombre d'éléments à analyser. Une analyse erronée devient plus probable. Dans le cas d'une traduction automatique, ces phrases créent des ambiguïtés pour le traducteur et les traductions en sont potentiellement insatisfaisantes.

Remove ads

Exemple

La première phrase contient deux clauses relatives ainsi qu'un syntagme verbal conjoint. Une TS système vise à simplifier la première phrase. Le résultat se compose de quatre phrases.

  • Also contributing to the firmness in copper, the analyst noted, was a report by Chicago purchasing agents, which precedes the full purchasing agents report that is due out today and gives an indication of what the full report might hold.
  • Also contributing to the firmness in copper, the analyst noted, was a report by Chicago purchasing agents. The Chicago report precedes the full purchasing agents report. The Chicago report gives an indication of what the full report might hold. The full report is due out today.
Remove ads

Différentes méthodes de simplification lexicale

Résumé
Contexte

Basic English

Une méthode récente consiste à convertir le texte en anglais de base (Basic English),qui est constitué d'un vocabulaire composé d'uniquement 1 000 mots, également utilisés pour la rédaction des notes de bas de page du dictionnaire de base de la science[1].

Méthode de projet PSET[2]

Cette méthode est utilisée pour traiter les textes anglais.

Dans un premier temps, chaque mot est analysé puis trié en fonction de sa complexité sémantique.

Ensuite, dans l'ordre décroissant de la complexité de chaque mot, du plus complexe au moins complexe, les opérations suivantes sont exécutées.

  1. La morphologie du mot est analysée (par exemple, publicised = publicise + ed).
  2. La nature grammaticale du mot est identifiée puis une recherche est lancée sur WordNet (ici, (publicise, verb) ).
  3. Des synonymes sont proposés, le plus simple est choisi ("air " est le synonyme le plus simple, dans le cas de l'exemple).
  4. La nature grammaticale du mot à remplacer est appliqué au synonyme choisi ("air + ed" produit "aired").
  5. Vérification du déterminant a ou an, menant ou non à une correction ("a publicised event" devient "an aired event").

Cette méthode n'applique pas la désambiguisation lexicale (WSD : Word Sense Disambiguation). Elle est dépendante de WordNet et d'une base de données psycholinguistiques, la rendant indisponible pour certaines langues.

Méthode de Belder & Deschacht[3]

À partir d'un mot, un ensemble de synonymes et un ensemble de mots similaires sont générés. L'ensemble de synonymes est obtenu à partir d'un dictionnaire des synonymes (ou WordNet, si disponible. L'ensemble des mots similaires est généré par le modèle Latent Words Language (LWLM). Pour chaque mot qui se trouvent dans ces deux ensembles, une probabilité est générée dépendante de l'existence d'un mot remplaçant, défini par .

Thumb
Représentation schématique
  • Le modèle Latent Words Language :

LWLM modélise les langues comme des mots consécutifs, mais prend en compte une signification contextuelle des mots comme des variables latentes dans un réseau bayésien.

Durant une phase d'apprentissage, le modèle apprend un ensemble probabiliste de synonymes et mots similaires pour chaque mot, à partir d'un large corpus d'apprentissage non étiqueté.

Pendant la « phase d'inférence », le modèle est appliqué à un texte inédit et estime pour chaque mot les synonymes de ce mot qui sont pertinents dans ce contexte particulier.

Les mots latents aider à résoudre le problème de parcimonie rencontré avec N-gramme traditionnel modèle, conduisant à un modèle de langue de qualité supérieure, en termes de réduction de la perplexité sur des textes inédits.

  • Modélisation de la facilité de mots:

La probabilité pour qu'un nouveau mot soit un bon remplaçant pour le mot d'origine dans le texte est inspiré par la probabilité , défini comme suit:

La probabilité qu'un nouveau mot corresponde toujours au contexte est déduit du modèle LWLM, qui indique quels remplaçants sont plus susceptibles de s'appliquer que d'autres. Le second facteur à estimer est de déterminer si un mot est facile à comprendre ou non. Il peut être instancié de plusieurs façons, selon la disponibilité des ressources.

Remove ads

Méthode de simplification syntaxique

Résumé
Contexte

Méthode de Chandrasekar et al.

Les objectifs de la simplification de texte selon Chandrasekar et al sont en grande partie de réduire la longueur des phrases comme une étape de prétraitement pour un analyseur. Ils traitent la simplification en deux étapes : "analyse" suivie d'une "transformation".

  • Dans leur première approche (Chandrasekar et al., 1996) [4] on traite manuellement les règles de simplification. Par exemple :

V W:NP, X:REL_PRON Y, Z. V W Z. W Y.

Qui peut se lire comme «si une phrase se compose d'un texte V suivi par un syntagme nominal W, un pronom relatif X et une séquence de mots Y enfermés dans des virgules et une séquence de mots Z, alors la clause intégrée peut être transformée en une nouvelle phrase avec W comme syntagme nominal objet". Cette règle peut, par exemple, être utilisée pour effectuer des simplifications suivantes :

John, who was the CEO of a company, played golf.

John played golf. John was the CEO of a company.

Dans la pratique, les règles linéaires de filtrage par motif comme celui traité manuellement ci-dessus ne fonctionnent pas très bien. Par exemple, pour simplifier :

A friend from London, who was the CEO of a company, played golf, usually on Sundays.

Il est nécessaire de décider si la clause relative se rattache à un friend ou à London et si la clause se termine sur company ou golf. Et si un analyseur est utilisé pour résoudre ces ambiguïtés (comme dans leur deuxième approche résumée ci-dessous), l'utilisation prévue de la simplification de texte comme un préprocesseur à un analyseur est plus difficile à justifier.

  • Dans la deuxième approche (Chandrasekar et Srinivas, 1997) [5], on utilise le programme pour apprendre les règles de simplification à partir d'un corpus aligné des phrases et leurs formes simplifiées traitées manuellement.

Les phrases originales et simplifiées sont analysées à l'aide d'une Lightweight Dependency Analyser (LDA) (Srinivas, 1997) qui a agi sur la sortie d'un supertagger (Joshi et Srinivas, 1994). Ces analyseurs sont chunked à syntagmes.

Les règles de simplification sont induites d'une comparaison entre les structures des analyseurs chunked de la texte original et simplifiée traitée manuelle.

L'algorithme d'apprentissage travaillé en sous-arbres aplatissants qui sont les mêmes sur les deux côtés de la règle, il remplace les chaînes de mots identiques avec des variables, et puis calcule les transformations arbre arbres pour obtenir des règles en termes de ces variables.

Méthode de projet PSET [6]

Pour la Simplification syntaxique, le projet PSET a à peu près suivi l'approche de Chandrasekar et al. PSET utilise un analyseur probabiliste LR (Briscoe et Carroll, 1995) pour l'étape de l'analyse et le Filtrage par motif utilisant l'unification de règles traitée manuelle sur les arbres de syntagme-constructeur pour l'étape de transformation.

Ici est un exemple :

(S (?a) (S (?b) (S (?c) ) ) ) (?a) (?c)

Le côté gauche de cette règle unifie les structures de la forme représentée à la figure ci-dessous :

Thumb
La structure filtré par le motif (S (?a) (S (?b) (S (?c) ) ) )

La règle supprime simplement la conjonction (?b) et construit des nouvelles phrases de (?a) et (?c) . Cette règle peut être utilisée, par exemple, d'effectuer des simplifications suivantes :

The proceedings are unfair and any punishment from the guild would be unjustified.

The proceedings are unfair. Any punishment from the guild would be unjustified.

Remove ads

Bibliographie

En savoir plus

Voir aussi

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads