Loading AI tools
langue naturellement parlée par des humains, à l'inverse des langues construites formelles ou des langages formels De Wikipédia, l'encyclopédie libre
Un langage naturel[1], ou langage ordinaire, est une langue « normale » parlée par un être humain. Il s'oppose au langage formel, tel que le langage informatique, ainsi qu'aux langues construites.
On désigne par langage naturel le langage parlé par les humains, apparu entre 200 000 ans et 50 000 ans avant notre ère. Après 2 millions d'années de gestation par l’Homo erectus, qui a pris la suite de l'Homo habilis, l’homme moderne, appelé Homo sapiens, est apparu par la conjonction de nombreux facteurs :
Il y a deux scénarios d’apparition de l’Homo sapiens : le scénario « Out of Africa » et le scénario pluri-centripète (polygenèse). Les recherches récentes[Notes 3],[AOdledl 4] en paléolinguistique ont identifié au début du XXIe siècle un fond de 27 mots, communs à la racine de toutes les langues terrestres écrites, ce qui pousse à favoriser le scénario « Out of Africa » (monogenèse). En effet, plusieurs sources n’auraient pas eu de raison d’adopter la même protolangue de départ.
Ultérieurement, l’Homo sapiens s'est imposé au sein de l'espèce humaine, soit du fait de l’hypothèse productiviste[6], soit du fait de l’hypothèse sociologique[AOdledl 5].
Depuis environ 7 000 ans, ce langage a pris une forme écrite dans un certain nombre de langues, qui se sont alors imposées comme les langues dominantes. Principalement de ce fait, 6 000 langues sont en danger d’extinction à l'heure actuelle.
On notera que la langue des signes est également une langue naturelle.
En informatique, le langage naturel s'oppose au langage informatique :
Le défi que souhaitent relever les éditeurs de moteurs de recherche est de pouvoir donner des résultats pertinents à une requête formulée en langage naturel.
Alan Turing, mathématicien britannique de la première moitié du XXe siècle, a par ailleurs conjecturé qu'une intelligence artificielle pouvait tellement bien donner l'impression de « parler » qu'elle serait difficile à discerner d'un être humain. On appelle tests de Turing les tests d’intelligence artificielle ayant la faculté d’imiter la conversation humaine.
Si la cohérence d’un texte est la propriété d’un texte qui ne demande pas de déduction pour passer d’un élément documentaire au suivant, nous utiliserons l’exemple de Florian Wolf et al.[7] pour illustrer cette propriété :
Les inférences à faire pour comprendre le texte sont ici triviales, respectant le principe de pertinence dans la transmission d’information. Elles sont progressives. Il faut du beau temps pour lancer une fusée, et le lanceur Ariane peut lancer deux satellites. Encore faut-il caractériser ces inférences : « le temps était beau et de ce fait » explicite la première inférence, et « le lanceur Ariane […] a mis deux satellites sur orbite » explicite la deuxième inférence. On ne sait pas si le lanceur peut lancer quatre satellites, mais ce n’est pas le sujet. Il faut être conscient de la nécessité de tous les mots dans ce texte.
En outre la progression est respectée : on parle du temps qu’il fait, puis du lancement de la fusée et enfin de ce qui est lancé.
Retirez de ce texte l'adjectif spatial accolé au nom centre et nous ne savons plus justifier sa cohérence. Il faut alors faire une inférence moins explicite : le centre de Kourou est un centre spatial. Il faut pour ce faire se pencher sur la théorie de la pragmatique pour évaluer le coût de cette inférence. Il faut noter que le principe de pertinence évolue fortement qu'on soit dans un langage écrit où les préétablis sont faibles ou dans le langage oral où le préétabli est important sachant que l'auteur connaît une part des connaissances de son auditeur.
Il faut reconnaître que de nombreux textes ne satisfont pas cette propriété : ainsi Michel Charolles[8] consacre de nombreux documents à inventorier ces situations d’ambiguïté dans les textes :
Ces exemples mettent en exergue la notion de profondeur du traitement implicite que ces textes demandent pour atteindre la cohérence.
On définira la conformité typographique comme la propriété des textes à respecter l’orthographe et la typographie dans la rédaction. S'il est acceptable de considérer que « Lift-Gate » constitue une entité nommée et que « lift-gate » est un nom commun, la traduction littérale du mot « Lift-Gate » en entité nommée introduit un bruit inutile dans les traitements sémantiques. Il est souhaitable de filtrer ces manifestations dans les traitements morphologiques.
La conformité lexicale consiste à choisir le bon terme pour un concept : ainsi « Tailgate » est un mot composé explicite, le « tail gate » se traduisant en français par « hayon arrière », même si en français, ce terme est redondant car « hayon » suffit.
L’usage d’un dictionnaire est satisfaisant pour autant qu’on recherche non seulement les mots rencontrés mais les parties des mots (lexèmes) susceptibles de constituer des mots.
C’est ainsi que le choix, dans les deux premiers documents du corpus, de remplacer « decklid » par « boot lid » qui signifie « couvercle de la malle arrière » s’est imposé. Nous désignerons ce type d’erreur par erreur lexicale relevant de l’analyse des mots composés.
Il faut au-delà se tourner vers la levée des ambiguïtés des expressions. Il ne faut pas s’arrêter aux lemmes racines des mots composés.
Les qualités de stylistique qui concourent à une meilleure cohérence. Les documents génériques gagnent à être écrits au présent générique, en normalisant autant que possible les formes négatives. Ainsi une exigence adopte la forme active et s’écrit au présent générique, et la transformation des formes passives en formes actives suffisent à la satisfaction du besoin. Il peut être également utile d’utiliser une transformation pour traiter les textes négatifs.
Les qualités des documents se qualifient principalement au regard des composants du cœur de la cohérence [Notes 4] :
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.