Dictionnaire bilingue de classes sémantiques de noms humains. Une étude appliquée au traitement automatique des langues naturelles


Travail de Recherche, 2018

112 Pages


Extrait


TABLE DES MATIÈRES

1. Introduction

2. Cadre théorique
2. 1. Le lexique-grammaire
2.2. Traits syntactico-sémantiques et classes d'objets
2.2.1. Qu'entend-on par traits syntactico-sémantiques?
2.2.2. Les traits syntactico-sémantiques et la polysémie
2.2.3. Le trait humain
2.2.4. Les classes d'objets spécifiques du trait humain
2.3. Les concepts de «classes d’objets» et de «classes de prédicats»

3. Dictionnaires électroniques des «humains»
3.1. Le système de dictionnaires électroniques
3.2. Format des dictionnaires électroniques
3.3. Le module des humains

4. Description des classes d'humains
4.1. Classes appartenant à d’autres traits
4.1.1. Documents écrits ou oraux (doct; écr; propos)
4.1.2. Mouvements littéraires: the
4.1.3. Locatifs par métonymie(lcult; lhab; lscol; lspect; ltr; locm)
4.1.4. Les humains locatifs
4.1.5. Noms prédicatifs divers (npra; nprd; nprp)
4.2. Humains collectifs et humains non-collectifs
4.3. Religion et armée
4.3.1. Religion
4.3.1.1. Relig
4.3.1.2. Adeptes
4.3.1.3. Relig,fon
4.3.2. Militaires
4.3.2.1. Distinction entre <soldat> et <grade>
4.3.2.2. Spécificités de la classe <grade>
4.4. Êtres mythiques: <êtrerelig > et <personnage>
4.4.1. Personnages
4.4.2. Êtres relig
4.5. Caractéristiques, qualités, défauts, maladies spécifiques aux humains
4.5.1. Qualités (quaphy; quamor; quapsy)
4.5.2. Défauts (défphy; défmor; défpsy)
4.5.3. Maladies (malphy; malpsy)
4.5.4. Caractéristiques (caractphy; caractmor; caractpsy)
4.6. Statuts et tendances
4.6.1. Statuts (titre; rang; statut)
4.6.1.1. Titre
4.6.1.2. Rang
4.6.1.3. Statut
4.6.2. Tendances (mouv; partis)
4.6.2.1. Politique (<mouv>)
4.6.2.2. Partisans (<partis>)
4.7. Activités
4.7.1. Activité professionnelle (spé,pro; pro)
4.7.2.Loisirs pouvant être également des professions (ins; sportif; artiste)
4.7.2.1. Instrumentistes
4.7.2.2. Artistes
4.7.3. Activités diverses (fon)
4.8. Vie, relations sociales et origines
4.8.1. Vie (âge)
4.8.2. Relations sociales (ape; rel)
4.8.2.1. Appellatifs humains (<ape>)
4.8.2.2. Relationnels (<rel>)
4.9. Résiduel

5. Les grammaires locales
5.1. Une sous-classe d’artistes : <écrivains>
5.1.1. Prédicats nominaux humains
5.1.2. Les arguments associés aux <écrivains>
5.1.3. Les noms prédicatifs non-humains appropriés à la classe des <écrivains>
5.1.4. Les adjectifs appropriés à la classe des <écrivains>
5.2. Une sous-classe de sportifs : <football>
5.2.1. Les humains prédicatifs du domaine du <football>
5.2.2. Les verbes prédicatifs du domaine du <football>
5.2.3. Les noms prédicatifs non-humains du domaine du <football>
5.2.4. Les arguments élémentaires du domaine du <football>
5.2.5. Les adjectifs prédicatifs humains du domaine du <football>

6. Conclusions

7. Bibliographie

1. Introduction

Le traitement automatique des langues naturelles (TAL) a pour but la création de programmes informatiques capables de simuler par ordinateur la capacité humaine de compréhension et production d’énoncés linguistiques.

“L'objectif des traitements automatiques des langues est la conception de logiciels (programmes) capables de traiter de façon automatique des données linguistiques, c'est-à-dire des données exprimées dans une langue (dite naturelle).” (Fuchs, 1993).

La langue naturelle désigne la langue parlée ou écrite par les humains, par opposition aux langages artificiels, informatiques, mathématiques ou logiques, par exemple. En fait, le traitement ne concerne pas directement la langue, mais il porte sur les données linguistiques codées dans une langue particulière. Sous cette dénomination générique, nous regroupons les textes, écrits ou oraux, et des unités plus petites, comme les paragraphes ou les phrases.

Par traitement, nous entendons, dans une première approximation, la transformation d’un objet d’entrée en un objet de sortie. Ce traitement peut se faire de deux façons:

- Il peut agir sur les données linguistiques (ou encore les textes) pour les corriger, les condenser ou les traduire. Bien souvent, cette étape comprend une étape intermédiaire qui va extraire des textes leur représentation: c’est l’analyse des langues naturelles. Le terme de représentation est employé pour désigner toute traduction de texte dans un système autre que la langue naturelle et qui rend explicites des informations qui sont implicites dans le texte: un ensemble de mots-clés, un arbre syntaxique, une formule logique…Dans ce premier cas, l’entrée est donc un texte et la sortie un nouveau texte ou une représentation de texte.
- Il peut également faire l’opération inverse qui consiste à prendre comme entrée la représentation d’une série d’énoncés pour les transformer par la suite en un texte en langue naturelle. Cependant, il est rare de disposer directement de représentations de textes; bien souvent ce sont des données brutes qui se présentent sous forme de tables ou de tableaux et qu’il faudra traduire en une représentation de texte. On aura ainsi procédé à la génération en langue naturelle.

Nous voudrions insister sur le fait que le traitement automatique des langues fait intervenir divers domaines: entre autres la linguistique informatique et l’informatique linguistique (qui se chargent de créer de véritables langages informatiques réservés aux applications du TAL), l’intelligence artificielle (qui s’occupe de la représentation des connaissances et de leur utilisation) mais aussi la linguistique qui est celui qui nous concerne plus particulièrement.

L’objectif de notre étude est de proposer des dictionnaires électroniques dans lesquels sont recensés des noms en rapport direct avec les humains. La spécificité de ce travail lexicographique est son principe d’organisation qui est de nature syntactico-sémantique à la différence des dictionnaires traditionnels qui s’appuient exclusivement sur la sémantique et qui listent les mots sans en représenter de façon explicite et formalisée l’environnement syntaxique.

Dans le premier chapitre de ce travail nous proposons une introduction théorique qui décrit le cadre dans lequel s’inscrit ce travail et rappelons quelques principes de base, notamment ceux du lexique-grammaire.

Nous expliquons ensuite dans le deuxième chapitre de quelle façon sont construits les dictionnaires électroniques et nous détaillons le contenu des différents champs qui les composent. Nous avançons également quelques informations concernant le trait humain et surtout les dictionnaires électroniques qui s’y réfèrent.

Dans un troisième chapitre nous nous sommes centrée sur la description des cinquante-neuf classes reliées au trait humain. Nous justifions tout d’abord leur création puis nous apportons des éléments permettant de comprendre l’organisation interne de chacune d’entre elles. Pour ce faire nous nous sommes appuyée sur des critères sémantiques mais aussi syntaxiques et morphologiques.

Dans le quatrième chapitre nous illustrons le concept de grammaire locale à travers la présentation des classes <sportifs> (SD :football) et <artistes : écrivains>

Enfin, une synthèse mettra en relief les difficultés rencontrées ainsi que les hypothèses ou solutions apportées à l’occasion de cette étude. D’autre part, nous exposerons quelques perspectives de cette recherche.

2. Cadre théorique

2. 1. Le lexique-grammaire

Les descriptions linguistiques traditionnelles conçoivent de façon générale les mots comme des unités élémentaires de forme et de sens. Ce sont ces mêmes unités élémentaires qui composent les différentes entrées des dictionnaires traditionnels (dictionnaires-papier) que nous connaissons et utilisons tous. Implicitement, cette pratique laisse apparaître une distinction entre le domaine de la syntaxe, auquel se rattacheraient les phrases en tant qu'associations structurées de mots, et celui du lexique, dont font partie les mots. Nous ne remettons pas en cause l’efficacité de cette théorie pour toute autre application, notamment lorsque celle-ci est destinée à un lecteur humain capable de comprendre et d’interpréter des données. C’est le cas des dictionnaires-papier courants ou encore de nombreuses grammaires ou supports didactiques.

Cependant, cette pratique lexicographique est peu efficace si l’on veut mener à bien une description cohérente et exhaustive de la langue et elle est pour cette même raison insuffisante et peu opérationnelle pour une utilisation informatique telle que nous la concevons. En effet, pour rendre compte de certains phénomènes, de régularités, nous pensons qu'il est nécessaire de traiter à la fois la syntaxe et le lexique: c'est la perspective méthodologique du lexique-grammaire (Gross, M. 1975).

C’est en effet dans le cadre théorique du lexique-grammaire que s’inscrit cette étude. Précisons que les cadres syntaxiques théoriques sont proches de ceux de la grammaire générative transformationnelle tels qu’ils apparaissent notamment dans les travaux de ses fondateurs, Harris et Chomsky, et que le cadre méthodologique est celui défini par Maurice Gross (1975).

Gross fut effectivement celui qui élabora les bases du lexique-grammaire avec comme point de référence principal la théorie transformationnelle de Zellig. S. Harris (Harris, 1951). Cette théorie suppose la description systématique et la formalisation stricte des phrases de base de la langue à partir desquelles peuvent dériver toutes les séquences appartenant à cette même langue. Z. Harris peut donc être considéré comme un prédécesseur du lexique-grammaire dans le sens où il s’est attaché à décrire toutes les opérations linguistiques (distribution et transformations) pouvant caractériser un emploi donné d’un prédicat. Cependant, l’accent mis sur la cohérence des règles ne s’accompagnait pas d’une application systématique au lexique; c’est ce qui a conduit M. Gross à donner à la grammaire la forme d’un lexique. Il s’est donc attaché, avec son équipe du LADL (Laboratoire d’Automatique Documentaire et Linguistique) à décrire l’extension lexicale des règles, autrement dit à regrouper tous les prédicats ayant des propriétés syntaxiques communes. (Lamiroy, 1991)

En 1975, dans son ouvrage Méthodes en syntaxe, Maurice Gross expose les fondements de cette nouvelle méthode qu’est le lexique-grammaire. Nous allons examiner à présent les bases sur lesquelles celle-ci repose.

La première d’entre elles consiste à établir une distinction entre prédicat et arguments; cette notion n’est pas récente puisqu’on la retrouve déjà chez Tesnière sous les noms de actant et de valence, chez Fillmore (modèle casuel) et chez Harris lui-même. Si l’on suit la définition que celui-ci propose, nous dirons que des mots qui n’imposent aucune contrainte à leurs arguments seront des arguments élémentaires alors que les autres, regroupés sous différents ensembles, seront considérés comme des opérateurs. (Harris, 1976: 14)

Il est important de préciser qu’il existe des prédicats de premier ordre mais aussi de deuxième ordre. En effet, alors que les arguments élémentaires, qui correspondent à des noms, sont directement incorporés dans le discours, la présence d’un prédicat suppose celle d’arguments. Ce prédicat peut sélectionner des arguments élémentaires et dans ce cas on parlera de prédicat de premier ordre mais il peut s’agir également d’autres prédicats. Ces prédicats qui sélectionnent non seulement des arguments élémentaires mais aussi d’autres prédicats seront appelés prédicats de deuxième ordre.

Ainsi, dans la phrase:

El niño come sopa (L’enfant mange de la soupe)

Le prédicat est comer (manger) et les arguments qu’il sélectionne sont des arguments élémentaires de type Nhum 1 et Ninc < alimento > (aliment). Il s’agit donc d’un prédicat de premier ordre.

En revanche, dans la phrase:

Oigo llorar a Julia (J’entends Julia pleurer )

Nous avons affaire à un prédicat de deuxième ordre puisque le verbe oír (entendre) sélectionne des prédicats appartenant à la classe des < ruidos > (bruits), lesquels impliquent à leur tour la présence d’arguments. Dans cet exemple il s’agit du N0 de type humain Julia.

Un autre principe essentiel du lexique-grammaire est celui de l’ exhaustivité, qui sous-tend que l’on ne peut rien dire de général tant que l’on n’a pas tout observé. Ce premier principe est primordial et relativement innovant. Il demande une analyse détaillée et exhaustive de tous les éléments du lexique que seul un être humain, dans le cas présent un linguiste, peut accomplir.

L’examen systématique du lexique constitue donc un moyen, vraisemblablement le seul à l’heure actuelle, d’appréhender une langue d’une façon globale, c’est-à-dire d’en construire une image ayant un certain caractère de généralité. Ce n’est que dans un tel cadre qu’il est possible de détecter des phénomènes massifs et de les opposer éventuellement à des exemples marginaux ou exceptions. (Gross, M. 1976: 9)

Le deuxième point important est que ce n’est plus le mot qui est considéré comme unité minimale de sens, comme c’est le cas dans les dictionnaires traditionnels, mais la phrase élémentaire ou phrase simple 2 .

Selon les principes du lexique-grammaire, c'est uniquement dans le cadre de la phrase simple que la nature et le fonctionnement des relations syntaxiques des mots du lexique peuvent être observés et ensuite analysés. En effet, ce cadre minimal permet de saisir ces informations sans que leur observation ne soit perturbée par des phénomènes qui ne leur sont pas directement liés.

Précisons qu’une phrase simple, selon Harris (1976), est une phrase qui « s’articule autour d’un noyau prédicatif, que viennent complèter un ou plusieurs arguments nominaux. »

Cette phrase simple se schématise de la façon suivante:

P à Préd (arg)

Soit:

-Luc mira a Ana
-mirar (Luc, Ana)
-Luc regarde Anne
-regarder (Luc, Anne)

Dans l’exemple proposé le prédicat est le verbe mirar (regarder) et il a comme arguments Luc et Ana (Anne). Dit d’une autre façon, cette phrase simple se compose d’un verbe prédicatif qui a deux arguments - ses actants syntaxiques - qui sont ici le sujet et un complément d’objet indirect. Cette explication est également valable pour l’espagnol.

Le prédicat est donc lui même défini par un schéma d’arguments que l’on représente ainsi:

Préd (arg03, arg1, arg2…)

Soit:

-mirar (N0 Luc, N1 Ana)
-regarder (N0 Luc, N1 Anne)

Nous tenons à signaler qu’en dehors de ces phrases simples, qui sont la base de toute étude syntactico-sémantique, l’on trouve également ce que nous appelons des phrases complexes. Une phrase peut être considérée comme complexe à partir du moment où elle comporte plus d’un prédicat.

C’est le cas de l’exemple suivant:

-El director ha nombrado a Paul responsable del departamento
-Le directeur a nommé Paul responsable du département

Le schéma d’arguments de ces phrases est:

-nombrar (director, responsable (Paul, departamento))
-nommer (directeur, responsable (Paul, départament))

Cette phrase est donc composée d’un premier prédicat nombrar sélectionnant un argument director mais aussi d’un deuxième prédicat responsable accompagné lui-même de ses deux argument élémentaires qui sont Paul et departamento.

A partir de ce schéma, deux étapes sont nécessaires avant de former une phrase grammaticalement et sémantiquement correcte. Ces étapes sont tout d’abord la linéarisation et ensuite l’actualisation.

La linéarisation consiste à redonner à chaque argument sa place respective autour du noyau prédicatif et cela selon la fonction grammaticale de chacun mais aussi selon les transformations éventuelles que devra subir la phrase (passivation, nominalisation4 …)

Considérons les schémas d’arguments suivants:

-mirar (niño, madre)
-regarder (enfant, mère)

Afin de procéder à la linéarisation de ces deux schémas, il suffira donc de remettre les éléments dans un ordre syntaxiquement correct et d’introduire les éventuelles prépositions puisqu’elles font elles aussi partie de cette étape.

-niño mirar a madre
-enfant regarder mère

Notons au passage que, à la différence du français, la présence de la préposition a en espagnol, est obligatoire devant un complément direct de personne.

Il faudra ensuite procéder à l’actualisation qui consiste à introduire dans la forme du prédicat des sens grammaticaux. L'actualisation des prédicats tout d'abord varie en fonction de leur catégorie morphologique5. S'il s'agit de verbes, ce sont les désinences verbales ou les verbes auxiliaires qui permettront de les actualiser. Pour les noms, les verbes supports6 joueront ce rôle alors que pour les adjectifs ce sera majoritairement le support être. En revanche, l'actualisation des arguments est généralement indépendante de la nature morphologique du prédicat. Les arguments, tout comme les noms prédicatifs d'ailleurs, seront actualisés par les déterminants.

Afin d'actualiser le verbe prédicatif de notre exemple, il suffira de le conjuguer et de lui faire porter de cette façon les marques de temps et de personne (ici, le sujet sera la troisième personne du singulier et nous conjuguerons le verbe à l’imparfait). Il ne faut surtout pas oublier, en ce qui concerne les noms, de préciser leur détermination (ici, on adjoindra d’une part un article défini masculin singulier au premier argument et d’autre part un déterminant possessif au second).

Ainsi, après l'actualisation, nous obtiendrons une phrase canonique de type:

-El niño miraba a su madre
-L’enfant regardait sa mère

Pour résumer les idées que nous venons d’exposer, nous ferons référence aux conclusions tirées par R. Vivès dans un de ses articles:

“Une phrase simple se définit comme un prédicat muni de ses arguments constitutifs. Etudier la syntaxe d’un mot prédicatif, c’est étudier la syntaxe d’une phrase simple”. (Vivès, 1993: 10)

Avant même l’apparition du lexique-grammaire, d’autres auteurs, que ce soit dans le domaine de la linguistique (Guillaume et Pottier) ou dans celui de la philosophie (Putman et Frege) ont essayé de démontrer qu’il était nécessaire de mettre en rapport la grammaire et le lexique. Frege évoqua, entre autres, le principe de contextualité:

“Rechercher la signification des mots non pas isolément mais seulement dans le contexte d’une proposition; [c’est] uniquement dans un contexte que les mots ont leur signification.” (Frege: 1884)

Le lexique-grammaire se base également sur ce principe qui stipule qu’il est nécessaire que les unités lexicales soient traitées en terme d’ emplois.

A partir de là, deux précisions sont à faire: la première concerne le concept d’ unité lexicale. L'unité lexicale doit être considérée avant tout comme un triplet constitué d’une forme, d’un sens et d’une combinatoire. (Mel’čuk, 1995). Il s'agit là encore d'un principe qui nous différencie des dictionnaires traditionnels. A partir de là, tout lemme retenu dans les dictionnaires électroniques correspondra à une et seulement une unité lexicale. Cette précision est importante puisqu’elle suppose un dédoublement systématique des formes polysémiques et le traitement des unités lexicales complexes comme des lemmes à part entière. (Blanco, 2001)

Ainsi pour le nom amazona nous aurons plusieurs entrées car même si la forme et la combinatoire sont les mêmes, cette unité lexicale a plusieurs sens possibles. En effet, un des sens serait d'une part celui qui correspondrait à: Mujer de alguna de las razas guerreras que suponían los antiguos haber existido en los tiempos heroicos, d'autre part à celui de Mujer de ánimo varonil et enfin à celui de Mujer que monta a caballo.

La description de chacun de ces emplois se fera donc en fonction de ces informations. Ce lemme qui a la particularité, entre autres, d’appartenir à trois classes d’objets différentes sera présenté de la façon suivante:

-amazona/G: nf/T: hum/C: personnage/D: litt./SD: mythologie/Fr: Amazones
-amazona/G: nf/T: hum/C: sportif/D: sports/SD: équitation/Fr: écuyère
-amazona/G: nf/T: hum/C: caractphy/D: psych./SD: caractérologie/Fr: hommasse

La deuxième précision se situe au niveau de la notion d’emploi. Rappelons que la première des conditions en traitement automatique est de décrire des phrases simples. C'est dans ce cadre que nous allons montrer que la notion d’ emploi de prédicat est indispensable à la bonne description des phrases, c’est-à-dire à la bonne lecture des prédicats polysémiques.

La reconnaissance du bon polysème exige la description complète des propriétés du prédicat, c’est ce que nous entendons par emploi. Il faut préciser qu'un emploi de prédicat (qu’il soit verbal, nominal ou adjectival) est constitué par son domaine d’arguments. (Gross, G. 19987 )

La notion d’emploi est un des concepts les plus importants de la linguistique. Toute entrée lexicale dans les dictionnaires électroniques doit obligatoirement correspondre à un et un seul emploi, c’est-à-dire comprendre uniquement les informations nécessaires à la définition de ce qu’on appelle habituellement un des sens d’un mot.

Tout lemme ayant plus d’un emploi sera par conséquent automatiquement dédoublé. Le nom amazona vu précédemment aura ainsi trois entrées différentes dans le dictionnaire électronique.

Tout cela sous-entend qu’une description précise de l’environnement du mot à traduire est indispensable avant de procéder à la traduction de toute unité lexicale. Cette idée est essentielle puisque la finesse des descriptions conduit à une traduction beaucoup plus pertinente, particulièrement lorsqu’il s’agit de traiter un terme polysémique. Rappelons que la polysémie et le figement sont les deux obstacles majeurs au traitement automatique.

Lorsqu’on se fixe comme objectif de faire une description globale de la langue, on constate donc qu'il n’est pas suffisant de formuler des règles générales puisque les unités lexicales ne doivent pas être appréhendées comme des entités isolées mais être définies en termes d’emplois dans le cadre des phrases où elles apparaissent.

L’objectif global est finalement de décrire toutes les propriétés linguistiques de chaque mot pour être capable de reconnaître et de générer l'ensemble des emplois. Cela implique que, en vue d’une bonne description, la grammaire doit être formatée en lexique de sorte que ce lexique soit décrit avec une dimension syntaxique. Il est donc essentiel, dans une approche frontale syntactico-sémantique, de ne pas séparer le lexique de la morphologie, ni la sémantique de la syntaxe. (Le Pesant, 1998 : 6-10)

Le travail du lexique-grammaire consiste donc à décrire chacun des mots de la langue dans une phrase élémentaire et à énumérer toutes les transformations possibles de cette phrase. C'est-à-dire que suivant les conditions d'apparition de chaque mot dans des phrases types, il s'agit de procéder à une description systématique (sous forme de grammaire) qui organisera les principales propriétés syntaxiques de chaque mot ou groupe de mots du lexique.

L’équipe de M. Gross a eu comme objectif de construire un lexique-grammaire de la langue française en mesure de fournir toutes les informations nécessaires au traitement automatique. A l’intérieur de ce lexique-grammaire sont stockées grand nombre de données structurées et de ce fait directement exploitables pour les systèmes de traduction automatique.

Le point de départ de ces recherches (Gross, M. 1968 et 1975) fut l’étude des structures comportant une complétive ou une infinitive; ainsi, 3 000 verbes appelant ce type de construction (tels que vouloir, savoir, aimer, trouver …) ont été examinés (Gross, M. 1976). En fonction de leurs propriétés syntaxiques et distributionnelles, ces verbes ont ensuite été regroupés dans différentes tables.

La méthode de M. Gross s’est ensuite vite élargie à d’autres ensembles lexicaux, ce qui fait qu’à l’heure actuelle la complexité du fonctionnement de la langue est beaucoup mieux définie. On tient compte à présent, et à échelle réelle, de l’importance de certains phénomènes comme le figement ou la polysémie dont l’existence ne peut être omise si l’on veut traiter la langue par des moyens informatiques.

Pour finir, insistons sur le fait que l'objectif final de l'élaboration du lexique-grammaire est de fournir des données linguistiques pouvant être intégrées dans des systèmes informatiques en vue de l'analyse et de la génération automatiques du langage.

2.2. Traits syntactico-sémantiques et classes d'objets

2.2.1. Qu’entend-on par traits syntactico-sémantiques ?

Comme nous l’avons expliqué dans le paragraphe précédent, la phrase simple se compose d’un opérateur (ou prédicat) et de ses arguments. Nous avons également insisté sur le fait qu’un prédicat a autant de sens (c’est-à-dire d’emplois différents) qu’il a de schémas d’arguments. Mais, décrire le nombre et la place des arguments relatifs à un prédicat n’est pas forcément suffisant pour pouvoir interpréter correctement une phrase. N’oublions pas qu’un opérateur est défini par les restrictions qu’il impose à ses arguments.

Comme nous l’avons précisé, ces restrictions induisent des propriétés syntaxiques mais présentent une nature essentiellement sémantique8. Afin de reconnaître dans un texte un emploi donné d’un prédicat, il est en effet nécessaire de déterminer quelle est la nature sémantique des arguments qui l’accompagnent. Cette description de l’environnement sémantique du prédicat est indispensable pour le traitement automatique d’une langue.

Il est vrai que certains prédicats n'imposent aucune restriction sémantique à leurs arguments, tout au moins à certains d’entre eux. C’est le cas par exemple du prédicat admirar:

-Nhum admirar N
-Nhum admirer N

Ici, le N peut représenter n’importe quel nom, groupe nominal, complètive ou même groupe verbal.

-J’admire (mon père + ce bâtiment + la peinture abstraite + ce paysage + ce siècle…)
-Admiro (a mi padre + ese edificio + la pintura abstracta + ese paisaje + ese siglo...)

Il se trouve que le verbe admirar est un verbe monosémique qui n’exerce sur son N1 aucune restriction particulière puisqu’il accepte en cette position n’importe quel groupe nominal ou verbal. C’est un verbe qui posera donc peu de problème à un système de traduction automatique.

Le schéma d’arguments résumant l’emploi du prédicat admirar se présentera sous cette forme:

-admirar (N0hum, Nnr9 )

Si certains prédicats n’imposent donc aucune restriction à leurs arguments, d’autres en revanche ont un usage un peu plus restreint puisqu’ils sélectionnent comme arguments uniquement des éléments appartenant à une classe spécifique de substantifs.

Trois énoncés en espagnol sont exposés dans le tableau ci-dessous. Pour chacun d’entre eux nous avons indiqué la traduction vers le français ainsi que le schéma d’arguments qui lui est associé.

Abbildung in dieser Leseprobe nicht enthalten

Si l’on observe les schémas d’arguments de ces différents exemples, on constate que tous les prédicats ici représentés sélectionnent en N0 un argument que l’on pourrait définir comme « humain ». Pour ce qui est du verbe dialogar, nous pouvons ajouter qu’il sélectionne un argument de type « humain » non seulement en N0 mais aussi en N1. En effet, il semble difficile d’accepter des énoncés tels que :

-(*La silla + *el ordenador + *la flor) dialoga con Juan
-(*La chaise + *l’ordinateur + *la fleur) dialogue avec Jean

Ou encore:

-Mi vecino dialoga con (*el perro + *la mesa + *la montaña)
-Mon voisin dialogue avec (*le chien + *la table+ *la montagne)

Le trait humain est l’un des dix traits utilisés par les linguistes pour rendre compte des restrictions sémantiques qui reposent sur les arguments.

Nous retrouvons la liste complète de ces traits dans le tableau ci-dessous:

Abbildung in dieser Leseprobe nicht enthalten

Cette classification, utilisée pour diviser le lexique en sous-ensembles, permet de définir sémantiquement les caractéristiques du prédicat et également de distinguer les différents emplois que celui-ci peut avoir.

A l’intérieur même de la classification ci-dessus, une distinction sera faite entre les traits propres aux arguments et les autres, réservés aux prédicats. Ainsi, nous aurons :

- arguments : humain non prédicatif, animal, végétal, inanimé concret, locatif, temps.
- prédicats : humain prédicatif, action, état, événement.

A partir de là, deux remarques sont à faire. Tout d’abord, on constate que dans cette nouvelle description, le trait inanimé abstrait n’apparaît pas. En effet, à cause de sa complexité, cette catégorie est divisée en trois groupes qui sont : action, état et événement.

Ensuite, on peut voir que le trait humain, qui est le trait qui nous intéresse, apparaît à la fois dans la catégorie des arguments et dans celle des prédicats. Effectivement, une distinction peut être faite entre les humains prédicatifs et les humains non-prédicatifs.

Cela dit, du point de vue syntaxique nous sommes arrivée à la conclusion que seuls les noms propres ne sont pas des prédicatifs. En effet, malgré le fait qu’ils apparaissent aussi en position d’arguments, les noms d’humains sont toujours des prédicats. Observons l’exemple suivant:

Este cantante es muy famoso

Cette phrase est en réalité une phrase réduite puisqu’il s’agit non pas d’une, mais de deux phrases:

-Este hombre es un cantante.
-Este hombre (que es cantante) es muy famoso.

Pour cette raison, nous devons considérer que tous les humains sont prédicatifs même si cette réalité est plus saillante pour certaines classes que pour d’autres.

2.2.2. Les traits syntactico-sémantiques et la polysémie

Nous savons qu’un des problèmes majeurs du traitement automatique des langues est la polysémie. Pour faire face à cet obstacle majeur, les traits syntactico-sémantiques constituent un outil non négligeable, comme on le voit dans les exemples qui suivent :

- La vaca está pariendo
- La mujer de mi vecino ha parido esta mañana10

Ces deux phrases sont générées à partir du même schéma d’arguments qui est:

- parir (Hum+Anl)

En revanche, si nous traduisons ces exemples en français, nous nous aperçevons qu’il est impossible d’employer un seul même verbe. Les énoncés que nous proposons à la suite le démontrent:

- La vache est en train de mettre bas
- *La femme de mon voisin est en train de mettre bas
- La femme de mon voisin est en train d’accoucher
- *La vache est en train d’accoucher

Nous observons en effet que le schéma d’arguments correspondant à la langue française ne sera ni:

- *accoucher (Nanl, Nanl) ni :
- *mettre bas (Nhum, Nhum) mais :
- accoucher (N0hum, N1hum)
- mettre bas (N0anl, N1anl)

Le trait syntactico-sémantique du N0 de parir permettra ici de lever l'ambiguité et de ne pas commettre d'erreurs au moment de la traduction.

Considérons maintenant ces autres exemples dans lesquels apparaissent deux emplois du verbe marcar en espagnol :

- Luc está marcando el ganado
- Ronaldo está marcando a Zidane

On peut distinguer ici deux emplois de ce verbe puisque dans le premier cas le N0 est un <humain> et le N1 est un <animal> (marcar a le sens de señalar con signos distintivos) alors que dans le deuxième cas, le sujet est également un <humain> (le verbe a alors le sens de en el fútbol y algunos otros deportes, situarse un jugador cerca de un contrario para dificultar la actuación de este).

Nous sommes donc en présence de deux emplois du verbe marcar puisque, nous le rappelons, un emploi de prédicat (qu’il soit verbal, nominal ou adjectival) est constitué par son domaine d’arguments. D’après les informations précédentes, les deux schémas d’arguments reflétant ces emplois seront :

- marcar(N0hum, N1anl)
- marcar(N0hum, N1hum)

Traduisons à présent les deux phrases de départ en français :

- Luc est en train de marquer le troupeau
- Ronaldo est en train de marquer Zidane

La conclusion à laquelle nous parvenons est que les verbes marcar et marquer ont au moins deux emplois en commun. Si en espagnol et en français les deux emplois sont intégrés dans un même verbe, ce n’est pas toujours le cas dans les autres langues et cela entraîne bien souvent de gros problèmes de traduction.

En anglais, par exemple, ces deux sens ne sont pas véhiculés par le même verbe car la traduction des exemples précédents serait:

- Luc is branding the flock
- Ronaldo is marking Zidane

Il sera incorrect de dire:

- *Luc is marking the flock
- *Ronaldo is branding Zidane

Nous venons de montrer que les traits syntactico-sémantiques sont un bon moyen de lever l'ambiguïté de certaines unités lexicales et il est par conséquent primordial que dans les dictionnaires électroniques chaque lemme soit accompagné du trait qui le définit.

Cependant, on s’aperçoit assez rapidement malheureusement que ces traits syntactico-sémantiques ne sont pas suffisants pour une description fidèle de la langue et qu’ils ne sont pas assez précis pour générer une traduction correcte.

Considérons en effet ces autres exemples dans lesquels apparaissent deux emplois du verbe reconocer en espagnol:

- El vecino pudo finalmente reconocer a Juan
- El médico pudo finalmente reconocer a Juan

On peut distinguer ici deux emplois de ce verbe. En principe, les deux phrases seraient ambiguës, puisque reconocer peut correspondre ou non à un reconocimiento médico. Or, l’appartenance du N0 médico à la classe <professions : médecins> induit fortement cette interprétation contrairement à ce qui se passe dans la deuxième phrase qui sera plus naturellement interprétée comme reconnaître.

Nous sommes donc en présence de deux emplois du verbe reconocer puisque, nous le rappelons, un emploi de prédicat (qu’il soit verbal, nominal ou adjectival) est constitué par son domaine d’arguments. D’après les informations précédentes, les deux schémas d'arguments reflètant ces emplois seront:

- reconocer(N0hum, N1anl)
- reconocer(N0<médecins>, N1hum)

Traduisons à présent les deux phrases de départ en français:

- Le voisin a pu finalement reconnaître Jean
- Le médecin a pu finalement reconnaître Jean

En effet, examinons ces deux autres exemples basés sur le même verbe marcar:

- Zidane marcó un gol
- El señor marcó este número de teléfono

Le schéma d'argument pour ses deux phrases correspond à:

- marcar (Nhum, Nabst)

A travers ces différents exemples nous avons voulu mettre en évidence que les traits syntactico-sémantiques représentaient une aide précieuse en traitement automatique des langues mais nous avons également montré quelles étaient leurs limites.

C’est pourquoi il était nécessaire de trouver d’autres indications, plus fines que celles fournies par les traits syntactico-sémantiques, pour pouvoir reconnaître ou générer uniquement des phrases correctes. Pour ce faire, des sous-ensembles des traits syntactico-sémantiques ont été créés: on les appelle classes d’objets (Gross, G. 1992 et 1994).

C’est cette précision sémantique qui nous permettra ici de résoudre le problème de polysémie du verbe reconocer et qui permettra également à l’ordinateur de faire une hypothèse valable pour la traduction.

La notion de classes d’objets est une des notions centrales de notre étude et c’est pourquoi nous y reviendrons plus longuement dans le sous-chapitre suivant.

Notre étude portant sur le trait syntactico-sémantique humain, il est primordial de s’attacher auparavant à une description plus complète de ce trait.

2.2.3. Le trait humain

La définition que donne un dictionnaire général tel que Le Petit Robert au terme humain est la suivante: être humain: homme, femme, enfant. Si nous consultons ensuite ce même dictionnaire pour le mot homme, nous trouvons, entre autres: être (mâle ou femelle) appartenant à l’espèce animale la plus évoluée de la Terre, mammifère primate de la famille des hominidés, seul représentant de son espèce ou encore être humain actuel considéré comme un être social.

A première vue, les différentes descriptions que nous avons relevées semblent explicites et cohérentes et elles ne laissent planer aucun doute quant à la définition du terme qui nous intéresse. D’autre part, il est évident que chacun d’entre nous est parfaitement capable de faire la distinction entre ce qui est humain et ce qui est non-humain.

Du point de vue linguistique, on définit d’habitude un humain comme un argument potentiel d’un prédicat strictement humain comme les verbes d’opinion ou d’ordre. Le Dictionnaire de Linguistique (Larousse) nous propose cette définition: On donne le nom de noms humains à une sous-catégorie des noms animés qui, sémantiquement, désignent des êtres vivants humains ou considérés comme tels et qui se caractérisent par une syntaxe différente des noms animés non-humains (désignant des animaux). Ainsi certains verbes comme penser, croire, etc. impliquent un sujet animé humain, un adjectif comme célibataire implique un nom épithète animé humain.

[...]


1 Ces notions seront approfondies dans le chapitre 2.2.

2 La représentation de la phrase simple du lexique-grammaire s’inspire de (Harris, 1968).

3 Les arguments sont numérotés à partir de zéro et de gauche à droite car il est nécessaire de respecter l’ordre Sujet – Verbe – Objet, prépondérant en français. Cette modélisation permet de représenter la phrase simple comme une « fonction algébrique » pouvant accepter non pas une mais plusieurs variables soit encore « comme un atome dont le noyau serait le prédicat, en tant que constituant central » (Buvet, 2001)

4 Notons que ces transformations ne doivent changer essentiellement le sens de la phrase de départ.

5 Rappelons que le noyau prédicatif ne doit en aucun cas être identifié à une seule catégorie morphologique ; de nombreuses études ont démontré qu’il a, bien au contraire, plusieurs réalisations. Le plus souvent on le retrouve sous la forme d’un verbe, mais il peut parfaitement être un adjectif, un substantif, un adverbe ou même encore une préposition.

6 Lorsque le prédicat est un nom le verbe n’est plus le noyau de la phrase et il est alors appelé verbe support . Un verbe support est un verbe relativement vide de sens, dont le seul rôle est de restructurer la phrase. Il s'oppose aux verbes dit distributionnels ou verbes pleins, qui sont eux, porteurs de sens. Les deux types de verbes se distinguent non seulement pour des raisons sémantiques mais ils ne partagent pas non plus les mêmes propriétés syntaxiques. Pour une étude récente sur les supports (Gross, G. 1996)

7 Gaston Gross est directeur du LLI (Laboratoire de Linguistique Informatique), Université Paris 13. La théorie du lexique-grammaire fut élaborée par M. Gross et développée ensuite par G. Gross, notamment pour les questions relatives à la sémantique (traits syntactico-sémantiques, classes d’objets, domaines).

8 Igor Mel’čuk place la sémantique au centre de la description grammaticale dans son œuvre: le Dictionnaire Explicatif et Combinatoire du français contemporain. (Mel’čuk, 1984-1992)

9 Nnr signifie Nom non restreint, pouvant donc appartenir à n’importe quel trait syntactico-sémantique.

10 En espagnol le verbe parir appliqué à un humain est grammaticalement correct mais sera considéré comme familier voire vulgaire. Notons au passage qu’en catalan en revanche la phrase La dona del meu veí ja ha parit est tout à fait acceptable et n’implique aucune connotation péjorative.

Fin de l'extrait de 112 pages

Résumé des informations

Titre
Dictionnaire bilingue de classes sémantiques de noms humains. Une étude appliquée au traitement automatique des langues naturelles
Auteur
Année
2018
Pages
112
N° de catalogue
V463425
ISBN (ebook)
9783668905573
ISBN (Livre)
9783668905580
Langue
français
Mots clés
dictionnaire
Citation du texte
Sandrine Fuentes (Auteur), 2018, Dictionnaire bilingue de classes sémantiques de noms humains. Une étude appliquée au traitement automatique des langues naturelles, Munich, GRIN Verlag, https://www.grin.com/document/463425

Commentaires

  • Pas encore de commentaires.
Lire l'ebook
Titre: Dictionnaire bilingue de classes sémantiques de noms humains. Une étude appliquée au traitement automatique des langues naturelles



Télécharger textes

Votre devoir / mémoire:

- Publication en tant qu'eBook et livre
- Honoraires élevés sur les ventes
- Pour vous complètement gratuit - avec ISBN
- Cela dure que 5 minutes
- Chaque œuvre trouve des lecteurs

Devenir un auteur