1
Université Toulouse-Le Mirail
Un analyseur syntaxique opérationnel : SYNTEX
Didier BOURIGAULT
Laboratoire CLLE-ERSS (UMR 5263)
CNRS & Université Toulouse-Le Mirail
Mémoire présenté pour l’obtention d’une
Habilitation à Diriger les Recherches
Spécialité : sciences du langage
Le samedi 9 juin 2007
M. B. HABERT, Professeur, Université de Paris 10 (rapporteur)
M. S. KAHANE, Professeur, Université de Paris 10 (rapporteur)
Mme M.-P. PERY-WOODLEY, Professeure, Université de Toulouse Le Mirail
(rapporteur)
M. J.-P. CHANOD, Manager, Xerox Research Centre Europe
M. J. VERONIS, Professeur, Université d’Aix-en-Provence
M. B. VICTORRI, Directeur de recherche, Ecole Normale Supérieure
2
3
Résumé
Dans ce mémoire, rédigé pour l’obtention de l’Habilitation à Diriger les Recherches, je
présente les recherches que j’ai menées ces dix dernières années autour de la réalisation
logiciel SYNTEX, un analyseur syntaxique automatique du français. Dans la première
partie du mémoire, je retrace le chemin qui m’a conduit de LEXTER, un analyseur
syntaxique robuste dédié au repérage des syntagmes nominaux terminologiques dans les
corpus spécialisés, à SYNTEX, un analyseur à plus large couverture. La deuxième partie
du mémoire est consacrée à un panorama historique du domaine du Traitement
Automatique des Langues, dans lequel je montre que les recherches dans ce domaine ont
toujours été partagées entre les travaux théoriques et les applications à visée industrielle.
Ce panorama est suivi d'une revue de travaux en analyse syntaxique robuste, qui
identifie une lignée dans laquelle s'inscrivent mes propres travaux de recherche. Dans la
troisième partie, je présente d’abord les concepts clés qui ont guidé la conception de
l'analyseur SYNTEX, en défendant l’idée que l'analyse syntaxique automatique peut être
vue comme un problème de reconnaissance de formes, représentées par des structures de
dépendance syntaxique. Je décris ensuite en détail l’architecture et les principes de
fonctionnement de SYNTEX, qui est un analyseur procédural à cascades. Je montre enfin
comment, sur le plan épistémologique, SYNTEX peut être caractérisé comme un objet
technique, au sens de la philosophie des techniques de G. Simondon, en tant que ses
progrès se développent selon les deux dimensions de l'adaptation et de l'auto corrélation.
4
5
Table des matières
Chapitre 1 De LEXTER à SYNTEX : ruptures, continuités, évolutions ................ 7
1.1. Recherches en ingénierie linguistique............................................................... 8
1.2. Analyse syntaxique locale............................................................................... 10
1.3. La fonction initiale de LEXTER : extraire des étiquettes de concepts .............. 12
1.4. LEXTER à l’épreuve des usages : revirement théorique................................... 13
1.5. Un outil d’aide à l’analyse sémantique de textes spécialisés .......................... 16
1.6. Un outil d’identification de contextes syntaxiques pour l’analyse
distributionnelle .......................................................................................................... 19
1.7. Bilan : LEXTER a servi, vive SYNTEX.............................................................. 22
Chapitre 2 Etat de l’art en analyse syntaxique robuste .................................... 25
2.1. L’analyse syntaxique automatique au sein du TAL ........................................ 25
2.2. Panorama historique du Traitement Automatique des Langues ...................... 27
2.2.1. Les débuts de la traduction automatique ................................................. 27
2.2.2. L’avènement de la « computational linguistics ».................................... 32
2.2.3. Le « tournant déclaratif » et les grammaires d’unification...................... 35
2.2.4. Le Natural Language Processing............................................................. 38
2.3. Travaux en analyse syntaxique robuste........................................................... 42
2.3.1. La robustesse en analyse syntaxique ....................................................... 42
2.3.2. L’analyseur FULCRUM de P. S. Garvin.................................................... 45
2.3.3. L’analyseur du projet TDAP................................................................... 46
2.3.4. L’analyseur de F. Debili.......................................................................... 48
2.3.5. Le projet PLNLP..................................................................................... 50
2.3.6. L’analyse par chunks de S. Abney .......................................................... 53
2.3.7. L’analyseur 98 de J. Vergne.................................................................... 58
2.3.8. L’analyse syntaxique robuste selon J. P. Chanod.................................... 61
2.3.9. Bilan : une lignée .................................................................................... 65
Chapitre 3 Description de l’analyseur SYNTEX.................................................. 67
3.1. Principes de base............................................................................................. 67
3.1.1. Analyseur syntaxique opérationnel ......................................................... 67
3.1.2. Un problème de reconnaissance de formes ............................................. 68
3.1.3. Fonctionnement simplifié........................................................................ 71
3.1.4. Architecture............................................................................................. 74
3.1.5. Algorithmes de reconnaissance............................................................... 76
6
3.2. Description des modules ................................................................................. 77
3.2.1. Enchaînement des modules de reconnaissance ....................................... 77
3.2.2. Formalisation du parcours....................................................................... 78
3.2.3. Les relations locales ................................................................................ 84
3.2.4. Coordination............................................................................................ 89
3.2.5. Objet et attribut ....................................................................................... 97
3.2.6. Sujet ...................................................................................................... 101
3.2.7. Les relations ambiguës : apprentissage endogène ................................. 106
3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation 109
3.2.9. Antécédence relative ............................................................................. 111
3.2.10. Attachement des prépositions................................................................ 114
3.2.11. Attachement des adjectifs ..................................................................... 120
3.2.12. Procédure de désambiguïsation globale ................................................ 121
3.2.13. Analyse profonde .................................................................................. 123
3.2.14. Evaluation ............................................................................................. 126
3.3. Discussion ..................................................................................................... 131
3.3.1. Situation par rapport au paradigme formel............................................ 131
3.3.2. SYNTEX, un « objet technique » ............................................................ 137
3.3.3. Savoirs................................................................................................... 144
7
Chapitre 1
De LEXTER à SYNTEX : ruptures,
continuités, évolutions
Dans ce chapitre, je retrace le chemin qui m’a conduit de LEXTER à SYNTEX. La période
couverte s’étend de juin 1994, date de la soutenance de ma thèse sur LEXTER, à
l’automne 1999, quand je décide à mon arrivée dans l’Equipe de Recherches en Syntaxe
et Sémantique de Toulouse, de me lancer, avec C. Fabre, dans la réalisation d’un nouvel
analyseur syntaxique. Cette période m’a vu changer radicalement de position sur un
certain nombre de points, techniques, méthodologiques ou théoriques, et maintenir mes
convictions sur d’autres. Ce sont ces ruptures et ces continuités que je tente de mettre en
évidence ici. Je reste fidèle à une approche ingénierique des recherches en Traitement
Automatique des Langues (section 1.1). Sur le plan de la couverture, LEXTER réalise une
analyse syntaxique locale et partielle, dédiée au repérage de syntagmes nominaux à
allure dénominative (section 1.2), alors que SYNTEX est un analyseur syntaxique de
phrase. La principale évolution concerne la conception de l’utilisation de l’analyseur :
LEXTER est conçu au départ comme un outil d’extraction de « candidats termes », vus
comme des étiquettes de concepts, pour l’élaboration ou l’enrichissement de thesaurus
(section 1.3). Les expériences d’utilisation de LEXTER dans des contextes d’usages
diversifiés me poussent à changer radicalement mes appuis théoriques : j’abandonne les
postulats de la doctrine terminologique classique pour m’inspirer de la sémantique
interprétative de F. Rastier (section 1.4). La nécessité de définir un cadre
méthodologique cohérent pour l’utilisation de LEXTER m’amène à le présenter non plus
comme un simple pourvoyeur d’étiquettes de concepts, mais comme un outil d’aide à
l’interprétation de textes et à la modélisation des connaissances (section 1.5). Une
seconde rupture avec la fonction initiale de LEXTER se produit quand différentes
expériences montrent l’utilité des analyses syntaxiques de groupes nominaux produites
par LEXTER comme entrées d’outils d’analyse distributionnelle (section 1.6). Un bilan
rétrospectif de ce chemin mouvementé éclaire les raisons pour lesquelles je décide fin
1999 de m’attaquer la réalisation d’un nouvel analyseur syntaxique à la couverture et
aux fonctions élargies (section 1.7).
8
1.1. Recherches en ingénierie linguistique
J’ai effectué ma thèse dans un contexte industriel, à la Direction des Etudes et
Recherches (DER) d’EDF, au sein du service Informatique et Mathématiques
Appliquées (septembre 1990-juin 1994)1. Le sujet de recherche avait été déterminé suite
à la question précise et concrète adressée par les responsables du Service Information,
Prospective et Normalisation de la DER à leur collègues du service Informatique et
Mathématiques Appliquées : comment enrichir et maintenir à jour le thesaurus
électronique utilisé par le système d’indexation automatique de la DER. J’ai été
d’emblée plongé dans le contexte d’une recherche guidée par un problème à résoudre.
Ingénieur de formation, et après trois années d’études en linguistique théorique et
formelle à l’Université Paris VII, je n’ai pas été rebuté par ces conditions de travail, que
j’ai toujours considérées comme stimulantes2. Au long de mon parcours de chercheur, de
la DER d’EDF au CNRS, cette « obligation de résultats », contrainte subie et acceptée au
départ de ma recherche, est devenue une dimension constitutive assumée de ma
conception du travail de chercheur en Traitement Automatique des Langues (TAL).
Dans le paysage de la recherche en TAL, marqué par « la cohabitation paradoxale et
nécessaire des recherches théoriques et des applications à visée industrielle » (Cori &
Léon, 2002), je revendique une démarche ingénierique, où la définition du programme
de recherche est, pour partie, liée à l’identification d’applications cibles ou de problèmes
concrets, et où la validation des résultats passe par la confrontation des outils réalisés
avec des contextes d’usages aussi réels que possible.
Ce parti pris d’une recherche située en ingénierie linguistique est clairement assumé et
affiché dans ma thèse soutenue en juin 1994. Il est révélé par l’architecture même du
mémoire, et en particulier par les choix concernant la traditionnelle partie « état de
l’art ». Le premier chapitre est consacré à la présentation des principes de base du
logiciel. Il commence par l’énoncé du problème à résoudre, à savoir la constitution et
l’enrichissement de thesaurus, et par la présentation de la solution visée : la réalisation
d’un logiciel d’extraction de terminologie, prenant en entrée un corpus étiqueté portant
sur un domaine spécialisé, et effectuant une analyse syntaxique pour extraire des
syntagmes nominaux susceptibles de représenter les concepts du domaine. Pour la mise
en contexte de la recherche, plutôt que d’inscrire mon travail dans un champ particulier
de la linguistique ou du Traitement Automatique des Langues, je choisis de le situer en
évoquant la « demande », c’est-à-dire les domaines d’application de la terminologie
(traduction automatique, informatique documentaire, gestion de la connaissance). En
restant dans la même veine « génie logiciel », je définis ensuite un cahier des charges
minimal pour la réalisation du logiciel en imposant deux contraintes : généralité – le
1Je dois beaucoup à Gérard Hatabian, alors chef du groupe Statistiques, Optimisation, Aide à la Décision, qui
m’a fait confiance à ce moment crucial de mon parcours professionnel.
2Il faut bien reconnaître qu’à cette époque la Direction des Etudes et Recherches d’EDF constituait un lieu
extrêmement favorable et confortable pour des recherches à visée applicatives certes, mais avec une pression
quant aux résultats beaucoup moindre que dans les entreprises industrielles du secteur privé.
9
logiciel doit être capable de traiter des corpus de domaines quelconques, et robustesse –
le logiciel doit être capable de traiter des corpus de taille importante dans des temps
raisonnables. C’est à la fin de ce premier chapitre que se glisse une discussion
bibliographique sur les techniques de Traitement Automatique des Langues, dans
laquelle je décris en détail et j’évalue par rapport à mes propres choix de conception
deux séries de travaux : ceux de F. Debili d’une part, et ceux de S. David et P. Plante
d’autre part. Le tout en une douzaine de pages. La « vraie » partie état de l’art est placée
dans le dernier chapitre (chapitre 6). J’y expose un état de l’art très complet et détaillé
(une soixantaine de pages) sur la problématique de l’acquisition des connaissances à
partir de textes, domaine d’application que j’ai choisi pour le logiciel. Je présente,
décortique et critique un bon nombre de travaux en acquisition des connaissances à partir
de textes, et je propose en conclusion une typologie des outils d’analyse de textes pour
l’acquisition des connaissances.
Ce rapide retour en arrière sur l’architecture de mon mémoire de thèse révèle bien ma
volonté de valoriser ma recherche selon le point de vue de l’utilisation de LEXTER, et
donc de sa validation, plutôt que sur sa conception, en négligeant de me situer, dans le
domaine du TAL, par rapport aux travaux sur l’analyse syntaxique automatique3. En ce
qui concerne ma position par rapport aux théories et travaux en linguistique, je fais
référence dans ma thèse à la Théorie Générale de la Terminologie et à certains linguistes
reconnus (Benveniste, Guilbert). Je peux dire maintenant que ce positionnement est un
habillage rapidement cousu au moment de la rédaction de la thèse pour justifier des
choix de conception et d’implémentation que j’avais effectués sur des bases entièrement
pragmatiques.
En 1999, quand j’attaque la conception de l’analyseur syntaxique SYNTEX, je suis bien
décidé à problématiser enfin la distance entre les théories linguistiques et la conception
d’un analyseur opérationnel. Au moment où nous commençons à travailler sur ce nouvel
analyseur, C. Fabre et moi rédigeons, pour un numéro spécial des Cahiers de Grammaire
sur « Sémantique et corpus », un article qui constitue l’acte de baptême de SYNTEX et
qui restera pendant plusieurs années sa seule référence bibliographique (Bourigault et
Fabre, 2000). Dans cet article, j’amorce une réflexion sur les rapports entre certains des
choix méthodologiques effectués pour le développement d’un analyseur syntaxique
opérationnel et certaines des positions théoriques défendues par J.-C. Milner dans son
Introduction à une science du langage (Milner, 1999). Mais une fois la rédaction de
l’article achevée, je me plonge à nouveau dans les développements informatiques,
pendant 5 années, période au bout de laquelle est achevée une première version stable de
l’analyseur.
3 Cette disproportion entre une étude bibliographique hypertrophiée sur l’acquisition des connaissances à partir
de textes et une discussion relativement légère sur les techniques de traitement automatique des langues n’a pas
manqué de surprendre Jean Véronis, qui écrit dans son rapport sur la thèse : « J’ai été surpris tout d’abord par
la place de cette étude qui constitue en quelque sorte un état de l’art, et il m’a semblé qu’elle aurait mieux eu
sa place au début du mémoire, de façon à ce que l’exposé s’appuie sur elle. Mais il est vrai qu’elle ne porte
pas exactement sur le thème général de la thèse, mais sur le seul aspect particulier de l’acquisition des
connaissances. On peut alors se demander pourquoi une bibliographie si élaborée sur ce thème et pas sur le
thème central de la thèse. »
10
La rédaction du présent mémoire est pour moi l’occasion d’une pause, urgente et
salutaire, dans le développement du logiciel et dans la course aux applications, pour
reprendre mes interrogations sur théorie linguistique et développement informatique en
ingénierie linguistique.
1.2. Analyse syntaxique locale
LEXTER est un logiciel d’extraction de terminologie. Il prend en entrée un corpus de
textes, préalablement étiqueté4, puis effectue une extraction de candidats termes
nominaux en deux étapes : (1) découpage, (2) décomposition. Au cours de l’étape de
découpage, LEXTER isole dans la chaîne étiquetée des groupes nominaux maximaux en
repérant des patrons morphosyntaxiques de frontières. Il s’agit par exemple des mots de
catégorie Verbe, Pronom, Conjonction de subordination, etc., ou des séquences de
catégories morphosyntaxiques, par exemple certaines suites Nom + Préposition ou
Préposition + Déterminant, qui ne peuvent être constituants de termes. Au cours de
l’étape de décomposition, LEXTER analyse les groupes nominaux maximaux dégagés lors
de l’étape de découpage pour les décomposer récursivement de façon binaire en une tête
et une expansion5. Par exemple, le groupe nominal maximal pompe de refoulement
rapide est décomposé en une tête, le groupe nominal pompe de refoulement et une
expansion, l’adjectif rapide, et le groupe nominal pompe de refoulement est lui-même
décomposé en une tête, pompe, et une expansion, refoulement. Pour résoudre les
ambiguïtés de rattachement adjectival au sein des groupes nominaux maximaux ou
certaines ambiguïtés de rattachement prépositionnel lors de l’étape de découpage,
LEXTER met en oeuvre le principe de l’apprentissage endogène : il acquiert lui-même,
par analyse de configurations non ambiguës au sein corpus en cours de traitement, les
informations lexico-syntaxiques qui lui sont nécessaires pour traiter les configurations
ambiguës. Par exemple, LEXTER effectue l’analyse donnée ci-dessus du groupe pompe
de refoulement rapide parce qu’il a repéré dans le corpus des occurrences non ambiguës
des groupes pompe rapide ou pompe de refoulement, et aucune occurrence non ambiguë
de refoulement rapide. De même, c’est parce qu’il aura repéré plusieurs contextes non
ambigus dans lesquels le nom action est construit avec la préposition sur que le logiciel
ne coupera pas à la séquence sur + le dans la phrase « Le système déclenche une action
sur le bouton poussoir », et extraira ainsi le groupe nominal maximal action sur le
bouton poussoir. En revanche, il considérera cette même séquence comme une frontière
dans la phrase « on raccorde le câble d’alimentation sur le coffre de décharge » au motif
qu’il n’aura repéré aucune occurrence non ambiguë de alimentation + sur dans le
corpus.
4 L’étiqueteur utilisé au départ du projet est AlethIPCat de la société GSI-Erli.
5 Je reviens à la fin de la section 1.5 sur les motivations de cette décomposition binaire récursive.
11
Le concept fondateur de LEXTER est celui de frontière. Dès le début de ma réflexion sur
une méthode d’identification de termes dans des corpus, j’ai eu à ma disposition un
étiqueteur, et l’observation de corpus de test étiquetés m’a guidé vers l’idée d’une
extraction de groupes nominaux maximaux par repérage de marqueurs de frontière.
Pourquoi avoir choisi une méthode « en négatif », par patrons de frontière, plutôt qu’une
méthode beaucoup plus classique par patrons de termes (Nom Adjectif, Nom Prep Nom,
etc.) ? Sans doute parce que le premier corpus sur lequel j’ai travaillé avait cette
particularité de regorger de syntagmes nominaux extraordinairement complexes, avec de
magnifiques enchâssements (par exemple : amélioration des connaissances actuelles sur
les propriétés électriques et mécaniques des accéléromètres à fibre otique). Ce corpus de
200 000 mots était constitué de textes rédigés par les ingénieurs de la DER qui
décrivaient leurs thèmes et actions de recherche pour l’année à venir. Devant la diversité
et la complexité des groupes nominaux utilisés pour nommer ces thèmes et actions, il
m’est apparu plus facile de travailler dans un premier temps sur la caractérisation des
limites extérieures de ces groupes que sur celle de leur structure interne. Dans une
perspective de prototypage rapide, la mise au point d’une liste initiale de patrons de
frontière m’est apparue chose aisée. Une première version satisfaisante du module
découpage a été prête assez vite. Comme prévu, les structures des séquences isolées à
l’issue de la phase de découpage étaient très complexes et diversifiées. Pour extraire des
sous-séquences, qui avaient plus de chances d’être des termes du domaine que les
séquences maximales, je me suis lancé dans la mise au point des règles de
décomposition. J’ai adopté une approche énumérative, totalement inductive, basée sur
l’observation de ces syntagmes nominaux maximaux. En simplifiant, pour chaque motif
possible de syntagme nominal maximal, décrit en terme de succession de catégories
morphosyntaxiques (noms, adjectifs, participes passés, prépositions, adverbes,
déterminants), j’ai construit une règle du module de décomposition, qui indique quels
sont les constituants à extraire, ainsi que, dans le cas d’une ambiguïté de rattachement
adjectival, quels sont les groupes dont il faut chercher des occurrences non ambiguës.
Dans un premier temps, les règles énuméraient les sous-groupes à extraire, sans produire
d’analyse en Tête et Expansion. J’ai introduit cette analyse dans un second temps,
d’abord pour faciliter la navigation dans l’interface de consultation des résultats
(section 1.5). Une des grandes richesses de LEXTER est la connaissance accumulée dans
les dizaines de règles du module décomposition.
Pour qualifier le type d’analyse effectuée par LEXTER, j’ai parlé d’« analyse syntaxique
locale » (Bourigault, 1993). Cette mention concerne l’analyse effectuée par le module de
découpage, qui s’appuie sur des patrons catégoriels de faible empan (séquences d’une ou
deux, voire trois, catégories) pour extraire des syntagmes nominaux syntaxiquement
valides6. Dans ma thèse, je justifie le non recours à une analyse syntaxique globale des
phrases de la façon suivante : (1) mon objectif est limité à l’identification de syntagmes
6 Alors que le module de décomposition, lui, met en oeuvre une analyse syntaxique globale des syntagmes
nominaux maximaux, en ce sens que chaque règle de décomposition correspond à un motif possible de
syntagme nominal maximal décrivant l’intégralité du syntagme à analyser.
comporte en partie gauche le mtof
12
nominaux complexes dans des corpus de grande taille, (2) l’analyse syntaxique des
phrases est rarement décisive pour identifier les frontières de syntagmes nominaux, (3) le
fait d’adopter une méthode robuste autorise une démarche expérimentale par tests
nombreux sur corpus de grande taille et une mise au point fine des règles d’extraction.
J’argumente ainsi que la méthode de LEXTER est plus précise qu’une méthode par simple
repérage de patrons de termes, et plus efficace et robuste qu’une méthode par analyse
syntaxique globale7. J’affirme même : « La synergie entre repérage de termes et analyse
syntaxique doit s’effectuer dans le sens inverse. D’un point de vue théorique, toute
approche structurale de l’analyse de la langue qui fonde sur la compositionnalité une
organisation des traitements en niveaux (syntaxique, sémantique) se doit de considérer
les termes comme des unités sur le plan syntaxique, puisque ce sont des unités sur le
plan interprétatif. D’un point de vue pratique, il est nécessaire de fournir à un analyseur
syntaxique la liste des termes (et des noms composés) qu’il est susceptible de rencontrer
dans les textes, pour limiter le nombre de cas d’ambiguïtés auxquels il sera confronté. »
(Bourigault, 1994b, p. 70). J’évoque à ce propos un « principe d’incertitude », qui
interdirait d’obtenir, avec une égale précision et en exploitant les mêmes informations, à
la fois la structure syntaxique d’une phrase et le repérage d’unités complexes qui la
constitueraient. Je n’approfondirai jamais cette idée. A rebours, je réalise quelques
années plus tard un analyseur syntaxique de phrase dont une des applications en aval est
l’extraction de termes (section 1.7).
1.3. La fonction initiale de LEXTER : extraire des étiquettes
de concepts
LEXTER est développé initialement pour répondre au problème de la constitution et de
l’enrichissement de thesaurus. Je le conçois comme un outil dont la fonction est
d’extraire automatiquement d’un corpus de textes des séquences de mots aptes à intégrer
directement la nomenclature d’un thesaurus, sans retouche de forme. Par exemple, le
logiciel doit extraire la séquence nominale paroi d’enceinte, mais doit écarter la
séquence paroi de cette enceinte, parce que la présence du déterminant démonstratif
vient la disqualifier pour le titre d’étiquette de concept. Ce parti pris relève de la
conception naïve de la terminologie qui est la mienne tout au long de mon travail de
thèse : le terme est une étiquette de concept, il est figé à la fois dans sa fonction
7 Cette polémique peut paraître quelque peu datée, au regard de la popularité gagnée ces dix dernières années
par les travaux en analyse syntaxique robuste par bribes. A l’époque, la nécessité de mettre au point un tel
argumentaire m’est apparue, quelques mois après le début de ma thèse, à l’occasion d’un colloque sur le
repérage de l’information textuelle organisé à l’Université du Québec à Montréal. Je présentais pour la
première fois le principe du découpage par marqueurs de frontière, et celui, qui suit logiquement, de
décomposition des syntagmes nominaux maximaux (Bourigault, 1991). Un membre de l’équipe de l’UQAM,
qui travaillait alors sur le progiciel Termino, m’a demandé comment je pouvais extraire des syntagmes
nominaux sans analyse syntaxique de la phrase. Ce point, dont je constate retrospectivement avoir surestimé
l’importance, m’a conduit à l’époque à mobiliser une partie de mon énergie à justifier le non recours à
l’analyse syntaxique de phrase.
13
référentielle et dans sa forme, car le système conceptuel préexiste à toute production
textuelle. Le corpus n’est qu’un simple réservoir d’attestations. Cette conception n’est
pas ébranlée par mes diverses lectures issues de la littérature classique de la
terminologie. Ni du côté de E. Benveniste (1966) ou de L. Guilbert (1965), dont la
citation que je donne page 26 de ma thèse conforte parfaitement ma conception initiale
de l’extraction automatique de termes : « Les unités lexicales complexes ne sont en
définitive que des segments d’énoncés extraits de leur contexte. » (Guilbert, 1965,
p. 273). Ni du côté de la Théorie Générale de la Terminologie d’Eugène Wüster, telle
qu’elle est exposée dans le Manuel de terminologie de H. Felber, auquel j’emprunte
page 19 de ma thèse cette définition du terme : « un terme est un symbole conventionnel
représentant une notion définie dans un certain domaine de savoir » (Felber, 1987, p. 1).
Dans la section de ma thèse consacrée à la caractérisation linguistique du terme,
j’affirme que la propriété définitoire essentielle du terme est sa propriété
d’interprétabilité hors contexte (Bourigault, 1994b, p. 21). J’affirme ensuite que si cette
contrainte d’interprétabilité hors contexte ne permet pas de déduire directement les
principes d’une implémentation, elle induit sur la forme du terme des contraintes
morphosyntaxiques qui, elles, peuvent servir de bases descriptives pour
l’implémentation. C’est ainsi que je justifie le fait que LEXTER extrait des séquences
contiguës d’unités lexicales, correspondant à des groupes nominaux figés, dont la forme
les rend aptes à intégrer directement la nomenclature d’une terminologie. Cette traque de
l’étiquette est poursuivie de façon obsessionnelle pendant toute la conception du logiciel
LEXTER (1990–1994). Elle me conduit à imposer des contraintes fortes sur le filtrage des
groupes nominaux à extraire des corpus. En particulier, j’écarte tout groupe qui a pour
constituant un article autre que l’article défini (comme refroidissement d’une enceinte)
ou, plus encore, qui a pour constituant un article défini à valeur non générique : une règle
de découpage considère comme une frontière les séquences de + article défini quand le
nom qui suit l’article est suivi d’une relative. Par exemple, dans la phrase « le débit de la
pompe qui alimente le circuit de refroidissement», la séquence débit de la pompe ne sera
pas retenue car dans ce contexte le déterminant la n’a pas la valeur générique, mais celle
de spécifiant.
1.4. LEXTER à l’épreuve des usages : revirement théorique
Après la soutenance de ma thèse en juin 1994, j’arrête tout travail de développement
informatique sur le logiciel LEXTER lui-même, et je consacre la période 1994–1999
d’une part à l’animation de la recherche, au sein de la communauté de l’Ingénierie des
Connaissances et dans le groupe « Terminologie et Intelligence Artificielle », que j’ai
créé avec A. Condamines en 1994, et d’autre part à la mise en place et à l’animation
d’un certain nombre de projets de recherche dans lesquels le logiciel LEXTER est utilisé,
14
que ce soit au sein de la DER d’EDF8 ou dans des laboratoires de la recherche
universitaire.
Assez vite après le début de la thèse, j’avais changé sensiblement la visée applicative de
mon travail. Je m’étais détourné du domaine de l’informatique documentaire, et avais
abandonné le problème spécifique de la constitution de thesaurus, pour inscrire mes
recherches dans le domaine de l’Intelligence Artificielle, et m’intéresser au problème de
la conception des systèmes experts9. Ce geste fut de grande importance pour la suite de
ma recherche, car le domaine de l’Intelligence Artificielle a vécu au début des années
1990 une sorte de révolution culturelle, avec un vaste mouvement d’idées autour de
l’activité d’acquisition et de modélisation des connaissances pour les systèmes experts,
au sein duquel la réflexion sur l’utilisation des textes et des outils informatiques
d’analyse de textes a occupé une place centrale. Au début de leur développement, les
systèmes experts étaient conçus comme des ensembles uniformes de règles
d’association, permettant de passer d’un ensemble de prémisses à des conclusions. Ces
règles étaient établies à partir des explications fournies par les experts sur leur façon de
résoudre les problèmes. L’acquisition des connaissances était donc appréhendée comme
un problème d’extraction et de retranscription de connaissances que posséderait un
expert vers un système expert. Au début des années 1990, un certain nombre de
chercheurs, pour lesquels cette conception expliquait en partie l’échec des systèmes
experts de première génération, proposent une nouvelle approche qui voit l’acquisition
des connaissances comme un problème de construction de modèles (Aussenac et al.,
1992).
Le domaine de l’acquisition des connaissances pour les systèmes à base de
connaissances se caractérise par l’identification et l’agencement des
processus requis pour l’élaboration (conception, évaluation, évolution)
d’un Système à Base de Connaissances à partir de sources hétérogènes de
connaissances (documentaires, humaines, expérimentales).
(op. cit., p. 8)
Il ne s’agit plus de « mimer » le raisonnement d’un expert dans un système informatique,
mais de construire un artefact informatique, un « système à base de connaissances », qui
viendra s’intégrer au dispositif utilisé par les spécialistes dans leur activité experte. Un
tel changement de conception entraîne un changement radical dans les méthodologies
d’acquisition des connaissances. En particulier, le recours aux textes n’est plus le même
qu’avec la vision classique des systèmes experts, pour laquelle seules les retranscriptions
8Ce fut une période particulièrement active, au cours de laquelle j’ai eu le bonheur de travailler, toujours à
EDF, avec Cécile Gros et Henri Boccon-Gibod, bientôt rejoints par Daniela Garcia. L’aide qu’ils m’ont
apportée a été capitale.
9 Je dois l’idée de ce changement à Jean-Paul Krivine, chercheur au service Informatique et Mathématiques
Appliquées de la DER, qui crée et anime à partir d’octobre 1991 le Groupe de Recherche en Acquisition des
Connaissances (GRACQ). Il perçoit l’intérêt d’un rapprochement des recherches en extraction de terminologie
avec celles qui portent sur la construction de systèmes experts, et il m’invite à participer aux deuxièmes
journées d’Acquisition des Connaissances, en avril 1992 à Dourdan. Je lui suis d’autant plus redevable que sa
suggestion est intervenue au moment où des problèmes de relation entre services au sein de la DER rendaient
difficile la poursuite du projet de mise à jour du thesaurus EDF.
15
d’entretiens avec les experts sont dignes d’intérêt. Les quelques travaux entrepris en
Traitement Automatique des Langues dans cette logique aujourd’hui abandonnée, basés
sur l’utopie d’une traduction automatique possible des discours des experts en des règles
de systèmes expert, n’avaient en effet produit que peu de résultats intéressants
(Bourigault, 1994b, chap. 5). Avec la nouvelle approche des systèmes à base de
connaissances, il apparaît que les connaissances à modéliser pour réaliser les artefacts
informatiques vont bien au-delà des connaissances verbalisées par les experts. Ces
connaissances sont susceptibles d’être exprimées dans de multiples sources textuelles, de
types très divers selon les applications : documentations techniques, ouvrages de
référence, rapports de projets, comptes rendus d’activité, etc. Dès lors, puisque les
termes techniques présents dans ces documents constituent les points d’accès privilégiés
aux connaissances qui y sont exprimées, et face à la masse des documents à étudier, la
communauté de l’Ingénierie des Connaissances s’est ouverte aux recherches autour de la
terminologie et de l’analyse automatique de corpus.
C’est précisément pour favoriser la réflexion interdisciplinaire entre la linguistique de
corpus, la terminologie, le Traitement Automatique des Langues et l’Ingénierie des
Connaissances qu’Anne Condamines, de l’Equipe de Recherche en Syntaxe et
Sémantique (ERSS) de Toulouse, et moi créons en 1994 le groupe « Terminologie et
Intelligence Artificielle » (TIA). Ce groupe va être le creuset d’une bouillonnante
activité de discussion et de réflexion, et constituer un centre d’animation de la recherche
particulièrement actif pendant toute la seconde moitié des années 1990. Personnellement,
c’est grâce aux échanges et aux collaborations avec les membres de ce groupe de travail
que j’ai pu engager une réflexion sérieuse sur les bases théoriques de mon travail, puis
élaborer le cadre théorique et méthodologique de mes recherches sur l’utilisation d’outils
de TAL pour la modélisation des connaissances à partir de textes. L’une des actions
importantes du Groupe TIA aura été de participer à la critique des bases théoriques et
épistémologiques de la terminologie classique. Celles-ci étaient déjà remises en cause à
cette époque par les tenants de la socioterminologie (Gambier, 1995, Gaudin, 1995). Elle
l’étaient aussi par M. Slodzian, qui mettait en évidence que la vision mécaniste du
couplage entre le terme et la notion s’était imposée dans le cadre intellectuel de
l’universalisme et de l’empirisme logique, que le monde scientifique avait depuis
largement remis en cause (Slodzian, 1994). A partir des discussions menées au sein du
groupe TIA, je tente de contribuer moi aussi à cet effort de renouvellement des bases
théoriques de la terminologie, en apportant le point de vue d’un concepteur de logiciel
d’extraction de termes. Je remets en question mes conceptions théoriques initiales, sur
les bases d’un constat dressé sur le terrain des différents projets utilisant LEXTER :
l’hypothèse de l’existence et de l’unicité d’un réseau notionnel et d’une terminologie
pour un domaine donné ne résiste pas à l’évidence de la grande diversité des ressources
terminologiques qu’il est possible de concevoir. Cette diversité est elle-même liée à la
diversité des applications utilisatrices de telles ressources, qui se multiplient avec le
développement des réseaux et de la société de l’information multilingue (thesaurus pour
les systèmes d'indexation automatique, index structurés pour les documentations
techniques hypertextuelles, ontologies pour les mémoires d'entreprise, pour les systèmes
d’aide à la décision ou pour les systèmes d’extraction d’information, etc.). Dans les
16
projets menés en particulier à EDF, l’expérience me montrait que, pour le terminologue
face à un candidat terme, la bonne question n’était jamais « Cette unité lexicale
réfère-t-elle à un concept du domaine ? », mais plutôt « Est-il utile/pertinent d’intégrer
cet élément dans la ressource terminologique en cours de construction, utile/pertinent
vis-à-vis de l’application dans laquelle cette ressource sera utilisée ? ». Le cadre
théorique de la doctrine terminologique classique, qui contraint à poser le problème de la
construction de terminologie comme une activité de découverte des traces linguistiques
d’un réseau de concepts préexistants, n’est pas compatible avec la réalité du terrain. Il
s’écroule. Le terme n’est pas découvrir, le terme est un élément d’une ressource
terminologique à construire en fonction d’une application cible.
1.5. Un outil d’aide à l’analyse sémantique de textes
spécialisés
A ce moment de ma réflexion, la découverte de la sémantique de F. Rastier fut pour moi
une révélation. Je trouve exprimées dans les écrits de F. Rastier (1987, 1991, et al.,
1994) des positions qui entrent en résonance avec mes propres constats empiriques. Une
sémantique textuelle, qui pose les textes comme objets empiriques de la linguistique, et
interprétative, qui place au centre du dispositif théorique les concepts de contexte et
d’interprétation, était celle dont j’avais besoin pour m’affranchir du recours infructueux
aux propositions théoriques de la doctrine terminologique, ainsi qu’à celles des
sémantiques référentielles ou des sémantiques conceptuelles que je connaissais mieux
alors. La communication de F. Rastier aux premières journées organisées par le groupe
TIA en avril 1995 à Villetaneuse, intitulée « Le terme : entre ontologie et linguistique »
(Rastier, 1995), fut pour moi décisive. L’auteur propose d’en finir avec une conception
de la terminologie comme discipline qui s’opposerait à la linguistique, ainsi que le
revendiquent Wüster et ses disciples, et annonce que maintenir une sécession de la
terminologie causerait un préjudice à l'ensemble des sciences du langage :
Alors que ses objectifs pratiques relèvent de la linguistique appliquée, les
préjugés logico-positivistes de sa doctrine doivent être abandonnés, d'une
part parce qu'ils entravent la réalisation même de ses objectifs, d'autre part
parce qu'ils donnent du langage une image à la fois simpliste et obsolète,
sans permettre de comprendre la richesse et la complexité du
fonctionnement effectif des textes de spécialité. (…) En resserrant ses
liens avec la linguistique, et notamment la sémantique des textes
scientifiques et techniques, la terminologie va devenir mieux à-même de
remplir ses multiples missions, en problématisant la recherche et la
constitution de ses unités, et en s'adaptant mieux à ses domaines d'action
privilégiés : documentation et indexation, aide à la traduction.
(op. cit., p. 61-62).
17
Il s’agit de considérer la terminologie comme une branche descriptive et normative de la
linguistique appliquée, relevant de la lexicologie et traitant séparément de domaines
sémantiques correspondant à diverses disciplines. Il devient alors possible d’utiliser les
bases et concepts théoriques de la sémantique lexicale, en s’appuyant en particulier sur le
concept de contexte que théorise la sémantique textuelle dont elle procède, pour adopter
une vision constructiviste de la terminologie : en terminologie, comme en lexicologie,
tout lexique est une reconstruction, qui fait abstraction du contexte et du texte :
Un mot-occurrence ne se définit que dans et par un contexte, et reçoit des
déterminations du texte. Le placer sous l’autorité d’un type revient à le
décontextualiser et le dé-textualiser. (…) les types ne préexistent pas aux
occurrences, mais sont reconstruits à partir d’elles. Ainsi tout type résulte
d’une décontextualisation (…). Le mot-type est un artefact des linguistes,
comme le terme est un artefact de la discipline qui l’instaure.
(op. cit., p. 53).
Cette position méthodologique rejoint les constats faits sur le terrain. On doit considérer
que le travail de construction d’une ressource terminologique relève d’une activité
d’interprétation, guidée par l’objectif de l’application. « L’interprétation est elle-même
située. Elle prend également place dans une pratique sociale, et obéit aux objectifs
définis par cette pratique. Ils définissent à leur tour les éléments retenus comme
pertinents » (Rastier et al., 1994, p. 13). Dès lors que la terminologie est intégrée dans le
giron de la sémantique textuelle, il devient possible selon F. Rastier de prendre en
compte la dimension textuelle dans les études en terminologie, et de coupler ainsi le
point de vue paradigmatique, systématiquement privilégié dans l’étude des vocabulaires
spécialisés, avec un point de vue syntagmatique qui étudie la constitution des termes, le
rapport des termes aux non termes, le rapport du terme au contexte et le rapport du terme
au texte. Dans ce contexte, l’auteur affirme que « les outils statistiques, les
concordanciers, et les logiciels d’analyse sémantique permettent d’apporter du nouveau,
pour peu que les stratégies de recherche tiennent compte de la textualité. » (Rastier,
1995, p. 58-59).
Dans un article publié en septembre 1995, dans les actes des 4èmes journées
scientifiques du Réseau Lexicologie, Terminologie, Traduction, j’affiche une position
sur la terminologie radicalement différente de celle présentée dans ma thèse, où je
m’étais docilement rangé derrière les tenants de la doctrine et les grands noms de la
discipline. Influencé par F. Rastier, ainsi que par B. Bachimont qui reprend lui aussi à
son compte la théorie de F. Rastier dans ses travaux en Ingénierie des Connaissances
(Bachimont, 1996), je ne présente plus le terme comme le représentant d’un concept, sa
trace linguistique qu’il s’agirait d’aller retrouver dans les textes, mais comme un élément
d’une ressource terminologique qu’il s’agit de construire, à partir de l’analyse des textes,
pour une application identifiée. Ce revirement méthodologique m’amène à proposer une
nouvelle définition de la notion de candidat terme. Dans ma thèse, j’avais justifié cette
notion par le fait que, puisque la caractérisation première du terme était sa fonction
sémantique de représentation de concept, et puisque le logiciel ne s’appuyait que sur des
contraintes d’ordre morphosyntaxique pour extraire des syntagmes nominaux, ceux-ci ne
18
pouvaient être que des « candidats » termes. La tâche du terminologue était de distinguer
les termes des non termes parmi les candidats termes. Mais cette dichotomie terme/non
terme n’est plus valide dans une approche qui assume le principe d’une dépendance de la
tâche de sélection vis-à-vis de l’application. Je justifie alors la notion de candidat terme
comme nécessaire pour rendre compatible la variété des ressources terminologiques que
l’on peut construire à partir des résultats de LEXTER, avec la contrainte de généricité
imposée au logiciel, dans lequel je n’intègre aucune règle de filtrage qui dépendrait du
type d’application. La tâche du terminologue est alors de retenir parmi les candidats
termes les termes qui sont pertinents vis-à-vis de l’application.
Ce changement, qui peut apparaître anodin, est la trace d’un premier pas important vers
la redéfinition de la fonction de LEXTER. J’accomplis le second pas dans le même élan
inspiré par la théorie de F. Rastier. Dans le cadre de la « terminologie textuelle »,
promue par le groupe TIA (Bourigault et Slodzian, 1999), le terme est un construit : il est
le produit d’un travail d’interprétation mené par l’analyste. Celui-ci construit son corpus
d’étude, puis définit sa stratégie de lecture, choisit ses parcours interprétatifs et effectue
ses choix de modélisation au niveau local (sélection et description des termes) guidé par
la spécification au niveau global de la ressource visée. Avec une telle conception,
LEXTER ne doit plus être vu comme un simple pourvoyeur d’étiquettes de concepts, mais
comme un outil d’aide à l’analyse sémantique de textes spécialisés dédié à la tâche de
construction de ressources terminologiques. Le réseau terminologique construit en
connectant chaque candidat terme complexe à sa tête (lien T) et à son expansion (lien E)
est directement implémenté dans l’interface de consultation des résultats de LEXTER, dite
« Hypertexte Terminologique LEXTER » (HTL) dans laquelle les liens T et E deviennent
des liens de navigation10. Il est possible pour un mot donné de visualiser d’un coup d’oeil
la liste de ses descendants en Tête et de ses descendants en Expansion, et de se
transporter rapidement à l’un de ceux-ci. Chaque candidat terme peut être ainsi saisi et
interprété au sein d’une série paradigmatique de candidats termes partageant la même
tête ou la même expansion. Cette fonctionnalité s’avère particulièrement intéressante
dans la perspective de modélisation des connaissances. L’interface HTL permet une
navigation hypertextuelle au sein du réseau terminologique, ainsi qu’entre le réseau de
candidats termes et les textes, en donnant accès pour un candidat donné à tous ses
contextes d’occurrence. Elle invite l’analyste à adopter un mode de lecture non
séquentiel du corpus, que l’on peut qualifier de paradigmatique. L’action du logiciel peut
ainsi être vue comme l’enchaînement d’une étape de dé-contextualisation et d’une étape
de re-contextualisation : les candidats termes sont extraits de leurs contextes
d’occurrence, puis plongés dans leurs contextes paradigmatiques, reconstitués par
l’analyse. Cette double opération n’est pas irréversible, puisque l’analyste a toujours
accès au corpus et aux contextes d’occurrence des candidats termes. Le réseau
10Dès le début de mon travail à EDF, alors même que le logiciel était encore dans les limbes, j’avais réfléchi à
la conception d’une interface hypertextuelle qui valoriserait les résultats extraits par le logiciel dans une station
de travail pour terminologue, de façon à pouvoir le (faire) tester dans des applications réelles. J’ai eu alors la
chance de travailler avec Jean-Louis Vuldy, de la DER, qui a développé avec le logiciel Hypercard une
magnifique interface hypertextuelle.
19
terminologique navigable construit par LEXTER propose à l’analyste « une image
réorganisée du texte »11.
1.6. Un outil d’identification de contextes syntaxiques pour
l’analyse distributionnelle
Le renouvellement des conceptions théoriques et le développement des applications en
terminologie ouvrent en France au milieu des années 1990 un nouveau paradigme de
recherche en TAL sur les outils d’aide à l’analyse sémantique de textes spécialisés
(Bourigault et Jacquemin, 2000) (Jacquemin et Bourigault, 2003). Les recherches portent
sur les techniques de TAL pour extraire des textes des informations (termes, relations,
classes, etc.) utiles pour la construction de ressources lexicales spécialisées. On parle
alors d’outils d’aide, non pas parce que ces outils sont imparfaits et nécessitent une
intervention humaine pour corriger les erreurs, mais parce que l’analyse des résultats
qu’ils fournissent est une tâche d’interprétation qui ne peut être menée à bien que par un
analyste humain muni d’un objectif.
Dans ce contexte, l’extraction de candidats termes n’est qu’une des applications du TAL
utiles à la modélisation des connaissances. Toute méthode permettant de classer,
structurer, mettre en relation, filtrer une liste de candidats termes extraits est la
bienvenue. C’est ainsi que l’observation des réseaux terminologiques construits par
LEXTER me suggère l’idée d’utiliser ce réseau aussi comme input pour des calculs
statistiques permettant de caractériser les candidats termes en fonction de la cartographie
du réseau local qui les entoure (Bourigault, 1994a)12. L’idée de proposer une
décomposition syntaxique binaire récursive en Tête et Expansion des syntagmes
nominaux s’est imposée initialement pour structurer la liste des candidats termes extraits
et pour permettre une meilleure navigation dans l’interface HTL (le long des liens Tête
et Expansion13). Ce n’est que dans un second temps qu’il m’est apparu que le réseau
terminologique pouvait constituer un résultat intermédiaire exploitable pour de nouveaux
calculs. Les réseaux terminologiques construits à partir de corpus spécialisés de grande
taille possèdent la caractéristique particulièrement intéressante d’avoir une densité
absolument non uniforme. Un petit nombre de noeuds attracteurs concentrent l’essentiel
11 Expression utilisée par (Habert & Nazarenko, 1996) à propos des réseaux distributionnels construits par leur
outil ZELLIG.
12 Avec cet article, je reçois le prix « jeune chercheur » lors de la conférence Reconnaissance des Formes et
Intelligence Artificielle (RFIA 1994), à 37 ans…
13 En fait, j’ai distingué deux types de décomposition en Tête et Expansion, selon le type du connecteur
prépositionnel entre la tête et l’expansion. Dans les cas où la tête et l’expansion sont connectées par une
séquence de+le (du, de la, des), les positions Tête et Expansion sont notées T’ et E’. Dans tous les autres cas,
elles sont notées T et E. Cette distinction est issue du constat suivant : la préposition de est une préposition
vide, qui constitue un bon indice de comportement dénominatif quand elle est attestée sans déterminant défini ;
en revanche, le déterminant le a de façon très largement majoritaire en corpus une valeur anaphorique ou
cataphorique, qui rend les séquences de+le plus souvent non interprétables hors contexte.
20
des liens14. Surtout, les noeuds présentent des profils de répartition des liens entrants T,
E, T’, E’ très dissemblables. J’analyse ces profils à partir de la notion de productivité. La
productivité en T d’un noeud est le nombre de lien T qui pointent vers ce noeud, c’est-àdire
le nombre de termes qui ont le terme pivot en position T, de même pour la
productivité en E, en T’ et en E’. Un simple calcul sur les profils de répartition des
productivités permet d’isoler certains noms du corpus qui ont un comportement marqué :
par exemple, les noms qui sont proportionnellement beaucoup plus productifs en
position T’ (tête de syntagme ayant comme connecteur de+le) que dans les autres
positions désignent très probablement des actions importantes dans le domaine. Dans
(Bourigault, 1994a), je formule ainsi 4 propositions d’interprétation, qui seront affinées
dans (Assadi et Bourigault, 1996). Le résultat produit par LEXTER n’est plus uniquement
un ensemble d’étiquettes de termes. Le réseau terminologique que permet de construire
l’analyse syntaxique binaire en tête et expansion des candidats termes complexes devient
une ressource intermédiaire pour des traitements ultérieurs dont les résultats servent eux
aussi à l’aide à la modélisation des connaissances à partir de textes.
Ce filon est exploité avec beaucoup d’énergie, avec l’arrivée dans le groupe SOAD
d’H. Assadi, qui entame une thèse dans le domaine de la modélisation des connaissances
à partir de textes. Dès les premières expériences de modélisation, menées dans le
domaine de la planification de réseaux électriques, H. Assadi constate que les adjectifs
extraits par LEXTER sont bien plus difficiles à valider que les groupes nominaux pour le
cogniticien. Par exemple, celui-ci n’éprouve pas de difficulté particulière à valider des
candidats termes tels que réseau, poste, hypothèse de consommation, alors que les
candidats termes adjectivaux comme national, admissible ou fort lui posent plus de
problèmes. Mais l’observation de l’ensemble des termes complexes {hydraulicité forte,
puissance forte, section forte} par opposition à l’ensemble {hydraulicité faible,
puissance faible, section faible} révèle quasiment immédiatement que les adjectifs faible
et fort désignent des valeurs possibles d’attributs. Dans une tâche de modélisation des
connaissances, l’accès à un tel rapprochement est primordial, puisque identifier les
attributs et leurs domaines de variation est une condition essentielle pour la construction
de taxinomies formalisables. Nous avons donc l’idée de travailler sur des méthodes
automatiques de classification d’adjectifs apparaissant dans les mêmes contextes
syntaxiques, c’est-à-dire modifieurs des mêmes noms ou syntagmes nominaux. La
méthode que nous testons d’abord, et dont nous publions les premiers résultats lors des
3èmes Journées d’Analyse de Données Textuelles en décembre 1995 (Assadi et
Bourigault, 1995), consiste à construire un tableau de présence/absence, dont chaque
ligne correspond à un adjectif et chaque colonne à un nom, puis à calculer à partir de ce
tableau une matrice de similarité entre les individus à classer, et enfin à lancer sur cette
matrice une procédure de classification hiérarchique ascendante. Les classes d’adjectifs
sont obtenues en coupant à un niveau donné l’arbre représentant la hiérarchie des
classes. Pour chaque classe d’adjectif, on construit le contexte de la classe, c’est-à-dire
l’ensemble des noms ou syntagmes nominaux ayant au moins l’un des adjectifs de la
14 Les réseaux terminolgiques ont les propriétés des graphes de petits mondes, qui ont été bien explorées
justement depuis cette époque.
21
classe en expansion. Par exemple, le contexte de la classes d’adjectifs {primaire,
secondaire} est l’ensemble des termes {circuit, enroulement, intensité nominale,
réglage, tension nominale}. Ce type de résultats nous apparaît être une amorce fort utile
pour la modélisation. Sans le savoir à l’époque, nous mettions nos pieds dans les traces
de Zellig S. Harris15.
Parallèlement à ces recherches, B. Habert « recycle » (selon une de ses expressions
favorites) les résultats de LEXTER pour entreprendre toute une série d’études ayant
comme objet le fonctionnement en corpus des dénominations complexes (Habert,
1998)16. Son projet était relativement éloigné du contexte applicatif dans lequel je
développais LEXTER. Suite à des discussions avec C. Jacquemin sur la variation
terminologique, il a l’idée de « déconstruire » (selon une autre de ses expressions
favorites) les arbres d’analyse en Tête et Expansion produits par LEXTER pour en
restituer les dépendances élémentaires fondamentales sous-jacentes. Dans un article
publié en 1995 dans les Cahiers de Grammaire (Habert et al., 1995), B. Habert et ses
collègues, s’inscrivent résolument dans l’horizon théorique de l’approche harrissienne
d’analyse des sous langages et présentent les premiers résultats d’une exploitation des
arbres de dépendances élémentaires extraits des arbres d’analyse de LEXTER pour classer
les mots en fonction de leur contextes syntaxiques. Puis, B. Habert et A. Nazarenko
développent ZELLIG, une chaîne de recyclage des résultats d’analyseurs syntaxiques
robustes destinée à une analyse distributionnelle de contextes rendus élémentaires
(Habert et Nazarenko, 1996). Avec ZELLIG, ils mènent des études sur la délimitation de
classes sémantiques dans des corpus spécialisés (Habert et al., 1995 ; Bouaud et al.,
1995). La représentation logique des arbres permet à B Habert et H. Folch de développer
des méthodes efficaces pour analyser les régularités de fonctionnement des mots et
mettre en évidence les opérateurs et opérandes caractéristiques d’un domaine donné
(Folch et Habert, 1998) (Habert et Folch, 1998). Ils le font de façon beaucoup plus
précise et plus systématique que mes propres tentatives d’analyse du réseau
terminologique évoquées au début de cette section.
B. Habert a donc procédé à un « détournement » de LEXTER en exploitant ses résultats
dans une perspective de recherche différente de celle dans laquelle le logiciel a été
conçu. Ce décalage dans les objectifs a révélé des limites importantes de LEXTER
vis-à-vis d’une exploitation pour l’analyse distributionnelle : restriction aux syntagmes
nominaux (pas d’analyse autour du verbe) ; parmi les syntagmes nominaux, restriction
aux groupes « d’allure dénominative » (exclusion de certains déterminants, de certaines
modifications adjectivales). Ces limitations sont apparues d’autant plus pénalisantes
quand B. Habert et C. Fabre ont appliqué la méthode ZELLIG à des corpus plus proches
15 Cf. cette gentille pique adressée par B. Habert et A Nazarenko, faisant référence aux travaux du type des
nôtres qui commençaient à se développer au milieu des années 90 : « explicitement, ou, plus souvent,
implicitement [c’est moi qui souligne], ces recherches s’inscrivent dans la conception "distributionnaliste" de la
sémantique défendue et mise en oeuvre par ZELLIG Harris : le sens des mots se déduit des constructions dans
lesquelles ils figurent » (Habert & Nazarenko, 1996).
16 Quand B. Habert me demande des sorties de Lexter, je n’imagine pas à quel point l’utilisation qu’il va en
faire aura une grande influence sur la suite de mes recherches.
22
de la langue générale, en comparant les regroupements effectués à partir d’un corpus
médical de comptes rendus d’hospitalisation (corpus Menelas) et à partir d’un corpus
politique constitué des interventions radiotélévisées de F. Mitterrand pendant son
premier septennat (corpus Mitterrand1) :
Le groupe nominal semble un moins bon observatoire des
fonctionnements sémantiques pour Mitterrand1 que pour Menelas. (…)
Dans une phase ultérieure, il s’agira donc d’affranchir ZELLIG de la
contrainte consistant à intervenir en aval d’analyseurs spécialisés dans
l’analyse des groupes nominaux.
(Fabre et al., 1997, p. 29)
1.7. Bilan : LEXTER a servi, vive SYNTEX
Ce retour en arrière sur la période 1990–1999 a montré les deux phases distinctes de la
vie du logiciel LEXTER : une phase de développement (1990–1994), une phase
d’utilisation (1994–1999). Pendant les 4 premières années de ma recherche, j’ai travaillé
de façon appliquée et consciencieuse à la réalisation d’un outil d’extraction d’étiquettes
de concepts pour l’enrichissement de thesaurus. A partir de l’objectif fixé, des
contraintes de résultats imposées et des ressources à ma disposition, j’ai concentré mes
efforts sur les développements informatiques dans une démarche très pragmatique, plus
motivé par l’action que par la spéculation gratuite, et soucieux de mener à bien une
recherche utile. L’esprit concentré sur cet horizon, j’ai mené une recherche plutôt isolée
sur le plan scientifique, indépendamment de tout courant, toute école ou toute
communauté de la recherche universitaire.
La situation fut toute autre durant la seconde phase du cycle de vie du logiciel
(1994-1999). J’ai cherché activement, au sein et à l’extérieur d’EDF, à monter des
projets de recherche et développement utilisant le logiciel LEXTER. La confrontation du
logiciel à la réalité des usages fut pleine d’enseignements, pas tant sur les techniques
d’extraction implémentées dans le logiciel, que sur son mode d’utilisation. Dans une
perspective d’ingénierie linguistique, il ne suffit pas de fabriquer un prototype, il faut
aussi réfléchir à la façon dont il peut être utilisé. Grâce à la réflexion menée au sein du
groupe TIA, j’ai pu m’appuyer sur les constats empiriques effectués sur le terrain, pour
élaborer progressivement un cadre méthodologique pour l’utilisation d’outils de TAL en
acquisition des connaissances à partir de textes.
Au-delà de l’utilisation « normale » de LEXTER comme extracteur de candidats termes,
j’ai eu la chance que certains collègues aient cherché à profiter de la disponibilité des
résultats de LEXTER pour les exploiter pour leurs besoins propres. J’ai cité H. Assadi, qui
a réalisé au cours de sa thèse l’outil LEXICLASS (Assadi, 1998), et B. Habert, avec les
chercheurs qu’il a su mobiliser autour du projet ZELLIG. Les uns et les autres ont utilisé
les analyses produites par LEXTER comme entrée pour leurs outils d’analyse
distributionnelle. Je dois mentionner aussi les travaux de D. Garcia qui a cherché à
23
intégrer les résultats de LEXTER dans son système COATIS de repérage des relations de
causalité dans les textes (Garcia, 1998), ainsi que ceux de N. Aussenac-Gilles et
P. Séguela qui ont fait de même avec l’outil CAMELEON d’extraction de relations
sémantiques à partir de marqueurs lexico-syntaxiques (Séguela et Aussenac-Gilles,
1999). Grâce à ces utilisations détournées, qui ont poussé LEXTER dans certains de ses
retranchements, j’ai pu mesurer à quel point la fonction d’extraction de termes étaient
inscrite « en dur » dans le logiciel lui-même.
Ce constat m’a convaincu de la nécessité de disposer d’un analyseur syntaxique à plus
large couverture, plus neutre quant à ses exploitations possibles, pour une utilité sociale
plus grande. Alors, fallait-il consacrer d’abord tant de temps à un développement poussé
du logiciel avant de réfléchir sérieusement et concrètement à son utilisation ? Oui. C’est
parce que LEXTER était dans un état de maturité suffisamment avancé, en terme de
robustesse, de couverture et d’efficacité, qu’il a pu être testé dans des contextes
d’utilisation variés, et ce sont les retours d’expérience générés par les différents projets
d’utilisation de LEXTER qui ont orienté ma recherche pour les années 1999–2005.
A l’automne 1999, quelques mois après mon arrivée à l’ERSS, C. Fabre et moi nous
mettons au travail pour réaliser un nouvel analyseur syntaxique. Notre premier souci à
cette époque est de travailler sur l’extraction de syntagmes verbaux, pour alimenter les
outils d’analyse distributionnelle, qui ne pouvaient se satisfaire de contextes uniquement
nominaux. Par ailleurs, les retours d’expérience des projets de modélisation des
connaissances à partir de textes, ainsi que les travaux de M.-C. L’Homme sur les
combinaisons lexicales spécialisées (L’Homme, 1998) et ceux de C. Jacquemin sur la
variation terminologique (Jacquemin, 1997 ; Bourigault et Jacquemin, 1999), m’avaient
convaincu que, même pour des applications d’extraction de terminologie, il fallait des
outils capables d’extraire des syntagmes verbaux.
Sur le plan informatique, nous repartons de zéro, mais nous reprenons de l’expérience
LEXTER un certain nombre de choix méthodologiques (dont chacun sera rediscuté dans
la suite de ce mémoire) :
- Les contraintes de robustesse et d’efficacité s’imposent, puisqu’il s’agit de réaliser
un analyseur devant traiter des corpus réels de taille importante.
- L’entrée de l’analyseur est un corpus préalablement étiqueté17.
- L’analyseur n’exploite pas de grammaire formalisée, il est constitué
d’heuristiques18.
- La méthodologie de développement est expérimentale, basée sur des tests nombreux
sur corpus.
17 Nous utilisons alors le logiciel Cordial Analyseur développé par D. Laurent de la société Synapse
Développement.
18 Ces heuristiques sont programmées dans le langage Perl.
24
- Au départ du projet, l’analyseur n’exploite pas de lexique général de souscatégorisation,
il est doté d’heuristiques d’apprentissage pour acquérir des
informations de sous-catégorisation à partir du corpus en cours de traitement.
Par rapport à LEXTER, où l’analyse était directement dédiée à l’extraction de syntagmes
nominaux, nous choisissons d’externaliser la tâche d’extraction de syntagmes en aval de
l’analyse syntaxique : l’extraction de syntagmes (verbaux, nominaux, adjectivaux) et la
construction du réseau terminologique se fait à l’issue de l’analyse syntaxique en
dépendance de l’ensemble des phrases du corpus.
Nous décidons de nous attaquer en premier lieu au problème de la résolution des
ambiguïtés de rattachement prépositionnel. Nous formalisons ce problème de la façon
suivante : 1) étant donnée une préposition dans une phrase, identifier à gauche de la
préposition, dans la chaîne étiquetée, les différents mots susceptibles de la régir ; 2) à
partir d’informations de sous-catégorisation acquises sur le corpus, sélectionner le
meilleur recteur parmi les candidats. Subrepticement, et de façon très naturelle, nous
avons adopté le principe d’une analyse en dépendance. Ce passage en douceur d’une
analyse en constituant à une analyse en dépendance est, sur le plan conceptuel, au-delà
de l’extension de la couverture de l’analyseur, la principale rupture entre LEXTER et
SYNTEX.
25
Chapitre 2
Etat de l’art en analyse syntaxique
robuste
2.1. L’analyse syntaxique automatique au sein du TAL
Au coeur du domaine du Traitement Automatique des Langues, le champ de recherche
sur l’analyse syntaxique automatique peut être en première approximation décrit comme
partagé entre deux pôles : le paradigme des grammaires formelles d’unification, et le
paradigme des analyseurs syntaxiques robustes. A l’origine du premier paradigme, on
trouve la publication des travaux fondateurs de N. Chomsky en 1957. Chomsky introduit
la théorie des langages formels et définit une hiérarchie de classes de grammaires et de
langages devenues depuis classique, en informatique et en linguistique. Il propose le
modèle transformationnel comme alternative aux grammaires régulières et aux
grammaires non contextuelles jugées insuffisantes pour décrire la syntaxe des langues
naturelles. C’est le début de la tradition formelle, qui va développer une réflexion très
riche et d’une importance considérable sur la nature des formalismes nécessaires pour
décrire les langues. Les hypothèses adoptées sont d’abord que la syntaxe des langues est
descriptible avec des modèles formels de type génératif, et ensuite qu’on peut réaliser
des analyseurs à partir de ces modèles, en posant le problème de l’analyse syntaxique
comme un problème de compilation.
Depuis les débuts des années 1990, le terme de robustesse est régulièrement invoqué
pour qualifier des travaux en analyse syntaxique automatique qui visent la réalisation de
systèmes capables fournir, dans des temps raisonnables, une analyse syntaxique
suffisamment complète et juste pour toute séquence donnée en entrée. C’est dans ce
nouveau paradigme que se situent mes recherches autour de l’analyseur SYNTEX. Le
terme « paradigme » en l’occurrence serait plutôt flatteur. Contrairement au courant des
grammaires formelles, qui est structuré et cohérent, avec des hypothèses fondatrices
partagées, des théories élaborées, des conférences et des leaders, les travaux en analyse
syntaxique robuste sont eux beaucoup plus dispersés. Le terme « nouveau » est lui aussi
usurpé. En effet, comme je le montre dans la section suivante, où je présente un rapide
panorama historique des recherches en TAL, les recherches de ce domaine ont toujours
26
été partagées entre deux pôles, théorique et appliqué, dont l’opposition entre paradigme
formel et paradigme de la robustesse est une instanciation dans le sous-domaine de
l’analyse syntaxique automatique.
Les chercheurs francophones ont adopté au début des années 1990 le terme de
« Traitement Automatique des Langues » pour désigner leur société savante (Association
pour le Traitement Automatique des Langues), leur revue (Revue Traitement
Automatique des Langues) et, avec un qualificatif accolé, leur conférence annuelle
(Traitement Automatique des Langues Naturelles). Cette belle cohérence dans les termes
n’est qu’apparente et ne reflète pas la multiplicité des désignations qui ont vu le jour
depuis la fin des années 1980. Dans leur étude très documentée et très utile sur les
dénominations utilisées depuis l’origine pour nommer ce champ disciplinaire, Cori et
Léon (2002) notent :
D’innombrables termes fleurissent pour désigner le domaine au début des
années 1990 : Industries de la langue, Ingénierie linguistique, Natural
Language Engineering, Technologies de la langue, etc. Il n’est toutefois
pas certain que cette inflation de termes et cette frénésie de la
dénomination parviennent à masquer l’inanité d’une impossible quête,
celle de définir un champ unifié qui, tout en englobant les applications
industrielles, soit scientifiquement fondé.
(Cori et Léon, 2002, p. 43)
Ces mêmes auteurs expliquent comment le domaine du TAL se constitue et se remodèle
depuis ses origines dans une tension permanente entre des forces antagonistes, qui
s’organisent selon deux lignes d’opposition :
- la première concerne l’objectif des recherches. Elle oppose les travaux théoriques et
les applications à visée industrielle. D’un côté des chercheurs, de l’autre des
ingénieurs.
- une seconde concerne les disciplines impliquées. Elle oppose à l’origine la
linguistique et l’informatique, plus tard rejointes par les mathématiques,
l’intelligence artificielle et les statistiques.
La première ligne de tension s’est dessinée dès les débuts du domaine. Dans son rapport
de 1951, qui constitue le premier état de l’art sur le domaine de la traduction
automatique (Bar-Hillel, 1951),Yehoshua Bar-Hillel mentionne déjà que le problème de
l’utilisation des calculateurs pour la traduction peut être intéressant soit d’un point de
vue théorique, en favorisant de recherches sur le fonctionnement du langage, soit d’un
point de vue pratique, en particulier pour résoudre les problèmes de la traduction des
publications scientifiques étrangères (op. cit., p. 229). Dans son état de l’art sur la
traduction automatique (TA) publié en 1986, John Hutchins affirme que cette distinction
de points de vue est le point qui fait le plus débat au sein de la communauté de
chercheurs en qui se constitue dans les années 1950 et 1960. Il décrit comment, jusqu’au
milieu des années 1960, le débat entre les « pragmatiques » et les « perfectionnistes » est
vif. Les premiers pensent qu’il est important de développer aussi vite que possible des
systèmes opérationnels en arguant que les systèmes de traduction mot à mot donnent des
27
résultats finalement prometteurs, et qu’ils constituent une base de départ qui pourra
évoluer grâce aux améliorations techniques des ordinateurs et à la mise au point de
nouveaux algorithmes. Les seconds refusent cette précipitation, affichent l’objectif de
réaliser des systèmes de haute qualité et affirment la nécessité de recherches
fondamentales préalables en linguistique.
L’existence d’une tension entre recherches théoriques et applications pratiques est un fait
constant dans la jeune histoire du TAL. Avant un état de l’art sur l’analyse syntaxique
robuste (section 2.3), la première partie de ce chapitre (section 2.2) est consacrée à un
panorama historique des travaux dans le domaine du TAL. Celui-ci montre que les deux
pôles ont alternativement mobilisé le devant de la scène. A cause de cet opposition, et
parce que le domaine est encore jeune, il est difficile de dresser un état des lieux
consensuel et définitif des évolutions du domaine. Le recul manque. Mais il peut y avoir
consensus sur l’identification de moments charnières et d’évolutions majeures. Pour la
trame de cette description, je me suis appuyé, entre autres, sur trois sources principales :
- l’ouvrage de John Hutchins, publié en 1986, « Machine translation : past, present,
future » (Hutchins, 1986).
- l’article de Marcel Cori et Jacqueline Léon intitulé « La constitution du TAL, étude
théorique des dénominations et des concepts », publié dans un numéro de la revue
TAL sur le thème des problèmes épistémologiques (Cori et Léon, 2002).
- l’article de Yorrik Wilks « Computational Linguistics » de la seconde édition de
l’Encyclopedia of languages and linguistics (Wilks, 2006).
Cette première partie est organisée en 4 sections :
- Les débuts de la traduction automatique (section 2.2.1)
- L’avènement de la « computational linguistics » (section 2.2.2)
- Le « tournant déclaratif » et les grammaires d’unification (section 2.2.3)
- Le « Natural Language Processing » (section 2.2.4)
2.2. Panorama historique du Traitement Automatique des
Langues
2.2.1. Les débuts de la traduction automatique
On s’accorde pour identifier comme événement déclencheur des recherches en
Traitement Automatique des Langues la diffusion en 1949 du mémorandum de Weaver
(1949), qui lancera les recherches en traduction automatique (désormais TA). Warren
Weaver est directeur de la division Natural Sciences à la fondation Rockfeller quand il
rédige, en juillet 1949, le mémorandum dans lequel il expose ses idées sur la possible
utilisation des calculateurs qui viennent d’être inventés pour traduire des documents
28
d’une langue vers une autre. Il envoie ce mémorandum à une trentaine de ses
connaissances. Le mémorandum est diversement reçu, mais il constitue le point de
départ des recherches dans le domaine nouveau de la traduction automatique. Selon
Hutchins (1999), l’un des résultats immédiats les plus significatifs du mémorandum est
la décision du Massachusetts Insitute of Technology (MIT) de recruter comme chercheur
sur le thème de la Traduction Automatique, en mai 1951, le logicien de l’Université
Hébraïque de Jérusalem Yehoshua Bar-Hillel. Bar-Hillel publie le premier état de l’art
sur le domaine de la TA à la fin de l’année 1951 (Bar-Hillel, 1951).
Le rapport de Bar-Hillel est fondamental. Tout y est dit. Rien dans les évolutions futures
du domaine ne viendra contredire les propositions de Bar-Hillel, concernant, d’une part,
l’architecture des traitements et l’importance de l’analyse syntaxique et, d’autre part, les
rapports entre théories et applications. Bar-Hillel affirme d’emblée qu’à cause des
ambiguïtés sémantiques la traduction entièrement automatique de haute qualité (fully
automatic high quality translation, FAHQT) n’est pas accessible, et il s’interroge sur les
différents modes de collaboration possibles entre la machine et un ou plusieurs
opérateurs humains, en développant les idées de pré- et post-édition. Par ailleurs, il met
en évidence la nécessité d’une analyse syntaxique pour l’élimination des ambiguïtés
grammaticales et le réarrangement de l’ordre des mots. Il propose que ce processus
d’analyse se réalise selon les étapes suivantes :
1. Mechanical analysis of each word in the Source Language into the stem
(lexical unit) and morphological category. (…)
2. Mechanical identification of small syntactical units within the given
sentence on the basis of the morphological categories to which its words
belong and, for most languages, their order.
3. Transformation of the given sentence into another that is logically
equivalent to it, and rearrangement of the parts of the transformed sentence
in accordance with some standard order of the Target Language.
(Bar-Hillel, 1951, p. 232)
Cette architecture sera en effet adoptée par tous les systèmes opérationnels de TA de
première génération. C’est à propos de la deuxième tâche qu’il évoque l’idée essentielle
d’une syntaxe opérationnelle (operational syntax). Pour Bar-Hillel, une syntaxe
opérationnelle d’une langue, c’est un système unique constitué d’une séquence
d’instructions qui opèrent sur la suite des mots d’une phrase munis de leur catégorie
morphologique et qui identifie les unités syntaxiques selon lesquelles la phrase doit être
décomposée. Cette décomposition est nécessaire pour préparer la transformation
structurelle conduisant à la production de la phrase traduite. Dans son rapport, il se
contente d’affirmer la nécessité d’un tel programme. Mais il soutient que, malgré la
masse des connaissances qu’ils ont accumulées, tout reste à faire de la part des linguistes
pour mener à bien ce projet. Selon lui, même la description la plus complète des
catégories syntaxiques d’une langue donnée, selon les normes et principes
communément adoptés par les linguistes, n’est pas adéquate pour la réalisation d’un
programme de reconnaissance effective de la structure syntaxique des phrases de la
29
langue en question. Bar-Hillel émet le voeu que les linguistes saisissent l’importance et la
nécessité de produire des descriptions et théories spécifiques pour la réalisation de ce
nouveau programme. Lui-même proposera une définition opérationnelle des catégories
syntaxiques, qu’il développera dans le cadre de la grammaire catégorielle
(Bar-Hillel, 1953).
A la lumière des évolutions ultérieures des domaines de la TA et du TAL, on peut
relever deux questions fondamentales évoquées par Bar-Hillel dans ce rapport :
- Quelles connaissances issues de la linguistique sont utiles pour le projet de la TA ?
- Le projet de la TA peut-il ou doit-il être le lieu d’une recherche théorique sur le
langage ou les langues, ou bien seule une approche pragmatique peut-elle conduire à
des résultats ?
Ces deux questions sont corrélées. On vient de le voir, la position de Bar-Hillel sur le
premier point est radicale. Les connaissances accumulées à ce jour ne sont pas adéquates
pour le projet de la TA. Cette position est généralement celle des pionniers de la TA. Sur
le second point, il apparaît à la lecture de l’article que, même si Bar-Hillel s’interroge
sérieusement sur les problèmes pratiques et les solutions techniques de la TA, son regard
est d’abord celui d’un théoricien qui voit dans les recherches menées autour du problème
de la TA un enjeu théorique fort, ou au moins la possibilité d’un questionnement
théorique renouvelé. Il débute son article en présentant le projet de la TA comme
l’instanciation d’une situation classique où l’introduction d’un nouvel outil vient
renouveler une recherche théorique en suggérant des solutions techniques inédites à des
problèmes anciens. La linguistique est concernée. Après avoir fait état de certaines des
étapes qui ont été franchies vers l’objectif finalisé de la traduction automatique, Bar-
Hillel relève :
Interest in mechanical translation (MT) may arise through sheer
intellectual curiosity concerning a problem whose solution, perhaps even
attempted solutions, will in all probability provide valuable insights into
the functioning of linguistic communication. Interest may also arise from
many practical standpoints. One of these is the urgency of having foreign
language publications, mainly in the fields of science, finance, and
diplomacy, translated with high accuracy and reasonable speed.
(Bar-Hillel, 1951, p. 229)
Cette distinction de points de vue, pragmatique et théorique, clairement visible dans la
position de Bar-Hillel, est, selon Hutchins (1986), le point essentiel sur lequel se
cristallisent les oppositions au sein de la communauté de chercheurs qui se constitue
dans les premières années de la TA.
For this period (in the 1950’s and 1960’s), the most important distinctions
(for MT researchers) were between the ‘engineering’ and the
‘perfectionist’ approaches, between the empiricist and other
methodologies, and between the syntax orientation and various lexical and
word-centred approaches.
30
(Hutchins, 1986, section 3.10)
Pour illustrer les recherches menées dans les années 1950 et 1960, j’ai choisi deux
équipes de chercheurs parmi les pionniers de cette grande époque, représentant chacune
un des deux courants (Hutchins, 1986, sections 4.2 et 4.3). Comme représentants du
courant pragmatique, je présente les chercheurs de l’université de Georgetown, parce
qu’ils ont été les tenants les plus actifs de cette approche et parce que leurs recherches,
entamées dès 1952, ont conduit au système SYSTRAN, très largement utilisé de nos
jours19. Comme représentant du courant perfectionniste, je présente l’équipe de
recherche sur la TA au Massachusetts Institute of Technology, parce qu’elle a placé
d’emblée le transfert syntaxique au centre de son modèle de traduction automatique, et
parce qu’elle a développé très tôt l’idée de la déclarativité.
A l’université de Georgetown, les recherches sur la TA ont été lancées par Leon Dostert
en juin 1952 et développées en collaboration avec IBM. En janvier 1954, une première
démonstration d’une maquette expérimentale donne des résultats suffisamment
impressionnants à l’époque pour que la National Science Fundation décide de
subventionner de façon massive les recherches sur la TA à Georgetown. Une vingtaine
de chercheurs sont recrutés sur le projet. Une équipe menée par Michael Zarenach
développe une méthode dite « General Analysis Technique », rebaptisée ensuite
« Georgetown Automatic Translation » (GAT). Cette méthode est implémentée dans un
système de traduction Russe-Anglais (SERNA system) par Peter Toma en 1959, système
qui est installé à EURATOM à Ispra en Italie en 1963, et au Laboratoire National d’Oak
Ridge en 1964. Pour des raisons mal connues (on évoque des conflits entre linguistes et
programmeurs), les subventions s’arrêtent et les recherches sur la TA à Georgetown
s’interrompent. Ces deux systèmes seront utilisés, à la satisfaction des utilisateurs selon
plusieurs enquêtes réalisées sur le terrain, jusqu’à leur remplacement par SYSTRAN, à
Ispra en 1970 et à Oak Ridge en 1980.
Le système GAT était présenté par les auteurs comme constitué de plusieurs « niveaux »,
ou de plusieurs « passes » : (1) consultation du dictionnaire, analyse morphémique et
résolution des homographes, (2) analyse syntagmatique pour le repérage de
combinaisons de mots basée sur les relations d’accord, de gouvernance et d’apposition,
(3) analyse syntaxique pour le repérage des relations sujet/prédicat. Dans les faits,
l’analyse effectivement réalisée était très rudimentaire (Hutchins, 1986, section 4.2). Elle
était chargée de lever les ambiguïtés morphologiques par l’examen des catégories des
mots précédent et suivant. La méthode de développement adoptée par les concepteurs du
système était entièrement « guidée par les textes », selon un mode par essai/erreur. Les
programmes étaient testés sur un corpus particulier, étendus ou corrigés en fonction des
résultats, puis testés sur un autre corpus, et ainsi de suite. Selon (Kay, 1973), cité par
(Hutchins, 1986), le résultat fut une grammaire « monolithique » de taille et de
complexité monstrueuse, développée sans conception claire de ce que devait être une
règle grammaticale et une structure syntaxique, dans laquelle les phases d’analyse de la
phrase source et de transfert vers la langue cible étaient intriquées, rendant les évolutions
19 www.systran.fr
31
et améliorations de plus en plus difficiles à introduire. Ce constat établi par Kay en
particulier constitua une leçon pour les développements futurs, pour lesquels les notions
d’architecture et de modularité furent mises en avant. C’est ainsi que, à partir de 1964,
Peter Toma a continué ses recherches et a développé le système SYSTRAN, dans lequel la
complexité monolithique du système sera réduite grâce à la modularisation du système :
In many respects, Systran may be regarded as essentially a greatly
improved descendant of the Georgetown ‘direct translation’ system.
Linguistically there is little advance, but computationally the
improvements are considerable, resulting in the main from the
‘modularity’ of its programming design.
(Hutchins, 1986, section 12.1)
Au Massachusetts Institute of Technology, après le départ de Y. Bar-Hillel à Jérusalem
en juillet 1953, c’est Victor H. Yngve qui prend la direction du projet de recherche sur la
traduction automatique au MIT. D’emblée, il se donne comme objectif la traduction
automatique de haute qualité, et donne une orientation très théorique aux recherches.
L’effort porte sur des recherches fondamentales en linguistique, en particulier autour des
grammaires transformationnelles, à partir des travaux de Chomsky, et sur le
développement d’outils de programmation dédiés au développement en TA. Yngve
développe COMIT, le premier langage de programmation dédié à la manipulation et au
filtrage de chaînes de caractères. Selon Yngve, COMIT peut être appris assez rapidement
par les linguistes et doit leur permettre de formuler leurs idées de façon claire et concise.
Ceci doit mettre fin à situation dans laquelle les linguistes sont contraints de confier la
tâche de programmer leurs algorithmes à des informaticiens spécialistes de l’assembleur,
ce qui est très peu efficace sur le plan des résultats et très frustrant pour les deux parties.
Yngve insiste sur le principe de la séparation nette entre, d’une part, les règles et
connaissances linguistiques et, d’autre part, les algorithmes et programmes. Les règles et
connaissances abstraites sur les structures linguistiques des langues doivent être séparées
des choix de programmation particuliers adoptés dans un système de traduction
particulier donné. On l’a vu ce principe n’a pas été adopté dans le système GAT où des
règles d’analyse et de transfert étaient codées dans le coeur même du lexique. Matthews
et Rodovin conçoivent, et développent dans le langage COMIT, une méthode d’analyse
syntaxique qui identifie les constituants syntaxiques d’une phrase en entrée en cherchant
à découvrir l’enchaînement des règles de grammaires qui ont dû être appliquées pour
produire cette phrase, dans le sens des règles génératives de Chomsky. Matthews (1962)
formule de façon plus explicite ce principe d’analyse par synthèse (« analysis by
synthesis » approach). L’idée est de comparer symbole (classe grammaticale) par
symbole la séquence à analyser avec toutes les séquences de même nombre de symboles
susceptibles d’être générées par la grammaire. Les séquences qui correspondent
fournissent une analyse en constituants possible pour la phrase initiale. Cette méthode
était reconnue a priori comme inefficace, mais elle était supposée pouvoir être rendue
plus performante par l’introduction de règles et de stratégies adéquates.
32
2.2.2. L’avènement de la « computational linguistics »
Si la seconde moitié des années 1950 est une période de grand espoir de réussite de la
TA, très vite l’optimisme cède le pas à une certaine désillusion. Celle-ci naît du constat
que les progrès sont lents et que cette lenteur est due non seulement à des problèmes
matériels liés à la technologie et aux capacités des machines, mais aussi à la complexité
des problèmes linguistiques (Hutchins, 1986, section 8.2). En février 1959, après avoir
visité les laboratoires les plus importants de l’époque et interrogé les pionniers du
domaine, Bar-Hillel publie un rapport intitulé Report on the state of machine translation
in the United State and Great Britain, qui connaîtra une large diffusion après sa
publication dans la revue Advances in Computers (Bar-Hillel, 1960). L’effet de ce
rapport sur le domaine de la TA est terrible. Bar-Hillel affirme que la recherche en TA
poursuit un but inatteignable : une traduction automatique de haute qualité, équivalente à
celle d’un bon traducteur humain. Pour appuyer cette affirmation, Bar-Hillel donne
l’exemple de la phrase, désormais célèbre, « the box was in the pen ». On peut adapter la
démonstration en français avec la phrase « Jean est dans le bureau ». Pour traduire
correctement le mot bureau, il faut savoir qu’un bureau meuble n’est en général pas
capable de loger un être humain de taille normale. Un système de TA devrait donc
posséder des connaissances de type encyclopédique, ce qui paraît tout à fait irréaliste. On
a reproché à Bar-Hillel de n’avoir pas basé ses positions sur une analyse effective des
systèmes qui, en 1958, au moment où il a réalisé ses investigations, étaient en gestation
dans les équipes, ainsi que d’avoir utilisé comme seul argument théorique un exemple
qui ne constitue pas une preuve : « In general, Bar-Hillel’s opinions were not based on a
careful evaluation of the actual achievements of MT projects but they were already
formed before the review was undertaken. » (Hutchins, 1986, section 8.3). Néanmoins, il
reste qu’il régnait à l’époque un certain consensus sur le fait que la traduction
automatique de haute qualité ne devait plus être l’objectif des recherches en TA, et que
celles-ci devaient s’orienter vers la traduction assistée par ordinateur.
C’est le rapport de l’ALPAC qui, en 1966, va consacrer une rupture dans le domaine, en
condamnant les recherches qui visent la réalisation de systèmes de traduction
automatique et en préconisant d’encourager des recherches plus théoriques, rendues
possibles par l’usage des ordinateurs, sur les caractéristiques formelles des langues. En
avril 1964, l’Académie Nationale des Sciences des Etats-Unis forme le comité ALPAC
(Automatic Language Processing Advisory Commitee) en lui donnant pour mission
d’évaluer l’intérêt de continuer à financer les recherches en TA. Le comité entreprend
des études et enquêtes sur les besoins en traduction des scientifiques (principalement du
russe vers l’anglais), sur l’état de l’offre en traduction et sur ses coûts, sur la
disponibilité de traducteurs humains, sur l’évaluation de certains systèmes de traduction
automatique et sur les coûts de post-édition liés à l’utilisation de ces systèmes. La
conclusion est sans appel : la traduction automatique n’est pas une bonne solution au
problème de la traduction scientifique.
“Machine translation” presumably means going by algorithm from
machine-readable text to useful target text, without recourse to human
33
translation or editing. In this context, there has been no machine
translation of general scientific text, and none is in immediate prospect.
(ALPAC, 1966, p. 19)
Si l’ALPAC recommande dans son rapport un arrêt des subventions sur les projets de
traduction automatique, il constate que le travail réalisé dans l’optique de la traduction
automatique a eu un effet extrêmement positif sur le développement d’un type
radicalement nouveau de recherches en linguistique, stimulées par l’usage des
ordinateurs : « The advent of computational linguistics promises to work a revolution in
the study of natural languages. » (ALPAC, 1966, p. 29). Les membres du Comité
proposent d’encourager le développement de ce type de recherches, et consacrent ainsi
l’avènement d’une nouvelle discipline, la computational linguistics. D’après Martin Kay,
c’est probablement David G. Hayes, pionnier de la TA et membre du comité ALPAC,
qui a forgé ce terme, jugeant qu’il pouvait être opportun de baptiser un nouveau champ
de recherches pour tenter de détourner les subventions dont la TA allait être privée (Kay,
2002, p. xvii). Le rapport de l’ALPAC propose de dissocier radicalement les recherches
théoriques sur le langage et les applications industrielles de la traduction automatique, et
d’utiliser l’ordinateur pour renouveler les recherches sur le langage. Deux types d’usage
de l’ordinateur sont ainsi évoqués : l’ordinateur en tant qu’il permet au linguiste de
manipuler des données langagières complexes et volumineuses pour élaborer des
descriptions linguistiques ; l’ordinateur en tant qu’il oblige à la formalisation des
théories et permet leur évaluation.
Such research must make use of computers. The data we must examine in
order to find out about language is overwhelming both in quantity and in
complexity. Computers give promise of helping us control the problems
related to the tremendous volume of data, and to a lesser extent the
problems of data complexity. But we do not yet have good, easily used,
commonly known methods for having computers deal with language data.
Therefore, among the important kinds of research that need to be done and
should be supported are (1) basic developmental research in computer
methods for handling language, as tools for the linguistic scientist to use as
a help to discover and state his generalizations, and as tools to help check
proposed generalizations against data ; and (2) developmental research in
methods to allow linguistic scientist to use computers to state in detail the
complex kinds of theories (for example, grammars and theories of
meaning) they product, so that the theories can be checked in detail.
(ALPAC, 1966, p.31)
C’est le début du règne sans partage de la syntaxe et de l’analyse syntaxique automatique
dans le domaine de la computational linguistics. Dans ce contexte, le formalisme des
ATN (Augmented Transition Networks) (Woods, 1970) a une influence considérable
dans les années 1970-1980 sur les recherches dans le domaine. Un très grand nombre de
chercheurs les utilisent. Les ATN constituent l’aboutissement de recherches menées dès
le début des années 1950 par Rhodes au National Bureau of Standards sur le principe de
l’analyse syntaxique prédictive (predictive syntactic analyser) (Hutchins, 1986,
34
section 9.13). L’idée de base de Rhodes était que, étant donné dans une phrase un mot
dont on a identifié la catégorie morphosyntaxique, il est possible de prévoir avec une
certaine probabilité les catégories des mots qui le suivent. Ce principe est implémenté
sous la forme d’une analyse mot à mot gauche-droite contrôlée par une procédure last in
first out. Pour le mot courant, les actions à effectuer sont déterminées en deux temps :
d’abord vérifier si la classe du mot satisfait une prédiction faite précédemment, en
partant de la plus probable, puis soit modifier les prédictions existantes, soit ajouter une
ou plusieurs prédictions. Les prédictions sont de différents types : satisfaction immédiate
(par exemple par le mot suivant), satisfaction multiple (une même contrainte peut être
satisfaite plusieurs fois, par exemple l’accord de l’adjectif avec le nom), satisfaction
obligatoire. A la fin de la phrase, l’analyse est réussie si toutes les prédictions
obligatoires ont été satisfaites, et si tous les mots ont été inclus dans l’analyse. Ceci
impose donc des procédures de retour en arrière en cas d’échec.
Très vite, le principe de ne retenir qu’un seul chemin, le plus probable, est apparu
comme non adéquat. Les chercheurs de Harvard, qui poursuivent les recherches
entamées par Rhodes, développent la méthode multiple-path predictive syntactic
analysis, qui permet la génération de toutes les analyses possibles pour une phrase
donnée. On peut dater de cette époque le début de l’envahissement du domaine du TAL
par les forêts d’arbres syntaxiques. Les chercheurs constatent que parmi les analyses très
nombreuses produites, beaucoup ne correspondent pas à de réelles ambiguïtés et que,
parfois, la bonne analyse n’y figure pas. L’autre défaut auquel s’attaquent les chercheurs
est que la même séquence dans la même phrase pouvait être analysée un grand nombre
de fois (autant de fois qu’il y avait de chemins). Ce problème est plus ou moins réglé par
des implémentations successives.
William A. Woods invente les ATN dans le cadre de la réalisation d’une interface en
langue naturelle à une base de données sur les roches rapportées de la lune
(Woods, 1970). Deux améliorations essentielles sont apportées aux implémentations de
l’époque :
(1) Le système est récursif. Les transitions dans un réseau peuvent être étiquetées par
les noms d’autres réseaux. Il y a autant de réseaux que de type de constituants qui
peuvent apparaître dans la structure de surface d’une phrase. Si une transition dans
un de ces réseaux est étiquetée par le nom d’un autre réseau, cette transition ne sera
acceptée que s’il existe un chemin acceptable pour ce second réseau. Il s’agit donc
de réseaux de transition récursifs.
(2) Un certain nombre d’actions conditionnelles peuvent être associées à des transitions,
celles-ci étant testées quand l’arc est emprunté. Ces actions peuvent par exemple
consister à stocker des fragments d’arbres dans des registres, pour ensuite les
comparer plus tard dans l’analyse à d’autres mots ou arbres de la chaîne courante.
Ces actions peuvent aussi consister à assembler les contenus de ces registres pour
construire des représentations syntaxiques profondes, et ainsi, par exemple, produire
une analyse identique pour l’actif et le passif.
35
Ces améliorations ont permis au formalisme de Woods de vaincre beaucoup des
difficultés rencontrées lors de la conception des analyseurs avec des règles de
transformation. C’est ce qui explique que le formalisme des ATN ait occupé une place
quasi-hégémonique pendant les années 1970–1980. D’après Hutchins (1986,
section 9.13), l’enthousiasme des chercheurs pour l’approche prédictive en analyse
syntaxique s’explique non pas par ses qualités théoriques intrinsèques, puisque les ATN
n’imposent pas de restrictions formelles, mais par son intérêt pratique et calculatoire. Le
formalisme des ATN peut être utilisé pour décrire des dépendances syntaxiques assez
compliquées, de façon relativement intuitive et facile à implémenter.
Les ATN constituent d’une certaine manière un aboutissement presque
idéal de (la) tendance à l’intégration des différents niveaux de traitement.
Les ATN, en effet, peuvent être vus tout à la fois comme un outil
informatique d’analyse syntaxique, comme un langage de programmation
défini à partir du langage LISP, ou comme un formalisme permettant de
décrire des langues naturelles. Ceci est rendu possible par le fait que dans
le langage LISP les programmes et les données ont la même structure.
(Cori et Léon, p. 48–49)
2.2.3. Le « tournant déclaratif » et les grammaires d’unification
Y. Wilks (2006) voit dans le conflit entre Yngve et Chomsky, au MIT dans les années
1960, un schisme fondateur dans l’histoire du TAL. En 1960, dans le cadre de la
réalisation de son système de génération de phrases en anglais, Yngve formule son
hypothèse sur la profondeur (depth hypothesis) : alors qu’il semble n’y avoir aucune
limite en anglais à l’accumulation de constituants enchâssés s’ils sont à branchement à
droite (this is the cat that killed the rat that ate the malt…), il y a une limite supérieure
pour les branchements à gauche, et cette limite serait liée aux capacités mémorielles des
locuteurs. Or on sait que pour Chomsky l’incapacité des grammaires à états finis à
modéliser la possibilité indéfinie des enchâssements disqualifie ces formalismes pour la
description théorique des langues. Yngve affirme que les procédures de calcul des
structures syntaxiques doivent prendre en compte des contraintes de stockage qui selon
lui sont intimement corrélées aux capacités humaines de compréhension, alors que
Chomsky rejette en bloc ce type de considérations, sous le motif qu’elles relèvent de la
performance et non de la compétence. Pendant les années qui ont suivi, selon Wilks, à
cause du peu de goût de Chomsky pour la chose computationnelle et à cause des échecs
des recherches visant à réaliser des analyseurs syntaxiques transformationnels,
l’influence des linguistes dans le domaine de la Computational Linguistics est très
limitée.
Toujours selon Wilks, le schisme fondateur ne se cicatrise qu’au début des années 1980,
lorsque Gerald Gazdar devient le premier linguiste d’envergure à embrasser le
paradigme computationnel, en développant des grammaires sophistiquées, basées
principalement sur des structures en constituants, spécifiquement destinées à servir de
base à des analyseurs. Au début des années 1980, le domaine de la Computational
36
Linguistics vit une véritable révolution culturelle. M. Cori et J. Léon (2002) parlent de
« tournant déclaratif ». Le tournant déclaratif fait référence à l’émergence pendant les
années 1980 de formalismes déclaratifs (DCG, PATR II) et de théories syntaxiques
(GPSG, LFG, TAG, HSPG) développées dans des formalismes déclaratifs. Dans ces
théories, les descriptions linguistiques et les règles de grammaire sont développées de
façon indépendante des langages formels dans lesquels elles sont écrites et des
algorithmes d’analyse syntaxique qui les exploitent. On retrouve là le principe de la
séparation des données et des programmes défendu par Yngve dès 1960. Ce principe
rencontre un écho d’autant plus favorable auprès des chercheurs, linguistes en
particulier, que la philosophie procédurale des ATN, très en vogue à l’époque, laissait
peu de place à l’intervention de linguistes non programmeurs. La facilité de
développement avec le formalisme des ATN conduit à des programmes dans lesquels les
règles de grammaire et les procédures d’analyse sont complètement intriquées. Par
exemple, l’équivalence entre l’actif et le passif est directement implémentée dans des
réseaux de transitions, par des tests sur les transitions et les opérations sur les registres,
pour qu’en fin d’analyse le système produise des structures prédicat/argument identiques
pour une phrase active et la phrase passive équivalente. Au contraire, dans une
grammaire formelle, ce principe d’équivalence entre l’actif et le passif sera exprimé de
façon explicite par une règle de correspondance entre structure de surface et structure
profonde, sans prescription de procédures permettant de construire l’une à partir de
l’autre. De façon plus générale, on a reproché aux ATN de produire des programmes
difficiles à maintenir, du fait de l’intrication des règles de grammaire dans les
algorithmes, de ne pas fournir des principes généraux d’implémentation, en particulier
en ce qui concerne les conditions et les actions sur les registres, et même de n’avoir
jamais conduit à une véritable théorie linguistique20. A rebours, les promoteurs des
nouvelles grammaires formalisées partagent la conviction que le développement
d’analyseurs syntaxiques doit se baser sur des théories syntaxiques autonomes et
formellement bien définies. Cette position est bien synthétisée par P. Miller et T. Torris
dans l’introduction à leur ouvrage Formalismes syntaxiques pour le traitement
automatique des langues, publié au début des années 1990 :
L’existence d’une théorie linguistique, indépendante à la fois de son
implémentation et des analyses particulières qu’elle permet, constitue une
base nécessaire pour le développement de systèmes de TAL dépassant le
niveau de l’ad hoc. (…) Le développement d’un système de TAL pose des
problèmes vastes et complexes qu’une théorie linguistique autonome et
formellement bien définie permet de mieux distinguer. L’indépendance de
la théorie par rapport à l’implémentation et à la description des
phénomènes devrait également faciliter les changements et les corrections
nécessaires lors du développement d’un système de TAL, ainsi que la
conservation des acquis au travers des modifications
(Miller et Torris, 1990, p. 16)
20 Ce qui ne semble jamais avoir été leur objectif…
37
Les DCG (Definite Clause Grammars) (Pereira et Warren, 1980) ont sans doute été le
premier modèle revendiqué clairement comme déclaratif par ses auteurs (Cori et Léon,
2002, p. 49). Ce formalisme dérive des recherches en traduction automatique menées par
A. Colmerauer à l’université de Montréal. Colmerauer est responsable du développement
du premier prototype de système de traduction français-anglais dans l’équipe TAUM
(Traduction Automatique à l’Université de Montréal). Dans ce prototype, testé pour la
première fois en 1971, les concepteurs ont cherché à séparer strictement données et
programmes. Il a été développé à l’aide du formalisme du système-Q (Q pour Québec),
un langage de manipulation de structures d’arbres et de chaînes d’arbres développé par
Colmerauer. C’est aussi dans ce langage qu’a été programmée la première version du
système TAUM-METEO. Les recherches menées avec ce langage ont fortement
influencé la conception, par Colmerauer et ses collègues, du langage Prolog, qui allait
lui-même inspirer la communauté des chercheurs en programmation logique, et en
particulier F. Pereira et D. Warren qui inventent les DCG. Les DCG sont un formalisme
qui permet de développer de façon déclarative des systèmes de règles indépendantes,
qu’il est facile d’étendre et de modifier. Et comme leur puissance est équivalente à celle
des ATN, la déclarativité devient un argument décisif en faveur de leur supériorité (Cori
et Léon, 2002, p. 50).
Comme le souligne S. Shieber (1990), il faut distinguer les « formalismes outils » du
type des DCG ou de PATR, qui ont été développés dès l’origine dans la perspective de
réaliser des systèmes de TAL et qui donc devaient avoir une expressivité maximale, des
« formalismes proprement linguistiques », élaborés en tant que théories du savoir
linguistique, et qui visent au contraire à contraindre l’expressivité de façon à limiter
l’ensemble des phrases possibles. Ces derniers (GPSG, LFG, TAG, HSPG) proposent
des théories linguistiques en tant que telles, au sens où l’entendait Chomsky, à savoir des
modèles qui décrivent l’ensemble des phrases possibles d’une langue, avec leurs
propriétés structurales et éventuellement leur sémantique sous la forme de relations
prédicat-argument, et ce indépendamment du modèle formel dans lequel ils sont écrits et
des procédures concrètes de génération ou d’analyse. Ces théories, désignées sous le
nom générique de « grammaires d’unification », sont développées dans le cadre de
collaborations impliquant selon les cas des linguistes, des psycholinguistes, des logiciens
et des informaticiens. Je cite ici pour mémoire les formalismes les plus connus (Abeillé
et Blache, 1997) :
- GPSG (Generalized Phrase Structure Grammar) est issu des recherches du linguiste
G. Gazdar qui, en 1982, introduit dans son modèle une relation d’unification. Il
décompose les catégories en traits et exprime des principes de partage de valeurs de
traits entre syntagmes pour rendre compte de l’accord et de certaines relations
systématiques de paraphrase (Gazdar et al., 1985). HPSG (Head Driven Phrase
Structure Grammar) est un successeur de GPSG (Pollard et Sag, 1987).
- LFG (Lexical Functional Grammar) est développé par R. M. Kaplan et J. Bresnan
(1982), qui utilisent des arbres classiques pour représenter les formes de surface, et
des structures de traits pour représenter les structures profondes, avec lesquelles sont
définies les fonctions grammaticales.
38
- TAG (Tree Adjoining Grammar) est proposé par A. Joshi (1987), qui déporte la
grammaire vers le lexique, dans lequel les unités sont décrites sous la forme de
structures arborescentes élémentaires (arbres lexicalisés) enrichies par des traits,
combinées par des opérations de substitution ou d’adjonction.
L’arrivée des formalismes déclaratifs constitue une révolution dans le domaine du TAL
puisqu’elle donne aux linguistes une place de choix dans le nouveau paysage des
recherches, en permettant (imposant) une redistribution des rôles entre linguistes et
informaticiens. Ce nouveau partage des tâches reflète le principe de la séparation des
données et des programmes dans les systèmes : aux linguistes la tâche de développer les
grammaires et descriptions linguistiques (formelles), selon le formalisme théorique
choisi ; aux informaticiens celle de mettre aux points les algorithmes et procédures qui
mettront en musique ces descriptions. Le retour en force et l’implication nouvelle des
linguistes dans l’arène du TAL, pour productive qu’elle soit, se réalise selon un mode de
partage des tâches qui finalement entraîne ceux-ci et avec eux une partie de la
computational linguistics vers des problématiques théoriques, et les éloigne des
applications concrètes, ce que regrettent Cori et Léon :
Cette évolution vers des modèles déclaratifs a les plus grandes
conséquences sur l’unité du TAL. Les acteurs, en effet, sont incités à se
replier sur une spécialité donnée : les uns sur la description des données
linguistiques, d’autres sur l’écriture de modèles, d’autres enfin sur la mise
au point d’algorithmes. On peut dire que réapparaissent sous la forme de
lignes de fracture les frontières entre les disciplines dont les apports variés
ont permis que soit fondé le TAL en tant que domaine. Seuls peuvent se
réclamer sans équivoque du domaine les ingénieurs qui réalisent des
applications industrielles et qui, donc, ont simultanément besoin des
algorithmes et de la description des données. Alors même qu’en adoptant
des modèles déclaratifs le TAL cherche à s’imposer des critères de
rigueur, il tend du même coup à rendre impossible sa constitution comme
discipline scientifique.
(Cori et Léon, 2002, p. 50)
2.2.4. Le Natural Language Processing
Pendant les années 1980, le paysage des recherches en TAL se caractérise donc d’abord
par le recentrage d’une partie de la communauté vers des problématiques théoriques : du
côté de la linguistique, autour de l’élaboration de théories et de grammaires formelles,
destinées au TAL, mais surtout fécondes pour l’analyse du langage ; du côté de
l’informatique, sur la mise au point d’algorithmes, de structures et modèles de données
et de langages, utiles pour le TAL mais pouvant avoir aussi une vocation plus générale.
Pendant cette période, le paysage du TAL est grandement remodelé avec l’implication
des chercheurs en Intelligence Artificielle (IA), discipline qui se donne parmi ses
objectifs fondamentaux la description des mécanismes de la compréhension du langage
naturel. Ces chercheurs investissent le terrain de l’analyse du langage avec des
39
problématiques et des méthodes qui diffèrent radicalement de celles des pionniers de la
TA et des tenants des grammaires d’unification. En particulier, alors que la syntaxe a
toujours été considérée comme devant occuper une place centrale dans les recherches et
les applications en TAL, tous les chercheurs en IA ne partagent pas le point de vue de la
nécessité et de l’importance d’un module syntaxique dans les modèles théoriques de la
compréhension, et encore moins dans les applications de simulation de la compréhension
du langage naturel. Pour tester l’hypothèse d’une analogie entre le cerveau et
l’ordinateur, les informaticiens chercheurs en IA focalisent leurs recherches sur la
réalisation de systèmes « intelligents » qui simulent partiellement les processus de
compréhension, c’est-à-dire de systèmes informatiques qui exécutent des tâches qui,
quand elles sont réalisées par des humains, sont réputées solliciter des capacités de
maîtrise du langage. Les premières réalisations sont des systèmes de simulation intégrés
dans des applications « jouets ». Puis, au cours des années 1980, les chercheurs de l’IA
délaissent progressivement la réalisation de systèmes jouets, pour s’attaquer à la mise au
point de systèmes informatiques, incluant des ressources et des traitements linguistiques,
utiles dans des contextes réels. Pour illustrer cette évolution, qui allait conduire au
Natural Language Processing (NLP), je décris deux systèmes pionniers, SHRDLU et
PARRY, réalisés au début des années 1970, puis deux systèmes industriels, opérationnels
à la fin des années 1980, CONSTRUE et ATRANS21.
- Le système SHRDLU est réalisé par Terry Winograd pendant sa thèse au MIT
(Winograd, 1972). C’est un système de dialogue qui permet à un opérateur humain
de piloter à l’aide d’instructions données en anglais une grue pouvant manipuler et
déplacer des blocs de taille et de couleur variées. Le système est très sophistiqué. Il
inclut en particulier l’implémentation d’une grammaire inspirée des travaux de
Halliday dans un langage procédural, ainsi qu’une méthode pour construire
automatiquement les conditions de vérité exprimant le contenu sémantique d’un
énoncé et pour les confronter à l’état du monde, c’est-à-dire la position courante des
blocs. Il s’agit d’un monde très restreint où toutes les actions possibles sont connues.
Le système n’est capable de traiter qu’une poignée de phrases, comme c’est la
norme pour les systèmes de ce type qui vont voir le jour à cette époque.
- Le système PARRY est réalisé par Kenneth M. Colby à Stanford (Colby, 1973). C’est
aussi un système de dialogue, qui permet de mener une conversation avec un
soi-disant malade paranoïaque interné dans un hôpital de vétérans. Le système est
très robuste. Il n’est doté d’aucune grammaire ou analyseur, mais il est constitué
d’un ensemble d’environ 6 000 patrons qui lui permettent de réagir aux énoncés de
ces interlocuteurs, de façon suffisamment réaliste pour que ceux-ci soient
convaincus la plupart du temps d’avoir affaire à un vrai malade.
21 Les deux premiers sont ceux que Y. Wilks choisit de décrire dans l’introduction de son article History of
Computational Linguistics de la seconde version de l’Encyclopedia of language and linguistics (2006), et les
deux autres sont ceux que Philip J. Hayes décrit en détail dans l’article Natural Language Processing :
Applications de la première version de cette même encyclopédie (Hayes, 1994).
40
- Le système CONSTRUE (Hayes et al., 1987) est développé au Carnegie Group Inc
pour l’agence Reuters. C’est un système qui classe automatiquement un flux de
dépêches de presse économiques ou financières dans une ou plusieurs catégories
d’un ensemble de 674 catégories prédéfinies. CONSTRUE utilise des techniques de
pattern-matching et des règles d’appariement pondérées pour identifier dans les
dépêches des mots ou séquences de mots qu’il associe avec une certaine pondération
aux thèmes ou concepts d’une base de connaissance du domaine. Il exploite ensuite
des règles de classification de type si–alors qui tiennent compte des concepts
activés, des parties de textes où figurent les mots activateurs, ainsi que des poids
d’activation, pour affecter la dépêche analysée à une ou plusieurs catégories. Les
règles et la base de connaissances exploitées par le système sont totalement
dépendantes du domaine. Le coût de leur construction est estimé à une
année-homme par P. J. Hayes.
- Le système ATRANS (Lytinen et Gershman, 1986) est développé par la société
Cognitive Systems pour la Société Générale de Banque de la Belgique. C’est un
système d’extraction de faits (fact extraction, on ne dit pas encore information
extraction) qui traite des télex concernant des opérations de transfert d’argent, et
extrait de ces dépêches des informations pertinentes (les banques, leur rôle dans
l’opération de transfert, les montant, dates, etc.). Les résultats sont validés par un
opérateur humain. Les techniques utilisées dans ATRANS sont basées sur le
formalisme de la dépendance conceptuelle développé par R. Schank (Schank, 1975),
fondateur de Cognitive Systems. Etant donné le style très particulier des dépêches et
la focalisation de l’analyse sur l’extraction d’informations de type prédéfini, le
système n’inclut pas de module standard d’analyse syntaxique, l’extraction est
guidée par la « sémantique » du domaine et de la tâche.
A la fin des années 1980 émerge ainsi, dans le champ du TAL, un nouveau paradigme,
en anglais le Natural Language Processing (NLP). Dans ce paradigme, les recherches
sont guidées par les applications, et non par l’objectif d’une meilleure compréhension du
langage humain. En ce sens, le NLP n’est pas un programme d’investigation
scientifique, contrairement à la Computational Linguistics qui continue à revendiquer
l’objectif d’une description théorique des langues. Ce paradigme s’est développé de
façon d’autant plus foudroyante que le développement de la microinformatique, l’essor
de la documentation électronique et l’arrivée d’Internet ont fait émerger des besoins
nouveaux et ont généré une demande sociale forte. Les applications du NLP sont bien
connues : extraction d’informations, classification de documents, résumés de documents.
Ces applications s’ajoutent aux applications historiques que sont la traduction
automatique pour le TAL et la recherche d’informations pour l’informatique
documentaire. Les recherches sont encouragées non seulement par la demande sociale,
mais aussi et surtout par les campagnes d’évaluation lancées par l’agence DARPA
(Defense Advanced Research Projects Agency), du Département de la Défense des Etats-
Unis, qui ont contribué à façonner le paysage de la recherche en TAL, au moins aux
Etats-Unis.
41
Dans la philosophie du NLP, il convient de faire feu de tout bois dans la recherche des
résultats attendus. Il s’agit de mettre en oeuvre de façon optimale les techniques et les
ressources nécessaires pour atteindre un objectif donné, avec autant que possible le souci
constant d’ajuster les coûts d’élaboration des systèmes aux gains escomptés lors de leur
utilisation dans des contextes réels. Comme on le voit dans les exemples illustratifs
ci-dessus, les systèmes se distinguent les uns des autres selon le type de traitements
linguistiques qu’ils opérationnalisent et selon le type et le volumes des connaissances
qu’ils mettent en oeuvre. Certaines applications se contentent de méthodes d’extraction
simples et robustes, alors que d’autres requièrent une phase d’analyse linguistique
détaillée. Concernant l’analyse syntaxique, même dans les cas où une analyse du contenu
est nécessaire, la syntaxe n’est pas mise nécessairement de façon primordiale au centre
du dispositif. Un certain nombre de chercheurs ont travaillé sur l’hypothèse que la
structure sémantique était première, et (relativement) indépendante de la structure
syntaxique, dès lors que l’on s’intéressait à la détermination du contenu informatif des
énoncés. On peut citer le système des dépendances conceptuelles de Schank (1975) et
celui des préférences sémantiques de Wilks (Wilks et Fass, 1992), tous les deux inspirés
de la grammaire des cas de Fillmore (1968). Une autre ligne d’opposition concerne les
connaissances sur le domaine. Certaines applications sont peu exigeantes en
connaissances sur le domaine, alors que d’autres requièrent la construction de bases de
connaissances très riches sur le domaine et sur la tâche. Et le principal problème auquel
se sont heurtées les recherches en IA à la fin des années 1990 est celui du goulet
d’étranglement que constitue la tâche de modélisation des connaissances à intégrer dans
les systèmes devant effectuer des tâches complexes dans des domaines où ces
connaissances ne se formalisent pas de façon immédiate. L’activité d’acquisition des
connaissances pour les systèmes à base de connaissances est devenue un thème de
recherche en soi autour duquel se sont articulées des recherches issues de différentes
disciplines et elle a donné lieu à la réflexion sur des systèmes experts de deuxième
génération (David et al., 1993). C’est dans cette mouvance que j’ai entrepris mes
recherches sur LEXTER et sur l’acquisition des connaissances à partir de textes
(cf. Chapitre 1).
Le problème du coût de construction manuelle des systèmes de TAL allait trouver des
solutions avec l’explosion, dans les années 1990, du TAL dit « empirique » ou
« statistique », qui se caractérise par l’arrivée en force et la généralisation des méthodes
statistiques ou numériques dans quasiment tous les secteurs d’investigation du TAL. En
particulier, l’utilisation de méthodes d’apprentissage automatique sur des données
annotées à la main s’est révélée extrêmement féconde pour passer le goulet
d’étranglement dans certaines applications, entre autres pour les systèmes d’extraction
d’information (Maning et Schütze, 1999 ; p. 19). Selon Wilks (2006), l’élan a été donné
à l’origine par Fred Jelinek à IBM, qui met en place un programme de recherche en
traduction automatique (Brown et al., 1990), dans lequel les méthodes statistiques qui
avaient été appliquées avec succès à la reconnaissance de la parole sont testées avec non
moins de succès en traduction automatique. Il s’agit par exemple de techniques
d’apprentissage automatique lancées sur le corpus bilingue anglais/français du Hansard.
On peut faire remonter l’origine de l’apprentissage automatique en TAL aux travaux de
42
Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur
morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus
annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement
exponentiel des capacités des machines et la multiplication des ressources textuelles
électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à
toutes les tâches du TAL.
Concernant l’analyse syntaxique automatique, toute une série de travaux convergent vers
la construction automatique de grammaires hors contextes probabilistes à partir de
l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des
grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de
dérivation. Ces probabilités sont calculées à partir de corpus annotés syntaxiquement,
presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir
parmi les multiples analyses d’une phrase fournies par l’analyseur quelles sont celles qui
ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres
11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse
syntaxique automatique.
2.3. Travaux en analyse syntaxique robuste
2.3.1. La robustesse en analyse syntaxique
Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce
chapitre à une revue de travaux en analyse syntaxique robuste. L’analyse syntaxique
robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive
dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la
mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les
deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL
depuis 50 ans. Dès les débuts de la TA, on a fabriqué des analyseurs syntaxiques, et si le
problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était
acquis que les analyseurs devaient fournir une analyse syntaxique la plus complète, la
plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept
de robustesse en analyse syntaxique peut s’expliquer par deux facteurs concomitants :
l’échec rencontré par les approches théorisantes en syntaxe à produire des analyseurs
utiles, et la pression de la demande sociale liée au développement des nouvelles
technologies de l’information. Les années 1980 voient l’arrivée des grammaires
d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a
conduit à l’élaboration de théories syntaxiques très fécondes, qui ont contribué à une
meilleure description des langues. Mais il est apparu que cet objectif théorique était
difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’analyseurs
syntaxiques utilisables dans des contextes applicatifs. Les limites des analyseurs
s’appuyant sur les descriptions formelles développées par ces théories sont connues :
temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites
43
en performance ne remettent pas nécessairement en cause les programmes de recherche à
la base de ces analyseurs. Il faut garder à l’esprit que le paradigme formel et celui de
l’analyse syntaxique robuste relèvent de positions épistémologiques fondamentalement
différentes : visée clairement théorisante d’un côté, objectifs prioritairement pratiques de
l’autre. Une grammaire formelle peut être vue comme une théorie de la langue au sens
de Chomsky, un analyseur syntaxique opérationnel peut être vu comme un objet
technique, au sens de Gilbert Simondon dans sa philosophie des techniques, comme je le
défendrai à la fin du chapitre 3.
Du côté des applications, la pression de la demande sociale pour des outils de traitement
de l’information s’est intensifiée avec le développement de la bureautique et
l’accroissement exponentiel de la documentation électronique. Des outils de TAL
robuste(s) sont requis comme composants des applications informatiques visant à gérer,
traduire, classer, fouiller, interroger ces sources électroniques, nécessaires et accessibles
dans une grande diversité d’activités humaines. Néanmoins, il ne faudrait pas surestimer
l’importance et la nouveauté d’un tel phénomène. Pour les recherches en TAL, la
pression de la demande sociale a toujours existé. Le TAL est né de cette pression, quand
des esprits inventifs ont imaginé que les nouveaux calculateurs pourraient résoudre les
immenses problèmes de la traduction à la fin des années 1940. Dans les années 1990, et
dans le domaine de l’analyse syntaxique automatique, c’est donc le décalage entre les
résultats produits par les approches dominantes en analyse syntaxique automatique et la
demande en outils utilisables qui a conduit à l’émergence de la notion de robustesse pour
caractériser les travaux de plus en plus nombreux développés en dehors du paradigme
des grammaires formelles.
Pour préciser la notion de robustesse, je reprends la caractérisation proposée par Salah
Aït-Mokhtar, Jean-Pierre Chanod et Claude Roux dans leur article publié en 2002 dans
le numéro spécial de la revue Natural Language Engineering sur les méthodes robustes
en Traitement Automatique des Langues :
We think of robustness as the ability of a language analyzer to provide
useful analyses for real-world input texts. By useful analyses, we mean
analyses that are (at least partially) correct and usable in some automatic
task or application. That definition implies two requirements: first, a
robust system should product (at least) one analysis for any real-world
input. (…) A robust system should also limit the number of concurrent
analyses it produces or a least give indications on which are the preferred
ones.
(Aït-Mokhtar et al., 2002, p. 122–123)
Cette définition résume l’ironie pour les tenants d’une approche pratique en Traitement
Automatique des Langues de devoir forger un concept spécifique pour caractériser leurs
analyseurs en reprenant les termes même de leur cahier des charges. Le concept de
robustesse s’efface devant celui d’utilité, qui est le concept fondamental. Dès lors qu’on
ne poursuit pas l’objectif théorique d’une meilleure connaissance des langues, il s’agit de
faire des analyseurs syntaxiques utiles, c’est-à-dire des analyseurs capables de produire
dans des temps raisonnables, pour toute séquence fournie en entrée, une analyse la plus
44
complète et la plus juste possible, qui soit utilisable pour une gamme d’applications
spécifiées.
Aït-Mokhtar et al. (2002) identifient trois grands courants nouveaux à partir des années
1990 visant la robustesse en analyse syntaxique automatique. Le premier courant
cherche à étendre des systèmes classiques basés sur des modèles théoriques avec des
procédures, heuristiques et mécanismes visant à récupérer des analyses partielles quand
le système a échoué à analyser la phrase entière, et à trier ou sélectionner les meilleures
analyses quand le système en a produit un grand nombre. La deuxième approche est
celle de l’analyse syntaxique statistique, où les systèmes sont constitués de règles qui ont
été apprises automatiquement à partir de corpus annotés syntaxiquement. La troisième
voie est celle de l’analyse syntaxique superficielle, dans laquelle on revoit à la baisse les
ambitions des analyseurs pour réaliser des systèmes qui reconnaissent des structures
syntaxiques minimales.
Au-delà de ces approches contemporaines, il est possible d’identifier et de rassembler
une famille de travaux, dont les premiers datent des débuts de la TA, qui, en dehors de
toute visée théorique, se fixent comme objectif de développer des analyseurs
syntaxiques, à base de règles de reconnaissance opératoires, utiles pour certaines
applications. Ces travaux sont moins nombreux, et plus isolés, car souvent menés dans le
cadre d’entreprises personnelles et autonomes. Parce qu’ils ne s’inscrivent pas dans une
approche ou une école de pensée académique identifiée et structurée, avec ses leaders et
ses conférences, ils sont peu visibles, et quand ils sont aperçus, ils peuvent être taxés de
n’être que du « bricolage » ou de relever de l’« ingénierie ». En sélectionnant les travaux
présentés dans cette section, j’ai cherché à établir une lignée dans laquelle s’inscrit mon
propre analyseur. J’ai voulu assurer une certaine profondeur historique, en choisissant
des travaux anciens mais qui s’inscrivent dans la veine actuelle de l’analyse robuste, j’ai
donné un petit coup de projecteur à des travaux menés en France, et j’ai privilégié des
auteurs qui, au-delà des réalisations effectives, ont tenté de problématiser leur approche
en analyse syntaxique.
Je présente successivement les travaux suivants :
- L’analyseur FULCRUM de P. S. Garvin (section 2.3.2)
- L’analyseur du projet TDAP (section 2.3.3)
- L’analyseur de F. Debili (section 2.3.4)
- Le projet PLNLP (section 2.3.5)
- L’analyse par chunks de S. Abney (section 2.3.6)
- L’analyseur 98 de J. Vergne (section 2.3.7)
- L’analyse syntaxique robuste selon J. -P. Chanod (section 2.3.8)
45
2.3.2. L’analyseur FULCRUM de P. S. Garvin
Paul S. Garvin commence ses recherches, dans les années 1950, à l’université de
Georgetown, au sein de l’équipe qui travaille sur le développement du système de
traduction automatique GAT (section 2.2), et il les poursuit au sein de Ramo-Wooldridge
Corporation, toujours dans le cadre de la traduction automatique, entreprise dont il prend
la direction en mars 1960. Il développe une méthode d’analyse syntaxique, dite Fulcrum
method. Dans l’article qu’il présente lors de la deuxième conférence internationale sur le
Traitement Automatique des Langues, à Grenoble en août 1967 (Garvin, 1967), Paul
Garvin présente l’analyseur syntaxique FULCRUM pour le russe, qui possède la
caractéristique essentielle d’être un système bipartite, constitué d’un dictionnaire et d’un
algorithme. Le dictionnaire recense de façon classique les formes avec leurs catégories
potentielles, et l’algorithme ordonne des règles de reconnaissance de patrons
linguistiques dans différentes parties de la phrase pour identifier les structures
syntaxiques. En cela, le système FULCRUM se démarque de la majorité des systèmes de
traduction développés à l’époque, dans lesquels, selon le principe de séparation cher à
Yngve (section 2.2.1), les règles de grammaire étaient séparées des algorithmes
d’analyses. Ces systèmes étaient tripartites, composés d’un dictionnaire électronique,
d’une base de règles grammaticales et sémantiques, et d’un algorithme d’analyse. Les
arguments pour une telle séparation étaient la possibilité d’un partage des tâches entre
les linguistes, qui se concentrent sur la mise au point de règles de grammaire, et les
informaticiens, qui eux planchent sur la conception d’algorithmes performants, ainsi
qu’une meilleure maintenabilité. Selon Garvin, ce cloisonnement n’est viable que tant
qu’il y a indépendance entre les règles et les algorithmes, et donc qu’il est possible de
modifier ou d’ajouter des règles sans qu’il soit nécessaire de modifier l’algorithme. Or ce
n’est plus le cas dès que le nombre de règles augmente et que la grammaire atteint une
taille réaliste. La base de règles ne peut plus être gérée par un algorithme simple. Soit il
faut adapter l’algorithme à la base de règles, et l’algorithme perd toute généralité, soit il
faut un algorithme secondaire servant d’interface entre l’algorithme général et la base de
règles. Dans les deux cas, l’indépendance n’existe plus, et les avantages apportés par la
séparation sont illusoires. C’est pourquoi Garvin opte pour un système bipartite.
Les deux concepts essentiels de la méthode sont les suivants :
- La méthode par passes. Une phrase est traitée en plusieurs passes, à chaque passe
sont identifiées un certain nombre de relations syntaxiques grâce à la reconnaissance
de patrons grammaticaux. Les passes se succèdent de telle façon que soient
reconnus d’abord les constituants syntaxiques de la phrase, puis les relations entre
ces constituants, et enfin la structure générale de la phrase. Les règles de
reconnaissance sont appliquées par l’algorithme dans un ordre tel que chacune est
testée au moment où les informations grammaticales nécessaires sont disponibles
(les étiquettes et relations posées lors des passes précédentes).
46
- Le concept de « fulcrum ». Pour une fonction de recherche donnée (par exemple le
rattachement des adverbes à des adjectifs), les « fulcra22 » sont les mots pivots à
partir desquels est lancée une analyse locale portant sur les mots voisins dans la
phrase pour placer une relation de dépendance syntaxique. A chaque passe, le
système ne traite donc pas tous les mots de la phrase successivement de gauche à
droite (ou de droite à gauche), mais « saute » de mot pivot en mot pivot en
effectuant à chaque fois une analyse locale.
Dans un tel système bipartite, les connaissances linguistiques sur la grammaire de la
langue sont contenues dans l’algorithme :
This means that the highly complex system of rules that makes up the real
grammar of a language is distributed over a correspondingly complex
algorithm which applies the rules in terms of the ordering that the
language requires.
(Garvin, 1967, p. 1)
2.3.3. L’analyseur du projet TDAP
Entre juin 1958 et juillet 1959, au sein du projet Transformations and Discourse
Analysis Project (TDAP) dirigé par Zellig S. Harris à l’université de Pennsylvania, un
analyseur syntaxique de l’anglais est conçu et développé par une équipe composée de
L. Gleitman, A. Joshi, B. Kauffman et N. Sager, rejoints plus tard par Caroll Chomsky.
Ces recherches ont été menées en marge du courant des recherches en traduction
automatique. Cet analyseur a été réécrit au milieu des années 1990 par A. Joshi et
P. Hopely (Joshi & Hopely, 1996, 1999) à partir de la documentation de l’époque.
L’analyseur est implémenté comme une cascade de transducteurs. Selon Joshi et Hopely,
il s’agit de la première application des transducteurs à états finis à l’analyse syntaxique.
L’analyse se déroule en 7 passes successives.
1. Analyse morphologique. A partir de la consultation d’un dictionnaire, le système
attribue une ou plusieurs étiquettes grammaticales aux mots de la phrase. Dans le
dictionnaire, les catégories affectées à une forme sont classées par ordre de
fréquence décroissante.
2. Traitement des locutions grammaticales. Certaines locutions grammaticales sont
remplacées par une étiquette grammaticale ; par exemple of course est remplacée
par l’étiquette d’adverbe.
3. Désambiguïsation morphologique. Elle est effectuée à l’aide de 14 règles de
désambiguïsation, qui ont pour fonction d’éliminer des étiquettes affectées aux mots
ambigus et qui s’appuient sur les contextes droit et gauche. Les règles s’enchaînent
et le processus se répète jusqu’à ce que plus aucune désambiguïsation ne soit
effectuée. Il peut subsister des mots non désambiguïsés.
22 Fulcrum désigne en anglais le pivot d’un levier, ou le couteau d’une balance.
47
4. Repérage des groupes nominaux simples (« simple noun phrases »). Ce repérage est
effectué par deux transducteurs à états finis, un premier qui parcourt la phrase de
droite à gauche, et qui repère les groupes nominaux à partir d’une limite finale sûre
(nom ou pronom), puis un second de gauche à droite, et qui repère les groupes
nominaux à partir d’une limite initiale sûre (article). Les catégories admises par le
premier transducteur sont nom, adjectif et article. Le transducteur parcourt le graphe
jusqu’à un point de sortie, en adoptant la stratégie du chemin le plus long. En
particulier, s’il rencontre un mot ambigu, il choisit l’étiquette qui lui permet de
continuer le chemin. C’est ainsi que certaines ambiguïtés sont résolues à ce stade.
De la même façon, si le transducteur rencontre une conjonction de coordination, il
l’absorbe si cela lui permet de continuer le chemin. Le second transducteur repère
les groupes nominaux élémentaires qui commencent par un article. Les groupes
nominaux reconnus à cette étape sont placés entre crochets (Exemples : [the rich
man], [increased production]).
5. Repérage des adjoints simples (« simple adjuncts »). Un transducteur gauche droite
repère les groupes prépositionnels ou adverbiaux simples. Dans l’exemple « in
increased production », le tranducteur peut repérer à in le début d’un groupe
prépositionnel parce que le transducteur droite gauche de la passe précédente a
d’abord reconnu le groupe nominal qui commence juste après la préposition. Les
auteurs soulignent que c’est tout l’intérêt d’une architecture séquentielle enchaînant
les transducteurs que de rendre facile la reconnaissance des groupes syntaxiques.
Les groupes reconnus à cette étape sont placés entre parenthèses (Exemples : (very
clearly), (rapidly), (to date), (in [increased production])).
6. Repérage des noyaux verbaux simples (« verb clusters »). Un transducteur à états
finis gauche droite repère des noyaux verbaux, n’incluant que des compléments
verbaux, ainsi que des adjoints simples reconnus lors de la phase précédente. Les
groupes reconnus à cette étape sont placés entre accolades (Exemples : {went}, {has
gone fishing}, {may have been (already) published}, {have been observed and
reported to be}, {wants to leave}, et {wants} [the man] (from [Philadelphia]) {to
leave}).
7. Repérage des propositions. Toutes les structures repérées dans les phases
précédentes sont dites de premier ordre, car non enchâssées (nested). Au cours de la
phase de repérage des propositions, les structures repérées peuvent être enchâssées.
Le repérage de propositions se fait grâce à l’application itérative d’un transducteur
gauche droite qui commence sa recherche par les propositions les plus
profondément enchâssées. Au cours de la reconnaissance d’une proposition, les
adjoints sont soit sautés, soit considérés comme compléments. Des informations de
sous-catégorisation sont exploitées. La stratégie du complément le plus long est
adoptée, et le rattachement se fait au verbe le plus proche.
Joshi et Hopely expliquent que les transducteurs utilisés dans les phases 1 à 6 ont été
rendus déterministes grâce au choix de l’ordre d’enchaînement des transducteurs et de
leur sens de parcours (gauche droite ou droite gauche), et grâce à l’adoption de la
stratégie du plus long chemin. Dans le cadre du projet TDAP, l’analyseur a été
48
développé à l’origine pour être utilisé dans diverses tâches applicatives, dont le résumé
automatique d’articles scientifiques. Les phrases analysées sont des phrases réelles,
extraites de textes de biochimie. Ce programme est le précurseur du programme de la
grammaire de chaînes que développera N. Sager à l’université de New-York (Sager,
1970), qui donnera lieu aux analyseurs développés par R. Grishman et L. Hirschman.
2.3.4. L’analyseur de F. Debili
Fathi Debili soutient sa thèse intitulée Analyse syntaxico-sémantique fondée une
acquisition de relations lexicales-sémantiques en janvier 1982. Il a mené sa recherche
dans une équipe animée par A. Andreewsky, et dont les travaux en Traitement
Automatique des Langues sont orientés vers la recherche documentaire dans des bases
textuelles (de type juridique essentiellement). F. Debili s’intéresse plus précisément à la
détection de la paraphrase. A la question « Qui nomme le premier ministre ? », un
système documentaire devrait fournir des documents contenant les phrases « Le premier
ministre est nommé par le président de la république. » ou « La nomination du premier
ministre par le président de la république a été (…) ». L’analyseur syntaxique développé
par F. Debili est un analyseur en dépendance, qui s’appuie sur les résultats d’un
étiqueteur morphologique. Le système exploite de façon massive un principe que j’ai
qualifié d’apprentissage endogène, dix ans plus tard lors de la conception de LEXTER
(Chap. 1, section 1.2). Le système est constitué de 3 composantes, morphologique,
syntaxique, sémantique. La composante morphologique repose sur un découpage des
mots étiquetés du corpus en préfixe + radical + suffixe et a pour fonction de regrouper
les mots du corpus en familles morphologiques. La composante syntaxique segmente
d’abord la phrase en chaînes nominales et verbales, puis construit toutes les relations de
dépendance potentielles entre les mots. La composante sémantique a pour fonction de
résoudre les ambiguïtés de rattachement laissées par le module syntaxique, à l’aide d’un
raisonnement par analogie. Par exemple (Debili, 1982, p. 5), dans la phrase « La
nomination par le ministre des membres du conseil supérieur … », la composante
syntaxique a identifié 2 gouverneurs potentiels pour le nom membres : les noms ministre
et nomination. Si le corpus comprend la phrase « Les membres du conseil supérieur sont
nommés … », et si la composante morphologique a acquis le lien morphologique entre
nomination et nommer, et si la composante syntaxique a identifié sans ambiguïté la
relation sujet entre le nom membres et le verbe nommer au passif, alors la composante
sémantique va lever l’ambiguïté dans la première phrase en choisissant le nom
nomination comme gouverneur de membres. C’est ce principe de désambiguïsation
endogène qui fait la principale originalité du système de F. Debili. Le système prend en
entrée un corpus de phrases, supposé être suffisamment homogène sur le plan des
caractéristiques lexico-syntaxiques pour que des propriétés morphosyntaxiques des mots
considérés comme types soient acquises sur l’ensemble de ce corpus et propagées
rétrospectivement lors de passes ultérieures à l’ensemble des occurrences de ces types.
Dans le module syntaxique, le traitement se déroule en deux étapes : une étape de
segmentation, une étape de mise en relation. Lors de la première étape, le système
49
effectue le découpage de la phrase en « chaînes nominales » et « chaînes verbales ». Les
exemples donnés ci-dessous donnent une idée du type de résultat produit par le
découpage (CN : chaîne nominale, CV : chaîne verbale, X : élément autre).
/CN1 Ces dispositions /CV1 ne sont pas opposables /CN2 aux personnes /X
qui /CV2 auront déposé /CN3 une demande de permis de construire /
/CN1 Les faces directement accessibles des conduits adossés à un mur
extérieur /CV1 doivent avoir /CN2 une isolation suffisante /X pour que
/CN3 le refroidissement /CV2 ne contrarie pas /CN 4 le tirage.
La description de ce qu’est une chaîne nominale est donnée sous la forme d’une matrice
de reconnaissance dont les lignes et les colonnes sont des filtres catégoriels élémentaires.
Ceux-ci ont pour fonction de reconnaître les éléments qui peuvent faire partie d’une
chaîne nominale (substantifs, adjectifs antéposés, adjectifs postposés, préposition de et à,
articles, verbe infinitif…). La valeur d’une cellule de cette matrice renseigne sur la
possibilité qu’un mot dont la catégorie est donnée par la ligne soit suivi d’un mot dont la
catégorie est donnée par la colonne. Dans cette matrice, sont indiquées aussi les
catégories possibles de début et de fin de chaîne. Cette matrice est donc la représentation
d’un automate à états finis, qui reconnaît les chaînes nominales. Il existe aussi une
matrice de reconnaissance des chaînes verbales bâtie sur le même principe.
Lors de la seconde étape de l’analyse syntaxique, le système identifie les relations de
dépendance potentielles entre les mots de la phrase. F. Debili distingue deux types de
relations : les relations homo-syntagmatiques, qui s’établissent entre des mots
appartenant à une même chaîne nominale ou verbale, et les relations
hétéro-syntagmatiques, qui s’établissent entre un mot appartenant à une chaîne nominale
et un mot appartenant à une chaîne verbale. Les principales relations
homo-syntagmatiques repérées au sein des chaînes nominales sont les relations entre un
nom et un adjectif postposé, et entre un nom et une préposition. Les procédures de
reconnaissance de ces relations sont définies sous la forme de filtres syntaxiques qui
spécifient des contraintes, en terme de catégories et de succession de catégories, sur la
séquence de mots qui peut se trouver entre un nom régisseur et un adjectif postposé, et
entre une préposition et un nom régisseur. Par exemple, pour la relation Nom-Adjectif
postposé, une de ces contraintes est qu’on ne peut trouver entre un nom et un adjectif de
prépositions autres que de, à et en, ni de séquences participe passé + préposition. Dans la
chaîne nominale « dispositif de surveillance par détecteur à ionisation autonome », le
système va identifier deux relations de dépendances à partir de l’adjectif postposé
autonome, l’une qui pointe vers le nom ionisation et l’autre vers le nom détecteur. Les
noms dispositif et surveillance ne seront pas reconnus comme régisseurs potentiels, car il
se situent au-delà de la barrière qu’est la préposition par.
Les principales relations hétéro-syntagmatiques sont les relations sujet, complément
d’objet et complément d’objet indirect. L’algorithme de reconnaissance du sujet d’un
verbe choisit le nom ou le pronom libre, c’est-à-dire non régi par un autre élément, le
plus proche à gauche du verbe. Il n’y pas de restriction sur le champ d’investigation,
c’est-à-dire pas de contraintes négatives, en terme de barrières, sur la séquence
50
séparative. L’algorithme de reconnaissance du complément d’objet d’un verbe choisit le
nom libre le plus proche à droite du verbe. Les barrières sont les chaînes verbales à la
forme active, les conjonctions de subordination ou de coordination, les ponctuations, les
pronoms sujets. Concernant la relation entre un verbe et une chaîne nominale introduite
par une préposition (complément prépositionnel), il est à noter que F. Debilli ne traite
que les cas où le verbe est au passif. Il laisse donc de côté les configurations où un verbe
à l’actif est suivi d’un complément direct, puis d’un groupe prépositionnel, qui sont
pourtant les configurations prototypiques de l’ambiguïté de rattachement prépositionnel
mettant en jeu un verbe conjugué.
Les règles d’analyse syntaxique sont donc implémentées sous forme d’automates à états
finis qui décrivent les parcours possibles entre un élément régisseur (resp. régi) et un
élément régi (resp. régisseur), en terme de successions licites ou illicites de catégories
morphosyntaxiques. F. Debili ne donne pas de précision dans sa thèse sur
l’ordonnancement des traitements, en particulier sur l’ordre d’enchaînement des
algorithmes de reconnaissance de relations : y-a-t-il un seul parcours de la phrase, de
gauche à droite, au cours duquel un algorithme de reconnaissance est lancé dès que la
catégorie du mot courant le justifie, ou bien y-a-t-il autant de parcours de la phrase que
de relations ? Comme c’est souvent le cas pour les travaux précurseurs, développés en
marge des courants porteurs, les travaux de F. Debili sont assez peu connus. Ils sont
cependant cités par Gregory Greffenstette (1994, 1996), quand celui-ci décrit ses
travaux, menés dans le même esprit que F. Debili, sur l’utilisation de transducteurs à
états finis pour la réalisation d’analyseurs syntaxiques légers et robustes.
G. Greffenstette a soutenu en 1983, dans la même équipe et à la même époque que
F. Debili, une thèse intitulée « Traitements linguistiques appliqués à la documentation
automatique » (Greffenstette, 1983).
2.3.5. Le projet PLNLP
Le concept de robustesse a été au centre des préoccupations des chercheurs du Centre de
Recherche d’IBM à Yorktown, qui ont travaillé sur le projet PLNLP (Programming
Language for Natural Language Processing) pendant les années 1980. Lors de l’édition
de 1988 de la conférence COLING organisée à Budapest, Makato Nagao, chercheur à
l’université de Kyoto et pionnier de la traduction automatique au Japon, organise une
table ronde intitulée « Language Engineering : the real bottleneck of Natural Language
Processing »23, qu’il introduit ainsi:
The bottleneck in building practical natural language processing system is
not those problems which have been often discussed in research papers,
but in handling much more dirty, exceptional (for theoreticians, but we
frequently encounter) expressions.
(Nagao, 1988, p. 448)
23 Selon Ruslan Mitkov (1995), cité par (Cunningham, 2000), c’est de cet intitulé qu’a été reprise l’expression
« Natural Language Engineering ».
51
Karen Jensen, du Centre de Recherche d’IBM, propose une intervention dont le titre est
« Why computational grammarians can be sceptical about existing linguistic theories ».
Elle y expose en quoi les descriptions produites par les théoriciens de la syntaxe ne sont
que d’un intérêt limité dès lors que l’on cherche à réaliser des grammaires à large
couverture, utiles pour des systèmes opérationnels devant traiter des productions
textuelles réelles.
Existing theories are of limited usefulness to broad-coverage, real-world
computational grammars, perhaps largely because existing theorists focus
on limited notions of “grammaticality”, rather than the goal of dealing, in
some fashion, with any piece of input text. Therefore, existing theories
play the game of ruling out many strings of language, rather than the game
of trying to assign plausible structures to all strings.
(Jensen, 1988, p. 449)
Ce constat est tiré de l’expérience de réalisation d’un système de correction
grammaticale et de vérification de style, le système EPISTILE (Jensen et al., 1983). Par
définition, le système doit être en mesure de traiter des textes produits en milieu
professionnel, comme des lettres, des rapports, des manuels. Le système opère en deux
étapes fortement différentes. Au cours de la première étape, une grammaire de base
(core grammar) est exploitée pour analyser la séquence en entrée. Cette grammaire de
base est censée couvrir le plus largement possible les structures fondamentales du
langage. Elle comporte 300 règles, écrites dans le langage NLP (Heidorn, 1972). Quand
la grammaire de base conduit à plusieurs analyses pour une sous-séquence, une
procédure de désambiguïsation classe les analyses par ordre de plausibilité décroissante
et choisit la meilleure. Si la grammaire échoue à reconnaître l’ensemble de la séquence
comme une phrase, c’est-à-dire lorsqu’elle ne réussit pas à conclure l’analyse sur un
noeud phrase, une procédure d’ajustement d’analyse (fitting procedure) est alors lancée
dans une seconde étape. Cette procédure cherche, à partir de l’ensemble des constituants
fabriqués lors de la première étape, à produire une approximation plausible de la
structure de la séquence initiale en associant certains de ces constituants. Cette procédure
est simple. Elle se déroule elle-même en deux temps. Dans un premier temps, elle choisit
le constituant qui sera le constituant tête de la séquence, en testant les différents
constituants candidats selon cet ordre de préférence :
(a) constituant verbal avec verbe conjugué et sujet ;
(b) constituant verbal avec verbe conjugué ;
(c) constituant non verbal (groupe nominal, groupe prépositionnel…) ;
(d) constituant verbal avec verbe non conjugué ;
(e) autres.
Si plus d’un candidat est trouvé pour une catégorie, la procédure d’ajustement choisit
celui qui couvre la plus grande partie de la séquence d’entrée, et en cas de nouvelle
égalité le plus à gauche. Dans un second temps, si le constituant tête sélectionné ne
couvre pas toute l’entrée, la procédure intègre successivement les constituants restants, à
52
gauche et à droite du constituant tête, selon l’ordre de préférence suivant : les
constituants non verbaux, les constituants verbaux avec verbe non conjugué, les
constituants verbaux avec verbe conjugué.
Par exemple, si la séquence en entrée est
Example : Your percentage of $255.00 is $187.50.
la grammaire de base échoue à produire une analyse complète de phrase. La procédure
d’ajustement tente alors de fabriquer, à partir des constituants extraits lors de la première
étape, la structure la plus plausible et utile possible pour cette séquence. Pour trouver un
constituant tête, elle recherche des constituants verbaux avec verbe conjugué : elle
trouve dans le stock des constituants fabriqués par la grammaire de base : [$255.00 is],
[percentage of $255.00 is], [$255.00 is $187.50], etc. Elle choisit le plus long, soit
[Your percentage of $255.00 is $187.50]. La procédure cherche ensuite s’il reste des
constituants à gauche, et ajoute ainsi le signe de ponctuation [:], puis le nom [Example].
Elle ajoute à droite le point final. Le résultat de l’ajustement est l’arbre ajusté (fitted
parse) constitué de la juxtaposition des constituants identifiés :
[FITTED [NP Example] [PUNC:] [VP Your percentage of $255.00 is 187.50] [PUNC .] ]
L’intérêt de l’approche présentée ne réside pas seulement dans les procédures et
techniques concrètes mises en oeuvre pour construire un arbre plausible après un échec
d’analyse. L’intérêt tient aussi à l’explicitation de la notion de robustesse en terme
d’utilité. L’utilisation concrète des analyses produites par le système dans les
applications de correction grammaticale et de vérification de style impose d’abord que le
système produise une analyse pour toute séquence en entrée, et spécifie ensuite la forme
des analyses qu’il doit produire en cas d’échec de la grammaire de base. La validité des
arbres ajustés ne relève pas de la théorie syntaxique, mais de l’utilité pour la suite des
traitements. Un autre apport du travail de K. Jensen se situe dans l’identification des
« vraies » difficultés auxquelles se heurte un analyseur syntaxique qui reçoit des phrases
réelles. C’est ainsi que les « horreurs de ponctuation » (punctuation horrors) rencontrées
dans les textes sont élevées au rang de difficulté supérieure pour l’analyse syntaxique :
Real-world natural processing must deal with huge amounts of data, which
involve many, and messy, details. For example, punctuation is very
important in processing real text, but current linguistic theories have
nothing substantial to say about punctuation.
(Jensen, 1988, p. 449)
Enfin, la contribution sans doute la plus importante concerne l’articulation dans un
système opérationnel entre la prise en compte de la norme, via la grammaire de base, et
la prise en compte des écarts à cette norme, et donc des échecs de la grammaire, par une
procédure d’ajustement, dans une architecture incrémentale qui délimite clairement la
place et la fonction des deux types d’opérations. Il s’agit d’une implémentation simple
mais pertinente de coopération entre une grammaire dans laquelle on souhaite décrire les
structures et contraintes de la langue, et une procédure de relâchement qui vient prendre
le relais quand la grammaire échoue. La procédure d’ajustement n’est pas conçue
53
comme devant compenser les faiblesses de la grammaire de base, sur son domaine, qui
est la reconnaissance des structures de base. Elle est là pour « récupérer » une analyse en
cas d’échec de la grammaire, c’est-à-dire quand certaines des contraintes implémentées
dans la grammaire de base ne sont pas respectées.
«It should be emphasized that a fitting procedure cannot be used as a
substitute for explicit rules, and that it in no way lessens the importance of
the core grammar. There is a tight interaction between the two
components. The success of the fitted parse depends on the accuracy and
completeness of the core rules; a fit is as good as its grammar.
(Jensen et al., 1983, p. 151)
2.3.6. L’analyse par chunks de S. Abney
Les travaux de Steven Abney sont parmi les plus connus parmi ceux publiés ces 15
dernières années dans le domaine de l’analyse syntaxique robuste. Leur renommée tient
autant à leur intérêt propre qu’au fait qu’ils ont été publiés à un moment où, face aux
difficultés rencontrées par les approches classiques pour réaliser des analyseurs
syntaxiques utiles, on s’intéresse plus ouvertement à l’analyse syntaxique robuste.
S. Abney développe un analyseur syntaxique (CASS, pour Cascaded Analysis of Syntactic
Structure) qui est à la fois rapide et fiable. Abney ne sacrifie pas la qualité pour la
vitesse. Il vise l’objectif d’une analyse syntaxique qui soit à la fois plus rapide et plus
fiable que ce que réalisent les analyseurs développés dans un cadre classique, sans
rabattre le niveau d’exigence en terme de qualité et de profondeur des analyses. Sa
réussite repose sur deux concepts clés, le concept linguistique de chunk et le concept
informatique de cascade, le second dérivant du premier.
Le concept de chunk est issu des travaux de thèse d’Abney sur la structure du groupe
nominal anglais (Abney, 1987). Les chunks sont définis à partir des têtes sémantiques
(major heads) des principaux types de groupes syntaxiques (NP, VP, PP, AP, AdvP).
Tout mot plein est une tête sauf s’il est situé entre un mot fonctionnel (déterminant,
préposition…) et le mot plein que ce mot fonctionnel sélectionne. Un chunk est constitué
par la séquence des mots entre le mot fonctionnel et le mot tête sélectionné. Par exemple,
the bald man est un chunk nominal dont la tête est man, was sitting un chunk verbal dont
la tête est sitting, on his red suitcase est un chunk prépositionnel dont la tête est suitcase.
Les chunks sont non récursifs. Un chunk a une structure syntaxique qui est un
sous-graphe connecté de l’arbre syntaxique de la phrase, mais ce n’est pas
nécessairement un constituant syntaxique intégral. Si Abney voit dans certaines
expériences psycholinguistiques une validation au plan psychologique de la notion de
chunk, c’est bien dans le cadre de l’analyse syntaxique automatique que le concept de
chunk acquiert toute sa pertinence. Il joue un rôle clé dans la conception de l’analyseur
syntaxique. D’abord, ces unités non récursives que sont les chunks sont simples à
reconnaître :
A simple context-free grammar is quite adequate to describe the structure
of chunks. By contrast, the relationships between chunks are mediated
54
more by lexical selection than by rigid templates (…). The order in which
chunks occur is much more flexible than the order of words within chunks.
(Abney, 1990b, p. 1)
Deux niveaux d’analyse s’imposent : un niveau de base, celui des chunks, et un niveau
supérieur, celui des propositions (simplex clauses), au sein desquelles s’établissent les
relations entre chunks. L’architecture de l’analyseur est alors la suivante : d’abord
reconnaître les chunks, puis délimiter les propositions et enfin établir des liens entre
chunks à l’intérieur des propositions. C’est le principe de l’analyse en cascade.
L’analyse en cascade consiste en une succession de passes, chaque passe prenant en
entrée la séquence des groupes du niveau inférieur pour fabriquer les groupes du niveau
courant, qui deviennent eux-mêmes les unités de traitement de la passe suivante. Il n’y a
pas de récursivité, les groupes d’un niveau ne contiennent pas de groupes de même
niveau ou de niveau supérieur. Dans la seconde version de CASS (Abney, 1996), l’auteur
envisage jusqu’à 9 niveaux, mais ils sont au nombre de deux dans la première version
(Abney, 1990a, 1990b).
Ce partage des tâches, d’abord la reconnaissance des chunks, ensuite la mise en relation
des chunks au sein des propositions, présente l’avantage de maîtriser de façon optimale
le problème des ambiguïtés de rattachement, qui constitue l’une des difficultés
essentielles de l’analyse syntaxique. En effet, selon Abney, il convient de distinguer
deux types d’ambiguïtés de rattachement : l’ambiguïté de rattachement à l’intérieur des
chunks et l’ambiguïté de rattachement entre les chunks. Du point de vue de la
reconnaissance automatique, ces deux types d’ambiguïté sont radicalement différents. Ils
doivent être traités de façon séparés, séquentiellement, et avec des méthodes différentes.
Au sein d’un chunk, par exemple un chunk nominal constitué d’une séquence de noms
ou d’adjectifs, l’identification des rattachements ne peut être pris en charge par
l’analyseur syntaxique. Dans le chunk [cherry picker exhaust manifold], toutes les
combinaisons de rattachement binaire entre ces 4 éléments sont possibles d’un point de
vue syntaxique : [[[cherry picker] exhaust] manifold], [[cherry picker] [exhaust
manifold]], etc. Selon Abney, l’ambiguïté n’est pas syntaxique. L’analyseur syntaxique
peut retourner le chunk non analysé, avec implicitement toutes les analyses internes
possibles. L’ambiguïté est sémantique, et c’est à un module sémantique de finir le
travail. Il n’en va pas du tout de même pour l’ambiguïté de rattachement des chunks au
sein d’une proposition en revanche. Abney prend l’exemple suivant (VP : chunk verbal,
NP : chunk nominal, CP : clause, PP : chunk prépositionnel) :
John [VP [met] [NP the woman] [CP he married] [PP in Italy]]
Toutes les combinaisons de rattachement binaire entre éléments, au sein de la séquence
de 4 éléments constituée du chunk verbal pivot et les 3 groupes qui suivent, ne sont pas
syntaxiquement licites. Par exemple, la relative ne peut être attachée au verbe, le chunk
prépositionnel ne peut être attaché au chunk nominal. Au sein d’une proposition, il peut
y avoir des contraintes syntaxiques fortes pesant sur la détermination des attachements
possibles, et la syntaxe doit d’abord dire son mot, avant de passer la main à la
sémantique. La notion de chunk induit donc une séparation en deux du problème du
rattachement et un partage des tâches qui permet de contrôler la propagation de
55
l’ambiguïté en évitant qu’elle se multiplie entre des niveaux qui sont hétérogènes quant
aux principes de désambiguïsation que l’on peut leur appliquer.
Aux concepts de chunk et de traitement en cascade, il faut ajouter un troisième principe,
indépendant des deux premiers, essentiel dans l’approche promue par Abney, au moins
dans ses premiers écrits : séparer autant que possible les règles de grammaire des
heuristiques et algorithmes. Dans ses deux articles de 1990, Abney fait référence aux
analyseurs PARSIFAL de Marcus (Marcus, 1980) et FIDDITCH de Hindle (Hindle, 1990)
pour montrer que l’on peut s’engager avec confiance dans la voie de l’analyse
déterministe pour faire des analyseurs rapides et fiables. Néanmoins, tout en souhaitant
s’inscrire dans cette lignée, Abney considère que l’analyseur FIDDITCH, qui est
l’analyseur adoptant les principes de Marcus possédant la plus large grammaire, montre
un certain nombre de limites, qui sont dues en partie à la non distinction des
informations grammaticales et heuristiques. On retrouve là le débat récurrent sur la
séparation des règles et des algorithmes.
Marcus-style deterministic parsing has two related drawbacks. First, the
complexity of the grammar development and debugging increases too
rapidly. I believe this results partly from the use of a production-rule
grammar format, and partly from the fact that grammatical and heuristic
information are folded together indiscriminately. Second, if the parser’s
best initial guess at every choice point leads to a dead end, the parser
simply fails. It is much preferable to separate heuristic information from
grammatical information, and use a non-deterministic architecture. As
heuristics improve, we approach deterministic parsing on non-garden path
sentences.
(Abney, 1990b, p. 258)
C’est pourquoi dans les deux versions de l’analyseur CASS, Abney développe un
ensemble de grammaires hors contexte, une par niveau, chaque règle de grammaire étant
donnée sous la forme d’une expression régulière, permettant de reconnaître les chunks
du niveau correspondant. Ces grammaires ne constituent pas des descriptions théoriques
des structures syntaxiques valides de la langue, comme c’est classiquement le cas, mais
des ensembles de patrons de reconnaissance de morceaux de structure syntaxique :
The grammar is not viewed as a linguistic description but as a
programming language for recognizers. The goal is to write patterns that
are reliable indicators of bits of syntactic structure, even if those bits of
structure are “boundaries” or “kernels” rather than traditional phrases.
(Abney, 1996, p. 339)
Dans la version 2 de CASS, chaque expression régulière d’un niveau est transformée en
un automate à états finis, et l’union de ces automates produit le reconnaisseur du niveau
considéré. C’est la stratégie du plus long chemin qui est adoptée : si le reconnaisseur
atteint un état final en plusieurs points, c’est l’état qui conduit au plus large
recouvrement du flux en entrée qui est choisi. En cas d’échec, le premier mot est
abandonné, et on passe au suivant. Dans la première version de l’analyseur, Abney
56
n’utilise pas l’arsenal des automates à états finis, mais développe un compilateur
spécifique pour ses grammaires, dans lequel il implémente un certain nombre
d’heuristiques qui font de son analyseur un analyseur non déterministe. Ce compilateur
est une version non déterministe d’un analyseur LR (Left-to-right Rightmost derivation),
exploitant une recherche best-first. Il y a deux sources de non déterminisme : (1) un mot
donné peut appartenir à plus d’une catégorie ; (2) les points où les chunks s’arrêtent ne
sont pas marqués explicitement dans le flux de mots entrant, ce qui conduit à des
ambiguïtés impliquant des chunks de différentes longueurs. Par exemple dans la phrase
« In South Australia beds of boulders were deposited by melting icebergs. », si
l’analyseur applique la stratégie du plus long chemin, il va reconnaître le chunk [South
Australia beds], alors que la bonne analyse découpe cette séquence en deux chunks
[South Australia] et [beds], dont le second est le sujet du verbe.
Pour s’approcher d’un comportement déterministe sans perdre en robustesse, le
compilateur effectue une recherche best-first, qui s’appuie sur une pondération des
actions possibles à chaque itération. A chaque étape de l’analyse, étant donné la
configuration en cours, le mot entrant et les règles de la grammaire, un certain nombre
d’actions sont possibles : chacune de ces actions reçoit de façon dynamique un poids, qui
est une estimation de la probabilité que cette action conduise à la meilleure analyse. Les
actions sont alors placées dans la pile des actions possibles qui, à chaque itération, est
mise à jour puis triée par ordre de poids décroissants. L’action de plus fort poids est
choisie. Et le cycle se répète. Les actions alternatives non choisies restent dans la pile et
peuvent ultérieurement passer en tête de liste, ce qui correspond à un retour en arrière
dans l’analyse. C’est l’affectation de scores aux différentes actions qui détermine les
choix de l’analyseur. Pour le chunker de la première version de CASS, dont la fonction
est de reconnaître les chunks, les scores sont déterminés par quatre paramètres. Pour
l’attacher, dont la fonction est de reconnaître les liens entre chunks, 2 paramètres
supplémentaires s’ajoutent. Les quatre premiers paramètres sont les suivants :
- fréquences lexicales relatives : préférer pour un mot la catégorie qu’il a le plus
souvent ;
- préférences générales sur les catégories : préférer une modification N-N à une
modification adjectivale... ;
- préférences liées aux conflits rencontrés par l’algorithme LR : préférer une
opération shift à une opération reduce ;
- préférences liées aux contraintes d’accord : préférer un choix qui ne viole aucune
contrainte d’accord.
Les deux paramètres supplémentaires exploités par l’attacheur sont les suivants :
- préférer l’attachement d’un argument (vs. modifieur)24, préférer l’attachement à un
verbe (vs. nom ou adjectif) ;
24 L’auteur ne précise pas comment cette distinction est faite.
57
- préférer un attachement bas.
Notons que l’attacheur, contrairement au chunker, exploite aussi des informations sur les
propriétés de restriction de sélection des mots, c’est-à-dire la possibilité pour un mot
d’avoir un complément direct, obligatoire ou nom, positionné nécessairement après le
mot ou non, d’avoir un ou plusieurs compléments prépositionnels ou une subordonnée.
Les paramètres sont valués : le logarithme de la fréquence pour le premier, le nombre de
violations des préférences pour les autres. Ces paramètres sont pondérés pour avoir une
valeur unique. Les paramètres de pondération sont choisis de façon arbitraire, et Abney
reconnaît qu’il faudrait les choisir après expérimentation. Pour finir, Abney fait dépendre
les scores de façon dynamique du rang dans l’avancée de la phrase : les scores
décroissent globalement de façon monotone au fur et à mesure que l’on avance dans
l’analyse, ceci pour assurer que la première solution trouvée soit la meilleure…
Devant une structure à ce point compliquée, on peut comprendre qu’Abney, dans la
seconde version de CASS, ait remplacé son compilateur maison, saturé d’heuristiques
quelque peu ad hoc et sans doute difficiles à maintenir, par la machinerie bien huilée des
transducteurs, avec comme unique stratégie celle du plus long chemin. On peut aussi
supposer que cet abandon a été rendu possible, sans perte en fiabilité de l’analyseur,
parce que l’abandon des heuristiques complexes a été compensé par la multiplication des
niveaux de traitement. Dans son article de 1996, Abney évoque une grammaire à 9
niveaux. Dans l’exemple qu’il donne en introduction de son article, il apparaît clairement
que la tâche d’identification des chunks, qui était réalisée en une seule passe par le
chunkeur dans la première version, est ici distribuée sur plusieurs niveaux. On peut donc
supposer que les heuristiques qui étaient nécessaires pour obtenir en une seule passe les
meilleures analyses perdent de leur utilité quand on exploite à fond le principe de la
cascade et que l’on multiplie les étages de l’analyse. La difficulté se reporte alors
certainement sur le choix des niveaux et de l’ordre d’enchaînement des traitements.
En résumé, les concepts clés de la philosophie d’Abney sont les suivants (Abney, 1996,
p. 339) :
- Commencer par le plus facile (easy-first parsing). Travailler par passes successives,
traitant des problèmes de plus en plus difficiles, en ne prenant que des décisions
sûres pour produire à chaque étape des résultats fiables.
- S’appuyer sur des îlots de confiance (islands of certainty). Procéder en fabriquant
des îlots de certitudes que l’on fait croître petit à petit pour obtenir des groupes de
plus en plus larges, toujours en prenant les décisions les plus sûres, même si cela ne
conduit pas à reconnaître la structure syntaxique de façon strictement ascendante.
- Contenir l’ambiguïté (containment of ambiguity). Ne pas hésiter à reconnaître une
relation à longue distance, toujours si la décision est sûre, avant d’avoir reconnu le
détail de l’agencement syntaxique entre les deux unités reliées. L’identification des
relations à grand empan permet de délimiter des zones de rattachement pour les
unités enfermées, contribuant ainsi à contenir l’ambiguïté.
58
Il reste un point qui n’est pas évoqué dans l’article de 1996 alors qu’il est
particulièrement mis en exergue dans le premier article de 1990, c’est celui de la
réparation d’erreurs (repair) Abney (1990a). Il s’agit de réparer les erreurs faites lors
d’étapes antérieures dès qu’elles sont détectées, en modifiant la structure erronée, sans
prendre en considération l’histoire du calcul qui a conduit à l’erreur. L’exemple donné
concerne le problème de groupes nominaux « à rallonge » (« run-on NP »). Par exemple,
dans l’exemple déjà donné plus haut, « In South Australia beds of boulders were
deposited by melting icebergs », le chunkeur, en appliquant la stratégie du chemin le
plus long, reconnaît le chunk [South Australia beds]. C’est l’attacheur qui, au moment
où il cherche un sujet pour le chunk verbal [were deposited], peut détecter une erreur et,
si l’analyse alternative en deux chunks [South Australia] et [beds] a été conservée, peut
restituer l’analyse correcte. Il n’est pas clair que de telles réparations soient encore
possibles dans une approche qui enchaîne strictement de simples transducteurs.
2.3.7. L’analyseur 98 de J. Vergne
Jacques Vergne est certainement le chercheur le plus actif en France pour critiquer
l’approche classique en analyse syntaxique automatique. Sa première place lors de
l’action Grace d’évaluation des étiqueteurs morphosyntaxiques du français (Adda et al.,
1998, 1999) donne un poids certain à son entreprise courageuse de critique du courant
dominant (Vergne, 1995, 1999 ; Vergne et Giguet, 1998). S’affichant autodidacte en
linguistique et en informatique (Vergne, 1999, p. 41), J. Vergne dit ne pas avoir été
influencé par le paradigme classique qui voit dans l’analyse syntaxique automatique des
langues naturelles une tâche analogue à la compilation des langages informatiques. Selon
lui, si les grammaires formelles constituent un outillage adéquat pour modéliser la
syntaxe des langages de programmation, elles ne sont pas du tout adaptées à la
description des langues naturelles, dont la syntaxe a très peu de caractéristiques
communes avec celle des langages formels. Ses arguments sont les suivants :
La redondance des formes est une caractéristique des langues, comme de
tout code utilisé par des êtres vivants (…) ; comme un langage formel
n’est pas redondant, une grammaire formelle n’est pas appropriée à tirer
parti de cette redondance, qui constitue pourtant un des fondements du
TAL.
La récursivité des segments (et donc des règles) est une hypothèse sur les
structures profondes de la compétence du locuteur natif, mais elle n’est pas
indispensable pour modéliser la syntaxe des langues, car il n’y a jamais
une infinité de compléments, ni des insertions multiples illimitées, alors
qu’elle est indispensable pour la syntaxe d’un langage de programmation,
car il n’y a pas de limite a priori à l’enchâssement des instructions.
La polycatégorie (est) inexistante dans les langages formels, (…) le fait
qu’une même graphie recouvre plusieurs rôles syntaxiques et plusieurs
sens est une conséquence de la correspondance forme-sens non biunivoque
dans les langues.
59
(Vergne, 1999, p. 28)
Selon J. Vergne, l’hypothèse implicite du courant formel, à savoir que tout l’objet
analysé est connu (tous les mots, toutes leurs catégories, toutes les structures), est
erronée : « ces attendus sont irréalistes et imposent des rattrapages par des procédures ad
hoc (qui exploitent enfin contexte et redondance ») » (Vergne, 1999, p. 29). Ceci
explique les échecs des systèmes d’analyse syntaxique basés sur cette hypothèse : temps
d’analyse exorbitants, dus à la complexité des algorithmes, absence d’analyse ou
multiplicité des analyses pour une phrase.
L’analyseur de J. Vergne est structuré en deux phases : le « tagging » (étiquetage
morphologique) et la mise en relation (pose de relations de dépendance). Le tagger
exploite des ressources lexicales minimales et des règles de déduction contextuelle. A la
sortie du tagger, presque tous les mots sont affectés d’une et une seule étiquette.
Certaines ambiguïtés résiduelles sont levées au moment de la mise en relation. Le
tagging n’est pas conçu comme une désambiguïsation, c’est-à-dire un choix parmi un
ensemble d’étiquettes possibles extraites d’une ressource lexicale supposée exhaustive,
mais comme un calcul par des règles de déduction contextuelle à partir des étiquettes
issues de la ressource lexicale, considérées comme de simples amorces. Le calcul sur le
contexte prime sur la consultation du dictionnaire « Le contexte ne filtre pas le lexical
supposé exhaustif, mais comble les lacunes du lexical supposé partiel » (op. cit., p. 33).
Par exemple, dans « je positive », le tagger affecte l’étiquette de verbe au mot positive,
bien que cette forme n’apparaisse qu’avec la catégorie d’adjectif dans la ressource
lexicale. De plus, dans le lexique, chaque forme a une catégorie par défaut, qui est
affectée systématiquement aux occurrences de la forme dans les phrases. Ce sont les
règles de déduction contextuelles qui viennent le cas échéant changer cette étiquette. Le
tagger affecte des catégories grammaticales aux mots de la phrase et construit des
« syntagmes non récursifs » (SNR), analogues aux chunks d’Abney. Par exemple, de la
phrase « L’usine d’Eloyes dans les Vosges représente un investissement de 3,7 milliards
de yens. », le tagger extrait et étiquette les SNR de la façon suivante :
{l’usine} SNR nominal
{d’Eloyes} SNR prépositionnel
{dans les Vosges} SNR prépositionnel
{représente} SNR verbal
{un investissement} SNR nominal
{de 3,7 milliards} SNR prépositionnel
{de yens} SNR prépositionnel
La très grande majorité des tokens est désambiguïsée par les règles de déduction
contextuelles, mais il subsiste des mots qui résistent à la désambiguïsation contextuelle
locale, et dont le sort ne peut être réglé que lors de la phase de mise en relation. Par
exemple, dans la phrase « La présence de Florence Arthaud au milieu d’un plateau de
spécialistes montre que cette transat a été la course la plus disputée de ces dix dernières
60
années », c’est lors de l’étape de mise en relation des SNR, au moment d’établir le lien
sujet entre présence et montre que ce dernier mot sera étiqueté verbe. Le cas des formes
du, de la, des, de l’, de, ainsi que des formes que, qu’ est analogue.
Le processus de mise en relation effectué lors de la seconde phase d’analyse consiste à
placer des relations de dépendance syntaxique entre les SNR identifiés lors de la phase
de tagging. L’algorithme d’analyse est contraint de la façon suivante : la phrase est
analysée en une seule passe, de gauche à droite. Au cours de ce processus, le système
gère un certain nombre de mémoires. Il stocke les SNR, au fur et mesure de leur
traitement, dans des mémoires correspondant aux relations dans lesquelles elles peuvent
être prises, étant donné leur catégorie et leur place dans la phrase. Il y a deux types de
règles, celles qui placent le SNR courant dans une mémoire et celles qui mettent en
relation le SNR courant avec le SNR d’une mémoire. Ces mémoires s’effacent à certains
moments de l’analyse, dès qu’une relation est posée. Si on reprend l’exemple « L’usine
d’Eloyes dans les Vosges représente un investissement de 3,7 milliards de yens », le
processus d’analyse de la phrase ci-dessus. Au moment où le système est positionné sur
le premier SNR nominal {l’usine}, il le range dans la mémoire des sujets, ce qui signifie
que ce SNR est en attente d’un verbe dont il pourrait être le sujet. Il le range aussi dans
la mémoire des noms en attente de complément. Quand le système est positionné sur le
deuxième SNR nominal {d’Eloyes}, une première règle le range dans la mémoire des
noms en attente de complément, puis une seconde règle le met en relation avec le
premier SNR {l’usine}, qui était en tête de la file d’attente dans cette même mémoire.
Quand le système est positionné sur le SNR nominal {dans les Vosges}, il le place dans
la mémoire des SNR en attente de complément, puis le met en relation avec le SNR
{d’Eloyes}. Le système ne semble pas traiter les ambiguïtés de rattachement, puisque ce
troisième SNR nominal pourrait tout aussi bien être mis en relation avec le premier SNR
{l’usine}. Lorsque le système est positionné sur le SNR verbal {représente}, il place une
relation sujet entre ce SNR et le SNR {l’usine} en attente dans la mémoire sujet. Puis il
efface de la mémoire des noms en attente de compléments les SNR {d’Eloyes} et {dans
les Vosges}.
Le choix d’une analyse en une seule passe, gauche droite, détonne un peu dans l’univers
de l’analyse syntaxique robuste, où l’on ne se prive pas en général de multiplier les
passes et de diversifier les sens d’analyse de la phrase. Chez J. Vergne, ce choix répond
au souci affiché d’une certaine plausibilité cognitive du processus d’analyse. D’un point
de vue « théorique », J. Vergne voit dans le processus de réception d’une phrase par un
humain une phase de traitement syntaxique qui consiste à passer de l’ordre linéaire de la
phrase à sa représentation dépendancielle (Vergne, 1999, section 2.3.2). Cette contrainte
d’une analyse gauche-droite en une seule passe est forte. Elle complique la tâche en
imposant de gérer au fil de l’eau 13 mémoires (mémoire des sujets en attente d’un SNR
verbe, mémoire des SNR verbes transitifs en attentes d’un SNR objet, mémoire des que
pronoms relatifs en attente d’un SNR verbal transitif, etc.).
Sur le fond, la caractéristique essentielle du système d’analyse syntaxique développé par
J. Vergne est de relever d’une approche procédurale : il ne s’agit pas d’expliciter dans
une grammaire formelle les structures syntaxiques possibles et acceptables, mais
61
d’implémenter via une architecture informatique et des algorithmes les processus
d’identification des relations de dépendance syntaxique entre SNR dans une phrase.
2.3.8. L’analyse syntaxique robuste selon J. P. Chanod
Dans les années 1980, Jean-Pierre Chanod, alors chercheur au Centre Scientifique
d’IBM France, reprend le flambeau brandi par K. Jensen (section 2.3.5) et poursuit la
réflexion sur la robustesse en analyse syntaxique. Un bilan de cette réflexion apparaît
dans un article, publié en 2000, intitulé « Robust parsing and beyond » (Chanod, 2000).
Selon J.-P. Chanod, l’effet le plus spectaculaire du besoin d’approches robustes en TAL
a été l’arrivée en force des méthodes statistiques dans toutes les régions du TAL. Mais la
robustesse n’est pas une question d’opposition entre des méthodes à base de règles d’un
côté et des méthodes statistiques de l’autre :
Still robustness is not about statistical vs. rule-based methods. It is not
about virtual core languages, be they defined by principles or by frequency
counts. It is not even about the quantity of unrestricted text that can be
parsed by a given system. Robustness is about exploring all constructions
humans actually produce, be they grammatical, conformant to formal
models, frequent or not. Linguistic phenomena, regardless of their oddity
or frequency, account for meaning of whatever segment of text they
appear in. (…) In this view, robustness is a matter of breadth and depth of
analysis. Altogether.»
(Chanod, 2000, pp. 132–133)
J.-P. Chanod multiplie les exemples dans lesquels des principes linguistiques
généralement reconnus comme essentiels, en particulier concernant les phénomènes
d’accord, sont mis à mal par la réalité des productions langagières attestées dans des
textes réels. Voici quelques-uns de ces exemples, qui parlent d’eux-mêmes :
Mon adorable chatte
Mon chèvre
Un cinq tonnes
Des tee shirts avec Coca-Cola écrit dessus
J’ai perdu mon Madame Bovary
Le France s’appelle aujourd’hui le Norway
Les premier et dernier chapitres
La salle était pleine d’étudiants. Une bonne moitié sont partis avant la fin.
On est contentes.
Ces exemples sont typiques de cas où les contraintes d’accord ne sont pas respectées. Or,
c’est le principe de l’unification de traits lexicaux qui est à l’origine du paradigme très
productif des grammaires d’unification, théories dans lesquelles l’unification constitue le
62
moyen élégant de traiter les phénomènes d’accord et de sous-catégorisation.
L’abondance dans les textes réels de contextes dans lesquels les principes de base de la
grammaticalité sont violés condamne à l’échec toute entreprise de réalisation d’un
analyseur qui s’appuierait de façon stricte sur de tels principes. Un tel constat ne remet
pas en cause les principes eux-mêmes, mais doit conduire à une réflexion sur
l’articulation entre principes grammaticaux et règles de reconnaissance au sein d’un
analyseur. Un analyseur syntaxique robuste doit être capable de reconnaître les cas où les
principes s’appliquent, mais il doit aussi reconnaître les cas déviants et proposer une
analyse. Dans cet esprit, on ne peut assigner à l’analyseur la fonction de distinguer les
phrases grammaticales des phrases agrammaticales. Une telle spécification n’aurait de
sens que dans un cadre de recherche, par exemple sur l’apprentissage des langues, où
l’on s’intéresserait précisément à la capacité humaine de produire des jugements de
grammaticalité. La fonction d’un analyseur syntaxique robuste est de reconnaître, parfois
« à tâtons », la structure grammaticale d’une séquence en entrée. Il exploite les principes
grammaticaux généraux, non pour accepter les phrases grammaticales et rejeter les
phrases agrammaticales, mais comme contraintes de base qu’il privilégie pour trouver
rapidement une analyse plausible. L’analyseur doit disposer de solutions de repli pour
les cas où il reconnaît que l’application de ces principes l’empêche de parvenir à une
solution acceptable. C’est le principe du relâchement, fondamental en analyse syntaxique
robuste. Par exemple, pour analyser le groupe « mon adorable chatte », on peut
introduire une règle qui, dans certains contextes, identifiera la relation entre un
déterminant et un nom quels que soient leurs genres respectifs. Cette règle n’est pas
pénalisante, même si potentiellement elle permet l’analyse de groupes non
grammaticaux comme « mon chatte ». Le fait qu’un analyseur puisse produire une
analyse pour des groupes agrammaticaux n’a pas le même caractère fondamentalement
disqualifiant que dans l’approche classique, où les grammaires formelles doivent être
utilisées tant en analyse qu’en génération. Les analyseurs syntaxiques robustes sont des
outils opérationnels de reconnaissance de structures syntaxiques. Le principe de la
réversibilité ne tient pas.
Le principe de base que J.-P. Chanod met en avant pour caractériser d’un point de vue
opérationnel les analyseurs syntaxiques robustes est celui d’incrémentalité. Il a travaillé
sur ce principe depuis son arrivée au Centre de Recherche de Xerox à Meylan, en
particulier dans le cadre de ses travaux menés avec Salah Aït-Mokhtar sur l’analyseur
IFSP (pour Incremental Finite-State Parser) (Aït-Mokhtar et Chanod, 1997a, 1997b).
Dans un article publié en 2002 dans la revue Natural Language Engineering, écrit avec
Salah Aït-Mokhtar et Claude Roux, Jean-Pierre Chanod décrit avec précision en quoi le
principe de l’incrémentalité est un concept clé pour envisager la conception de systèmes
d’analyse syntaxique qui soient à la fois robustes, profonds, à large couverture et fiables.
Deux propriétés essentielles distinguent l’approche incrémentale des approches
classiques en analyse syntaxique automatique : l’autonomie des règles (self-containment)
et la décomposition descriptive (descriptive decomposition).
L’autonomie des règles. Chaque règle incrémentale est auto-suffisante, toute application
de règle est définitive. Les conditions contextuelles dans lesquelles la règle s’applique
sont stipulées dans la règle elle-même. Ces conditions sont évaluées sur les
63
connaissances disponibles au moment où le système teste cette règle, en particulier sur
les structures partielles déjà construites à ce stade de l’analyse incrémentale. Si les
conditions ne sont pas vérifiées, la règle ne s’applique pas, et la structure en cours de
construction est passée telle quelle à l’étape suivante du calcul. Si les conditions sont
vérifiées, la règle s’applique et la structure en cours de construction est enrichie. Le
système ne revient pas sur l’application de cette règle plus tard dans le processus
incrémental. Il se peut que la relation de dépendance posée par cette règle soit
ultérieurement détruite, si une règle testée à un stade plus avancé détecte une erreur.
Mais en aucun cas, le système ne rembobine l’analyse jusqu’au moment où la première
règle s’est appliquée. Cette règle n’est pas fautive, elle a simplement pris la meilleure
décision possible étant donné les connaissances disponibles au moment où elle a été
testée et appliquée. La situation est différente dans les systèmes classiques, où le
contrôle que permet l’incrémentalité est absent. Ces règles produisent des hypothèses
locales qui doivent se combiner de façon cohérente pour conduire à une analyse globale
de la phrase. Le postulat implicite est que les propriétés sous-jacentes du langage,
qu’elles soient spécifiées ou non dans la grammaire, vont en quelque sorte guider le
processus d’analyse vers l’identification spontanée d’interprétations correctes de la
phrase. Ce mode opératoire non contrôlé conduit à des effets de bord indésirables bien
connus : explosion combinatoire, ambiguïtés factices, échecs d’analyse.
La décomposition descriptive. Pour assurer une couverture la plus large possible, le
système doit être capable de traiter la très grande variété des constructions linguistiques
que l’on peut trouver dans des textes réels. Ceci exige une granularité fine dans la
description linguistique, et impose d’être capable de contrôler des centaines de
configurations différentes de façon opératoire. L’incrémentalité permet de décomposer la
description linguistique d’un phénomène linguistique donné en un grand nombre de
descriptions partielles autonomes. Plus précisément, dans un analyseur incrémental, on
décompose la tâche de découverte des configurations répondant à ce phénomène. Par
exemple, pour reconnaître les configurations à contrôle de l’infinitif, on aura d’abord
reconnu la relation de complément entre un verbe et un verbe à l’infinitif, puis lors d’une
étape ultérieure, on aura reconnu une relation de complément entre ce même verbe et un
chunk prépositionnel, et enfin encore plus tard dans le processus, une règle spécifique
reconnaîtra la structure de contrôle globale de façon simple, sans avoir à reconnaître les
différents éléments du puzzle dont chacun a pu être difficile à reconstituer, et qui ont été
pris en charge par des modules spécifiques dans l’enchaînement incrémental.
Les chercheurs de Centre de Recherche de Xerox ont mis au point un système générique
pour construire des analyseurs syntaxiques robustes basés sur le concept
d’incrémentalité, c’est-à-dire des systèmes basés sur l’enchaînement en cascade de
couches de règles, écrites par un « grammairien »25 : le système XIP. Ce système permet
de réaliser des analyseurs prenant en entrée des textes bruts ou des sorties d’autres
analyseurs, de type tokéniseur, étiqueteur morphosyntaxique ou chunker. Le formalisme
des règles a été conçu pour permettre l’incrémentalité et la profondeur des analyses. Le
25 Le joli terme de grammarian est utilisé par (Aït-Mokhtar et al., 2002, p. 131)
64
système repose sur une représentation unifiée : une séquence d’arbres en constituants.
Les noeuds des arbres sont étiquetés par des catégories morphosyntaxiques ou des noms
de constituants, et sont associés à des ensembles de traits attribut/valeur. Les règles
s’appuient sur une représentation bipartite mais cohérente de l’entrée : des arbres en
constituants et des relations de dépendance. Une règle de dépendance a la syntaxe
suivante :
1- un schéma d’appariement d’arbre qui spécifie les propriétés structurales d’une
portion de la séquence d’arbres en constituants en entrée.
2- une expression booléenne qui spécifie des conditions sur les relations de dépendance
et sur la disposition linéaire des tokens ou chunks.
3- un terme de dépendance qui indique quelle est la relation de dépendance à ajouter
quand les conditions sont vérifiées. Les arguments de la relation de dépendance sont
des variables qui sont exprimées dans la description du schéma d’appariement et
dans les conditions.
Avec un tel formalisme, il est possible de décrire des règles très riches avec un degré de
finesse très précis. Voici, sous une forme non formalisée, quelques règles que les auteurs
donnent dans leur article de 2002.
Pour identifier les relations de complément d’objet direct, par exemple dans la phrase
John enjoys wine.
1- Schéma d’appariement d’arbre : la tête d’un chunk verbal a le trait ‘+transitif’ ; ce
chunk verbal est dans une proposition ; dans cette proposition, il est suivi d’un
chunk nominal qui n’a pas le trait ‘+temporel’.
2- Conditions : (pas de conditions).
3- Terme de dépendance : placer une relation de complément d’objet direct entre la tête
du chunk verbal et la tête du chunk nominal.
Pour identifier le partage de fonction dans des structures coordonnées, par exemple dans
la phrase John peels and then eats an apple.
1- Schéma d’appariement d’arbre : pas de schéma.
2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) et un nom
(#2) (entre eats et apple) ; il y a une relation de coordination entre ce verbe (#1) et
un autre verbe (#3) qui le précède (entre peels et eats) ; cet autre verbe (#3) n’a pas
de complément d’objet.
3- Terme de dépendance : placer une relation de complément d’objet entre le premier
verbe (#3) et le nom (#2) (entre peels et apple).
Pour identifier les structures de contrôle de l’infinitif, par exemple dans la phrase Mary
orders Fred to close the window.
1- Schéma d’appariement d’arbre : pas de schéma
65
2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) qui a le
trait ‘+contrôle infinitif sujet’ et un verbe à l’infinitif (#2) (entre orders et close) ; il
y a une relation de complément d’objet entre ce verbe (#1) et un chunk nominal (#3)
(entre orders et Fred).
3- Terme de dépendance : placer une relation de sujet entre le verbe infinitif (#2) et la
tête du chunk nominal (#3) (entre close et Fred).
Les exemples donnés ci-dessus donnent une idée du type de règles que le grammairien
doit écrire pour construire le système. Ces règles sont établies en fonction d’un savoir
grammatical que possède le grammairien sur les structures qu’il souhaite voir reconnues
par le système. Ce savoir grammatical ne se manifeste pas uniquement dans ces règles. Il
est aussi dans l’architecture globale du traitement. Au grammairien de choisir quels
ensembles de règles vont s’appliquer à chaque couche. Dans une approche par règles,
c’est-à-dire où les règles d’analyse sont écrites indépendamment de l’algorithme, il est
important que cet algorithme soit connu du grammairien. Dans le cas de XIP, même si
cela n’est pas stipulé dans l’article, on peut supposer que les règles s’appliquent dans
l’ordre dans lequel elles sont données dans la grammaire, et que chaque règle est testée
en parcourant la séquence en entrée de gauche à droite. L’ordre d’enchaînement des
couches de traitement et celui des règles au sein d’une couche sont fondamentaux, mais
c’est au grammairien de les optimiser en conciliant la connaissance grammaticale et les
contraintes d’implémentation.
Since the application of a rule of a given stage depends on the background
information produced by the previous stages, the correct choice of
increments is important and is made on the basis of the identification of
various linguistic phenomena and the (possibly multiple) configurations of
each phenomenon. The incremental order is determined in such a way that
basic and simple phenomena are always described before more complex
ones. For a given phenomenon, general and default configurations are
modelled before more specific cases and exceptions.
(Aït-Mokhtar et al., 2002, p. 136)
2.3.9. Bilan : une lignée
A l’issue de cette description de différents analyseurs développés ces 50 dernières
années, on pourrait s’interroger sur l’éventuelle existence et unité d’un courant de
recherche en analyse syntaxique robuste. En fait, la revue des travaux effectuée dans
cette section ne répond pas aux normes du classique «état de l’art » que l’on retrouve
dans les disciplines scientifiques, dans lequel on expose comment les résultats obtenus
contribuent à l’avancée des connaissances dans un domaine scientifique. Les travaux de
présentés ici sont le plus souvent menés par des individus ou des groupes restreints,
relativement isolés, selon une démarche ingénierique. Celle-ci laisse un large espace de
liberté dans les choix de conception et fait la part belle aux innovations personnelles. On
est moins que dans l’accumulation des connaissances que dans la réitération d’efforts
visant à la résolution du même problème, celui de l’analyse syntaxique automatique,
66
dans des contextes différents (différences de langues, de contraintes technologiques, de
principes de base, d’applications cibles). On peut malgré tout tenter de dégager des
récurrences et des points de convergence dans les choix des concepteurs, qui, une fois
rassemblés, tracent les contours de ce que Gilbert Simondon, dans sa philosophie des
techniques, appelle une lignée (Simondon, 1971) (cf. Chap. 3, section 3.3.2).
- Application. Presque tous les travaux visent une application spécifique : la
traduction automatique pour Garvin, le résumé d’articles scientifiques pour le projet
TDAP, la recherche documentaire pour Debili, la correction grammaticale et la
vérification de style pour le projet PLNLP.
- Cascade. La majorité des travaux affichent une architecture en cascade, qui organise
les traitements en plusieurs passes, sans contrainte sur le sens de parcours de la
phrase (gauche-droite, droite-gauche). L’ordonnancement des traitements répond à
des principes, plus ou moins explicités, de bons sens : traiter d’abord les relations à
plus courte distance et les plus sûres, compléter de façon incrémentale les
analyses… Une exception notable est constituée par le choix de J. Vergne qui fait du
traitement gauche-droite en seule passe un principe de base dans sa conception de
l’analyse syntaxique.
- Procéduralité. Aucun des chercheurs ne présente la déclarativité et la séparation
nette des règles et des algorithmes comme des principes fondamentaux. Leurs
systèmes sont plutôt de style procédural. C’est particulièrement le cas pour
P. Garvin, qui juge non tenable le principe de la séparation dès que les systèmes se
complexifient. La grammaire de base du projet PLNLP, qui comporte 300 règles, est
complétée par une procédure d’ajustement. Dans le cas de l’analyseur XIP, le choix
d’un formalisme de haut niveau pour l’écriture de règles répond non pas à des
considérations d’ordre théoriques, mais au souci d’impliquer des grammairiens non
spécialistes de programmation dans le développement d’analyseurs.
- Absence de théorie. Aucun chercheur ne se réclame, de façon forte, d’une théorie
linguistique. Même dans la présentation rétrospective, par Joshi et Hopely, de
l’analyseur développé dans l’équipe dirigée par le linguiste Z. S. Harris, la référence
à la théorie est absente. Néanmoins, S. Abney affirme une pertinence
psycho-linguistique à ses chunks, et J. Vergne recourt à une contrainte de
plausibilité cognitive pour justifier son choix d’un traitement gauche-droite en une
passe.
67
Chapitre 3
Description de l’analyseur SYNTEX
3.1. Principes de base
3.1.1. Analyseur syntaxique opérationnel
L’analyseur SYNTEX a été développé à l’origine (Bourigault et Fabre, 2000) pour
prendre la suite du logiciel LEXTER (Bourigault, 1994), un analyseur syntaxique robuste
dédié au repérage des syntagmes nominaux terminologiques dans les corpus spécialisés
et utilisé dans des applications de construction de terminologies ou d’ontologies
spécialisées. Les diverses expérimentations réalisées avec LEXTER avaient mis en
évidence la nécessité d’étendre la couverture du logiciel à l’extraction des syntagmes
verbaux (chap. 1). L’objectif du projet SYNTEX était la construction d’un analyseur
syntaxique opérationnel, précis et efficace, qui produise des analyses aussi correctes et
complètes que possible, sur des textes de genres variés, avec des temps de traitement
raisonnables pour être compatibles avec la nécessité d’absorber des volumes de plus en
plus importants ; un analyseur qui soit utilisable dans une large gamme d’applications,
que ce soit du côté de la recherche académique, en linguistique, sciences humaines,
intelligence artificielle, ou de celui des applications industrielles, pour la construction
d’ontologies, le traitement de l’information, la recherche d’information, etc. J’ai choisi
de qualifier d’opérationnel, un tel analyseur, en référence à l’expression « operational
syntax » utilisé par J. Bar-Hillel son article de 1951, qui constitue le premier état de l’art
sur le domaine de la Traduction Automatique (Bar-Hillel, 1951) :
A considerable body of descriptive data about the language of the world
has been amassed in recent years, but so far no operational syntax of any
natural language exists with a sizeable degree of completeness, and the
necessity of providing such a syntax has apparently not been recognized
by linguists. To give an analogy: Just as even the most extensive
knowledge of all imaginable properties of all chemical substances will not
materially assist a student of chemistry in developing a method of
analyzing a given mixture of unknown chemical substances, so even the
68
most elaborate description of the properties of all morphological units of a
given language will not enable a student of linguistics to find, in a
reasonable time, a method of analyzing a given sentence-specimen of this
language. Chemists have had to write, in addition to their general
textbooks, special books instructing the student on how to proceed in a
fixed sequential order (order which sometimes depends on the outcome of
the preceding step) in his attempted analysis of a given mixture. Likewise
special books will have to be written containing sequential instructions for
linguistic analysis, i.e. an operational syntax.
(Bar-Hillel, 1951, p. 232)
Ma conviction au départ de ce projet, forgée lors de l’expérience LEXTER, était qu’il était
possible d’avancer vers cet objectif en restant hors du paradigme formel, d’une part, et
sans attendre que soient disponibles des ressources lexicales à très large couverture pour
le français, d’autre part. Sur le plan de la description linguistique, je me suis appuyé sur
une bonne connaissance de la grammaire traditionnelle et des travaux de syntaxe
descriptive, et j’ai adopté une démarche de développement empirique basée sur des tests
systématiques sur corpus. Sur le plan des ressources, j’ai choisi d’abord de profiter de la
disponibilité d’étiqueteurs morphosyntaxiques très performants, et j’ai opté pour une
stratégie minimaliste et opportuniste : reprendre et développer l’apprentissage endogène,
et construire les ressources nécessaires au fur et à mesure que les besoins apparaissent,
autant que possible de façon automatique à partir de grands corpus.
3.1.2. Un problème de reconnaissance de formes
Dans le paradigme formel, le problème de l’analyse syntaxique automatique se formule
selon le thème de la compilation. La fonction de l’analyseur est de décider si la séquence
en entrée est bien formée du point de vue de la grammaire de l’analyseur, et d’en donner
une description conforme à cette grammaire. L’analyse est dirigée par la connaissance
des structures syntaxiques licites de la langue, formulée de façon générative. A l’instar
de bon nombre de chercheurs dont j’ai décrit les travaux dans le chapitre précédent, je
n’adopte pas ce point de vue. Je formule le problème de l’analyse syntaxique comme un
problème de reconnaissance de formes. La séquence en entrée est supposée avoir une
forme, syntaxique, et c’est cette forme que l’analyseur doit approcher au mieux.
L’analyseur n’a pas pour fonction de déterminer si une phrase est grammaticalement
correcte ou non, il doit fournir une description de la forme syntaxique pour toute
séquence du corpus qui lui est donnée. Quelques exemples de séquences extraites de sont
donnés en 1-426.
26 Dans ce chapitre, les exemples attestés sont suivis du code du corpus d’origine. [LMO] : Le Monde, décembre
1999 ; [HAN] : un extrait du corpus Hansard ; [STX] : le roman Vol de nuit d’Antoine de Saint-Exupéry.
69
(1) Dans certaines gammes, trop de cigares mal roulés, aux capes imparfaites,
présentent des arômes ternes et insipides, sans parler de la contrefaçon, qui
touche de nombreux secteurs de la distribution. [LMO]
(2) Une mesure impatiemment attendue par les opérateurs concurrents de
France-Télécom. [LMO]
(3) Si c'est un bon projet de loi, il me semble qu'il devrait mériter une vigoureuse
défense de la contribution qu'il apportera à l'amélioration de la vie
canadienne. [HAN]
(4) Rivière sortit pour tromper l'attente, et la nuit lui apparut vide comme un
théâtre sans acteur. [STX]
Les séquences à analyser ne ressemblent pas toujours aux phrases des théoriciens de la
syntaxe. C’est pourquoi j’emploie le terme de séquence, et non ceux de phrase ou
d’énoncé. Dans la communauté des linguistes, il existe des courants forts qui remettent
en cause le statut même de la phrase. Ceux-ci se développent d’une part chez les
linguistes de l’oral et d’autre part chez ceux qui travaillent sur les discours. Claire
Blanche-Benveniste (2002), par exemple, affirme que « La notion vague de phrase
usurpe des propriétés qui reviennent de fait aux constructions verbales, comme celles de
modes, temps, diathèse ou fonctions (…). Dans la plupart des cas, la phrase n’est pas une
bonne unité de calcul pour l’analyse syntaxique (…) » (Blanche-Benveniste, 2002, p. 7).
Pour elle, il faudrait distinguer trois domaines de dépendance syntaxique : celui des
dépendances par rapport à une catégorie grammaticale (la syntaxe au sens strict), celui
des dépendances qui se font en dehors de toute référence à une catégorie de grammaire
(la « macro-syntaxe »), et celui des unités énonciatives (op. cit., p. 20). Pour Alain
Berrendonner, qui se place dans la perspective de l’analyse des discours, la notion de
phrase n’est pas non plus un instrument opératoire : « La phrase est un héritage de la
tradition typographique et grammaticale, une notion originellement conçue pour
raisonner et normer une pratique utilitaire : la mise en écrit du discours » (Berrondonner,
2002, p. 27). Il propose de remplacer cette notion par deux types de données
empiriquement fondées : la clause et la période. Les clauses sont des « îlots de
dépendance grammaticale » (op. cit., p. 27). Les périodes sont des secteurs de discours
délimités par des marques prosodiques ad hoc. La syntaxe de la clause est bien connue,
c’est la syntaxe au sens strict. Celle des périodes est d’un tout autre ordre. Il faut, pour la
caractériser, introduire la notion de « mémoire discursive », c’est-à-dire « une
représentation des savoirs publiquement partagés par les interlocuteurs » (op. cit.,
p. 30) : les unités minimales de la période sont les clauses (plus précisément des
énonciations de clauses), et chaque énonciation opère des transformations de la mémoire
discursive. K. Gerdes et S. Kahane (2006) reprennent la la distinction entre micro- et
macrosyntaxe pour mettre en place leur modèle topologique du verbe en français.
Pour décrire les formes syntaxiques, j’ai choisi le mode de représentation en dépendance.
Le principe de la représentation syntaxique d’une phrase par un arbre de dépendance est
que, dans une phrase, la présence de chaque mot est légitimée par la présence d’un autre
mot ; on représente cet état de fait par un lien syntaxique entre le second mot (le
70
gouverneur) et le premier (le dépendant). L’arbre constitué des mots et des liens
syntaxiques constitue ce que Lucien Tesnière appelle un stemma (Tesnière, 1959). Au
moment de passer de LEXTER, analyseur centré sur le groupe nominal, à SYNTEX, censé
avoir une couverture beaucoup plus large, j’ai abandonné la constituance pour la
dépendance. Le choix de la dépendance s’est immédiatement et très naturellement
imposé, car il permet une formulation simple et opératoire du problème de l’analyse
syntaxique, vue comme un problème de reconnaissance de formes. On peut décomposer
le problème de la reconnaissance de la structure syntaxique d’une phrase en
sous-problèmes locaux de reconnaissance de liens syntaxiques. Dans (Bourigault et
Fabre, 2000), en reprenant les termes de la syntaxe posito-argumentale de J.-C. Milner
(Milner, 1989), nous formulions le problème de la reconnaissance syntaxique de cette
façon : pour chaque mot de la séquence, identifier sa position dans la structure
syntaxique à partir de sa place dans l’énoncé. Je le reformule ici de façon plus précise :
pour chaque mot de la séquence, trouver son gouverneur. La procédure d’analyse qui
s’impose alors avec cette formulation de problème est ascendante. Les formes
syntaxiques se révèlent au fur et à mesure que l’analyseur reconnaît les liens syntaxiques
entre mots. Pour décrire la forme syntaxique des séquences, je reprends la terminologie
de Berrendonner, et je définis, dans SYNTEX, une clause comme la projection d’un arbre
de dépendance syntaxique dont le gouverneur ne dépend d’aucun autre mot dans la
séquence. Dans une séquence, l’analyseur peut reconnaître plusieurs clauses ; celles-ci
sont alors simplement juxtaposées, aucune relation n’est placée entre elles par
l’analyseur. Les clauses, leur délimitation et leur forme, émergent de l’analyse et sont
révélées à l’issue du processus. Par exemple, la forme de la séquence 1 est la
juxtaposition de 3 clauses :
- la première clause (Dans certaines gammes) est l’îlot rectionnel dominé par la
préposition dans en tête de séquence. Soit SPNom son étiquette.
- la deuxième clause (trop de cigares mal roulés, aux capes imparfaites, présentent
des arômes ternes et insipides) est l’îlot rectionnel dominé par la forme verbale finie
présentent. Soit S son étiquette.
- la troisième clause (sans parler de la contrefaçon, qui touche de nombreux secteurs
de la distribution) est l’îlot rectionnel dominé par la préposition sans, elle-même
gouvernant la forme infinitive parler. Soit SPVinf son étiquette.
La forme globale de la séquence 1 est donc : [SPNom] , [S] , [SPVinf], la forme de
chacune des trois clauses étant donnée par un arbre de dépendance. La préposition dans,
le verbe présentent et la préposition sans n’ont été rattachés à aucun gouverneur par
l’analyseur. Les formes des séquences 1-4 sont données en 1’-4’ (les gouverneurs non
dépendants sont soulignés).
(1’) [SPNom] , [S] , [SPVinf] : [SPNom Dans certaines gammes ] , [S trop de
cigares mal roulés, aux capes imparfaites, présentent des arômes ternes et
insipides ] , [SPVinf sans parler de la contrefaçon, qui touche de nombreux
secteurs de la distribution ] .
71
(2’) [SNom] : [SNom Une mesure impatiemment attendue par les opérateurs
concurrents de France-Télécom ]
(3’) [SSub] , [S] : [SSub Si c'est un bon projet de loi ] , [S il me semble qu'il devrait
mériter une vigoureuse défense de la contribution qu'il apportera à
l'amélioration de la vie canadienne ]
(4’) [S] , CC [S] : [S Rivière sortit pour tromper l'attente ] , [cc et ] [S la nuit lui
apparut vide comme un théâtre sans acteur ] .
Dans une séquence donnée, il y a autant de clauses que de mots non gouvernés. Ces mots
sont parfois isolés, quand ils n’ont eux-mêmes aucun dépendant. Le non-attachement
d’un mot à un gouverneur peut être le résultat d’un choix d’implémentation, comme
celui de ne pas chercher de gouverneur aux prépositions ou adverbes situés en position
initiale de séquence (l’adverbe en revanche dans l’exemple 5, la préposition sur dans
l’exemple 5, la préposition en dans l’exemple 6), aux conjonctions de subordination
autres que que (la conjonction alors que dans l’exemple 6). Le non-attachement d’un
mot peut aussi être la manifestation d’une erreur de l’analyseur. Dans l’exemple 7,
l’analyseur n’a pas reconnu la bonne catégorie pour la forme que, qu’il n’a pas réussi à
attacher, de même qu’il n’a pu attacher la préposition dans, ce qui produit par erreur la
clause dans le giron de la Russie. De même, dans l’exemple 8, la clause des mesures
préventives est identifiée à tort à cause de la non reconnaissance du segment si
nécessaire, dans lequel si est étiqueté Adverbe.
(5) [Adv] , [SPNom] , [S] : [Adv En_revanche ] [,] [SPNom sur la libéralisation des
services ] [,] [S les pays industrialisés ont peu de divergences ]
(6) [SPNom] , [S] [SSub] : [SPNom En Thaïlande ] [,] [S le coût mensuel d' une
trithérapie est de 675 dollars ] [SCSub alors qu'un employé du secteur tertiaire
gagne le plus souvent 120 dollars par mois ]
(7) [S] [Sub] [SPNom] : [S Ils ne peuvent trouver leur bonheur ] [Sub que ] [SPNom
dans le giron de la Russie ]
(8) [S] [SAdj] [SPNom] : [S C'est la raison pour laquelle Grenoble a été choisie
pour étudier ce phénomène propre aussi à certaines vallées alpines et prendre
] [,] [SAdj si nécessaire ] [,] [SPNom des mesures préventives ]
3.1.3. Fonctionnement simplifié
SYNTEX est un analyseur procédural à cascade. Le terme à cascade signifie qu’il traite
chaque séquence en plusieurs passes successives. L’entrée d’une passe est la sortie de la
passe précédente. La séquence donnée en entrée à l’analyseur est étiquetée : elle est
découpée en mots (token), à chaque mot est associée une catégorie grammaticale (nom,
verbe, adjectif…). J’utilise le TREETAGGER27. A chaque passe, l’analyseur ajoute des
27 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
72
liens syntaxiques, en s’appuyant sur les liens placés lors des passes antérieures. Le terme
procédural signifie que les liens syntaxiques sont placés par des heuristiques qui
décrivent l’algorithme de parcours de la chaîne des mots étiquetés partiellement
analysée entre un mot donné et un gouverneur ou dépendant potentiel. L’analyseur
SYNTEX est très proche, dans sa philosophie, de l’analyseur FULCRUM de P. S. Garvin
(Garvin, 1967), avec sa méthode par passes et ses mots pivots (chap. 2, section 2.3.2).
L’analyseur est aussi modulaire : chaque type de lien syntaxique (sujet, objet…) est pris
en charge par un module dédié. J’illustre de façon simplifiée le fonctionnement de
l’analyseur en déroulant pas à pas le traitement de la séquence 1. En préalable à l’analyse
syntaxique, l’étiqueteur morphologique a découpé la séquence en mots et a attribué une
étiquette morphosyntaxique à chacun des mots (N : nom, V : verbe, D : déterminant, P :
préposition, A : adjectif) (2). Il a reconnu la préposition complexe en direction du.
(1) Marie lance la pelote de laine rouge en direction du chat de Jean.
(2) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
D N P N V D N P N A P N P N
Lors d’une première passe, l’analyseur traite les relations dites « locales ». Il reconnaît
par exemple des liens syntaxiques entre un déterminant et son gouverneur, entre une
préposition et son dépendant, entre un auxiliaire et son participe passé (3).
(3) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
Lors d’une deuxième passe, l’analyseur traite les relations dites « non ambiguës ». Il
reconnaît dans la séquence 1 le lien Sujet entre le verbe lance et le nom fille et le lien
Objet entre le verbe lance et le nom pelote (4). Les flèches en pointillés sous la séquence
marquent les étapes du parcours entre les extrémités des liens syntaxiques. Les barres
verticales sous les mots marquent les fins de parcours. Le module de recherche des sujets
se positionne sur le verbe conjugué lance et se déplace vers la gauche à la recherche d’un
dépendant pour ce gouverneur. Il rencontre d’abord le nom Marie qui est déjà gouverné
(par la préposition de), puis le nom fille, situé immédiatement à gauche de la préposition.
Le module retient ce nom, puisqu’il est libre, et stoppe son parcours puisque le
déterminant gouverné par ce nom est le premier mot de la séquence. Le module de
recherche des objets se positionne sur le verbe transitif lance et se déplace vers la droite
à la recherche d’un dépendant pour ce gouverneur. Il rencontre d’abord le déterminant la
et « remonte » à son gouverneur pelote. Puisque ce nom est libre, il le retient comme
cible de la relation, et stoppe sa recherche.
(4) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
73
Lors d’une troisième passe, l’analyseur traite les relations dites « non ambiguës ». Il
recherche les gouverneurs potentiels des adjectifs et des prépositions. Pour des raisons
de lisibilité, je décompose la description en commentant le traitement des 3 prépositions
de (5a), puis de l’adjectif rouge (5b) et enfin de la préposition en direction du (5c). Pour
la première préposition de, le module de recherche des gouverneurs des prépositions
reconnaît sans ambiguïté le nom fille comme gouverneur. Pour la deuxième préposition
de, le module retient d’abord le nom pelote situé immédiatement à sa gauche, puis
remonte directement au verbe lance, gouverneur de ce nom et situé à gauche, qu’il
retient comme deuxième gouverneur candidat, et il stoppe la recherche sur ce verbe
conjugué. Il a donc retenu 2 gouverneurs candidats pour cette préposition. Pour la
troisième préposition de, le module retient d’abord le nom chat situé immédiatement à sa
gauche, puis remonte directement à gauche de la préposition qui gouverne ce nom, pour
se saisir de l’adjectif rouge, puis du nom laine, avant de remonter à la deuxième
préposition de, gouverneur de ce nom, dont il récupère tous les gouverneurs candidats. Il
a donc retenu 4 gouverneurs candidats pour cette préposition.
(5a) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
Pour trouver le gouverneur de l’adjectif rouge (5b), le module de recherche des
gouverneurs nominaux des adjectifs part de cet adjectif, se déplace à gauche et
sélectionne le nom laine comme candidat, puis, situé immédiatement à gauche de la
préposition gouvernant ce nom, le nom pelote. La recherche s’arrête car ce second nom
est gouverné par un verbe qui ne se construit pas avec un attribut. Le module a donc
retenu 2 gouverneurs candidats pour cet adjectif.
(5b) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
De façon analogue (5c), le module de recherche des gouverneurs des prépositions
identifie comme gouverneurs candidats pour la préposition en direction du les mots
rouge, laine, pelote et lance. A la fin du traitement des relations ambiguës, l’analyse a
produit le treillis (5d). La procédure de désambiguïsation qui intervient à l’issue de ce
traitement produit le résultat 5e. Le résultat final complet de l’analyse est l’arbre de
dépendance 5f.
(5c) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
74
(5d) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
(5e) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
(5f) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean .
Dans l’activité de conception et de développement de l’analyseur, les problèmes à
résoudre relèvent de deux grands types : au niveau macroscopique, ils concernent le
choix de l’architecture du système : dans quel ordre enchaîner la reconnaissances des
liens syntaxiques (3.1.4) ; au niveau microscopique, ils concernent la mise au point des
algorithmes de parcours pour la reconnaissance des liens syntaxiques (3.1.5).
3.1.4. Architecture
SYNTEX effectue une analyse ascendante. Il identifie progressivement les liens de
dépendance syntaxique élémentaires pour reconnaître in fine la forme syntaxique globale
de la séquence en entrée. Des questions se posent alors concernant la stratégie à adopter
pour traiter l’ensemble des mots de la phrase : dans quel ordre entreprendre la
reconnaissance des liens syntaxiques ? De gauche à droite ? Relation par relation ?
Combien de passes ? Quels types de liens reconnaître à chaque passe ? Quand on vise un
analyseur syntaxique opérationnel, il n’y a pas lieu de s’imposer des contraintes de type
cognitif sur l’architecture du système et rien n’exige a priori d’adopter un traitement
incrémental, de gauche à droite, sans retour en arrière. Les questions posées sont propres
à la problématique de développement d’un analyseur opérationnel, et les enjeux relèvent
crucialement de l’ingénierie linguistique.
La difficulté de fond vient de l’antinomie entre la contrainte de séquentialité des
traitements informatiques et l’intrication des liens syntaxiques dans un énoncé. Celle-ci
est liée à la propriété de concrétion de la langue (Milner, 1989, p. 113), qui fait qu’une
difficulté syntaxique ne vient jamais seule. Dans un énoncé, les configurations
syntaxiques problématiques se mêlent et s’enchevêtrent. Par exemple, du point de vue du
traitement automatique, on sait que la coordination et le rattachement prépositionnel
constituent chacun un problème sérieux. Mais les cas ne sont pas rares où l’analyseur
doit résoudre les deux problèmes dans la même zone de la séquence. C’est le cas dans
l’exemple 6, où les ambiguïtés de rattachement de la deuxième préposition à (devant
agriculture) et de la préposition aux se mêlent avec celle de la coordination.
(6) La commission européenne s'oppose à une limitation des discussions à
l'agriculture et aux services. [LMO]
75
De façon générale, l’antinomie entre séquentialité informatique et concrétion syntaxique
débouche sur une double circularité : (1) pour reconnaître un lien syntaxique de tel type
(Sujet, Objet, etc.) pour un mot de l’énoncé, il faudrait avoir déjà reconnu un lien d’un
autre type pour un autre mot, et réciproquement ; (2) pour reconnaître un lien syntaxique
pour un mot à telle place dans l’énoncé, il faudrait avoir déjà reconnu un lien à gauche,
ou à droite, et inversement. Quelques exemples (construits) permettent illustrer cette
circularité. Dans l’exemple 7, c’est la reconnaissance du lien syntaxique entre l’adjectif
roses, dernier mot de l’énoncé, et le nom bonbons qui permet la reconnaissance sans
ambiguïté du nom bonbons comme gouverneur de la préposition à. Le problème de la
circularité est porté à son comble avec la coordination. Dans l’exemple 8, il serait
préférable d’avoir reconnu le liens Objet entre aime et chat d’une part et le lien Sujet
entre dort et chien d’autre part pour identifier correctement le statut du coordonnant.
Dans l’exemple 9, la situation est plus compliquée. Pour reconnaître le lien Sujet entre
dorment et chats, il faudrait avoir identifié le fait que le coordonnant et relie hommes et
oiseaux, objets de regardent. Et réciproquement…
(7) Il donne des bonbons à la fraise roses.
(8) Jean aime le chat et le chien dort.
(9) Les chats qui regardent les hommes et les oiseaux dorment.
Deux ordres de séquentialité interagissent dans le traitement informatique, correspondant
à la double circularité évoquée ci-dessus : l’ordre dans lequel on prend les mots dans la
phrase (de gauche à droite, de droite à gauche), l’ordre dans lequel on traite les relations
(identification des sujets avant ou après les objets, rattachement des prépositions avant
ou après les adjectifs, etc.). La difficulté est réelle, et grande peut être la tentation de
chercher à mettre en place des solutions d’un niveau de complexité qui serait à la hauteur
de la difficulté du problème : par exemple, décider de générer tous les possibles, en
repoussant au terme de l’analyse le choix de la bonne description dans le fouillis du
treillis. Pour aboutir à un analyseur opérationnel, il faut savoir maîtriser la complexité, et
accepter le risque d’erreur. Il faut trouver un ordonnancement optimal tel que les
quelques pertes entraînées par des décisions précoces soient largement compensées par
les gains ultérieurs permis par la pose anticipée de liens syntaxiques.
Au départ du projet, j’ai choisi l’architecture et les principes suivants :
- Une passe par relation, dans cet ordre : coordination, objet, sujet, adjectif épithète,
prépositions.
- Aucun module ne remet en cause les relations ou étiquettes placées par les modules
antérieurs.
- Chaque module résout ses ambiguïtés avant de passer la main au module suivant.
Cette stratégie initiale de base, cloisonnée, a été rapidement opérationnelle et m’a permis
d’enclencher le cycle de développement par essai/erreur des heuristiques des différents
modules de connaissance de liens syntaxiques et des procédures de désambiguïsation,
endogènes et exogènes. C’est en développant et évaluant ces modules que j’ai pu
identifier les limites de l’architecture initiale, et imaginer des stratégies adéquates
76
sensiblement plus complexes, pour aboutir à l’architecture présentée dans la section
suivante de ce chapitre (3.2).
3.1.5. Algorithmes de reconnaissance
Le second type de problème, après celui de l’architecture, que pose le développement de
l’analyseur est celui de la mise au point des modules de reconnaissance de liens
syntaxiques. Dans chaque module est décrit un algorithme qui spécifie les parcours
possibles, dans la séquence étiquetée et partiellement analysée, entre un mot de départ,
susceptible d’être la cible ou la source d’un lien de dépendance et son gouverneur ou un
de ses dépendants. Cet algorithme doit permettre de couvrir le maximum de
configurations de surface susceptibles de se réaliser entre un dépendant et son
gouverneur. L’élaboration de ces modules exige la mise au jour de contraintes
syntaxiques locales sur lesquelles s’appuyer pour déterminer les procédures de
reconnaissance des liens syntaxiques. Certaines de ces contraintes sont générales, en
particulier la contrainte de projectivité (de façon générale, les liens syntaxiques ne se
croisent pas) et la contrainte d’unicité du gouverneur (de façon générale, un mot n’a
qu’un seul gouverneur). Mais à chaque relation syntaxique correspond des
configurations particulières qui imposent des contraintes spécifiques. Par exemple,
concernant le module qui recherche les sujets, quelles étiquettes morphosyntaxiques ou
quelles configurations syntaxiques, décrites en termes soit de succession d’étiquettes,
soit de liens syntaxiques, est-il légitime de sauter pour atteindre un sujet en partant d’un
verbe conjugué ? Quelles sont celles au contraire qui constituent des barrières à ne pas
franchir ?
Pour identifier ces contraintes, et en déduire les algorithmes d’analyse, la voie la plus
efficace est celle de la confrontation systématique aux corpus par essai/erreur, de l’aller
et retour incessant entre l’implémentation et l’observation. C’est en implémentant et
testant les algorithmes à grande échelle que l’on améliore la précision et la couverture
des modules de reconnaissance. Cela est d’autant plus vrai que face à des énoncés réels,
on est confronté à des configurations syntactico-discursives sur lesquelles les
grammaires ou les théories syntaxiques sont peu loquaces. Par exemple, le traitement des
coordonnants et des virgules (apposition, incise, coordination, énumération), qui
foisonnent dans les textes réels, exigent le développement de procédures d’analyse
complexes, qui empruntent peu aux descriptions linguistiques classiques, et qui exigent
en revanche une analyse en corpus détaillée. Les théories syntaxiques sont de peu de
secours. Les oeuvres des grands noms de la dépendance, comme Tesnière (1959) et
Mel’cuk (1988), sont passionnantes et stimulantes pour le grammairien qui sommeille
dans tout concepteur d’analyseur. Mais elles fournissent peu de clés pour la mise au
point d’un système automatique de reconnaissance de formes dépendancielles. Tel n’est
pas leur propos. Les problèmes pratiques liés à la reconnaissance automatique de la
structure syntaxique d’une phrase et les problèmes théoriques liés à la description
syntaxique sont de deux ordres différents.
77
Néanmoins, même si le développement de l’analyseur n’emprunte rien directement aux
grammaires ou aux travaux de descriptions syntaxiques, il est impossible de mener à
bien cette tâche sans une bonne connaissance de ces travaux. D’abord, et c’est le
minimum, parce que le concepteur doit être capable de d’identifier lui-même l’analyse
attendue face à toute configuration avant de chercher à modéliser des procédures de
reconnaissance. Ensuite, il doit reconnaître des phénomènes syntaxiques identiques
derrière la multiplicité des configurations syntaxiques de surface qu’il observe quand il
dépouille un corpus en examinant les cas d’application des règles qu’il élabore. Il doit
donc être expert en grammaire. Enfin, le recours à des théories et descriptions
syntaxiques est utile pour motiver tel choix de représentation pour certaines relations de
dépendance qui peuvent poser problème : quel est le gouverneur, quel est le dépendant,
et dans quel sens s’établit la relation de dépendance, dans le cas, par exemple, des
complexes verbaux, des structures comparatives, de la coordination.
3.2. Description des modules
3.2.1. Enchaînement des modules de reconnaissance
L’organisation de SYNTEX est modulaire (section 3.1.4). Il y a un module par type de
relation traitée (coordination, sujet, objet…). Un module est constitué d’un algorithme
décrivant les parcours possibles entre un mot de départ, passé en argument, un mot
d’arrivée auquel il est syntaxiquement relié via R. Le mot de départ est soit la source du
lien syntaxique (le gouverneur), et dans ce cas l’orientation de la recherche est celle de la
relation syntaxique (« orientation directe »), soit la cible (le dépendant), et dans ce cas
l’orientation de la recherche est inverse de celle de la relation syntaxique (« orientation
inverse »). Comme je l’ai évoqué dans la section 3.1.4 à propos de l’architecture de
l’analyseur, le choix de l’ordonnancement des modules est délicat. A ce stade du
développement de SYNTEX, j’ai convergé vers une organisation stable qui identifie, du
point de vue du traitement automatique, trois grandes catégories de relations,
correspondant à trois catégories de modules qui s’enchaînent dans cet ordre :
- Les relations locales (section 3.2.3). Il s’agit, par exemple, des relations entre un
déterminant et le nom qui le gouverne, entre une préposition et son dépendant, entre
un auxiliaire et un participe passé. Les liens syntaxiques correspondant connectent
des mots qui sont très proches, et les procédures de reconnaissance sont simples
- Les relations non ambiguës (sections 3.2.5 et 3.2.6). Il s’agit des relations Objet,
Attribut et Sujet. Les modules associés sont à orientation directe : chaque module
part du gouverneur (verbe) à la recherche du dépendant. Le problème de la
reconnaissance se formule pour chacune des relations de la façon suivante :
sélectionner le premier mot non gouverné (de telle ou telle catégorie, situé à droite
ou à gauche, selon la relation). Ces modules ne génèrent aucune ambiguïté.
78
- Les relations ambiguës (sections 3.2.7 à 3.2.12). Il s’agit de la relation entre un
pronom relatif et son antécédent, la relation entre une préposition et son gouverneur
et la relation entre un adjectif et le nom dont il est épithète. Les modules associés
sont à orientation inverse : chaque module part du dépendant (pronom relatif,
préposition, adjectif) à la recherche du gouverneur. Contrairement au cas précédent,
la recherche ne doit pas s’arrêter au premier gouverneur trouvé. Plusieurs
gouverneurs candidats peuvent être sélectionnés, qui sont tous syntaxiquement
également plausibles : ils ne peuvent être départagés sur de simples critères de
configuration syntaxique. Ces relations imposent donc une étape de
désambiguïsation.
La relation de coordination a un statut à part ; elle est traitée immédiatement après les
relations locales (section 3.2.4). Un module global intervient en fin de traitement
(section 3.2.13) pour modofoer certains liens syntaxiques posés par les modules
antérieurs, ajouter des liens syntaxiques « profonds » et construire la forme syntaxique
globale de la séquence. Avant de décrire en détail les différents modules, je présente,
dans la section suivante, les primitives d’implémentation utilisées dans les algorithmes
de parcours.
3.2.2. Formalisation du parcours
Dans le développement de l’analyseur SYNTEX, l’essentiel du travail porte sur la mise au
point des algorithmes décrivant les parcours possibles, dans la chaîne étiquetée et
partiellement annotée, entre les deux extrémités d’un lien syntaxique : entre un
dépendant et son gouverneur pour les modules à orientation inverse, entre un gouverneur
et un de ses dépendants pour les modules à orientation directe. J’ai défini un certain
nombre de fonctions primitives de calcul des pas de déplacement dans les parcours. Ces
primitives exploitent la propriété de projectivité ; sauf cas particuliers, les arbres de
dépendance construits par SYNTEX sont projectifs : « en plaçant les noeuds sur une ligne
droite et tous les arcs dans le même demi-plan, on peut assurer que 1) deux arcs ne se
coupent jamais et que 2) aucun arc ne couvre la racine de l’arbre. (…) La projectivité est
équivalente au fait que la projection de tout noeud x de l’arbre (c’est-à-dire l’ensemble
des noeuds dominés par x, x compris) forme un segment continu de la phrase. » (Kahane,
2001, p. 26). Les primitives de déplacement exploitent cette propriété en calculant les
pas de déplacement de telle sorte qu’un lien posé entre un point d’arrêt et le point de
départ du déplacement ne croise aucun lien déjà placé.
Avant de décrire ces fonctions, j’illustre l’idée avec un exemple figuré. Supposons
(exemple 1) qu’un module à orientation directe cherche un dépendant du mot f à sa
gauche, et qu’aient été placés les liens entre les mots a et c et entre les mots c et e (par
exemple, f est un verbe, le module cherche son sujet, certains liens prépositionnels ou
adjectivaux ont été placés). Au moment d’entamer son parcours à gauche, le module ne
peut s’arrêter sur le mot e car celui-ci a déjà un gouverneur (principe de l’unicité du
gouverneur) (exemple 2). Il ne peut s’arrêter sur le mot d car un lien syntaxique entre les
mots f et d viendrait couper un lien déjà placé (principe de la projectivité) (exemple 3).
79
Le module ne peut s’arrêter sur le mot c ou sur le mot d pour des raisons analogues. Le
premier pas du parcours doit conduire au mot a (exemple 4), qui sera ainsi le premier
mot testé comme dépendant de f.
(1) a b c d e f
?
(2) a b c d e f
!
(3) a b c d e f
!
(4) a b c d e f
Les fonctions primitives permettent d’implémenter le calcul des pas de parcours. Avant
de les décrire, quelques notations :
Soit un mot, soit i son numéro, c’est-à-dire son rang dans l’énoncé segmenté :
Gov(i) est l’ensemble constitué du couple (R,L). R est le nom d’une relation syntaxique.
L est une liste de numéros de mots. Quand la relation syntaxique R pointant sur i a
été désambiguïsée, la liste L ne comporte qu’un seul élément, qui est le gouverneur
de i via la relation R. Quand la relation syntaxique R pointant sur i n’a pas été
désambiguïsée, la liste L contient les numéros des gouverneurs candidats de i via la
relation R.
Gov(i)={(R,{j1, …, jn}), où n est le nombre de gouverneurs candidats de i, via la
relation R}
Dep(i) est l’ensemble des couples (Rj,j), tels que le mot j est le dépendant de i via la
relation Rj. Un mot peut avoir plusieurs dépendants. Les couples sont ordonnés par
valeur croissante de j. Le couple (Rj,j) n’intègre l’ensemble Dep(i) que quand la
relation Rj a été désambiguïsée, c’est-à-dire si Gov(j)={( Rj,i)}.
Dep(i)={(Rj,j), pour j=j1, …, jn, où n est le nombre de dépendants de i}
Je donne ci-dessous quelques exemples illustratifs (exemples 5 et 6, tableaux 1, 2 et 3).
SUJ est la relation sujet ; OBJ est la relation complément d’objet ; DET est la relation entre
un nom et son déterminant ; PREP est la relation entre une préposition et son
gouverneur ; CPREP est la relation entre une préposition et son dépendant ; ADJ est la
relation entre un adjectif et son gouverneur nominal.
80
(5) Le1 chat2 de3 Marie4 regarde5 la6 souris7 grise8 .
i Mot Gov(i) Dep(i)
1 Le {(DET, {2})} Æ
2 Chat {(SUJ, {5})} {(DET, 1), (PREP, 3)}
3 De {(PREP, {2})} {(CPREP, {3})}
4 Marie {(CPREP, {3})} Æ
5 Regarde Æ {(SUJ, 2), (OBJ, 7)}
6 La {(DET, {7})} Æ
7 Souris {(OBJ, {5})} {(DET, 6), (ADJ, 8)}
8 Grise {(ADJ, {7})} Æ
Tableau 1. Fonctions Gov et Dep pour l’exemple 5
81
(6) Marie1 regarde2 le3 chat4 gris5 sur6 le7 paillasson8 .
i mot Gov(i) Dep(i)
1 Marie {(SUJ, {2})} Æ
2 regarde Æ {(SUJ, 1), (OBJ, 4)}
3 le {(DET, {4})} Æ
4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5)}
5 gris {(ADJ, {4})} Æ
6 sur {(PREP, {5,4,2})} {(CPREP, {8})}
7 le {(DET, {8})} Æ
8 paillasson {(CPREP, {6})} {(DET, 7)}
Tableau 2. Fonctions Gov et Dep pour l’exemple 5, avant désambiguïsation de la
relation PREP pointant sur 4
i mot Gov(i) Dep(i)
1 Marie {(SUJ, {2})} Æ
2 regarde Æ {(SUJ, 1), (OBJ, 4)}
3 le {(DET, {4})} Æ
4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5), (PREP, 6)}
5 gris {(ADJ, {4})} Æ
6 sur {(PREP, {4})} {(CPREP, {8})}
7 le {(DET, {8})} Æ
8 paillasson {(CPREP, {6})} {(DET, 7)}
Tableau 3. Fonctions Gov et Dep pour l’exemple 5, après désambiguïsation de la
relation PREP pointant sur 4
On dispose de deux fonctions de base, qui donnent pour un mot donné dans une
séquence partiellement analysée les frontières droite et gauche de sa projection : frDmax
et frGmax. La fonction frDmax prend comme argument le numéro d’un mot et retourne
la frontière droite de sa projection. La fonction frGmax prend comme argument le
numéro d’un mot et retourne la frontière gauche de sa projection. Ce sont deux fonctions
récursives. Le principe, pour la fonction frDmax, est le suivant : dans la liste des
dépendants du mot, sélectionner le dépendant le plus à droite ; si ce mot n’a pas de
dépendant, il est la frontière droite ; s’il a un ou plusieurs dépendants, chercher sa
frontière droite, qui sera celle du mot initial, et ainsi de suite (tableau 4). Par exemple,
soit le mot regarde dans l’exemple (1). Son dépendant le plus à droite est le mot souris ;
le dépendant le plus à droite de souris est grise, qui n’a pas de dépendant. La frontière
droite de souris est donc le mot grise, qui est aussi la frontière droite du mot regarde.
82
Fonction frDmax(i)
si Dep(i) = Æ , retourner i
sinon Dep(i) = {(Rj,j), pour j=j1, …, jn}
si jn > i , retourner frDmax(jn)
sinon , retourner i
Fonction frGmax(i)
si Dep(i) = Æ , retourner i
sinon Dep(i) = {(Rj,j), pour j=j1, …, jn}
si j1 < i , retourner frGmax(j1)
sinon , retourner i
Tableau 4. Fonction frDmax et frGmax
On peut maintenant décrire les fonctions de base de parcours de la chaîne annotée. Dans
l’algorithme décrivant le parcours entre le point de départ (gouverneur ou dépendant)
d’une relation syntaxique et le point d’arrivée (dépendant ou gouverneur), la fonction de
base permet de passer d’un élément testé au prochain à tester. Chaque fonction de base
donne ainsi le pas élémentaire du parcours. Il y a 4 fonctions de base, selon le sens de
déplacement, de gauche à droite (gd) ou de droite à gauche (dg), et selon l’orientation de
la recherche par rapport à celle de la relation syntaxique, du gouverneur au dépendant
(GD) ou du dépendant au gouverneur (DG) :
- fonction gdGD : de gauche à droite quand on part du gouverneur et que l’on cherche
un dépendant
- fonction dgGD : de droite à gauche quand on part du gouverneur et que l’on cherche
un dépendant
- fonction gdDG : de gauche à droite quand on part du dépendant et que l’on cherche
un gouverneur
- fonction dgDG : de droite à gauche quand on part du dépendant et que l’on cherche
un gouverneur
Je décris plus en détail la dernière fonction, qui est la plus utilisée. C’est celle qui est
utilisée par le module ADJ qui cherche à gauche d’un adjectif des gouverneurs candidats
nominaux. C’est celle aussi qui est utilisée par le module PREP qui cherche à gauche
d’une préposition des gouverneurs candidats verbaux, nominaux ou adjectivaux. La
fonction dgDG a 2 arguments : i, le numéro du mot courant dans le parcours, et i0 le
numéro du mot initial dont on cherche des gouverneurs candidats. La fonction retourne
le numéro du prochain mot à analyser. Si cette valeur est 0, la recherche de gouverneurs
candidats s’arrête (tableau 5). Je précise qu’il s’agit d’une description simplifiée, les
choses se compliquant sensiblement avec la prise en compte des relations de
coordination et d’antécédence relative et des structures comparatives.
83
Fonction dgDG(i,i0)
1. si frDmax(i) > i0 , retourner 0
2. sinon
3. si Gov(i) = Æ , retourner frGmax(i)-1
4. sinon Gov(i) = {(R,L)}
5. si L={j}
6. si j>i , retourner 0
7. sinon retourner j
8. sinon L={j1, …, jn}
9. tester j1, …, jn comme candidats pour i0
10. retourner dgDG(j1)
Tableau 5. Fonction dgDG
J’illustre les différents pas de l’algorithme avec les exemples 7 à 1128. Dans l’exemple 5,
le module PREP cherche les gouverneurs potentiels de la préposition à. L’action du pas
n°1 arrête le parcours au nom bonbons, car le choix d’un gouverneur à gauche de ce nom
provoquerait un croisement avec le lien syntaxique entre le mot bonbons, situé à gauche
de la préposition, et le mot fraise, situé à sa droite. Dans l’exemple 6, le module ADJ
cherche les gouverneurs potentiels du participe passé installée. Après que le nom tension
a été testé et retenu comme candidat, l’action du pas n°3 prolonge le parcours au nom
ligne, situé immédiatement à gauche de la frontière Gauche du mot tension. La recherche
s’arrête car la frontière Gauche du mot ligne est le premier mot de la phrase. Dans
l’exemple 7, le module ADJ cherche les gouverneurs potentiels de l’adjectif gris.
L’action du pas n°6 arrête le parcours au nom chat, car le choix d’un gouverneur à
gauche de ce nom provoquerait un croisement avec le lien syntaxique placé entre chat et
dort. Dans l’exemple 8, le module PREP cherche les gouverneurs potentiels de la
préposition aux. Après que l’adjectif roses a été testé et retenu comme candidat, l’action
du pas n°7 prolonge le parcours au nom bonbon, qui est le gouverneur de l’adjectif (le
nom fraise est « sauté », car un lien entre aux et fraise viendrait croiser le lien déjà posé
entre roses et bonbons). Le parcours se prolonge au mot donne situé immédiatement à
gauche de la frontière Gauche du mot bonbons (pas n°3), et elle s’arrête car ce mot est
un verbe. Dans l’exemple 9, le module PREP cherche les gouverneurs potentiels de la
préposition à. Après que l’adjectif rose a été testé et retenu comme candidat, l’action du
pas n°9 entraîne le test des noms fraise et bonbon, gouverneurs candidats de l’adjectif,
comme gouverneurs candidats pour la préposition, et l’action du pas n°10 prolonge le
parcours au verbe donne, situé immédiatement à gauche de la frontière Gauche du
premier candidat (bonbon). Le module ajoute ce verbe à la liste des candidats, et arrête
sa recherche.
28 Je rappelle que, dans les exemples, les flèches situées au-dessus de la séquence représentent les liens
syntaxiques déjà placés, les flèches en traits pointillés au-dessous de la séquence représentent les pas du
parcours. Les barres verticales marquent l’arrêt du parcours.
84
(7) Il donne des bonbons à la fraise roses
(8) La ligne très haute tension installée …
(9) Le chat gris dort.
(10) Il donne des bonbons à la fraise roses aux enfants
(11) Il donne un bonbon à la fraise rose à l’enfant
?
3.2.3. Les relations locales
Au cours de la première phase du traitement, l’analyseur s’occupe des relations
syntaxiques locales, en posant par exemple les liens syntaxiques entre les déterminants et
les noms qui les gouvernent, entre les prépositions et les mots qu’elles gouvernent, entre
les auxiliaires et les participes passés. Cette phase s’apparente au chunking des
analyseurs de surface (Abney, 1990a) (Vergne, 1999). Ces liens syntaxiques connectent
dans la très grande majorité des mots qui sont très proches. Les procédures de
reconnaissance sont donc simples. C’est pourquoi j’énumère ici les types de liens posés,
en précisant les catégories des gouverneurs et dépendants impliqués, sans entrer dans les
détails d’implémentation. Le traitement s’effectue en plusieurs passes sur la phrase.
Entités nommées
Les dates (22 janvier 2007, juin 2002) sont reconnues avant l’étiquetage et concaténées
en mots, étiquetés NomDate. Les patronymes sont reconnus lors de cette première étape
d’analyse, à partir d’une liste de prénoms et de règles d’exploration autour des
occurrences de prénoms. Quand un patronyme est reconnu, le nom de famille gouverne
le ou les (initiales de) prénoms (1a-b).
85
(1a) Victor Hugo (1b) John F. Kennedy
Déterminants
Le module DET place un lien entre un déterminant et son gouverneur, qui est toujours un
nom (2a-c). Un certain nombre de déterminants complexes sont reconnus au cours d’une
phase de concaténation qui s’insère entre l’étiquetage et l’analyse syntaxique : tous les,
plus de, beaucoup de, la plupart des, l’un des, etc. L’ambiguïté bien connue liée à ces
unités n’est pour le moment pas traitée dans SYNTEX, ce qui conduit parfois à des
segmentations malheureuses : il ne veut plus_de vin.
(2a) Le chat (2b) Beaucoup_de chats (2c) 5 chats
Le module DET part du déterminant et parcourt la séquence étiquetée vers la droite à la
recherche d’un nom. Pendant le voyage, il peut effectuer des réétiquetages « à la volée ».
Par exemple, il arrive assez fréquemment que le TREETAGGER reconnaisse, après un
déterminant, deux adjectifs consécutifs, non suivis d’un nom. Ce type d’ambiguïté,
succession des deux mots pouvant être Nom ou Adjectif, est courant. Dans ces contextes,
le module DET réétiquette le premier en nom, systématiquement, ce qui constitue dans la
très grand majorité des cas le bon choix, comme dans l’exemple 2d où génératrice est
réétiqueté en nom, mais produit parfois une erreur comme dans l’exemple 2e'.
(2d) Par suite du récent accident à laD génératriceA nucléaireA de
Tchernobyl,[HAN]
(2d’) Par suite du récent accident à laD génératriceN nucléaireA de
Tchernobyl,[HAN]
(2e) Les médias régionaux rapportent lesD bonnesA nouvellesA comme celle là.
[HAN]
(2e') Les médias régionaux rapportent lesD bonnesN nouvellesA comme celle là.
[HAN]
Prépositions
Le module CPREP place un lien entre une préposition et son dépendant, qui peut être un
nom, un pronom ou un verbe à l’infinitif (3a-c). Un certain nombre de prépositions
complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage :
afin de, en faveur de, au cours de, au sujet de, etc. L’ambiguïté liée à ces unités n’est
pour le moment pas traitée dans SYNTEX. Ce module effectue du réétiquetage à la volée
comme le module DET.
(3a) avec le chat (3b) avec lui (3c) afin_de partir
86
Formes de+le
Les formes de+le (du, de la, des, de l’) posent un redoutable problème d’étiquetage,
puisqu’elles peuvent être selon les contextes Déterminant ou Préposition. J’ai choisi de
ne pas tenir compte des choix du TREETAGGER et toutes ces formes sont étiquetées
PrepDet (PD) en entrée de SYNTEX. La désambiguïsation de ces formes est répartie en
plusieurs points de la chaîne d’analyse. Les modules DET et CPREP effectuent une partie
du travail, dans les contextes suivants : immédiatement après un nom ou un adjectif, une
forme de+le est systématiquement considérée comme une préposition ; immédiatement
après un verbe une forme de+le est systématiquement considérée comme un
déterminant, sauf si le verbe est un verbe pronominal ou s’il appartient à une liste qui
regroupe des verbes intransitifs se construisant avec un complément en de
(démissionner, dépendre, etc.)29, auquel cas elle est étiquetée Préposition. Les principaux
cas d’ambiguïtés qui subsistent sont ceux dans lesquels une forme de+le est précédée
d’une virgule ou d’un coordonnant. Nous verrons à la section 3.2.4 comment se passe la
désambiguïsation dans ces cas.
Complexes verbaux
Un ensemble de modules s’occupe du complexe verbal30. Il s’agit de reconnaître les liens
syntaxiques au sein de séquences constituées de verbes, de modaux (pouvoir, devoir) et
d’auxiliaires (être, avoir), à des formes conjuguées ou au participe passé, ainsi que
d’adverbes, de pronoms réfléchis et de pronoms clitiques. Je n’entre pas dans le détail de
l’implémentation. Les exemples 4a-h donnent une idée des types de liens reconnus et de
la façon dont ils sont représentés.
(4a) Il a mangé. (4b) Il est venu. (4c) Il a été vu
(4d) Il peut manger. (4e) Il a pu manger. (4f) Il peut avoir mangé.
(4g) Il peut s’ être trompé. (4h) Il peut l’avoir mangé. (4i) Il ne peut pas venir.
Adverbes
29 Cette liste a été constituée, à partir des tables du Lexique-Grammaire, par Cécile Frérot (Frérot et al., 2002)
30 Ces modules ont été réalisés par Marie-Paule Jacques, que je remercie ici chaleureusement.
87
Le module ADV place un lien entre un adverbe et son gouverneur, qui peut être un verbe,
un adjectif, un autre adverbe ou un nom (exemples 5a-d). Un certain nombre d’adverbes
complexes sont reconnus au cours de la phase de concaténation qui suit l’étiquetage : le
plus, en effet, par exemple, en revanche, en particulier, par ailleurs, etc. L’ambiguïté
liée à ces unités n’est pour le moment pas traitée dans SYNTEX. Les heuristiques de
reconnaissance sont locales et ne couvrent que les cas où un gouverneur est trouvé à
proximité de l’adverbe. A l’issue de ce traitement, environ 70% des adverbes ont été liés.
Les adverbes orphelins vont le rester jusqu’à la fin de l’analyse. Il manque ici une
analyse linguistique systématique et détaillée pour élaborer une typologie des cas de
figure dans lesquels un adverbe n’a pu être attaché. Mais beaucoup de ceux-ci se
trouvent en début ou fin de phrase, souvent précédés ou suivis d’une virgule, ou bien
entre virgules à l’intérieur de la séquence. Dans de tels contextes, les adverbes relèvent
le plus souvent de l’organisation discursive, et peuvent difficilement être liés à un mot
particulier de la séquence (cf. section 3.1.2). Le fait que des adverbes flottent ainsi dans
les séquences ne perturbe pas outre mesure les traitements ultérieurs puisque les
heuristiques de parcours les sautent allègrement.
(5a) Il court vite. (5b) très rapide (5c) très vite (5d) non prolifération
Conjonctions de subordination
La relation de dépendance entre une conjonction de coordination et le verbe de la
proposition subordonnée n’est pas à proprement parler une relation locale. Les liens de
ce type sont reconnus lors de cette étape car sans être locaux ils sont faciles à identifier.
Le module CSUB place un lien entre une conjonction de subordination, autre que que, et
son dépendant, qui est un verbe conjugué (6). Un certain nombre de conjonctions
complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage :
pour que, bien que, à ce que, alors que, etc. L’ambiguïté liée à ces unités n’est pour le
moment pas traitée dans SYNTEX. La procédure de reconnaissance est simple et peu
faillible, et n’est mise en défaut qu’en cas d’erreurs d’étiquetage : parcourir la séquence
à droite jusqu’à rencontrer un verbe conjugué.
(6) Quand Jean est venu
Formes Que
Une forme que peut être adverbe, pronom relatif, conjonction de subordination. Le
traitement des formes que est réparti aux deux extrémités de la chaîne d’analyse. Lors de
cette première étape de reconnaissance de liens syntaxiques locaux, un module de
88
traitement31 prend en charge toutes les formes que, quelle que soit la catégorie
morphosyntaxique attribuée par l’étiqueteur. Ce module repère des constructions locales
pour résoudre un certain nombre d’ambiguïtés catégorielles et poser sous certaines
conditions des liens syntaxiques impliquant une forme que. En plus des étiquettes des
mots entourant la forme que et des liens syntaxiques placés par des modules antérieurs
(entre verbe et adverbe essentiellement), les informations mobilisées sont des listes
lexicales : noms prenant un complément en que, adverbes susceptibles d’entrer dans une
construction corrélative, adverbes de négation, verbes prenant un objet direct en que. Les
exemples 7a-k résument les différentes configurations traitées. A l’issue de ce premier
traitement, selon les corpus, de 85 à 95% des formes que étiquetées Adverbe sont liées.
Cette fourchette est de l’ordre de 50 à 60% pour les formes étiquetées Conjonction, qui
sont dans leur très grande majorité liées à des gouverneurs verbaux et dépendants
verbaux. Les conjonctions que encore libres à l’issue de cette étape seront reconsidérées
en fin d’analyse (section 3.2.13).
(7a) Il ne mange que du pain. (7b) Il veut que Jean vienne.
(7c) Un autre que Jean (7d) Un homme autre que Jean
(7e) Un homme tel que Jean (7f) La loi telle qu’ elle a été votée
(7g) davantage que Jean (7h) ainsi que Jean le veut
(7i) plus rapide que Jean (7j) plus rapide qu’ il n’ paraît
(7k) si triste que Jean pleure
31 Ce module a été réalisé par Marie-Paule Jacques, que je remercie de nouveau.
89
3.2.4. Coordination
La représentation de la coordination fait l’objet de débats chez les théoriciens de la
dépendance. Tesnière relie deux mots coordonnés par un « trait de jonction », constitué
de deux tronçons au milieu desquels apparaît le « jonctif » (la conjonction de
coordination) ; le jonctif ne porte aucun lien de dépendance (Tesnière, 1959,
pp. 326-327). Mel’cuk considère que, d’un point de vue syntaxique, la coordination n’est
pas symétrique et que l’élément coordonné gauche gouverne la conjonction, qui
elle-même gouverne l’élément droit (Mel’cuk, 1988, pp. 26-33). Il intègre dans son
formalisme la notion de « groupement » pour représenter les relations de dépendance qui
impliquent les éléments d’une chaîne coordonnée dans leur ensemble. Pour Hudson
(2000), la conjonction de coordination fait partie de la structure de coordination mais ne
porte aucune relation de dépendance.
tombent
Alfred et Bernard (Tesnière, 1959)
sa gaieté et son accent étonnant (Mel’cuk, 1988)
[ sa gaieté et son accent ] étonnants (Mel’cuk, 1988)
Jo (reads and writes) books (Hudson, 2000)
Ces questions de représentation sont essentielles dans le contexte du développement
d’un appareil théorique ou descriptif pour la syntaxe des langues. Les choix de
représentation trouvent leur justification dans la cohérence globale du cadre théorique
dans lequel ils sont inscrits par les différents auteurs. D’un point de vue
épistémologique, le projet de développement d’un analyseur syntaxique n’est pas de
même nature. Il s’agit de mettre au point des algorithmes de reconnaissance de chaînes
de coordination dans des séquences attestées. Le problème est celui de la reconnaissance
automatique et non pas celui de la représentation. Le choix d’une représentation est alors
une affaire de convention, d’autant plus si ces représentations sont formellement
mutuellement traduisibles les unes vers les autres. Si l’analyseur trouve les différents
éléments d’une coordination, il peut « rendre » les résultats de sa recherche sous
différentes formes, correspondant à différentes conventions de représentation. J’ai choisi
comme convention de considérer le coordonnant comme le gouverneur de tous les
90
éléments coordonnés, et comme la cible ou source des liens syntaxiques extérieurs
(exemple 1). Je peux justifier ce choix en termes de commodités d’implémentation, mais
non sur des bases théoriques.
(1) X , Y et Z
(1a) Alfred et Bernard tombent.
(1b) sa gaieté et son accent étonnants
(1c) Jo reads and writes books
La reconnaissance automatique des liens de coordination est un problème difficile. La
relation de coordination interfère avec toutes les relations syntaxiques : des éléments
coordonnés sont susceptibles d’être source ou cible de tous les types de liens
syntaxiques. L’enchevêtrement des liens fait que c’est avec la coordination que le
problème de la circularité se pose avec le plus de gravité : à quel(s) moment(s)
reconnaître les liens de coordination ? J’ai choisi au départ du projet de traiter la
coordination dès le premier stade de l’analyse, juste après la reconnaissance des liens
syntaxiques locaux. L’idée étant alors de mettre beaucoup d’efforts sur ce module pour
rendre plus simple la reconnaissance, au niveau des couches supérieures de l’analyse,
des autres types de liens syntaxiques. Dans les versions successives de l’architecture, je
ne suis pas revenu sur ce choix. La coordination est traitée en premier. Mais il est clair
que les progrès du traitement de la coordination passeront par l’instauration d’un mode
réparti, certaines configurations pouvant être reconnues tôt dans le processus d’analyse,
alors que d’autres le sont plus aisément avec plus de liens syntaxiques préalablement
reconnus.
Le traitement de la coordination inclut celui des virgules coordinatrices. De façon
générale, le traitement de la virgule est lui aussi très difficile. La virgule n’a jamais
passionné les linguistes, au contraire de la coordination, et les grammaires ou les théories
syntaxiques sont peu loquaces à son sujet. Pourtant, quand il s’agit de réaliser un
analyseur syntaxique opérationnel, la virgule est un problème transversal, comme la
coordination, qui se pose pour toutes les relations syntaxiques : quelle que soit la relation
syntaxique pour laquelle on cherche à mettre au point des algorithmes de
reconnaissance, il faut tenir compte, dans la description du parcours entre un dépendant
91
et son gouverneur potentiel, de l’irruption possible de virgules, dont il est le plus souvent
difficile de savoir si elles marquent une coordination ou une incise, et, dans le second
cas, si l’on est à l’intérieur ou à l’extérieur de l’incise. La coordination et la virgule sont
des problèmes massifs, comme l’illustrent les données du tableau 6, qui indique que,
selon les corpus, entre 22 et 36% des séquences contiennent au moins un coordonnant, et
entre 44 et 76% des séquences contiennent au moins une virgule.
% #séquences LMO HAN STX
0 coordonnant 64 72 78
1+ coordonnant 36 28 22
0 virgule 34 56 51
1 virgule 20 28 16
2 virgules 18 11 15
3+ virgules 28 5 18
Tableau 6. % des séquences avec coordonnants et avec virgules
Toute virgule dans le contexte droit de laquelle se trouve un élément coordonné est
traitée comme un coordonnant. De façon à pouvoir traiter les virgules coordinatrices lors
de la même passe sur la séquence que les coordonnants, on analyse la séquence de la
droite vers la gauche. Par exemple dans la séquence « bleu, blanc et rouge », le
coordonnant et est d’abord traité, les adjectifs blanc et rouge sont coordonnés, puis,
comme la virgule est suivie d’un mot coordonné (l’adjectif blanc), elle est traitée comme
un coordonnant, et les adjectifs bleu et blanc sont coordonnés.
Le principe du traitement de la coordination est le suivant : quand un coordonnant est
reconnu, le module recherche dans son contexte droit le mot initial, celui susceptible
d’être le dernier mot de la chaîne coordonnée (par exemple l’adjectif rouge pour le
coordonnant et dans la séquence « bleu, blanc et rouge »). Le traitement de la
coordination est isocatégoriel, c’est-à-dire que les configurations de coordination
potentiellement reconnues par l’analyseur, dans son état actuel, sont celles où les
éléments coordonnés ont tous la même catégorie morphosyntaxique. L’analyseur échoue
quand, par exemple, des noms propres et des syntagmes définis sont coordonnés, ou
quand des adjectifs ou des adverbes sont coordonnés avec des syntagmes
prépositionnels. Cette contrainte d’isocatégoricité pourra être relâchée quand le
traitement de la coordination interviendra plus tard dans le processus d’analyse. Même
avec cette hypothèse simplificatrice, valide dans une très grande majorité de cas, la tâche
de reconnaissance est rude.
Une fois le mot initial reconnu, le module de coordination lance une recherche dans le
contexte gauche du coordonnant d’un mot de la même catégorie que le mot initial. Les
catégories concernées sont (par ordre approximatif de difficulté croissante) : adjectif,
participe passé, verbe, conjonction de subordination que, pronom relatif, préposition
autre que de, préposition de, nom. Toute la difficulté est dans l’élaboration des
algorithmes de parcours de la séquence à gauche du coordonnant. Puisque, d’une part,
peu de liens ont été placés à ce stade de l’analyse, sur lesquels l’algorithme pourrait
92
s’appuyer, et que, d’autre part, les liens de coordination peuvent s’établir à longue
distance, il faut apporter beaucoup de soin dans la mise au point des algorithmes.
Comme il est impossible d'anticiper toutes les configurations possibles, il faut procéder
par essais/erreurs via de multiples tests sur corpus. L’outil lui-même sert de dispositif de
découverte.
Adjectif et participes passés
La coordination des adjectifs et participes passés ne pose pas de difficultés majeures.
Dans l’exemple 232, le module Coordination détecte d’abord le coordonnant et, et le mot
initial belle, puis il reconnaît l’adjectif coordonné épaisse. Ensuite, il détecte la virgule,
suivie de l’adjectif coordonné épaisse, et reconnaît le troisième adjectif coordonné
fripée. Dans l’exemple 3, le module Coordination détecte le coordonnant et, et le mot
initial spécialisé, puis il remonte sans embûche jusqu’au participe passé créé. Dans les
exemple 4 et 4’, après avoir reconnu la coordination entre les participes passé quitté et
créé, le module Coordination déplace la cible de la relation partant de l’auxiliaire ont du
participe quitté au coordonnant et.
(2) Et les vieilles mains tremblaient, et Rivière détournait les yeux de cette peau
fripée, épaisse et belle. [STX]
(3) Il est « chasseur de têtes » à la Banque centrale de recrutement, un cabinet
créé en septembre 1997 et spécialisé dans les métiers de l'informatique.
[LMO]
(4) des dizaines de militants ont quitté les organisations traditionnelles et créé
leurs propres structures. [LMO]
(4’) des dizaines de militants ont quitté les organisations traditionnelles et créé
leurs propres structures. [LMO]
Verbe
La coordination des verbes ne pose pas non plus de difficultés majeures. On coordonne
des verbes à des formes finies (exemples 5 et 6), ou des verbes à l’infinitif (exemple 7).
(5) Ce massacre provoqua l'indignation internationale et modifia l'attitude de la
communauté internationale face à la RFY. [LMO]
(6) Ils sont ensuite allés vérifier sur le terrain et ont complété un travail similaire
effectué cet hiver par la mission de vérification de l' OSCE ( KVM ). [LMO]
32 Pour ne pas surcharger le manuscrit de flêches de dépendance, j’adopte une seconde convention pour
marquer les relations de dépendance dans les séquences : le gouverneur est en gras et souligné, le ou les
dépendant(s) sont en gras.
93
(7) Ils pourront communiquer avec le journaliste pour lui demander des
précisions ou lui suggérer une question lors d'une interview. [LMO]
Pronom relatif
Le module Coordination coordonne des pronoms relatifs, qui peuvent être le cas échéant
gouvernés par une préposition (exemples 8 à 10).
(8) Comme Touré, qui a quitté la Guinée en 1992 « pour des raisons politiques »
et qui dit ne pas pouvoir rentrer dans son pays sans risque pour sa vie. [LMO]
(9) Le président Siaka Stevens était célèbre pour la canne creuse sur laquelle il
s'appuyait et surtout dans laquelle il plaçait les diamants devant parvenir en
Europe sans attirer la curiosité des douaniers. [LMO]
(10) Ils tardent à distribuer les nouvelles molécules attendues par les patients sur
lesquels tous les traitements ont échoué et qui vont mourir ». [LMO]
Conjonction de subordination que
Une conjonction de subordination que peut être coordonnée avec une autre conjonction
que (exemple 11) ou avec toute autre conjonction (exemple 12).
(11) Ils apprenaient là, mystérieusement, que, peut-être, on suspendrait les vols de
nuit, et que le courrier d'Europe lui-même ne décollerait plus qu' au jour.
[STX]
(12) Rivière connut cette irritation, que l'on éprouve quand le rapide stoppe sur la
voie, et que les minutes ne délivrent plus leur lot de plaines. [STX]
Préposition autre que de
Pour les prépositions, la contrainte d’isocatégoricité est propagée au dépendant des
prépositions : si la préposition initiale gouverne un nom ou un pronom (resp. un verbe à
l’infinitif), le module de coordination cherche dans le contexte gauche une préposition
gouvernant un nom ou un pronom (resp. un verbe à l’infinitif) (exemples 13 et 14). Le
module de recherche à gauche prend la première préposition qui satisfait cette
contrainte. Les prépositions ne sont pas nécessairement identiques.
(13) Confrontés aux lenteurs de la justice ou à l'attitude jugée partiale d'un
magistrat. [LMO]
(14) C'était là le moyen le plus intelligent d'obliger les nationalistes partisans de la
clandestinité à faire leurs preuves et à dépasser les discours incantatoires et
négatifs. [LMO]
Préposition de
La coordination des prépositions de et celle des noms posent de très sérieux problèmes.
Quand la préposition de gouverne un verbe à l’infinitif, le traitement est simple,
analogue à celui des autres prépositions (exemple 15). Les choses se compliquent quand
94
la préposition de gouverne un nom. La préposition de coordonnée à gauche n’est pas
systématiquement la première préposition de rencontrée. Lors du parcours de recherche,
le module de coordination peut retenir plusieurs prépositions de candidates. Il y a donc
ambiguïté, comme dans les exemples 16 à 1833.
(15) Ici on a choisi de ne pas dénoncer les crimes de guerre et de soigner les gens.
[LMO]
(16) Que ce soit au titre du Programme de développement de l'emploi ou du
nouveau Programme de développement des collectivités. [HAN]
(17) Elle demande au gouvernement d'aider les travailleurs de l'industrie du bois
d'oeuvre et du bardeau en vertu de la Loi de soutien de l' emploi. [HAN]
(18) Le président du syndicat des employés de l'Emploi et de l'Immigration a
déclaré : [HAN]
Les configurations d’ambiguïtés sont très variables, et les indices permettant de choisir
sont peu nombreux. Décider de ne pas choisir en invoquant le recours nécessaire à « la
sémantique » ou à des « connaissances du monde » n’est pas dans la philosophie du
projet SYNTEX. J’ai cherché à mettre au point une méthode de désambiguïsation, qui
fasse le mieux possible avec les informations disponibles, mieux en tout cas qu’une
solution par défaut qui choisirait systématiquement la première préposition de rencontrée
à gauche. La méthode de désambiguïsation s’appuie sur un principe d’harmonie
morphologique. L’idée est de coordonner des prépositions de dont les noms dépendants
sont « semblables », en terme de nombre et de présence ou non d’un déterminant.
Chaque préposition de est caractérisée par deux paramètres, calculés à partir du nom
qu’elle gouverne : la présence ou non d’un déterminant gouverné par le nom (1 ou 0), le
nombre du nom (S pour singulier, P pour pluriel, ? pour genre indéterminé). La
concaténation de ces deux valeurs constitue le profil de la préposition. Il y a 6 profils
possibles : [0S], [0P], [0?], [1S], [1P], [1?]. La procédure de désambiguïsation choisit la
préposition candidate qui a un profil identique ou proche de la préposition initiale.
Je n’entre pas dans les détails de la procédure, qui est assez complexe car la
combinatoire augmente vite avec le nombre de candidats. Je l’illustre sur quelques
exemples simples, dans lesquels seulement deux prépositions candidates sont en
concurrence. Dans les exemples 19 à 22, les profils des prépositions sont donnés entre
crochets à droite du nom dépendant. Dans les exemples 19 à 21, c’est la première
préposition qui est choisie car elle a le même profil que la préposition droite : dans
l’exemple 19, les noms orientation et surveillance n’ont pas de déterminant et sont au
singulier ([0S]); dans l’exemple 20, les noms hommes et projets n’ont pas de déterminant
et sont au pluriel ([0P]) ; dans l’exemple 21, les noms qualité et production ont un
déterminant et sont au singulier ([1S]). Dans l’exemple 22, c’est la seconde préposition
qui est choisie : les noms anomalies et malformations n’ont pas de déterminant et sont au
pluriel ([0P]).
33 Les prépositions candidates sont en italiques.
95
(19) La réunion du conseil [1S] d' orientation [0S] et de surveillance [0S]
(20) Ses capacités de meneur [0S] d' hommes [0P] et de projets [0P]
(21) Les systèmes de contrôle [0S] de la qualité [1S] et de la production [1S]
(22) Responsable d' anomalies [0P] de la face [1S] et de malformations [0P]
Noms
Le traitement des noms coordonnés est analogue à celui de la préposition de. Plusieurs
candidats nominaux sont sélectionnés dans un premier temps. La désambiguïsation
s’effectue avec les mêmes indices que précédemment. Quelques exemples sont donnés
en 23-27. Dans les cas où les profils de deux candidats sont identiques à celui du nom
initial, le choix par défaut se porte sur le plus proche du coordonnant, ce qui conduit à
des décisions malheureuses parfois, comme dans les exemples 26 et 27.
(23) Dans la vente [1S] de produits [0P] et services [0P]. [LMO]
(24) Président [0S] de l' Association [1S] des maires [1P] de France [0 ?] et
sénateur [0S] du Pas-de-Calais. [LMO]
(25) Cabinets [0P] de conseil [0S] et sociétés [0P] de services informatiques.
[LMO]
(26) Présidents [0P] de tribunaux [0P] et procureurs [0P]. [LMO]
(27) Changement [0S] fréquent de partenaire [0S] et prostitution [0S] sont, dans
ce groupe, de gros facteurs de risque. [LMO]
Certains liens de coordination entre noms posés par le module de coordination pourront
être remis en cause plus tard, lors de la recherche d’autres liens syntaxiques. Une
configuration typique est celle où deux noms ont été coordonnés, puis reconnus comme
objets directs d’un verbe, alors que le second nom est sujet dans une seconde clause
(exemple 28). Je reviendrai sur ces cas de figures dans la section 3.2.6, consacrée à la
relation Sujet.
(28) C'est cet acharnement qui engendre la révolte des contribuables et ce genre
de disparités soulève les sentiments populaires [HAN]
Formes de+le
La complexité culmine avec les formes ambiguës de+le. Quand une telle forme est
située à droite d’un coordonnant, elle n’est pas désambiguïsée à l’issue de la phase
d’étiquetage. Le principe du traitement de ces formes est le suivant : le module de
coordination traite d’abord la forme de+le comme une préposition et cherche à
gauche une éventuelle préposition de coordonnée ; s’il réussit, il réétiquette la forme
de+le en Préposition et pose le lien de coordination entre les deux prépositions ; sinon, il
la traite ensuite comme un déterminant et cherche un éventuel nom coordonné ; s’il
réussit, il réétiquette la forme de+le en Déterminant et pose le lien de coordination entre
les deux noms ; s’il échoue dans ces deux tentatives, il laisse l’ambiguïté catégorielle et
ne pose pas de lien de coordination.
96
Dans l’exemple 29, la première forme de a été étiquetée en Préposition (P) car elle suit
immédiatement le nom sens et la forme des est ambiguë, préposition ou déterminant
(PD). La forme des est désambiguïsée en préposition car le module de coordination a pu
la coordonner avec la préposition de (exemple 29’).Dans les exemple 30 et 30’, la forme
du est désambiguïsée en Déterminant car la coordination qu’a reconnue le module
Coordination est celle qui implique les noms financement et dette. Dans les exemples 31
et 31’, la première forme des a été désambiguïsée, au moment du traitement des relations
locales, en Déterminant car elle est située juste après un verbe transitif. La seconde
forme des est désambiguïsée en Déterminant car la coordination qu’a reconnue le
module Coordination est celle qui implique les noms opinions et critères.
(29) Il faut faire appel au sens deP la logique et desPD responsabilités. [HAN]
(29’) Il faut faire appel au sens deP la logique et desP responsabilités. [HAN]
(30) D'ailleurs, ce n'est pas une dette à long terme mais duPD financement à court
terme pour effectuer la transaction. [HAN]
(30’) D'ailleurs, ce n'est pas une dette à long terme mais duD financement à court
terme pour effectuer la transaction. [HAN]
(31) Il présente desD critères subjectifs et non desPD opinions subjectives. [HAN]
(31’) Il présente desD critères subjectifs et non desD opinions subjectives. [HAN]
La situation peut être plus complexe, par exemple dans les cas où la recherche du
coordonné à gauche aboutit à une nouvelle forme de+le non désambiguïsée, précédée
d’une virgule. Il faut alors retarder la désambiguïsation, et poursuivre par le traitement
de la virgule, considérée alors comme coordinatrice, jusqu’à ce que la désambiguïsation
soit possible. On a alors une désambiguïsation en chaîne. Dans l’exemple 32, ce n’est
qu’au moment du traitement de la dernière virgule (la première dans l’ordre séquentiel
de la séquence), grâce à la non ambiguïté de la forme des après le verbe a, que le module
coordination a pu boucler l’affaire, en désambiguïsant les formes des en Déterminant et
en coordonnant les noms (exemples 32’ à 32’’’). Dans l’exemple 33, c’est la détection de
la préposition du après le nom cadre qui déclenche la résolution en chaîne du problème
(exemple 33’).
(32) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt
et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]
(32’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt
et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]
(32’’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt
et desPD stimulants fiscaux accordés aux entreprises privées. [HAN]
(32’’’) Il y a desD dégrèvements, desD échappatoires fiscales, desD reports d'impôt
et desD stimulants fiscaux accordés aux entreprises privées. [HAN]
97
(33) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duPD
développement de programmes, dePD la réforme de la fiscalité ou dePD la
réduction du déficit. [HAN]
(33’) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duP
développement de programmes, deP la réforme de la fiscalité ou deP la
réduction du déficit. [HAN]
3.2.5. Objet et attribut
Après la relation de coordination, je présente les relations dites « non ambiguës ». La
présente section est consacrée aux relations Objet et Attribut. La relation Sujet est traitée
dans la section suivante, car les problèmes qu’elle pose sont très différents de ceux que
je vais aborder dans cette section. Pour les relations Objet et Attribut, les conventions de
représentation en dépendance sont les suivantes : la relation Attribut a pour source le
verbe et pour cible l’attribut (adjectif, nom, pronom personnel, pronom relatif ou verbe à
l’infinitif) ; quand le verbe est à une forme composée, c’est le participe qui est la source
du lien, sauf quand l’attribut est un clitique (exemples 1) ; la relation Objet a pour source
le verbe et pour cible le complément d’objet (nom, pronom personnel, pronom relatif,
verbe à l’infinitif, conjonction que) ; quand le verbe est à une forme composée, c’est le
participe qui est la source du lien, sauf quand l’objet est un clitique (exemples 2). Ces
conventions valent pour les configurations à attribut de l’objet (exemples 3). Pour les
configurations à double objet, on distingue la relation OBJ1 entre le verbe et l’objet
nominal et OBJ entre le verbe et l’infinitif (exemples 4). Dans les cas de coordination
d’attributs ou d’objets, c’est le coordonnant qui est la cible de la relation de dépendance.
(1) Il est heureux Il l’est Il a été heureux Il l’a été l’homme qu’il a été
(2) Il mange une pomme Il souhaite manger Il l’a mangé la pomme qu’il a mangée
(3) Il la croit malade Il l’ a nommé ministre l’homme qu’il a nommé ministre
OBJ ATT OBJ ATT OBJ ATT
(4) Je vois Jean partir. Je l’ ai vu partir. L’homme que j’ai vu partir
OBJ1
OBJ OBJ1 OBJ OBJ1 OBJ
98
La reconnaissance de la relation Attribut ne pose pas de problèmes difficiles.
L’analyseur exploite une liste de verbes susceptibles de se construire avec un attribut du
sujet (être, devenir, paraître…), une liste de verbes susceptibles de se construire avec un
attribut de l’objet (considérer, croire, déclarer, juger…). Les configurations à attribut de
l’objet sont très souvent ambiguës (je juge les enfants malades). Dans son état actuel,
l’analyseur ne cherche à reconnaître des attributs de l’objet que dans les contextes non
ambigus suivants : (i) le verbe attributif est au passif (exemple 5) ; (ii) le complément
d’objet du verbe est le pronom relatif que (exemple 6) ; (iii) le complément d’objet du
verbe est un pronom clitique (exemple 7) ; (iv) le complément d’objet du verbe est placé
après l’attribut (exemple 8).
(5) La pétition a été certifiée correcte par le greffier des pétitions. (ATTO) [HAN]
(6) Ils exercent un droit qu'ils estiment tout à fait légitime. (ATTO) [HAN]
(7) L'un des objectifs de la réforme des pensions de la fonction publique est de
les rendre conformes aux exigences de la LNPP. (ATTO) [HAN]
(8) Il n'appartient pas aux tribunaux d'ajouter les détails qui rendent
constitutionnelles les lacunes législatives. (ATTO)[HAN]
La mission assignée au module Objet se formule simplement ainsi : sélectionner le
premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à droite du verbe. Mais
le traitement de la relation Objet est plus difficile que celui de la relation Attribut. Les
objets appartiennent à diverses catégories morphosyntaxiques : pronom clitique, pronom
relatif que, nom, verbe à l’infinitif34. Certains verbes se construisent avec deux objets, un
objet nominal et un objet verbal (emmener, envoyer, faire, laisser…, apercevoir,
contempler, écouter, entendre, entrevoir, observer…). La difficulté du traitement est
principalement due au fait que, comme l’étiquetage des formes que en Pronom relatif
n’est pas fiable, j’assigne au module la mission supplémentaire de corriger autant que
possible ces erreurs d’étiquetage.
Le lien Objet entre un pronom relatif que et le verbe de la subordonnée relative n’est pas
placé par le module Objet, mais par le module Sujet, qui sera décrit dans la section
suivante. Cela peut paraître paradoxal puisque le principe de l’approche modulaire veut
qu’une relation syntaxique soit traitée par un seul module et que chaque module ne traite
qu’une seule relation syntaxique. Ce principe, qui s’impose pour des raisons de facilité
de maintenance, peut être écorné quand une contrainte d’efficacité s’impose. En
l’occurrence, au moment où le module Sujet a trouvé le sujet d’un verbe, il lui est facile
de remonter de quelques pas sur la gauche pour relever la présence éventuelle d’un
pronom relatif, et placer à ce moment-là, en plus d’un lien entre le verbe et le sujet, un
lien entre le verbe et le pronom relatif. Ce lien est un lien Objet si le relatif est que.
34 Les liens Objet entre un verbe et une forme que étiquetée Conjonction de subordination ne sont pas traités
ici. Une partie des liens de ce type est placée au moment du traitement des relations locales (cf. 3.2.3). Une
autre partie en fin d’analyse (cf. 3.2.13).
99
La recherche d’un complément d’objet est systématique. Elle est déclenchée pour tout
verbe, conjugué ou infinitif, quelles que soient ses propriétés lexicales, i.e. qu’il soit
transitif ou non, pour des raisons qui apparaîtront évidentes plus loin dans cette section.
Le module dispose de l’information de la présence d’un pronom relatif objet, car la
recherche des sujets précède celles des objets. Dans un premier temps, le module teste la
présence d’un pronom clitique, et celle d’un verbe infinitif en construction directe dans
le contexte droit du verbe. Il est donc potentiellement face à 6 cas de figure, selon qu’il y
a un pronom relatif objet ou non, un clitique ou non et un verbe infinitif ou non (en
éliminant le cas où aucun objet de ce type n’a été reconnu, et le cas où les 3 ont été
reconnus, si rarissime qu’il n’est pas traité) :
1) Pas de pronom relatif, un clitique, pas de verbe à l’infinitif. Le module place un lien
Objet entre le verbe et le clitique.
2) Pas de pronom relatif, pas de clitique, un verbe à l’infinitif. Le module place un lien
Objet entre le verbe et le verbe à l’infinitif.
3) Pas de pronom relatif, un clitique, un verbe à l’infinitif. Le module vérifie que le
verbe initial appartient à la liste des verbes à double objet, et place les deux liens
Objet (exemple 9).
(9 ) Les mécaniciens sournois l' avaient laissé flétrir pendant vingt minutes. [STX]
OBJ1 OBJ
4) Un pronom relatif, un clitique, pas de verbe à l’infinitif. Le pronom relatif que est
réétiqueté Conjonction de subordination, le lien entre que et le verbe est inversé, et
un lien Objet est placé entre le verbe et le clitique (exemples 10 et 10’).
(10) C' est avec fierté, sérieux et intégrité queRel je les représenterai. [HAN]
OBJ
(10’) C' est avec fierté, sérieux et intégrité queSub je les représenterai. [HAN]
OBJ
5) Un pronom relatif, pas de clitique, un verbe à l’infinitif. Si le verbe initial appartient
à la liste des verbes à double objet, le module requalifie en OBJ1 le lien entre le
verbe et le pronom relatif et place un lien Objet entre le verbe et le verbe à l’infinitif
(exemple 11). Sinon, il laisse le lien Objet entre le pronom relatif et le verbe, et
ajoute un second lien Objet à partir du verbe vers le verbe à l’infinitif. Ce lien sera
déplacé éventuellement en fin d’analyse, au moment où l’analyseur traite le cas des
subordonnées relatives dont le verbe principal gouverne, directement ou via une
préposition, un verbe à l’infinitif (section 3.2.13). Dans le cas de l’exemple 12,
100
l’origine du lien qui pointe vers le pronom relatif que sera déplacé sur le verbe
déposer.
(11) C’est l'histoire des compagnons qu' il a vu sortir vivants du « couloir ». [LMO]
OBJ1 OBJ
(12) J'ai ici des pétitions que je compte déposer ce matin. [LMO]
OBJ OBJ
Le 6ème cas de figure est celui où il y a un pronom relatif, et ni clitique, ni verbe à
l’infinitif. Le module teste la présence d’un nom (ou d’un pronom) en construction
directe à droite du verbe. S’il y a un pronom relatif et un nom, le module réétiquette le
pronom relatif que en Conjonction de subordination, et modifie en conséquence la
relation entre la forme que et le verbe de la relative (exemples 13 et 13’), et il ne reste
qu’un nom.
(13) C'est grâce à elle qu’Rel il a séquencé, entre autres, le virus de la grippe.[LMO]
OBJ
(13’) C'est grâce à elle qu’Sub il a séquencé, entre autres, le virus de la grippe.[LMO]
OBJ
S’il y a un nom, et pas de pronom relatif, ce n’est qu’à ce stade du traitement que le
module se préoccupe de la propriété de transitivité du verbe. Le module exploite une
liste de verbes censés ne pas se construire avec un complément d’objet nominal. Cette
liste a été construite automatiquement à partir d’un vaste corpus annoté par SYNTEX,
selon une technique qui sera décrite dans la section 3.2.8 consacrée aux ressources
lexicales. Si le verbe est transitif, le module pose un lien Objet entre le verbe et le nom.
Si le verbe est intransitif, et qu’il est à l’infinitif, le module teste s’il n’est pas objet d’un
verbe à double objet, auquel cas le module place une relation OBJ1 entre ce dernier verbe
et le nom (exemple 14).
OBJ1
(14) Moscou laisse toujours planer le doute sur ses intentions de vote. [LMO]
OBJ
S’il y a un pronom relatif que objet, et pas de nom, et si le verbe est transitif, le module
laisse le lien Objet entre le verbe et le nom. Si le verbe est intransitif, la procédure
décrite précédemment à propos des noms objets de verbes intransitifs ne s’applique pas
immédiatement. Le lien entre ce verbe et le pronom relatif est provisoirement maintenu.
101
Le traitement de ces configurations est pris en charge par un module spécifique, qui est
décrit dans la section 3.2.13. C’est ce dernier module qui reconnaîtra dans l’exemple 15
que le gouverneur du pronom relatif est entretenir et non pas suffit, et qui, dans
l’exemple 16, testera de la même façon le verbe rendre comme gouverneur du pronom
relatif (sans succès puisque ce verbe aura alors déjà un objet). De tels traitements ne sont
envisageables que quand d’avantage de liens ont été posés dans la séquence, et donc il
serait prématuré d’interdire un lien entre un pronom relatif que et un verbe intransitif à
ce stade de l’analyse.
(15) Un jardin tout planté, qu' il suffit ensuite d'entretenir, n'est pas intéressant. [LMO]
OBJ
(16) C'est pour combler le déficit qu' on songe à rendre obligatoire l'alcool carburant. [LMO]
OBJ
Quelle que soit la configuration, quand le module s’apprête à placer un lien entre un
verbe à double objet et un nom à sa droite, il teste la présence d’un verbe à l’infinitif
sans gouverneur dans le contexte droit de ce nom. En cas de succès, il pose un lien OBJ1
entre le verbe et le nom, et un lien OBJ entre le verbe et le verbe à l’infinitif
(exemple 17).
(17) Il voit une marée humaine onduler dans la fumée des cigares. [LMO]
OBJ
OBJ1
Pour finir, quand le module a posé un lien Objet entre un verbe et un nom, il garde cette
information en mémoire, sous la forme d’un triplet (verbe, OBJ, nom), pour une
exploitation ultérieure dans le processus de désambiguïsation des rattachements des
pronoms relatifs (section 3.2.7) et des prépositions de (section 3.2.9).
3.2.6. Sujet
Pour la relation Sujet, les conventions de représentation sont les suivantes : la relation
Sujet a pour source le verbe et pour cible le sujet (nom, pronom personnel, pronom
relatif ou verbe à l’infinitif) ; quand le verbe est à une forme composée, c’est l’auxiliaire
qui est la source du lien (exemples 1). Dans les cas de coordination de sujets, c’est le
coordonnant qui est la cible de la relation de dépendance. Dans les cas de coordination
de verbes, c’est le coordonnant qui est la source de la relation de dépendance.
102
(1) Jean mange. Il a mangé. Fumer est interdit.
(1’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean
OBJ SUJ OBJ SUJ
Il faut noter que ces conventions, jointes à celles portant sur la relation Objet, conduisent
à des croisements de liens dans les relatives à sujet inversé (exemples 1’). Les arbres de
dépendance construits par SYNTEX ne sont donc pas tous projectifs. C’est inévitable à
partir du moment où je n’utilise pas de moyen de regrouper en une seule unité plusieurs
mots qui se comportent comme un seul mot du point de vue de certains phénomènes
syntaxiques. Les stemmas de Tesnière (1959) comportent des « nucléus », et on a vu que
Mel’cuk (1988) utilisait des « regroupements » pour représenter certains cas de
coordination (section 3.2.4). Sylvain Kahane (2000) propose, dans sa grammaire de
dépendance lexicalisée à bulles, de représenter formellement ces objets grâce à la notion
de « bulle » (exemples 1’’).
(1’’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean
OBJ SUJ OBJ SUJ
Dans SYNTEX, Les fonctions de parcours génériques empêchent toute prise de décision
qui conduirait à un croisement de lien. Ce n’est que dans des cas particuliers, tels que
celui-ci, que des règles spécifiques peuvent poser des liens se croisant.
La mission assignée au module Sujet se formule simplement ainsi : sélectionner le
premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à gauche du verbe dans
un premier temps, puis à droite du verbe en cas d’échec. Ce principe n’est valide que si
l’architecture de l’analyseur est telle qu’elle assure que les autres contextes où un nom
peut être gouverné ont été traités :
- au moment du traitement des relations locales en début d’analyse (section 3.2.3), les
noms gouvernés par une préposition ont été liés.
- pour la reconnaissance des liens Sujet et Objet, la séquence est analysée de gauche à
droite ; dès qu’un verbe conjugué est rencontré, le module Sujet est lancé, puis le
module Objet, dès qu’un verbe à l’infinitif est rencontré, le module Objet est lancé.
Ainsi les compléments d’objets ou les sujets inversés dans les subordonnées
relatives intercalées entre un verbe et son sujet ont été attachés avant la recherche du
sujet du verbe, comme cela sera illustré dans les exemples 2-4.
La relation Sujet pose des problèmes d’un tout autre ordre que la relation Objet. Dans le
cas de cette dernière, la difficulté ne tenait pas tant à la découverte des compléments
d’objet qu’à la gestion des configurations dans lesquelles plusieurs types d’objets
pouvaient avoir été trouvés. Avec la relation Sujet, l’élaboration des algorithmes de
reconnaissance est rendue complexe du fait de la variété des configurations que l’on peut
rencontrer entre un verbe et son sujet, en particulier à cause de l’interposition possible de
103
subordonnées relatives et de séquences incises entre virgules. La mise au point du
module Sujet exige patience et minutie, et s’appuie, plus encore que celle des autres
modules, sur des allers et retours incessants entre l’implémentation et les tests sur
corpus. Le module de recherche des sujets utilise de façon intensive la fonction frGmax
pour parcourir le plus rapidement et le plus sûrement possible la séquence.
Je ne détaille pas ici l’algorithme de reconnaissance des sujets. Je commente un certain
nombre d’exemples pour en faire comprendre les caractéristiques essentielles. Dans les
exemples qui suivent, les pas du parcours sont indiqués par des indices numériques sur
les mots35. Dans l’exemple 2, le module cherche un sujet pour le verbe vont. Il entame
son parcours à gauche du verbe. Le premier pas de son parcours est le nom vacances.
Celui-ci est gouverné par la préposition pour, il ne peut être choisi comme sujet. Le
parcours se poursuit à la préposition pour (pas n°2), puis au nom embarcation situé à
gauche de la préposition (pas n°3). Ce nom est gouverné par le verbe recherchent, et ne
peut lui non plus être choisi comme sujet. Le parcours se poursuit au verbe recherchent
(pas n°4), puis à la frontière maximale droite de ce mot, qui est le pronom relatif qui. Ce
pronom ayant déjà un gouverneur, le module se déplace immédiatement à sa gauche, où
il trouve le pronom sans gouverneur ceux, qu’il retient comme sujet du verbe vont.
(2) Ceux6 qui5 recherchent4 une embarcation3 pour2 leurs prochaines vacances1
vont pouvoir déambuler au milieu des stands de la porte de Versailles à la
recherche du bateau de leur rêve. [LMO]
L’exemple 3a illustre le cas, fréquent, d’un sujet inversé dans une relative. Le module
Sujet reconnaît le nom Bercy comme sujet du verbe de la relative (trouve). Au moment
de sa recherche du sujet du verbe découle, il ne sélectionne donc pas ce nom, et
reconnaît comme sujet, au-delà de la relative intercalée, le nom situation (exemple 3b).
Dans l’exemple 4, les transitions au pas n° 3 (d’une préposition à un adjectif
immédiatement à gauche) et au pas n°4 (d’un adjectif à un nom immédiatement à
gauche) illustrent le fait que l’algorithme de parcours est conçu de façon à « remonter »
les groupes nominaux potentiels, alors que les liens de dépendance au sein de ces
groupes n’ont pas encore été posés (comme le lien entre la préposition de et son
gouverneur). De façon générale, le postulat qu’il existe certainement un sujet autorise
des prises de risques, raisonnables, dans le parcours, et justifie que l’on peut chercher à
reconnaître les liens Sujet, pourtant susceptibles d’être à longue distance, assez tôt dans
le processus de reconnaissance syntaxique de l’énoncé.
(3a) L'étrange situation dans2 laquelle1 se trouve Bercy3 découle largement de la
décision prise par le chef du gouvernement. [LMO]
(3b) L'étrange situation5 dans4 laquelle3 se trouve2 Bercy1 découle largement de
la décision prise par le chef du gouvernement. [LMO]
35 Ces indices ne représentent plus les numéros des mots dans la séquence, comme dans la section 3.2.2.
104
(4) Laisser9 s'installer l'idée8 que7 l'IVG peut6 constituer5 un palliatif4
acceptable3 de2 la contraception1 équivaut à une démission, à un retour en
arrière. [LMO]
Des incises sont fréquemment intercalées entre un verbe et son sujet. Dans l’exemple 5,
le module se déplace de la virgule située à gauche du premier verbe coordonné prend
(pas n°1) à la première virgule qu’il rencontre à gauche (pas n°2), puis il continue son
parcours jusqu’au nom membre (pas n°3 à 5). La situation peut être, en apparence, plus
compliquée quand incises et relatives sont intercalées. Dans l’exemple 6a, le module
reconnaît d’abord le lien sujet entre le coordonnant et et le pronom relatif qui, en sautant
l’incise peu après Trafalgar. Cela lui permet ensuite d’identifier le nom navire comme
sujet du verbe était (exemple 6b), grâce au saut entre le coordonnant et et sa frontière
gauche maximale qui (pas n°8). L’algorithme de recherche des sujets est conçu sur la
base de l’hypothèse que les virgules dans les séquences sont correctement équilibrées.
C’est une contrainte forte qui vaut pour tous les modules de SYNTEX. Quand, dans une
séquence, cette norme n’est pas respectée, l’analyse échoue le plus souvent. C’est le cas
dans les exemples 7a et 7b, où l’absence de virgule fermante après l’adjectif rural
empêche la reconnaissance du sujet du verbe doivent, pour lequel le module Sujet
échoue sur la préposition comme (exemple 7a), et du sujet du verbe précise, pour lequel
le module Sujet échoue sur le nom aspects (exemple 7b), qui ne s’accorde pas avec le
verbe.
(5) La célèbre membre5 de4 la meute3 ,2 la députée de Hamilton Est ,1 prend la
parole et salit tout ce qu'elle peut. [HAN]
(6a) En fait le navire, qui3 ,2 peu après Trafalgar ,1 avait été pris par les Anglais au
large de la côte portugaise et avait servi longtemps dans la Royal Navy, était
en si mauvais état que les explosifs, au lieu de percer des trous dans la coque
comme il avait été prévu, la détruisirent complètement. [LMO]
(6b) En fait le navire9 qui8 , peu après Trafalgar , avait été pris par les Anglais au
large de la côte portugaise et7 avait6 servi5 longtemps4 dans3 la Royal2 Navy1
était en si mauvais état que les explosifs, au lieu de percer des trous dans la
coque comme il avait été prévu, la détruisirent complètement. [LMO]
(7a) Les aspects non-commerciaux de l'agriculture, comme4 la protection de
l'environnement, la sécurité alimentaire et3 le développement2 rural1 doivent
être pris en compte, précise le texte. [LMO]
(7b) Les aspects6 non-commerciaux5 de4 l'agriculture3 ,2 comme la protection de
l'environnement, la sécurité alimentaire et le développement rural doivent
être pris en compte ,1 précise le texte. [LMO]
Différents types de configurations d’inversion de sujet sont reconnues, en plus des
relatives, par exemple quand un syntagme prépositionnel est positionné en tête de
séquence (Sous le pont Mirabeau coule la Seine). Le syntagme prépositionnel n’est pas
nécessairement séparé du verbe par une virgule. Dans l’exemple 8, quand le module
Sujet traite le verbe est, il arrive (pas n°4) à la préposition à en tête de séquence, sans
105
avoir trouvé de sujet. Il relance alors une recherche à droite du verbe et trouve le nom
notion. Dans l’exemple 9, c’est au pas n°12 que le module fait demi-tour pour aller
chercher le sujet menace à droite du verbe ajoute.
(8) À4 Charlottetown3 ,2 en 1864 ,1 est née la notion5 d'un peuple dont les divers
éléments sont à la fois unis et fiers de leurs différences
(9) Aux12 soucis12 que11 lui causait10 sa majorité9 au8 conseil7 général6 d'5 Ille et4
Vilaine3 ,2 qu'il préside depuis 1982 ,1 s'ajoute aujourd'hui une menace13
directe sur sa gauche. [LMO]
Le module Sujet peut être amené à défaire des liens posés par le module Coordination et
d’autres modules. Dans l’exemple 10a, le module Coordination a coordonné les noms
histoire et régions et le module Objet a placé un lien entre le verbe a et le coordonnant
et. Quand il cherche le sujet du verbe ont (exemple 10b), le module Sujet part du nom
régions, situé immédiatement à gauche du verbe. Ce nom est gouverné par le
coordonnant et. Le module Sujet garde en mémoire l’information selon laquelle un nom
situé à gauche est gouverné par un coordonnant, et il poursuit son parcours du
coordonnant et au verbe a, dont ce coordonnant est objet. De façon générale, quand le
module Sujet atteint dans son parcours un verbe conjugué, il s’attend à ce que celui-ci
soit le verbe d’une proposition relative ou complétive, auquel cas il continue sa
recherche à partir du pronom relatif ou de la conjonction. Quand ce n’est pas le cas, s’il a
en mémoire le fait qu’il a trouvé au cours de son parcours un nom coordonné à gauche
du verbe dont il cherche le sujet, il utilise cette information pour défaire les liens36. Dans
l’exemple 10c, le module décoordonne les noms histoire et régions, déplace la cible du
lien Objet du coordonnant vers le nom histoire, et enfin ajoute un lien Sujet entre le
verbe ont et le nom régions. La situation est analogue dans l’exemple 11, où le module
Sujet décoordonne les noms lots et fiches pour placer un lien Sujet entre seront et fiches,
et dans l’exemple 12, où le module Sujet décoordonne les noms faim et chef pour placer
un lien Sujet entre pouvait et chef.
(10a) Le Canada a une histoire relativement courte et certaines régions ont
une histoire encore plus courte que d' autres. [HAN]
(10b) Le Canada4 a3 une histoire relativement courte et2 certaines régions1 ont une
histoire encore plus courte que d'autres. [HAN]
(10c) Le Canada a une histoire relativement courte et certaines régions ont
une histoire encore plus courte que d' autres. [HAN]
(11) Les différents manuels et encyclopédies vendus dans les librairies apportent
leur lot de renseignements pratiques et les petites fiches décrivant les plantes
36 Tout ceci évoquera à ceux qui les connaissent le fonctionnement des ATN.
106
qui les accompagnent seront d'un grand secours pour ceux qui débutent.
[LMO]
(11’) Les différents manuels et encyclopédies vendus dans les librairies apportent
leur lot de renseignements pratiques et les petites fiches décrivant les plantes
qui les accompagnent seront d'un grand secours pour ceux qui débutent.
[LMO]
(12) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang
au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de
presse à El Paso, faire état que de la découverte de restes « qui pourraient être
humains ». [LMO]
(12’) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang
au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de
presse à El Paso, faire état que de la découverte de restes « qui pourraient être
humains ». [LMO]
Les formes de+le à droite d’une virgule ne sont pas désambiguïsées au moment du
traitement des relations locales (cf. 3.2.2). Elles peuvent l’être dans certains cas quand
une coordination est reconnue (cf. 3.2.3). Elles peuvent être désambiguïsées aussi par le
module Sujet. Dans l’exemple 13, le module Sujet, après avoir identifié le nom millions
comme seul sujet possible pour le verbe croupissaient, réétiquette la forme des devant ce
nom en Déterminant (PD, pour Préposition ou Déterminant, et D pour Déterminant).Il
désambiguïse selon le même principe la forme de dans l’exemple 14. Il désambiguïse en
chaîne les formes des dans l’exemple 15.
(13) Sans grands secours, desPDD millions de personnes déplacées croupissaient
encore dans les centres de regroupement ou campaient dans des villes en
ruines. [LMO]
(14) Avec le boom économique des années 1975-1983, dePDD vraies maisons où
vivent aujourd'hui la majorité des habitants s'élevèrent. [LMO]
(15) A mesure que la vidéo se déroule, desPDD textes et desPDD illustrations
d'accompagnement apparaissent automatiquement sur une autre partie de
l'écran. [LMO]
Pour finir, quand le module a posé un lien Sujet entre un verbe et un nom, il stocke cette
information en mémoire, sous la forme d’un triplet (verbe, SUJ, nom). Les triplets acquis
à l’issue du traitement de l’intégralité du corpus par les modules Sujet et Objet seront
exploités dans le processus de désambiguïsation endogène des rattachements des
prépositions de (section 3.2.9) et des relatifs (section 3.2.10).
3.2.7. Les relations ambiguës : apprentissage endogène
Après les relations Objet, Attribut et Sujet, je présente les relations dites « ambiguës ». Il
s’agit des relations suivantes : la relation entre un pronom relatif et son antécédent
107
(relation REL), la relation entre une préposition et son gouverneur (relation PREP) et la
relation entre un adjectif et le nom dont il est épithète (relation ADJ). Ces relations sont
ambiguës en ce sens qu’au moment de la recherche des liens syntaxiques plusieurs cibles
de rattachement peuvent être identifiées, qui sont toutes syntaxiquement également
plausibles : on ne peut les départager sur de simples critères de configuration syntaxique.
Ces relations imposent un mode de traitement particulier comprenant une phase de
désambiguïsation, qui n’existe pas avec les relations Objet, Attribut et Sujet. Pour
chacune de ces relations, le traitement s’effectue en deux étapes :
- au cours d’une première passe, le module chercherCandidat recherche des candidats
gouverneurs sur la base de critères configurationnels ;
- dans le cas où plusieurs candidats ont été identifiés, le module choisirCandidat
procède à la désambiguïsation en sélectionnant un candidat sur la base d’indices
lexico-syntaxiques affectés à chacun des candidats.
Les indices sont de deux types : endogène et exogène. Le principe de l’apprentissage
endogène, que j’avais introduit dans LEXTER (section 1.2), a été repris et étendu dans
SYNTEX. Comme nous l’avons dans la section 2.3.4 du chapitre 2, ce principe a été
utilisé par F. Debili dans son analyseur (Debili, 1982). Il est aussi à la base des travaux
de R. Basili, M.T. Pazienza et M. Vindigni sur l’analyse syntaxique de l’italien (Basili et
al., 1999). L’intérêt est de capter automatiquement des spécificités du corpus, en terme
de forces d’association entre unités lexicales, pour les utiliser, en circuit fermé, à des fins
de désambiguïsation. Les indices endogènes sont calculés à partir d’informations
collectées par l’analyseur lui-même au cours du traitement du corpus. Ces informations
sont obtenues à partir de triplets stockés en mémoire par les différents modules au fur et
à mesure de l’analyse. Ces triplets ont la forme (w,R,w’), ils sont extraits de contextes
non ambigus dans lesquels l’analyseur a placé un lien syntaxique R entre le gouverneur
w et le dépendant w’. Par exemple, dans l’exemple 1, le module Sujet stocke en mémoire
le triplet (voter,SUJ,néo-démocrate) ; le module chercherCandidat associé à la relation
PREP de recherche des gouverneurs des prépositions stocke en mémoire le triplet
(voter,CONTRE,TRPG), car il a trouvé le verbe voter comme seul candidat pour la
préposition contre37.
(1) Les néo-démocrates avaient également voté contre la TRPG. [HAN]
Le premier triplet peut permettre de choisir le bon rattachement de la préposition de dans
un contexte comme « le vote de défiance des néo-démocrates », si on utilise en plus un
lexique morphologique dans lequel le nom vote est associé au verbe voter
(section 3.2.10). Bien entendu, l’information désambiguïsante est susceptible
d’apparaître dans le corpus après le contexte ambigu. Il s’ensuit que les modules qui
exploitent des informations de type endogène doivent intervenir une fois que l’ensemble
du corpus a été traité, éventuellement en plusieurs passes, par les modules qui acquièrent
37 Dans le cas de la relation PREP, le triplet est construit à partir de 2 liens syntaxiques, celui entre le
gouverneur de la préposition et la préposition et celui entre la préposition et son dépendant : le premier élément
du triplet est le gouverneur de la préposition, le deuxième est la préposition elle-même, le troisième est le
dépendant de la préposition.
108
ces informations. L’apprentissage endogène implique donc, dans son principe même, le
traitement du corpus en au moins deux passes. Les modules Sujet et Objet, et les trois
modules chercherCandidat, correspondant aux trois relations ambiguës introduites plus
haut, ont traité l’ensemble des séquences du corpus, avant la phase de désambiguïsation :
ces modules n’ont acquis que les triplets reconnus dans des contextes non ambigus,
c’est-à-dire ceux dans lequel un seul candidat a été identifié. Les modules de
désambiguïsation disposent d’un ensemble de données endogènes constituées de triplets
(w,R,w’), et de leur fréquence F(w,R,w’).
Pour la résolution des ambiguïtés de rattachement prépositionnel, le module
choisirCandidatPrep calcule à partir de ces données des probabilités de
sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec
telle préposition). Le mode de calcul de ces probabilités est simple. Lors du traitement de
l’ensemble du corpus, le module chercherCandidatPrep a acquis non seulement les
triplets (w,p,w’), où w est le gouverneur de la préposition p, et w’ le dépendant (nom ou
verbe à l’infinitif), mais il a compté aussi pour chaque mot w le nombre d’occurrences
dans le corpus où ce mot n’est candidat gouverneur d’aucune préposition. A l’issue du
traitement de l’ensemble du corpus, le module choisirCandidatPrep dispose des données
de fréquence suivantes :
– F(w,0) : nombre d’occurrences non ambiguës où le mot w ne gouverne aucune
préposition,
– F(w,p,w’) : nombre d’occurrences non ambiguës où le mot w gouverne la
préposition p, qui elle-même gouverne le mot w’,
La probabilité est calculée comme une fréquence relative pondérée38. Soit T, l’ensemble
des triplets (w,p,w’). Pour un couple (w,p), on définit Ew,p comme l’ensemble des mots
w’ tels que la fréquence F(w,p,w’) est supérieure à 0. Je définis la productivité du couple
(w,p), Prod(w,p), comme le cardinal de l’ensemble Ew,p, c’est-à-dire comme le nombre
de mots différents que gouverne la préposition p quand elle-même est gouvernée par le
mot w. J’utilise ce coefficient pour pondérer la fréquence totale du couple (w,p). A
fréquence égale, plus le couple (w,p) a été repéré avec des contextes w’ différents, plus
grande est estimée la propension du mot w à gouverner la préposition p. L’expérience
montre en effet que, dans des corpus thématiques, la très haute fréquence de certains
syntagmes très répétitifs incluant le triplet (w,p,w’) vient biaiser la probabilité
d’association lexicale entre w et p. La pondération proposée ci-dessus vise à limiter une
telle surestimation et à accorder un poids non seulement à la fréquence de l’association,
mais aussi à sa diversité. Par exemple, si le verbe manger apparaît 5 fois avec la
préposition avec, uniquement dans {manger,avec,Jean}, et 5 fois aussi avec la
préposition à, dans {manger,à,restaurant|maison|self|cantine|table}, la probabilité
pondérée de {manger,avec} sera de 0.28 et celle de {manger,avec} sera de 0.72.
La formule de calcul de la probabilité pondérée est donnée dans le tableau 7 : F(w,p) est
la fréquence totale du couple (w,p), F(w) est la fréquence totale du mot w, et  est un
38 Je n’ai pas testé d’autres méthodes de filtrage, comme celle de la distribution polynomiale (Manning, 1993).
109
coefficient de normalisation, choisi de telle sorte que la somme des probabilités
associées à un mot donné soit égale à 1.
T = { (w,p,w’) / F(w,p,w’) > 0 }, ensemble de triplets
F(w,p,w’) : nombre d’occurrences où le mot w gouverne la préposition p,
elle-même gouvernant le mot w’
F(w,0) : nombre de cas où w ne gouverne aucune préposition
Ew,p = { w’ / F(w,p,w’) > 0 }, le contexte du couple (w,p)
Prod(w,p) = Card(Ew,p), la productivité du couple (w,p)
F(w,p) = w’ Ew,p F(w,p,w’), le nombre d’occurrences de w quand il gouverne p
F(w)=F(w,0)+  p F(w,p), le nombre total d’occurrences de w
P(w,0) = F(w,0)/F(w), la probabilité d’occurrence de w sans préposition
P(w,p)=F(w,p) /F(w)*log(1 + Prod(w,p))/ , la probabilité d’occurrence de w avec
la préposition p
Tableau 7. Méthode de calcul des probabilités de sous-catégorisation
Pour être tout à fait précis, il faut préciser que le couple (w,p) est distingué selon que la
préposition p gouverne un nom (P(w,pNom)) ou un verbe à l’infinitif (P(w,pVinf)). A titre
d’illustration, je donne un extrait du lexique acquis sur un corpus de 400 000 mots
constitué de comptes rendus d’hospitalisation dans le domaine de la réanimation
chirurgicale (corpus REA, (Bourigault et al., 2004)).
P w p
0,44 accord avec
0,24 accouchement par
0,41 allergie à
0,20 amylasémie à
0,46 analgésie par
0,20 anémie à
0,73 antibioprophylaxie par
0,35 antibiothérapie par
0,23 anticoagulation par
0,61 argument pour
0,31 argument en faveur de
0,30 arme à
Tableau 8. Quelques probabilités de sous-catégorisation acquise ssur un corpus médical
3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation
Après de longues années d’une adhésion obstinée et exclusive à l’apprentissage
endogène, et avec l’arrivée de Cécile Frérot dans le projet, j’ai travaillé à l’élaboration de
110
ressources générales, susceptibles d’être exploitées pour tout corpus. Dans le cadre de sa
thèse, Cécile Frérot a expérimenté l’utilisation d’un lexique de sous-catégorisation
construit à partir des tables du Lexique Grammaire (Frérot et al., 2003 ; Frérot, 2005).
Devant les limites d’une telle approche, j’ai développé une méthode d’acquisition
automatique d’un lexique de probabilités de sous-catégorisation à partir d’un corpus de
très grande taille (Bourigault et Frérot, 2005).
Les méthodes d’acquisition de propriétés de sous-catégorisation exploitent
classiquement des corpus étiquetés de grande taille (Ushioda et al., 1993 ;
Manning, 1993 ; Basili, Vindigni, 1998). Le Web est aussi considéré comme source
potentielle d’acquisition (Gala Pavia, 2003 ; Volk, 2001). J’utilise comme base
d’apprentissage un corpus de 200 millions de mots, constitué des articles du journal Le
Monde, des années 1991 à 2000 (corpus LM1039). Sa taille et sa diversité thématique en
font un corpus référentiellement et linguistiquement peu marqué, à partir duquel il est
raisonnable de chercher à acquérir des données de sous-catégorisation qui soient
relativement génériques. La procédure d’acquisition est directement adaptée de la
méthode d’apprentissage endogène présentée dans la section précédente. La méthode de
calcul des probabilités de sous-catégorisation s’appuie sur un ensemble de triplets
(w,p,w’) extraits d’une analyse syntaxique de l’ensemble du corpus LM10 effectuée par
SYNTEX40. La procédure d’acquisition se déroule en deux étapes, au cours desquelles la
même méthode de calcul de probabilités est lancée successivement sur deux ensembles
différents de triplets : une étape d’amorçage et une étape de consolidation.
- Au cours de l’étape d’amorçage, les probabilités sous-catégorisation sont calculées
exactement comme décrit précédemment, et donc à partir de triplets (w,p,w’) acquis
dans des contextes non ambigus ;
- Au cours de l’étape de consolidation, le module choisirCandidatPrep exploite le
lexique construit lors de l’étape d’amorçage, et traite à son tour l’ensemble du
corpus LM10, analysé par le module chercherCandidatPrep. Il revient sur les cas
ambigus et choisit le gouverneur candidat dont la probabilité de construction avec la
préposition, fournie dans le premier lexique, est la plus élevée. A partir de ces
nouvelles annotations, un nouvel ensemble de triplets est constitué, qui inclut le
précédent et auquel s’ajoutent les triplets (w,p,w’) issus des cas ambigus résolus. De
nouvelles données de fréquence F(w,p,w’) et F(w,0) sont alors constituées, à partir
desquelles un second ensemble de probabilités de sous-catégorisation est calculé,
selon la même méthode. C’est le lexique construit à l’issue de cette étape de
consolidation qui est utilisé dans SYNTEX.
39 Ce corpus a été préparé, à partir de fichiers obtenus auprès de l’agence Elra, à l’aide de programmes, mis au
point par Benoît Habert (LIMSI), qui ont effectué les tâches de nettoyage, de balisage et de signalisation
nécessaires pour transformer les fichiers initiaux en un corpus effectivement « traitable » par des outils de
Traitement Automatique des Langues. Nous remercions Benoît Habert et le LIMSI de nous avoir permis de
bénéficier de ces programmes.
40 Environ 24 heures de traitement sur un biprocesseur Xeon 3.06GHz (4 Go de RAM)
111
Le nombre total d’occurrences de triplets (w,p,w’) à partir desquels les probabilités sont
calculées est de l’ordre de 6,7 millions à l’issue de l’étape d’amorçage, et de 12 millions
à l’issue de l’étape de consolidation. Le nombre total d’occurrences de mots ne régissant
pas de préposition est d’environ 87 millions à l’issue de l’étape d’amorçage, et de 95
millions à l’issue de l’étape de consolidation. Les probabilités ne sont calculées que pour
les couples (w,p) tels que la fréquence totale du mot w est supérieure à 20. Un couple
n’est retenu dans le lexique de désambiguïsation que si la probabilité dépasse le seuil de
0.01. Le lexique final compte 6 693 verbes différents (chacun pouvant être présent avec
plusieurs prépositions), 11 528 noms et 698 adjectifs. Je présente les résultats d’une
évaluation comparative des ressources endogènes et exogènes pour la désambiguïsation
prépositionnelle dans la section 3.2.10.
3.2.9. Antécédence relative
Je présente successivement les modules « à ambiguïté » : le module de rattachement des
pronoms relatifs à leur antécédent (3.2.9), le module de rattachement des prépositions à
leur gouverneur (3.2.10) et le module de rattachement des adjectifs épithètes à leur nom
(3.2.11). Pour chacun de ces modules, je précise d’abord les conventions de
représentation, puis l’algorithme de recherche des candidats gouverneurs et enfin les
indices exploités pour la désambiguïsation.
Représentation
Comme la coordination, la relation de l’antécédence relative pose des problèmes de
représentation. Ceux-ci ont pour origine la « nature double » du pronom relatif, pour
reprendre les termes de Tesnière. Selon ce dernier, le pronom relatif est à la fois un
« translatif », en tant qu’il confère à la subordonnée la valeur d’adjectif, et un
« anaphorique », en connexion anaphorique avec son antécédent, subordonné au verbe
de la proposition relative (Tesnière, 1959, pp. 560-561). Pour la représentation en
stemma, Tesnière propose de disloquer en deux le pronom relatif qui : la forme qu- est le
« transférème » et la forme –i est l’« anaphorème ». Le stemma correspondant à la
séquence « l’homme qui écrit » est celui-ci :
l’homme
A
qu- écrit
-i
(Tesnière, 1959, p. 561)
La représentation de Mel’cuk est peu différente. Selon lui, le pronom relatif ne dépend
syntaxiquement que du verbe de la subordonnée. Certes, le pronom relatif dépend aussi
de son antécédent, mais simplement morphologiquement, et il y a par ailleurs un lien
112
anaphorique entre le pronom et son antécédent, mais ceci est non pertinent du point de
vue syntaxique. Du point de vue syntaxique, la subordonnée relative dépend de
l’antécédent, via son verbe. On reprenant l’exemple de Tesnière, on peut reconstituer la
représentation qu’en ferait Mel’cuk, et classiquement les praticiens de la dépendance,
ainsi (les traits en pointillés représente un lien anaphorique) :
L’homme qui écrit À partir de (Mel’cuk, 1988, p. 26)
Dans SYNTEX, je ne dispose pas d’une catégorie spéciale pour les liens anaphorique, je
traite la relation d’antécédence relative comme une relation syntaxique. J’ai choisi de
représenter cette relation par un lien syntaxique dont la source est l’antécédent et la cible
le pronom relatif. Je ne marque pas le lien entre le verbe de la subordonnée et
l’antécédent ; ce lien est calculé par une fonction spécifique à chaque fois que cela est
nécessaire dans les traitements. Dans la représentation SYNTEX, les pronoms relatifs ont
potentiellement deux gouverneurs41. Le pronom relatif est la cible des relations de
dépendance Sujet et Objet qui partent du verbe de la subordonnée (exemple 1a). Si le
pronom relatif est gouverné par une préposition, celle-ci est gouvernée par le verbe de la
relative. Avec une telle représentation, des croisements sont possibles (exemples 1b).
(1a) l’homme qui mange l’homme que je vois
REL SUJ REL OBJ
(1b) l’homme qu’ a vu Jean l’homme avec lequel Jean mange
Recherche des antécédents
Pour la relation d’antécédence relative, la recherche des candidats est relativement
simple. Le module chercherCandidat teste tous les noms qu’il trouve à gauche du
pronom relatif, dans un contexte restreint, et il utilise deux contraintes pour les filtrer. La
première contrainte est une contrainte d’accord, pour les pronoms relatifs en –quel, pour
le pronom relatif sujet qui, et pour le pronom relatif que quand le verbe est à une forme
composée. Dans l’exemple 2, le nom ministre est refusé comme candidat antécédent
pour le pronom relatif laquelle, de même que le nom libération pour le pronom qui dans
l’exemple 3, et que les noms collaboration, fonction et conseil dans l’exemple 4. La
seconde contrainte est une contrainte de forme : le module rejette les noms au singulier
sans déterminant, gouvernés par une préposition (loi dans l’exemple 5 et financement
dans l’exemple 6).
41 S. Kahane (1997) propose lui –aussi d’associer deux noeuds aux mots –wh.
113
(2) L'opinion du ministre selon laquelle ces organismes sont incapables de
subvenir à leurs besoins ont provoqué du mécontentement dans de
nombreuses localités. [HAN]
(2’) Le premier ministre confère un redoutable pouvoir d'empêchement aux
organisations clandestines, sur les décisions desquelles la très grande
majorité des Corses n'ont pas prise. [LMO]
(3) Il permettra d'accélérer la libération des prisonniers qui, pour quelque raison
que ce soit, seraient admissibles à la libération conditionnelle de jour. [HAN]
(4) Ces lignes directrices avaient été préparées en collaboration avec les
syndicats de la Fonction publique représentés au Conseil national mixte, qui
les ont approuvées. [HAN]
(5) Nous avons enfin adopté le projet de loi qui élargissait la Commission
d'appel de l'immigration. [HAN]
(6) C'est une formule de financement fort originale dont nous sommes très fiers
parce qu'elle est fonction des résultats. [HAN]
Désambiguïsation
Pour choisir parmi plusieurs antécédents candidats, le module choisirCandidatRel utilise
un seul indice, de type endogène, et uniquement dans le cas des pronoms relatifs qui ou
que. Pour les autres pronoms, il applique la règle par défaut (cf. infra). Soit c le candidat,
soit v le verbe de la relative. Si le pronom relatif est qui, l’indice affecté au candidat c est
F(v, SUJ, c), c’est-à-dire le nombre de fois où l’antécédent c a été trouvé comme sujet du
verbe v. Si le pronom relatif est que, l’indice affecté au candidat c est F(v, OBJ, c). Dans
l’exemple 642, c’est le nom problème qui a été choisi comme antécédent, plutôt que le
nom interprétation, car le module Sujet a eu l’occasion d’établir ailleurs dans le corpus
un lien entre le verbe demeurer et le nom problème. Dans l’exemple 7, c’est le nom
fonctions qui a été choisi comme antécédent, plutôt que le nom anti-terrorisme, car le
module Objet a eu l’occasion d’établir ailleurs dans le corpus un lien entre le verbe
occuper et le nom fonction. Dans l’exemple 8, le nom rôle est choisi pour des raisons
analogues.
(6) Il n'est pas possible ici de traiter du problème+ de l'interprétation des
séquences, qui demeure le prochain défi à relever. [LMO]
(7) Cette règle pourrait, en revanche, contraindre Jean-Louis Bruguière à quitter
ses fonctions+ de juge d'instruction spécialisé dans l'anti-terrorisme, qu'il
occupe depuis plus de dix ans. [LMO]
42 Dans les exemples suivants, le candidat choisi par le module de désambiguïsation est marqué par un ‘+’ en
exposant.
114
(8) Un policier algérien décide de passer du côté du FLN alors que son collègue
français, témoin des exactions de l'armée, ne trouve plus sa place dans le
rôle+ de maintien de l'ordre qui lui est confié. [LMO]
La règle par défaut, qui s’applique pour les pronoms relatifs autres que qui et que ou
quand aucun indice n’a été trouvé pour aucun candidat, est la suivante : si le pronom
relatif est dans une incise (précédé d’une virgule), choisir le candidat le plus éloigné du
pronom relatif(exemples 9 et 10) ; sinon, choisir le candidat le plus proche (exemples 11
et 12).
(9) La Chambre a entendu les explications+ du ministre, qu’on retrouve à la
page 1147 du Hansard du 6 novembre. [HAN]
(10) Le ministre pourra assurément trouver une ou deux personnes+parmi ces
groupes, qui seraient favorables à certains des aspects de la mesure. [HAN]
(11) Les sénateurs seront nommés à partir d'une liste proposée par le
gouvernement de la province+ où il y a des postes à combler. [HAN]
(12) Le ministre de la Justice a entrepris une étude de cette question+ au cours de
laquelle il consultera les parties intéressées et les groupes professionnels.
[HAN]
3.2.10. Attachement des prépositions
Représentation
Pour la relation PREP, les conventions de représentation sont les suivantes : la relation
PREP a pour source le gouverneur de la préposition, qui peut être un verbe, un nom ou un
adjectif, et pour cible la préposition. Si le gouverneur est un verbe à une forme
composée, c’est l’auxiliaire qui est la source du lien. Dans le cas de prépositions
coordonnées, c’est le coordonnant qui est la cible de la relation. Il n’y pas de distinction
de représentation entre complément et adjoint, ou entre complément « essentiel » et
complément « circonstanciel » (exemple 1). Le problème essentiel en analyse syntaxique
automatique est de trouver le bon gouverneur d’une préposition. En corpus, la distinction
argument/circonstant est difficile à établir dans nombre de cas, même pour un
grammairien. Dans le cadre du développement de SYNTEX, C. Fabre et C. Frérot (2002)
ont proposé une mesure simple pour distinguer automatiquement, au sein des groupes
prépositionnels rattachés au verbe, les arguments et les circonstants. Cette mesure,
endogène, utilise deux coefficients de productivité : la productivité du gouverneur verbal
vis à vis de la préposition et celle du dépendant vis à vis de la préposition. Les résultats
montrent que cette mesure permet de repérer les arguments avec une précision de 88%,
et les circonstants avec une précision de 72%,
SYNTEX n’effectue pas la distinction argument/circonstant, mais il tente de distinguer les
compléments dits « de phrase », ceux qui ne dépendent syntaxiquement d’aucun mot de
la phrase, et qu’il convient de laisser « flotter » dans la séquence (exemple 2).
115
(1) Jean donne un bonbon à Marie. Jean regarde un film à la télévision.
PREP PREP
(2) Après le travail, Jean rentre chez lui.
Recherche des gouverneurs candidats
Quand on évoque les prépositions en analyse syntaxique automatique, on parle le plus
souvent du problème de l’ambiguïté de rattachement, c’est-à-dire de celui du choix du
bon gouverneur parmi plusieurs candidats (en général deux). On s’étend rarement sur le
problème de la reconnaissance des gouverneurs candidats. Or, quand il s’agit de
développer un analyseur opérationnel, mettre au point des procédures qui cherchent à
gauche d’une préposition l’ensemble des mots susceptibles de la gouverner est un
problème en soi. Le module chercherCandidatPrep s’appuie sur les liens syntaxiques
déjà placés pour parcourir la séquence de droite à gauche. Il dispose d’un certain nombre
de critères d’arrêt, décrivant les configurations dans lesquelles il doit stopper sa
recherche. Il n’est pas question ici de décrire en détail l’algorithme. Je donne quelques
indications en fonction de la catégorie des mots rencontrés par le module pendant le
parcours : nom, adjectif, préposition, verbe, virgule.
Nom. Si le module rencontre un nom, il le prend comme candidat, puis il se déplace au
recteur de ce nom, sauf si celui-ci est placé à droite, comme c’est le cas en particulier s’il
est antécédent d’un pronom relatif ou sujet. Dans l’exemple 3, la recherche des
gouverneurs candidats pour la préposition sur s’arrête au nom loi qui est lié
syntaxiquement au pronom relatif laquelle situé à droite de la préposition. Dans
l’exemple 4, la recherche pour la préposition de s’arrête au nom filles qui est lié
syntaxiquement au pronom relatif qui situé à droite de la préposition. Dans l’exemple 5,
la recherche pour la préposition à s’arrête au nom conflits qui est sujet du verbe se
poursuivent situé à droite de la préposition.
REL
(3) Ce procédé représente de probables atteintes à la loi sur les partis, laquelle fixe
en particulier le financement politique. [HAN]
(4) Engels s'est plié une fois à l' exercice, sur l' instance des filles de Marx qui le
considéraient comme leur oncle. [LMO]
REL
(5) Elle intervient alors que des conflits liés à l'application des 35 heures se poursuivent
dans plusieurs secteurs. [LMO]
SUJ
Adjectif. Si le module rencontre un adjectif, il conserve cet adjectif comme candidat
uniquement si celui-ci est placé immédiatement à gauche de la préposition. La recherche
des gouverneurs candidats pour les prépositions et pour les adjectifs s’effectue au cours
d’une seule et même passe sur la séquence, de gauche à droite. A un adjectif situé à
gauche d’une préposition, le module chercherCandidatAdj peut avoir affecté un ou
116
plusieurs gouverneurs nominaux dont l’adjectif est potentiellement épithète
(section 3.2.11). Chacun de ces noms est récupéré comme candidat de la préposition, et
la recherche continue à partir du plus à gauche de ces noms. Dans l’exemple 6, le
module chercherCandidatPrep retient, pour la préposition en, l’adjectif judiciaire
comme candidat, ainsi que ses gouverneurs potentiels dossiers et commissions,
préalablement identifiés par le module chercherCandidatAdj. Il retient ensuite le nom
ingérence situé immédiatement à gauche du gouverneur des du nom commissions. Dans
l’exemple 7, il retient, pour la préposition du, l’adjectif Mondiale, et tous ses
gouverneurs nominaux candidats.
(6) L’ingérence des commissions dans des dossiers judiciaires en cours. [LMO]
ADJ
(7) L’ouverture de la réunion de l’OrganisationMondiale du Commerce. [LMO]
ADJ
Préposition. Si le module rencontre une préposition, il récupère tous les gouverneurs
candidats qu’il a lui-même identifiés pour cette préposition, quelque instants auparavant.
Dans l’exemple 8, le module chercherCandidatPrep retient, pour la seconde préposition
à, le participe passé limitée, puis le nom négociation, puis les deux gouverneurs
candidats échec et préfère qu’il avait retenus pour la première préposition à.
(8) OMC : la France préfère un échec à une négociation limitée à l'agriculture. [LMO]
Verbe. Si le module rencontre un verbe, il le retient comme candidat et arrête sa
recherche. Les cas où cet arrêt est prématuré, par exemple quand il s’agit de trouver un
gouverneur verbal au-delà d’une relative, sont extrêmement rares. Ils sont pour le
moment mal traités par l’analyseur.
Virgule. Un cas problématique est celui où une virgule, non coordinatrice, précède
immédiatement une préposition. A ce stade du traitement, il est difficile de déterminer
s’il faut aller chercher les gouverneurs candidats juste après cette virgule, au cas où la
préposition serait tête d’un syntagme prépositionnel en position incise, ou bien s’il faut
« sauter » une section incise jusqu’à une éventuelle virgule « ouvrante » pour retrouver
le gouverneur de la préposition. On peut être en présence d’un « complément de phrase »
qu’il serait malvenu de lier syntaxiquement à quoi que ce soit. C’est pourquoi le
rattachement des prépositions précédées d’une virgule est reporté à un stade ultérieur de
l’analyse, quand tous les liens ont été posés (section 3.2.8).
Dans beaucoup d’études sur l’ambiguïté de rattachement prépositionnel, en particulier
dans les travaux fondateurs de Hindle et Rooth (1993), les configurations sur lesquelles
117
sont testés les algorithmes de désambiguïsation ne sont constituées que de deux
candidats, un verbe et un nom. Dans les corpus, les configurations d’ambiguïtés,
exprimées en termes de suite des catégories des candidats repérés par le module
chercherCandidatPrep, sont en fait très diverses. Dans l’expérience que nous avons
menée avec Cécile Frérot, et présentée dans (Bourigault et Frérot, 2005), nous avons
montré que, sur les 4 corpus de test, la configuration ‘V N’, où seuls un verbe et un nom
sont en compétition ne représente que 50 % des cas dans le corpus littéraire, 35 % dans
le corpus journalistique et 15 % dans le corpus juridique et le corpus technique.
Indices et stratégie de désambiguïsation
Le module choisirCandidatPrep exploite essentiellement trois indices : deux indices
endogènes (F et ProbaEndo) et un indice exogène (ProbaExo). Soit, p la préposition, w le
dépendant de la préposition, C la catégorie de ce dépendant. Soit {ci, i=1, …, n}, les
gouverneurs candidats.
- L’indice Fi pour le candidat ci est égal à la fréquence du triplet (ci,p,w) dans le
corpus. C’est un indice endogène. Si la préposition est de, le module calcule un
autre indice endogène du même type, en exploitant le lexique de correspondance
verbo-nominale VERBACTION, développé par Nabil Hathout43. Pour chaque
gouverneur candidat qui est un nom, si ce nom ci est associé à un verbe vi dans
VERBACTION, l’indice Fvi pour le candidat ci est égal à somme des fréquences des
triplets (vi,SUJ,w) et (vi,OBJ,w).
- L’indice ProbaEndoi pour le candidat ci est égal à la probabilité endogène du couple
(ci,pC) dans le corpus.
- L’indice ProbaExoi pour le candidat ci est égal à la probabilité exogène du couple
(ci,pC).
L’algorithme de choix, dans sa version simplifiée, est le suivant : choisir le candidat dont
l’indice F est le plus élevé ; ou bien choisir le candidat dont l’indice ProbaEndo ou
ProbaExo est le plus élevée ; ou, par défaut, laisser l’ambiguïté, qui sera prise en charge
par le module de désambiguïsation globale (section 3.2.12).
Quelques exemples de désambiguïsation réussie. Dans l’exemple 9, le nom rappel est
choisi comme gouverneur de la préposition au, sur la base de l’indice F, car le triplet
(rappel,à,règlement) a été extrait 3 fois dans le corpus, dans des contextes non ambigus
comme celui de l’exemple 9’. Dans l’exemple 10, le participe passé venus est choisi
comme gouverneur de la préposition à, sur la base de l’indice F, car le triplet
(venir,à,Seattle) a été extrait 2 fois dans le corpus, dans des contextes non ambigus
comme celui de l’exemple 10’. Dans l’exemple 11, le nom délivrance est choisi comme
gouverneur de la préposition de, sur la base de l’indice Fv, car le couple (délivrer,
délivrance) est présent dans le lexique VERBACTION et le triplet (délivrer,OBJ,pilule) a
été extrait 5 fois dans le corpus. Dans l’exemple 12, le nom modifications est choisi
43 http://w3.univ-tlse2.fr/erss/ressources/verbaction/
118
comme gouverneur de la préposition au, sur la base de l’indice ProbaEndo, car la
probabilité endogène du couple (modification, àNom) est de 0.10, supérieure aux
probabilités endogène et exogène du couple (étudier, àNom). Dans l’exemple 13, le verbe
attirer est choisi comme gouverneur de la préposition sur, sur la base de l’indice
ProbaExo, car la probabilité exogène du couple (attirer, surNom) est de 0.14, alors que les
probabilités associées aux autres gouverneurs candidats sont nulles.
(9) Monsieur le Président, j'aimerais aussi participer quelques minutes au
rappel+ au règlement qui a été soulevé par mon collègue. [HAN]
(9’) Ce rappel+ au Règlement est complexe et touche à la politique des musées
au Canada. [HAN]
(10) Glen Mpufane fait partie des manifestants venus+ du monde entier à
Seattle pour protester contre la liberté du commerce. [MON]
(10’) BILL CLINTON est venu+à Seattle exposer les positions américaines. [MON]
(11) Il s’agit de la décision d'autoriser la délivrance+ de la « pilule du
lendemain » aux adolescentes dans les établissements scolaires. [MON]
(12) Je suis membre du comité chargé d'étudier les modifications+ au régime
d'assurance chômage. [HAN]
(13) Elles visent à attirer+ l'attention des Canadiens sur une initiative politique
très importante pour notre pays. [HAN]
Evaluation
Dans (Bourigault et Frérot, 2005), nous présentons une évaluation détaillée de
différentes stratégies de désambiguïsation. Nous testons 4 stratégies : une stratégie de
base, qui n’exploite que la règle par défaut d’attachement au candidat le plus éloigné,
une stratégie endogène, qui est analogue à la stratégie décrite ci-dessus mais qui
n’exploite que les indices endogènes, une stratégie exogène, qui est analogue à la
stratégie décrite ci-dessus mais qui n’exploite que les indices exogènes, et enfin une
stratégie dite « mixte », qui est la stratégie décrite ci-dessus. Nous avons testé ces 4
stratégies sur un grand nombre de cas d’ambiguïté de rattachement, annotés à la main sur
4 corpus de genre différents :
- BAL. Le roman Splendeurs et misères des courtisanes, d’Honoré de Balzac
(199 789 mots) : 672 cas annotés.
- LMO. Un extrait du journal Le Monde (673 187 mots) : 1 238 cas annotés.
- TRA. Le Code du travail de la législation française (509 124 mots) : 1 150 cas
annotés.
- REA. Un corpus de comptes-rendus d’hospitalisation dans le domaine de la
réanimation chirurgicale (377 967 mots) : 646 cas annotés.
119
BAL LMO TRA REA
base 83.0 70.3 65.5 59.9
endogène 83.5 (-2.9) 80.1 (-33.0) 82.3 (-48.7) 78.0 (-45.1)
exogène 86.9 (-22.9) 86.6 (-54.9) 86.3 (-60.3) 66.3 (-16.0)
mixte 86.6 (-21.2) 85.9 (-52.5) 87.3 (-63.2) 78.3 (-45.9)
Tableau 9. Taux de précision des différentes stratégies de désambiguïsation sur les 4
corpus de test (avec le taux de réduction de l’erreur par rapport à la stratégie de base).
Le tableau 9 donne les taux de précision des différentes stratégies de désambiguïsation
sur les 4 corpus de test, ainsi que, pour un corpus donné, le taux de réduction de l’erreur
par rapport à la stratégie de base. Les principales conclusions que l’on peut tirer de ces
résultats sont les suivantes :
- L’apport des ressources exogènes génériques est indéniable. Le taux de réduction de
l’erreur, qui est de 22.9 % pour le corpus littéraire (BAL), sur lequel la stratégie de
base est déjà très performante, s’élève à 54.9 % pour le corpus journalistique (LMO)
et à 60.3 % pour le corpus juridique (TRA).
- Il n’y a que sur le corpus médical (REA) que l’apprentissage endogène s’avère être
indispensable. La réduction du taux d’erreur est de 45.1 % avec la stratégie
endogène, alors qu’elle n’est que de 16 % avec la stratégie exogène. Plus que par le
domaine couvert, ceci s’explique par le style très particulier utilisé par les médecins
pour rédiger les comptes rendus d’hospitalisation, avec un usage abondant de
phrases nominales et d’une phraséologie très spécifique.
- Le résultat le plus remarquable, et le moins attendu, est la très grande homogénéité
des taux de précision obtenus avec les stratégies exploitant le lexique générique
(stratégies exogène ou mixte) sur les corpus littéraire, journalistique et juridique.
Ces taux ont des écart de moins de 2 % (respectivement 86.6 %, 85.9 % et 87.3 %
pour ces trois corpus avec la stratégie mixte). L’exploitation de ressources exogènes
conduit à un resserrement et à un rapprochement par le haut des performances.
On peut rapprocher ces résultats de ceux, récapitulés dans (Pantel et Lin, 2000), obtenus
sur 3 000 cas ambigus extraits de la partie Wall Street Journal du Penn TreeBank par
différentes méthodes : 81,6% avec une méthode supervisée utilisant un modèle
d’entropie maximale (Ratnaparkhi et al., 1994), 88,1% avec une méthode supervisée
utilisant un dictionnaire sémantique (Stetina, Nagao, 1997) et 84.3% avec une méthode
non supervisée utilisant des mots distributionnellement proches (Pantel et Lin, op.cit.).
Mais puisque les langues, le type de corpus de test et les conventions d’annotations sont
différentes, il est délicat de comparer ces chiffres avec ceux que nous présentons dans le
tableau 3.
Les ressources de sous-catégorisation syntaxique construites à partir du corpus LM10
sont exploitées par l’analyseur sans avoir été validées manuellement, et les résultats
montrent qu’elles sont performantes pour cette tâche. Il convient de préciser que, sur le
plan linguistique, ces propriétés de sous-catégorisation ne sont pas comparables aux
descriptions que l’on peut trouver dans des lexiques construits à la main, comme le
120
Lexique Grammaire ou le lexique Dicovalence44, dans les dictionnaires de langue ou
dans les études de psycholinguistique. C’est vrai particulièrement pour les verbes. La
probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de
toutes les occurrences (lemmatisées) de ce verbe, sans distinction des différentes
acceptions du verbe, alors que l’on sait qu’un même verbe peut avoir des cadres de souscatégorisation
différents selon ses différents sens. Dans le contexte du développement
d’un analyseur syntaxique « tout terrain », l’approximation à laquelle conduit ce lissage
des sens est un mal nécessaire.
3.2.11. Attachement des adjectifs
Représentation
La relation épithète, notée ADJ, a pour source un nom et pour cible un adjectif
qualificatif, un participe passé ou un participe présent. L’adjectif peut être antéposé.
Dans le cas d’une coordination de noms gouverneurs, la relation a pour source le
coordonnant. Dans le cas d’une coordination de dépendants, la relation a pour cible le
coordonnant.
Recherche des gouverneurs candidats
Après avoir testé la possibilité d’un gouverneur à droite, dans le cas d’un adjectif
qualificatif, le module chercherCandidatAdj remonte la séquence à gauche à la
recherche de noms gouverneurs candidats. S’il rencontre un nom, il teste l’accord, retient
ce nom s’il n’y pas d’incompatibilité, et dans tous les cas poursuit au gouverneur de ce
nom. Dans le cas de noms coordonnés, s’il y a accord avec le premier de ces noms (le
plus à droite), le module retient uniquement celui-ci, et remonte au gouverneur du
coordonnant (exemples 1 et 2). S’il n’y a pas accord avec le premier nom, il peut retenir
dans certains cas le coordonnant comme gouverneur candidat (exemples 3 et 4). La
recherche s’arrête si le gouverneur d’un nom retenu comme gouverneur candidat est
situé à droite de l’adjectif. Dans l’exemple 5, la recherche de gouverneurs candidats pour
l’adjectif stratégique s’arrête au nom plan, antécédent du pronom relatif lequel situé à
droite de l’adjectif, et ne se poursuit donc pas au nom mouture.
(1) Il se traduit dans l' agencement des tables, l' accueil prévenant et la cuisine
désormais très personnelle de l' ancien chef du restaurant Le Quai d' Orsay.
[LMO]
(2) Les artistes et les musiciens contemporains. [LMO]
44 http://bach.arts.kuleuven.be/dicovalence/
121
(3) Exeunt les représentants de l' Etat et les mutuelles , considérés comme
« juge et partie ». [LMO]
(4) Il s’agit de connaître la nature et la structure exactes des terrains
sédimentaires sur lesquels la ville de Grenoble est construite. [LMO]
(5) La première mouture du plan stratégique , dans lequel le statut
de l' AFP est identifié comme un frein à son développement. [LMO]
Indices et stratégie de désambiguïsation
Le module choisirCandidatAdj n’utilise qu’un indice, de type endogène. Soit a l’adjectif
et {ci, i=1, …, n} les gouverneurs candidats. L’indice Fi pour le candidat ci est égal à la
fréquence du triplet (ci,ADJ,a). Le module choisit le candidat qui a l’indice le plus élevé,
ou, par défaut, il laisse l’ambiguïté, qui sera prise en charge par le module de
désambiguïsation globale (section 3.2.12). Dans l’exemple 6, le module choisit le
gouverneur information, car le triplet (information,ADJ,judiciaire) a été extrait de
nombreuses fois dans le corpus dans des contextes non ambigus. Dans le cas où le
dépendant est un participe passé, le module choisirCandidatAdj utilise un second indice
endogène, qui est égal à la fréquence du triplet (a,OBJ, ci). Dans l’exemple 7, le module
choisit pour le participe passé déposée le nom plainte, car le triplet (déposer,obj,plainte)
a une fréquence non nulle.
(6) Cela permet aussitôt l'ouverture d'une nouvelle information+ judiciaire.
[LMO]
(7) Le tribunal des prud'hommes devait juger une plainte+ pour discrimination
déposée par six militants de la CGT. [LMO]
3.2.12. Procédure de désambiguïsation globale
La tâche de désambiguïsation des liens PREP et ADJ est réalisée par un module
spécifique qui intervient sur le treillis des liens placés par ces modules
chercherCandidatPrep et chercherCandidatAdj. La stratégie de désambiguïsation
exploite la contrainte de projectivité : au sein d’une séquence, deux liens syntaxiques ne
peuvent se croiser, sauf exceptions répertoriées. Dans le treillis de liens syntaxiques, il y
a deux types de liens : les liens surs, pour lesquels les source et cible sont des mots
uniques, et les liens possibles qui pointent sur le même dépendant et qui sont
incompatibles entre eux. La stratégie de désambiguïsation est simple, elle comporte trois
étapes.
1- Elagage préliminaire. Le module calcule d’abord les croisements entre liens
syntaxiques. Dès qu’il repère un croisement entre un lien sûr et un lien possible, il
élimine le lien possible, ce qui élimine un gouverneur de la liste des candidats
122
gouverneurs du mot sur lequel pointait le lien possible. Dans l’exemple 1, le lien
entre donne et à et le lien entre bonbon et à sont des liens possibles, incompatibles
entre eux. Le lien entre bonbon et rose est un lien sûr. Il y a croisement entre ce lien
et le premier des deux liens pointant sur à, qui est alors éliminé. Le rattachement de
la préposition à est désambiguïsé.
(1) Il donne des bonbons à la fraise roses.
(1’) Il donne des bonbons à la fraise roses.
2- Prise en compte des indices positifs. Le module parcourt la séquence de gauche à
droite. Si le mot courant est ambigu, c’est-à-dire qu’il a plusieurs gouverneurs
candidats, il lance le module de désambiguïsation correspondant
(choisirCandidatPrep ou choisirCandidatAdj, selon la catégorie du mot). Je rappelle
que ces modules de désambiguïsation ne prennent aucune décision lorsque aucun
indice positif ne permet de choisir un gouverneur candidat. Si aucun candidat n’est
sélectionné, le module passe au mot suivant. Si un candidat est sélectionné, il place
le lien de dépendance entre ce gouverneur et le mot courant, en éliminant tous les
liens possibles qui pointaient vers ce dernier. Puis il élimine le cas échéant les liens
possibles qui croisent ce nouveau lien sûr. La désambiguïsation d’un lien peut ainsi
réduire l’ambiguïté d’autres mots de la séquence45. Par exemple, dans l’exemple 3,
aucun indice ne permet de lever l’ambiguïté sur le gouverneur de la préposition de
(affiche ou volonté). Puis aucun indice ne permet de lever l’ambiguïté sur le
gouverneur de l’adjectif franche (volonté ou discussion). En revanche, parmi les
gouverneurs candidats de la préposition avec, le nom discussion possède un indice
positif : la probabilité exogène que ce nom se construise avec la préposition avec est
de 0.11 (ProbaExo(discussion,avec)=0.11). Le lien syntaxique entre discussion et
avec est retenu comme sûr, ce qui conduit à l’élimination des autres liens pointant
sur avec, ainsi que celle du lien possible entre volonté et franche. Le rattachement
de l’adjectif est alors désambiguïsé (exemple 3’).
3- Décisions par défaut. Le module parcourt une seconde fois la séquence de gauche à
droite. Si le mot courant est ambigu, il applique la règle de rattachement par défaut :
si le mot est une préposition, il choisit le dernier candidat, c’est-à-dire le plus
éloigné de la préposition, dans le cas où la préposition n’est pas de, il choisit le
premier si la préposition est de ; si le mot est un adjectif, il choisit le premier
45 Il est possible d’imaginer des procédures de désambiguïsation globale différentes de celle présentée dans
cette section : par exemple, plutôt que de résoudre en parcourant les mots de gauche à droite, il serait possible
de le faire en parcourant les liens possibles par indice de confiance décroissant. Les gains seraient, je pense,
relativement marginaux.
123
candidat. Après chaque application d’une règle par défaut, le module élimine le cas
échéant des liens possibles croisants.
(3) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.
(3’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.
(3’’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats.
3.2.13. Analyse profonde
Un certain de nombre de liens syntaxiques (ne) peuvent être placés (qu’) en fin
d’analyse, quand la plupart des liens syntaxiques qui structurent la séquence ont été
posés par les différents modules décrits jusqu’ici. Ces liens correspondent pour certain à
une analyse dite « profonde ». La combinaison de techniques d’analyse superficielle et
profonde est une problématique d’actualité. Blache (2005) dresse un bilan sur les
différentes approches testées pour combiner ces analyses. Il identifie 4 types
d’approches : (1) L’approche pré-traitement, où l’entrée a été préformatée avec des
outils de désambiguïsation morphosyntaxique et de reconnaissances d’entités nommées ;
(2) l’approche pré-analyse, où l’entrée est le résultat d’une analyse superficielle ; (3)
l’approche contrôle, dans laquelle un analyseur profond est guidé par un analyseur
superficiel ; (4) l’approche granularité variable, dans laquelle la finesse d’un même
analyseur peut être réglée en fonction des objectifs (op. cit., pp. 96-98). Blache et al.
(2002) proposent un analyseur du dernier type, basé sur les contraintes, dans lequel les
seuils et les types de contraintes sont les variables de réglage. Dans SYNTEX, certaines
des analyses que l’on qualifie de profondes sont réalisées en fin de traitement par ce
module final. Les principales analyses effectuées par ce module concernent le repérage
de dépendances non bornées et celui des sujets logiques de l’infinitif.
Dépendances non bornées avec relatif
Le phénomène de dépendance non bornée est « le fait que deux éléments liés l’un à
l’autre se trouvent à une distance structurelle (en termes de dépendances syntaxiques)
potentiellement illimitée » (Kahane, 2002, p. 51). Le module traite certains cas de
dépendance non bornée mettant en jeu des relatives (du type « l’homme avec lequel je
souhaite manger » ou « l’homme auquel je cherche à parler »), dans lesquels le pronom
relatif est gouverné par une préposition, et le verbe de la relative gouverne directement
124
ou indirectement un infinitif. Dans ce cas, la source du lien de dépendance pointant sur
la préposition, est déplacée du verbe de la relative au verbe infinitif (exemples 1 et 1’, 2
et 2’). Dans l’état actuel de l’analyseur, l’ambiguïté de rattachement n’est pas traitée, le
verbe infinitif est systématiquement choisi, alors que le verbe de la relative peut être le
bon gouverneur (exemples 3 et 3’). Le module traite aussi certains cas d’extraction
(exemples 4 et 4’).
(1) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord . [LMO]
(1’) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord. [LMO]
(2) Un projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO]
(2’) Un projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO]
(3) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO]
(3’) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO]
(4) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO]
(4’) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO]
125
Dans le cas de dépendances non bornées impliquant le pronom relatif que, le traitement
est plus complexe, pour tenir compte d’une possible erreur d’étiquetage de cette forme,
et la corriger le cas échéant. Si le verbe à l’infinitif est transitif et n’a pas d’objet, la
source du lien objet qui pointe sur que est déplacée du verbe principal au verbe à
l’infinitif (exemples 5 et 5’). Si le verbe à l’infinitif a déjà un objet, le module constate
une incompatibilité. Il réétiquette le mot que en conjonction de subordination et
transforme le lien objet entre le verbe conjugué et que en un lien de subordination entre
que et le verbe (exemples 6 et 6’).
(5) Le bouclier queProRel Washington tient à déployer a des effets déstabilisants.
[LMO]
(5’) Le bouclier queProRelWashington tient à déployer a des effets déstabilisants.
[LMO]
(6) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste
queProRel nous continuerons à exercer notre activité. [LMO]
(6’) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste
queCSub nous continuerons à exercer notre activité. [LMO]
Sujet logique des infinitifs
Le module traite le cas des sujets des infinitifs. Il ajoute une relation Sujet logique qui
part de l’infinitif vers un des dépendants du verbe gouverneur. Le module utilise des
listes de verbes. Dans les exemples 7 à 9, le sujet de l’infinitif est le sujet du verbe à
contrôle. Dans les exemples 10 et 11, le sujet de l’infinitif est le complément d’objet du
verbe à contrôle. Dans les exemples 12 et 13, le sujet de l’infinitif est un complément
indirect du verbe à contrôle.
(7) Rares sont les hommes politiques et les intellectuels qui osent s'opposer à la
croisade sanglante menée par Vladimir Poutine dans le Caucase du Nord.
(8) Tous les économistes s'accordent à dire qu'elle se situe à la marge.
(9) Sensibles aux barrières symboliques, les opérateurs risqueraient alors de
fuir en masse.
(10) Nous avons décidé d'occuper le terrain militaire pour forcer l'Etat Français à
engager le règlement politique de la question corse.
126
(11) Cela ne devrait pas empêcher les partisans de la démocratie de mettre ses
bonnes intentions à l'épreuve.
(12) Elle reproche à France-Télécom d'abuser de sa position dominante dans les
communications locales.
(13) Ce texte interdit notamment aux enfants de voyager sur des strapontins.
Analyse globale
Enfin, le module construit la forme syntaxique finale de la séquence, en termes de
succession de clauses. Chaque clause est la projection d’un mot non gouverné.
L’algorithme de construction de cette forme est simple. Le résultat de cette construction
est la forme globale de la séquence, telle qu’elle est obtenue à l’issue d’une phase
d’analyse exclusivement ascendante au cours de laquelle l’analyseur a cherché à lier
autant que possible chacun des mots de la séquence à un gouverneur syntaxique. A partir
de cette forme globale, on peut envisager une phase d’analyse descendante,au cours de
laquelle l’analyseur a une vision globale des clauses construites lors de la première
phase, vision globale qui peut lui permettre de compléter l’analyse syntaxique. Dans
l’état actuel du développement de SYNTEX, cette étape d’analyse descendante reste
marginale. Le seul traitement effectué est le rattachement de certaines prépositions
précédées d’une virgule (exemples 4 et 5). Les recherches pour reconnaître, avec cette
nouvelle perspective, de nouveaux liens, ou pour corriger des liens existants, se
poursuivent…
(3) Il refuse de créer avec lui , hors de tout cadre légal , une hypothétique entité
constitutionnelle basque . [MON]
OBJ
(4) Comme le fut en son temps , dans les mêmes conditions , le Tornado , le nouvel
avion de combat européen est très inspiré par la « culture » militaro-industrielle
britannique . [MON]
SUJ
(5) Le FBI estime que, pendant la même période, plus de cent personnes pourraient
avoir été enterrées dans des fosses communes. [LMO]
COMP
3.2.14. Evaluation
Je présente les résultats obtenus dans le cadre de la campagne nationale EASY46
d’évaluation des analyseurs syntaxiques du français. Cette campagne était une des 8
46 http://www.limsi.fr/Recherche/CORVAL/easy/
127
campagnes d’évaluation des technologies de la langue du projet EVALDA47, piloté par
l’agence ELDA et financé par le Ministère français en charge de la Recherche dans le
cadre du programme Technolangue (décembre 2002 - avril 2006). Les organisateurs de
la campagne EASY ont été l’agence ELDA et le laboratoire LIMSI du CNRS. Dans cette
campagne, les 15 analyseurs ont participé à la compétition, provenant de 13 participants
différents : ERSS, FT R&D, INRIA, LATL, LIC2M, LIRMM, LORIA, LPL, STIM,
SYNAPSE, SYSTAL, TAGMATICA, VALORIA et XRCE. Les corpus annotés ont été
fournis par 5 partenaires : l’ATILF, le LLF, le DELIC, le STIM et ELDA. La tâche des
fournisseurs de corpus a consisté en la collecte du corpus de différents genres de textes
et en leur annotation (tableau 10). Les différents corpus sont les suivants : Web, des
pages WEB du site ELDA ; Le Monde, des articles du journal Le Monde ; Parlement,
des transcriptions de débats parlementaires (Sénat français et Parlement Européen) ;
Littérature, des textes littéraires, issus de la base Frantext de l’ATILF ; Mail, des
emails ; Médical, des textes médicaux (pathologies et traitements) ; Oral, des
transcriptions de parole ; Questions, des questions, issues de la campagne EQUER.
Le protocole d’évaluation EASY supposait que tous les participants adoptent la même
segmentation en mots et en énoncés. En concertation avec les participants, les
organisateurs ont défini un formalisme et des conventions d’annotation censés permettre
d’exprimer l’essentiel d’une annotation syntaxique quelle que soit sont type (de surface
ou profonde, complète ou partielle), ceci sans privilégier une approche particulière. Le
formalisme d’annotation EASY permet d’annoter des constituants continus et
non-récursif, ainsi que des relations syntaxiques. Les relations peuvent associer
indifféremment des mots ou des constituants. Dans EASY, il y a 6 types de constituants :
nominal, adjectival, prépositionnel, adverbial, verbal et prépositionnel-verbal. Il y a 14
types de relations fonctionnelles : sujet-verbe, auxilliaire-verbe, complément d’objet
direct, complément-verbe, modifieur de nom, modifieur de verbe, modifieur d’adjectif,
modifieur d’adverbe, modifieur de préposition, complémenteur, attribut du sujet/objet,
coordination, apposition, juxtaposition. Pour plus de détails, voir (Vilnat et al., 2004)
(Paroubek & Robba, 2006) (Paroubek et al., 2007).
Nous n’avons participé qu’à l’évaluation sur les relations, puisque SYNTEX ne fabrique
pas de constituants. Par ailleurs, j’avais décidé d’emblée de ne pas fournir de résultats
sur les corpus Oral et Mail, pour marquer le fait que SYNTEX n’avait pas été conçu pour
traiter des corpus de n’importe quel type, mais qu’il avait été mis au point pour, et été
testé sur, des corpus qui respectent les normes syntaxiques de l’écrit standard.
L’essentiel du travail a consisté, d’une part, à réaliser les programmes de conversion en
amont de l’analyseur, pour prendre en entrée le découpage en mots fourni par les
organisateurs, et en aval de l’analyseur, pour rendre les résultats dans le format XML
demandé, et, d’autre part, à compléter l’analyseur pour qu’il traite correctement des
47 http://www.elda.org/
128
relations (locales) sur lesquelles j’avais alors peu avancé. L’ensemble de ces tâches a été
mené à bien, de main de maître, par Marie-Paule Jacques48.
Je présente dans les tableaux 12a-h les résultats, pour les relations, de tous les analyseurs
sur tous les corpus, en termes de précision, rappel et f-mesure. Le tableau 11 rassemble
ces résultats pour SYNTEX, sur les 6 corpus qu’il a traités. On constate que SYNTEX est
classé premier partout, sauf en rappel sur les corpus Littéraire (3ème), Le Monde (3ème) et
Parlement (2ème). Le résultat le plus remarquable est l’écart entre SYNTEX et ses suivants
en terme de précision : en moyenne 10 points de précision en plus.
Corpus Fournisseur Enoncés Mots Enoncés
annotés
Mots
annotés
Web ELDA 836 16 786 77 2 104
Le Monde LLF 2 950 86 273 380 10 081
Parlement ELDA 2 818 81 310 276 7 551
Littérature ATILF 8 062 229 894 892 24 358
Mail ELDA 7 976 149 328 852 9 243
Médical STIM 2 270 48 858 554 11 799
Oral DELIC 522 8 106 505 8 117
Questions ELDA 3 528 51 546 203 4 116
Tableau 10. Les corpus de la campagne EASY
Corpus Précision Rappel F mesure
r S-n°2 r S-n°1 r S-n°2
Web 0.80 1 + 0.11 0.60 1 0 0.69 1 + 0.12
Médical 0.79 1 + 0.14 0.63 1 0 0.70 1 + 0.07
Littéraire 0.80 1 + 0.12 0.55 3 - 0.07 0.65 1 + 0.03
Le Monde 0.76 1 + 0.10 0.58 3 - 0.02 0.66 1 + 0.04
Parlement 0.75 1 + 0.11 0.57 2 - 0.02 0.64 1 + 0.05
Questions 0.77 1 + 0.09 0.63 1 0 0.70 1 + 0.05
Mail
Oral
Tableau 11. Résultats de SYNTEX dans la compagne EASY (pour les relations), sur 6
corpus. Précision, rappel et f-mesure, avec le rang de classement (r) et l’écart avec
l’analyseur classé deuxième pour la précision et la f-mesure (S-n°2), et l’écart avec
l’analyseur classé premier pour le rappel (S-n°1).
48 Elle était alors jeune doctorante au sein de l’ERSS. Je la remercie ici chaleureusement, et je suis heureux de
partager avec elle la joie de voir d’avoir obtenu de si bons résultats.
129
p r f
P1 0.59 0.51 (3) 0.55 (3)
P2 0.42 0.16 0.23
P3 - - -
P4 0.55 0.33 0.42
P5 0.55 0.44 0.49
P6 0.46 0.41 0.43
P7 0.61 0.39 0.47
Sy 0.80 (1) 0.60 (1) 0.69 (1)
P9 0.69 (2) 0.30 0.42
P10 0.60 0.55 (2) 0.57 (2)
P11 0.67 (3) 0.06 0.11
P12 0.41 0.29 0.34
P13 0.27 0.24 0.26
P14 - - -
P15 0.34 0.32 0.33
Tableau 12a. Résultats EASY
(relations) sur le corpus Web
p r f
P1 0.60 0.53 0.56
P2 0.07 0.04 0.05
P3 0.64 (3) 0.63 (2) 0.63 (2)
P4 0.28 0.20 0.23
P5 0.56 0.49 0.52
P6 - - -
P7 0.65 (2) 0.44 0.53
Sy 0.79 (1) 0.63 (1) 0.70 (1)
P 9 0.04 0.02 0.03
P10 0.61 0.59 (3) 0.60 (3)
P11 0.62 0.10 0.17
P12 0.43 0.33 0.38
P13 0.36 0.33 0.34
P14 - - -
P15 0.33 0.28 0.30
Tableau 12b. Résultats EASY
(relations) sur le corpus Médical
p r f
P1 0.61 0.54 0.58
P2 0.08 0.04 0.05
P3 0.58 0.62 (1) 0.60 (3)
P4 0.53 0.36 0.43
P5 0.51 0.41 0.46
P6 - - -
P7 0.68 (2) 0.43 0.52
Sy 0.80 (1) 0.55 (3) 0.65 (1)
P9 0.02 0.01 0.02
P10 0.64 (3) 0.61 (2) 0.62 (2)
P11 0.64 0.09 0.16
P12 0.39 0.27 0.32
P13 0.43 0.38 0.40
P14 - - -
P15 0.38 0.31 0.34
Tableau 12c. Résultats EASY
(relations) sur le corpus Littéraire
p r f
P1 0.57 0.52 0.54
P2 0.32 0.12 0.17
P3 0.63 (3) 0.60 (1) 0.62 (2)
P4 0.58 0.32 0.41
P5 0.56 0.46 0.51
P6 0.42 0.34 0.38
P7 0.66 (2) 0.43 0.52
Sy 0.76 (1) 0.58 (3) 0.66 (1)
P9 - - -
P10 0.61 0.59 (2) 0.60 (3)
P11 0.60 0.07 0.13
P12 0.41 0.29 0.34
P13 0.36 0.32 0.34
P14 - - -
P15 0.34 0.29 0.31
Tableau 12d. Résultats EASY
(relations) sur le corpus Le Monde
130
p r f
P1 0.58 0.52 0.55
P2 0.29 0.11 0.16
P3 0.59 0.59 (1) 0.59 (2)
P4 0.55 0.32 0.40
P5 0.53 0.43 0.47
P6 0.41 0.34 0.37
P7 0.64 (2) 0.41 0.50
Sy 0.75 (1) 0.57 (2) 0.64 (1)
P9 - - -
P10 0.58 0.56 (3) 0.57 (3)
P11 0.60 (3) 0.08 0.14
P12 0.37 0.24 0.29
P13 0.34 0.31 0.32
P14 - - -
P15 0.34 0.29 0.31
Tableau 12e. Résultats EASY
(relations) sur le corpus Parlement
p r f
P1 0.68 (2) 0.62 (2) 0.65 (2)
P2 0.16 0.06 0.09
P3 0.66 0.61 (3) 0.64 (3)
P4 0.67 (3) 0.56 0.61
P5 0.45 0.38 0.41
P6 - - -
P7 0.67 0.43 0.52
Sy 0.77 (1) 0.63 (1) 0.70 (1)
P9 0.11 0.05 0.07
P10 0.64 0.61 0.62
P11 0.61 0.09 0.16
P12 0.48 0.35 0.40
P13 0.35 0.31 0.33
P14 - - -
P15 0.36 0.29 0.32
Tableau 12f. Résultats EASY
(relations) sur le corpus Questions
p r f
P1 0.57 0.48 (3) 0.52 (3)
P2 0.13 0.05 0.08
P3 0.60 (3) 0.55 (1) 0.57 (1)
P4 0.55 0.04 0.07
P5 0.50 0.40 0.44
P6 - - -
P7 0.64 (2) 0.36 0.46
Sy - - -
P9 0.04 0.02 0.03
P10 0.57 0.52 (2) 0.55 (2)
P11 0.66 (1) 0.01 0.02
P12 0.39 0.24 0.30
P13 0.45 0.36 0.40
P14 - - -
P15 0.41 0.29 0.34
Tableau 12g. Résultats EASY
(relations) sur le corpus Mail
p r f
P1 0.61 (3) 0.49 (1) 0.54 (1)
P2 0.33 0.09 0.14
P3 0.56 0.48 (3) 0.51 (2)
P4 0.56 0.39 0.46
P5 0.51 0.36 0.43
P6 - - -
P7 0.63 (2) 0.33 0.43
Sy - - -
P9 0.26 0.09 0.13
P10 0.52 0.48 (2) 0.50 (3)
P11 0.65 (1) 0.10 0.18
P12 0.34 0.21 0.26
P13 - - -
P14 - - -
P15 - - -
Tableau 12h. Résultats EASY
(relations) sur le corpus Oral
131
3.3. Discussion
Pour conclure ce mémoire, je consacre cette dernière section à une discussion
épistémologique sur le statut de l’analyseur SYNTEX et sur la valeur des connaissances
générées par le projet de recherche décrit dans ce mémoire. Dans une première partie
(section 3.3.1), je situe les recherches présentées dans ce mémoire par rapport au
paradigme des grammaires formelles, qui domine largement le domaine de l’analyse
syntaxique au sein du TAL depuis les travaux de N. Chomsky. Je reprends
l’argumentation épistémologique de Jean-Marie Marandin (1993), à propos de
l’inadéquation des grammaires formelles pour l’analyse d’énoncés réels. Je discute
ensuite les oppositions entre approche procédurale et approche déclarative, et entre
analyse et génération. J’insiste sur le rôle central de la grammaire traditionnelle, tant
pour le projet de la Grammaire Générative Transformationnelle, que pour celui du
développement d’un analyseur syntaxique opérationnel. Je conclus cette section sur la
nécessité de choisir un cadre épistémologique au sein duquel il soit possible de penser le
statut et la valeur de connaissances des objets techniques réalisés par l’ingénierie
linguistique. Dans la deuxième partie de cette section (3.3.2), je me situe dans le cadre
épistémologique de la philosophie de la technique de Gilbert Simondon. Je montre
comment les concepts d’adaptation et d’auto-corrélation élaborés par Simondon
permettent de décrire de façon particulièrement éclairante le processus de
développement de l’analyseur SYNTEX en tant qu’objet technique. La dernière partie de
cette section (3.3.3) pose la question du savoir sur la langue produit par le projet
SYNTEX, et y répond, partiellement, en proposant d’utiliser l’analyseur comme un
instrument d’observation en corpus des structures syntaxiques de la langue.
3.3.1. Situation par rapport au paradigme formel
La critique de J.-M. Marandin (1993)
Dans un article de la revue Traitement Automatique des Langues publié en 1993,
Jean-Marie Marandin expose une critique épistémologie du principe de l’utilisation des
grammaires formelles en analyse syntaxique automatique (Marandin, 1993). Le point de
départ de sa réflexion est la question suivante : « Quel statut (…) prend, ou peut prendre,
un analyseur dans un programme de recherche consacrée au langage » (op. cit., p. 5).
Marandin examine le statut de l’analyseur syntaxique dans trois programmes de
recherche : le Traitement du Langage Naturel, la syntaxe et la compréhension. Je me
concentre ici sur ce que dit Marandin du premier programme, le plus proche de mon
propre projet. Marandin nomme ce projet « 3A », pour Analyse Automatique Autonome,
et il le définit ainsi : « concevoir, étant donné une grammaire, l’algorithme ou
l’heuristique qui permet de décrire des énoncés dans les termes de cette grammaire ;
implémenter la procédure ». Marandin affirme que, bien que les tenants de ce
132
programme s’en défendent ou bien l’ignorent, ce programme est entièrement déterminé
par la problématique de la Grammaire Générative transformationnelle (GGT) dans sa
version standard, puisque, de fait, l’analyseur 3A occupe la place du dispositif de
performance telle qu’elle est définie dans ce cadre théorique. Or, explique Marandin, « il
est faux de considérer que l’appareil de performance, tel que le propose la GGT, en
particulier Chomsky dans Aspects, soit réductible à une pure application des règles
syntaxiques » (op. cit., p. 12), et il poursuit en citant N. Chomsky : « la grammaticalité
est seulement l’un des nombreux facteurs qui, par leur interaction, déterminent
l’acceptabilité [des énoncés] » (Chomsky, 1971, p. 23). Ainsi, selon Marandin, les
difficultés rencontrées par 3A dans la mise en oeuvre effective de son programme
viennent d’une inadéquation de fond entre le dispositif abstrait des grammaires
formelles, emprunté au cadre théorique de la GGT dans lequel il est exploité pour
générer des phrases grammaticales, et la fonction assignée à l’analyseur par le
programme 3A, à savoir de produire automatiquement des descriptions syntaxiques
d’énoncés appréhendés dans des échanges langagiers. Un énoncé n’est que partiellement
organisé par la grammaire conçue comme un système de règles de bonne formation (voir
section 3.1.2). L’énoncé est hétérogène, en tant que résultat intriqué de l’interaction de
plusieurs principes organisationnels, et cela se marque dans la forme même des énoncés :
« le système des circonstanciels, par exemple, échappe en grande partie au contrôle de la
syntaxe ; il en est de même pour les différents système d’anaphore et certains aspects de
la sous-catégorisation verbale quand on ne se laisse pas leurrer par le dogme de la
projection (ou ses équivalents) » (Marandin, 1993, p. 14).
Procéduralité vs. déclarativité
On a vu dans le chapitre 2 que l’arrivée sur le devant de la scène des grammaires
d’unification pour l’analyse syntaxique, est concomitant du discrédit dans lequel tombe
le paradigme des ATN, au moment où l’Intelligence Artificielle promeut la déclarativité
au rang de principe incontournable. Le principe de la séparation des règles de grammaire
et des algorithmes, cher à Yngve dès les années 1950, est un principe essentiel du
paradigme formel. S’écarter de ce paradigme impose-t-il de renoncer au principe de la
séparation ? La question est ouverte. Parmi les travaux en analyse syntaxique robuste
présentés dans le chapitre 2, la plupart s’inscrivent dans une philosophie procédurale.
P. S. Garvin, dès 1967, remet en cause le principe d’une tripartition des analyseur
syntaxiques (dictionnaire électronique, base de règles grammaticales, algorithme
d’analyse) avec l’argument que dès que la grammaire atteint une taille réaliste, il n’est
plus possible de maintenir le principe d’une indépendance entre les règles et les
algorithmes, qui rend possible la modification ou l’ajout des règles sans qu’il soit
nécessaire de modifier l’algorithme. Son analyseur syntaxique pour le russe est un
système bipartite, constitué d’un dictionnaire et d’un algorithme. Il en est de même de
SYNTEX. Les connaissances grammaticales sont incluses, « encapsulées », dans les
algorithmes. Le grammairien concepteur doit maîtriser intégralement, à la fois le
développement des algorithmes locaux de reconnaissance syntaxique, et la mise au point
de l’architecture globale de l’analyseur.
Analyse vs. génération
133
Un autre dogme du paradigme formel est celui de la réversibilité. L’un des intérêts
affichés des grammaires formelles est qu’elles sont censées pouvoir fonctionner en
analyse et en génération. Tous les travaux en analyse syntaxique robuste se consacrent
exclusivement à la tâche d’analyse, et c’est peut-être l’une des raisons de leur succès.
Peut-être faut-il assumer le fait qu’en Traitement Automatique des Langues les tâches
d’analyse et de génération sont radicalement différentes, et donc qu’elles exigent des
choix méthodologiques potentiellement différents ? S. Kahane explique que « le choix
d’un ensemble de fonctions syntaxiques est directement lié à la façon dont seront écrites
les règles de pronominalisation, linéarisation, redistribution ou coordination » (Kahane,
2001, p. 25). Les règles évoquées sont des règles de génération. Par exemple, il faut
deux relations différentes, complément oblique et complément locatif, pour distinguer la
relation entre compte et sur dans Marie compte sur Pierre de la relation entre pose et sur
dans Marie pose le livre sur la table, de façon à gérer correctement les différences de
pronominalisation en y. En analyse, ces contraintes sur le degré de finesse de la
description syntaxique ne s’appliquent pas nécessairement. C’est sans doute sur le
lexique que l’impact du choix entre analyse et génération est le plus fort. En génération,
il est crucial de coder dans le lexique toutes les informations lexicales nécessaire pour
placer les mots, et leur affecter des cas ; la connaissance est concentrée dans le lexique.
En analyse, beaucoup d’information est apportée par la séquence en entrée, et ce
d’autant plus qu’elle a été préalablement étiquetée. C’est pour cette raison que, dans le
projet SYNTEX, j’ai pu adopter, concernant le lexique, une approche minimaliste:
(i) Partir de rien. J’ai fait le choix initial de la table rase. Contrairement aux approches
qui choisissent, pour réaliser un analyseur syntaxique, de développer au préalable un
lexique syntaxique très riche recensant les propriétés syntaxiques des mots de la
langue, j’ai commencé sans aucune information de ce type. Cette approche est
possible à partir du moment où l’on a choisi de s’appuyer sur les résultats d’un
étiqueteur (on bénéficie indirectement des ressources lexicales éventuellement
exploitées par celui-ci).
(ii) Identifier les besoins en ressources lexicales au fur et à mesure du développement de
l’analyseur. Dans un certain nombre de cas, ces ressources sont des listes fermées
d’unités lexicales, que l’on peut construire à partir de la consultation de bonnes
grammaires. Pour la constitution de listes non fermées d’unités lexicales, les
informations sont acquises de façon automatique à partir de corpus, à l’aide de et
pour l’analyseur, sans validation manuelle.
La place de la grammaire
La grammaire, en tant que tradition séculaire de description des structures syntaxiques
des langues, joue un rôle fondamental dans le projet de développement d’un analyseur
syntaxique opérationnel. Sur ce point, la position que j’adopte est analogue à celle de la
Grammaire Générative Transformationnelle : la grammaire comme base d’appui. Dans
son Introduction à une science du Langage, J.-C. Milner (1989) montre qu’une science
linguistique n’est possible que parce que la grammaire existe et qu’elle fournit les
descriptions minimales dont a besoin cette science pour fonctionner comme une science
134
empirique. C’est un postulat qui est à la base de la grammaire générative. Dès le début
d’Aspects, Chomsky revendique le recours à la grammaire traditionnelle comme un point
de passage indispensable pour élaborer la théorie de la grammaire générative : « [Le
linguiste] aura grand avantage à commencer par étudier le type d’information structurale
que présentent les grammaires traditionnelles et le type de processus linguistiques
qu’elles ont mis au jour, sans encore les formaliser » (Chomsky, 1971, p. 15). Mais c’est
Milner qui, dans ses efforts pour reconstituer le cadre épistémologique de la grammaire
générative, explicite le statut de la grammaire dans l’édifice théorique. A une science du
langage qui se veut empirique, la grammaire fournit ses observables, à savoir les
exemples. Dans la grammaire, l’exemple n’est pas un énoncé attesté, c’est le
représentant d’une classe d’équivalence, qui rassemble toutes les données de langue
(phrases) qui partagent un ensemble de propriétés. L’exemple, et donc l’observable,
n’existe que parce qu’il est possible d’attribuer des propriétés à des données de langue.
Or, ce qui garantit qu’il soit simplement possible, de manière générale, d’attribuer des
propriétés à des données de langue, c’est l’existence de fait de ce qu’on appelle les
grammaires (Milner, 1989, p. 53). La grammaire fournit au linguiste une analyse
grammaticale minimale, qui segmente les unités, leur attribue un type (nom, verbe…) et
identifie des relations. Cette analyse minimale initiale aura à être reprise, critiquée, voire
modifiée, mais elle est nécessaire et elle ne peut être entièrement produite par la théorie
linguistique elle-même.
Selon mon point de vue, le développement d’une théorie formelle et celui d’un analyseur
opérationnel ne sont pas des chemins consécutifs, mais parallèles, qui prennent comme
point de départ les concepts de la tradition grammaticale. De même que l’existence des
grammaires rend possible la construction d’une science linguistique, de même elle rend
possible l’élaboration d’analyseurs syntaxiques. Comme pour la théorie, les concepts et
descriptions de la grammaire ne sont qu’un point de départ, duquel on s’éloigne vite dès
que l’entreprise avance. Dans le contexte du développement d’un analyseur, cette prise
de distance s’impose parce que les descriptions syntaxiques que propose la grammaire
sont celles d’exemples et non d’énoncés réels. Les exemples sont construits par le
grammairien de façon à être le plus simples possible pour isoler au mieux les règles que
ces exemples sont censés illustrer : « Quant aux règles qui fonctionnent avec des
exemples inventés, elles s’attacheront à inventer des phrases où l’on pourra sans trop de
difficulté neutraliser tout ce qui dans la phrase ne relève pas de la règle considérée »
(Milner, 1989, p. 113). La matière à traiter par l’analyseur n’est pas constituée
d’exemples, mais de séquences réelles, qui possèdent le caractère empirique des données
de langue que Milner nomme la concrétion. Tout énoncé résulte de l’application de
plusieurs règles syntaxiques. Le grammairien est capable de fabriquer ces artefacts
presque purs que sont les exemples, il est aussi capable d’exercer son talent d’analyste
pour identifier la description syntaxique d’un énoncé attesté, aussi complexe soit-il. Si le
grammairien sait en plus programmer, alors il peut mettre au point un système de
reconnaissance de ces formes syntaxiques.
Science et ingénierie linguistiques
135
Un argument régulièrement avancé par les promoteurs des grammaires formelles est
celui de la possibilité d’un partage des tâches entre linguistes et informaticiens. Avec
l’approche formelle et déclarative, chaque communauté de spécialistes peut se
concentrer sur son domaine de compétence : aux linguistes la tâche de développer les
grammaires, aux informaticiens celle de s’occuper des algorithmes et de toute la
mécanique informatique. Il existe une autre voie, celle de l’ingénierie linguistique
(Natural Language Engineering). Cette voie se caractérise d’abord par des objectifs
appliqués, mais aussi par des profils de compétence particuliers, qui associent chez des
individus, d’un côté, un goût prononcé pour la chose linguistique, une bonne
connaissance de la grammaire et une bonne culture syntaxique, ainsi que l’absence
d’aversion pour le dépouillement de corpus, et, de l’autre côté, de solides compétences
en programmation. Ces linguistes informaticiens ne seront pas considérés comme des
informaticiens par les informaticiens, à juste titre, ni comme des linguistes par les
linguistes, ce qui est sans doute plus regrettable. Ce sont des ingénieurs linguistes. Un
ingénieur linguiste, ou une équipe d’ingénieurs linguistes, peut mener à bien un projet de
recherche visant la réalisation d’un analyseur syntaxique opérationnel.
Le partage des tâches est selon moi dépassé, mais la route est longue avant que les
clivages s’estompent. A la conclusion de sa critique du programme de recherche de
l’Analyse Automatique Autonome, J.-M. Marandin affiche un certain scepticisme sur la
possibilité d’un programme de recherche en ingénierie linguistique : « L’analyseur prend
le statut d’une machine industrielle dans le TAL ; il est soumis aux impératifs de la
technologie, ce ne sont pas toujours ceux d’un programme de recherche » (Marandin,
1993, p. 31). Nous avons vu aussi, à la fin de la section 2.2.3, comment J. Léon et
M. Cori regrettaient que le tournant déclaratif, en encourageant un partage des tâches
entre la description des données linguistiques, d’un côté, et l’écriture de modèles et
algorithmes, de l’autre, ait contribué à faire réapparaître une ligne de fracture entre la
linguistique et l’informatique, et provoqué une régression dans le chemin vers la
constitution du TAL comme discipline scientifique, en laissant le champ libre aux
ingénieurs :
Seuls peuvent se réclamer sans équivoque du domaine les ingénieurs qui
réalisent des applications industrielles et qui, donc, ont simultanément
besoin des algorithmes et de la description des données. Alors même qu’en
adoptant des modèles déclaratifs le TAL cherche à s’imposer des critères
de rigueur, il tend du même coup à rendre impossible sa constitution
comme discipline scientifique.
(Cori et Léon, 2002, p. 50)
Cette réticence à accorder un crédit scientifique à un programme de recherche en
ingénierie linguistique vient d’une conception schématique et partielle des rapports entre
sciences et techniques. Cette conception est exposée pour la linguistique de façon très
nette par Jean-Claude Milner dans son ouvrage de 1989. Même si l’épistémologie
invoquée par Milner n’est sans doute pas appropriée à l’objet qu’elle vise, on peut sans
doute estimer qu’elle est acceptée aisément au sein de la communauté du TAL. Milner
s’interroge sur la manière dont la question de la science est pertinente pour la
136
linguistique. Il reprend l’hypothèse du programme de recherche initial de la grammaire
générative : si la linguistique est une science, elle est une science empirique ; elle l’est au
même sens que le sont les sciences de la nature et elle relève donc de la même
épistémologie. Or Milner rappelle que, depuis A. Koyré, on caractérise la science par la
combinaison de deux traits :
(I) La mathématisation de l’empirique (…) ; (II) La constitution d’une
relation avec une technique, telle que la technique se définisse comme
l’application pratique de la science (d’où le thème de la science appliquée)
et que la science se définisse comme la théorie de la technique (d’où le
thème de la science fondamentale).
(Milner, 1989, p. 23)
Pour accéder au statut de science empirique, la linguistique doit fonctionner comme la
théorie d’une ou de plusieurs techniques qui en seraient la version appliquée, autrement
dit il faut qu’il existe une « linguistique industrielle ». Pour Milner, on pourra parler de
linguistique industrielle quand on disposera de techniques informatiques capables de
« transformer » les objets que vise la science linguistique, c’est-à-dire non pas tant les
langues elles-mêmes que les réalisations de langue : textes, messages, slogans, discours,
etc. Milner évoque des outils informatiques capables de traitements de textes syntaxiques
dignes de ce nom, c’est-à-dire au moins capables de réaliser des opération syntaxiques
telles que la transposition du style direct au style indirect, ou la conversion actif/passif,
ou la correction grammaticale, avec, pour commencer, la vérification de l’accord
(op. cit., note 11, pp. 34-35). Mais il ne suffira pas que tels outils existent, il faudra aussi
que ces systèmes aient été construits à partir des lois des langues découvertes et
organisées en théorie par les linguistes, lois qui régissent ces matières réalisées que sont
les productions textuelles. Or Milner constate qu’on est loin de cette situation. La raison
essentielle pour lui est que la relation de la science moderne à la technique n’est ni
simple, ni directe : il y a loin de la proposition théorique à la procédure technique. Il
prend l’exemple de la physique. Le théoricien ne sera satisfait que quand la technique du
moteur à explosion pourra être présentée comme déductible de la théorie d’Einstein, et
donc comme une application de la physique d’Einstein. Or les ingénieurs n’en ont cure.
Ils construisent de leur côté pour leurs propres besoins une physique pour l’ingénieur, en
détachant de la science physique quelques parties plus ou moins étendues et détaillées.
Toujours selon Milner, ce qui est vrai pour la physique est encore plus vrai pour la
linguistique, où l’indifférence réciproque entre linguistes et techniciens de la langue est
plus accentuée qu’ailleurs. Ainsi il s’est construit une « linguistique pour ingénieur »,
qui « n’a guère dépassé en profondeur et en étendue les manuels de grammaire du cours
préparatoire » (op. cit., p 34). L’avènement d’une linguistique industrielle n’est pas pour
demain, où l’on verrait les ingénieurs venir puiser dans des théories linguistiques les
connaissances à appliquer pour construire de belles réalisations industrielles.
Au reste, l’on entrevoit déjà ce que promet l’avenir, en ce qui concerne les
doctrines du langage et de la langue : d’un côté, l’appel aux technologies
obtuses ; de l’autre, la résurgence des bavardages romanesques. En tout
état de cause, le fil de la science est bien prêt d’être rompu.
137
(Milner, 1989, p. 19)
Il ne conviendrait pas que, poussé par l’exaspération que suscite
légitimement l’intervention répétée des charlatans, le linguiste entonne
sans prudence le cantique des applications.
(Milner, 1989, p. 32)
L’épistémologie adoptée par Milner privilégie l’idée d’une relation orientée entre
sciences et techniques, dans laquelle les techniques sont fécondées par les sciences, en
tant qu’elles n’en sont que des applications, qui, le cas échéant, viennent les valider. Un
tel cadre épistémologique laisse donc peu de place à une réflexion sur le statut des
techniques, leur valeur de connaissances intrinsèque et leur identité propre. Dans le
domaine du TAL, et bien au-delà, on reste souvent prisonnier de la vison traditionnelle
d’une dichotomie entre la science fondamentale, noble, et la science appliquée, plus
vulgaire, et de la technique comme simple application de la science. Dans cette vision
classique, il n’y a pas de place pour un programme de recherche en ingénierie
linguistique, au prétexte qu’il ne peut y avoir production de connaissances quand on
cherche à réaliser des objets techniques utiles. Dans le domaine du TAL, cette
conception sert de justification à l’implication limitée des acteurs de la recherche
universitaire dans le monde industriel du TAL et de ses applications, où ils auraient
pourtant beaucoup à faire et beaucoup à apprendre. Si l’on veut sortir de la situation
d’ignorance ou de méfiance entre linguistes et ingénieurs, et renouveler au-delà des
voeux pieux un dialogue entre science et ingénierie linguistiques, il faut dans un premier
temps trouver un cadre épistémologique dans lequel les ingénieurs linguistes puissent
conceptualiser leur activité de production et donner un statut aux objets qu’ils
produisent. B. Habert (2006), dans son article qui présente « le linguiste à l’instrument »,
suggère de se référer au cadre épistémologique de Gilbert Simondon (Simondon, 1958,
1971).
3.3.2. SYNTEX, un « objet technique »
Georges Simondon et la philosophie de l’objet technique
G. Simondon a développé une philosophie de la technique. Ancien élève de l’Ecole
Normale Supérieure de la rue d’Ulm et agrégé de philosophie en 1948, Simondon a été
nommé au lycée Descartes de Tours, où, de 1948 à 1955, il a enseigné non seulement la
philosophie, mais aussi la physique dans la classe de philosophie. En 1963, il a été
nommé professeur à la Sorbonne, puis à l’Université Paris V, où il a dirigé
l’enseignement de psychologie générale et a fondé le laboratoire de psychologie générale
et technologie. C’est dans son premier ouvrage, publié en 1958 (Simondon, 1958), dont
le titre est « Du mode d’existence des objets techniques », qu’il développe sa philosophie
de la technique. Son objectif est de réduire les conflits entre les valeurs de la culture
classique et celles qui sont liées aux sciences et aux techniques :
Cette étude est animée par l’intention de susciter une prise de conscience
du sens des objets techniques. La culture s’est constituée en système de
138
défense contre les techniques ; or cette défense se présente comme une
défense de l’homme, supposant que les objets techniques ne présentent pas
de réalité humaine. Nous voudrions montrer que la culture ignore dans la
réalité technique une réalité humaine, et que, pour jouer son rôle complet,
la culture doit incorporer les êtres techniques sous forme de connaissance
et de sens des valeurs.
(Simondon, 1958, p. 9)
La philosophie de la technique de Simondon est une philosophie de l’invention. Les
réalisations techniques apparaissent par invention. Les concepts qu’il met en place pour
décrire les objets techniques et l’activité d’invention sont élaborés à partir de l’analyse
historique, psychologique, technique d’un très grand nombre de réalisations techniques,
empruntées à tous les domaines de l’activité humaine. La perspective historique est
fondamentale, en ce sens que, pour Simondon, la genèse de l’objet technique fait partie
de son être : « L’unité de l’objet technique, son individualité, sa spécificité sont les
caractères de consistance et de convergence de sa genèse » (Simondon, 1971, p. 20).
Simondon parle de genèse concrétisante. L’étude d’un objet technique doit être
appréhendée en tant qu’il appartient à une lignée et marque à un moment donné une
étape dans l’évolution de cette lignée. C’est pourquoi j’ai retracé, dans le chapitre 1 de
ce mémoire, en quoi l’analyseur SYNTEX était un descendant de l’outil LEXTER, et j’ai
cherché ensuite à inscrire mon travail de recherche dans une lignée de travaux en
Traitement Automatique des Langues dont l’unité et la convergence se concrétisent par
l’objectif commun de réaliser des analyseurs opérationnels (chap. 2). Dans ce deuxième
chapitre, la perspective adoptée n’a pas été celle, classique dans les disciplines
scientifiques, d’un « état de l’art » dans lequel on montre comment les résultats présentés
constituent une contribution à l’avancée des connaissances dans un domaine scientifique.
Même si on peut identifier des choix méthodologiques proches dans ces divers travaux,
on est moins dans une évolution cumulative des connaissances que dans la réitération
d’efforts, accomplis par des chercheurs inventeurs le plus souvent isolés, pour résoudre
le même problème, mais dans des contextes différents (différences de langues, de
contraintes technologiques, de principes de base, d’applications cibles). L’émergence
d’inventions techniques analogues à des dates et des lieux différents n’est d’ailleurs pas
un cas rare dans le développement des techniques.
Les concepts clés de la philosophie de Simondon sont ceux d’adaptation et
d’auto-corrélation. La caractéristique de l’objet technique est d’être un mixte
d’adaptation et d’auto-corrélation :
L’objet technique est d’une part un médiateur entre organisme et milieu,
d’autre part une réalité intérieurement organisée et cohérente ; comme
médiateur, il doit s’adapter à des termes extrêmes qu’il relie, et c’est un
des aspects de son progrès d’améliorer son couplage aux réalités entre
lesquelles il jette un pont ; mais cette augmentation de complexité et de
distance entre les termes extrêmes doit être compensée par un surcroît
d’organisation et de cohérence entre les différentes parties de l’objet
139
technique ; le progrès se fait par oscillation entre les progrès de la
médiation et ceux de l’auto-corrélation.
(Simondon, 1971, p. 101-102)
Ces concepts ont été élaborés à partir d’études approfondies de multiples inventions,
menées par Simondon, que celui-ci a l’habitude de fournir en détail dans ses exposés
pour appuyer ces propositions théoriques. Je reproduis ici l’illustration donnée par
Simondon à propos de la roue :
Une étude plus exhaustive de la roue véhiculaire ne pourrait être faite sans
tenir compte des étapes de l’adaptation aux termes extrêmes, le plan de
roulement (appartenant au milieu) et le véhicule (portant l’organisme et
conduit par lui) ; la roue s’adapte au plan de roulement en se différenciant
(roue de chemin de fer, roue d’automobile, roue avant et roue arrière de
tracteur) très particulièrement au niveau du contact avec le plan de
roulement (pneumatiques pour la neige, tout-terrain…) ; elle s’adapte au
véhicule par la suspension, les amortisseurs, les boggies. Ces progrès
relationnels amènent à une nécessité d’auto-corrélation plus serrée, en
particulier pour les virages (différentiel, système de la barre de couplage
des roues directrices avec fusées entraînées par des leviers dont les
prolongements géométriques se coupent au milieu du pont arrière) ; dans
le cas des chemins de fer, l’auto-corrélation dans les virages est obtenue
par inclinaison de la voie, conicité des roues et prescription d’une vitesse
définie pour chaque courbe.
(Simondon, 1971, p. 102)
L’analogie entre la roue et un analyseur syntaxique ne va a priori pas de soi. La
différence des déterminants devant ces deux objets est le signe qu’il est trop tôt pour
parler de l’analyseur syntaxique comme d’un objet technique reconnu. Néanmoins, les
concepts d’adaptation et d’auto-corrélation sont pour moi des clés essentielles pour
parler du développement de l’analyseur SYNTEX et pour théoriser l’activité de recherche
en ingénierie linguistique dont il est un résultat. Dans la suite de cette section, j’applique
d’abord les concepts d’adaptation et d’auto-corrélation aux systèmes de traitement de
l’information qui intègrent un analyseur syntaxique comme composant. Je considère
ensuite l’analyseur syntaxique en tant qu’objet technique et j’utilise ces mêmes concepts
pour décrire les dimensions selon lesquelles se sont développées les évolutions de
l’analyseur syntaxique.
Adaptation et auto-corrélation de systèmes intégrateurs
L’analyseur syntaxique n’est quasiment jamais en contact direct avec l’organisme,
c’est-à-dire avec un utilisateur final. Pour une première mise en scène, dans le domaine
de l’ingénierie linguistique, des concepts d’adaptation et d’auto-corrélation, et avec eux
ceux d’organisme et de milieu, entre lesquels l’objet technique vient établir une liaison,
je propose d’observer d’abord des systèmes au sein desquels l’analyseur syntaxique est
un composant. Je prends les trois exemples suivants :
140
- une plateforme d’acquisition de terminologie. L’analyseur syntaxique est utilisé
pour fournir les analyses syntaxiques des séquences du corpus d’étude, à partir
desquelles un programme d’extraction construit un réseau de candidats termes
complexes (syntagmes verbaux, nominaux, adjectivaux). L’utilisateur est un
terminologue ou un spécialiste qui construit une ressource terminologique pour un
domaine donné.
- une chaîne d’analyse distributionnelle. Les analyses syntaxiques fournies par
l’analyseur sont exploitées par un programme de calcul distributionnel qui extrait les
contextes syntaxiques associés aux mots du corpus d’étude et qui rapproche les mots
qui ont des profils syntaxiques proches. L’utilisateur est un linguiste spécialiste de
sémantique lexicale, ou un chercheur en sciences humaines, intéressé par l’évolution
des mots et concepts dans une communauté donnée.
- un moteur de recherche sur site Web. L’analyseur syntaxique est utilisé pour
extraire des mots clés liés aux mots de la requête posée par l’utilisateur qui seront
proposés comme suggestions de reformulation. L’utilisateur final est le responsable
du site, qui souhaite intégrer à son site des facilités de navigation, soit pour satisfaire
l’internaute qui visite le site, en l’aidant à trouver le plus vite possible l’information
qu’il recherche, soit pour le maintenir le plus longtemps possible sur le site.
Dans toutes ces applications, le système doit s’adapter aux termes extrêmes qu’il relie, à
savoir un fond textuel (milieu) et un utilisateur (organisme). Les adaptations concernent
d’abord les frontières externes, avec le milieu d’un côté et avec l’organisme de l’autre.
Le système doit comporter en début de chaîne, côté milieu, des programmes de captage,
de conversion, de balisage, de nettoyage de sources textuelles, qui permettent la prise en
compte de fichiers aux formats divers et leur conversion dans le format adéquat exigé
par l’analyseur syntaxique. Puisque l’analyseur SYNTEX attend le corpus à traiter au
format texte avec un balisage minimal (séparation en unités textuelles), il faut
débarrasser le texte du balisage initial quand il existe, pour éventuellement le récupérer
et le reprojeter le cas échéant une fois l’analyse effectuée. Dans certains cas, la phase de
pré-traitement peut comporter une étape de découpage du corpus en séquences, dans les
contextes où un simple découpage sur ponctuations fortes apparaît inadéquat. Le système
intégrateur doit être équipé en fin de chaîne, du côté de l’organisme, d’interfaces
adaptées aux besoins de l’utilisateur. Dans les première et troisième applications, il faut
intégrer, en aval de l’analyseur, un extracteur, c’est-à-dire un module capable de passer
de la représentation syntaxique en dépendance des phrases à des syntagmes structurés49.
Ces adaptations sont obligatoires pour permettre la communication entre composants.
D’autres adaptations ne sont pas obligatoires, mais sont ajoutées de façon opportuniste
pour renforcer le potentiel du système. Par exemple, en amont de l’analyseur, des
procédures de prétraitement syntaxiques peuvent être intercalées avant l’analyse
syntaxique pour le traitement d’entités nommées spécifiques au domaine traité
(reconnaissance de noms de société, de gênes, de composés chimiques, etc.). En aval,
49 J’ai réalisé un tel extracteur pour l’analyseur SYNTEX. Bien que cela représente une quantité de travail non
négligeable et un certain intérêt, j’ai choisi de ne pas présenter ce travail dans le présent document.
141
des extensions peuvent être apportées aux interfaces utilisateurs dans le cas où
l’analyseur intégré apporte plus d’informations que le strict nécessaire requis
initialement par les spécifications de l’application. Par exemple, si l’analyseur est
capable de repérer des relations de variations morphosyntaxiques entre candidats termes,
ou peut produire des liens de proximités distributionnelles entre candidats termes, les
interfaces doivent intégrer la possibilité de visualiser ces liens supplémentaires.
Inversement, il existe des applications dans lesquelles il convient plutôt de réduire les
capacités de l’analyseur, pour ne se saisir que des résultats pertinents pour l’application
(uniquement des syntagmes nominaux, par exemple).
Toutes ces interventions portent sur l’amélioration de la caractéristique d’adaptation des
systèmes de traitement de l’information qui intègrent un analyseur syntaxique. Au-delà
de ces adaptations plus ou moins ad hoc, les concepteurs de tels systèmes sont amenés à
réfléchir à une meilleure auto-corrélation de ces systèmes. C’est particulièrement
nécessaire quand il s’agit de quitter le cadre des solutions artisanales et d’adopter des
solutions ingénieriques destinées à favoriser la maintenance, la réutilisabilité et la
généricité de ces systèmes. On peut faire référence à l’initiative GATE pour les
applications d’extraction d’information (Cunningham et al., 1996, Cunningham et al.,
2002), ainsi qu’aux propositions de F. Cerbah sur une architecture à base de services
Web pour la mise en oeuvre d’applications d’acquisition terminologique (Cerbah et
Daille, 2006). Ces efforts n’ont pas un impact immédiat fort visible du côté de
l’utilisateur final, mais ils permettent des progrès à moyen terme sur le développement
des systèmes qui aboutiront à une meilleure adaptation aux besoins des utilisateurs.
Adaptation de l’analyseur syntaxique
Après avoir présenté l’adaptation et l’auto-corrélation de systèmes qui intègrent comme
composant un analyseur syntaxique, je m’intéresse à l’analyseur lui-même en tant
qu’objet technique. L’analyseur est bien un objet technique au sens où l’entend
Simondon car les progrès dans son développement peuvent être décrits de façon
parfaitement adéquate en exploitant les deux dimensions de l’adaptation et de
l’auto-corrélation. Les termes extrêmes entre lesquelles l’analyseur doit réaliser
l’adaptation sont d’un côté des séquences issues de corpus à analyser, et de l’autre les
descriptions grammaticales idéales de ces séquences. Pour une séquence donnée en
entrée, l’analyse produite doit être la plus proche possible de l’analyse correcte.
Améliorer l’adaptation de l’analyseur, c’est réduire les différences entre analyses
produites et analyses correctes. Il s’agit non pas d’améliorations locales qui viseraient à
traiter correctement des exemples que telle théorie syntaxique considérerait comme
difficiles, mais d’une amélioration globale, dont la mesure doit être effectuée, en terme
de rappel et de précision, sur de larges échantillons de corpus de test annotés à la main.
Améliorer l’analyseur consiste d’abord à améliorer sa couverture, à savoir le type de
relations syntaxiques qu’il est capable de reconnaître, et pour chacune de ces relations
améliorer le rappel et la précision, c’est-à-dire reconnaître sans erreur le maximum de
liens syntaxiques dans les énoncés. Ces progrès passent essentiellement par une
augmentation de la résistance de l’analyseur. On parle souvent de robustesse à propos
142
d’analyse syntaxique et l’on entend généralement la capacité d’un analyseur à traiter des
énoncés comportant des malformations grammaticales. Par résistance, j’entends sa
capacité à reconnaître les liens syntaxiques dans des configurations complexes, que la
caractéristique de concrétion de la langue rend fréquentes dans les corpus. Les séquences
réelles sont souvent longues, par rapport aux exemples de la grammaire, et donc les liens
syntaxiques sont nombreux et intriqués dans des configurations complexes. Par exemple,
améliorer l’adaptation de l’analyseur sur la relation Sujet, c’est complexifier et enrichir
les algorithmes de reconnaissance pour trouver les liens Sujet même s’il y a intercalation
de chaînes coordonnées, d’incises, de subordonnées relatives entre le verbe et son sujet.
La démarche adoptée pour améliorer l’adaptation de l’analyseur est une démarche
pragmatique, par essais et erreurs, qui enchaîne de façon systématique programmation et
tests sur corpus. C’est une démarche d’ingénierie linguistique. Comme je l’ai dit dans la
section précédente, il n’y a pas de partage des tâches, entre d’un côté ce qui relèverait de
l’informatique et de l’autre de la linguistique. Le concepteur doit avoir des compétences
de grammairien, d’un niveau nettement supérieur à celui du cours moyen ou du collège.
Il doit être capable de déterminer lui-même pour tout énoncé sa description syntaxique.
De plus, même si la démarche de développement est empirique, elle n’est pas
exclusivement guidée par l’observation du corpus. Le recours au corpus est fondamental
pour mettre au jour et faire plus rapidement l’inventaire des multiples configurations de
surface au sein desquelles il faut reconnaître les liens syntaxiques. Mais le concepteur
doit être capable de prévoir des règles pour des configurations qui ne sont pas attestées
dans le corpus d’apprentissage. C’est la connaissance qu’il a de la grammaire de la
langue qui lui permet de dépasser les configurations qu’il observe en corpus, et
d’abstraire à partir d’elles des règles de reconnaissance dont la couverture dépassera les
simples cas observés. En revanche, ce sont ses réflexes d’ingénieurs qui vont lui
permettre de faire des choix, de prioriser les développements et d’accepter des pertes, en
laissant tomber des cas trop spécifiques au corpus, trop rares, voire anecdotiques, ou
d’une complexité telle que la résolution entraînerait la mise en place, coûteuse en temps,
d’un arsenal sophistiqué pour une amélioration de l’adaptation à peine sensible. Le
recours aux tests sur corpus est indispensable pour se donner les moyens d’élaborer une
stratégie de développement qui optimise le ratio temps passé sur progrès réalisés.
Les progrès de l’adaptation sont le résultat d’une démarche méthodique, systématique de
test sur des corpus variés. C’est d’abord de la sueur : le concepteur « a la tête dans le
guidon », l’oeil rivé sur les compteurs de rappel et de précision, toute l’énergie mobilisée
pour faire bouger les aiguilles. C’est un travail quotidien de développement et
d’enrichissement de règles et d’heuristiques, dont le concepteur peut difficilement
s’enorgueillir dans de magistrales publications scientifiques. Les progrès d’adaptation et
ceux de l’auto-corrélation se manifestent de façon radicalement différente :
De manière assez générale, les progrès relationnels sont des
perfectionnements progressifs, continus, se faisant par essais et erreurs au
cours de l’usage ; ils résultent de l’expérience et s’additionnent : ils
conservent l’allure temporelle de la relation entre organisme et milieu.
(…) Par contre, les progrès de l’auto-corrélation demandent une résolution
143
de problème, une invention qui pose un système synergétique de
compatibilité. Cette invention peut être amenée par le besoin des progrès
relationnels, mais elle ré-engendre la logique interne du système, qui est
auto-normatif, et confère à ses sous-ensembles des propriétés provenant du
fonctionnement et le rendant possible.
(Simondon, 1971, p. 102)
Auto-corrélation de l’analyseur syntaxique
Les progrès d’auto-corrélation concernent l’architecture globale du système, c’est-à-dire
d’une part la stratégie d’enchaînement des modules, et d’autre part les fonctions et
procédures génériques partagées par l’ensemble des modules. Ils exigent du recul, et ne
peuvent se produire qu’à partir d’une réflexion distanciée sur les limites patentes de
l’analyseur, à la fois en termes de performances et de facilité de maintenance et de
développement, et de la formulation de l’ensemble des difficultés sous la forme d’un ou
plusieurs problèmes à résoudre. Alors peut jaillir la trouvaille géniale, l’idée, l’invention,
qui conduit à un bond qualitatif que n’auraient pu générer les progrès de l’adaptation.
Au départ du projet, j’ai volontairement choisi une architecture initiale simple : la
séquence est traitée en plusieurs passes ; chaque passe est dédiée à la reconnaissance
d’un type de relation et d’un seul ; chaque module résout immédiatement ses ambiguïtés
de rattachement et transmet une séquence sans ambiguïtés au module de la passe
suivante ; aucun module ne remet en cause les catégories morphologiques ou les liens
syntaxiques posés par les modules antérieurs. Ce choix d’une architecture simple a été
une condition nécessaire pour avancer dans la réalisation de l’analyseur, en particulier
dans la programmation des algorithmes de recherche de gouverneurs candidats et des
procédures de désambiguïsation et des ressources lexicales nécessaires et suffisantes. Il
y a eu une longue phase de développement continu visant à améliorer l’adaptation de
l’analyseur, sans que l’architecture soit modifiée. Les contraintes simplificatrices ont été
poussées jusque dans leurs derniers retranchements.
A plusieurs stades du cycle de développement de l’analyseur, j’ai procédé à des
restructurations de l’architecture pour améliorer l’auto-corrélation de l’analyseur. Ces
opérations se sont imposées sous la pression de différents facteurs : (i) le constat d’un
certaine stagnation dans l’amélioration des performances, et l’identification de
configurations de surface difficiles à traiter avec une architecture séquentielle
cloisonnée ; (ii) la mise en chantier d’un SYNTEX anglais, à l’occasion de laquelle j’ai
cherché au maximum à identifier des traitements génériques et à réaliser des fonctions
partagées ; (iii) la rédaction du présent mémoire, qui m’a obligé à prendre du recul et
m’a incité à m’interroger sur une meilleure cohérence interne et un meilleur équilibre de
l’analyseur ; (iv) enfin, et surtout, la volonté de ne pas laisser SYNTEX devenir une
« usine à gaz » qui ne pourrait être entretenue que par son concepteur historique.
Les « révolutions » importantes dans l’évolution de l’auto-corrélation de l’analyseur ont
été l’intégration du retour en arrière et la globalisation de la désambiguïsation. Le
principe de l’interdiction du retour en arrière qui, après avoir longtemps été utile pour
développer en profondeur les différents modules, s’est avéré être à l’origine d’une
144
stagnation dans l’amélioration des performances. J’ai alors choisi d’intégrer dans
l’analyseur la possibilité du retour en arrière. Bien entendu, le premier effet de cette
décision n’a pas été une amélioration subite des performances de l’analyseur, mais,
comme le formule Simondon, un ré-engendrement de la logique interne du système. Dès
lors que cette possibilité est incluse, la philosophie de développement des modules est
modifiée de façon profonde : il devient possible d’implémenter la pose de liens
provisoires, qui pourront être supprimés lors des étapes ultérieures du traitement si des
informations plus complètes sur la forme syntaxique de la séquence l’imposent. Ce
changement donne une meilleure prise pour affronter le problème de la circularité, lié à
l’incompatibilité entre l’intrication des liens syntaxiques et la séquentialité des
traitements (section 3.1.4). Mais il impose de reprendre un à un les différents modules
pour les repenser vis-à-vis de cette nouvelle norme et assurer une nouvelle logique
interne du système. Cela revient à identifier les configurations dans lesquelles des liens
déjà posés peuvent être supprimés et inversement celles où des liens peuvent être placés
de façon éventuellement provisoire.
La globalisation de la désambiguïsation participe du même effort vers une meilleure
prise en compte du problème de la circularité. La modification consiste d’abord à
développer une procédure de désambiguïsation sur le treillis des liens placés par les
modules à ambiguïté. Mais elle impose aussi un ré-engendrement de la logique interne
du système, en particulier au niveau de la formalisation du parcours, puisqu’il faut
intégrer le fait qu’à une étape d’un parcours on peut passer sur un mot qui est cible de
plusieurs liens de dépendance.
3.3.3. Savoirs
Quel savoir sur la langue le projet SYNTEX produit-t-il ? C’est sur cette interrogation que
je conclus ce mémoire. Elle ne s’impose pas en droit. Pour reprendre la question de
Marandin, « quel est le statut que prend, ou peut prendre, un analyseur dans un
programme de recherche consacré au langage » (Marandin, 1993, p. 5, cf. section 3.3.1),
je rappelle que mon programme de recherche initial n’était pas explicitement consacré
au langage. Mon objectif (cf. section 3.1.1) était de construire un analyseur syntaxique
opérationnel, précis et efficace, qui produise des analyses aussi correctes et complètes
que possible, sur des textes de genres variés, qui soit utilisable dans une large gamme
d’applications, que ce soit du côté de la recherche académique ou de celui des
applications industrielles. Ce n’était pas un objectif de connaissance, mais un objectif
d’utilité. Par rapport à cet objectif, un premier et rapide bilan peut être tiré après
quelques années. D’abord, les résultats de SYNTEX sont exploités par plusieurs dizaines
de chercheurs, auxquels j’ai fourni des résultats sur les corpus qu’ils m’ont envoyés.
Cette tâche est consommatrice de temps, parfois fastidieuse, mais elle fait partie du
contrat initial. Les retours, quand retours il y a, sont souvent très utiles (Bourigault et al.,
145
2004). Pour alléger le travail, une interface Web est mise en place à l’ERSS50 pour
permettre aux utilisateurs de déposer leur corpus et de le récupérer un peu plus tard,
analysé. Par ailleurs, une version de SYNTEX pour la recherche est diffusée aux
laboratoires qui souhaitent être autonomes.
Ensuite, très tôt dans le projet, une convention de collaboration a été négociée entre le
CNRS, l’Université Toulouse Le Mirail et la société Synomia51, pour que celle-ci
exploite commercialement l’analyseur dans le domaine de la recherche d’informations
sur Internet. Depuis 2003, la société Synomia commercialise des solutions de recherche
d’informations sur site Internet. La collaboration avec cette entreprise a été extrêmement
stimulante. Outre le retour permanent et systématique sur les erreurs, bugs et limites de
l’analyseur, elle m’a permis de mener avec les ingénieurs linguistes de l’entreprise une
réflexion particulièrement féconde sur les utilisations potentielles d’un analyseur
syntaxique52. Bien entendu, tout n’a pas été toujours facile, que ce soit dans mes
relations avec la société, puisque nos contraintes et objectifs concernant la diffusion des
résultats n’ont pas toujours été immédiatement compatibles, ou au sein de ma
communauté de recherche, où l’on regarde souvent avec beaucoup de suspicion toute
collaboration avec le « privé ». Il reste que, sans cette collaboration, SYNTEX n’aurait pas
atteint le niveau de performance qu’il a aujourd’hui.
Même si la visée utilitaire a été primordiale au départ du projet, ce n’est pas elle qui a été
proprement le moteur de la recherche. Comme le dit Simondon, les conditions
extrinsèques de l’ambiance dans lesquelles naît une invention et se développe un objet
technique, c’est-à-dire les facteurs économiques, culturels, psychologiques…, peuvent
participer à la formulation d’une demande d’invention, mais elles ne peuvent produire à
elles seules une telle invention : « c’est de la formulation, puis de la résolution du
problème que dépendent de façon décisive l’invention et l’existence de la réalité
technique. » (Simondon, 1971, p. 45). Le problème vers la résolution duquel ma
recherche a été dirigée est celui de l’analyse syntaxique opérationnelle, abordé non
comme un problème de compilation, mais comme un problème de reconnaissance de
forme. Je l’ai formulé ainsi : pour chaque mot de la séquence, identifier son gouverneur
syntaxique (section 3.1.2). La difficulté essentielle est la circularité : l’intrication globale
des liens syntaxiques dans une séquence fait que chaque position ne peut être reconnue
qu’en interdépendance avec les autres. Or le traitement informatique est séquentiel. Le
problème de fond est donc un problème d’architecture : selon quel enchaînement
séquentiel passer progressivement des places de mots, qui peuvent être perçues par
l’analyseur, à leurs positions, qui doivent être reconnues par lui. L’analyseur SYNTEX
constitue une solution technique à ce problème. Pour penser comment l’existence de cet
objet technique pourrait contribuer à une avancée du savoir sur les langues, il faut se
50 Je remercie Franck Sajous, qui a réalisé cette interface, pour l’ensemble de sa contribution pour faire de
SYNTEX un outil utilisable.
51 www.synomia.com
52 Je remercie très chaleureusement Gaëlle Récourcé, de la société Synomia, pour les innombrables discussions
enrichissantes que nous avons eues pendant toute la période de développement de SYNTEX.
146
référer à ce que dit Simondon des rapports entre invention technique et savoir
scientifique :
Les besoins pratiques ont contraint l’Homme à améliorer les techniques
sans attendre le développement de toutes les sciences ; (…) cette avance
est surtout caractérisée par le progrès des adaptations et la relative
précarités des auto-corrélations ; c’est en partie ce hiatus au coeur des
techniques qui a fait ressentir le besoin de sciences, tandis que les parties
déjà constituées des techniques offraient aux sciences naissantes non
seulement des problèmes théoriques à résoudre (…), mais encore des
moyens d’expérimentation : le besoin d’un complément interne de
l’invention déjà adaptée est en fait un appel au savoir scientifique ; du
progrès rapide réalisé par la constitution de la science répondant à cet
appel, il ne faut pas tirer trop hâtivement la conclusion du primat de la
science en matière d’invention technique ; la science renouvelle très vite
une technique lorsqu’elle a seulement à combler le hiatus central de l’autocorrélation
; si les adaptations ne sont pas constituées avant l’étape
scientifique, le progrès est moins rapide.
(Simondon, 2005, p. 232)
Si l’on fait confiance à Simondon, on peut rêver à des rapports nouveaux entre science
du langage et ingénierie linguistique. Si le projet SYNTEX doit produire des
connaissances sur la langue, c’est du côté de l’auto-corrélation du système qu’il faut aller
chercher. Il faut analyser à quelle logique et organisation internes de l’analyseur a abouti
le processus de résolution du problème de la reconnaissance syntaxique : si une
architecture optimale et des fonctions génériques partagées se dégagent de façon
singulière de l’élaboration d’analyseurs syntaxiques pour des langues appartenant à des
familles différentes, alors sans doute pourra-t-on affirmer que « ça dit quelque chose »
de fondamental sur la structure syntaxique des langues. Se dessinent ce que pourraient
être de nouveaux rapports entre théorie linguistique et développement d’objet
techniques : la science linguistique élabore une théorie syntaxique, qui s’appuyant sur les
résultats de la technique, produit en retour un cadre théorique capable de faire progresser
de façon rationnelle le développement de la technique…
Sans attendre la convergence hypothétique entre une science linguistique à construire et
une ingénierie linguistique productrice d’objets techniques, il est possible de mettre en
oeuvre ces derniers dans une activité de connaissance sur la langue, en les utilisant
comme des instruments d’observation (Habert, 2005, chap. VII, 2006). Le double usage
de l’objet technique comme outil et comme instrument est une idée fondamentale de la
philosophie de Simondon :
L’outil est l’objet technique qui permet de prolonger et d’armer le corps
pour accomplir un geste, l’instrument est l’objet technique qui permet de
prolonger et d’adapter le corps pour obtenir une meilleure perception ;
l’instrument est outil de perception. Mais un outil peut servir d’instrument,
c’est-à-dire pour prélever des informations sur la tâche qu’il permet
d’exécuter (ex marteau). Il y a une manière de considérer et d’étudier la
147
technique qui recherche toujours également ce en quoi l’outil est
instrument, c’est-à-dire (…) est le premier moyen de s’instruire de ce qu’il
effectue, de considérer ce qu’il fait comme un monde (une dimension ou
une partie nouvelle du monde) qu’il donne aussi à connaître –
considération qui n’est pas négligeable à l’égard des relations entre la
science et la technique.
(op. cit., p. 58)
Une fois encore, le recours à Simondon est salutaire. Un analyseur syntaxique
opérationnel peut servir à acquérir des connaissances sur la tâche de description
syntaxique, et donc sur la structure syntaxique des langues. Pour encourager cette
production de savoir, nous mettons en place à l’ERSS un certain nombre d’outils
d’analyse de corpus, associés à un ensemble de corpus diversifiés analysés
syntaxiquement, et accessibles via le Web. Ceci pourrait ensemble constituer un
observatoire de la langue française53. Différents outils sont envisagés : un concordancier
permettant d’effectuer des requêtes, sur tout ou partie du corpus, portant sur les liens
syntaxiques ; des modules d’extraction permettant d’obtenir des listes d’unités lexicales
présentant telles ou telles propriétés syntaxiques ; des modules de calcul de corrélation
entre faits syntaxiques ; des interfaces d’accès aux résultats d’analyse distributionnelle
contrastée sur deux corpus. Bien entendu, ce type d’outils ne présente d’utilité que pour
des approches en linguistique qui s’intéressent aux usages plus qu’à la norme, et aux
tendances plus qu’aux démarcations binaires. Avec dans le lointain horizon la promesse
de nouveaux rapports en science et ingénierie linguistiques, c’est d’abord dans
l’utilisation de l’analyseur en tant qu’instrument que l’on doit attendre la production de
savoirs diversifiés sur la langue. Et pour cela, on peut raisonnablement compter sur le
génie des utilisateurs de SYNTEX.
53 Je remercie une nouvelle fois Franck Sajous, qui pilote ce projet.
148
149
Bibliographie
ABEILLE A. & BLACHE P. (1997) Etat de l’art : la syntaxe. In Traitement Automatique
des Langues, 38(2), pp. 69-90
ABNEY S. (1987) The English Noun Phrase in Its Sentential Aspects. Thèse du
Massachusetts Institute of Technology, Cambridge
ABNEY S. (1990a) Rapid incremental parsing with repair. In Proceedings of the 6th New
OED Conference: Electronic Text Research, pp. 1-9, University of Waterloo
ABNEY S. (1990b) Parsing by Chunks. In BERWICK R., ABNEY S. & TENNY D., Eds,
Principle-Based Parsing. Kluwer Academic Publishers
ABNEY S. (1996) Partial parsing via finite-state cascades. In Natural Language
Engineering 2(4), Cambridge University Press. pp. 337-344
ADDA G., LECOMTE J., MARIANI J., PAROUBEK P. & RAJMAN M. (1998), The GRACE
French Part-Of-Speech Tagging Evaluation Task, In proceedings of the 1st International
Conference on Language Resources and Evaluation (LREC’1998),Granada
ADDA G., MARIANI J., PAROUBEK P. & RAJMAN M. & LECOMTE J. (1999) Métrique et
premiers résultats de l'évaluation GRACE des étiqueteurs morphosyntaxiques pour le
français. In Actes de la 6ème conférence Traitement Automatique du Langage Naturel
(TALN’1999), Cargese
AÏT-MOKHTAR S. & CHANOD J.-P. (1997a) Incremental finite-state parsing. In
Proceedings of the 5th Conference on Applied Natural Language Processing
(ANLP’1997), pp. 72-79, Washington DC
AÏT-MOKHTAR S. & CHANOD J.-P. (1997b) Subject and object dependency extraction
using finite-state transducers. In Proceedings of the ACL workshop on Automatic
Extraction and Building of Lexical Semantic Resources for NLP applications, pp. 71-77,
Madrid
AÏT-MOKHTAR S., CHANOD J.-P. & ROUX C. (2002) Robustness beyond shallowness:
incremental deep parsing. Natural Language Engineering 8(2/3), pp. 121-144
ALPAC (1966) Language and Machines. Computers in translation and linguistics. A
report by the Automatic Language Processing Advisory Committee (ALPAC), National
Academy of Sciences, National Research Council.
ASSADI H. (1998) Méthodologie et outils informatiques pour l'acquisition de
connaissances à partir de textes, Thèse en informatique de l’Université Paris 6
ASSADI H. & BOURIGAULT D. (1995) Classification d'adjectifs extraits d'un corpus pour
l'aide à la modélisation des connaissances. In Actes des 3èmes Journées internationales
d'Analyse des Données Textuelles (JADT’1995), pp. 313-320, Rome
ASSADI H. & BOURIGAULT D. (1996) Acquisition et modélisation des connaissances à
partir de textes : outils informatiques et éléments méthodologiques. In Actes du 10ème
150
congrès Reconnaissance des Formes et Intelligence Artificielle (RFIA’1996),
pp. 505-514, Rennes
AUSSENAC N., KRIVINE J.-P. & SALLENTIN J. (1992) L’acquisition des connaissances
pour les systèmes à base de connaissances. Revue d’Intelligence Artificielle 6(1-2)
BACHIMONT B. (1996) Herméneutique matérielle et artéfacture : des machines qui
pensent aux machines qui donnent à penser. Thèse de l’Ecole Polytechnique
BAR-HILLEL Y. (1951) The present state of research on mechanical translation. In
American Documentation 2, pp. 229-237
BAR-HILLEL Y. (1953) A Quasi-Arithmetic Notation for Syntactic Description,
Language 29, pp. 47-58.
BAR-HILLEL Y. (1960) The Present Status of Automatic Translation of Languages, In
Advances in Computers 1, pp. 91-141
BASILI R., PAZIENZA M.T., VINDIGNI M. (1999) Adaptive Parsing and Lexical Learning,
in Actes de VEXTAL’1999, Venise.
BASILI R., VINDIGNI M. (1998) Adapting a Subcategorization Lexicon to a Domain,
Proceedings of the ECML98 Workshop TANLPS, Chemnitz
BENVENISTE E. (1974) Forme nouvelle de la composition nominale, Problèmes de
linguistique générale, 2, pp. 163-176
BERRENDONNER A. (2002) Les deux syntaxes, in Verbum 1-2, pp. 23-35
BLACHE P. (2005) Combiner analyse superficielle et profonde : bilan et perspectives, in
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles
(TALN’2005), pp. 93-102, Dourdan
BLACHE P., BALFOURIER J.-M. et VAN RULLEN T. (2002). From Shallow to Deep Parsing
Using Constraint Satisfaction, in Proceedings of 19th International Conference on
Computational Linguistics (COLING’2002), Taipei
BLANCHE-BENVENISTE C. (2002) Phrase et construction verbale, in Verbum 1-2,
pp. 7-22
BOUAUD J., BACHIMONT B., CHARLET J. & ZWEIGENBAUM P. (1995) Methodological
Principles for Structuring an Ontology, In Proceedings of the IJCAI-95 Workshop on
Basic Ontological Issues in Knowledge Sharing, Montreal
BOURIGAULT D. (1991) LEXTER, un Logiciel d’Extraction de TERminologie. In Actes du
colloque sur le Repérage de l’information textuelle, Ministère des Communications du
Gouvernement du Québec et Hydro-Québec, pp. 15-25, Montréal
BOURIGAULT D. (1993) Analyse syntaxique locale pour le repérage de termes complexes
dans un texte, Traitement Automatique des Langues 34(2), pp. 105-117
BOURIGAULT D. (1994a) Extraction et structuration automatiques de terminologie pour
l'aide à l'acquisition des connaissances à partir de textes. In Actes du 9ème congrès
Reconnaissance des Formes et Intelligence Artificielle (RFIA&1994). pp. 397-408, Paris
151
BOURIGAULT D. (1994b) Lexter, un logiciel d’extraction de terminologie. Application à
l’acquisition des connaissances à partir de textes, Thèse en Mathématique, Informatique
Appliquées aux Sciences Humaines de l’Ecole des Hautes Etudes en Sciences Sociales,
Paris
BOURIGAULT D., AUSSENAC-GILLES N. & CHARLET J. (2004) Construction de
ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour
trois études de cas, Revue d'Intelligence Artificielle 18(1), pp. 87-110
BOURIGAULT D. & FABRE C. (2000), Approche linguistique pour l’analyse syntaxique de
corpus, Cahiers de Grammaire 25, pp. 131-151 Université Toulouse le Mirail
BOURIGAULT D. & FREROT C. (2005) Acquisition et évaluation sur corpus de propriétés
de sous-catégorisation syntaxique. In Actes de la 12ème conférence sur le Traitement
Automatique des Langues Naturelles (TALN’2005), pp. 373-382, Dourdan
BOURIGAULT D. & JACQUEMIN C. (1999) TERM EXTRACTION + TERM
CLUSTERING: An Integrated Platform for Computer-Aided Terminology. In
Proceedings of the 9th Conf. of the European Chapter of the Association for
Computational Linguistics (EACL’1999), pp. 15-22, Bergen
BOURIGAULT D. & JACQUEMIN C. (2000) Construction de ressources terminologiques, in
J.-M. PIERREL, Ed., Ingénierie des langues, Hermès, pp. 215-233
BOURIGAULT D. & SLODZIAN C. (1999) Pour une terminologie textuelle. In Actes des
troisèmes rencontres Terminologie et Intelligence Artificielle, numéro spécial
Terminologies nouvelles 19, pp. 29-32
KAPLAN R. M. & BRESNAN J. (1982). Lexical-Functional Grammar: A formal system for
grammatical representation. In J. BRESNAN, Ed., The Mental Representation of
Grammatical Relations, chapter 4, p. 173-281. Cambridge, Mass.: MIT Press
BROWN P. E., COCKE J., DELLA PIETRA S. A., DELLA PIETRA V. J., JELINEK F.,
LAFFERTY J. D., MERCER R. L. & ROOSSIN P. S. (1990). A statistical approach to
machine translation, Computational Linguistics 16(2), pp. 79-85
CERBAH F., DAILLE B. (2007) Une architecture à base de services pour mieux spécialiser
les processus d’acquisition de terminologie. In Traitement Automatique des Langues
47(1), www.atala.org/tal/
CHANOD J.-P. (1993) Problèmes de robustesse en analyse syntaxique. In Actes de la 2ème
Conférence Informatique et Langues Naturelles (ILN’1993), pp. 223-244, Nantes
CHANOD J.-P. (2000) Robust parsing and beyond. In VAN VOORD G. & JUNQUA J. C.,
Eds, Robustness in Language Technology, Kluwer Academic Publishers, pp. 132-139
CHOMSKY N. (1965) Aspects de la théorie syntaxique, Editions du Seuil [1971]
COLBY K. (1973) Simulations of Belief systems. In SCHANK R. & COLBY K., Eds.,
Computer Models of Thought and Language, Freeman, San Francisco
152
CORI M. & LEON J. (2002) La constitution du TAL, étude théorique des dénominations
et des concepts. In Traitement Automatique des Langues 43(3), pp. 21-55
CUNNINGHAM H., WILKS Y. & GAIZAUSKAS R. (1996) GATE - A General Architecture
for Text Engineering, In Proceedings of 16th Conference on Computational Linguistics
(COLING'96), Copenhagen
CUNNINGHAM H., MAYNARD D., BONTCHEVA K. & TABLAN V. (2002) GATE : A
Framework and Graphical Development Environment for Robust NLP tools and
applications, In Proceedings of 40th Anniversary Meeting of the Association for
Computational Linguistics (ACL’2002), Philadelphia
DAVID J.-M., KRIVINE J.-P. & SIMMONS R. (1993) Second generation expert systems,
Springer-Verlag
DEBILI F. (1982) Analyse syntaxico-sémantique fondée sur une acquisition de relations
lexicales-sémantiques. Thèse en informatique de l’Université Paris XI, Orsay
FABRE C. & FREROT C. (2002) Groupes prépositionnels arguments ou circonstants : vers
un repérage automatique en corpus. In Actes de la 9ème conférence sur le Traitement
Automatique des Langues Naturelles (TALN’2002), pp. 215-224, Nancy
FABRE C., HABERT B. & LABBE D. (1997) La polysémie dans la langue générale et les
discours spécialisés. Sémiotiques 13, pp. 15-31
FELBER H. (1987) Manuel de terminologie, Unesco, Paris
FILLMORE C. J. (1968) The case for case. In BACH & HARMS, Eds, Universal in
linguistic theory. New York: Holt, Rinehart and Winston, pp. 1-90
FOLCH H. & HABERT B. (1998) Proximités de comportement syntaxique entre les mots.
In S. MELLET, Ed, In Actes des 4èmes journées internationales d'analyse statistique des
données textuelles (JADT’1998), pp. 297-303
FREROT C. (2005) Construction et évaluation en corpus variés de lexiques syntaxiques
pour la résolution des ambiguïtés de rattachement prépositionnel, Thèse en sciences du
langage de l’Université Toulouse le Mirail
FREROT C., BOURIGAULT D. & FABRE C. (2003) Marier apprentissage endogène et
ressources exogènes dans un analyseur syntaxique de corpus. Le cas du rattachement
verbal à distance de la préposition de, in Traitement Automatique des Langues 44(3),
pp. 167-186
GALA PAVIA N. (2003) Un modèle d’analyseur syntaxique robuste basé sur la
modularité et la lexicalisation de ses grammaires, Thèse en informatique de l’Université
de Paris XI, Orsay
GAMBIER Y. (1995) Implications épistémologiques et méthodologiques de la
socioterminologie. Actes de langue française et linguistique 7/8, pp. 99-115
153
GARCIA D. (1998) L’analyse automatique des textes pour l’organisation causale des
actions. Réalisation du système informatique COATIS. Thèse en informatique de
l’Université Paris-Sorbonne
GARSIDE R. (1987) The CLAWS Word-tagging System. In GARSIDE R., LEECH G. &
SAMPSON G., Eds, The Computational Analysis of English: A Corpus-based Approach.
London: Longman
GARVIN P. L. (1967) The fulcrum syntactic analyzer for Russian. In actes de la
conférence internationale sur le traitement automatique des langues (COLING’1967),
Grenoble
GAZDAR G., KLEIN E., PULLUM G. K. & SAG I. A. (1985) Generalized Phrase Structure
Grammar. Cambridge, MA: Harvard University Press
GAUDIN F. (1996) Terminologie : l’ombre du concept. Meta XLI-4, pp. 605-621
GERDES K., KAHANE S. (2006) L'amas verbal au coeur dune modélisation topologique du
francais, in: Linguisticae Investigationes, vol. 29, p. 75-89
GREFFENSETTE G. (1983) Traitements linguistiques appliquées à la documentation
automatique, Thèse en informatique de l’Université Paris XI
GREFFENSETTE G. (1994) Exploration in Automatic Thesaurus Discovery, Kluwer
Academic Publishers
GREFFENSETTE G. (1996) Light Parsing as Finite-State Filtering, In Proceedings of the
ECAI’96 workshop on extended finite state models of language, Budapest
GUILBERT B. (1965) La formation du vocabulaire de l’aviation, Larousse
HABERT B. (1998) Des mots complexes possibles aux mots complexes existants : l'apport
des corpus. Habilitation à diriger des recherches en linguistique, Université de Lille III
HABERT B. (2005) Instruments et ressources électroniques pour le français, Ophrys
HABERT B (2006) Portrait de linguiste(s) à l'instrument. In GUILLOT C., HEIDEN S. &
PREVOST S., Eds, À la quête du sens : études littéraires, historiques et linguistiques en
hommage à Christiane Marchello-Nizia, ENS Éditions, Lyon , pp. 124-132
HABERT B., BARBAUD P., DUPUIS F. & JACQUEMIN C. (1995) Simplifier des arbres
d’analyse pour dégager les comportements syntactico-sémantiques des formes d’un
corpus. Cahiers de grammaire 20, Université de Toulouse Le Mirail, pp. 1-32
HABERT B. & FOLCH (1998) Compter sur les arbres. In P. FIALA & P. LAFON, Eds.,
Hommage à Maurice Tournier, Éditions de l'École Normale Supérieure de
Fontenay/Saint-Cloud, pp. 55-63
HABERT B. & NAZARENKO A. (1996) La syntaxe comme marche-pied de l’acquisition
des connaissances : bilan critique d’une expérience. In Actes des 6èmes Journées
d’Acquisition des Connaissances, pp. 137-142, Sète
154
HAYES P. J. & WEINSTEIN S. P. (1990) CONSTRUE/TIS: A System for Content-Based
Indexing of a Database of News Stories, In Proceedings of the The Second Conference
on Innovative Applications of Artificial Intelligence, pp. 49-64, Georgetown University
HEIDORN G. E. (1972) Natural Language Inputs to a Simulation Programming System.
Technical Report NPS-55HD72101A, Naval Postgraduate School, Monterey, California
HINDLE D. (1990) Noun Classification from Predicate Argument Structures. In
proceedings of the 28st Annual Meeting of the Association for Computational Linguistics
(ACL’1990), pp. 268-275, Pittsburgh
HINDLE D., ROOTH M. (1993) Structural Ambiguity and Lexical Relations,
Computational Linguistics 19(1), pp. 103-120
HUDSON R. (2000) Discontinuity, Traitement Automatique des Langue 41(1), pp. 15-56
HUTCHINS, J. W. (1986) Machine Translation: Past, Present, Future. Ellis Horwood
Limited, England (http://ourworld.compuserve.com/homepages/WJHutchins/PPFTOC.
htm)
JACQUEMIN C. (1997) Variation terminologique : reconnaissance et acquisition
automatique de termes et de leurs variantes en corpus. Habilitation à diriger des
recherches en informatique, Université de Nantes
JACQUEMIN C. & BOURIGAULT D. (2003) Term Extraction and Automatic Indexing, in
MITKOV R., Ed, The Oxford Handbook of Computational Linguistics, Oxford University
Press, pp. 599-615
JACQUES M.-P. (2005) Que, la valse des étiquettes, in Actes de la 11ème conférence sur le
Traitement Automatique des Langues Naturelles (TALN’2005), pp. 133-142, Dourdan
JENSEN K. (1988) Why computational grammarians can be sceptical about existing
linguistic theories, In Proceedings of 6th International Conference on Computational
Linguistics (COLING’1988), pp. 448-449, Budapest
JENSEN K., HEIDORN G. E., MILLER L. A. & RAVIN Y. (1983) Parse Fitting and Prose
Fixing: Getting a Hold on Ill-formedness. American Journal of Computational
Linguistics 9(3-4), pp. 147-160
JENSEN K., HEIDORN G. E. & RICHARDSON S. D., Eds (1992) Natural Language
Processing: the PLNLP approach, Kluwer Academic Publishers
JOSHI A. K. (1987) An introduction to tree adjoining grammars. In MANASTER-RAMER
A., Ed, Mathematics of Language, John Benjamins Publishing Co., pp. 87-115
JOSHI A. K. & HOPELY P. (1996) A Parser from Antiquity, Natural Language
Engineering 2(4), pp. 291-294
JOSHI A. K. & HOPELY P. (1999) A Parser from Antiquity, in KORNAI A., Ed, Extended
Finite State Models of Language, Cambridge University Press, pp. 6-15
155
KAHANE S. (1997) Bubble trees and syntactic representations, in BECKER & KRIEGER
(eds), In Proc. 5th Meeting of the Mathematics of Language (MOL5), Saarbrücken:
DFKI, pp. 70-76
KAHANE S. (2000) Extraction dans une grammaire de dépendance lexicalisée à bulles, in
Traitement Automatique des Langues 41(1), pp. 211-243
KAHANE S. (2001) Grammaire de dépendance formelles et théorie Sens-texte, (tutoriel)
in Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles
(TALN’2002), pp. 17-77, Tours
KAHANE S. (2002) Grammaire d'Unification Sens-texte : vers un modèle mathématique
articulé de la langue. Habilitation à Diriger les Recherches, Université Paris 7
KAY M. (1973) Automatic translation of natural languages, Daedalus 102(3),
pp. 217-230
KAY M. (2002) Introduction, In MITKOV R., Ed., The Oxford Handbook of
Computational Linguistics, Oxford University Press, pp. xvii-xx
L’HOMME M.-C. (1998) Caractérisation des combinaisons lexicales spécialisées par
rapport aux collocations de langue générale. In Proceedings of the 8th EURALEX
international congress on lexicography (EURALEX’1998), pp. 513-522, Liège
LYTINEN S. & GERSHMAN A. (1986) ATRANS: automatic processing of money transfer
messages. In Proceedings of the Fifth National Conference on Artificial Intelligence,
pp. 1089-1095, Philadelphia
MANNING C. (1993) Automatic Acquisition of Large Subcategorization Dictionary from
Corpora, In Proceedings of the 31st Meeting of the Association for Computational
Linguistics, pp. 235-242, Morristown
MANNING C. D. & SCHÜTZE H. (1999) Foundations of Statistical Natural Language
Processing. The MIT Press, Cambridge, Massachusetts
MARANDIN J.-M. (1993) Analyseurs syntaxiques, équivoques et problèmes. In
Traitement Automatique des Langues 34(1), pp. 5-33
MARCUS M. P. (1980) A theory of syntactic recognition for natural language, The MIT
Press, Cambridge, Massachusetts
MARCUS M. P., SANTORINI B. & MARCINKIEWICZ M. A. (1994) Building a Large
Annotated Corpus of English: The Penn Treebank, Computational Linguistics 19(2),
pp. 313-330
MARCUS M., KIM G., MARCINKIEWICZ M., MACINTYRE R., BIES A., FERGUSON M,
KATZ K. & SCHASBERGER B. (1994) The Penn treebank: Annotating predicate argument
structure. In proceedings of the ARPA Human Language Technology Workshop,
pp. 114-119? Plainsboro
156
MATTHEWS G. H. (1962) Analysis by synthesis of natural languages. In Proceedings of
the International Conference on Machine Translation and Applied Language Analysis,
Londres
MEL’CUK I. (1988) Dependency Syntax: Theory and Practice, Albany, N.Y.: The SUNY
Press
MILLER P. & TORRIS T. (1990) Formalismes syntaxiques pour le traitement automatique
du langage naturel, Hermès
MILNER J.-C. (1989) Introduction à une science du langage, Seuil
NAGAO M. (1988) Language Engineering: the real bottle neck of Natural Language
Processing. In Proceedings of the 12th International Conference on Computational
Linguistics (COLING’1988), pp. 448-449, Budapest
PANTEL P. & LIN D. (2000) An Unsupervised Approach to Prepositional Phrase
Attachment using Contextually Similar Words. In Proceedings of the 38th Meeting of
the Association for Computational Linguistics, pp. 101-108, Hong Kong
PAROUBEK P. & ROBBA I. (2006) Data, annotations and measures in Easy - the
evaluation campaign for parsers of french. In ELRA, Ed., Proceedings of the fifth
international conference on Language Resources and Evaluation (LREC’2006),
pp. 315-320, Genoa
PAROUBEK P., VILNAT A., ROBBA I. & AYACHE C. (2007) Les résultats de la campagne
EASY d’évaluation des analyseurs syntaxiques du français, in actes de la 14ème
conférence sur le Traitement Automatique des Langues Naturelles (TALN’2007),
Toulouse
PEREIRA C. N. & WARREN D. H. (1980) Definite clause grammars for language analysis
- a survey of the formalism and a comparison with augmented transition networks.
Artificial Intelligence 13, pp. 231-278
POLLARD C. & SAG I. A. (1987) Information-based Syntax and Semantics. Volume I:
Fundamentals. Stanford: CSLI
RATNAPARKHI A., REYNAR J. & ROUKOS S. (1994) A maximum entropy model for
prepositional phrase attachment. In proceedings of the ARPA Human Language
Technology Workshop, pp. 250-55
RASTIER F. (1987) Sémantique interprétative. Presses Universitaires de France
RASTIER F. (1991) Sémantique et recherches cognitives. Presses Universitaires de
France
RASTIER F. (1995) Le terme : entre ontologie et linguistique. In Actes des premières
rencontres Terminologie et Intelligence Artificielle, numéro spécial de la Banque des
mots 7, pp. 35-65
RASTIER F., CAVAZZA M. & ABEILLE A. (1994) Sémantique pour l’analyse. Masson
157
SAGER, N. (1970). The Sublanguage Method in String Grammars. In EWTON Jr. R.W. &
ORNSTEIN J., Eds, Studies in Language and Linguistics, pp. 89-98, University of Texas
at El Paso
SEGUELA P., AUSSENAC-GILLES N. (1999) Extraction de relations sémantiques entre
termes et enrichissement de modèles du domaine, In Actes de la conférence Ingénierie
des Connaissances (IC’1999), pp. 79-88, Palaiseau
SCHANK R. C. (1975) Conceptual Information Processing. North-Holland, Amsterdam
SHIEBER (1990) Les grammaires basées sur l’unification, In MILLER P. & TORRIS T.,
Eds, Formalismes syntaxiques pour le traitement automatique du langage naturel,
Hermès, pp. 27-85
SIMONDON G. (1958) Du mode d’existence des objets techniques. Aubier, Paris
SIMONDON G. (1971) L’invention dans les techniques. Editions du Seuil [2005], Paris
SLODZIAN M. (1994) La doctrine terminologique, nouvelle théorie du signe au carrefour
de l’universalisme et du logiscisme ? In Actes de Langue française et linguistique,
volume 7/8, pp. 121-136
SLODZIAN M. (1995) Comment revisiter la doctrine terminologique aujourd’hui ? In
Actes des premières rencontres Terminologie et Intelligence Artificielle, numéro spécial
Banque des mots 7, pp. 11-18
STETINA J. & NAGAO M. (1997) Corpus-based PP Attachment Ambiguity Resolution
with a Semantic Dictionary. In J. ZHOU and K. CHURCH, Eds, Proceedings of the 5th
Workshop on Very Large Corpora, pp. 66-80, Beijing & Hong Kong
TAYLOR A., MARCUS M. & SANTORINI B. (2003) The Penn Treebank: an overview. In
ABEILLÉ A., Ed., Treebanks: Building and using parsed corpora, Kluwer academic
publishers, pp. 5-22
TESNIERES L. (1959) Eléments de syntaxe structurale. Klincksieck
USHIODA A., EVANS D., GIBSON T. & WAIBEL A. (1993) The Automatic Acquisition of
Frequencies of Verb Subcategorization Frames from Tagged Corpora. In BOGURAEV B.,
PUSTEJOVSKY J., Eds, Proceedings of the Workshop on Acquisition of Lexical
Knowledge from Text, pp. 95-106, Columbus
VERGNE J. (1995) Les cadres théoriques des TAL syntaxiques: quelle adéquation
linguistique et algorithmique ? Une étude et une alternative. In Actes de la conférence
Traitement Automatique du Langage Naturel (TALN’1995), pp. 24-33, Marseille
VERGNE J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de
l'ordinateur. Analyse syntaxique automatique non combinatoire, Habilitation à Diriger
les Recherches, Université de Caen
VERGNE J. & GIGUET E. (1998) Regards théoriques sur le tagging, in Actes de la 5ème
conférence Traitement Automatique du Langage Naturel (TALN’1998), pp. 22-31, Paris
158
VILNAT A., PAROUBEK P., MONCEAUX L., ROBBA I., GENDNER V., ILLOUZ G. &
JARDINO M. (2004) The ongoing evaluation campaign of syntactic parsing of French :
Easy. In Proceedings of the 4th International Conference on Language Resources and
Evaluation (LREC), p. 2023-2026, Lisboa
VOLK M. (2001) Exploiting the WWW as a Corpus to Resolve PP Attachment. In
Proceedings of Conference on Corpus Linguistics, pp. 601-606, Lancaster
WEAVER, W. (1949) Translation. Repr. in LOCKE W.N. & BOOTH A.D. , Eds. (1955)
Machine translation of languages: fourteen essays, Press of the Massachusetts Institute
of Technology, pp. 15-23
WILKS Y. (2005) Computational Linguistics: History, In Encyclopedia of Language &
Linguistics (2nd Edition), Elsevier
WILKS Y. & FASS D. (1992) The preference semantics family, In Computers &
mathematics with applications 23(2-5), pp. 205-221
WINOGRAD T. (1972) Understanding Natural Language, Academic Press
WOODS W. (1970), Transition Network Grammars for Natural Language Analysis,
Communications of the ACM, 13, pp. 59-60