1 Université Toulouse-Le Mirail Un analyseur syntaxique opérationnel : SYNTEX Didier BOURIGAULT Laboratoire CLLE-ERSS (UMR 5263) CNRS & Université Toulouse-Le Mirail Mémoire présenté pour l’obtention d’une Habilitation à Diriger les Recherches Spécialité : sciences du langage Le samedi 9 juin 2007 M. B. HABERT, Professeur, Université de Paris 10 (rapporteur) M. S. KAHANE, Professeur, Université de Paris 10 (rapporteur) Mme M.-P. PERY-WOODLEY, Professeure, Université de Toulouse Le Mirail (rapporteur) M. J.-P. CHANOD, Manager, Xerox Research Centre Europe M. J. VERONIS, Professeur, Université d’Aix-en-Provence M. B. VICTORRI, Directeur de recherche, Ecole Normale Supérieure 2 3 Résumé Dans ce mémoire, rédigé pour l’obtention de l’Habilitation à Diriger les Recherches, je présente les recherches que j’ai menées ces dix dernières années autour de la réalisation logiciel SYNTEX, un analyseur syntaxique automatique du français. Dans la première partie du mémoire, je retrace le chemin qui m’a conduit de LEXTER, un analyseur syntaxique robuste dédié au repérage des syntagmes nominaux terminologiques dans les corpus spécialisés, à SYNTEX, un analyseur à plus large couverture. La deuxième partie du mémoire est consacrée à un panorama historique du domaine du Traitement Automatique des Langues, dans lequel je montre que les recherches dans ce domaine ont toujours été partagées entre les travaux théoriques et les applications à visée industrielle. Ce panorama est suivi d'une revue de travaux en analyse syntaxique robuste, qui identifie une lignée dans laquelle s'inscrivent mes propres travaux de recherche. Dans la troisième partie, je présente d’abord les concepts clés qui ont guidé la conception de l'analyseur SYNTEX, en défendant l’idée que l'analyse syntaxique automatique peut être vue comme un problème de reconnaissance de formes, représentées par des structures de dépendance syntaxique. Je décris ensuite en détail l’architecture et les principes de fonctionnement de SYNTEX, qui est un analyseur procédural à cascades. Je montre enfin comment, sur le plan épistémologique, SYNTEX peut être caractérisé comme un objet technique, au sens de la philosophie des techniques de G. Simondon, en tant que ses progrès se développent selon les deux dimensions de l'adaptation et de l'auto corrélation. 4 5 Table des matières Chapitre 1 De LEXTER à SYNTEX : ruptures, continuités, évolutions ................ 7 1.1. Recherches en ingénierie linguistique............................................................... 8 1.2. Analyse syntaxique locale............................................................................... 10 1.3. La fonction initiale de LEXTER : extraire des étiquettes de concepts .............. 12 1.4. LEXTER à l’épreuve des usages : revirement théorique................................... 13 1.5. Un outil d’aide à l’analyse sémantique de textes spécialisés .......................... 16 1.6. Un outil d’identification de contextes syntaxiques pour l’analyse distributionnelle .......................................................................................................... 19 1.7. Bilan : LEXTER a servi, vive SYNTEX.............................................................. 22 Chapitre 2 Etat de l’art en analyse syntaxique robuste .................................... 25 2.1. L’analyse syntaxique automatique au sein du TAL ........................................ 25 2.2. Panorama historique du Traitement Automatique des Langues ...................... 27 2.2.1. Les débuts de la traduction automatique ................................................. 27 2.2.2. L’avènement de la « computational linguistics ».................................... 32 2.2.3. Le « tournant déclaratif » et les grammaires d’unification...................... 35 2.2.4. Le Natural Language Processing............................................................. 38 2.3. Travaux en analyse syntaxique robuste........................................................... 42 2.3.1. La robustesse en analyse syntaxique ....................................................... 42 2.3.2. L’analyseur FULCRUM de P. S. Garvin.................................................... 45 2.3.3. L’analyseur du projet TDAP................................................................... 46 2.3.4. L’analyseur de F. Debili.......................................................................... 48 2.3.5. Le projet PLNLP..................................................................................... 50 2.3.6. L’analyse par chunks de S. Abney .......................................................... 53 2.3.7. L’analyseur 98 de J. Vergne.................................................................... 58 2.3.8. L’analyse syntaxique robuste selon J. P. Chanod.................................... 61 2.3.9. Bilan : une lignée .................................................................................... 65 Chapitre 3 Description de l’analyseur SYNTEX.................................................. 67 3.1. Principes de base............................................................................................. 67 3.1.1. Analyseur syntaxique opérationnel ......................................................... 67 3.1.2. Un problème de reconnaissance de formes ............................................. 68 3.1.3. Fonctionnement simplifié........................................................................ 71 3.1.4. Architecture............................................................................................. 74 3.1.5. Algorithmes de reconnaissance............................................................... 76 6 3.2. Description des modules ................................................................................. 77 3.2.1. Enchaînement des modules de reconnaissance ....................................... 77 3.2.2. Formalisation du parcours....................................................................... 78 3.2.3. Les relations locales ................................................................................ 84 3.2.4. Coordination............................................................................................ 89 3.2.5. Objet et attribut ....................................................................................... 97 3.2.6. Sujet ...................................................................................................... 101 3.2.7. Les relations ambiguës : apprentissage endogène ................................. 106 3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation 109 3.2.9. Antécédence relative ............................................................................. 111 3.2.10. Attachement des prépositions................................................................ 114 3.2.11. Attachement des adjectifs ..................................................................... 120 3.2.12. Procédure de désambiguïsation globale ................................................ 121 3.2.13. Analyse profonde .................................................................................. 123 3.2.14. Evaluation ............................................................................................. 126 3.3. Discussion ..................................................................................................... 131 3.3.1. Situation par rapport au paradigme formel............................................ 131 3.3.2. SYNTEX, un « objet technique » ............................................................ 137 3.3.3. Savoirs................................................................................................... 144 7 Chapitre 1 De LEXTER à SYNTEX : ruptures, continuités, évolutions Dans ce chapitre, je retrace le chemin qui m’a conduit de LEXTER à SYNTEX. La période couverte s’étend de juin 1994, date de la soutenance de ma thèse sur LEXTER, à l’automne 1999, quand je décide à mon arrivée dans l’Equipe de Recherches en Syntaxe et Sémantique de Toulouse, de me lancer, avec C. Fabre, dans la réalisation d’un nouvel analyseur syntaxique. Cette période m’a vu changer radicalement de position sur un certain nombre de points, techniques, méthodologiques ou théoriques, et maintenir mes convictions sur d’autres. Ce sont ces ruptures et ces continuités que je tente de mettre en évidence ici. Je reste fidèle à une approche ingénierique des recherches en Traitement Automatique des Langues (section 1.1). Sur le plan de la couverture, LEXTER réalise une analyse syntaxique locale et partielle, dédiée au repérage de syntagmes nominaux à allure dénominative (section 1.2), alors que SYNTEX est un analyseur syntaxique de phrase. La principale évolution concerne la conception de l’utilisation de l’analyseur : LEXTER est conçu au départ comme un outil d’extraction de « candidats termes », vus comme des étiquettes de concepts, pour l’élaboration ou l’enrichissement de thesaurus (section 1.3). Les expériences d’utilisation de LEXTER dans des contextes d’usages diversifiés me poussent à changer radicalement mes appuis théoriques : j’abandonne les postulats de la doctrine terminologique classique pour m’inspirer de la sémantique interprétative de F. Rastier (section 1.4). La nécessité de définir un cadre méthodologique cohérent pour l’utilisation de LEXTER m’amène à le présenter non plus comme un simple pourvoyeur d’étiquettes de concepts, mais comme un outil d’aide à l’interprétation de textes et à la modélisation des connaissances (section 1.5). Une seconde rupture avec la fonction initiale de LEXTER se produit quand différentes expériences montrent l’utilité des analyses syntaxiques de groupes nominaux produites par LEXTER comme entrées d’outils d’analyse distributionnelle (section 1.6). Un bilan rétrospectif de ce chemin mouvementé éclaire les raisons pour lesquelles je décide fin 1999 de m’attaquer la réalisation d’un nouvel analyseur syntaxique à la couverture et aux fonctions élargies (section 1.7). 8 1.1. Recherches en ingénierie linguistique J’ai effectué ma thèse dans un contexte industriel, à la Direction des Etudes et Recherches (DER) d’EDF, au sein du service Informatique et Mathématiques Appliquées (septembre 1990-juin 1994)1. Le sujet de recherche avait été déterminé suite à la question précise et concrète adressée par les responsables du Service Information, Prospective et Normalisation de la DER à leur collègues du service Informatique et Mathématiques Appliquées : comment enrichir et maintenir à jour le thesaurus électronique utilisé par le système d’indexation automatique de la DER. J’ai été d’emblée plongé dans le contexte d’une recherche guidée par un problème à résoudre. Ingénieur de formation, et après trois années d’études en linguistique théorique et formelle à l’Université Paris VII, je n’ai pas été rebuté par ces conditions de travail, que j’ai toujours considérées comme stimulantes2. Au long de mon parcours de chercheur, de la DER d’EDF au CNRS, cette « obligation de résultats », contrainte subie et acceptée au départ de ma recherche, est devenue une dimension constitutive assumée de ma conception du travail de chercheur en Traitement Automatique des Langues (TAL). Dans le paysage de la recherche en TAL, marqué par « la cohabitation paradoxale et nécessaire des recherches théoriques et des applications à visée industrielle » (Cori & Léon, 2002), je revendique une démarche ingénierique, où la définition du programme de recherche est, pour partie, liée à l’identification d’applications cibles ou de problèmes concrets, et où la validation des résultats passe par la confrontation des outils réalisés avec des contextes d’usages aussi réels que possible. Ce parti pris d’une recherche située en ingénierie linguistique est clairement assumé et affiché dans ma thèse soutenue en juin 1994. Il est révélé par l’architecture même du mémoire, et en particulier par les choix concernant la traditionnelle partie « état de l’art ». Le premier chapitre est consacré à la présentation des principes de base du logiciel. Il commence par l’énoncé du problème à résoudre, à savoir la constitution et l’enrichissement de thesaurus, et par la présentation de la solution visée : la réalisation d’un logiciel d’extraction de terminologie, prenant en entrée un corpus étiqueté portant sur un domaine spécialisé, et effectuant une analyse syntaxique pour extraire des syntagmes nominaux susceptibles de représenter les concepts du domaine. Pour la mise en contexte de la recherche, plutôt que d’inscrire mon travail dans un champ particulier de la linguistique ou du Traitement Automatique des Langues, je choisis de le situer en évoquant la « demande », c’est-à-dire les domaines d’application de la terminologie (traduction automatique, informatique documentaire, gestion de la connaissance). En restant dans la même veine « génie logiciel », je définis ensuite un cahier des charges minimal pour la réalisation du logiciel en imposant deux contraintes : généralité – le 1Je dois beaucoup à Gérard Hatabian, alors chef du groupe Statistiques, Optimisation, Aide à la Décision, qui m’a fait confiance à ce moment crucial de mon parcours professionnel. 2Il faut bien reconnaître qu’à cette époque la Direction des Etudes et Recherches d’EDF constituait un lieu extrêmement favorable et confortable pour des recherches à visée applicatives certes, mais avec une pression quant aux résultats beaucoup moindre que dans les entreprises industrielles du secteur privé. 9 logiciel doit être capable de traiter des corpus de domaines quelconques, et robustesse – le logiciel doit être capable de traiter des corpus de taille importante dans des temps raisonnables. C’est à la fin de ce premier chapitre que se glisse une discussion bibliographique sur les techniques de Traitement Automatique des Langues, dans laquelle je décris en détail et j’évalue par rapport à mes propres choix de conception deux séries de travaux : ceux de F. Debili d’une part, et ceux de S. David et P. Plante d’autre part. Le tout en une douzaine de pages. La « vraie » partie état de l’art est placée dans le dernier chapitre (chapitre 6). J’y expose un état de l’art très complet et détaillé (une soixantaine de pages) sur la problématique de l’acquisition des connaissances à partir de textes, domaine d’application que j’ai choisi pour le logiciel. Je présente, décortique et critique un bon nombre de travaux en acquisition des connaissances à partir de textes, et je propose en conclusion une typologie des outils d’analyse de textes pour l’acquisition des connaissances. Ce rapide retour en arrière sur l’architecture de mon mémoire de thèse révèle bien ma volonté de valoriser ma recherche selon le point de vue de l’utilisation de LEXTER, et donc de sa validation, plutôt que sur sa conception, en négligeant de me situer, dans le domaine du TAL, par rapport aux travaux sur l’analyse syntaxique automatique3. En ce qui concerne ma position par rapport aux théories et travaux en linguistique, je fais référence dans ma thèse à la Théorie Générale de la Terminologie et à certains linguistes reconnus (Benveniste, Guilbert). Je peux dire maintenant que ce positionnement est un habillage rapidement cousu au moment de la rédaction de la thèse pour justifier des choix de conception et d’implémentation que j’avais effectués sur des bases entièrement pragmatiques. En 1999, quand j’attaque la conception de l’analyseur syntaxique SYNTEX, je suis bien décidé à problématiser enfin la distance entre les théories linguistiques et la conception d’un analyseur opérationnel. Au moment où nous commençons à travailler sur ce nouvel analyseur, C. Fabre et moi rédigeons, pour un numéro spécial des Cahiers de Grammaire sur « Sémantique et corpus », un article qui constitue l’acte de baptême de SYNTEX et qui restera pendant plusieurs années sa seule référence bibliographique (Bourigault et Fabre, 2000). Dans cet article, j’amorce une réflexion sur les rapports entre certains des choix méthodologiques effectués pour le développement d’un analyseur syntaxique opérationnel et certaines des positions théoriques défendues par J.-C. Milner dans son Introduction à une science du langage (Milner, 1999). Mais une fois la rédaction de l’article achevée, je me plonge à nouveau dans les développements informatiques, pendant 5 années, période au bout de laquelle est achevée une première version stable de l’analyseur. 3 Cette disproportion entre une étude bibliographique hypertrophiée sur l’acquisition des connaissances à partir de textes et une discussion relativement légère sur les techniques de traitement automatique des langues n’a pas manqué de surprendre Jean Véronis, qui écrit dans son rapport sur la thèse : « J’ai été surpris tout d’abord par la place de cette étude qui constitue en quelque sorte un état de l’art, et il m’a semblé qu’elle aurait mieux eu sa place au début du mémoire, de façon à ce que l’exposé s’appuie sur elle. Mais il est vrai qu’elle ne porte pas exactement sur le thème général de la thèse, mais sur le seul aspect particulier de l’acquisition des connaissances. On peut alors se demander pourquoi une bibliographie si élaborée sur ce thème et pas sur le thème central de la thèse. » 10 La rédaction du présent mémoire est pour moi l’occasion d’une pause, urgente et salutaire, dans le développement du logiciel et dans la course aux applications, pour reprendre mes interrogations sur théorie linguistique et développement informatique en ingénierie linguistique. 1.2. Analyse syntaxique locale LEXTER est un logiciel d’extraction de terminologie. Il prend en entrée un corpus de textes, préalablement étiqueté4, puis effectue une extraction de candidats termes nominaux en deux étapes : (1) découpage, (2) décomposition. Au cours de l’étape de découpage, LEXTER isole dans la chaîne étiquetée des groupes nominaux maximaux en repérant des patrons morphosyntaxiques de frontières. Il s’agit par exemple des mots de catégorie Verbe, Pronom, Conjonction de subordination, etc., ou des séquences de catégories morphosyntaxiques, par exemple certaines suites Nom + Préposition ou Préposition + Déterminant, qui ne peuvent être constituants de termes. Au cours de l’étape de décomposition, LEXTER analyse les groupes nominaux maximaux dégagés lors de l’étape de découpage pour les décomposer récursivement de façon binaire en une tête et une expansion5. Par exemple, le groupe nominal maximal pompe de refoulement rapide est décomposé en une tête, le groupe nominal pompe de refoulement et une expansion, l’adjectif rapide, et le groupe nominal pompe de refoulement est lui-même décomposé en une tête, pompe, et une expansion, refoulement. Pour résoudre les ambiguïtés de rattachement adjectival au sein des groupes nominaux maximaux ou certaines ambiguïtés de rattachement prépositionnel lors de l’étape de découpage, LEXTER met en oeuvre le principe de l’apprentissage endogène : il acquiert lui-même, par analyse de configurations non ambiguës au sein corpus en cours de traitement, les informations lexico-syntaxiques qui lui sont nécessaires pour traiter les configurations ambiguës. Par exemple, LEXTER effectue l’analyse donnée ci-dessus du groupe pompe de refoulement rapide parce qu’il a repéré dans le corpus des occurrences non ambiguës des groupes pompe rapide ou pompe de refoulement, et aucune occurrence non ambiguë de refoulement rapide. De même, c’est parce qu’il aura repéré plusieurs contextes non ambigus dans lesquels le nom action est construit avec la préposition sur que le logiciel ne coupera pas à la séquence sur + le dans la phrase « Le système déclenche une action sur le bouton poussoir », et extraira ainsi le groupe nominal maximal action sur le bouton poussoir. En revanche, il considérera cette même séquence comme une frontière dans la phrase « on raccorde le câble d’alimentation sur le coffre de décharge » au motif qu’il n’aura repéré aucune occurrence non ambiguë de alimentation + sur dans le corpus. 4 L’étiqueteur utilisé au départ du projet est AlethIPCat de la société GSI-Erli. 5 Je reviens à la fin de la section 1.5 sur les motivations de cette décomposition binaire récursive. 11 Le concept fondateur de LEXTER est celui de frontière. Dès le début de ma réflexion sur une méthode d’identification de termes dans des corpus, j’ai eu à ma disposition un étiqueteur, et l’observation de corpus de test étiquetés m’a guidé vers l’idée d’une extraction de groupes nominaux maximaux par repérage de marqueurs de frontière. Pourquoi avoir choisi une méthode « en négatif », par patrons de frontière, plutôt qu’une méthode beaucoup plus classique par patrons de termes (Nom Adjectif, Nom Prep Nom, etc.) ? Sans doute parce que le premier corpus sur lequel j’ai travaillé avait cette particularité de regorger de syntagmes nominaux extraordinairement complexes, avec de magnifiques enchâssements (par exemple : amélioration des connaissances actuelles sur les propriétés électriques et mécaniques des accéléromètres à fibre otique). Ce corpus de 200 000 mots était constitué de textes rédigés par les ingénieurs de la DER qui décrivaient leurs thèmes et actions de recherche pour l’année à venir. Devant la diversité et la complexité des groupes nominaux utilisés pour nommer ces thèmes et actions, il m’est apparu plus facile de travailler dans un premier temps sur la caractérisation des limites extérieures de ces groupes que sur celle de leur structure interne. Dans une perspective de prototypage rapide, la mise au point d’une liste initiale de patrons de frontière m’est apparue chose aisée. Une première version satisfaisante du module découpage a été prête assez vite. Comme prévu, les structures des séquences isolées à l’issue de la phase de découpage étaient très complexes et diversifiées. Pour extraire des sous-séquences, qui avaient plus de chances d’être des termes du domaine que les séquences maximales, je me suis lancé dans la mise au point des règles de décomposition. J’ai adopté une approche énumérative, totalement inductive, basée sur l’observation de ces syntagmes nominaux maximaux. En simplifiant, pour chaque motif possible de syntagme nominal maximal, décrit en terme de succession de catégories morphosyntaxiques (noms, adjectifs, participes passés, prépositions, adverbes, déterminants), j’ai construit une règle du module de décomposition, qui indique quels sont les constituants à extraire, ainsi que, dans le cas d’une ambiguïté de rattachement adjectival, quels sont les groupes dont il faut chercher des occurrences non ambiguës. Dans un premier temps, les règles énuméraient les sous-groupes à extraire, sans produire d’analyse en Tête et Expansion. J’ai introduit cette analyse dans un second temps, d’abord pour faciliter la navigation dans l’interface de consultation des résultats (section 1.5). Une des grandes richesses de LEXTER est la connaissance accumulée dans les dizaines de règles du module décomposition. Pour qualifier le type d’analyse effectuée par LEXTER, j’ai parlé d’« analyse syntaxique locale » (Bourigault, 1993). Cette mention concerne l’analyse effectuée par le module de découpage, qui s’appuie sur des patrons catégoriels de faible empan (séquences d’une ou deux, voire trois, catégories) pour extraire des syntagmes nominaux syntaxiquement valides6. Dans ma thèse, je justifie le non recours à une analyse syntaxique globale des phrases de la façon suivante : (1) mon objectif est limité à l’identification de syntagmes 6 Alors que le module de décomposition, lui, met en oeuvre une analyse syntaxique globale des syntagmes nominaux maximaux, en ce sens que chaque règle de décomposition correspond à un motif possible de syntagme nominal maximal décrivant l’intégralité du syntagme à analyser. comporte en partie gauche le mtof 12 nominaux complexes dans des corpus de grande taille, (2) l’analyse syntaxique des phrases est rarement décisive pour identifier les frontières de syntagmes nominaux, (3) le fait d’adopter une méthode robuste autorise une démarche expérimentale par tests nombreux sur corpus de grande taille et une mise au point fine des règles d’extraction. J’argumente ainsi que la méthode de LEXTER est plus précise qu’une méthode par simple repérage de patrons de termes, et plus efficace et robuste qu’une méthode par analyse syntaxique globale7. J’affirme même : « La synergie entre repérage de termes et analyse syntaxique doit s’effectuer dans le sens inverse. D’un point de vue théorique, toute approche structurale de l’analyse de la langue qui fonde sur la compositionnalité une organisation des traitements en niveaux (syntaxique, sémantique) se doit de considérer les termes comme des unités sur le plan syntaxique, puisque ce sont des unités sur le plan interprétatif. D’un point de vue pratique, il est nécessaire de fournir à un analyseur syntaxique la liste des termes (et des noms composés) qu’il est susceptible de rencontrer dans les textes, pour limiter le nombre de cas d’ambiguïtés auxquels il sera confronté. » (Bourigault, 1994b, p. 70). J’évoque à ce propos un « principe d’incertitude », qui interdirait d’obtenir, avec une égale précision et en exploitant les mêmes informations, à la fois la structure syntaxique d’une phrase et le repérage d’unités complexes qui la constitueraient. Je n’approfondirai jamais cette idée. A rebours, je réalise quelques années plus tard un analyseur syntaxique de phrase dont une des applications en aval est l’extraction de termes (section 1.7). 1.3. La fonction initiale de LEXTER : extraire des étiquettes de concepts LEXTER est développé initialement pour répondre au problème de la constitution et de l’enrichissement de thesaurus. Je le conçois comme un outil dont la fonction est d’extraire automatiquement d’un corpus de textes des séquences de mots aptes à intégrer directement la nomenclature d’un thesaurus, sans retouche de forme. Par exemple, le logiciel doit extraire la séquence nominale paroi d’enceinte, mais doit écarter la séquence paroi de cette enceinte, parce que la présence du déterminant démonstratif vient la disqualifier pour le titre d’étiquette de concept. Ce parti pris relève de la conception naïve de la terminologie qui est la mienne tout au long de mon travail de thèse : le terme est une étiquette de concept, il est figé à la fois dans sa fonction 7 Cette polémique peut paraître quelque peu datée, au regard de la popularité gagnée ces dix dernières années par les travaux en analyse syntaxique robuste par bribes. A l’époque, la nécessité de mettre au point un tel argumentaire m’est apparue, quelques mois après le début de ma thèse, à l’occasion d’un colloque sur le repérage de l’information textuelle organisé à l’Université du Québec à Montréal. Je présentais pour la première fois le principe du découpage par marqueurs de frontière, et celui, qui suit logiquement, de décomposition des syntagmes nominaux maximaux (Bourigault, 1991). Un membre de l’équipe de l’UQAM, qui travaillait alors sur le progiciel Termino, m’a demandé comment je pouvais extraire des syntagmes nominaux sans analyse syntaxique de la phrase. Ce point, dont je constate retrospectivement avoir surestimé l’importance, m’a conduit à l’époque à mobiliser une partie de mon énergie à justifier le non recours à l’analyse syntaxique de phrase. 13 référentielle et dans sa forme, car le système conceptuel préexiste à toute production textuelle. Le corpus n’est qu’un simple réservoir d’attestations. Cette conception n’est pas ébranlée par mes diverses lectures issues de la littérature classique de la terminologie. Ni du côté de E. Benveniste (1966) ou de L. Guilbert (1965), dont la citation que je donne page 26 de ma thèse conforte parfaitement ma conception initiale de l’extraction automatique de termes : « Les unités lexicales complexes ne sont en définitive que des segments d’énoncés extraits de leur contexte. » (Guilbert, 1965, p. 273). Ni du côté de la Théorie Générale de la Terminologie d’Eugène Wüster, telle qu’elle est exposée dans le Manuel de terminologie de H. Felber, auquel j’emprunte page 19 de ma thèse cette définition du terme : « un terme est un symbole conventionnel représentant une notion définie dans un certain domaine de savoir » (Felber, 1987, p. 1). Dans la section de ma thèse consacrée à la caractérisation linguistique du terme, j’affirme que la propriété définitoire essentielle du terme est sa propriété d’interprétabilité hors contexte (Bourigault, 1994b, p. 21). J’affirme ensuite que si cette contrainte d’interprétabilité hors contexte ne permet pas de déduire directement les principes d’une implémentation, elle induit sur la forme du terme des contraintes morphosyntaxiques qui, elles, peuvent servir de bases descriptives pour l’implémentation. C’est ainsi que je justifie le fait que LEXTER extrait des séquences contiguës d’unités lexicales, correspondant à des groupes nominaux figés, dont la forme les rend aptes à intégrer directement la nomenclature d’une terminologie. Cette traque de l’étiquette est poursuivie de façon obsessionnelle pendant toute la conception du logiciel LEXTER (1990–1994). Elle me conduit à imposer des contraintes fortes sur le filtrage des groupes nominaux à extraire des corpus. En particulier, j’écarte tout groupe qui a pour constituant un article autre que l’article défini (comme refroidissement d’une enceinte) ou, plus encore, qui a pour constituant un article défini à valeur non générique : une règle de découpage considère comme une frontière les séquences de + article défini quand le nom qui suit l’article est suivi d’une relative. Par exemple, dans la phrase « le débit de la pompe qui alimente le circuit de refroidissement», la séquence débit de la pompe ne sera pas retenue car dans ce contexte le déterminant la n’a pas la valeur générique, mais celle de spécifiant. 1.4. LEXTER à l’épreuve des usages : revirement théorique Après la soutenance de ma thèse en juin 1994, j’arrête tout travail de développement informatique sur le logiciel LEXTER lui-même, et je consacre la période 1994–1999 d’une part à l’animation de la recherche, au sein de la communauté de l’Ingénierie des Connaissances et dans le groupe « Terminologie et Intelligence Artificielle », que j’ai créé avec A. Condamines en 1994, et d’autre part à la mise en place et à l’animation d’un certain nombre de projets de recherche dans lesquels le logiciel LEXTER est utilisé, 14 que ce soit au sein de la DER d’EDF8 ou dans des laboratoires de la recherche universitaire. Assez vite après le début de la thèse, j’avais changé sensiblement la visée applicative de mon travail. Je m’étais détourné du domaine de l’informatique documentaire, et avais abandonné le problème spécifique de la constitution de thesaurus, pour inscrire mes recherches dans le domaine de l’Intelligence Artificielle, et m’intéresser au problème de la conception des systèmes experts9. Ce geste fut de grande importance pour la suite de ma recherche, car le domaine de l’Intelligence Artificielle a vécu au début des années 1990 une sorte de révolution culturelle, avec un vaste mouvement d’idées autour de l’activité d’acquisition et de modélisation des connaissances pour les systèmes experts, au sein duquel la réflexion sur l’utilisation des textes et des outils informatiques d’analyse de textes a occupé une place centrale. Au début de leur développement, les systèmes experts étaient conçus comme des ensembles uniformes de règles d’association, permettant de passer d’un ensemble de prémisses à des conclusions. Ces règles étaient établies à partir des explications fournies par les experts sur leur façon de résoudre les problèmes. L’acquisition des connaissances était donc appréhendée comme un problème d’extraction et de retranscription de connaissances que posséderait un expert vers un système expert. Au début des années 1990, un certain nombre de chercheurs, pour lesquels cette conception expliquait en partie l’échec des systèmes experts de première génération, proposent une nouvelle approche qui voit l’acquisition des connaissances comme un problème de construction de modèles (Aussenac et al., 1992). Le domaine de l’acquisition des connaissances pour les systèmes à base de connaissances se caractérise par l’identification et l’agencement des processus requis pour l’élaboration (conception, évaluation, évolution) d’un Système à Base de Connaissances à partir de sources hétérogènes de connaissances (documentaires, humaines, expérimentales). (op. cit., p. 8) Il ne s’agit plus de « mimer » le raisonnement d’un expert dans un système informatique, mais de construire un artefact informatique, un « système à base de connaissances », qui viendra s’intégrer au dispositif utilisé par les spécialistes dans leur activité experte. Un tel changement de conception entraîne un changement radical dans les méthodologies d’acquisition des connaissances. En particulier, le recours aux textes n’est plus le même qu’avec la vision classique des systèmes experts, pour laquelle seules les retranscriptions 8Ce fut une période particulièrement active, au cours de laquelle j’ai eu le bonheur de travailler, toujours à EDF, avec Cécile Gros et Henri Boccon-Gibod, bientôt rejoints par Daniela Garcia. L’aide qu’ils m’ont apportée a été capitale. 9 Je dois l’idée de ce changement à Jean-Paul Krivine, chercheur au service Informatique et Mathématiques Appliquées de la DER, qui crée et anime à partir d’octobre 1991 le Groupe de Recherche en Acquisition des Connaissances (GRACQ). Il perçoit l’intérêt d’un rapprochement des recherches en extraction de terminologie avec celles qui portent sur la construction de systèmes experts, et il m’invite à participer aux deuxièmes journées d’Acquisition des Connaissances, en avril 1992 à Dourdan. Je lui suis d’autant plus redevable que sa suggestion est intervenue au moment où des problèmes de relation entre services au sein de la DER rendaient difficile la poursuite du projet de mise à jour du thesaurus EDF. 15 d’entretiens avec les experts sont dignes d’intérêt. Les quelques travaux entrepris en Traitement Automatique des Langues dans cette logique aujourd’hui abandonnée, basés sur l’utopie d’une traduction automatique possible des discours des experts en des règles de systèmes expert, n’avaient en effet produit que peu de résultats intéressants (Bourigault, 1994b, chap. 5). Avec la nouvelle approche des systèmes à base de connaissances, il apparaît que les connaissances à modéliser pour réaliser les artefacts informatiques vont bien au-delà des connaissances verbalisées par les experts. Ces connaissances sont susceptibles d’être exprimées dans de multiples sources textuelles, de types très divers selon les applications : documentations techniques, ouvrages de référence, rapports de projets, comptes rendus d’activité, etc. Dès lors, puisque les termes techniques présents dans ces documents constituent les points d’accès privilégiés aux connaissances qui y sont exprimées, et face à la masse des documents à étudier, la communauté de l’Ingénierie des Connaissances s’est ouverte aux recherches autour de la terminologie et de l’analyse automatique de corpus. C’est précisément pour favoriser la réflexion interdisciplinaire entre la linguistique de corpus, la terminologie, le Traitement Automatique des Langues et l’Ingénierie des Connaissances qu’Anne Condamines, de l’Equipe de Recherche en Syntaxe et Sémantique (ERSS) de Toulouse, et moi créons en 1994 le groupe « Terminologie et Intelligence Artificielle » (TIA). Ce groupe va être le creuset d’une bouillonnante activité de discussion et de réflexion, et constituer un centre d’animation de la recherche particulièrement actif pendant toute la seconde moitié des années 1990. Personnellement, c’est grâce aux échanges et aux collaborations avec les membres de ce groupe de travail que j’ai pu engager une réflexion sérieuse sur les bases théoriques de mon travail, puis élaborer le cadre théorique et méthodologique de mes recherches sur l’utilisation d’outils de TAL pour la modélisation des connaissances à partir de textes. L’une des actions importantes du Groupe TIA aura été de participer à la critique des bases théoriques et épistémologiques de la terminologie classique. Celles-ci étaient déjà remises en cause à cette époque par les tenants de la socioterminologie (Gambier, 1995, Gaudin, 1995). Elle l’étaient aussi par M. Slodzian, qui mettait en évidence que la vision mécaniste du couplage entre le terme et la notion s’était imposée dans le cadre intellectuel de l’universalisme et de l’empirisme logique, que le monde scientifique avait depuis largement remis en cause (Slodzian, 1994). A partir des discussions menées au sein du groupe TIA, je tente de contribuer moi aussi à cet effort de renouvellement des bases théoriques de la terminologie, en apportant le point de vue d’un concepteur de logiciel d’extraction de termes. Je remets en question mes conceptions théoriques initiales, sur les bases d’un constat dressé sur le terrain des différents projets utilisant LEXTER : l’hypothèse de l’existence et de l’unicité d’un réseau notionnel et d’une terminologie pour un domaine donné ne résiste pas à l’évidence de la grande diversité des ressources terminologiques qu’il est possible de concevoir. Cette diversité est elle-même liée à la diversité des applications utilisatrices de telles ressources, qui se multiplient avec le développement des réseaux et de la société de l’information multilingue (thesaurus pour les systèmes d'indexation automatique, index structurés pour les documentations techniques hypertextuelles, ontologies pour les mémoires d'entreprise, pour les systèmes d’aide à la décision ou pour les systèmes d’extraction d’information, etc.). Dans les 16 projets menés en particulier à EDF, l’expérience me montrait que, pour le terminologue face à un candidat terme, la bonne question n’était jamais « Cette unité lexicale réfère-t-elle à un concept du domaine ? », mais plutôt « Est-il utile/pertinent d’intégrer cet élément dans la ressource terminologique en cours de construction, utile/pertinent vis-à-vis de l’application dans laquelle cette ressource sera utilisée ? ». Le cadre théorique de la doctrine terminologique classique, qui contraint à poser le problème de la construction de terminologie comme une activité de découverte des traces linguistiques d’un réseau de concepts préexistants, n’est pas compatible avec la réalité du terrain. Il s’écroule. Le terme n’est pas découvrir, le terme est un élément d’une ressource terminologique à construire en fonction d’une application cible. 1.5. Un outil d’aide à l’analyse sémantique de textes spécialisés A ce moment de ma réflexion, la découverte de la sémantique de F. Rastier fut pour moi une révélation. Je trouve exprimées dans les écrits de F. Rastier (1987, 1991, et al., 1994) des positions qui entrent en résonance avec mes propres constats empiriques. Une sémantique textuelle, qui pose les textes comme objets empiriques de la linguistique, et interprétative, qui place au centre du dispositif théorique les concepts de contexte et d’interprétation, était celle dont j’avais besoin pour m’affranchir du recours infructueux aux propositions théoriques de la doctrine terminologique, ainsi qu’à celles des sémantiques référentielles ou des sémantiques conceptuelles que je connaissais mieux alors. La communication de F. Rastier aux premières journées organisées par le groupe TIA en avril 1995 à Villetaneuse, intitulée « Le terme : entre ontologie et linguistique » (Rastier, 1995), fut pour moi décisive. L’auteur propose d’en finir avec une conception de la terminologie comme discipline qui s’opposerait à la linguistique, ainsi que le revendiquent Wüster et ses disciples, et annonce que maintenir une sécession de la terminologie causerait un préjudice à l'ensemble des sciences du langage : Alors que ses objectifs pratiques relèvent de la linguistique appliquée, les préjugés logico-positivistes de sa doctrine doivent être abandonnés, d'une part parce qu'ils entravent la réalisation même de ses objectifs, d'autre part parce qu'ils donnent du langage une image à la fois simpliste et obsolète, sans permettre de comprendre la richesse et la complexité du fonctionnement effectif des textes de spécialité. (…) En resserrant ses liens avec la linguistique, et notamment la sémantique des textes scientifiques et techniques, la terminologie va devenir mieux à-même de remplir ses multiples missions, en problématisant la recherche et la constitution de ses unités, et en s'adaptant mieux à ses domaines d'action privilégiés : documentation et indexation, aide à la traduction. (op. cit., p. 61-62). 17 Il s’agit de considérer la terminologie comme une branche descriptive et normative de la linguistique appliquée, relevant de la lexicologie et traitant séparément de domaines sémantiques correspondant à diverses disciplines. Il devient alors possible d’utiliser les bases et concepts théoriques de la sémantique lexicale, en s’appuyant en particulier sur le concept de contexte que théorise la sémantique textuelle dont elle procède, pour adopter une vision constructiviste de la terminologie : en terminologie, comme en lexicologie, tout lexique est une reconstruction, qui fait abstraction du contexte et du texte : Un mot-occurrence ne se définit que dans et par un contexte, et reçoit des déterminations du texte. Le placer sous l’autorité d’un type revient à le décontextualiser et le dé-textualiser. (…) les types ne préexistent pas aux occurrences, mais sont reconstruits à partir d’elles. Ainsi tout type résulte d’une décontextualisation (…). Le mot-type est un artefact des linguistes, comme le terme est un artefact de la discipline qui l’instaure. (op. cit., p. 53). Cette position méthodologique rejoint les constats faits sur le terrain. On doit considérer que le travail de construction d’une ressource terminologique relève d’une activité d’interprétation, guidée par l’objectif de l’application. « L’interprétation est elle-même située. Elle prend également place dans une pratique sociale, et obéit aux objectifs définis par cette pratique. Ils définissent à leur tour les éléments retenus comme pertinents » (Rastier et al., 1994, p. 13). Dès lors que la terminologie est intégrée dans le giron de la sémantique textuelle, il devient possible selon F. Rastier de prendre en compte la dimension textuelle dans les études en terminologie, et de coupler ainsi le point de vue paradigmatique, systématiquement privilégié dans l’étude des vocabulaires spécialisés, avec un point de vue syntagmatique qui étudie la constitution des termes, le rapport des termes aux non termes, le rapport du terme au contexte et le rapport du terme au texte. Dans ce contexte, l’auteur affirme que « les outils statistiques, les concordanciers, et les logiciels d’analyse sémantique permettent d’apporter du nouveau, pour peu que les stratégies de recherche tiennent compte de la textualité. » (Rastier, 1995, p. 58-59). Dans un article publié en septembre 1995, dans les actes des 4èmes journées scientifiques du Réseau Lexicologie, Terminologie, Traduction, j’affiche une position sur la terminologie radicalement différente de celle présentée dans ma thèse, où je m’étais docilement rangé derrière les tenants de la doctrine et les grands noms de la discipline. Influencé par F. Rastier, ainsi que par B. Bachimont qui reprend lui aussi à son compte la théorie de F. Rastier dans ses travaux en Ingénierie des Connaissances (Bachimont, 1996), je ne présente plus le terme comme le représentant d’un concept, sa trace linguistique qu’il s’agirait d’aller retrouver dans les textes, mais comme un élément d’une ressource terminologique qu’il s’agit de construire, à partir de l’analyse des textes, pour une application identifiée. Ce revirement méthodologique m’amène à proposer une nouvelle définition de la notion de candidat terme. Dans ma thèse, j’avais justifié cette notion par le fait que, puisque la caractérisation première du terme était sa fonction sémantique de représentation de concept, et puisque le logiciel ne s’appuyait que sur des contraintes d’ordre morphosyntaxique pour extraire des syntagmes nominaux, ceux-ci ne 18 pouvaient être que des « candidats » termes. La tâche du terminologue était de distinguer les termes des non termes parmi les candidats termes. Mais cette dichotomie terme/non terme n’est plus valide dans une approche qui assume le principe d’une dépendance de la tâche de sélection vis-à-vis de l’application. Je justifie alors la notion de candidat terme comme nécessaire pour rendre compatible la variété des ressources terminologiques que l’on peut construire à partir des résultats de LEXTER, avec la contrainte de généricité imposée au logiciel, dans lequel je n’intègre aucune règle de filtrage qui dépendrait du type d’application. La tâche du terminologue est alors de retenir parmi les candidats termes les termes qui sont pertinents vis-à-vis de l’application. Ce changement, qui peut apparaître anodin, est la trace d’un premier pas important vers la redéfinition de la fonction de LEXTER. J’accomplis le second pas dans le même élan inspiré par la théorie de F. Rastier. Dans le cadre de la « terminologie textuelle », promue par le groupe TIA (Bourigault et Slodzian, 1999), le terme est un construit : il est le produit d’un travail d’interprétation mené par l’analyste. Celui-ci construit son corpus d’étude, puis définit sa stratégie de lecture, choisit ses parcours interprétatifs et effectue ses choix de modélisation au niveau local (sélection et description des termes) guidé par la spécification au niveau global de la ressource visée. Avec une telle conception, LEXTER ne doit plus être vu comme un simple pourvoyeur d’étiquettes de concepts, mais comme un outil d’aide à l’analyse sémantique de textes spécialisés dédié à la tâche de construction de ressources terminologiques. Le réseau terminologique construit en connectant chaque candidat terme complexe à sa tête (lien T) et à son expansion (lien E) est directement implémenté dans l’interface de consultation des résultats de LEXTER, dite « Hypertexte Terminologique LEXTER » (HTL) dans laquelle les liens T et E deviennent des liens de navigation10. Il est possible pour un mot donné de visualiser d’un coup d’oeil la liste de ses descendants en Tête et de ses descendants en Expansion, et de se transporter rapidement à l’un de ceux-ci. Chaque candidat terme peut être ainsi saisi et interprété au sein d’une série paradigmatique de candidats termes partageant la même tête ou la même expansion. Cette fonctionnalité s’avère particulièrement intéressante dans la perspective de modélisation des connaissances. L’interface HTL permet une navigation hypertextuelle au sein du réseau terminologique, ainsi qu’entre le réseau de candidats termes et les textes, en donnant accès pour un candidat donné à tous ses contextes d’occurrence. Elle invite l’analyste à adopter un mode de lecture non séquentiel du corpus, que l’on peut qualifier de paradigmatique. L’action du logiciel peut ainsi être vue comme l’enchaînement d’une étape de dé-contextualisation et d’une étape de re-contextualisation : les candidats termes sont extraits de leurs contextes d’occurrence, puis plongés dans leurs contextes paradigmatiques, reconstitués par l’analyse. Cette double opération n’est pas irréversible, puisque l’analyste a toujours accès au corpus et aux contextes d’occurrence des candidats termes. Le réseau 10Dès le début de mon travail à EDF, alors même que le logiciel était encore dans les limbes, j’avais réfléchi à la conception d’une interface hypertextuelle qui valoriserait les résultats extraits par le logiciel dans une station de travail pour terminologue, de façon à pouvoir le (faire) tester dans des applications réelles. J’ai eu alors la chance de travailler avec Jean-Louis Vuldy, de la DER, qui a développé avec le logiciel Hypercard une magnifique interface hypertextuelle. 19 terminologique navigable construit par LEXTER propose à l’analyste « une image réorganisée du texte »11. 1.6. Un outil d’identification de contextes syntaxiques pour l’analyse distributionnelle Le renouvellement des conceptions théoriques et le développement des applications en terminologie ouvrent en France au milieu des années 1990 un nouveau paradigme de recherche en TAL sur les outils d’aide à l’analyse sémantique de textes spécialisés (Bourigault et Jacquemin, 2000) (Jacquemin et Bourigault, 2003). Les recherches portent sur les techniques de TAL pour extraire des textes des informations (termes, relations, classes, etc.) utiles pour la construction de ressources lexicales spécialisées. On parle alors d’outils d’aide, non pas parce que ces outils sont imparfaits et nécessitent une intervention humaine pour corriger les erreurs, mais parce que l’analyse des résultats qu’ils fournissent est une tâche d’interprétation qui ne peut être menée à bien que par un analyste humain muni d’un objectif. Dans ce contexte, l’extraction de candidats termes n’est qu’une des applications du TAL utiles à la modélisation des connaissances. Toute méthode permettant de classer, structurer, mettre en relation, filtrer une liste de candidats termes extraits est la bienvenue. C’est ainsi que l’observation des réseaux terminologiques construits par LEXTER me suggère l’idée d’utiliser ce réseau aussi comme input pour des calculs statistiques permettant de caractériser les candidats termes en fonction de la cartographie du réseau local qui les entoure (Bourigault, 1994a)12. L’idée de proposer une décomposition syntaxique binaire récursive en Tête et Expansion des syntagmes nominaux s’est imposée initialement pour structurer la liste des candidats termes extraits et pour permettre une meilleure navigation dans l’interface HTL (le long des liens Tête et Expansion13). Ce n’est que dans un second temps qu’il m’est apparu que le réseau terminologique pouvait constituer un résultat intermédiaire exploitable pour de nouveaux calculs. Les réseaux terminologiques construits à partir de corpus spécialisés de grande taille possèdent la caractéristique particulièrement intéressante d’avoir une densité absolument non uniforme. Un petit nombre de noeuds attracteurs concentrent l’essentiel 11 Expression utilisée par (Habert & Nazarenko, 1996) à propos des réseaux distributionnels construits par leur outil ZELLIG. 12 Avec cet article, je reçois le prix « jeune chercheur » lors de la conférence Reconnaissance des Formes et Intelligence Artificielle (RFIA 1994), à 37 ans… 13 En fait, j’ai distingué deux types de décomposition en Tête et Expansion, selon le type du connecteur prépositionnel entre la tête et l’expansion. Dans les cas où la tête et l’expansion sont connectées par une séquence de+le (du, de la, des), les positions Tête et Expansion sont notées T’ et E’. Dans tous les autres cas, elles sont notées T et E. Cette distinction est issue du constat suivant : la préposition de est une préposition vide, qui constitue un bon indice de comportement dénominatif quand elle est attestée sans déterminant défini ; en revanche, le déterminant le a de façon très largement majoritaire en corpus une valeur anaphorique ou cataphorique, qui rend les séquences de+le plus souvent non interprétables hors contexte. 20 des liens14. Surtout, les noeuds présentent des profils de répartition des liens entrants T, E, T’, E’ très dissemblables. J’analyse ces profils à partir de la notion de productivité. La productivité en T d’un noeud est le nombre de lien T qui pointent vers ce noeud, c’est-àdire le nombre de termes qui ont le terme pivot en position T, de même pour la productivité en E, en T’ et en E’. Un simple calcul sur les profils de répartition des productivités permet d’isoler certains noms du corpus qui ont un comportement marqué : par exemple, les noms qui sont proportionnellement beaucoup plus productifs en position T’ (tête de syntagme ayant comme connecteur de+le) que dans les autres positions désignent très probablement des actions importantes dans le domaine. Dans (Bourigault, 1994a), je formule ainsi 4 propositions d’interprétation, qui seront affinées dans (Assadi et Bourigault, 1996). Le résultat produit par LEXTER n’est plus uniquement un ensemble d’étiquettes de termes. Le réseau terminologique que permet de construire l’analyse syntaxique binaire en tête et expansion des candidats termes complexes devient une ressource intermédiaire pour des traitements ultérieurs dont les résultats servent eux aussi à l’aide à la modélisation des connaissances à partir de textes. Ce filon est exploité avec beaucoup d’énergie, avec l’arrivée dans le groupe SOAD d’H. Assadi, qui entame une thèse dans le domaine de la modélisation des connaissances à partir de textes. Dès les premières expériences de modélisation, menées dans le domaine de la planification de réseaux électriques, H. Assadi constate que les adjectifs extraits par LEXTER sont bien plus difficiles à valider que les groupes nominaux pour le cogniticien. Par exemple, celui-ci n’éprouve pas de difficulté particulière à valider des candidats termes tels que réseau, poste, hypothèse de consommation, alors que les candidats termes adjectivaux comme national, admissible ou fort lui posent plus de problèmes. Mais l’observation de l’ensemble des termes complexes {hydraulicité forte, puissance forte, section forte} par opposition à l’ensemble {hydraulicité faible, puissance faible, section faible} révèle quasiment immédiatement que les adjectifs faible et fort désignent des valeurs possibles d’attributs. Dans une tâche de modélisation des connaissances, l’accès à un tel rapprochement est primordial, puisque identifier les attributs et leurs domaines de variation est une condition essentielle pour la construction de taxinomies formalisables. Nous avons donc l’idée de travailler sur des méthodes automatiques de classification d’adjectifs apparaissant dans les mêmes contextes syntaxiques, c’est-à-dire modifieurs des mêmes noms ou syntagmes nominaux. La méthode que nous testons d’abord, et dont nous publions les premiers résultats lors des 3èmes Journées d’Analyse de Données Textuelles en décembre 1995 (Assadi et Bourigault, 1995), consiste à construire un tableau de présence/absence, dont chaque ligne correspond à un adjectif et chaque colonne à un nom, puis à calculer à partir de ce tableau une matrice de similarité entre les individus à classer, et enfin à lancer sur cette matrice une procédure de classification hiérarchique ascendante. Les classes d’adjectifs sont obtenues en coupant à un niveau donné l’arbre représentant la hiérarchie des classes. Pour chaque classe d’adjectif, on construit le contexte de la classe, c’est-à-dire l’ensemble des noms ou syntagmes nominaux ayant au moins l’un des adjectifs de la 14 Les réseaux terminolgiques ont les propriétés des graphes de petits mondes, qui ont été bien explorées justement depuis cette époque. 21 classe en expansion. Par exemple, le contexte de la classes d’adjectifs {primaire, secondaire} est l’ensemble des termes {circuit, enroulement, intensité nominale, réglage, tension nominale}. Ce type de résultats nous apparaît être une amorce fort utile pour la modélisation. Sans le savoir à l’époque, nous mettions nos pieds dans les traces de Zellig S. Harris15. Parallèlement à ces recherches, B. Habert « recycle » (selon une de ses expressions favorites) les résultats de LEXTER pour entreprendre toute une série d’études ayant comme objet le fonctionnement en corpus des dénominations complexes (Habert, 1998)16. Son projet était relativement éloigné du contexte applicatif dans lequel je développais LEXTER. Suite à des discussions avec C. Jacquemin sur la variation terminologique, il a l’idée de « déconstruire » (selon une autre de ses expressions favorites) les arbres d’analyse en Tête et Expansion produits par LEXTER pour en restituer les dépendances élémentaires fondamentales sous-jacentes. Dans un article publié en 1995 dans les Cahiers de Grammaire (Habert et al., 1995), B. Habert et ses collègues, s’inscrivent résolument dans l’horizon théorique de l’approche harrissienne d’analyse des sous langages et présentent les premiers résultats d’une exploitation des arbres de dépendances élémentaires extraits des arbres d’analyse de LEXTER pour classer les mots en fonction de leur contextes syntaxiques. Puis, B. Habert et A. Nazarenko développent ZELLIG, une chaîne de recyclage des résultats d’analyseurs syntaxiques robustes destinée à une analyse distributionnelle de contextes rendus élémentaires (Habert et Nazarenko, 1996). Avec ZELLIG, ils mènent des études sur la délimitation de classes sémantiques dans des corpus spécialisés (Habert et al., 1995 ; Bouaud et al., 1995). La représentation logique des arbres permet à B Habert et H. Folch de développer des méthodes efficaces pour analyser les régularités de fonctionnement des mots et mettre en évidence les opérateurs et opérandes caractéristiques d’un domaine donné (Folch et Habert, 1998) (Habert et Folch, 1998). Ils le font de façon beaucoup plus précise et plus systématique que mes propres tentatives d’analyse du réseau terminologique évoquées au début de cette section. B. Habert a donc procédé à un « détournement » de LEXTER en exploitant ses résultats dans une perspective de recherche différente de celle dans laquelle le logiciel a été conçu. Ce décalage dans les objectifs a révélé des limites importantes de LEXTER vis-à-vis d’une exploitation pour l’analyse distributionnelle : restriction aux syntagmes nominaux (pas d’analyse autour du verbe) ; parmi les syntagmes nominaux, restriction aux groupes « d’allure dénominative » (exclusion de certains déterminants, de certaines modifications adjectivales). Ces limitations sont apparues d’autant plus pénalisantes quand B. Habert et C. Fabre ont appliqué la méthode ZELLIG à des corpus plus proches 15 Cf. cette gentille pique adressée par B. Habert et A Nazarenko, faisant référence aux travaux du type des nôtres qui commençaient à se développer au milieu des années 90 : « explicitement, ou, plus souvent, implicitement [c’est moi qui souligne], ces recherches s’inscrivent dans la conception "distributionnaliste" de la sémantique défendue et mise en oeuvre par ZELLIG Harris : le sens des mots se déduit des constructions dans lesquelles ils figurent » (Habert & Nazarenko, 1996). 16 Quand B. Habert me demande des sorties de Lexter, je n’imagine pas à quel point l’utilisation qu’il va en faire aura une grande influence sur la suite de mes recherches. 22 de la langue générale, en comparant les regroupements effectués à partir d’un corpus médical de comptes rendus d’hospitalisation (corpus Menelas) et à partir d’un corpus politique constitué des interventions radiotélévisées de F. Mitterrand pendant son premier septennat (corpus Mitterrand1) : Le groupe nominal semble un moins bon observatoire des fonctionnements sémantiques pour Mitterrand1 que pour Menelas. (…) Dans une phase ultérieure, il s’agira donc d’affranchir ZELLIG de la contrainte consistant à intervenir en aval d’analyseurs spécialisés dans l’analyse des groupes nominaux. (Fabre et al., 1997, p. 29) 1.7. Bilan : LEXTER a servi, vive SYNTEX Ce retour en arrière sur la période 1990–1999 a montré les deux phases distinctes de la vie du logiciel LEXTER : une phase de développement (1990–1994), une phase d’utilisation (1994–1999). Pendant les 4 premières années de ma recherche, j’ai travaillé de façon appliquée et consciencieuse à la réalisation d’un outil d’extraction d’étiquettes de concepts pour l’enrichissement de thesaurus. A partir de l’objectif fixé, des contraintes de résultats imposées et des ressources à ma disposition, j’ai concentré mes efforts sur les développements informatiques dans une démarche très pragmatique, plus motivé par l’action que par la spéculation gratuite, et soucieux de mener à bien une recherche utile. L’esprit concentré sur cet horizon, j’ai mené une recherche plutôt isolée sur le plan scientifique, indépendamment de tout courant, toute école ou toute communauté de la recherche universitaire. La situation fut toute autre durant la seconde phase du cycle de vie du logiciel (1994-1999). J’ai cherché activement, au sein et à l’extérieur d’EDF, à monter des projets de recherche et développement utilisant le logiciel LEXTER. La confrontation du logiciel à la réalité des usages fut pleine d’enseignements, pas tant sur les techniques d’extraction implémentées dans le logiciel, que sur son mode d’utilisation. Dans une perspective d’ingénierie linguistique, il ne suffit pas de fabriquer un prototype, il faut aussi réfléchir à la façon dont il peut être utilisé. Grâce à la réflexion menée au sein du groupe TIA, j’ai pu m’appuyer sur les constats empiriques effectués sur le terrain, pour élaborer progressivement un cadre méthodologique pour l’utilisation d’outils de TAL en acquisition des connaissances à partir de textes. Au-delà de l’utilisation « normale » de LEXTER comme extracteur de candidats termes, j’ai eu la chance que certains collègues aient cherché à profiter de la disponibilité des résultats de LEXTER pour les exploiter pour leurs besoins propres. J’ai cité H. Assadi, qui a réalisé au cours de sa thèse l’outil LEXICLASS (Assadi, 1998), et B. Habert, avec les chercheurs qu’il a su mobiliser autour du projet ZELLIG. Les uns et les autres ont utilisé les analyses produites par LEXTER comme entrée pour leurs outils d’analyse distributionnelle. Je dois mentionner aussi les travaux de D. Garcia qui a cherché à 23 intégrer les résultats de LEXTER dans son système COATIS de repérage des relations de causalité dans les textes (Garcia, 1998), ainsi que ceux de N. Aussenac-Gilles et P. Séguela qui ont fait de même avec l’outil CAMELEON d’extraction de relations sémantiques à partir de marqueurs lexico-syntaxiques (Séguela et Aussenac-Gilles, 1999). Grâce à ces utilisations détournées, qui ont poussé LEXTER dans certains de ses retranchements, j’ai pu mesurer à quel point la fonction d’extraction de termes étaient inscrite « en dur » dans le logiciel lui-même. Ce constat m’a convaincu de la nécessité de disposer d’un analyseur syntaxique à plus large couverture, plus neutre quant à ses exploitations possibles, pour une utilité sociale plus grande. Alors, fallait-il consacrer d’abord tant de temps à un développement poussé du logiciel avant de réfléchir sérieusement et concrètement à son utilisation ? Oui. C’est parce que LEXTER était dans un état de maturité suffisamment avancé, en terme de robustesse, de couverture et d’efficacité, qu’il a pu être testé dans des contextes d’utilisation variés, et ce sont les retours d’expérience générés par les différents projets d’utilisation de LEXTER qui ont orienté ma recherche pour les années 1999–2005. A l’automne 1999, quelques mois après mon arrivée à l’ERSS, C. Fabre et moi nous mettons au travail pour réaliser un nouvel analyseur syntaxique. Notre premier souci à cette époque est de travailler sur l’extraction de syntagmes verbaux, pour alimenter les outils d’analyse distributionnelle, qui ne pouvaient se satisfaire de contextes uniquement nominaux. Par ailleurs, les retours d’expérience des projets de modélisation des connaissances à partir de textes, ainsi que les travaux de M.-C. L’Homme sur les combinaisons lexicales spécialisées (L’Homme, 1998) et ceux de C. Jacquemin sur la variation terminologique (Jacquemin, 1997 ; Bourigault et Jacquemin, 1999), m’avaient convaincu que, même pour des applications d’extraction de terminologie, il fallait des outils capables d’extraire des syntagmes verbaux. Sur le plan informatique, nous repartons de zéro, mais nous reprenons de l’expérience LEXTER un certain nombre de choix méthodologiques (dont chacun sera rediscuté dans la suite de ce mémoire) : - Les contraintes de robustesse et d’efficacité s’imposent, puisqu’il s’agit de réaliser un analyseur devant traiter des corpus réels de taille importante. - L’entrée de l’analyseur est un corpus préalablement étiqueté17. - L’analyseur n’exploite pas de grammaire formalisée, il est constitué d’heuristiques18. - La méthodologie de développement est expérimentale, basée sur des tests nombreux sur corpus. 17 Nous utilisons alors le logiciel Cordial Analyseur développé par D. Laurent de la société Synapse Développement. 18 Ces heuristiques sont programmées dans le langage Perl. 24 - Au départ du projet, l’analyseur n’exploite pas de lexique général de souscatégorisation, il est doté d’heuristiques d’apprentissage pour acquérir des informations de sous-catégorisation à partir du corpus en cours de traitement. Par rapport à LEXTER, où l’analyse était directement dédiée à l’extraction de syntagmes nominaux, nous choisissons d’externaliser la tâche d’extraction de syntagmes en aval de l’analyse syntaxique : l’extraction de syntagmes (verbaux, nominaux, adjectivaux) et la construction du réseau terminologique se fait à l’issue de l’analyse syntaxique en dépendance de l’ensemble des phrases du corpus. Nous décidons de nous attaquer en premier lieu au problème de la résolution des ambiguïtés de rattachement prépositionnel. Nous formalisons ce problème de la façon suivante : 1) étant donnée une préposition dans une phrase, identifier à gauche de la préposition, dans la chaîne étiquetée, les différents mots susceptibles de la régir ; 2) à partir d’informations de sous-catégorisation acquises sur le corpus, sélectionner le meilleur recteur parmi les candidats. Subrepticement, et de façon très naturelle, nous avons adopté le principe d’une analyse en dépendance. Ce passage en douceur d’une analyse en constituant à une analyse en dépendance est, sur le plan conceptuel, au-delà de l’extension de la couverture de l’analyseur, la principale rupture entre LEXTER et SYNTEX. 25 Chapitre 2 Etat de l’art en analyse syntaxique robuste 2.1. L’analyse syntaxique automatique au sein du TAL Au coeur du domaine du Traitement Automatique des Langues, le champ de recherche sur l’analyse syntaxique automatique peut être en première approximation décrit comme partagé entre deux pôles : le paradigme des grammaires formelles d’unification, et le paradigme des analyseurs syntaxiques robustes. A l’origine du premier paradigme, on trouve la publication des travaux fondateurs de N. Chomsky en 1957. Chomsky introduit la théorie des langages formels et définit une hiérarchie de classes de grammaires et de langages devenues depuis classique, en informatique et en linguistique. Il propose le modèle transformationnel comme alternative aux grammaires régulières et aux grammaires non contextuelles jugées insuffisantes pour décrire la syntaxe des langues naturelles. C’est le début de la tradition formelle, qui va développer une réflexion très riche et d’une importance considérable sur la nature des formalismes nécessaires pour décrire les langues. Les hypothèses adoptées sont d’abord que la syntaxe des langues est descriptible avec des modèles formels de type génératif, et ensuite qu’on peut réaliser des analyseurs à partir de ces modèles, en posant le problème de l’analyse syntaxique comme un problème de compilation. Depuis les débuts des années 1990, le terme de robustesse est régulièrement invoqué pour qualifier des travaux en analyse syntaxique automatique qui visent la réalisation de systèmes capables fournir, dans des temps raisonnables, une analyse syntaxique suffisamment complète et juste pour toute séquence donnée en entrée. C’est dans ce nouveau paradigme que se situent mes recherches autour de l’analyseur SYNTEX. Le terme « paradigme » en l’occurrence serait plutôt flatteur. Contrairement au courant des grammaires formelles, qui est structuré et cohérent, avec des hypothèses fondatrices partagées, des théories élaborées, des conférences et des leaders, les travaux en analyse syntaxique robuste sont eux beaucoup plus dispersés. Le terme « nouveau » est lui aussi usurpé. En effet, comme je le montre dans la section suivante, où je présente un rapide panorama historique des recherches en TAL, les recherches de ce domaine ont toujours 26 été partagées entre deux pôles, théorique et appliqué, dont l’opposition entre paradigme formel et paradigme de la robustesse est une instanciation dans le sous-domaine de l’analyse syntaxique automatique. Les chercheurs francophones ont adopté au début des années 1990 le terme de « Traitement Automatique des Langues » pour désigner leur société savante (Association pour le Traitement Automatique des Langues), leur revue (Revue Traitement Automatique des Langues) et, avec un qualificatif accolé, leur conférence annuelle (Traitement Automatique des Langues Naturelles). Cette belle cohérence dans les termes n’est qu’apparente et ne reflète pas la multiplicité des désignations qui ont vu le jour depuis la fin des années 1980. Dans leur étude très documentée et très utile sur les dénominations utilisées depuis l’origine pour nommer ce champ disciplinaire, Cori et Léon (2002) notent : D’innombrables termes fleurissent pour désigner le domaine au début des années 1990 : Industries de la langue, Ingénierie linguistique, Natural Language Engineering, Technologies de la langue, etc. Il n’est toutefois pas certain que cette inflation de termes et cette frénésie de la dénomination parviennent à masquer l’inanité d’une impossible quête, celle de définir un champ unifié qui, tout en englobant les applications industrielles, soit scientifiquement fondé. (Cori et Léon, 2002, p. 43) Ces mêmes auteurs expliquent comment le domaine du TAL se constitue et se remodèle depuis ses origines dans une tension permanente entre des forces antagonistes, qui s’organisent selon deux lignes d’opposition : - la première concerne l’objectif des recherches. Elle oppose les travaux théoriques et les applications à visée industrielle. D’un côté des chercheurs, de l’autre des ingénieurs. - une seconde concerne les disciplines impliquées. Elle oppose à l’origine la linguistique et l’informatique, plus tard rejointes par les mathématiques, l’intelligence artificielle et les statistiques. La première ligne de tension s’est dessinée dès les débuts du domaine. Dans son rapport de 1951, qui constitue le premier état de l’art sur le domaine de la traduction automatique (Bar-Hillel, 1951),Yehoshua Bar-Hillel mentionne déjà que le problème de l’utilisation des calculateurs pour la traduction peut être intéressant soit d’un point de vue théorique, en favorisant de recherches sur le fonctionnement du langage, soit d’un point de vue pratique, en particulier pour résoudre les problèmes de la traduction des publications scientifiques étrangères (op. cit., p. 229). Dans son état de l’art sur la traduction automatique (TA) publié en 1986, John Hutchins affirme que cette distinction de points de vue est le point qui fait le plus débat au sein de la communauté de chercheurs en qui se constitue dans les années 1950 et 1960. Il décrit comment, jusqu’au milieu des années 1960, le débat entre les « pragmatiques » et les « perfectionnistes » est vif. Les premiers pensent qu’il est important de développer aussi vite que possible des systèmes opérationnels en arguant que les systèmes de traduction mot à mot donnent des 27 résultats finalement prometteurs, et qu’ils constituent une base de départ qui pourra évoluer grâce aux améliorations techniques des ordinateurs et à la mise au point de nouveaux algorithmes. Les seconds refusent cette précipitation, affichent l’objectif de réaliser des systèmes de haute qualité et affirment la nécessité de recherches fondamentales préalables en linguistique. L’existence d’une tension entre recherches théoriques et applications pratiques est un fait constant dans la jeune histoire du TAL. Avant un état de l’art sur l’analyse syntaxique robuste (section 2.3), la première partie de ce chapitre (section 2.2) est consacrée à un panorama historique des travaux dans le domaine du TAL. Celui-ci montre que les deux pôles ont alternativement mobilisé le devant de la scène. A cause de cet opposition, et parce que le domaine est encore jeune, il est difficile de dresser un état des lieux consensuel et définitif des évolutions du domaine. Le recul manque. Mais il peut y avoir consensus sur l’identification de moments charnières et d’évolutions majeures. Pour la trame de cette description, je me suis appuyé, entre autres, sur trois sources principales : - l’ouvrage de John Hutchins, publié en 1986, « Machine translation : past, present, future » (Hutchins, 1986). - l’article de Marcel Cori et Jacqueline Léon intitulé « La constitution du TAL, étude théorique des dénominations et des concepts », publié dans un numéro de la revue TAL sur le thème des problèmes épistémologiques (Cori et Léon, 2002). - l’article de Yorrik Wilks « Computational Linguistics » de la seconde édition de l’Encyclopedia of languages and linguistics (Wilks, 2006). Cette première partie est organisée en 4 sections : - Les débuts de la traduction automatique (section 2.2.1) - L’avènement de la « computational linguistics » (section 2.2.2) - Le « tournant déclaratif » et les grammaires d’unification (section 2.2.3) - Le « Natural Language Processing » (section 2.2.4) 2.2. Panorama historique du Traitement Automatique des Langues 2.2.1. Les débuts de la traduction automatique On s’accorde pour identifier comme événement déclencheur des recherches en Traitement Automatique des Langues la diffusion en 1949 du mémorandum de Weaver (1949), qui lancera les recherches en traduction automatique (désormais TA). Warren Weaver est directeur de la division Natural Sciences à la fondation Rockfeller quand il rédige, en juillet 1949, le mémorandum dans lequel il expose ses idées sur la possible utilisation des calculateurs qui viennent d’être inventés pour traduire des documents 28 d’une langue vers une autre. Il envoie ce mémorandum à une trentaine de ses connaissances. Le mémorandum est diversement reçu, mais il constitue le point de départ des recherches dans le domaine nouveau de la traduction automatique. Selon Hutchins (1999), l’un des résultats immédiats les plus significatifs du mémorandum est la décision du Massachusetts Insitute of Technology (MIT) de recruter comme chercheur sur le thème de la Traduction Automatique, en mai 1951, le logicien de l’Université Hébraïque de Jérusalem Yehoshua Bar-Hillel. Bar-Hillel publie le premier état de l’art sur le domaine de la TA à la fin de l’année 1951 (Bar-Hillel, 1951). Le rapport de Bar-Hillel est fondamental. Tout y est dit. Rien dans les évolutions futures du domaine ne viendra contredire les propositions de Bar-Hillel, concernant, d’une part, l’architecture des traitements et l’importance de l’analyse syntaxique et, d’autre part, les rapports entre théories et applications. Bar-Hillel affirme d’emblée qu’à cause des ambiguïtés sémantiques la traduction entièrement automatique de haute qualité (fully automatic high quality translation, FAHQT) n’est pas accessible, et il s’interroge sur les différents modes de collaboration possibles entre la machine et un ou plusieurs opérateurs humains, en développant les idées de pré- et post-édition. Par ailleurs, il met en évidence la nécessité d’une analyse syntaxique pour l’élimination des ambiguïtés grammaticales et le réarrangement de l’ordre des mots. Il propose que ce processus d’analyse se réalise selon les étapes suivantes : 1. Mechanical analysis of each word in the Source Language into the stem (lexical unit) and morphological category. (…) 2. Mechanical identification of small syntactical units within the given sentence on the basis of the morphological categories to which its words belong and, for most languages, their order. 3. Transformation of the given sentence into another that is logically equivalent to it, and rearrangement of the parts of the transformed sentence in accordance with some standard order of the Target Language. (Bar-Hillel, 1951, p. 232) Cette architecture sera en effet adoptée par tous les systèmes opérationnels de TA de première génération. C’est à propos de la deuxième tâche qu’il évoque l’idée essentielle d’une syntaxe opérationnelle (operational syntax). Pour Bar-Hillel, une syntaxe opérationnelle d’une langue, c’est un système unique constitué d’une séquence d’instructions qui opèrent sur la suite des mots d’une phrase munis de leur catégorie morphologique et qui identifie les unités syntaxiques selon lesquelles la phrase doit être décomposée. Cette décomposition est nécessaire pour préparer la transformation structurelle conduisant à la production de la phrase traduite. Dans son rapport, il se contente d’affirmer la nécessité d’un tel programme. Mais il soutient que, malgré la masse des connaissances qu’ils ont accumulées, tout reste à faire de la part des linguistes pour mener à bien ce projet. Selon lui, même la description la plus complète des catégories syntaxiques d’une langue donnée, selon les normes et principes communément adoptés par les linguistes, n’est pas adéquate pour la réalisation d’un programme de reconnaissance effective de la structure syntaxique des phrases de la 29 langue en question. Bar-Hillel émet le voeu que les linguistes saisissent l’importance et la nécessité de produire des descriptions et théories spécifiques pour la réalisation de ce nouveau programme. Lui-même proposera une définition opérationnelle des catégories syntaxiques, qu’il développera dans le cadre de la grammaire catégorielle (Bar-Hillel, 1953). A la lumière des évolutions ultérieures des domaines de la TA et du TAL, on peut relever deux questions fondamentales évoquées par Bar-Hillel dans ce rapport : - Quelles connaissances issues de la linguistique sont utiles pour le projet de la TA ? - Le projet de la TA peut-il ou doit-il être le lieu d’une recherche théorique sur le langage ou les langues, ou bien seule une approche pragmatique peut-elle conduire à des résultats ? Ces deux questions sont corrélées. On vient de le voir, la position de Bar-Hillel sur le premier point est radicale. Les connaissances accumulées à ce jour ne sont pas adéquates pour le projet de la TA. Cette position est généralement celle des pionniers de la TA. Sur le second point, il apparaît à la lecture de l’article que, même si Bar-Hillel s’interroge sérieusement sur les problèmes pratiques et les solutions techniques de la TA, son regard est d’abord celui d’un théoricien qui voit dans les recherches menées autour du problème de la TA un enjeu théorique fort, ou au moins la possibilité d’un questionnement théorique renouvelé. Il débute son article en présentant le projet de la TA comme l’instanciation d’une situation classique où l’introduction d’un nouvel outil vient renouveler une recherche théorique en suggérant des solutions techniques inédites à des problèmes anciens. La linguistique est concernée. Après avoir fait état de certaines des étapes qui ont été franchies vers l’objectif finalisé de la traduction automatique, Bar- Hillel relève : Interest in mechanical translation (MT) may arise through sheer intellectual curiosity concerning a problem whose solution, perhaps even attempted solutions, will in all probability provide valuable insights into the functioning of linguistic communication. Interest may also arise from many practical standpoints. One of these is the urgency of having foreign language publications, mainly in the fields of science, finance, and diplomacy, translated with high accuracy and reasonable speed. (Bar-Hillel, 1951, p. 229) Cette distinction de points de vue, pragmatique et théorique, clairement visible dans la position de Bar-Hillel, est, selon Hutchins (1986), le point essentiel sur lequel se cristallisent les oppositions au sein de la communauté de chercheurs qui se constitue dans les premières années de la TA. For this period (in the 1950’s and 1960’s), the most important distinctions (for MT researchers) were between the ‘engineering’ and the ‘perfectionist’ approaches, between the empiricist and other methodologies, and between the syntax orientation and various lexical and word-centred approaches. 30 (Hutchins, 1986, section 3.10) Pour illustrer les recherches menées dans les années 1950 et 1960, j’ai choisi deux équipes de chercheurs parmi les pionniers de cette grande époque, représentant chacune un des deux courants (Hutchins, 1986, sections 4.2 et 4.3). Comme représentants du courant pragmatique, je présente les chercheurs de l’université de Georgetown, parce qu’ils ont été les tenants les plus actifs de cette approche et parce que leurs recherches, entamées dès 1952, ont conduit au système SYSTRAN, très largement utilisé de nos jours19. Comme représentant du courant perfectionniste, je présente l’équipe de recherche sur la TA au Massachusetts Institute of Technology, parce qu’elle a placé d’emblée le transfert syntaxique au centre de son modèle de traduction automatique, et parce qu’elle a développé très tôt l’idée de la déclarativité. A l’université de Georgetown, les recherches sur la TA ont été lancées par Leon Dostert en juin 1952 et développées en collaboration avec IBM. En janvier 1954, une première démonstration d’une maquette expérimentale donne des résultats suffisamment impressionnants à l’époque pour que la National Science Fundation décide de subventionner de façon massive les recherches sur la TA à Georgetown. Une vingtaine de chercheurs sont recrutés sur le projet. Une équipe menée par Michael Zarenach développe une méthode dite « General Analysis Technique », rebaptisée ensuite « Georgetown Automatic Translation » (GAT). Cette méthode est implémentée dans un système de traduction Russe-Anglais (SERNA system) par Peter Toma en 1959, système qui est installé à EURATOM à Ispra en Italie en 1963, et au Laboratoire National d’Oak Ridge en 1964. Pour des raisons mal connues (on évoque des conflits entre linguistes et programmeurs), les subventions s’arrêtent et les recherches sur la TA à Georgetown s’interrompent. Ces deux systèmes seront utilisés, à la satisfaction des utilisateurs selon plusieurs enquêtes réalisées sur le terrain, jusqu’à leur remplacement par SYSTRAN, à Ispra en 1970 et à Oak Ridge en 1980. Le système GAT était présenté par les auteurs comme constitué de plusieurs « niveaux », ou de plusieurs « passes » : (1) consultation du dictionnaire, analyse morphémique et résolution des homographes, (2) analyse syntagmatique pour le repérage de combinaisons de mots basée sur les relations d’accord, de gouvernance et d’apposition, (3) analyse syntaxique pour le repérage des relations sujet/prédicat. Dans les faits, l’analyse effectivement réalisée était très rudimentaire (Hutchins, 1986, section 4.2). Elle était chargée de lever les ambiguïtés morphologiques par l’examen des catégories des mots précédent et suivant. La méthode de développement adoptée par les concepteurs du système était entièrement « guidée par les textes », selon un mode par essai/erreur. Les programmes étaient testés sur un corpus particulier, étendus ou corrigés en fonction des résultats, puis testés sur un autre corpus, et ainsi de suite. Selon (Kay, 1973), cité par (Hutchins, 1986), le résultat fut une grammaire « monolithique » de taille et de complexité monstrueuse, développée sans conception claire de ce que devait être une règle grammaticale et une structure syntaxique, dans laquelle les phases d’analyse de la phrase source et de transfert vers la langue cible étaient intriquées, rendant les évolutions 19 www.systran.fr 31 et améliorations de plus en plus difficiles à introduire. Ce constat établi par Kay en particulier constitua une leçon pour les développements futurs, pour lesquels les notions d’architecture et de modularité furent mises en avant. C’est ainsi que, à partir de 1964, Peter Toma a continué ses recherches et a développé le système SYSTRAN, dans lequel la complexité monolithique du système sera réduite grâce à la modularisation du système : In many respects, Systran may be regarded as essentially a greatly improved descendant of the Georgetown ‘direct translation’ system. Linguistically there is little advance, but computationally the improvements are considerable, resulting in the main from the ‘modularity’ of its programming design. (Hutchins, 1986, section 12.1) Au Massachusetts Institute of Technology, après le départ de Y. Bar-Hillel à Jérusalem en juillet 1953, c’est Victor H. Yngve qui prend la direction du projet de recherche sur la traduction automatique au MIT. D’emblée, il se donne comme objectif la traduction automatique de haute qualité, et donne une orientation très théorique aux recherches. L’effort porte sur des recherches fondamentales en linguistique, en particulier autour des grammaires transformationnelles, à partir des travaux de Chomsky, et sur le développement d’outils de programmation dédiés au développement en TA. Yngve développe COMIT, le premier langage de programmation dédié à la manipulation et au filtrage de chaînes de caractères. Selon Yngve, COMIT peut être appris assez rapidement par les linguistes et doit leur permettre de formuler leurs idées de façon claire et concise. Ceci doit mettre fin à situation dans laquelle les linguistes sont contraints de confier la tâche de programmer leurs algorithmes à des informaticiens spécialistes de l’assembleur, ce qui est très peu efficace sur le plan des résultats et très frustrant pour les deux parties. Yngve insiste sur le principe de la séparation nette entre, d’une part, les règles et connaissances linguistiques et, d’autre part, les algorithmes et programmes. Les règles et connaissances abstraites sur les structures linguistiques des langues doivent être séparées des choix de programmation particuliers adoptés dans un système de traduction particulier donné. On l’a vu ce principe n’a pas été adopté dans le système GAT où des règles d’analyse et de transfert étaient codées dans le coeur même du lexique. Matthews et Rodovin conçoivent, et développent dans le langage COMIT, une méthode d’analyse syntaxique qui identifie les constituants syntaxiques d’une phrase en entrée en cherchant à découvrir l’enchaînement des règles de grammaires qui ont dû être appliquées pour produire cette phrase, dans le sens des règles génératives de Chomsky. Matthews (1962) formule de façon plus explicite ce principe d’analyse par synthèse (« analysis by synthesis » approach). L’idée est de comparer symbole (classe grammaticale) par symbole la séquence à analyser avec toutes les séquences de même nombre de symboles susceptibles d’être générées par la grammaire. Les séquences qui correspondent fournissent une analyse en constituants possible pour la phrase initiale. Cette méthode était reconnue a priori comme inefficace, mais elle était supposée pouvoir être rendue plus performante par l’introduction de règles et de stratégies adéquates. 32 2.2.2. L’avènement de la « computational linguistics » Si la seconde moitié des années 1950 est une période de grand espoir de réussite de la TA, très vite l’optimisme cède le pas à une certaine désillusion. Celle-ci naît du constat que les progrès sont lents et que cette lenteur est due non seulement à des problèmes matériels liés à la technologie et aux capacités des machines, mais aussi à la complexité des problèmes linguistiques (Hutchins, 1986, section 8.2). En février 1959, après avoir visité les laboratoires les plus importants de l’époque et interrogé les pionniers du domaine, Bar-Hillel publie un rapport intitulé Report on the state of machine translation in the United State and Great Britain, qui connaîtra une large diffusion après sa publication dans la revue Advances in Computers (Bar-Hillel, 1960). L’effet de ce rapport sur le domaine de la TA est terrible. Bar-Hillel affirme que la recherche en TA poursuit un but inatteignable : une traduction automatique de haute qualité, équivalente à celle d’un bon traducteur humain. Pour appuyer cette affirmation, Bar-Hillel donne l’exemple de la phrase, désormais célèbre, « the box was in the pen ». On peut adapter la démonstration en français avec la phrase « Jean est dans le bureau ». Pour traduire correctement le mot bureau, il faut savoir qu’un bureau meuble n’est en général pas capable de loger un être humain de taille normale. Un système de TA devrait donc posséder des connaissances de type encyclopédique, ce qui paraît tout à fait irréaliste. On a reproché à Bar-Hillel de n’avoir pas basé ses positions sur une analyse effective des systèmes qui, en 1958, au moment où il a réalisé ses investigations, étaient en gestation dans les équipes, ainsi que d’avoir utilisé comme seul argument théorique un exemple qui ne constitue pas une preuve : « In general, Bar-Hillel’s opinions were not based on a careful evaluation of the actual achievements of MT projects but they were already formed before the review was undertaken. » (Hutchins, 1986, section 8.3). Néanmoins, il reste qu’il régnait à l’époque un certain consensus sur le fait que la traduction automatique de haute qualité ne devait plus être l’objectif des recherches en TA, et que celles-ci devaient s’orienter vers la traduction assistée par ordinateur. C’est le rapport de l’ALPAC qui, en 1966, va consacrer une rupture dans le domaine, en condamnant les recherches qui visent la réalisation de systèmes de traduction automatique et en préconisant d’encourager des recherches plus théoriques, rendues possibles par l’usage des ordinateurs, sur les caractéristiques formelles des langues. En avril 1964, l’Académie Nationale des Sciences des Etats-Unis forme le comité ALPAC (Automatic Language Processing Advisory Commitee) en lui donnant pour mission d’évaluer l’intérêt de continuer à financer les recherches en TA. Le comité entreprend des études et enquêtes sur les besoins en traduction des scientifiques (principalement du russe vers l’anglais), sur l’état de l’offre en traduction et sur ses coûts, sur la disponibilité de traducteurs humains, sur l’évaluation de certains systèmes de traduction automatique et sur les coûts de post-édition liés à l’utilisation de ces systèmes. La conclusion est sans appel : la traduction automatique n’est pas une bonne solution au problème de la traduction scientifique. “Machine translation” presumably means going by algorithm from machine-readable text to useful target text, without recourse to human 33 translation or editing. In this context, there has been no machine translation of general scientific text, and none is in immediate prospect. (ALPAC, 1966, p. 19) Si l’ALPAC recommande dans son rapport un arrêt des subventions sur les projets de traduction automatique, il constate que le travail réalisé dans l’optique de la traduction automatique a eu un effet extrêmement positif sur le développement d’un type radicalement nouveau de recherches en linguistique, stimulées par l’usage des ordinateurs : « The advent of computational linguistics promises to work a revolution in the study of natural languages. » (ALPAC, 1966, p. 29). Les membres du Comité proposent d’encourager le développement de ce type de recherches, et consacrent ainsi l’avènement d’une nouvelle discipline, la computational linguistics. D’après Martin Kay, c’est probablement David G. Hayes, pionnier de la TA et membre du comité ALPAC, qui a forgé ce terme, jugeant qu’il pouvait être opportun de baptiser un nouveau champ de recherches pour tenter de détourner les subventions dont la TA allait être privée (Kay, 2002, p. xvii). Le rapport de l’ALPAC propose de dissocier radicalement les recherches théoriques sur le langage et les applications industrielles de la traduction automatique, et d’utiliser l’ordinateur pour renouveler les recherches sur le langage. Deux types d’usage de l’ordinateur sont ainsi évoqués : l’ordinateur en tant qu’il permet au linguiste de manipuler des données langagières complexes et volumineuses pour élaborer des descriptions linguistiques ; l’ordinateur en tant qu’il oblige à la formalisation des théories et permet leur évaluation. Such research must make use of computers. The data we must examine in order to find out about language is overwhelming both in quantity and in complexity. Computers give promise of helping us control the problems related to the tremendous volume of data, and to a lesser extent the problems of data complexity. But we do not yet have good, easily used, commonly known methods for having computers deal with language data. Therefore, among the important kinds of research that need to be done and should be supported are (1) basic developmental research in computer methods for handling language, as tools for the linguistic scientist to use as a help to discover and state his generalizations, and as tools to help check proposed generalizations against data ; and (2) developmental research in methods to allow linguistic scientist to use computers to state in detail the complex kinds of theories (for example, grammars and theories of meaning) they product, so that the theories can be checked in detail. (ALPAC, 1966, p.31) C’est le début du règne sans partage de la syntaxe et de l’analyse syntaxique automatique dans le domaine de la computational linguistics. Dans ce contexte, le formalisme des ATN (Augmented Transition Networks) (Woods, 1970) a une influence considérable dans les années 1970-1980 sur les recherches dans le domaine. Un très grand nombre de chercheurs les utilisent. Les ATN constituent l’aboutissement de recherches menées dès le début des années 1950 par Rhodes au National Bureau of Standards sur le principe de l’analyse syntaxique prédictive (predictive syntactic analyser) (Hutchins, 1986, 34 section 9.13). L’idée de base de Rhodes était que, étant donné dans une phrase un mot dont on a identifié la catégorie morphosyntaxique, il est possible de prévoir avec une certaine probabilité les catégories des mots qui le suivent. Ce principe est implémenté sous la forme d’une analyse mot à mot gauche-droite contrôlée par une procédure last in first out. Pour le mot courant, les actions à effectuer sont déterminées en deux temps : d’abord vérifier si la classe du mot satisfait une prédiction faite précédemment, en partant de la plus probable, puis soit modifier les prédictions existantes, soit ajouter une ou plusieurs prédictions. Les prédictions sont de différents types : satisfaction immédiate (par exemple par le mot suivant), satisfaction multiple (une même contrainte peut être satisfaite plusieurs fois, par exemple l’accord de l’adjectif avec le nom), satisfaction obligatoire. A la fin de la phrase, l’analyse est réussie si toutes les prédictions obligatoires ont été satisfaites, et si tous les mots ont été inclus dans l’analyse. Ceci impose donc des procédures de retour en arrière en cas d’échec. Très vite, le principe de ne retenir qu’un seul chemin, le plus probable, est apparu comme non adéquat. Les chercheurs de Harvard, qui poursuivent les recherches entamées par Rhodes, développent la méthode multiple-path predictive syntactic analysis, qui permet la génération de toutes les analyses possibles pour une phrase donnée. On peut dater de cette époque le début de l’envahissement du domaine du TAL par les forêts d’arbres syntaxiques. Les chercheurs constatent que parmi les analyses très nombreuses produites, beaucoup ne correspondent pas à de réelles ambiguïtés et que, parfois, la bonne analyse n’y figure pas. L’autre défaut auquel s’attaquent les chercheurs est que la même séquence dans la même phrase pouvait être analysée un grand nombre de fois (autant de fois qu’il y avait de chemins). Ce problème est plus ou moins réglé par des implémentations successives. William A. Woods invente les ATN dans le cadre de la réalisation d’une interface en langue naturelle à une base de données sur les roches rapportées de la lune (Woods, 1970). Deux améliorations essentielles sont apportées aux implémentations de l’époque : (1) Le système est récursif. Les transitions dans un réseau peuvent être étiquetées par les noms d’autres réseaux. Il y a autant de réseaux que de type de constituants qui peuvent apparaître dans la structure de surface d’une phrase. Si une transition dans un de ces réseaux est étiquetée par le nom d’un autre réseau, cette transition ne sera acceptée que s’il existe un chemin acceptable pour ce second réseau. Il s’agit donc de réseaux de transition récursifs. (2) Un certain nombre d’actions conditionnelles peuvent être associées à des transitions, celles-ci étant testées quand l’arc est emprunté. Ces actions peuvent par exemple consister à stocker des fragments d’arbres dans des registres, pour ensuite les comparer plus tard dans l’analyse à d’autres mots ou arbres de la chaîne courante. Ces actions peuvent aussi consister à assembler les contenus de ces registres pour construire des représentations syntaxiques profondes, et ainsi, par exemple, produire une analyse identique pour l’actif et le passif. 35 Ces améliorations ont permis au formalisme de Woods de vaincre beaucoup des difficultés rencontrées lors de la conception des analyseurs avec des règles de transformation. C’est ce qui explique que le formalisme des ATN ait occupé une place quasi-hégémonique pendant les années 1970–1980. D’après Hutchins (1986, section 9.13), l’enthousiasme des chercheurs pour l’approche prédictive en analyse syntaxique s’explique non pas par ses qualités théoriques intrinsèques, puisque les ATN n’imposent pas de restrictions formelles, mais par son intérêt pratique et calculatoire. Le formalisme des ATN peut être utilisé pour décrire des dépendances syntaxiques assez compliquées, de façon relativement intuitive et facile à implémenter. Les ATN constituent d’une certaine manière un aboutissement presque idéal de (la) tendance à l’intégration des différents niveaux de traitement. Les ATN, en effet, peuvent être vus tout à la fois comme un outil informatique d’analyse syntaxique, comme un langage de programmation défini à partir du langage LISP, ou comme un formalisme permettant de décrire des langues naturelles. Ceci est rendu possible par le fait que dans le langage LISP les programmes et les données ont la même structure. (Cori et Léon, p. 48–49) 2.2.3. Le « tournant déclaratif » et les grammaires d’unification Y. Wilks (2006) voit dans le conflit entre Yngve et Chomsky, au MIT dans les années 1960, un schisme fondateur dans l’histoire du TAL. En 1960, dans le cadre de la réalisation de son système de génération de phrases en anglais, Yngve formule son hypothèse sur la profondeur (depth hypothesis) : alors qu’il semble n’y avoir aucune limite en anglais à l’accumulation de constituants enchâssés s’ils sont à branchement à droite (this is the cat that killed the rat that ate the malt…), il y a une limite supérieure pour les branchements à gauche, et cette limite serait liée aux capacités mémorielles des locuteurs. Or on sait que pour Chomsky l’incapacité des grammaires à états finis à modéliser la possibilité indéfinie des enchâssements disqualifie ces formalismes pour la description théorique des langues. Yngve affirme que les procédures de calcul des structures syntaxiques doivent prendre en compte des contraintes de stockage qui selon lui sont intimement corrélées aux capacités humaines de compréhension, alors que Chomsky rejette en bloc ce type de considérations, sous le motif qu’elles relèvent de la performance et non de la compétence. Pendant les années qui ont suivi, selon Wilks, à cause du peu de goût de Chomsky pour la chose computationnelle et à cause des échecs des recherches visant à réaliser des analyseurs syntaxiques transformationnels, l’influence des linguistes dans le domaine de la Computational Linguistics est très limitée. Toujours selon Wilks, le schisme fondateur ne se cicatrise qu’au début des années 1980, lorsque Gerald Gazdar devient le premier linguiste d’envergure à embrasser le paradigme computationnel, en développant des grammaires sophistiquées, basées principalement sur des structures en constituants, spécifiquement destinées à servir de base à des analyseurs. Au début des années 1980, le domaine de la Computational 36 Linguistics vit une véritable révolution culturelle. M. Cori et J. Léon (2002) parlent de « tournant déclaratif ». Le tournant déclaratif fait référence à l’émergence pendant les années 1980 de formalismes déclaratifs (DCG, PATR II) et de théories syntaxiques (GPSG, LFG, TAG, HSPG) développées dans des formalismes déclaratifs. Dans ces théories, les descriptions linguistiques et les règles de grammaire sont développées de façon indépendante des langages formels dans lesquels elles sont écrites et des algorithmes d’analyse syntaxique qui les exploitent. On retrouve là le principe de la séparation des données et des programmes défendu par Yngve dès 1960. Ce principe rencontre un écho d’autant plus favorable auprès des chercheurs, linguistes en particulier, que la philosophie procédurale des ATN, très en vogue à l’époque, laissait peu de place à l’intervention de linguistes non programmeurs. La facilité de développement avec le formalisme des ATN conduit à des programmes dans lesquels les règles de grammaire et les procédures d’analyse sont complètement intriquées. Par exemple, l’équivalence entre l’actif et le passif est directement implémentée dans des réseaux de transitions, par des tests sur les transitions et les opérations sur les registres, pour qu’en fin d’analyse le système produise des structures prédicat/argument identiques pour une phrase active et la phrase passive équivalente. Au contraire, dans une grammaire formelle, ce principe d’équivalence entre l’actif et le passif sera exprimé de façon explicite par une règle de correspondance entre structure de surface et structure profonde, sans prescription de procédures permettant de construire l’une à partir de l’autre. De façon plus générale, on a reproché aux ATN de produire des programmes difficiles à maintenir, du fait de l’intrication des règles de grammaire dans les algorithmes, de ne pas fournir des principes généraux d’implémentation, en particulier en ce qui concerne les conditions et les actions sur les registres, et même de n’avoir jamais conduit à une véritable théorie linguistique20. A rebours, les promoteurs des nouvelles grammaires formalisées partagent la conviction que le développement d’analyseurs syntaxiques doit se baser sur des théories syntaxiques autonomes et formellement bien définies. Cette position est bien synthétisée par P. Miller et T. Torris dans l’introduction à leur ouvrage Formalismes syntaxiques pour le traitement automatique des langues, publié au début des années 1990 : L’existence d’une théorie linguistique, indépendante à la fois de son implémentation et des analyses particulières qu’elle permet, constitue une base nécessaire pour le développement de systèmes de TAL dépassant le niveau de l’ad hoc. (…) Le développement d’un système de TAL pose des problèmes vastes et complexes qu’une théorie linguistique autonome et formellement bien définie permet de mieux distinguer. L’indépendance de la théorie par rapport à l’implémentation et à la description des phénomènes devrait également faciliter les changements et les corrections nécessaires lors du développement d’un système de TAL, ainsi que la conservation des acquis au travers des modifications (Miller et Torris, 1990, p. 16) 20 Ce qui ne semble jamais avoir été leur objectif… 37 Les DCG (Definite Clause Grammars) (Pereira et Warren, 1980) ont sans doute été le premier modèle revendiqué clairement comme déclaratif par ses auteurs (Cori et Léon, 2002, p. 49). Ce formalisme dérive des recherches en traduction automatique menées par A. Colmerauer à l’université de Montréal. Colmerauer est responsable du développement du premier prototype de système de traduction français-anglais dans l’équipe TAUM (Traduction Automatique à l’Université de Montréal). Dans ce prototype, testé pour la première fois en 1971, les concepteurs ont cherché à séparer strictement données et programmes. Il a été développé à l’aide du formalisme du système-Q (Q pour Québec), un langage de manipulation de structures d’arbres et de chaînes d’arbres développé par Colmerauer. C’est aussi dans ce langage qu’a été programmée la première version du système TAUM-METEO. Les recherches menées avec ce langage ont fortement influencé la conception, par Colmerauer et ses collègues, du langage Prolog, qui allait lui-même inspirer la communauté des chercheurs en programmation logique, et en particulier F. Pereira et D. Warren qui inventent les DCG. Les DCG sont un formalisme qui permet de développer de façon déclarative des systèmes de règles indépendantes, qu’il est facile d’étendre et de modifier. Et comme leur puissance est équivalente à celle des ATN, la déclarativité devient un argument décisif en faveur de leur supériorité (Cori et Léon, 2002, p. 50). Comme le souligne S. Shieber (1990), il faut distinguer les « formalismes outils » du type des DCG ou de PATR, qui ont été développés dès l’origine dans la perspective de réaliser des systèmes de TAL et qui donc devaient avoir une expressivité maximale, des « formalismes proprement linguistiques », élaborés en tant que théories du savoir linguistique, et qui visent au contraire à contraindre l’expressivité de façon à limiter l’ensemble des phrases possibles. Ces derniers (GPSG, LFG, TAG, HSPG) proposent des théories linguistiques en tant que telles, au sens où l’entendait Chomsky, à savoir des modèles qui décrivent l’ensemble des phrases possibles d’une langue, avec leurs propriétés structurales et éventuellement leur sémantique sous la forme de relations prédicat-argument, et ce indépendamment du modèle formel dans lequel ils sont écrits et des procédures concrètes de génération ou d’analyse. Ces théories, désignées sous le nom générique de « grammaires d’unification », sont développées dans le cadre de collaborations impliquant selon les cas des linguistes, des psycholinguistes, des logiciens et des informaticiens. Je cite ici pour mémoire les formalismes les plus connus (Abeillé et Blache, 1997) : - GPSG (Generalized Phrase Structure Grammar) est issu des recherches du linguiste G. Gazdar qui, en 1982, introduit dans son modèle une relation d’unification. Il décompose les catégories en traits et exprime des principes de partage de valeurs de traits entre syntagmes pour rendre compte de l’accord et de certaines relations systématiques de paraphrase (Gazdar et al., 1985). HPSG (Head Driven Phrase Structure Grammar) est un successeur de GPSG (Pollard et Sag, 1987). - LFG (Lexical Functional Grammar) est développé par R. M. Kaplan et J. Bresnan (1982), qui utilisent des arbres classiques pour représenter les formes de surface, et des structures de traits pour représenter les structures profondes, avec lesquelles sont définies les fonctions grammaticales. 38 - TAG (Tree Adjoining Grammar) est proposé par A. Joshi (1987), qui déporte la grammaire vers le lexique, dans lequel les unités sont décrites sous la forme de structures arborescentes élémentaires (arbres lexicalisés) enrichies par des traits, combinées par des opérations de substitution ou d’adjonction. L’arrivée des formalismes déclaratifs constitue une révolution dans le domaine du TAL puisqu’elle donne aux linguistes une place de choix dans le nouveau paysage des recherches, en permettant (imposant) une redistribution des rôles entre linguistes et informaticiens. Ce nouveau partage des tâches reflète le principe de la séparation des données et des programmes dans les systèmes : aux linguistes la tâche de développer les grammaires et descriptions linguistiques (formelles), selon le formalisme théorique choisi ; aux informaticiens celle de mettre aux points les algorithmes et procédures qui mettront en musique ces descriptions. Le retour en force et l’implication nouvelle des linguistes dans l’arène du TAL, pour productive qu’elle soit, se réalise selon un mode de partage des tâches qui finalement entraîne ceux-ci et avec eux une partie de la computational linguistics vers des problématiques théoriques, et les éloigne des applications concrètes, ce que regrettent Cori et Léon : Cette évolution vers des modèles déclaratifs a les plus grandes conséquences sur l’unité du TAL. Les acteurs, en effet, sont incités à se replier sur une spécialité donnée : les uns sur la description des données linguistiques, d’autres sur l’écriture de modèles, d’autres enfin sur la mise au point d’algorithmes. On peut dire que réapparaissent sous la forme de lignes de fracture les frontières entre les disciplines dont les apports variés ont permis que soit fondé le TAL en tant que domaine. Seuls peuvent se réclamer sans équivoque du domaine les ingénieurs qui réalisent des applications industrielles et qui, donc, ont simultanément besoin des algorithmes et de la description des données. Alors même qu’en adoptant des modèles déclaratifs le TAL cherche à s’imposer des critères de rigueur, il tend du même coup à rendre impossible sa constitution comme discipline scientifique. (Cori et Léon, 2002, p. 50) 2.2.4. Le Natural Language Processing Pendant les années 1980, le paysage des recherches en TAL se caractérise donc d’abord par le recentrage d’une partie de la communauté vers des problématiques théoriques : du côté de la linguistique, autour de l’élaboration de théories et de grammaires formelles, destinées au TAL, mais surtout fécondes pour l’analyse du langage ; du côté de l’informatique, sur la mise au point d’algorithmes, de structures et modèles de données et de langages, utiles pour le TAL mais pouvant avoir aussi une vocation plus générale. Pendant cette période, le paysage du TAL est grandement remodelé avec l’implication des chercheurs en Intelligence Artificielle (IA), discipline qui se donne parmi ses objectifs fondamentaux la description des mécanismes de la compréhension du langage naturel. Ces chercheurs investissent le terrain de l’analyse du langage avec des 39 problématiques et des méthodes qui diffèrent radicalement de celles des pionniers de la TA et des tenants des grammaires d’unification. En particulier, alors que la syntaxe a toujours été considérée comme devant occuper une place centrale dans les recherches et les applications en TAL, tous les chercheurs en IA ne partagent pas le point de vue de la nécessité et de l’importance d’un module syntaxique dans les modèles théoriques de la compréhension, et encore moins dans les applications de simulation de la compréhension du langage naturel. Pour tester l’hypothèse d’une analogie entre le cerveau et l’ordinateur, les informaticiens chercheurs en IA focalisent leurs recherches sur la réalisation de systèmes « intelligents » qui simulent partiellement les processus de compréhension, c’est-à-dire de systèmes informatiques qui exécutent des tâches qui, quand elles sont réalisées par des humains, sont réputées solliciter des capacités de maîtrise du langage. Les premières réalisations sont des systèmes de simulation intégrés dans des applications « jouets ». Puis, au cours des années 1980, les chercheurs de l’IA délaissent progressivement la réalisation de systèmes jouets, pour s’attaquer à la mise au point de systèmes informatiques, incluant des ressources et des traitements linguistiques, utiles dans des contextes réels. Pour illustrer cette évolution, qui allait conduire au Natural Language Processing (NLP), je décris deux systèmes pionniers, SHRDLU et PARRY, réalisés au début des années 1970, puis deux systèmes industriels, opérationnels à la fin des années 1980, CONSTRUE et ATRANS21. - Le système SHRDLU est réalisé par Terry Winograd pendant sa thèse au MIT (Winograd, 1972). C’est un système de dialogue qui permet à un opérateur humain de piloter à l’aide d’instructions données en anglais une grue pouvant manipuler et déplacer des blocs de taille et de couleur variées. Le système est très sophistiqué. Il inclut en particulier l’implémentation d’une grammaire inspirée des travaux de Halliday dans un langage procédural, ainsi qu’une méthode pour construire automatiquement les conditions de vérité exprimant le contenu sémantique d’un énoncé et pour les confronter à l’état du monde, c’est-à-dire la position courante des blocs. Il s’agit d’un monde très restreint où toutes les actions possibles sont connues. Le système n’est capable de traiter qu’une poignée de phrases, comme c’est la norme pour les systèmes de ce type qui vont voir le jour à cette époque. - Le système PARRY est réalisé par Kenneth M. Colby à Stanford (Colby, 1973). C’est aussi un système de dialogue, qui permet de mener une conversation avec un soi-disant malade paranoïaque interné dans un hôpital de vétérans. Le système est très robuste. Il n’est doté d’aucune grammaire ou analyseur, mais il est constitué d’un ensemble d’environ 6 000 patrons qui lui permettent de réagir aux énoncés de ces interlocuteurs, de façon suffisamment réaliste pour que ceux-ci soient convaincus la plupart du temps d’avoir affaire à un vrai malade. 21 Les deux premiers sont ceux que Y. Wilks choisit de décrire dans l’introduction de son article History of Computational Linguistics de la seconde version de l’Encyclopedia of language and linguistics (2006), et les deux autres sont ceux que Philip J. Hayes décrit en détail dans l’article Natural Language Processing : Applications de la première version de cette même encyclopédie (Hayes, 1994). 40 - Le système CONSTRUE (Hayes et al., 1987) est développé au Carnegie Group Inc pour l’agence Reuters. C’est un système qui classe automatiquement un flux de dépêches de presse économiques ou financières dans une ou plusieurs catégories d’un ensemble de 674 catégories prédéfinies. CONSTRUE utilise des techniques de pattern-matching et des règles d’appariement pondérées pour identifier dans les dépêches des mots ou séquences de mots qu’il associe avec une certaine pondération aux thèmes ou concepts d’une base de connaissance du domaine. Il exploite ensuite des règles de classification de type si–alors qui tiennent compte des concepts activés, des parties de textes où figurent les mots activateurs, ainsi que des poids d’activation, pour affecter la dépêche analysée à une ou plusieurs catégories. Les règles et la base de connaissances exploitées par le système sont totalement dépendantes du domaine. Le coût de leur construction est estimé à une année-homme par P. J. Hayes. - Le système ATRANS (Lytinen et Gershman, 1986) est développé par la société Cognitive Systems pour la Société Générale de Banque de la Belgique. C’est un système d’extraction de faits (fact extraction, on ne dit pas encore information extraction) qui traite des télex concernant des opérations de transfert d’argent, et extrait de ces dépêches des informations pertinentes (les banques, leur rôle dans l’opération de transfert, les montant, dates, etc.). Les résultats sont validés par un opérateur humain. Les techniques utilisées dans ATRANS sont basées sur le formalisme de la dépendance conceptuelle développé par R. Schank (Schank, 1975), fondateur de Cognitive Systems. Etant donné le style très particulier des dépêches et la focalisation de l’analyse sur l’extraction d’informations de type prédéfini, le système n’inclut pas de module standard d’analyse syntaxique, l’extraction est guidée par la « sémantique » du domaine et de la tâche. A la fin des années 1980 émerge ainsi, dans le champ du TAL, un nouveau paradigme, en anglais le Natural Language Processing (NLP). Dans ce paradigme, les recherches sont guidées par les applications, et non par l’objectif d’une meilleure compréhension du langage humain. En ce sens, le NLP n’est pas un programme d’investigation scientifique, contrairement à la Computational Linguistics qui continue à revendiquer l’objectif d’une description théorique des langues. Ce paradigme s’est développé de façon d’autant plus foudroyante que le développement de la microinformatique, l’essor de la documentation électronique et l’arrivée d’Internet ont fait émerger des besoins nouveaux et ont généré une demande sociale forte. Les applications du NLP sont bien connues : extraction d’informations, classification de documents, résumés de documents. Ces applications s’ajoutent aux applications historiques que sont la traduction automatique pour le TAL et la recherche d’informations pour l’informatique documentaire. Les recherches sont encouragées non seulement par la demande sociale, mais aussi et surtout par les campagnes d’évaluation lancées par l’agence DARPA (Defense Advanced Research Projects Agency), du Département de la Défense des Etats- Unis, qui ont contribué à façonner le paysage de la recherche en TAL, au moins aux Etats-Unis. 41 Dans la philosophie du NLP, il convient de faire feu de tout bois dans la recherche des résultats attendus. Il s’agit de mettre en oeuvre de façon optimale les techniques et les ressources nécessaires pour atteindre un objectif donné, avec autant que possible le souci constant d’ajuster les coûts d’élaboration des systèmes aux gains escomptés lors de leur utilisation dans des contextes réels. Comme on le voit dans les exemples illustratifs ci-dessus, les systèmes se distinguent les uns des autres selon le type de traitements linguistiques qu’ils opérationnalisent et selon le type et le volumes des connaissances qu’ils mettent en oeuvre. Certaines applications se contentent de méthodes d’extraction simples et robustes, alors que d’autres requièrent une phase d’analyse linguistique détaillée. Concernant l’analyse syntaxique, même dans les cas où une analyse du contenu est nécessaire, la syntaxe n’est pas mise nécessairement de façon primordiale au centre du dispositif. Un certain nombre de chercheurs ont travaillé sur l’hypothèse que la structure sémantique était première, et (relativement) indépendante de la structure syntaxique, dès lors que l’on s’intéressait à la détermination du contenu informatif des énoncés. On peut citer le système des dépendances conceptuelles de Schank (1975) et celui des préférences sémantiques de Wilks (Wilks et Fass, 1992), tous les deux inspirés de la grammaire des cas de Fillmore (1968). Une autre ligne d’opposition concerne les connaissances sur le domaine. Certaines applications sont peu exigeantes en connaissances sur le domaine, alors que d’autres requièrent la construction de bases de connaissances très riches sur le domaine et sur la tâche. Et le principal problème auquel se sont heurtées les recherches en IA à la fin des années 1990 est celui du goulet d’étranglement que constitue la tâche de modélisation des connaissances à intégrer dans les systèmes devant effectuer des tâches complexes dans des domaines où ces connaissances ne se formalisent pas de façon immédiate. L’activité d’acquisition des connaissances pour les systèmes à base de connaissances est devenue un thème de recherche en soi autour duquel se sont articulées des recherches issues de différentes disciplines et elle a donné lieu à la réflexion sur des systèmes experts de deuxième génération (David et al., 1993). C’est dans cette mouvance que j’ai entrepris mes recherches sur LEXTER et sur l’acquisition des connaissances à partir de textes (cf. Chapitre 1). Le problème du coût de construction manuelle des systèmes de TAL allait trouver des solutions avec l’explosion, dans les années 1990, du TAL dit « empirique » ou « statistique », qui se caractérise par l’arrivée en force et la généralisation des méthodes statistiques ou numériques dans quasiment tous les secteurs d’investigation du TAL. En particulier, l’utilisation de méthodes d’apprentissage automatique sur des données annotées à la main s’est révélée extrêmement féconde pour passer le goulet d’étranglement dans certaines applications, entre autres pour les systèmes d’extraction d’information (Maning et Schütze, 1999 ; p. 19). Selon Wilks (2006), l’élan a été donné à l’origine par Fred Jelinek à IBM, qui met en place un programme de recherche en traduction automatique (Brown et al., 1990), dans lequel les méthodes statistiques qui avaient été appliquées avec succès à la reconnaissance de la parole sont testées avec non moins de succès en traduction automatique. Il s’agit par exemple de techniques d’apprentissage automatique lancées sur le corpus bilingue anglais/français du Hansard. On peut faire remonter l’origine de l’apprentissage automatique en TAL aux travaux de 42 Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement exponentiel des capacités des machines et la multiplication des ressources textuelles électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à toutes les tâches du TAL. Concernant l’analyse syntaxique automatique, toute une série de travaux convergent vers la construction automatique de grammaires hors contextes probabilistes à partir de l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de dérivation. Ces probabilités sont calculées à partir de corpus annotés syntaxiquement, presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir parmi les multiples analyses d’une phrase fournies par l’analyseur quelles sont celles qui ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres 11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse syntaxique automatique. 2.3. Travaux en analyse syntaxique robuste 2.3.1. La robustesse en analyse syntaxique Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce chapitre à une revue de travaux en analyse syntaxique robuste. L’analyse syntaxique robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL depuis 50 ans. Dès les débuts de la TA, on a fabriqué des analyseurs syntaxiques, et si le problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était acquis que les analyseurs devaient fournir une analyse syntaxique la plus complète, la plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept de robustesse en analyse syntaxique peut s’expliquer par deux facteurs concomitants : l’échec rencontré par les approches théorisantes en syntaxe à produire des analyseurs utiles, et la pression de la demande sociale liée au développement des nouvelles technologies de l’information. Les années 1980 voient l’arrivée des grammaires d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a conduit à l’élaboration de théories syntaxiques très fécondes, qui ont contribué à une meilleure description des langues. Mais il est apparu que cet objectif théorique était difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’analyseurs syntaxiques utilisables dans des contextes applicatifs. Les limites des analyseurs s’appuyant sur les descriptions formelles développées par ces théories sont connues : temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites 43 en performance ne remettent pas nécessairement en cause les programmes de recherche à la base de ces analyseurs. Il faut garder à l’esprit que le paradigme formel et celui de l’analyse syntaxique robuste relèvent de positions épistémologiques fondamentalement différentes : visée clairement théorisante d’un côté, objectifs prioritairement pratiques de l’autre. Une grammaire formelle peut être vue comme une théorie de la langue au sens de Chomsky, un analyseur syntaxique opérationnel peut être vu comme un objet technique, au sens de Gilbert Simondon dans sa philosophie des techniques, comme je le défendrai à la fin du chapitre 3. Du côté des applications, la pression de la demande sociale pour des outils de traitement de l’information s’est intensifiée avec le développement de la bureautique et l’accroissement exponentiel de la documentation électronique. Des outils de TAL robuste(s) sont requis comme composants des applications informatiques visant à gérer, traduire, classer, fouiller, interroger ces sources électroniques, nécessaires et accessibles dans une grande diversité d’activités humaines. Néanmoins, il ne faudrait pas surestimer l’importance et la nouveauté d’un tel phénomène. Pour les recherches en TAL, la pression de la demande sociale a toujours existé. Le TAL est né de cette pression, quand des esprits inventifs ont imaginé que les nouveaux calculateurs pourraient résoudre les immenses problèmes de la traduction à la fin des années 1940. Dans les années 1990, et dans le domaine de l’analyse syntaxique automatique, c’est donc le décalage entre les résultats produits par les approches dominantes en analyse syntaxique automatique et la demande en outils utilisables qui a conduit à l’émergence de la notion de robustesse pour caractériser les travaux de plus en plus nombreux développés en dehors du paradigme des grammaires formelles. Pour préciser la notion de robustesse, je reprends la caractérisation proposée par Salah Aït-Mokhtar, Jean-Pierre Chanod et Claude Roux dans leur article publié en 2002 dans le numéro spécial de la revue Natural Language Engineering sur les méthodes robustes en Traitement Automatique des Langues : We think of robustness as the ability of a language analyzer to provide useful analyses for real-world input texts. By useful analyses, we mean analyses that are (at least partially) correct and usable in some automatic task or application. That definition implies two requirements: first, a robust system should product (at least) one analysis for any real-world input. (…) A robust system should also limit the number of concurrent analyses it produces or a least give indications on which are the preferred ones. (Aït-Mokhtar et al., 2002, p. 122–123) Cette définition résume l’ironie pour les tenants d’une approche pratique en Traitement Automatique des Langues de devoir forger un concept spécifique pour caractériser leurs analyseurs en reprenant les termes même de leur cahier des charges. Le concept de robustesse s’efface devant celui d’utilité, qui est le concept fondamental. Dès lors qu’on ne poursuit pas l’objectif théorique d’une meilleure connaissance des langues, il s’agit de faire des analyseurs syntaxiques utiles, c’est-à-dire des analyseurs capables de produire dans des temps raisonnables, pour toute séquence fournie en entrée, une analyse la plus 44 complète et la plus juste possible, qui soit utilisable pour une gamme d’applications spécifiées. Aït-Mokhtar et al. (2002) identifient trois grands courants nouveaux à partir des années 1990 visant la robustesse en analyse syntaxique automatique. Le premier courant cherche à étendre des systèmes classiques basés sur des modèles théoriques avec des procédures, heuristiques et mécanismes visant à récupérer des analyses partielles quand le système a échoué à analyser la phrase entière, et à trier ou sélectionner les meilleures analyses quand le système en a produit un grand nombre. La deuxième approche est celle de l’analyse syntaxique statistique, où les systèmes sont constitués de règles qui ont été apprises automatiquement à partir de corpus annotés syntaxiquement. La troisième voie est celle de l’analyse syntaxique superficielle, dans laquelle on revoit à la baisse les ambitions des analyseurs pour réaliser des systèmes qui reconnaissent des structures syntaxiques minimales. Au-delà de ces approches contemporaines, il est possible d’identifier et de rassembler une famille de travaux, dont les premiers datent des débuts de la TA, qui, en dehors de toute visée théorique, se fixent comme objectif de développer des analyseurs syntaxiques, à base de règles de reconnaissance opératoires, utiles pour certaines applications. Ces travaux sont moins nombreux, et plus isolés, car souvent menés dans le cadre d’entreprises personnelles et autonomes. Parce qu’ils ne s’inscrivent pas dans une approche ou une école de pensée académique identifiée et structurée, avec ses leaders et ses conférences, ils sont peu visibles, et quand ils sont aperçus, ils peuvent être taxés de n’être que du « bricolage » ou de relever de l’« ingénierie ». En sélectionnant les travaux présentés dans cette section, j’ai cherché à établir une lignée dans laquelle s’inscrit mon propre analyseur. J’ai voulu assurer une certaine profondeur historique, en choisissant des travaux anciens mais qui s’inscrivent dans la veine actuelle de l’analyse robuste, j’ai donné un petit coup de projecteur à des travaux menés en France, et j’ai privilégié des auteurs qui, au-delà des réalisations effectives, ont tenté de problématiser leur approche en analyse syntaxique. Je présente successivement les travaux suivants : - L’analyseur FULCRUM de P. S. Garvin (section 2.3.2) - L’analyseur du projet TDAP (section 2.3.3) - L’analyseur de F. Debili (section 2.3.4) - Le projet PLNLP (section 2.3.5) - L’analyse par chunks de S. Abney (section 2.3.6) - L’analyseur 98 de J. Vergne (section 2.3.7) - L’analyse syntaxique robuste selon J. -P. Chanod (section 2.3.8) 45 2.3.2. L’analyseur FULCRUM de P. S. Garvin Paul S. Garvin commence ses recherches, dans les années 1950, à l’université de Georgetown, au sein de l’équipe qui travaille sur le développement du système de traduction automatique GAT (section 2.2), et il les poursuit au sein de Ramo-Wooldridge Corporation, toujours dans le cadre de la traduction automatique, entreprise dont il prend la direction en mars 1960. Il développe une méthode d’analyse syntaxique, dite Fulcrum method. Dans l’article qu’il présente lors de la deuxième conférence internationale sur le Traitement Automatique des Langues, à Grenoble en août 1967 (Garvin, 1967), Paul Garvin présente l’analyseur syntaxique FULCRUM pour le russe, qui possède la caractéristique essentielle d’être un système bipartite, constitué d’un dictionnaire et d’un algorithme. Le dictionnaire recense de façon classique les formes avec leurs catégories potentielles, et l’algorithme ordonne des règles de reconnaissance de patrons linguistiques dans différentes parties de la phrase pour identifier les structures syntaxiques. En cela, le système FULCRUM se démarque de la majorité des systèmes de traduction développés à l’époque, dans lesquels, selon le principe de séparation cher à Yngve (section 2.2.1), les règles de grammaire étaient séparées des algorithmes d’analyses. Ces systèmes étaient tripartites, composés d’un dictionnaire électronique, d’une base de règles grammaticales et sémantiques, et d’un algorithme d’analyse. Les arguments pour une telle séparation étaient la possibilité d’un partage des tâches entre les linguistes, qui se concentrent sur la mise au point de règles de grammaire, et les informaticiens, qui eux planchent sur la conception d’algorithmes performants, ainsi qu’une meilleure maintenabilité. Selon Garvin, ce cloisonnement n’est viable que tant qu’il y a indépendance entre les règles et les algorithmes, et donc qu’il est possible de modifier ou d’ajouter des règles sans qu’il soit nécessaire de modifier l’algorithme. Or ce n’est plus le cas dès que le nombre de règles augmente et que la grammaire atteint une taille réaliste. La base de règles ne peut plus être gérée par un algorithme simple. Soit il faut adapter l’algorithme à la base de règles, et l’algorithme perd toute généralité, soit il faut un algorithme secondaire servant d’interface entre l’algorithme général et la base de règles. Dans les deux cas, l’indépendance n’existe plus, et les avantages apportés par la séparation sont illusoires. C’est pourquoi Garvin opte pour un système bipartite. Les deux concepts essentiels de la méthode sont les suivants : - La méthode par passes. Une phrase est traitée en plusieurs passes, à chaque passe sont identifiées un certain nombre de relations syntaxiques grâce à la reconnaissance de patrons grammaticaux. Les passes se succèdent de telle façon que soient reconnus d’abord les constituants syntaxiques de la phrase, puis les relations entre ces constituants, et enfin la structure générale de la phrase. Les règles de reconnaissance sont appliquées par l’algorithme dans un ordre tel que chacune est testée au moment où les informations grammaticales nécessaires sont disponibles (les étiquettes et relations posées lors des passes précédentes). 46 - Le concept de « fulcrum ». Pour une fonction de recherche donnée (par exemple le rattachement des adverbes à des adjectifs), les « fulcra22 » sont les mots pivots à partir desquels est lancée une analyse locale portant sur les mots voisins dans la phrase pour placer une relation de dépendance syntaxique. A chaque passe, le système ne traite donc pas tous les mots de la phrase successivement de gauche à droite (ou de droite à gauche), mais « saute » de mot pivot en mot pivot en effectuant à chaque fois une analyse locale. Dans un tel système bipartite, les connaissances linguistiques sur la grammaire de la langue sont contenues dans l’algorithme : This means that the highly complex system of rules that makes up the real grammar of a language is distributed over a correspondingly complex algorithm which applies the rules in terms of the ordering that the language requires. (Garvin, 1967, p. 1) 2.3.3. L’analyseur du projet TDAP Entre juin 1958 et juillet 1959, au sein du projet Transformations and Discourse Analysis Project (TDAP) dirigé par Zellig S. Harris à l’université de Pennsylvania, un analyseur syntaxique de l’anglais est conçu et développé par une équipe composée de L. Gleitman, A. Joshi, B. Kauffman et N. Sager, rejoints plus tard par Caroll Chomsky. Ces recherches ont été menées en marge du courant des recherches en traduction automatique. Cet analyseur a été réécrit au milieu des années 1990 par A. Joshi et P. Hopely (Joshi & Hopely, 1996, 1999) à partir de la documentation de l’époque. L’analyseur est implémenté comme une cascade de transducteurs. Selon Joshi et Hopely, il s’agit de la première application des transducteurs à états finis à l’analyse syntaxique. L’analyse se déroule en 7 passes successives. 1. Analyse morphologique. A partir de la consultation d’un dictionnaire, le système attribue une ou plusieurs étiquettes grammaticales aux mots de la phrase. Dans le dictionnaire, les catégories affectées à une forme sont classées par ordre de fréquence décroissante. 2. Traitement des locutions grammaticales. Certaines locutions grammaticales sont remplacées par une étiquette grammaticale ; par exemple of course est remplacée par l’étiquette d’adverbe. 3. Désambiguïsation morphologique. Elle est effectuée à l’aide de 14 règles de désambiguïsation, qui ont pour fonction d’éliminer des étiquettes affectées aux mots ambigus et qui s’appuient sur les contextes droit et gauche. Les règles s’enchaînent et le processus se répète jusqu’à ce que plus aucune désambiguïsation ne soit effectuée. Il peut subsister des mots non désambiguïsés. 22 Fulcrum désigne en anglais le pivot d’un levier, ou le couteau d’une balance. 47 4. Repérage des groupes nominaux simples (« simple noun phrases »). Ce repérage est effectué par deux transducteurs à états finis, un premier qui parcourt la phrase de droite à gauche, et qui repère les groupes nominaux à partir d’une limite finale sûre (nom ou pronom), puis un second de gauche à droite, et qui repère les groupes nominaux à partir d’une limite initiale sûre (article). Les catégories admises par le premier transducteur sont nom, adjectif et article. Le transducteur parcourt le graphe jusqu’à un point de sortie, en adoptant la stratégie du chemin le plus long. En particulier, s’il rencontre un mot ambigu, il choisit l’étiquette qui lui permet de continuer le chemin. C’est ainsi que certaines ambiguïtés sont résolues à ce stade. De la même façon, si le transducteur rencontre une conjonction de coordination, il l’absorbe si cela lui permet de continuer le chemin. Le second transducteur repère les groupes nominaux élémentaires qui commencent par un article. Les groupes nominaux reconnus à cette étape sont placés entre crochets (Exemples : [the rich man], [increased production]). 5. Repérage des adjoints simples (« simple adjuncts »). Un transducteur gauche droite repère les groupes prépositionnels ou adverbiaux simples. Dans l’exemple « in increased production », le tranducteur peut repérer à in le début d’un groupe prépositionnel parce que le transducteur droite gauche de la passe précédente a d’abord reconnu le groupe nominal qui commence juste après la préposition. Les auteurs soulignent que c’est tout l’intérêt d’une architecture séquentielle enchaînant les transducteurs que de rendre facile la reconnaissance des groupes syntaxiques. Les groupes reconnus à cette étape sont placés entre parenthèses (Exemples : (very clearly), (rapidly), (to date), (in [increased production])). 6. Repérage des noyaux verbaux simples (« verb clusters »). Un transducteur à états finis gauche droite repère des noyaux verbaux, n’incluant que des compléments verbaux, ainsi que des adjoints simples reconnus lors de la phase précédente. Les groupes reconnus à cette étape sont placés entre accolades (Exemples : {went}, {has gone fishing}, {may have been (already) published}, {have been observed and reported to be}, {wants to leave}, et {wants} [the man] (from [Philadelphia]) {to leave}). 7. Repérage des propositions. Toutes les structures repérées dans les phases précédentes sont dites de premier ordre, car non enchâssées (nested). Au cours de la phase de repérage des propositions, les structures repérées peuvent être enchâssées. Le repérage de propositions se fait grâce à l’application itérative d’un transducteur gauche droite qui commence sa recherche par les propositions les plus profondément enchâssées. Au cours de la reconnaissance d’une proposition, les adjoints sont soit sautés, soit considérés comme compléments. Des informations de sous-catégorisation sont exploitées. La stratégie du complément le plus long est adoptée, et le rattachement se fait au verbe le plus proche. Joshi et Hopely expliquent que les transducteurs utilisés dans les phases 1 à 6 ont été rendus déterministes grâce au choix de l’ordre d’enchaînement des transducteurs et de leur sens de parcours (gauche droite ou droite gauche), et grâce à l’adoption de la stratégie du plus long chemin. Dans le cadre du projet TDAP, l’analyseur a été 48 développé à l’origine pour être utilisé dans diverses tâches applicatives, dont le résumé automatique d’articles scientifiques. Les phrases analysées sont des phrases réelles, extraites de textes de biochimie. Ce programme est le précurseur du programme de la grammaire de chaînes que développera N. Sager à l’université de New-York (Sager, 1970), qui donnera lieu aux analyseurs développés par R. Grishman et L. Hirschman. 2.3.4. L’analyseur de F. Debili Fathi Debili soutient sa thèse intitulée Analyse syntaxico-sémantique fondée une acquisition de relations lexicales-sémantiques en janvier 1982. Il a mené sa recherche dans une équipe animée par A. Andreewsky, et dont les travaux en Traitement Automatique des Langues sont orientés vers la recherche documentaire dans des bases textuelles (de type juridique essentiellement). F. Debili s’intéresse plus précisément à la détection de la paraphrase. A la question « Qui nomme le premier ministre ? », un système documentaire devrait fournir des documents contenant les phrases « Le premier ministre est nommé par le président de la république. » ou « La nomination du premier ministre par le président de la république a été (…) ». L’analyseur syntaxique développé par F. Debili est un analyseur en dépendance, qui s’appuie sur les résultats d’un étiqueteur morphologique. Le système exploite de façon massive un principe que j’ai qualifié d’apprentissage endogène, dix ans plus tard lors de la conception de LEXTER (Chap. 1, section 1.2). Le système est constitué de 3 composantes, morphologique, syntaxique, sémantique. La composante morphologique repose sur un découpage des mots étiquetés du corpus en préfixe + radical + suffixe et a pour fonction de regrouper les mots du corpus en familles morphologiques. La composante syntaxique segmente d’abord la phrase en chaînes nominales et verbales, puis construit toutes les relations de dépendance potentielles entre les mots. La composante sémantique a pour fonction de résoudre les ambiguïtés de rattachement laissées par le module syntaxique, à l’aide d’un raisonnement par analogie. Par exemple (Debili, 1982, p. 5), dans la phrase « La nomination par le ministre des membres du conseil supérieur … », la composante syntaxique a identifié 2 gouverneurs potentiels pour le nom membres : les noms ministre et nomination. Si le corpus comprend la phrase « Les membres du conseil supérieur sont nommés … », et si la composante morphologique a acquis le lien morphologique entre nomination et nommer, et si la composante syntaxique a identifié sans ambiguïté la relation sujet entre le nom membres et le verbe nommer au passif, alors la composante sémantique va lever l’ambiguïté dans la première phrase en choisissant le nom nomination comme gouverneur de membres. C’est ce principe de désambiguïsation endogène qui fait la principale originalité du système de F. Debili. Le système prend en entrée un corpus de phrases, supposé être suffisamment homogène sur le plan des caractéristiques lexico-syntaxiques pour que des propriétés morphosyntaxiques des mots considérés comme types soient acquises sur l’ensemble de ce corpus et propagées rétrospectivement lors de passes ultérieures à l’ensemble des occurrences de ces types. Dans le module syntaxique, le traitement se déroule en deux étapes : une étape de segmentation, une étape de mise en relation. Lors de la première étape, le système 49 effectue le découpage de la phrase en « chaînes nominales » et « chaînes verbales ». Les exemples donnés ci-dessous donnent une idée du type de résultat produit par le découpage (CN : chaîne nominale, CV : chaîne verbale, X : élément autre). /CN1 Ces dispositions /CV1 ne sont pas opposables /CN2 aux personnes /X qui /CV2 auront déposé /CN3 une demande de permis de construire / /CN1 Les faces directement accessibles des conduits adossés à un mur extérieur /CV1 doivent avoir /CN2 une isolation suffisante /X pour que /CN3 le refroidissement /CV2 ne contrarie pas /CN 4 le tirage. La description de ce qu’est une chaîne nominale est donnée sous la forme d’une matrice de reconnaissance dont les lignes et les colonnes sont des filtres catégoriels élémentaires. Ceux-ci ont pour fonction de reconnaître les éléments qui peuvent faire partie d’une chaîne nominale (substantifs, adjectifs antéposés, adjectifs postposés, préposition de et à, articles, verbe infinitif…). La valeur d’une cellule de cette matrice renseigne sur la possibilité qu’un mot dont la catégorie est donnée par la ligne soit suivi d’un mot dont la catégorie est donnée par la colonne. Dans cette matrice, sont indiquées aussi les catégories possibles de début et de fin de chaîne. Cette matrice est donc la représentation d’un automate à états finis, qui reconnaît les chaînes nominales. Il existe aussi une matrice de reconnaissance des chaînes verbales bâtie sur le même principe. Lors de la seconde étape de l’analyse syntaxique, le système identifie les relations de dépendance potentielles entre les mots de la phrase. F. Debili distingue deux types de relations : les relations homo-syntagmatiques, qui s’établissent entre des mots appartenant à une même chaîne nominale ou verbale, et les relations hétéro-syntagmatiques, qui s’établissent entre un mot appartenant à une chaîne nominale et un mot appartenant à une chaîne verbale. Les principales relations homo-syntagmatiques repérées au sein des chaînes nominales sont les relations entre un nom et un adjectif postposé, et entre un nom et une préposition. Les procédures de reconnaissance de ces relations sont définies sous la forme de filtres syntaxiques qui spécifient des contraintes, en terme de catégories et de succession de catégories, sur la séquence de mots qui peut se trouver entre un nom régisseur et un adjectif postposé, et entre une préposition et un nom régisseur. Par exemple, pour la relation Nom-Adjectif postposé, une de ces contraintes est qu’on ne peut trouver entre un nom et un adjectif de prépositions autres que de, à et en, ni de séquences participe passé + préposition. Dans la chaîne nominale « dispositif de surveillance par détecteur à ionisation autonome », le système va identifier deux relations de dépendances à partir de l’adjectif postposé autonome, l’une qui pointe vers le nom ionisation et l’autre vers le nom détecteur. Les noms dispositif et surveillance ne seront pas reconnus comme régisseurs potentiels, car il se situent au-delà de la barrière qu’est la préposition par. Les principales relations hétéro-syntagmatiques sont les relations sujet, complément d’objet et complément d’objet indirect. L’algorithme de reconnaissance du sujet d’un verbe choisit le nom ou le pronom libre, c’est-à-dire non régi par un autre élément, le plus proche à gauche du verbe. Il n’y pas de restriction sur le champ d’investigation, c’est-à-dire pas de contraintes négatives, en terme de barrières, sur la séquence 50 séparative. L’algorithme de reconnaissance du complément d’objet d’un verbe choisit le nom libre le plus proche à droite du verbe. Les barrières sont les chaînes verbales à la forme active, les conjonctions de subordination ou de coordination, les ponctuations, les pronoms sujets. Concernant la relation entre un verbe et une chaîne nominale introduite par une préposition (complément prépositionnel), il est à noter que F. Debilli ne traite que les cas où le verbe est au passif. Il laisse donc de côté les configurations où un verbe à l’actif est suivi d’un complément direct, puis d’un groupe prépositionnel, qui sont pourtant les configurations prototypiques de l’ambiguïté de rattachement prépositionnel mettant en jeu un verbe conjugué. Les règles d’analyse syntaxique sont donc implémentées sous forme d’automates à états finis qui décrivent les parcours possibles entre un élément régisseur (resp. régi) et un élément régi (resp. régisseur), en terme de successions licites ou illicites de catégories morphosyntaxiques. F. Debili ne donne pas de précision dans sa thèse sur l’ordonnancement des traitements, en particulier sur l’ordre d’enchaînement des algorithmes de reconnaissance de relations : y-a-t-il un seul parcours de la phrase, de gauche à droite, au cours duquel un algorithme de reconnaissance est lancé dès que la catégorie du mot courant le justifie, ou bien y-a-t-il autant de parcours de la phrase que de relations ? Comme c’est souvent le cas pour les travaux précurseurs, développés en marge des courants porteurs, les travaux de F. Debili sont assez peu connus. Ils sont cependant cités par Gregory Greffenstette (1994, 1996), quand celui-ci décrit ses travaux, menés dans le même esprit que F. Debili, sur l’utilisation de transducteurs à états finis pour la réalisation d’analyseurs syntaxiques légers et robustes. G. Greffenstette a soutenu en 1983, dans la même équipe et à la même époque que F. Debili, une thèse intitulée « Traitements linguistiques appliqués à la documentation automatique » (Greffenstette, 1983). 2.3.5. Le projet PLNLP Le concept de robustesse a été au centre des préoccupations des chercheurs du Centre de Recherche d’IBM à Yorktown, qui ont travaillé sur le projet PLNLP (Programming Language for Natural Language Processing) pendant les années 1980. Lors de l’édition de 1988 de la conférence COLING organisée à Budapest, Makato Nagao, chercheur à l’université de Kyoto et pionnier de la traduction automatique au Japon, organise une table ronde intitulée « Language Engineering : the real bottleneck of Natural Language Processing »23, qu’il introduit ainsi: The bottleneck in building practical natural language processing system is not those problems which have been often discussed in research papers, but in handling much more dirty, exceptional (for theoreticians, but we frequently encounter) expressions. (Nagao, 1988, p. 448) 23 Selon Ruslan Mitkov (1995), cité par (Cunningham, 2000), c’est de cet intitulé qu’a été reprise l’expression « Natural Language Engineering ». 51 Karen Jensen, du Centre de Recherche d’IBM, propose une intervention dont le titre est « Why computational grammarians can be sceptical about existing linguistic theories ». Elle y expose en quoi les descriptions produites par les théoriciens de la syntaxe ne sont que d’un intérêt limité dès lors que l’on cherche à réaliser des grammaires à large couverture, utiles pour des systèmes opérationnels devant traiter des productions textuelles réelles. Existing theories are of limited usefulness to broad-coverage, real-world computational grammars, perhaps largely because existing theorists focus on limited notions of “grammaticality”, rather than the goal of dealing, in some fashion, with any piece of input text. Therefore, existing theories play the game of ruling out many strings of language, rather than the game of trying to assign plausible structures to all strings. (Jensen, 1988, p. 449) Ce constat est tiré de l’expérience de réalisation d’un système de correction grammaticale et de vérification de style, le système EPISTILE (Jensen et al., 1983). Par définition, le système doit être en mesure de traiter des textes produits en milieu professionnel, comme des lettres, des rapports, des manuels. Le système opère en deux étapes fortement différentes. Au cours de la première étape, une grammaire de base (core grammar) est exploitée pour analyser la séquence en entrée. Cette grammaire de base est censée couvrir le plus largement possible les structures fondamentales du langage. Elle comporte 300 règles, écrites dans le langage NLP (Heidorn, 1972). Quand la grammaire de base conduit à plusieurs analyses pour une sous-séquence, une procédure de désambiguïsation classe les analyses par ordre de plausibilité décroissante et choisit la meilleure. Si la grammaire échoue à reconnaître l’ensemble de la séquence comme une phrase, c’est-à-dire lorsqu’elle ne réussit pas à conclure l’analyse sur un noeud phrase, une procédure d’ajustement d’analyse (fitting procedure) est alors lancée dans une seconde étape. Cette procédure cherche, à partir de l’ensemble des constituants fabriqués lors de la première étape, à produire une approximation plausible de la structure de la séquence initiale en associant certains de ces constituants. Cette procédure est simple. Elle se déroule elle-même en deux temps. Dans un premier temps, elle choisit le constituant qui sera le constituant tête de la séquence, en testant les différents constituants candidats selon cet ordre de préférence : (a) constituant verbal avec verbe conjugué et sujet ; (b) constituant verbal avec verbe conjugué ; (c) constituant non verbal (groupe nominal, groupe prépositionnel…) ; (d) constituant verbal avec verbe non conjugué ; (e) autres. Si plus d’un candidat est trouvé pour une catégorie, la procédure d’ajustement choisit celui qui couvre la plus grande partie de la séquence d’entrée, et en cas de nouvelle égalité le plus à gauche. Dans un second temps, si le constituant tête sélectionné ne couvre pas toute l’entrée, la procédure intègre successivement les constituants restants, à 52 gauche et à droite du constituant tête, selon l’ordre de préférence suivant : les constituants non verbaux, les constituants verbaux avec verbe non conjugué, les constituants verbaux avec verbe conjugué. Par exemple, si la séquence en entrée est Example : Your percentage of $255.00 is $187.50. la grammaire de base échoue à produire une analyse complète de phrase. La procédure d’ajustement tente alors de fabriquer, à partir des constituants extraits lors de la première étape, la structure la plus plausible et utile possible pour cette séquence. Pour trouver un constituant tête, elle recherche des constituants verbaux avec verbe conjugué : elle trouve dans le stock des constituants fabriqués par la grammaire de base : [$255.00 is], [percentage of $255.00 is], [$255.00 is $187.50], etc. Elle choisit le plus long, soit [Your percentage of $255.00 is $187.50]. La procédure cherche ensuite s’il reste des constituants à gauche, et ajoute ainsi le signe de ponctuation [:], puis le nom [Example]. Elle ajoute à droite le point final. Le résultat de l’ajustement est l’arbre ajusté (fitted parse) constitué de la juxtaposition des constituants identifiés : [FITTED [NP Example] [PUNC:] [VP Your percentage of $255.00 is 187.50] [PUNC .] ] L’intérêt de l’approche présentée ne réside pas seulement dans les procédures et techniques concrètes mises en oeuvre pour construire un arbre plausible après un échec d’analyse. L’intérêt tient aussi à l’explicitation de la notion de robustesse en terme d’utilité. L’utilisation concrète des analyses produites par le système dans les applications de correction grammaticale et de vérification de style impose d’abord que le système produise une analyse pour toute séquence en entrée, et spécifie ensuite la forme des analyses qu’il doit produire en cas d’échec de la grammaire de base. La validité des arbres ajustés ne relève pas de la théorie syntaxique, mais de l’utilité pour la suite des traitements. Un autre apport du travail de K. Jensen se situe dans l’identification des « vraies » difficultés auxquelles se heurte un analyseur syntaxique qui reçoit des phrases réelles. C’est ainsi que les « horreurs de ponctuation » (punctuation horrors) rencontrées dans les textes sont élevées au rang de difficulté supérieure pour l’analyse syntaxique : Real-world natural processing must deal with huge amounts of data, which involve many, and messy, details. For example, punctuation is very important in processing real text, but current linguistic theories have nothing substantial to say about punctuation. (Jensen, 1988, p. 449) Enfin, la contribution sans doute la plus importante concerne l’articulation dans un système opérationnel entre la prise en compte de la norme, via la grammaire de base, et la prise en compte des écarts à cette norme, et donc des échecs de la grammaire, par une procédure d’ajustement, dans une architecture incrémentale qui délimite clairement la place et la fonction des deux types d’opérations. Il s’agit d’une implémentation simple mais pertinente de coopération entre une grammaire dans laquelle on souhaite décrire les structures et contraintes de la langue, et une procédure de relâchement qui vient prendre le relais quand la grammaire échoue. La procédure d’ajustement n’est pas conçue 53 comme devant compenser les faiblesses de la grammaire de base, sur son domaine, qui est la reconnaissance des structures de base. Elle est là pour « récupérer » une analyse en cas d’échec de la grammaire, c’est-à-dire quand certaines des contraintes implémentées dans la grammaire de base ne sont pas respectées. «It should be emphasized that a fitting procedure cannot be used as a substitute for explicit rules, and that it in no way lessens the importance of the core grammar. There is a tight interaction between the two components. The success of the fitted parse depends on the accuracy and completeness of the core rules; a fit is as good as its grammar. (Jensen et al., 1983, p. 151) 2.3.6. L’analyse par chunks de S. Abney Les travaux de Steven Abney sont parmi les plus connus parmi ceux publiés ces 15 dernières années dans le domaine de l’analyse syntaxique robuste. Leur renommée tient autant à leur intérêt propre qu’au fait qu’ils ont été publiés à un moment où, face aux difficultés rencontrées par les approches classiques pour réaliser des analyseurs syntaxiques utiles, on s’intéresse plus ouvertement à l’analyse syntaxique robuste. S. Abney développe un analyseur syntaxique (CASS, pour Cascaded Analysis of Syntactic Structure) qui est à la fois rapide et fiable. Abney ne sacrifie pas la qualité pour la vitesse. Il vise l’objectif d’une analyse syntaxique qui soit à la fois plus rapide et plus fiable que ce que réalisent les analyseurs développés dans un cadre classique, sans rabattre le niveau d’exigence en terme de qualité et de profondeur des analyses. Sa réussite repose sur deux concepts clés, le concept linguistique de chunk et le concept informatique de cascade, le second dérivant du premier. Le concept de chunk est issu des travaux de thèse d’Abney sur la structure du groupe nominal anglais (Abney, 1987). Les chunks sont définis à partir des têtes sémantiques (major heads) des principaux types de groupes syntaxiques (NP, VP, PP, AP, AdvP). Tout mot plein est une tête sauf s’il est situé entre un mot fonctionnel (déterminant, préposition…) et le mot plein que ce mot fonctionnel sélectionne. Un chunk est constitué par la séquence des mots entre le mot fonctionnel et le mot tête sélectionné. Par exemple, the bald man est un chunk nominal dont la tête est man, was sitting un chunk verbal dont la tête est sitting, on his red suitcase est un chunk prépositionnel dont la tête est suitcase. Les chunks sont non récursifs. Un chunk a une structure syntaxique qui est un sous-graphe connecté de l’arbre syntaxique de la phrase, mais ce n’est pas nécessairement un constituant syntaxique intégral. Si Abney voit dans certaines expériences psycholinguistiques une validation au plan psychologique de la notion de chunk, c’est bien dans le cadre de l’analyse syntaxique automatique que le concept de chunk acquiert toute sa pertinence. Il joue un rôle clé dans la conception de l’analyseur syntaxique. D’abord, ces unités non récursives que sont les chunks sont simples à reconnaître : A simple context-free grammar is quite adequate to describe the structure of chunks. By contrast, the relationships between chunks are mediated 54 more by lexical selection than by rigid templates (…). The order in which chunks occur is much more flexible than the order of words within chunks. (Abney, 1990b, p. 1) Deux niveaux d’analyse s’imposent : un niveau de base, celui des chunks, et un niveau supérieur, celui des propositions (simplex clauses), au sein desquelles s’établissent les relations entre chunks. L’architecture de l’analyseur est alors la suivante : d’abord reconnaître les chunks, puis délimiter les propositions et enfin établir des liens entre chunks à l’intérieur des propositions. C’est le principe de l’analyse en cascade. L’analyse en cascade consiste en une succession de passes, chaque passe prenant en entrée la séquence des groupes du niveau inférieur pour fabriquer les groupes du niveau courant, qui deviennent eux-mêmes les unités de traitement de la passe suivante. Il n’y a pas de récursivité, les groupes d’un niveau ne contiennent pas de groupes de même niveau ou de niveau supérieur. Dans la seconde version de CASS (Abney, 1996), l’auteur envisage jusqu’à 9 niveaux, mais ils sont au nombre de deux dans la première version (Abney, 1990a, 1990b). Ce partage des tâches, d’abord la reconnaissance des chunks, ensuite la mise en relation des chunks au sein des propositions, présente l’avantage de maîtriser de façon optimale le problème des ambiguïtés de rattachement, qui constitue l’une des difficultés essentielles de l’analyse syntaxique. En effet, selon Abney, il convient de distinguer deux types d’ambiguïtés de rattachement : l’ambiguïté de rattachement à l’intérieur des chunks et l’ambiguïté de rattachement entre les chunks. Du point de vue de la reconnaissance automatique, ces deux types d’ambiguïté sont radicalement différents. Ils doivent être traités de façon séparés, séquentiellement, et avec des méthodes différentes. Au sein d’un chunk, par exemple un chunk nominal constitué d’une séquence de noms ou d’adjectifs, l’identification des rattachements ne peut être pris en charge par l’analyseur syntaxique. Dans le chunk [cherry picker exhaust manifold], toutes les combinaisons de rattachement binaire entre ces 4 éléments sont possibles d’un point de vue syntaxique : [[[cherry picker] exhaust] manifold], [[cherry picker] [exhaust manifold]], etc. Selon Abney, l’ambiguïté n’est pas syntaxique. L’analyseur syntaxique peut retourner le chunk non analysé, avec implicitement toutes les analyses internes possibles. L’ambiguïté est sémantique, et c’est à un module sémantique de finir le travail. Il n’en va pas du tout de même pour l’ambiguïté de rattachement des chunks au sein d’une proposition en revanche. Abney prend l’exemple suivant (VP : chunk verbal, NP : chunk nominal, CP : clause, PP : chunk prépositionnel) : John [VP [met] [NP the woman] [CP he married] [PP in Italy]] Toutes les combinaisons de rattachement binaire entre éléments, au sein de la séquence de 4 éléments constituée du chunk verbal pivot et les 3 groupes qui suivent, ne sont pas syntaxiquement licites. Par exemple, la relative ne peut être attachée au verbe, le chunk prépositionnel ne peut être attaché au chunk nominal. Au sein d’une proposition, il peut y avoir des contraintes syntaxiques fortes pesant sur la détermination des attachements possibles, et la syntaxe doit d’abord dire son mot, avant de passer la main à la sémantique. La notion de chunk induit donc une séparation en deux du problème du rattachement et un partage des tâches qui permet de contrôler la propagation de 55 l’ambiguïté en évitant qu’elle se multiplie entre des niveaux qui sont hétérogènes quant aux principes de désambiguïsation que l’on peut leur appliquer. Aux concepts de chunk et de traitement en cascade, il faut ajouter un troisième principe, indépendant des deux premiers, essentiel dans l’approche promue par Abney, au moins dans ses premiers écrits : séparer autant que possible les règles de grammaire des heuristiques et algorithmes. Dans ses deux articles de 1990, Abney fait référence aux analyseurs PARSIFAL de Marcus (Marcus, 1980) et FIDDITCH de Hindle (Hindle, 1990) pour montrer que l’on peut s’engager avec confiance dans la voie de l’analyse déterministe pour faire des analyseurs rapides et fiables. Néanmoins, tout en souhaitant s’inscrire dans cette lignée, Abney considère que l’analyseur FIDDITCH, qui est l’analyseur adoptant les principes de Marcus possédant la plus large grammaire, montre un certain nombre de limites, qui sont dues en partie à la non distinction des informations grammaticales et heuristiques. On retrouve là le débat récurrent sur la séparation des règles et des algorithmes. Marcus-style deterministic parsing has two related drawbacks. First, the complexity of the grammar development and debugging increases too rapidly. I believe this results partly from the use of a production-rule grammar format, and partly from the fact that grammatical and heuristic information are folded together indiscriminately. Second, if the parser’s best initial guess at every choice point leads to a dead end, the parser simply fails. It is much preferable to separate heuristic information from grammatical information, and use a non-deterministic architecture. As heuristics improve, we approach deterministic parsing on non-garden path sentences. (Abney, 1990b, p. 258) C’est pourquoi dans les deux versions de l’analyseur CASS, Abney développe un ensemble de grammaires hors contexte, une par niveau, chaque règle de grammaire étant donnée sous la forme d’une expression régulière, permettant de reconnaître les chunks du niveau correspondant. Ces grammaires ne constituent pas des descriptions théoriques des structures syntaxiques valides de la langue, comme c’est classiquement le cas, mais des ensembles de patrons de reconnaissance de morceaux de structure syntaxique : The grammar is not viewed as a linguistic description but as a programming language for recognizers. The goal is to write patterns that are reliable indicators of bits of syntactic structure, even if those bits of structure are “boundaries” or “kernels” rather than traditional phrases. (Abney, 1996, p. 339) Dans la version 2 de CASS, chaque expression régulière d’un niveau est transformée en un automate à états finis, et l’union de ces automates produit le reconnaisseur du niveau considéré. C’est la stratégie du plus long chemin qui est adoptée : si le reconnaisseur atteint un état final en plusieurs points, c’est l’état qui conduit au plus large recouvrement du flux en entrée qui est choisi. En cas d’échec, le premier mot est abandonné, et on passe au suivant. Dans la première version de l’analyseur, Abney 56 n’utilise pas l’arsenal des automates à états finis, mais développe un compilateur spécifique pour ses grammaires, dans lequel il implémente un certain nombre d’heuristiques qui font de son analyseur un analyseur non déterministe. Ce compilateur est une version non déterministe d’un analyseur LR (Left-to-right Rightmost derivation), exploitant une recherche best-first. Il y a deux sources de non déterminisme : (1) un mot donné peut appartenir à plus d’une catégorie ; (2) les points où les chunks s’arrêtent ne sont pas marqués explicitement dans le flux de mots entrant, ce qui conduit à des ambiguïtés impliquant des chunks de différentes longueurs. Par exemple dans la phrase « In South Australia beds of boulders were deposited by melting icebergs. », si l’analyseur applique la stratégie du plus long chemin, il va reconnaître le chunk [South Australia beds], alors que la bonne analyse découpe cette séquence en deux chunks [South Australia] et [beds], dont le second est le sujet du verbe. Pour s’approcher d’un comportement déterministe sans perdre en robustesse, le compilateur effectue une recherche best-first, qui s’appuie sur une pondération des actions possibles à chaque itération. A chaque étape de l’analyse, étant donné la configuration en cours, le mot entrant et les règles de la grammaire, un certain nombre d’actions sont possibles : chacune de ces actions reçoit de façon dynamique un poids, qui est une estimation de la probabilité que cette action conduise à la meilleure analyse. Les actions sont alors placées dans la pile des actions possibles qui, à chaque itération, est mise à jour puis triée par ordre de poids décroissants. L’action de plus fort poids est choisie. Et le cycle se répète. Les actions alternatives non choisies restent dans la pile et peuvent ultérieurement passer en tête de liste, ce qui correspond à un retour en arrière dans l’analyse. C’est l’affectation de scores aux différentes actions qui détermine les choix de l’analyseur. Pour le chunker de la première version de CASS, dont la fonction est de reconnaître les chunks, les scores sont déterminés par quatre paramètres. Pour l’attacher, dont la fonction est de reconnaître les liens entre chunks, 2 paramètres supplémentaires s’ajoutent. Les quatre premiers paramètres sont les suivants : - fréquences lexicales relatives : préférer pour un mot la catégorie qu’il a le plus souvent ; - préférences générales sur les catégories : préférer une modification N-N à une modification adjectivale... ; - préférences liées aux conflits rencontrés par l’algorithme LR : préférer une opération shift à une opération reduce ; - préférences liées aux contraintes d’accord : préférer un choix qui ne viole aucune contrainte d’accord. Les deux paramètres supplémentaires exploités par l’attacheur sont les suivants : - préférer l’attachement d’un argument (vs. modifieur)24, préférer l’attachement à un verbe (vs. nom ou adjectif) ; 24 L’auteur ne précise pas comment cette distinction est faite. 57 - préférer un attachement bas. Notons que l’attacheur, contrairement au chunker, exploite aussi des informations sur les propriétés de restriction de sélection des mots, c’est-à-dire la possibilité pour un mot d’avoir un complément direct, obligatoire ou nom, positionné nécessairement après le mot ou non, d’avoir un ou plusieurs compléments prépositionnels ou une subordonnée. Les paramètres sont valués : le logarithme de la fréquence pour le premier, le nombre de violations des préférences pour les autres. Ces paramètres sont pondérés pour avoir une valeur unique. Les paramètres de pondération sont choisis de façon arbitraire, et Abney reconnaît qu’il faudrait les choisir après expérimentation. Pour finir, Abney fait dépendre les scores de façon dynamique du rang dans l’avancée de la phrase : les scores décroissent globalement de façon monotone au fur et à mesure que l’on avance dans l’analyse, ceci pour assurer que la première solution trouvée soit la meilleure… Devant une structure à ce point compliquée, on peut comprendre qu’Abney, dans la seconde version de CASS, ait remplacé son compilateur maison, saturé d’heuristiques quelque peu ad hoc et sans doute difficiles à maintenir, par la machinerie bien huilée des transducteurs, avec comme unique stratégie celle du plus long chemin. On peut aussi supposer que cet abandon a été rendu possible, sans perte en fiabilité de l’analyseur, parce que l’abandon des heuristiques complexes a été compensé par la multiplication des niveaux de traitement. Dans son article de 1996, Abney évoque une grammaire à 9 niveaux. Dans l’exemple qu’il donne en introduction de son article, il apparaît clairement que la tâche d’identification des chunks, qui était réalisée en une seule passe par le chunkeur dans la première version, est ici distribuée sur plusieurs niveaux. On peut donc supposer que les heuristiques qui étaient nécessaires pour obtenir en une seule passe les meilleures analyses perdent de leur utilité quand on exploite à fond le principe de la cascade et que l’on multiplie les étages de l’analyse. La difficulté se reporte alors certainement sur le choix des niveaux et de l’ordre d’enchaînement des traitements. En résumé, les concepts clés de la philosophie d’Abney sont les suivants (Abney, 1996, p. 339) : - Commencer par le plus facile (easy-first parsing). Travailler par passes successives, traitant des problèmes de plus en plus difficiles, en ne prenant que des décisions sûres pour produire à chaque étape des résultats fiables. - S’appuyer sur des îlots de confiance (islands of certainty). Procéder en fabriquant des îlots de certitudes que l’on fait croître petit à petit pour obtenir des groupes de plus en plus larges, toujours en prenant les décisions les plus sûres, même si cela ne conduit pas à reconnaître la structure syntaxique de façon strictement ascendante. - Contenir l’ambiguïté (containment of ambiguity). Ne pas hésiter à reconnaître une relation à longue distance, toujours si la décision est sûre, avant d’avoir reconnu le détail de l’agencement syntaxique entre les deux unités reliées. L’identification des relations à grand empan permet de délimiter des zones de rattachement pour les unités enfermées, contribuant ainsi à contenir l’ambiguïté. 58 Il reste un point qui n’est pas évoqué dans l’article de 1996 alors qu’il est particulièrement mis en exergue dans le premier article de 1990, c’est celui de la réparation d’erreurs (repair) Abney (1990a). Il s’agit de réparer les erreurs faites lors d’étapes antérieures dès qu’elles sont détectées, en modifiant la structure erronée, sans prendre en considération l’histoire du calcul qui a conduit à l’erreur. L’exemple donné concerne le problème de groupes nominaux « à rallonge » (« run-on NP »). Par exemple, dans l’exemple déjà donné plus haut, « In South Australia beds of boulders were deposited by melting icebergs », le chunkeur, en appliquant la stratégie du chemin le plus long, reconnaît le chunk [South Australia beds]. C’est l’attacheur qui, au moment où il cherche un sujet pour le chunk verbal [were deposited], peut détecter une erreur et, si l’analyse alternative en deux chunks [South Australia] et [beds] a été conservée, peut restituer l’analyse correcte. Il n’est pas clair que de telles réparations soient encore possibles dans une approche qui enchaîne strictement de simples transducteurs. 2.3.7. L’analyseur 98 de J. Vergne Jacques Vergne est certainement le chercheur le plus actif en France pour critiquer l’approche classique en analyse syntaxique automatique. Sa première place lors de l’action Grace d’évaluation des étiqueteurs morphosyntaxiques du français (Adda et al., 1998, 1999) donne un poids certain à son entreprise courageuse de critique du courant dominant (Vergne, 1995, 1999 ; Vergne et Giguet, 1998). S’affichant autodidacte en linguistique et en informatique (Vergne, 1999, p. 41), J. Vergne dit ne pas avoir été influencé par le paradigme classique qui voit dans l’analyse syntaxique automatique des langues naturelles une tâche analogue à la compilation des langages informatiques. Selon lui, si les grammaires formelles constituent un outillage adéquat pour modéliser la syntaxe des langages de programmation, elles ne sont pas du tout adaptées à la description des langues naturelles, dont la syntaxe a très peu de caractéristiques communes avec celle des langages formels. Ses arguments sont les suivants : La redondance des formes est une caractéristique des langues, comme de tout code utilisé par des êtres vivants (…) ; comme un langage formel n’est pas redondant, une grammaire formelle n’est pas appropriée à tirer parti de cette redondance, qui constitue pourtant un des fondements du TAL. La récursivité des segments (et donc des règles) est une hypothèse sur les structures profondes de la compétence du locuteur natif, mais elle n’est pas indispensable pour modéliser la syntaxe des langues, car il n’y a jamais une infinité de compléments, ni des insertions multiples illimitées, alors qu’elle est indispensable pour la syntaxe d’un langage de programmation, car il n’y a pas de limite a priori à l’enchâssement des instructions. La polycatégorie (est) inexistante dans les langages formels, (…) le fait qu’une même graphie recouvre plusieurs rôles syntaxiques et plusieurs sens est une conséquence de la correspondance forme-sens non biunivoque dans les langues. 59 (Vergne, 1999, p. 28) Selon J. Vergne, l’hypothèse implicite du courant formel, à savoir que tout l’objet analysé est connu (tous les mots, toutes leurs catégories, toutes les structures), est erronée : « ces attendus sont irréalistes et imposent des rattrapages par des procédures ad hoc (qui exploitent enfin contexte et redondance ») » (Vergne, 1999, p. 29). Ceci explique les échecs des systèmes d’analyse syntaxique basés sur cette hypothèse : temps d’analyse exorbitants, dus à la complexité des algorithmes, absence d’analyse ou multiplicité des analyses pour une phrase. L’analyseur de J. Vergne est structuré en deux phases : le « tagging » (étiquetage morphologique) et la mise en relation (pose de relations de dépendance). Le tagger exploite des ressources lexicales minimales et des règles de déduction contextuelle. A la sortie du tagger, presque tous les mots sont affectés d’une et une seule étiquette. Certaines ambiguïtés résiduelles sont levées au moment de la mise en relation. Le tagging n’est pas conçu comme une désambiguïsation, c’est-à-dire un choix parmi un ensemble d’étiquettes possibles extraites d’une ressource lexicale supposée exhaustive, mais comme un calcul par des règles de déduction contextuelle à partir des étiquettes issues de la ressource lexicale, considérées comme de simples amorces. Le calcul sur le contexte prime sur la consultation du dictionnaire « Le contexte ne filtre pas le lexical supposé exhaustif, mais comble les lacunes du lexical supposé partiel » (op. cit., p. 33). Par exemple, dans « je positive », le tagger affecte l’étiquette de verbe au mot positive, bien que cette forme n’apparaisse qu’avec la catégorie d’adjectif dans la ressource lexicale. De plus, dans le lexique, chaque forme a une catégorie par défaut, qui est affectée systématiquement aux occurrences de la forme dans les phrases. Ce sont les règles de déduction contextuelles qui viennent le cas échéant changer cette étiquette. Le tagger affecte des catégories grammaticales aux mots de la phrase et construit des « syntagmes non récursifs » (SNR), analogues aux chunks d’Abney. Par exemple, de la phrase « L’usine d’Eloyes dans les Vosges représente un investissement de 3,7 milliards de yens. », le tagger extrait et étiquette les SNR de la façon suivante : {l’usine} SNR nominal {d’Eloyes} SNR prépositionnel {dans les Vosges} SNR prépositionnel {représente} SNR verbal {un investissement} SNR nominal {de 3,7 milliards} SNR prépositionnel {de yens} SNR prépositionnel La très grande majorité des tokens est désambiguïsée par les règles de déduction contextuelles, mais il subsiste des mots qui résistent à la désambiguïsation contextuelle locale, et dont le sort ne peut être réglé que lors de la phase de mise en relation. Par exemple, dans la phrase « La présence de Florence Arthaud au milieu d’un plateau de spécialistes montre que cette transat a été la course la plus disputée de ces dix dernières 60 années », c’est lors de l’étape de mise en relation des SNR, au moment d’établir le lien sujet entre présence et montre que ce dernier mot sera étiqueté verbe. Le cas des formes du, de la, des, de l’, de, ainsi que des formes que, qu’ est analogue. Le processus de mise en relation effectué lors de la seconde phase d’analyse consiste à placer des relations de dépendance syntaxique entre les SNR identifiés lors de la phase de tagging. L’algorithme d’analyse est contraint de la façon suivante : la phrase est analysée en une seule passe, de gauche à droite. Au cours de ce processus, le système gère un certain nombre de mémoires. Il stocke les SNR, au fur et mesure de leur traitement, dans des mémoires correspondant aux relations dans lesquelles elles peuvent être prises, étant donné leur catégorie et leur place dans la phrase. Il y a deux types de règles, celles qui placent le SNR courant dans une mémoire et celles qui mettent en relation le SNR courant avec le SNR d’une mémoire. Ces mémoires s’effacent à certains moments de l’analyse, dès qu’une relation est posée. Si on reprend l’exemple « L’usine d’Eloyes dans les Vosges représente un investissement de 3,7 milliards de yens », le processus d’analyse de la phrase ci-dessus. Au moment où le système est positionné sur le premier SNR nominal {l’usine}, il le range dans la mémoire des sujets, ce qui signifie que ce SNR est en attente d’un verbe dont il pourrait être le sujet. Il le range aussi dans la mémoire des noms en attente de complément. Quand le système est positionné sur le deuxième SNR nominal {d’Eloyes}, une première règle le range dans la mémoire des noms en attente de complément, puis une seconde règle le met en relation avec le premier SNR {l’usine}, qui était en tête de la file d’attente dans cette même mémoire. Quand le système est positionné sur le SNR nominal {dans les Vosges}, il le place dans la mémoire des SNR en attente de complément, puis le met en relation avec le SNR {d’Eloyes}. Le système ne semble pas traiter les ambiguïtés de rattachement, puisque ce troisième SNR nominal pourrait tout aussi bien être mis en relation avec le premier SNR {l’usine}. Lorsque le système est positionné sur le SNR verbal {représente}, il place une relation sujet entre ce SNR et le SNR {l’usine} en attente dans la mémoire sujet. Puis il efface de la mémoire des noms en attente de compléments les SNR {d’Eloyes} et {dans les Vosges}. Le choix d’une analyse en une seule passe, gauche droite, détonne un peu dans l’univers de l’analyse syntaxique robuste, où l’on ne se prive pas en général de multiplier les passes et de diversifier les sens d’analyse de la phrase. Chez J. Vergne, ce choix répond au souci affiché d’une certaine plausibilité cognitive du processus d’analyse. D’un point de vue « théorique », J. Vergne voit dans le processus de réception d’une phrase par un humain une phase de traitement syntaxique qui consiste à passer de l’ordre linéaire de la phrase à sa représentation dépendancielle (Vergne, 1999, section 2.3.2). Cette contrainte d’une analyse gauche-droite en une seule passe est forte. Elle complique la tâche en imposant de gérer au fil de l’eau 13 mémoires (mémoire des sujets en attente d’un SNR verbe, mémoire des SNR verbes transitifs en attentes d’un SNR objet, mémoire des que pronoms relatifs en attente d’un SNR verbal transitif, etc.). Sur le fond, la caractéristique essentielle du système d’analyse syntaxique développé par J. Vergne est de relever d’une approche procédurale : il ne s’agit pas d’expliciter dans une grammaire formelle les structures syntaxiques possibles et acceptables, mais 61 d’implémenter via une architecture informatique et des algorithmes les processus d’identification des relations de dépendance syntaxique entre SNR dans une phrase. 2.3.8. L’analyse syntaxique robuste selon J. P. Chanod Dans les années 1980, Jean-Pierre Chanod, alors chercheur au Centre Scientifique d’IBM France, reprend le flambeau brandi par K. Jensen (section 2.3.5) et poursuit la réflexion sur la robustesse en analyse syntaxique. Un bilan de cette réflexion apparaît dans un article, publié en 2000, intitulé « Robust parsing and beyond » (Chanod, 2000). Selon J.-P. Chanod, l’effet le plus spectaculaire du besoin d’approches robustes en TAL a été l’arrivée en force des méthodes statistiques dans toutes les régions du TAL. Mais la robustesse n’est pas une question d’opposition entre des méthodes à base de règles d’un côté et des méthodes statistiques de l’autre : Still robustness is not about statistical vs. rule-based methods. It is not about virtual core languages, be they defined by principles or by frequency counts. It is not even about the quantity of unrestricted text that can be parsed by a given system. Robustness is about exploring all constructions humans actually produce, be they grammatical, conformant to formal models, frequent or not. Linguistic phenomena, regardless of their oddity or frequency, account for meaning of whatever segment of text they appear in. (…) In this view, robustness is a matter of breadth and depth of analysis. Altogether.» (Chanod, 2000, pp. 132–133) J.-P. Chanod multiplie les exemples dans lesquels des principes linguistiques généralement reconnus comme essentiels, en particulier concernant les phénomènes d’accord, sont mis à mal par la réalité des productions langagières attestées dans des textes réels. Voici quelques-uns de ces exemples, qui parlent d’eux-mêmes : Mon adorable chatte Mon chèvre Un cinq tonnes Des tee shirts avec Coca-Cola écrit dessus J’ai perdu mon Madame Bovary Le France s’appelle aujourd’hui le Norway Les premier et dernier chapitres La salle était pleine d’étudiants. Une bonne moitié sont partis avant la fin. On est contentes. Ces exemples sont typiques de cas où les contraintes d’accord ne sont pas respectées. Or, c’est le principe de l’unification de traits lexicaux qui est à l’origine du paradigme très productif des grammaires d’unification, théories dans lesquelles l’unification constitue le 62 moyen élégant de traiter les phénomènes d’accord et de sous-catégorisation. L’abondance dans les textes réels de contextes dans lesquels les principes de base de la grammaticalité sont violés condamne à l’échec toute entreprise de réalisation d’un analyseur qui s’appuierait de façon stricte sur de tels principes. Un tel constat ne remet pas en cause les principes eux-mêmes, mais doit conduire à une réflexion sur l’articulation entre principes grammaticaux et règles de reconnaissance au sein d’un analyseur. Un analyseur syntaxique robuste doit être capable de reconnaître les cas où les principes s’appliquent, mais il doit aussi reconnaître les cas déviants et proposer une analyse. Dans cet esprit, on ne peut assigner à l’analyseur la fonction de distinguer les phrases grammaticales des phrases agrammaticales. Une telle spécification n’aurait de sens que dans un cadre de recherche, par exemple sur l’apprentissage des langues, où l’on s’intéresserait précisément à la capacité humaine de produire des jugements de grammaticalité. La fonction d’un analyseur syntaxique robuste est de reconnaître, parfois « à tâtons », la structure grammaticale d’une séquence en entrée. Il exploite les principes grammaticaux généraux, non pour accepter les phrases grammaticales et rejeter les phrases agrammaticales, mais comme contraintes de base qu’il privilégie pour trouver rapidement une analyse plausible. L’analyseur doit disposer de solutions de repli pour les cas où il reconnaît que l’application de ces principes l’empêche de parvenir à une solution acceptable. C’est le principe du relâchement, fondamental en analyse syntaxique robuste. Par exemple, pour analyser le groupe « mon adorable chatte », on peut introduire une règle qui, dans certains contextes, identifiera la relation entre un déterminant et un nom quels que soient leurs genres respectifs. Cette règle n’est pas pénalisante, même si potentiellement elle permet l’analyse de groupes non grammaticaux comme « mon chatte ». Le fait qu’un analyseur puisse produire une analyse pour des groupes agrammaticaux n’a pas le même caractère fondamentalement disqualifiant que dans l’approche classique, où les grammaires formelles doivent être utilisées tant en analyse qu’en génération. Les analyseurs syntaxiques robustes sont des outils opérationnels de reconnaissance de structures syntaxiques. Le principe de la réversibilité ne tient pas. Le principe de base que J.-P. Chanod met en avant pour caractériser d’un point de vue opérationnel les analyseurs syntaxiques robustes est celui d’incrémentalité. Il a travaillé sur ce principe depuis son arrivée au Centre de Recherche de Xerox à Meylan, en particulier dans le cadre de ses travaux menés avec Salah Aït-Mokhtar sur l’analyseur IFSP (pour Incremental Finite-State Parser) (Aït-Mokhtar et Chanod, 1997a, 1997b). Dans un article publié en 2002 dans la revue Natural Language Engineering, écrit avec Salah Aït-Mokhtar et Claude Roux, Jean-Pierre Chanod décrit avec précision en quoi le principe de l’incrémentalité est un concept clé pour envisager la conception de systèmes d’analyse syntaxique qui soient à la fois robustes, profonds, à large couverture et fiables. Deux propriétés essentielles distinguent l’approche incrémentale des approches classiques en analyse syntaxique automatique : l’autonomie des règles (self-containment) et la décomposition descriptive (descriptive decomposition). L’autonomie des règles. Chaque règle incrémentale est auto-suffisante, toute application de règle est définitive. Les conditions contextuelles dans lesquelles la règle s’applique sont stipulées dans la règle elle-même. Ces conditions sont évaluées sur les 63 connaissances disponibles au moment où le système teste cette règle, en particulier sur les structures partielles déjà construites à ce stade de l’analyse incrémentale. Si les conditions ne sont pas vérifiées, la règle ne s’applique pas, et la structure en cours de construction est passée telle quelle à l’étape suivante du calcul. Si les conditions sont vérifiées, la règle s’applique et la structure en cours de construction est enrichie. Le système ne revient pas sur l’application de cette règle plus tard dans le processus incrémental. Il se peut que la relation de dépendance posée par cette règle soit ultérieurement détruite, si une règle testée à un stade plus avancé détecte une erreur. Mais en aucun cas, le système ne rembobine l’analyse jusqu’au moment où la première règle s’est appliquée. Cette règle n’est pas fautive, elle a simplement pris la meilleure décision possible étant donné les connaissances disponibles au moment où elle a été testée et appliquée. La situation est différente dans les systèmes classiques, où le contrôle que permet l’incrémentalité est absent. Ces règles produisent des hypothèses locales qui doivent se combiner de façon cohérente pour conduire à une analyse globale de la phrase. Le postulat implicite est que les propriétés sous-jacentes du langage, qu’elles soient spécifiées ou non dans la grammaire, vont en quelque sorte guider le processus d’analyse vers l’identification spontanée d’interprétations correctes de la phrase. Ce mode opératoire non contrôlé conduit à des effets de bord indésirables bien connus : explosion combinatoire, ambiguïtés factices, échecs d’analyse. La décomposition descriptive. Pour assurer une couverture la plus large possible, le système doit être capable de traiter la très grande variété des constructions linguistiques que l’on peut trouver dans des textes réels. Ceci exige une granularité fine dans la description linguistique, et impose d’être capable de contrôler des centaines de configurations différentes de façon opératoire. L’incrémentalité permet de décomposer la description linguistique d’un phénomène linguistique donné en un grand nombre de descriptions partielles autonomes. Plus précisément, dans un analyseur incrémental, on décompose la tâche de découverte des configurations répondant à ce phénomène. Par exemple, pour reconnaître les configurations à contrôle de l’infinitif, on aura d’abord reconnu la relation de complément entre un verbe et un verbe à l’infinitif, puis lors d’une étape ultérieure, on aura reconnu une relation de complément entre ce même verbe et un chunk prépositionnel, et enfin encore plus tard dans le processus, une règle spécifique reconnaîtra la structure de contrôle globale de façon simple, sans avoir à reconnaître les différents éléments du puzzle dont chacun a pu être difficile à reconstituer, et qui ont été pris en charge par des modules spécifiques dans l’enchaînement incrémental. Les chercheurs de Centre de Recherche de Xerox ont mis au point un système générique pour construire des analyseurs syntaxiques robustes basés sur le concept d’incrémentalité, c’est-à-dire des systèmes basés sur l’enchaînement en cascade de couches de règles, écrites par un « grammairien »25 : le système XIP. Ce système permet de réaliser des analyseurs prenant en entrée des textes bruts ou des sorties d’autres analyseurs, de type tokéniseur, étiqueteur morphosyntaxique ou chunker. Le formalisme des règles a été conçu pour permettre l’incrémentalité et la profondeur des analyses. Le 25 Le joli terme de grammarian est utilisé par (Aït-Mokhtar et al., 2002, p. 131) 64 système repose sur une représentation unifiée : une séquence d’arbres en constituants. Les noeuds des arbres sont étiquetés par des catégories morphosyntaxiques ou des noms de constituants, et sont associés à des ensembles de traits attribut/valeur. Les règles s’appuient sur une représentation bipartite mais cohérente de l’entrée : des arbres en constituants et des relations de dépendance. Une règle de dépendance a la syntaxe suivante : 1- un schéma d’appariement d’arbre qui spécifie les propriétés structurales d’une portion de la séquence d’arbres en constituants en entrée. 2- une expression booléenne qui spécifie des conditions sur les relations de dépendance et sur la disposition linéaire des tokens ou chunks. 3- un terme de dépendance qui indique quelle est la relation de dépendance à ajouter quand les conditions sont vérifiées. Les arguments de la relation de dépendance sont des variables qui sont exprimées dans la description du schéma d’appariement et dans les conditions. Avec un tel formalisme, il est possible de décrire des règles très riches avec un degré de finesse très précis. Voici, sous une forme non formalisée, quelques règles que les auteurs donnent dans leur article de 2002. Pour identifier les relations de complément d’objet direct, par exemple dans la phrase John enjoys wine. 1- Schéma d’appariement d’arbre : la tête d’un chunk verbal a le trait ‘+transitif’ ; ce chunk verbal est dans une proposition ; dans cette proposition, il est suivi d’un chunk nominal qui n’a pas le trait ‘+temporel’. 2- Conditions : (pas de conditions). 3- Terme de dépendance : placer une relation de complément d’objet direct entre la tête du chunk verbal et la tête du chunk nominal. Pour identifier le partage de fonction dans des structures coordonnées, par exemple dans la phrase John peels and then eats an apple. 1- Schéma d’appariement d’arbre : pas de schéma. 2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) et un nom (#2) (entre eats et apple) ; il y a une relation de coordination entre ce verbe (#1) et un autre verbe (#3) qui le précède (entre peels et eats) ; cet autre verbe (#3) n’a pas de complément d’objet. 3- Terme de dépendance : placer une relation de complément d’objet entre le premier verbe (#3) et le nom (#2) (entre peels et apple). Pour identifier les structures de contrôle de l’infinitif, par exemple dans la phrase Mary orders Fred to close the window. 1- Schéma d’appariement d’arbre : pas de schéma 65 2- Conditions : il y a une relation de complément d’objet entre un verbe (#1) qui a le trait ‘+contrôle infinitif sujet’ et un verbe à l’infinitif (#2) (entre orders et close) ; il y a une relation de complément d’objet entre ce verbe (#1) et un chunk nominal (#3) (entre orders et Fred). 3- Terme de dépendance : placer une relation de sujet entre le verbe infinitif (#2) et la tête du chunk nominal (#3) (entre close et Fred). Les exemples donnés ci-dessus donnent une idée du type de règles que le grammairien doit écrire pour construire le système. Ces règles sont établies en fonction d’un savoir grammatical que possède le grammairien sur les structures qu’il souhaite voir reconnues par le système. Ce savoir grammatical ne se manifeste pas uniquement dans ces règles. Il est aussi dans l’architecture globale du traitement. Au grammairien de choisir quels ensembles de règles vont s’appliquer à chaque couche. Dans une approche par règles, c’est-à-dire où les règles d’analyse sont écrites indépendamment de l’algorithme, il est important que cet algorithme soit connu du grammairien. Dans le cas de XIP, même si cela n’est pas stipulé dans l’article, on peut supposer que les règles s’appliquent dans l’ordre dans lequel elles sont données dans la grammaire, et que chaque règle est testée en parcourant la séquence en entrée de gauche à droite. L’ordre d’enchaînement des couches de traitement et celui des règles au sein d’une couche sont fondamentaux, mais c’est au grammairien de les optimiser en conciliant la connaissance grammaticale et les contraintes d’implémentation. Since the application of a rule of a given stage depends on the background information produced by the previous stages, the correct choice of increments is important and is made on the basis of the identification of various linguistic phenomena and the (possibly multiple) configurations of each phenomenon. The incremental order is determined in such a way that basic and simple phenomena are always described before more complex ones. For a given phenomenon, general and default configurations are modelled before more specific cases and exceptions. (Aït-Mokhtar et al., 2002, p. 136) 2.3.9. Bilan : une lignée A l’issue de cette description de différents analyseurs développés ces 50 dernières années, on pourrait s’interroger sur l’éventuelle existence et unité d’un courant de recherche en analyse syntaxique robuste. En fait, la revue des travaux effectuée dans cette section ne répond pas aux normes du classique «état de l’art » que l’on retrouve dans les disciplines scientifiques, dans lequel on expose comment les résultats obtenus contribuent à l’avancée des connaissances dans un domaine scientifique. Les travaux de présentés ici sont le plus souvent menés par des individus ou des groupes restreints, relativement isolés, selon une démarche ingénierique. Celle-ci laisse un large espace de liberté dans les choix de conception et fait la part belle aux innovations personnelles. On est moins que dans l’accumulation des connaissances que dans la réitération d’efforts visant à la résolution du même problème, celui de l’analyse syntaxique automatique, 66 dans des contextes différents (différences de langues, de contraintes technologiques, de principes de base, d’applications cibles). On peut malgré tout tenter de dégager des récurrences et des points de convergence dans les choix des concepteurs, qui, une fois rassemblés, tracent les contours de ce que Gilbert Simondon, dans sa philosophie des techniques, appelle une lignée (Simondon, 1971) (cf. Chap. 3, section 3.3.2). - Application. Presque tous les travaux visent une application spécifique : la traduction automatique pour Garvin, le résumé d’articles scientifiques pour le projet TDAP, la recherche documentaire pour Debili, la correction grammaticale et la vérification de style pour le projet PLNLP. - Cascade. La majorité des travaux affichent une architecture en cascade, qui organise les traitements en plusieurs passes, sans contrainte sur le sens de parcours de la phrase (gauche-droite, droite-gauche). L’ordonnancement des traitements répond à des principes, plus ou moins explicités, de bons sens : traiter d’abord les relations à plus courte distance et les plus sûres, compléter de façon incrémentale les analyses… Une exception notable est constituée par le choix de J. Vergne qui fait du traitement gauche-droite en seule passe un principe de base dans sa conception de l’analyse syntaxique. - Procéduralité. Aucun des chercheurs ne présente la déclarativité et la séparation nette des règles et des algorithmes comme des principes fondamentaux. Leurs systèmes sont plutôt de style procédural. C’est particulièrement le cas pour P. Garvin, qui juge non tenable le principe de la séparation dès que les systèmes se complexifient. La grammaire de base du projet PLNLP, qui comporte 300 règles, est complétée par une procédure d’ajustement. Dans le cas de l’analyseur XIP, le choix d’un formalisme de haut niveau pour l’écriture de règles répond non pas à des considérations d’ordre théoriques, mais au souci d’impliquer des grammairiens non spécialistes de programmation dans le développement d’analyseurs. - Absence de théorie. Aucun chercheur ne se réclame, de façon forte, d’une théorie linguistique. Même dans la présentation rétrospective, par Joshi et Hopely, de l’analyseur développé dans l’équipe dirigée par le linguiste Z. S. Harris, la référence à la théorie est absente. Néanmoins, S. Abney affirme une pertinence psycho-linguistique à ses chunks, et J. Vergne recourt à une contrainte de plausibilité cognitive pour justifier son choix d’un traitement gauche-droite en une passe. 67 Chapitre 3 Description de l’analyseur SYNTEX 3.1. Principes de base 3.1.1. Analyseur syntaxique opérationnel L’analyseur SYNTEX a été développé à l’origine (Bourigault et Fabre, 2000) pour prendre la suite du logiciel LEXTER (Bourigault, 1994), un analyseur syntaxique robuste dédié au repérage des syntagmes nominaux terminologiques dans les corpus spécialisés et utilisé dans des applications de construction de terminologies ou d’ontologies spécialisées. Les diverses expérimentations réalisées avec LEXTER avaient mis en évidence la nécessité d’étendre la couverture du logiciel à l’extraction des syntagmes verbaux (chap. 1). L’objectif du projet SYNTEX était la construction d’un analyseur syntaxique opérationnel, précis et efficace, qui produise des analyses aussi correctes et complètes que possible, sur des textes de genres variés, avec des temps de traitement raisonnables pour être compatibles avec la nécessité d’absorber des volumes de plus en plus importants ; un analyseur qui soit utilisable dans une large gamme d’applications, que ce soit du côté de la recherche académique, en linguistique, sciences humaines, intelligence artificielle, ou de celui des applications industrielles, pour la construction d’ontologies, le traitement de l’information, la recherche d’information, etc. J’ai choisi de qualifier d’opérationnel, un tel analyseur, en référence à l’expression « operational syntax » utilisé par J. Bar-Hillel son article de 1951, qui constitue le premier état de l’art sur le domaine de la Traduction Automatique (Bar-Hillel, 1951) : A considerable body of descriptive data about the language of the world has been amassed in recent years, but so far no operational syntax of any natural language exists with a sizeable degree of completeness, and the necessity of providing such a syntax has apparently not been recognized by linguists. To give an analogy: Just as even the most extensive knowledge of all imaginable properties of all chemical substances will not materially assist a student of chemistry in developing a method of analyzing a given mixture of unknown chemical substances, so even the 68 most elaborate description of the properties of all morphological units of a given language will not enable a student of linguistics to find, in a reasonable time, a method of analyzing a given sentence-specimen of this language. Chemists have had to write, in addition to their general textbooks, special books instructing the student on how to proceed in a fixed sequential order (order which sometimes depends on the outcome of the preceding step) in his attempted analysis of a given mixture. Likewise special books will have to be written containing sequential instructions for linguistic analysis, i.e. an operational syntax. (Bar-Hillel, 1951, p. 232) Ma conviction au départ de ce projet, forgée lors de l’expérience LEXTER, était qu’il était possible d’avancer vers cet objectif en restant hors du paradigme formel, d’une part, et sans attendre que soient disponibles des ressources lexicales à très large couverture pour le français, d’autre part. Sur le plan de la description linguistique, je me suis appuyé sur une bonne connaissance de la grammaire traditionnelle et des travaux de syntaxe descriptive, et j’ai adopté une démarche de développement empirique basée sur des tests systématiques sur corpus. Sur le plan des ressources, j’ai choisi d’abord de profiter de la disponibilité d’étiqueteurs morphosyntaxiques très performants, et j’ai opté pour une stratégie minimaliste et opportuniste : reprendre et développer l’apprentissage endogène, et construire les ressources nécessaires au fur et à mesure que les besoins apparaissent, autant que possible de façon automatique à partir de grands corpus. 3.1.2. Un problème de reconnaissance de formes Dans le paradigme formel, le problème de l’analyse syntaxique automatique se formule selon le thème de la compilation. La fonction de l’analyseur est de décider si la séquence en entrée est bien formée du point de vue de la grammaire de l’analyseur, et d’en donner une description conforme à cette grammaire. L’analyse est dirigée par la connaissance des structures syntaxiques licites de la langue, formulée de façon générative. A l’instar de bon nombre de chercheurs dont j’ai décrit les travaux dans le chapitre précédent, je n’adopte pas ce point de vue. Je formule le problème de l’analyse syntaxique comme un problème de reconnaissance de formes. La séquence en entrée est supposée avoir une forme, syntaxique, et c’est cette forme que l’analyseur doit approcher au mieux. L’analyseur n’a pas pour fonction de déterminer si une phrase est grammaticalement correcte ou non, il doit fournir une description de la forme syntaxique pour toute séquence du corpus qui lui est donnée. Quelques exemples de séquences extraites de sont donnés en 1-426. 26 Dans ce chapitre, les exemples attestés sont suivis du code du corpus d’origine. [LMO] : Le Monde, décembre 1999 ; [HAN] : un extrait du corpus Hansard ; [STX] : le roman Vol de nuit d’Antoine de Saint-Exupéry. 69 (1) Dans certaines gammes, trop de cigares mal roulés, aux capes imparfaites, présentent des arômes ternes et insipides, sans parler de la contrefaçon, qui touche de nombreux secteurs de la distribution. [LMO] (2) Une mesure impatiemment attendue par les opérateurs concurrents de France-Télécom. [LMO] (3) Si c'est un bon projet de loi, il me semble qu'il devrait mériter une vigoureuse défense de la contribution qu'il apportera à l'amélioration de la vie canadienne. [HAN] (4) Rivière sortit pour tromper l'attente, et la nuit lui apparut vide comme un théâtre sans acteur. [STX] Les séquences à analyser ne ressemblent pas toujours aux phrases des théoriciens de la syntaxe. C’est pourquoi j’emploie le terme de séquence, et non ceux de phrase ou d’énoncé. Dans la communauté des linguistes, il existe des courants forts qui remettent en cause le statut même de la phrase. Ceux-ci se développent d’une part chez les linguistes de l’oral et d’autre part chez ceux qui travaillent sur les discours. Claire Blanche-Benveniste (2002), par exemple, affirme que « La notion vague de phrase usurpe des propriétés qui reviennent de fait aux constructions verbales, comme celles de modes, temps, diathèse ou fonctions (…). Dans la plupart des cas, la phrase n’est pas une bonne unité de calcul pour l’analyse syntaxique (…) » (Blanche-Benveniste, 2002, p. 7). Pour elle, il faudrait distinguer trois domaines de dépendance syntaxique : celui des dépendances par rapport à une catégorie grammaticale (la syntaxe au sens strict), celui des dépendances qui se font en dehors de toute référence à une catégorie de grammaire (la « macro-syntaxe »), et celui des unités énonciatives (op. cit., p. 20). Pour Alain Berrendonner, qui se place dans la perspective de l’analyse des discours, la notion de phrase n’est pas non plus un instrument opératoire : « La phrase est un héritage de la tradition typographique et grammaticale, une notion originellement conçue pour raisonner et normer une pratique utilitaire : la mise en écrit du discours » (Berrondonner, 2002, p. 27). Il propose de remplacer cette notion par deux types de données empiriquement fondées : la clause et la période. Les clauses sont des « îlots de dépendance grammaticale » (op. cit., p. 27). Les périodes sont des secteurs de discours délimités par des marques prosodiques ad hoc. La syntaxe de la clause est bien connue, c’est la syntaxe au sens strict. Celle des périodes est d’un tout autre ordre. Il faut, pour la caractériser, introduire la notion de « mémoire discursive », c’est-à-dire « une représentation des savoirs publiquement partagés par les interlocuteurs » (op. cit., p. 30) : les unités minimales de la période sont les clauses (plus précisément des énonciations de clauses), et chaque énonciation opère des transformations de la mémoire discursive. K. Gerdes et S. Kahane (2006) reprennent la la distinction entre micro- et macrosyntaxe pour mettre en place leur modèle topologique du verbe en français. Pour décrire les formes syntaxiques, j’ai choisi le mode de représentation en dépendance. Le principe de la représentation syntaxique d’une phrase par un arbre de dépendance est que, dans une phrase, la présence de chaque mot est légitimée par la présence d’un autre mot ; on représente cet état de fait par un lien syntaxique entre le second mot (le 70 gouverneur) et le premier (le dépendant). L’arbre constitué des mots et des liens syntaxiques constitue ce que Lucien Tesnière appelle un stemma (Tesnière, 1959). Au moment de passer de LEXTER, analyseur centré sur le groupe nominal, à SYNTEX, censé avoir une couverture beaucoup plus large, j’ai abandonné la constituance pour la dépendance. Le choix de la dépendance s’est immédiatement et très naturellement imposé, car il permet une formulation simple et opératoire du problème de l’analyse syntaxique, vue comme un problème de reconnaissance de formes. On peut décomposer le problème de la reconnaissance de la structure syntaxique d’une phrase en sous-problèmes locaux de reconnaissance de liens syntaxiques. Dans (Bourigault et Fabre, 2000), en reprenant les termes de la syntaxe posito-argumentale de J.-C. Milner (Milner, 1989), nous formulions le problème de la reconnaissance syntaxique de cette façon : pour chaque mot de la séquence, identifier sa position dans la structure syntaxique à partir de sa place dans l’énoncé. Je le reformule ici de façon plus précise : pour chaque mot de la séquence, trouver son gouverneur. La procédure d’analyse qui s’impose alors avec cette formulation de problème est ascendante. Les formes syntaxiques se révèlent au fur et à mesure que l’analyseur reconnaît les liens syntaxiques entre mots. Pour décrire la forme syntaxique des séquences, je reprends la terminologie de Berrendonner, et je définis, dans SYNTEX, une clause comme la projection d’un arbre de dépendance syntaxique dont le gouverneur ne dépend d’aucun autre mot dans la séquence. Dans une séquence, l’analyseur peut reconnaître plusieurs clauses ; celles-ci sont alors simplement juxtaposées, aucune relation n’est placée entre elles par l’analyseur. Les clauses, leur délimitation et leur forme, émergent de l’analyse et sont révélées à l’issue du processus. Par exemple, la forme de la séquence 1 est la juxtaposition de 3 clauses : - la première clause (Dans certaines gammes) est l’îlot rectionnel dominé par la préposition dans en tête de séquence. Soit SPNom son étiquette. - la deuxième clause (trop de cigares mal roulés, aux capes imparfaites, présentent des arômes ternes et insipides) est l’îlot rectionnel dominé par la forme verbale finie présentent. Soit S son étiquette. - la troisième clause (sans parler de la contrefaçon, qui touche de nombreux secteurs de la distribution) est l’îlot rectionnel dominé par la préposition sans, elle-même gouvernant la forme infinitive parler. Soit SPVinf son étiquette. La forme globale de la séquence 1 est donc : [SPNom] , [S] , [SPVinf], la forme de chacune des trois clauses étant donnée par un arbre de dépendance. La préposition dans, le verbe présentent et la préposition sans n’ont été rattachés à aucun gouverneur par l’analyseur. Les formes des séquences 1-4 sont données en 1’-4’ (les gouverneurs non dépendants sont soulignés). (1’) [SPNom] , [S] , [SPVinf] : [SPNom Dans certaines gammes ] , [S trop de cigares mal roulés, aux capes imparfaites, présentent des arômes ternes et insipides ] , [SPVinf sans parler de la contrefaçon, qui touche de nombreux secteurs de la distribution ] . 71 (2’) [SNom] : [SNom Une mesure impatiemment attendue par les opérateurs concurrents de France-Télécom ] (3’) [SSub] , [S] : [SSub Si c'est un bon projet de loi ] , [S il me semble qu'il devrait mériter une vigoureuse défense de la contribution qu'il apportera à l'amélioration de la vie canadienne ] (4’) [S] , CC [S] : [S Rivière sortit pour tromper l'attente ] , [cc et ] [S la nuit lui apparut vide comme un théâtre sans acteur ] . Dans une séquence donnée, il y a autant de clauses que de mots non gouvernés. Ces mots sont parfois isolés, quand ils n’ont eux-mêmes aucun dépendant. Le non-attachement d’un mot à un gouverneur peut être le résultat d’un choix d’implémentation, comme celui de ne pas chercher de gouverneur aux prépositions ou adverbes situés en position initiale de séquence (l’adverbe en revanche dans l’exemple 5, la préposition sur dans l’exemple 5, la préposition en dans l’exemple 6), aux conjonctions de subordination autres que que (la conjonction alors que dans l’exemple 6). Le non-attachement d’un mot peut aussi être la manifestation d’une erreur de l’analyseur. Dans l’exemple 7, l’analyseur n’a pas reconnu la bonne catégorie pour la forme que, qu’il n’a pas réussi à attacher, de même qu’il n’a pu attacher la préposition dans, ce qui produit par erreur la clause dans le giron de la Russie. De même, dans l’exemple 8, la clause des mesures préventives est identifiée à tort à cause de la non reconnaissance du segment si nécessaire, dans lequel si est étiqueté Adverbe. (5) [Adv] , [SPNom] , [S] : [Adv En_revanche ] [,] [SPNom sur la libéralisation des services ] [,] [S les pays industrialisés ont peu de divergences ] (6) [SPNom] , [S] [SSub] : [SPNom En Thaïlande ] [,] [S le coût mensuel d' une trithérapie est de 675 dollars ] [SCSub alors qu'un employé du secteur tertiaire gagne le plus souvent 120 dollars par mois ] (7) [S] [Sub] [SPNom] : [S Ils ne peuvent trouver leur bonheur ] [Sub que ] [SPNom dans le giron de la Russie ] (8) [S] [SAdj] [SPNom] : [S C'est la raison pour laquelle Grenoble a été choisie pour étudier ce phénomène propre aussi à certaines vallées alpines et prendre ] [,] [SAdj si nécessaire ] [,] [SPNom des mesures préventives ] 3.1.3. Fonctionnement simplifié SYNTEX est un analyseur procédural à cascade. Le terme à cascade signifie qu’il traite chaque séquence en plusieurs passes successives. L’entrée d’une passe est la sortie de la passe précédente. La séquence donnée en entrée à l’analyseur est étiquetée : elle est découpée en mots (token), à chaque mot est associée une catégorie grammaticale (nom, verbe, adjectif…). J’utilise le TREETAGGER27. A chaque passe, l’analyseur ajoute des 27 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ 72 liens syntaxiques, en s’appuyant sur les liens placés lors des passes antérieures. Le terme procédural signifie que les liens syntaxiques sont placés par des heuristiques qui décrivent l’algorithme de parcours de la chaîne des mots étiquetés partiellement analysée entre un mot donné et un gouverneur ou dépendant potentiel. L’analyseur SYNTEX est très proche, dans sa philosophie, de l’analyseur FULCRUM de P. S. Garvin (Garvin, 1967), avec sa méthode par passes et ses mots pivots (chap. 2, section 2.3.2). L’analyseur est aussi modulaire : chaque type de lien syntaxique (sujet, objet…) est pris en charge par un module dédié. J’illustre de façon simplifiée le fonctionnement de l’analyseur en déroulant pas à pas le traitement de la séquence 1. En préalable à l’analyse syntaxique, l’étiqueteur morphologique a découpé la séquence en mots et a attribué une étiquette morphosyntaxique à chacun des mots (N : nom, V : verbe, D : déterminant, P : préposition, A : adjectif) (2). Il a reconnu la préposition complexe en direction du. (1) Marie lance la pelote de laine rouge en direction du chat de Jean. (2) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . D N P N V D N P N A P N P N Lors d’une première passe, l’analyseur traite les relations dites « locales ». Il reconnaît par exemple des liens syntaxiques entre un déterminant et son gouverneur, entre une préposition et son dépendant, entre un auxiliaire et son participe passé (3). (3) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . Lors d’une deuxième passe, l’analyseur traite les relations dites « non ambiguës ». Il reconnaît dans la séquence 1 le lien Sujet entre le verbe lance et le nom fille et le lien Objet entre le verbe lance et le nom pelote (4). Les flèches en pointillés sous la séquence marquent les étapes du parcours entre les extrémités des liens syntaxiques. Les barres verticales sous les mots marquent les fins de parcours. Le module de recherche des sujets se positionne sur le verbe conjugué lance et se déplace vers la gauche à la recherche d’un dépendant pour ce gouverneur. Il rencontre d’abord le nom Marie qui est déjà gouverné (par la préposition de), puis le nom fille, situé immédiatement à gauche de la préposition. Le module retient ce nom, puisqu’il est libre, et stoppe son parcours puisque le déterminant gouverné par ce nom est le premier mot de la séquence. Le module de recherche des objets se positionne sur le verbe transitif lance et se déplace vers la droite à la recherche d’un dépendant pour ce gouverneur. Il rencontre d’abord le déterminant la et « remonte » à son gouverneur pelote. Puisque ce nom est libre, il le retient comme cible de la relation, et stoppe sa recherche. (4) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 73 Lors d’une troisième passe, l’analyseur traite les relations dites « non ambiguës ». Il recherche les gouverneurs potentiels des adjectifs et des prépositions. Pour des raisons de lisibilité, je décompose la description en commentant le traitement des 3 prépositions de (5a), puis de l’adjectif rouge (5b) et enfin de la préposition en direction du (5c). Pour la première préposition de, le module de recherche des gouverneurs des prépositions reconnaît sans ambiguïté le nom fille comme gouverneur. Pour la deuxième préposition de, le module retient d’abord le nom pelote situé immédiatement à sa gauche, puis remonte directement au verbe lance, gouverneur de ce nom et situé à gauche, qu’il retient comme deuxième gouverneur candidat, et il stoppe la recherche sur ce verbe conjugué. Il a donc retenu 2 gouverneurs candidats pour cette préposition. Pour la troisième préposition de, le module retient d’abord le nom chat situé immédiatement à sa gauche, puis remonte directement à gauche de la préposition qui gouverne ce nom, pour se saisir de l’adjectif rouge, puis du nom laine, avant de remonter à la deuxième préposition de, gouverneur de ce nom, dont il récupère tous les gouverneurs candidats. Il a donc retenu 4 gouverneurs candidats pour cette préposition. (5a) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . Pour trouver le gouverneur de l’adjectif rouge (5b), le module de recherche des gouverneurs nominaux des adjectifs part de cet adjectif, se déplace à gauche et sélectionne le nom laine comme candidat, puis, situé immédiatement à gauche de la préposition gouvernant ce nom, le nom pelote. La recherche s’arrête car ce second nom est gouverné par un verbe qui ne se construit pas avec un attribut. Le module a donc retenu 2 gouverneurs candidats pour cet adjectif. (5b) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . De façon analogue (5c), le module de recherche des gouverneurs des prépositions identifie comme gouverneurs candidats pour la préposition en direction du les mots rouge, laine, pelote et lance. A la fin du traitement des relations ambiguës, l’analyse a produit le treillis (5d). La procédure de désambiguïsation qui intervient à l’issue de ce traitement produit le résultat 5e. Le résultat final complet de l’analyse est l’arbre de dépendance 5f. (5c) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . 74 (5d) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . (5e) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . (5f) La fille de Marie lance la pelote de laine rouge en_direction_du chat de Jean . Dans l’activité de conception et de développement de l’analyseur, les problèmes à résoudre relèvent de deux grands types : au niveau macroscopique, ils concernent le choix de l’architecture du système : dans quel ordre enchaîner la reconnaissances des liens syntaxiques (3.1.4) ; au niveau microscopique, ils concernent la mise au point des algorithmes de parcours pour la reconnaissance des liens syntaxiques (3.1.5). 3.1.4. Architecture SYNTEX effectue une analyse ascendante. Il identifie progressivement les liens de dépendance syntaxique élémentaires pour reconnaître in fine la forme syntaxique globale de la séquence en entrée. Des questions se posent alors concernant la stratégie à adopter pour traiter l’ensemble des mots de la phrase : dans quel ordre entreprendre la reconnaissance des liens syntaxiques ? De gauche à droite ? Relation par relation ? Combien de passes ? Quels types de liens reconnaître à chaque passe ? Quand on vise un analyseur syntaxique opérationnel, il n’y a pas lieu de s’imposer des contraintes de type cognitif sur l’architecture du système et rien n’exige a priori d’adopter un traitement incrémental, de gauche à droite, sans retour en arrière. Les questions posées sont propres à la problématique de développement d’un analyseur opérationnel, et les enjeux relèvent crucialement de l’ingénierie linguistique. La difficulté de fond vient de l’antinomie entre la contrainte de séquentialité des traitements informatiques et l’intrication des liens syntaxiques dans un énoncé. Celle-ci est liée à la propriété de concrétion de la langue (Milner, 1989, p. 113), qui fait qu’une difficulté syntaxique ne vient jamais seule. Dans un énoncé, les configurations syntaxiques problématiques se mêlent et s’enchevêtrent. Par exemple, du point de vue du traitement automatique, on sait que la coordination et le rattachement prépositionnel constituent chacun un problème sérieux. Mais les cas ne sont pas rares où l’analyseur doit résoudre les deux problèmes dans la même zone de la séquence. C’est le cas dans l’exemple 6, où les ambiguïtés de rattachement de la deuxième préposition à (devant agriculture) et de la préposition aux se mêlent avec celle de la coordination. (6) La commission européenne s'oppose à une limitation des discussions à l'agriculture et aux services. [LMO] 75 De façon générale, l’antinomie entre séquentialité informatique et concrétion syntaxique débouche sur une double circularité : (1) pour reconnaître un lien syntaxique de tel type (Sujet, Objet, etc.) pour un mot de l’énoncé, il faudrait avoir déjà reconnu un lien d’un autre type pour un autre mot, et réciproquement ; (2) pour reconnaître un lien syntaxique pour un mot à telle place dans l’énoncé, il faudrait avoir déjà reconnu un lien à gauche, ou à droite, et inversement. Quelques exemples (construits) permettent illustrer cette circularité. Dans l’exemple 7, c’est la reconnaissance du lien syntaxique entre l’adjectif roses, dernier mot de l’énoncé, et le nom bonbons qui permet la reconnaissance sans ambiguïté du nom bonbons comme gouverneur de la préposition à. Le problème de la circularité est porté à son comble avec la coordination. Dans l’exemple 8, il serait préférable d’avoir reconnu le liens Objet entre aime et chat d’une part et le lien Sujet entre dort et chien d’autre part pour identifier correctement le statut du coordonnant. Dans l’exemple 9, la situation est plus compliquée. Pour reconnaître le lien Sujet entre dorment et chats, il faudrait avoir identifié le fait que le coordonnant et relie hommes et oiseaux, objets de regardent. Et réciproquement… (7) Il donne des bonbons à la fraise roses. (8) Jean aime le chat et le chien dort. (9) Les chats qui regardent les hommes et les oiseaux dorment. Deux ordres de séquentialité interagissent dans le traitement informatique, correspondant à la double circularité évoquée ci-dessus : l’ordre dans lequel on prend les mots dans la phrase (de gauche à droite, de droite à gauche), l’ordre dans lequel on traite les relations (identification des sujets avant ou après les objets, rattachement des prépositions avant ou après les adjectifs, etc.). La difficulté est réelle, et grande peut être la tentation de chercher à mettre en place des solutions d’un niveau de complexité qui serait à la hauteur de la difficulté du problème : par exemple, décider de générer tous les possibles, en repoussant au terme de l’analyse le choix de la bonne description dans le fouillis du treillis. Pour aboutir à un analyseur opérationnel, il faut savoir maîtriser la complexité, et accepter le risque d’erreur. Il faut trouver un ordonnancement optimal tel que les quelques pertes entraînées par des décisions précoces soient largement compensées par les gains ultérieurs permis par la pose anticipée de liens syntaxiques. Au départ du projet, j’ai choisi l’architecture et les principes suivants : - Une passe par relation, dans cet ordre : coordination, objet, sujet, adjectif épithète, prépositions. - Aucun module ne remet en cause les relations ou étiquettes placées par les modules antérieurs. - Chaque module résout ses ambiguïtés avant de passer la main au module suivant. Cette stratégie initiale de base, cloisonnée, a été rapidement opérationnelle et m’a permis d’enclencher le cycle de développement par essai/erreur des heuristiques des différents modules de connaissance de liens syntaxiques et des procédures de désambiguïsation, endogènes et exogènes. C’est en développant et évaluant ces modules que j’ai pu identifier les limites de l’architecture initiale, et imaginer des stratégies adéquates 76 sensiblement plus complexes, pour aboutir à l’architecture présentée dans la section suivante de ce chapitre (3.2). 3.1.5. Algorithmes de reconnaissance Le second type de problème, après celui de l’architecture, que pose le développement de l’analyseur est celui de la mise au point des modules de reconnaissance de liens syntaxiques. Dans chaque module est décrit un algorithme qui spécifie les parcours possibles, dans la séquence étiquetée et partiellement analysée, entre un mot de départ, susceptible d’être la cible ou la source d’un lien de dépendance et son gouverneur ou un de ses dépendants. Cet algorithme doit permettre de couvrir le maximum de configurations de surface susceptibles de se réaliser entre un dépendant et son gouverneur. L’élaboration de ces modules exige la mise au jour de contraintes syntaxiques locales sur lesquelles s’appuyer pour déterminer les procédures de reconnaissance des liens syntaxiques. Certaines de ces contraintes sont générales, en particulier la contrainte de projectivité (de façon générale, les liens syntaxiques ne se croisent pas) et la contrainte d’unicité du gouverneur (de façon générale, un mot n’a qu’un seul gouverneur). Mais à chaque relation syntaxique correspond des configurations particulières qui imposent des contraintes spécifiques. Par exemple, concernant le module qui recherche les sujets, quelles étiquettes morphosyntaxiques ou quelles configurations syntaxiques, décrites en termes soit de succession d’étiquettes, soit de liens syntaxiques, est-il légitime de sauter pour atteindre un sujet en partant d’un verbe conjugué ? Quelles sont celles au contraire qui constituent des barrières à ne pas franchir ? Pour identifier ces contraintes, et en déduire les algorithmes d’analyse, la voie la plus efficace est celle de la confrontation systématique aux corpus par essai/erreur, de l’aller et retour incessant entre l’implémentation et l’observation. C’est en implémentant et testant les algorithmes à grande échelle que l’on améliore la précision et la couverture des modules de reconnaissance. Cela est d’autant plus vrai que face à des énoncés réels, on est confronté à des configurations syntactico-discursives sur lesquelles les grammaires ou les théories syntaxiques sont peu loquaces. Par exemple, le traitement des coordonnants et des virgules (apposition, incise, coordination, énumération), qui foisonnent dans les textes réels, exigent le développement de procédures d’analyse complexes, qui empruntent peu aux descriptions linguistiques classiques, et qui exigent en revanche une analyse en corpus détaillée. Les théories syntaxiques sont de peu de secours. Les oeuvres des grands noms de la dépendance, comme Tesnière (1959) et Mel’cuk (1988), sont passionnantes et stimulantes pour le grammairien qui sommeille dans tout concepteur d’analyseur. Mais elles fournissent peu de clés pour la mise au point d’un système automatique de reconnaissance de formes dépendancielles. Tel n’est pas leur propos. Les problèmes pratiques liés à la reconnaissance automatique de la structure syntaxique d’une phrase et les problèmes théoriques liés à la description syntaxique sont de deux ordres différents. 77 Néanmoins, même si le développement de l’analyseur n’emprunte rien directement aux grammaires ou aux travaux de descriptions syntaxiques, il est impossible de mener à bien cette tâche sans une bonne connaissance de ces travaux. D’abord, et c’est le minimum, parce que le concepteur doit être capable de d’identifier lui-même l’analyse attendue face à toute configuration avant de chercher à modéliser des procédures de reconnaissance. Ensuite, il doit reconnaître des phénomènes syntaxiques identiques derrière la multiplicité des configurations syntaxiques de surface qu’il observe quand il dépouille un corpus en examinant les cas d’application des règles qu’il élabore. Il doit donc être expert en grammaire. Enfin, le recours à des théories et descriptions syntaxiques est utile pour motiver tel choix de représentation pour certaines relations de dépendance qui peuvent poser problème : quel est le gouverneur, quel est le dépendant, et dans quel sens s’établit la relation de dépendance, dans le cas, par exemple, des complexes verbaux, des structures comparatives, de la coordination. 3.2. Description des modules 3.2.1. Enchaînement des modules de reconnaissance L’organisation de SYNTEX est modulaire (section 3.1.4). Il y a un module par type de relation traitée (coordination, sujet, objet…). Un module est constitué d’un algorithme décrivant les parcours possibles entre un mot de départ, passé en argument, un mot d’arrivée auquel il est syntaxiquement relié via R. Le mot de départ est soit la source du lien syntaxique (le gouverneur), et dans ce cas l’orientation de la recherche est celle de la relation syntaxique (« orientation directe »), soit la cible (le dépendant), et dans ce cas l’orientation de la recherche est inverse de celle de la relation syntaxique (« orientation inverse »). Comme je l’ai évoqué dans la section 3.1.4 à propos de l’architecture de l’analyseur, le choix de l’ordonnancement des modules est délicat. A ce stade du développement de SYNTEX, j’ai convergé vers une organisation stable qui identifie, du point de vue du traitement automatique, trois grandes catégories de relations, correspondant à trois catégories de modules qui s’enchaînent dans cet ordre : - Les relations locales (section 3.2.3). Il s’agit, par exemple, des relations entre un déterminant et le nom qui le gouverne, entre une préposition et son dépendant, entre un auxiliaire et un participe passé. Les liens syntaxiques correspondant connectent des mots qui sont très proches, et les procédures de reconnaissance sont simples - Les relations non ambiguës (sections 3.2.5 et 3.2.6). Il s’agit des relations Objet, Attribut et Sujet. Les modules associés sont à orientation directe : chaque module part du gouverneur (verbe) à la recherche du dépendant. Le problème de la reconnaissance se formule pour chacune des relations de la façon suivante : sélectionner le premier mot non gouverné (de telle ou telle catégorie, situé à droite ou à gauche, selon la relation). Ces modules ne génèrent aucune ambiguïté. 78 - Les relations ambiguës (sections 3.2.7 à 3.2.12). Il s’agit de la relation entre un pronom relatif et son antécédent, la relation entre une préposition et son gouverneur et la relation entre un adjectif et le nom dont il est épithète. Les modules associés sont à orientation inverse : chaque module part du dépendant (pronom relatif, préposition, adjectif) à la recherche du gouverneur. Contrairement au cas précédent, la recherche ne doit pas s’arrêter au premier gouverneur trouvé. Plusieurs gouverneurs candidats peuvent être sélectionnés, qui sont tous syntaxiquement également plausibles : ils ne peuvent être départagés sur de simples critères de configuration syntaxique. Ces relations imposent donc une étape de désambiguïsation. La relation de coordination a un statut à part ; elle est traitée immédiatement après les relations locales (section 3.2.4). Un module global intervient en fin de traitement (section 3.2.13) pour modofoer certains liens syntaxiques posés par les modules antérieurs, ajouter des liens syntaxiques « profonds » et construire la forme syntaxique globale de la séquence. Avant de décrire en détail les différents modules, je présente, dans la section suivante, les primitives d’implémentation utilisées dans les algorithmes de parcours. 3.2.2. Formalisation du parcours Dans le développement de l’analyseur SYNTEX, l’essentiel du travail porte sur la mise au point des algorithmes décrivant les parcours possibles, dans la chaîne étiquetée et partiellement annotée, entre les deux extrémités d’un lien syntaxique : entre un dépendant et son gouverneur pour les modules à orientation inverse, entre un gouverneur et un de ses dépendants pour les modules à orientation directe. J’ai défini un certain nombre de fonctions primitives de calcul des pas de déplacement dans les parcours. Ces primitives exploitent la propriété de projectivité ; sauf cas particuliers, les arbres de dépendance construits par SYNTEX sont projectifs : « en plaçant les noeuds sur une ligne droite et tous les arcs dans le même demi-plan, on peut assurer que 1) deux arcs ne se coupent jamais et que 2) aucun arc ne couvre la racine de l’arbre. (…) La projectivité est équivalente au fait que la projection de tout noeud x de l’arbre (c’est-à-dire l’ensemble des noeuds dominés par x, x compris) forme un segment continu de la phrase. » (Kahane, 2001, p. 26). Les primitives de déplacement exploitent cette propriété en calculant les pas de déplacement de telle sorte qu’un lien posé entre un point d’arrêt et le point de départ du déplacement ne croise aucun lien déjà placé. Avant de décrire ces fonctions, j’illustre l’idée avec un exemple figuré. Supposons (exemple 1) qu’un module à orientation directe cherche un dépendant du mot f à sa gauche, et qu’aient été placés les liens entre les mots a et c et entre les mots c et e (par exemple, f est un verbe, le module cherche son sujet, certains liens prépositionnels ou adjectivaux ont été placés). Au moment d’entamer son parcours à gauche, le module ne peut s’arrêter sur le mot e car celui-ci a déjà un gouverneur (principe de l’unicité du gouverneur) (exemple 2). Il ne peut s’arrêter sur le mot d car un lien syntaxique entre les mots f et d viendrait couper un lien déjà placé (principe de la projectivité) (exemple 3). 79 Le module ne peut s’arrêter sur le mot c ou sur le mot d pour des raisons analogues. Le premier pas du parcours doit conduire au mot a (exemple 4), qui sera ainsi le premier mot testé comme dépendant de f. (1) a b c d e f ? (2) a b c d e f ! (3) a b c d e f ! (4) a b c d e f Les fonctions primitives permettent d’implémenter le calcul des pas de parcours. Avant de les décrire, quelques notations : Soit un mot, soit i son numéro, c’est-à-dire son rang dans l’énoncé segmenté : Gov(i) est l’ensemble constitué du couple (R,L). R est le nom d’une relation syntaxique. L est une liste de numéros de mots. Quand la relation syntaxique R pointant sur i a été désambiguïsée, la liste L ne comporte qu’un seul élément, qui est le gouverneur de i via la relation R. Quand la relation syntaxique R pointant sur i n’a pas été désambiguïsée, la liste L contient les numéros des gouverneurs candidats de i via la relation R. Gov(i)={(R,{j1, …, jn}), où n est le nombre de gouverneurs candidats de i, via la relation R} Dep(i) est l’ensemble des couples (Rj,j), tels que le mot j est le dépendant de i via la relation Rj. Un mot peut avoir plusieurs dépendants. Les couples sont ordonnés par valeur croissante de j. Le couple (Rj,j) n’intègre l’ensemble Dep(i) que quand la relation Rj a été désambiguïsée, c’est-à-dire si Gov(j)={( Rj,i)}. Dep(i)={(Rj,j), pour j=j1, …, jn, où n est le nombre de dépendants de i} Je donne ci-dessous quelques exemples illustratifs (exemples 5 et 6, tableaux 1, 2 et 3). SUJ est la relation sujet ; OBJ est la relation complément d’objet ; DET est la relation entre un nom et son déterminant ; PREP est la relation entre une préposition et son gouverneur ; CPREP est la relation entre une préposition et son dépendant ; ADJ est la relation entre un adjectif et son gouverneur nominal. 80 (5) Le1 chat2 de3 Marie4 regarde5 la6 souris7 grise8 . i Mot Gov(i) Dep(i) 1 Le {(DET, {2})} Æ 2 Chat {(SUJ, {5})} {(DET, 1), (PREP, 3)} 3 De {(PREP, {2})} {(CPREP, {3})} 4 Marie {(CPREP, {3})} Æ 5 Regarde Æ {(SUJ, 2), (OBJ, 7)} 6 La {(DET, {7})} Æ 7 Souris {(OBJ, {5})} {(DET, 6), (ADJ, 8)} 8 Grise {(ADJ, {7})} Æ Tableau 1. Fonctions Gov et Dep pour l’exemple 5 81 (6) Marie1 regarde2 le3 chat4 gris5 sur6 le7 paillasson8 . i mot Gov(i) Dep(i) 1 Marie {(SUJ, {2})} Æ 2 regarde Æ {(SUJ, 1), (OBJ, 4)} 3 le {(DET, {4})} Æ 4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5)} 5 gris {(ADJ, {4})} Æ 6 sur {(PREP, {5,4,2})} {(CPREP, {8})} 7 le {(DET, {8})} Æ 8 paillasson {(CPREP, {6})} {(DET, 7)} Tableau 2. Fonctions Gov et Dep pour l’exemple 5, avant désambiguïsation de la relation PREP pointant sur 4 i mot Gov(i) Dep(i) 1 Marie {(SUJ, {2})} Æ 2 regarde Æ {(SUJ, 1), (OBJ, 4)} 3 le {(DET, {4})} Æ 4 chat {(OBJ, {2})} {(DET, 3), (ADJ, 5), (PREP, 6)} 5 gris {(ADJ, {4})} Æ 6 sur {(PREP, {4})} {(CPREP, {8})} 7 le {(DET, {8})} Æ 8 paillasson {(CPREP, {6})} {(DET, 7)} Tableau 3. Fonctions Gov et Dep pour l’exemple 5, après désambiguïsation de la relation PREP pointant sur 4 On dispose de deux fonctions de base, qui donnent pour un mot donné dans une séquence partiellement analysée les frontières droite et gauche de sa projection : frDmax et frGmax. La fonction frDmax prend comme argument le numéro d’un mot et retourne la frontière droite de sa projection. La fonction frGmax prend comme argument le numéro d’un mot et retourne la frontière gauche de sa projection. Ce sont deux fonctions récursives. Le principe, pour la fonction frDmax, est le suivant : dans la liste des dépendants du mot, sélectionner le dépendant le plus à droite ; si ce mot n’a pas de dépendant, il est la frontière droite ; s’il a un ou plusieurs dépendants, chercher sa frontière droite, qui sera celle du mot initial, et ainsi de suite (tableau 4). Par exemple, soit le mot regarde dans l’exemple (1). Son dépendant le plus à droite est le mot souris ; le dépendant le plus à droite de souris est grise, qui n’a pas de dépendant. La frontière droite de souris est donc le mot grise, qui est aussi la frontière droite du mot regarde. 82 Fonction frDmax(i) si Dep(i) = Æ , retourner i sinon Dep(i) = {(Rj,j), pour j=j1, …, jn} si jn > i , retourner frDmax(jn) sinon , retourner i Fonction frGmax(i) si Dep(i) = Æ , retourner i sinon Dep(i) = {(Rj,j), pour j=j1, …, jn} si j1 < i , retourner frGmax(j1) sinon , retourner i Tableau 4. Fonction frDmax et frGmax On peut maintenant décrire les fonctions de base de parcours de la chaîne annotée. Dans l’algorithme décrivant le parcours entre le point de départ (gouverneur ou dépendant) d’une relation syntaxique et le point d’arrivée (dépendant ou gouverneur), la fonction de base permet de passer d’un élément testé au prochain à tester. Chaque fonction de base donne ainsi le pas élémentaire du parcours. Il y a 4 fonctions de base, selon le sens de déplacement, de gauche à droite (gd) ou de droite à gauche (dg), et selon l’orientation de la recherche par rapport à celle de la relation syntaxique, du gouverneur au dépendant (GD) ou du dépendant au gouverneur (DG) : - fonction gdGD : de gauche à droite quand on part du gouverneur et que l’on cherche un dépendant - fonction dgGD : de droite à gauche quand on part du gouverneur et que l’on cherche un dépendant - fonction gdDG : de gauche à droite quand on part du dépendant et que l’on cherche un gouverneur - fonction dgDG : de droite à gauche quand on part du dépendant et que l’on cherche un gouverneur Je décris plus en détail la dernière fonction, qui est la plus utilisée. C’est celle qui est utilisée par le module ADJ qui cherche à gauche d’un adjectif des gouverneurs candidats nominaux. C’est celle aussi qui est utilisée par le module PREP qui cherche à gauche d’une préposition des gouverneurs candidats verbaux, nominaux ou adjectivaux. La fonction dgDG a 2 arguments : i, le numéro du mot courant dans le parcours, et i0 le numéro du mot initial dont on cherche des gouverneurs candidats. La fonction retourne le numéro du prochain mot à analyser. Si cette valeur est 0, la recherche de gouverneurs candidats s’arrête (tableau 5). Je précise qu’il s’agit d’une description simplifiée, les choses se compliquant sensiblement avec la prise en compte des relations de coordination et d’antécédence relative et des structures comparatives. 83 Fonction dgDG(i,i0) 1. si frDmax(i) > i0 , retourner 0 2. sinon 3. si Gov(i) = Æ , retourner frGmax(i)-1 4. sinon Gov(i) = {(R,L)} 5. si L={j} 6. si j>i , retourner 0 7. sinon retourner j 8. sinon L={j1, …, jn} 9. tester j1, …, jn comme candidats pour i0 10. retourner dgDG(j1) Tableau 5. Fonction dgDG J’illustre les différents pas de l’algorithme avec les exemples 7 à 1128. Dans l’exemple 5, le module PREP cherche les gouverneurs potentiels de la préposition à. L’action du pas n°1 arrête le parcours au nom bonbons, car le choix d’un gouverneur à gauche de ce nom provoquerait un croisement avec le lien syntaxique entre le mot bonbons, situé à gauche de la préposition, et le mot fraise, situé à sa droite. Dans l’exemple 6, le module ADJ cherche les gouverneurs potentiels du participe passé installée. Après que le nom tension a été testé et retenu comme candidat, l’action du pas n°3 prolonge le parcours au nom ligne, situé immédiatement à gauche de la frontière Gauche du mot tension. La recherche s’arrête car la frontière Gauche du mot ligne est le premier mot de la phrase. Dans l’exemple 7, le module ADJ cherche les gouverneurs potentiels de l’adjectif gris. L’action du pas n°6 arrête le parcours au nom chat, car le choix d’un gouverneur à gauche de ce nom provoquerait un croisement avec le lien syntaxique placé entre chat et dort. Dans l’exemple 8, le module PREP cherche les gouverneurs potentiels de la préposition aux. Après que l’adjectif roses a été testé et retenu comme candidat, l’action du pas n°7 prolonge le parcours au nom bonbon, qui est le gouverneur de l’adjectif (le nom fraise est « sauté », car un lien entre aux et fraise viendrait croiser le lien déjà posé entre roses et bonbons). Le parcours se prolonge au mot donne situé immédiatement à gauche de la frontière Gauche du mot bonbons (pas n°3), et elle s’arrête car ce mot est un verbe. Dans l’exemple 9, le module PREP cherche les gouverneurs potentiels de la préposition à. Après que l’adjectif rose a été testé et retenu comme candidat, l’action du pas n°9 entraîne le test des noms fraise et bonbon, gouverneurs candidats de l’adjectif, comme gouverneurs candidats pour la préposition, et l’action du pas n°10 prolonge le parcours au verbe donne, situé immédiatement à gauche de la frontière Gauche du premier candidat (bonbon). Le module ajoute ce verbe à la liste des candidats, et arrête sa recherche. 28 Je rappelle que, dans les exemples, les flèches situées au-dessus de la séquence représentent les liens syntaxiques déjà placés, les flèches en traits pointillés au-dessous de la séquence représentent les pas du parcours. Les barres verticales marquent l’arrêt du parcours. 84 (7) Il donne des bonbons à la fraise roses (8) La ligne très haute tension installée … (9) Le chat gris dort. (10) Il donne des bonbons à la fraise roses aux enfants (11) Il donne un bonbon à la fraise rose à l’enfant ? 3.2.3. Les relations locales Au cours de la première phase du traitement, l’analyseur s’occupe des relations syntaxiques locales, en posant par exemple les liens syntaxiques entre les déterminants et les noms qui les gouvernent, entre les prépositions et les mots qu’elles gouvernent, entre les auxiliaires et les participes passés. Cette phase s’apparente au chunking des analyseurs de surface (Abney, 1990a) (Vergne, 1999). Ces liens syntaxiques connectent dans la très grande majorité des mots qui sont très proches. Les procédures de reconnaissance sont donc simples. C’est pourquoi j’énumère ici les types de liens posés, en précisant les catégories des gouverneurs et dépendants impliqués, sans entrer dans les détails d’implémentation. Le traitement s’effectue en plusieurs passes sur la phrase. Entités nommées Les dates (22 janvier 2007, juin 2002) sont reconnues avant l’étiquetage et concaténées en mots, étiquetés NomDate. Les patronymes sont reconnus lors de cette première étape d’analyse, à partir d’une liste de prénoms et de règles d’exploration autour des occurrences de prénoms. Quand un patronyme est reconnu, le nom de famille gouverne le ou les (initiales de) prénoms (1a-b). 85 (1a) Victor Hugo (1b) John F. Kennedy Déterminants Le module DET place un lien entre un déterminant et son gouverneur, qui est toujours un nom (2a-c). Un certain nombre de déterminants complexes sont reconnus au cours d’une phase de concaténation qui s’insère entre l’étiquetage et l’analyse syntaxique : tous les, plus de, beaucoup de, la plupart des, l’un des, etc. L’ambiguïté bien connue liée à ces unités n’est pour le moment pas traitée dans SYNTEX, ce qui conduit parfois à des segmentations malheureuses : il ne veut plus_de vin. (2a) Le chat (2b) Beaucoup_de chats (2c) 5 chats Le module DET part du déterminant et parcourt la séquence étiquetée vers la droite à la recherche d’un nom. Pendant le voyage, il peut effectuer des réétiquetages « à la volée ». Par exemple, il arrive assez fréquemment que le TREETAGGER reconnaisse, après un déterminant, deux adjectifs consécutifs, non suivis d’un nom. Ce type d’ambiguïté, succession des deux mots pouvant être Nom ou Adjectif, est courant. Dans ces contextes, le module DET réétiquette le premier en nom, systématiquement, ce qui constitue dans la très grand majorité des cas le bon choix, comme dans l’exemple 2d où génératrice est réétiqueté en nom, mais produit parfois une erreur comme dans l’exemple 2e'. (2d) Par suite du récent accident à laD génératriceA nucléaireA de Tchernobyl,[HAN] (2d’) Par suite du récent accident à laD génératriceN nucléaireA de Tchernobyl,[HAN] (2e) Les médias régionaux rapportent lesD bonnesA nouvellesA comme celle là. [HAN] (2e') Les médias régionaux rapportent lesD bonnesN nouvellesA comme celle là. [HAN] Prépositions Le module CPREP place un lien entre une préposition et son dépendant, qui peut être un nom, un pronom ou un verbe à l’infinitif (3a-c). Un certain nombre de prépositions complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage : afin de, en faveur de, au cours de, au sujet de, etc. L’ambiguïté liée à ces unités n’est pour le moment pas traitée dans SYNTEX. Ce module effectue du réétiquetage à la volée comme le module DET. (3a) avec le chat (3b) avec lui (3c) afin_de partir 86 Formes de+le Les formes de+le (du, de la, des, de l’) posent un redoutable problème d’étiquetage, puisqu’elles peuvent être selon les contextes Déterminant ou Préposition. J’ai choisi de ne pas tenir compte des choix du TREETAGGER et toutes ces formes sont étiquetées PrepDet (PD) en entrée de SYNTEX. La désambiguïsation de ces formes est répartie en plusieurs points de la chaîne d’analyse. Les modules DET et CPREP effectuent une partie du travail, dans les contextes suivants : immédiatement après un nom ou un adjectif, une forme de+le est systématiquement considérée comme une préposition ; immédiatement après un verbe une forme de+le est systématiquement considérée comme un déterminant, sauf si le verbe est un verbe pronominal ou s’il appartient à une liste qui regroupe des verbes intransitifs se construisant avec un complément en de (démissionner, dépendre, etc.)29, auquel cas elle est étiquetée Préposition. Les principaux cas d’ambiguïtés qui subsistent sont ceux dans lesquels une forme de+le est précédée d’une virgule ou d’un coordonnant. Nous verrons à la section 3.2.4 comment se passe la désambiguïsation dans ces cas. Complexes verbaux Un ensemble de modules s’occupe du complexe verbal30. Il s’agit de reconnaître les liens syntaxiques au sein de séquences constituées de verbes, de modaux (pouvoir, devoir) et d’auxiliaires (être, avoir), à des formes conjuguées ou au participe passé, ainsi que d’adverbes, de pronoms réfléchis et de pronoms clitiques. Je n’entre pas dans le détail de l’implémentation. Les exemples 4a-h donnent une idée des types de liens reconnus et de la façon dont ils sont représentés. (4a) Il a mangé. (4b) Il est venu. (4c) Il a été vu (4d) Il peut manger. (4e) Il a pu manger. (4f) Il peut avoir mangé. (4g) Il peut s’ être trompé. (4h) Il peut l’avoir mangé. (4i) Il ne peut pas venir. Adverbes 29 Cette liste a été constituée, à partir des tables du Lexique-Grammaire, par Cécile Frérot (Frérot et al., 2002) 30 Ces modules ont été réalisés par Marie-Paule Jacques, que je remercie ici chaleureusement. 87 Le module ADV place un lien entre un adverbe et son gouverneur, qui peut être un verbe, un adjectif, un autre adverbe ou un nom (exemples 5a-d). Un certain nombre d’adverbes complexes sont reconnus au cours de la phase de concaténation qui suit l’étiquetage : le plus, en effet, par exemple, en revanche, en particulier, par ailleurs, etc. L’ambiguïté liée à ces unités n’est pour le moment pas traitée dans SYNTEX. Les heuristiques de reconnaissance sont locales et ne couvrent que les cas où un gouverneur est trouvé à proximité de l’adverbe. A l’issue de ce traitement, environ 70% des adverbes ont été liés. Les adverbes orphelins vont le rester jusqu’à la fin de l’analyse. Il manque ici une analyse linguistique systématique et détaillée pour élaborer une typologie des cas de figure dans lesquels un adverbe n’a pu être attaché. Mais beaucoup de ceux-ci se trouvent en début ou fin de phrase, souvent précédés ou suivis d’une virgule, ou bien entre virgules à l’intérieur de la séquence. Dans de tels contextes, les adverbes relèvent le plus souvent de l’organisation discursive, et peuvent difficilement être liés à un mot particulier de la séquence (cf. section 3.1.2). Le fait que des adverbes flottent ainsi dans les séquences ne perturbe pas outre mesure les traitements ultérieurs puisque les heuristiques de parcours les sautent allègrement. (5a) Il court vite. (5b) très rapide (5c) très vite (5d) non prolifération Conjonctions de subordination La relation de dépendance entre une conjonction de coordination et le verbe de la proposition subordonnée n’est pas à proprement parler une relation locale. Les liens de ce type sont reconnus lors de cette étape car sans être locaux ils sont faciles à identifier. Le module CSUB place un lien entre une conjonction de subordination, autre que que, et son dépendant, qui est un verbe conjugué (6). Un certain nombre de conjonctions complexes sont reconnues au cours de la phase de concaténation qui suit l’étiquetage : pour que, bien que, à ce que, alors que, etc. L’ambiguïté liée à ces unités n’est pour le moment pas traitée dans SYNTEX. La procédure de reconnaissance est simple et peu faillible, et n’est mise en défaut qu’en cas d’erreurs d’étiquetage : parcourir la séquence à droite jusqu’à rencontrer un verbe conjugué. (6) Quand Jean est venu Formes Que Une forme que peut être adverbe, pronom relatif, conjonction de subordination. Le traitement des formes que est réparti aux deux extrémités de la chaîne d’analyse. Lors de cette première étape de reconnaissance de liens syntaxiques locaux, un module de 88 traitement31 prend en charge toutes les formes que, quelle que soit la catégorie morphosyntaxique attribuée par l’étiqueteur. Ce module repère des constructions locales pour résoudre un certain nombre d’ambiguïtés catégorielles et poser sous certaines conditions des liens syntaxiques impliquant une forme que. En plus des étiquettes des mots entourant la forme que et des liens syntaxiques placés par des modules antérieurs (entre verbe et adverbe essentiellement), les informations mobilisées sont des listes lexicales : noms prenant un complément en que, adverbes susceptibles d’entrer dans une construction corrélative, adverbes de négation, verbes prenant un objet direct en que. Les exemples 7a-k résument les différentes configurations traitées. A l’issue de ce premier traitement, selon les corpus, de 85 à 95% des formes que étiquetées Adverbe sont liées. Cette fourchette est de l’ordre de 50 à 60% pour les formes étiquetées Conjonction, qui sont dans leur très grande majorité liées à des gouverneurs verbaux et dépendants verbaux. Les conjonctions que encore libres à l’issue de cette étape seront reconsidérées en fin d’analyse (section 3.2.13). (7a) Il ne mange que du pain. (7b) Il veut que Jean vienne. (7c) Un autre que Jean (7d) Un homme autre que Jean (7e) Un homme tel que Jean (7f) La loi telle qu’ elle a été votée (7g) davantage que Jean (7h) ainsi que Jean le veut (7i) plus rapide que Jean (7j) plus rapide qu’ il n’ paraît (7k) si triste que Jean pleure 31 Ce module a été réalisé par Marie-Paule Jacques, que je remercie de nouveau. 89 3.2.4. Coordination La représentation de la coordination fait l’objet de débats chez les théoriciens de la dépendance. Tesnière relie deux mots coordonnés par un « trait de jonction », constitué de deux tronçons au milieu desquels apparaît le « jonctif » (la conjonction de coordination) ; le jonctif ne porte aucun lien de dépendance (Tesnière, 1959, pp. 326-327). Mel’cuk considère que, d’un point de vue syntaxique, la coordination n’est pas symétrique et que l’élément coordonné gauche gouverne la conjonction, qui elle-même gouverne l’élément droit (Mel’cuk, 1988, pp. 26-33). Il intègre dans son formalisme la notion de « groupement » pour représenter les relations de dépendance qui impliquent les éléments d’une chaîne coordonnée dans leur ensemble. Pour Hudson (2000), la conjonction de coordination fait partie de la structure de coordination mais ne porte aucune relation de dépendance. tombent Alfred et Bernard (Tesnière, 1959) sa gaieté et son accent étonnant (Mel’cuk, 1988) [ sa gaieté et son accent ] étonnants (Mel’cuk, 1988) Jo (reads and writes) books (Hudson, 2000) Ces questions de représentation sont essentielles dans le contexte du développement d’un appareil théorique ou descriptif pour la syntaxe des langues. Les choix de représentation trouvent leur justification dans la cohérence globale du cadre théorique dans lequel ils sont inscrits par les différents auteurs. D’un point de vue épistémologique, le projet de développement d’un analyseur syntaxique n’est pas de même nature. Il s’agit de mettre au point des algorithmes de reconnaissance de chaînes de coordination dans des séquences attestées. Le problème est celui de la reconnaissance automatique et non pas celui de la représentation. Le choix d’une représentation est alors une affaire de convention, d’autant plus si ces représentations sont formellement mutuellement traduisibles les unes vers les autres. Si l’analyseur trouve les différents éléments d’une coordination, il peut « rendre » les résultats de sa recherche sous différentes formes, correspondant à différentes conventions de représentation. J’ai choisi comme convention de considérer le coordonnant comme le gouverneur de tous les 90 éléments coordonnés, et comme la cible ou source des liens syntaxiques extérieurs (exemple 1). Je peux justifier ce choix en termes de commodités d’implémentation, mais non sur des bases théoriques. (1) X , Y et Z (1a) Alfred et Bernard tombent. (1b) sa gaieté et son accent étonnants (1c) Jo reads and writes books La reconnaissance automatique des liens de coordination est un problème difficile. La relation de coordination interfère avec toutes les relations syntaxiques : des éléments coordonnés sont susceptibles d’être source ou cible de tous les types de liens syntaxiques. L’enchevêtrement des liens fait que c’est avec la coordination que le problème de la circularité se pose avec le plus de gravité : à quel(s) moment(s) reconnaître les liens de coordination ? J’ai choisi au départ du projet de traiter la coordination dès le premier stade de l’analyse, juste après la reconnaissance des liens syntaxiques locaux. L’idée étant alors de mettre beaucoup d’efforts sur ce module pour rendre plus simple la reconnaissance, au niveau des couches supérieures de l’analyse, des autres types de liens syntaxiques. Dans les versions successives de l’architecture, je ne suis pas revenu sur ce choix. La coordination est traitée en premier. Mais il est clair que les progrès du traitement de la coordination passeront par l’instauration d’un mode réparti, certaines configurations pouvant être reconnues tôt dans le processus d’analyse, alors que d’autres le sont plus aisément avec plus de liens syntaxiques préalablement reconnus. Le traitement de la coordination inclut celui des virgules coordinatrices. De façon générale, le traitement de la virgule est lui aussi très difficile. La virgule n’a jamais passionné les linguistes, au contraire de la coordination, et les grammaires ou les théories syntaxiques sont peu loquaces à son sujet. Pourtant, quand il s’agit de réaliser un analyseur syntaxique opérationnel, la virgule est un problème transversal, comme la coordination, qui se pose pour toutes les relations syntaxiques : quelle que soit la relation syntaxique pour laquelle on cherche à mettre au point des algorithmes de reconnaissance, il faut tenir compte, dans la description du parcours entre un dépendant 91 et son gouverneur potentiel, de l’irruption possible de virgules, dont il est le plus souvent difficile de savoir si elles marquent une coordination ou une incise, et, dans le second cas, si l’on est à l’intérieur ou à l’extérieur de l’incise. La coordination et la virgule sont des problèmes massifs, comme l’illustrent les données du tableau 6, qui indique que, selon les corpus, entre 22 et 36% des séquences contiennent au moins un coordonnant, et entre 44 et 76% des séquences contiennent au moins une virgule. % #séquences LMO HAN STX 0 coordonnant 64 72 78 1+ coordonnant 36 28 22 0 virgule 34 56 51 1 virgule 20 28 16 2 virgules 18 11 15 3+ virgules 28 5 18 Tableau 6. % des séquences avec coordonnants et avec virgules Toute virgule dans le contexte droit de laquelle se trouve un élément coordonné est traitée comme un coordonnant. De façon à pouvoir traiter les virgules coordinatrices lors de la même passe sur la séquence que les coordonnants, on analyse la séquence de la droite vers la gauche. Par exemple dans la séquence « bleu, blanc et rouge », le coordonnant et est d’abord traité, les adjectifs blanc et rouge sont coordonnés, puis, comme la virgule est suivie d’un mot coordonné (l’adjectif blanc), elle est traitée comme un coordonnant, et les adjectifs bleu et blanc sont coordonnés. Le principe du traitement de la coordination est le suivant : quand un coordonnant est reconnu, le module recherche dans son contexte droit le mot initial, celui susceptible d’être le dernier mot de la chaîne coordonnée (par exemple l’adjectif rouge pour le coordonnant et dans la séquence « bleu, blanc et rouge »). Le traitement de la coordination est isocatégoriel, c’est-à-dire que les configurations de coordination potentiellement reconnues par l’analyseur, dans son état actuel, sont celles où les éléments coordonnés ont tous la même catégorie morphosyntaxique. L’analyseur échoue quand, par exemple, des noms propres et des syntagmes définis sont coordonnés, ou quand des adjectifs ou des adverbes sont coordonnés avec des syntagmes prépositionnels. Cette contrainte d’isocatégoricité pourra être relâchée quand le traitement de la coordination interviendra plus tard dans le processus d’analyse. Même avec cette hypothèse simplificatrice, valide dans une très grande majorité de cas, la tâche de reconnaissance est rude. Une fois le mot initial reconnu, le module de coordination lance une recherche dans le contexte gauche du coordonnant d’un mot de la même catégorie que le mot initial. Les catégories concernées sont (par ordre approximatif de difficulté croissante) : adjectif, participe passé, verbe, conjonction de subordination que, pronom relatif, préposition autre que de, préposition de, nom. Toute la difficulté est dans l’élaboration des algorithmes de parcours de la séquence à gauche du coordonnant. Puisque, d’une part, peu de liens ont été placés à ce stade de l’analyse, sur lesquels l’algorithme pourrait 92 s’appuyer, et que, d’autre part, les liens de coordination peuvent s’établir à longue distance, il faut apporter beaucoup de soin dans la mise au point des algorithmes. Comme il est impossible d'anticiper toutes les configurations possibles, il faut procéder par essais/erreurs via de multiples tests sur corpus. L’outil lui-même sert de dispositif de découverte. Adjectif et participes passés La coordination des adjectifs et participes passés ne pose pas de difficultés majeures. Dans l’exemple 232, le module Coordination détecte d’abord le coordonnant et, et le mot initial belle, puis il reconnaît l’adjectif coordonné épaisse. Ensuite, il détecte la virgule, suivie de l’adjectif coordonné épaisse, et reconnaît le troisième adjectif coordonné fripée. Dans l’exemple 3, le module Coordination détecte le coordonnant et, et le mot initial spécialisé, puis il remonte sans embûche jusqu’au participe passé créé. Dans les exemple 4 et 4’, après avoir reconnu la coordination entre les participes passé quitté et créé, le module Coordination déplace la cible de la relation partant de l’auxiliaire ont du participe quitté au coordonnant et. (2) Et les vieilles mains tremblaient, et Rivière détournait les yeux de cette peau fripée, épaisse et belle. [STX] (3) Il est « chasseur de têtes » à la Banque centrale de recrutement, un cabinet créé en septembre 1997 et spécialisé dans les métiers de l'informatique. [LMO] (4) des dizaines de militants ont quitté les organisations traditionnelles et créé leurs propres structures. [LMO] (4’) des dizaines de militants ont quitté les organisations traditionnelles et créé leurs propres structures. [LMO] Verbe La coordination des verbes ne pose pas non plus de difficultés majeures. On coordonne des verbes à des formes finies (exemples 5 et 6), ou des verbes à l’infinitif (exemple 7). (5) Ce massacre provoqua l'indignation internationale et modifia l'attitude de la communauté internationale face à la RFY. [LMO] (6) Ils sont ensuite allés vérifier sur le terrain et ont complété un travail similaire effectué cet hiver par la mission de vérification de l' OSCE ( KVM ). [LMO] 32 Pour ne pas surcharger le manuscrit de flêches de dépendance, j’adopte une seconde convention pour marquer les relations de dépendance dans les séquences : le gouverneur est en gras et souligné, le ou les dépendant(s) sont en gras. 93 (7) Ils pourront communiquer avec le journaliste pour lui demander des précisions ou lui suggérer une question lors d'une interview. [LMO] Pronom relatif Le module Coordination coordonne des pronoms relatifs, qui peuvent être le cas échéant gouvernés par une préposition (exemples 8 à 10). (8) Comme Touré, qui a quitté la Guinée en 1992 « pour des raisons politiques » et qui dit ne pas pouvoir rentrer dans son pays sans risque pour sa vie. [LMO] (9) Le président Siaka Stevens était célèbre pour la canne creuse sur laquelle il s'appuyait et surtout dans laquelle il plaçait les diamants devant parvenir en Europe sans attirer la curiosité des douaniers. [LMO] (10) Ils tardent à distribuer les nouvelles molécules attendues par les patients sur lesquels tous les traitements ont échoué et qui vont mourir ». [LMO] Conjonction de subordination que Une conjonction de subordination que peut être coordonnée avec une autre conjonction que (exemple 11) ou avec toute autre conjonction (exemple 12). (11) Ils apprenaient là, mystérieusement, que, peut-être, on suspendrait les vols de nuit, et que le courrier d'Europe lui-même ne décollerait plus qu' au jour. [STX] (12) Rivière connut cette irritation, que l'on éprouve quand le rapide stoppe sur la voie, et que les minutes ne délivrent plus leur lot de plaines. [STX] Préposition autre que de Pour les prépositions, la contrainte d’isocatégoricité est propagée au dépendant des prépositions : si la préposition initiale gouverne un nom ou un pronom (resp. un verbe à l’infinitif), le module de coordination cherche dans le contexte gauche une préposition gouvernant un nom ou un pronom (resp. un verbe à l’infinitif) (exemples 13 et 14). Le module de recherche à gauche prend la première préposition qui satisfait cette contrainte. Les prépositions ne sont pas nécessairement identiques. (13) Confrontés aux lenteurs de la justice ou à l'attitude jugée partiale d'un magistrat. [LMO] (14) C'était là le moyen le plus intelligent d'obliger les nationalistes partisans de la clandestinité à faire leurs preuves et à dépasser les discours incantatoires et négatifs. [LMO] Préposition de La coordination des prépositions de et celle des noms posent de très sérieux problèmes. Quand la préposition de gouverne un verbe à l’infinitif, le traitement est simple, analogue à celui des autres prépositions (exemple 15). Les choses se compliquent quand 94 la préposition de gouverne un nom. La préposition de coordonnée à gauche n’est pas systématiquement la première préposition de rencontrée. Lors du parcours de recherche, le module de coordination peut retenir plusieurs prépositions de candidates. Il y a donc ambiguïté, comme dans les exemples 16 à 1833. (15) Ici on a choisi de ne pas dénoncer les crimes de guerre et de soigner les gens. [LMO] (16) Que ce soit au titre du Programme de développement de l'emploi ou du nouveau Programme de développement des collectivités. [HAN] (17) Elle demande au gouvernement d'aider les travailleurs de l'industrie du bois d'oeuvre et du bardeau en vertu de la Loi de soutien de l' emploi. [HAN] (18) Le président du syndicat des employés de l'Emploi et de l'Immigration a déclaré : [HAN] Les configurations d’ambiguïtés sont très variables, et les indices permettant de choisir sont peu nombreux. Décider de ne pas choisir en invoquant le recours nécessaire à « la sémantique » ou à des « connaissances du monde » n’est pas dans la philosophie du projet SYNTEX. J’ai cherché à mettre au point une méthode de désambiguïsation, qui fasse le mieux possible avec les informations disponibles, mieux en tout cas qu’une solution par défaut qui choisirait systématiquement la première préposition de rencontrée à gauche. La méthode de désambiguïsation s’appuie sur un principe d’harmonie morphologique. L’idée est de coordonner des prépositions de dont les noms dépendants sont « semblables », en terme de nombre et de présence ou non d’un déterminant. Chaque préposition de est caractérisée par deux paramètres, calculés à partir du nom qu’elle gouverne : la présence ou non d’un déterminant gouverné par le nom (1 ou 0), le nombre du nom (S pour singulier, P pour pluriel, ? pour genre indéterminé). La concaténation de ces deux valeurs constitue le profil de la préposition. Il y a 6 profils possibles : [0S], [0P], [0?], [1S], [1P], [1?]. La procédure de désambiguïsation choisit la préposition candidate qui a un profil identique ou proche de la préposition initiale. Je n’entre pas dans les détails de la procédure, qui est assez complexe car la combinatoire augmente vite avec le nombre de candidats. Je l’illustre sur quelques exemples simples, dans lesquels seulement deux prépositions candidates sont en concurrence. Dans les exemples 19 à 22, les profils des prépositions sont donnés entre crochets à droite du nom dépendant. Dans les exemples 19 à 21, c’est la première préposition qui est choisie car elle a le même profil que la préposition droite : dans l’exemple 19, les noms orientation et surveillance n’ont pas de déterminant et sont au singulier ([0S]); dans l’exemple 20, les noms hommes et projets n’ont pas de déterminant et sont au pluriel ([0P]) ; dans l’exemple 21, les noms qualité et production ont un déterminant et sont au singulier ([1S]). Dans l’exemple 22, c’est la seconde préposition qui est choisie : les noms anomalies et malformations n’ont pas de déterminant et sont au pluriel ([0P]). 33 Les prépositions candidates sont en italiques. 95 (19) La réunion du conseil [1S] d' orientation [0S] et de surveillance [0S] (20) Ses capacités de meneur [0S] d' hommes [0P] et de projets [0P] (21) Les systèmes de contrôle [0S] de la qualité [1S] et de la production [1S] (22) Responsable d' anomalies [0P] de la face [1S] et de malformations [0P] Noms Le traitement des noms coordonnés est analogue à celui de la préposition de. Plusieurs candidats nominaux sont sélectionnés dans un premier temps. La désambiguïsation s’effectue avec les mêmes indices que précédemment. Quelques exemples sont donnés en 23-27. Dans les cas où les profils de deux candidats sont identiques à celui du nom initial, le choix par défaut se porte sur le plus proche du coordonnant, ce qui conduit à des décisions malheureuses parfois, comme dans les exemples 26 et 27. (23) Dans la vente [1S] de produits [0P] et services [0P]. [LMO] (24) Président [0S] de l' Association [1S] des maires [1P] de France [0 ?] et sénateur [0S] du Pas-de-Calais. [LMO] (25) Cabinets [0P] de conseil [0S] et sociétés [0P] de services informatiques. [LMO] (26) Présidents [0P] de tribunaux [0P] et procureurs [0P]. [LMO] (27) Changement [0S] fréquent de partenaire [0S] et prostitution [0S] sont, dans ce groupe, de gros facteurs de risque. [LMO] Certains liens de coordination entre noms posés par le module de coordination pourront être remis en cause plus tard, lors de la recherche d’autres liens syntaxiques. Une configuration typique est celle où deux noms ont été coordonnés, puis reconnus comme objets directs d’un verbe, alors que le second nom est sujet dans une seconde clause (exemple 28). Je reviendrai sur ces cas de figures dans la section 3.2.6, consacrée à la relation Sujet. (28) C'est cet acharnement qui engendre la révolte des contribuables et ce genre de disparités soulève les sentiments populaires [HAN] Formes de+le La complexité culmine avec les formes ambiguës de+le. Quand une telle forme est située à droite d’un coordonnant, elle n’est pas désambiguïsée à l’issue de la phase d’étiquetage. Le principe du traitement de ces formes est le suivant : le module de coordination traite d’abord la forme de+le comme une préposition et cherche à gauche une éventuelle préposition de coordonnée ; s’il réussit, il réétiquette la forme de+le en Préposition et pose le lien de coordination entre les deux prépositions ; sinon, il la traite ensuite comme un déterminant et cherche un éventuel nom coordonné ; s’il réussit, il réétiquette la forme de+le en Déterminant et pose le lien de coordination entre les deux noms ; s’il échoue dans ces deux tentatives, il laisse l’ambiguïté catégorielle et ne pose pas de lien de coordination. 96 Dans l’exemple 29, la première forme de a été étiquetée en Préposition (P) car elle suit immédiatement le nom sens et la forme des est ambiguë, préposition ou déterminant (PD). La forme des est désambiguïsée en préposition car le module de coordination a pu la coordonner avec la préposition de (exemple 29’).Dans les exemple 30 et 30’, la forme du est désambiguïsée en Déterminant car la coordination qu’a reconnue le module Coordination est celle qui implique les noms financement et dette. Dans les exemples 31 et 31’, la première forme des a été désambiguïsée, au moment du traitement des relations locales, en Déterminant car elle est située juste après un verbe transitif. La seconde forme des est désambiguïsée en Déterminant car la coordination qu’a reconnue le module Coordination est celle qui implique les noms opinions et critères. (29) Il faut faire appel au sens deP la logique et desPD responsabilités. [HAN] (29’) Il faut faire appel au sens deP la logique et desP responsabilités. [HAN] (30) D'ailleurs, ce n'est pas une dette à long terme mais duPD financement à court terme pour effectuer la transaction. [HAN] (30’) D'ailleurs, ce n'est pas une dette à long terme mais duD financement à court terme pour effectuer la transaction. [HAN] (31) Il présente desD critères subjectifs et non desPD opinions subjectives. [HAN] (31’) Il présente desD critères subjectifs et non desD opinions subjectives. [HAN] La situation peut être plus complexe, par exemple dans les cas où la recherche du coordonné à gauche aboutit à une nouvelle forme de+le non désambiguïsée, précédée d’une virgule. Il faut alors retarder la désambiguïsation, et poursuivre par le traitement de la virgule, considérée alors comme coordinatrice, jusqu’à ce que la désambiguïsation soit possible. On a alors une désambiguïsation en chaîne. Dans l’exemple 32, ce n’est qu’au moment du traitement de la dernière virgule (la première dans l’ordre séquentiel de la séquence), grâce à la non ambiguïté de la forme des après le verbe a, que le module coordination a pu boucler l’affaire, en désambiguïsant les formes des en Déterminant et en coordonnant les noms (exemples 32’ à 32’’’). Dans l’exemple 33, c’est la détection de la préposition du après le nom cadre qui déclenche la résolution en chaîne du problème (exemple 33’). (32) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt et desPD stimulants fiscaux accordés aux entreprises privées. [HAN] (32’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt et desPD stimulants fiscaux accordés aux entreprises privées. [HAN] (32’’) Il y a desD dégrèvements, desPD échappatoires fiscales, desPD reports d'impôt et desPD stimulants fiscaux accordés aux entreprises privées. [HAN] (32’’’) Il y a desD dégrèvements, desD échappatoires fiscales, desD reports d'impôt et desD stimulants fiscaux accordés aux entreprises privées. [HAN] 97 (33) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duPD développement de programmes, dePD la réforme de la fiscalité ou dePD la réduction du déficit. [HAN] (33’) Nous croyons que cette stratégie n'a pas été élaborée dans le cadre duP développement de programmes, deP la réforme de la fiscalité ou deP la réduction du déficit. [HAN] 3.2.5. Objet et attribut Après la relation de coordination, je présente les relations dites « non ambiguës ». La présente section est consacrée aux relations Objet et Attribut. La relation Sujet est traitée dans la section suivante, car les problèmes qu’elle pose sont très différents de ceux que je vais aborder dans cette section. Pour les relations Objet et Attribut, les conventions de représentation en dépendance sont les suivantes : la relation Attribut a pour source le verbe et pour cible l’attribut (adjectif, nom, pronom personnel, pronom relatif ou verbe à l’infinitif) ; quand le verbe est à une forme composée, c’est le participe qui est la source du lien, sauf quand l’attribut est un clitique (exemples 1) ; la relation Objet a pour source le verbe et pour cible le complément d’objet (nom, pronom personnel, pronom relatif, verbe à l’infinitif, conjonction que) ; quand le verbe est à une forme composée, c’est le participe qui est la source du lien, sauf quand l’objet est un clitique (exemples 2). Ces conventions valent pour les configurations à attribut de l’objet (exemples 3). Pour les configurations à double objet, on distingue la relation OBJ1 entre le verbe et l’objet nominal et OBJ entre le verbe et l’infinitif (exemples 4). Dans les cas de coordination d’attributs ou d’objets, c’est le coordonnant qui est la cible de la relation de dépendance. (1) Il est heureux Il l’est Il a été heureux Il l’a été l’homme qu’il a été (2) Il mange une pomme Il souhaite manger Il l’a mangé la pomme qu’il a mangée (3) Il la croit malade Il l’ a nommé ministre l’homme qu’il a nommé ministre OBJ ATT OBJ ATT OBJ ATT (4) Je vois Jean partir. Je l’ ai vu partir. L’homme que j’ai vu partir OBJ1 OBJ OBJ1 OBJ OBJ1 OBJ 98 La reconnaissance de la relation Attribut ne pose pas de problèmes difficiles. L’analyseur exploite une liste de verbes susceptibles de se construire avec un attribut du sujet (être, devenir, paraître…), une liste de verbes susceptibles de se construire avec un attribut de l’objet (considérer, croire, déclarer, juger…). Les configurations à attribut de l’objet sont très souvent ambiguës (je juge les enfants malades). Dans son état actuel, l’analyseur ne cherche à reconnaître des attributs de l’objet que dans les contextes non ambigus suivants : (i) le verbe attributif est au passif (exemple 5) ; (ii) le complément d’objet du verbe est le pronom relatif que (exemple 6) ; (iii) le complément d’objet du verbe est un pronom clitique (exemple 7) ; (iv) le complément d’objet du verbe est placé après l’attribut (exemple 8). (5) La pétition a été certifiée correcte par le greffier des pétitions. (ATTO) [HAN] (6) Ils exercent un droit qu'ils estiment tout à fait légitime. (ATTO) [HAN] (7) L'un des objectifs de la réforme des pensions de la fonction publique est de les rendre conformes aux exigences de la LNPP. (ATTO) [HAN] (8) Il n'appartient pas aux tribunaux d'ajouter les détails qui rendent constitutionnelles les lacunes législatives. (ATTO)[HAN] La mission assignée au module Objet se formule simplement ainsi : sélectionner le premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à droite du verbe. Mais le traitement de la relation Objet est plus difficile que celui de la relation Attribut. Les objets appartiennent à diverses catégories morphosyntaxiques : pronom clitique, pronom relatif que, nom, verbe à l’infinitif34. Certains verbes se construisent avec deux objets, un objet nominal et un objet verbal (emmener, envoyer, faire, laisser…, apercevoir, contempler, écouter, entendre, entrevoir, observer…). La difficulté du traitement est principalement due au fait que, comme l’étiquetage des formes que en Pronom relatif n’est pas fiable, j’assigne au module la mission supplémentaire de corriger autant que possible ces erreurs d’étiquetage. Le lien Objet entre un pronom relatif que et le verbe de la subordonnée relative n’est pas placé par le module Objet, mais par le module Sujet, qui sera décrit dans la section suivante. Cela peut paraître paradoxal puisque le principe de l’approche modulaire veut qu’une relation syntaxique soit traitée par un seul module et que chaque module ne traite qu’une seule relation syntaxique. Ce principe, qui s’impose pour des raisons de facilité de maintenance, peut être écorné quand une contrainte d’efficacité s’impose. En l’occurrence, au moment où le module Sujet a trouvé le sujet d’un verbe, il lui est facile de remonter de quelques pas sur la gauche pour relever la présence éventuelle d’un pronom relatif, et placer à ce moment-là, en plus d’un lien entre le verbe et le sujet, un lien entre le verbe et le pronom relatif. Ce lien est un lien Objet si le relatif est que. 34 Les liens Objet entre un verbe et une forme que étiquetée Conjonction de subordination ne sont pas traités ici. Une partie des liens de ce type est placée au moment du traitement des relations locales (cf. 3.2.3). Une autre partie en fin d’analyse (cf. 3.2.13). 99 La recherche d’un complément d’objet est systématique. Elle est déclenchée pour tout verbe, conjugué ou infinitif, quelles que soient ses propriétés lexicales, i.e. qu’il soit transitif ou non, pour des raisons qui apparaîtront évidentes plus loin dans cette section. Le module dispose de l’information de la présence d’un pronom relatif objet, car la recherche des sujets précède celles des objets. Dans un premier temps, le module teste la présence d’un pronom clitique, et celle d’un verbe infinitif en construction directe dans le contexte droit du verbe. Il est donc potentiellement face à 6 cas de figure, selon qu’il y a un pronom relatif objet ou non, un clitique ou non et un verbe infinitif ou non (en éliminant le cas où aucun objet de ce type n’a été reconnu, et le cas où les 3 ont été reconnus, si rarissime qu’il n’est pas traité) : 1) Pas de pronom relatif, un clitique, pas de verbe à l’infinitif. Le module place un lien Objet entre le verbe et le clitique. 2) Pas de pronom relatif, pas de clitique, un verbe à l’infinitif. Le module place un lien Objet entre le verbe et le verbe à l’infinitif. 3) Pas de pronom relatif, un clitique, un verbe à l’infinitif. Le module vérifie que le verbe initial appartient à la liste des verbes à double objet, et place les deux liens Objet (exemple 9). (9 ) Les mécaniciens sournois l' avaient laissé flétrir pendant vingt minutes. [STX] OBJ1 OBJ 4) Un pronom relatif, un clitique, pas de verbe à l’infinitif. Le pronom relatif que est réétiqueté Conjonction de subordination, le lien entre que et le verbe est inversé, et un lien Objet est placé entre le verbe et le clitique (exemples 10 et 10’). (10) C' est avec fierté, sérieux et intégrité queRel je les représenterai. [HAN] OBJ (10’) C' est avec fierté, sérieux et intégrité queSub je les représenterai. [HAN] OBJ 5) Un pronom relatif, pas de clitique, un verbe à l’infinitif. Si le verbe initial appartient à la liste des verbes à double objet, le module requalifie en OBJ1 le lien entre le verbe et le pronom relatif et place un lien Objet entre le verbe et le verbe à l’infinitif (exemple 11). Sinon, il laisse le lien Objet entre le pronom relatif et le verbe, et ajoute un second lien Objet à partir du verbe vers le verbe à l’infinitif. Ce lien sera déplacé éventuellement en fin d’analyse, au moment où l’analyseur traite le cas des subordonnées relatives dont le verbe principal gouverne, directement ou via une préposition, un verbe à l’infinitif (section 3.2.13). Dans le cas de l’exemple 12, 100 l’origine du lien qui pointe vers le pronom relatif que sera déplacé sur le verbe déposer. (11) C’est l'histoire des compagnons qu' il a vu sortir vivants du « couloir ». [LMO] OBJ1 OBJ (12) J'ai ici des pétitions que je compte déposer ce matin. [LMO] OBJ OBJ Le 6ème cas de figure est celui où il y a un pronom relatif, et ni clitique, ni verbe à l’infinitif. Le module teste la présence d’un nom (ou d’un pronom) en construction directe à droite du verbe. S’il y a un pronom relatif et un nom, le module réétiquette le pronom relatif que en Conjonction de subordination, et modifie en conséquence la relation entre la forme que et le verbe de la relative (exemples 13 et 13’), et il ne reste qu’un nom. (13) C'est grâce à elle qu’Rel il a séquencé, entre autres, le virus de la grippe.[LMO] OBJ (13’) C'est grâce à elle qu’Sub il a séquencé, entre autres, le virus de la grippe.[LMO] OBJ S’il y a un nom, et pas de pronom relatif, ce n’est qu’à ce stade du traitement que le module se préoccupe de la propriété de transitivité du verbe. Le module exploite une liste de verbes censés ne pas se construire avec un complément d’objet nominal. Cette liste a été construite automatiquement à partir d’un vaste corpus annoté par SYNTEX, selon une technique qui sera décrite dans la section 3.2.8 consacrée aux ressources lexicales. Si le verbe est transitif, le module pose un lien Objet entre le verbe et le nom. Si le verbe est intransitif, et qu’il est à l’infinitif, le module teste s’il n’est pas objet d’un verbe à double objet, auquel cas le module place une relation OBJ1 entre ce dernier verbe et le nom (exemple 14). OBJ1 (14) Moscou laisse toujours planer le doute sur ses intentions de vote. [LMO] OBJ S’il y a un pronom relatif que objet, et pas de nom, et si le verbe est transitif, le module laisse le lien Objet entre le verbe et le nom. Si le verbe est intransitif, la procédure décrite précédemment à propos des noms objets de verbes intransitifs ne s’applique pas immédiatement. Le lien entre ce verbe et le pronom relatif est provisoirement maintenu. 101 Le traitement de ces configurations est pris en charge par un module spécifique, qui est décrit dans la section 3.2.13. C’est ce dernier module qui reconnaîtra dans l’exemple 15 que le gouverneur du pronom relatif est entretenir et non pas suffit, et qui, dans l’exemple 16, testera de la même façon le verbe rendre comme gouverneur du pronom relatif (sans succès puisque ce verbe aura alors déjà un objet). De tels traitements ne sont envisageables que quand d’avantage de liens ont été posés dans la séquence, et donc il serait prématuré d’interdire un lien entre un pronom relatif que et un verbe intransitif à ce stade de l’analyse. (15) Un jardin tout planté, qu' il suffit ensuite d'entretenir, n'est pas intéressant. [LMO] OBJ (16) C'est pour combler le déficit qu' on songe à rendre obligatoire l'alcool carburant. [LMO] OBJ Quelle que soit la configuration, quand le module s’apprête à placer un lien entre un verbe à double objet et un nom à sa droite, il teste la présence d’un verbe à l’infinitif sans gouverneur dans le contexte droit de ce nom. En cas de succès, il pose un lien OBJ1 entre le verbe et le nom, et un lien OBJ entre le verbe et le verbe à l’infinitif (exemple 17). (17) Il voit une marée humaine onduler dans la fumée des cigares. [LMO] OBJ OBJ1 Pour finir, quand le module a posé un lien Objet entre un verbe et un nom, il garde cette information en mémoire, sous la forme d’un triplet (verbe, OBJ, nom), pour une exploitation ultérieure dans le processus de désambiguïsation des rattachements des pronoms relatifs (section 3.2.7) et des prépositions de (section 3.2.9). 3.2.6. Sujet Pour la relation Sujet, les conventions de représentation sont les suivantes : la relation Sujet a pour source le verbe et pour cible le sujet (nom, pronom personnel, pronom relatif ou verbe à l’infinitif) ; quand le verbe est à une forme composée, c’est l’auxiliaire qui est la source du lien (exemples 1). Dans les cas de coordination de sujets, c’est le coordonnant qui est la cible de la relation de dépendance. Dans les cas de coordination de verbes, c’est le coordonnant qui est la source de la relation de dépendance. 102 (1) Jean mange. Il a mangé. Fumer est interdit. (1’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean OBJ SUJ OBJ SUJ Il faut noter que ces conventions, jointes à celles portant sur la relation Objet, conduisent à des croisements de liens dans les relatives à sujet inversé (exemples 1’). Les arbres de dépendance construits par SYNTEX ne sont donc pas tous projectifs. C’est inévitable à partir du moment où je n’utilise pas de moyen de regrouper en une seule unité plusieurs mots qui se comportent comme un seul mot du point de vue de certains phénomènes syntaxiques. Les stemmas de Tesnière (1959) comportent des « nucléus », et on a vu que Mel’cuk (1988) utilisait des « regroupements » pour représenter certains cas de coordination (section 3.2.4). Sylvain Kahane (2000) propose, dans sa grammaire de dépendance lexicalisée à bulles, de représenter formellement ces objets grâce à la notion de « bulle » (exemples 1’’). (1’’) La pomme qu’ a mangée Jean. Le livre que veut lire Jean OBJ SUJ OBJ SUJ Dans SYNTEX, Les fonctions de parcours génériques empêchent toute prise de décision qui conduirait à un croisement de lien. Ce n’est que dans des cas particuliers, tels que celui-ci, que des règles spécifiques peuvent poser des liens se croisant. La mission assignée au module Sujet se formule simplement ainsi : sélectionner le premier nom ou pronom ou verbe à l’infinitif sans gouverneur, à gauche du verbe dans un premier temps, puis à droite du verbe en cas d’échec. Ce principe n’est valide que si l’architecture de l’analyseur est telle qu’elle assure que les autres contextes où un nom peut être gouverné ont été traités : - au moment du traitement des relations locales en début d’analyse (section 3.2.3), les noms gouvernés par une préposition ont été liés. - pour la reconnaissance des liens Sujet et Objet, la séquence est analysée de gauche à droite ; dès qu’un verbe conjugué est rencontré, le module Sujet est lancé, puis le module Objet, dès qu’un verbe à l’infinitif est rencontré, le module Objet est lancé. Ainsi les compléments d’objets ou les sujets inversés dans les subordonnées relatives intercalées entre un verbe et son sujet ont été attachés avant la recherche du sujet du verbe, comme cela sera illustré dans les exemples 2-4. La relation Sujet pose des problèmes d’un tout autre ordre que la relation Objet. Dans le cas de cette dernière, la difficulté ne tenait pas tant à la découverte des compléments d’objet qu’à la gestion des configurations dans lesquelles plusieurs types d’objets pouvaient avoir été trouvés. Avec la relation Sujet, l’élaboration des algorithmes de reconnaissance est rendue complexe du fait de la variété des configurations que l’on peut rencontrer entre un verbe et son sujet, en particulier à cause de l’interposition possible de 103 subordonnées relatives et de séquences incises entre virgules. La mise au point du module Sujet exige patience et minutie, et s’appuie, plus encore que celle des autres modules, sur des allers et retours incessants entre l’implémentation et les tests sur corpus. Le module de recherche des sujets utilise de façon intensive la fonction frGmax pour parcourir le plus rapidement et le plus sûrement possible la séquence. Je ne détaille pas ici l’algorithme de reconnaissance des sujets. Je commente un certain nombre d’exemples pour en faire comprendre les caractéristiques essentielles. Dans les exemples qui suivent, les pas du parcours sont indiqués par des indices numériques sur les mots35. Dans l’exemple 2, le module cherche un sujet pour le verbe vont. Il entame son parcours à gauche du verbe. Le premier pas de son parcours est le nom vacances. Celui-ci est gouverné par la préposition pour, il ne peut être choisi comme sujet. Le parcours se poursuit à la préposition pour (pas n°2), puis au nom embarcation situé à gauche de la préposition (pas n°3). Ce nom est gouverné par le verbe recherchent, et ne peut lui non plus être choisi comme sujet. Le parcours se poursuit au verbe recherchent (pas n°4), puis à la frontière maximale droite de ce mot, qui est le pronom relatif qui. Ce pronom ayant déjà un gouverneur, le module se déplace immédiatement à sa gauche, où il trouve le pronom sans gouverneur ceux, qu’il retient comme sujet du verbe vont. (2) Ceux6 qui5 recherchent4 une embarcation3 pour2 leurs prochaines vacances1 vont pouvoir déambuler au milieu des stands de la porte de Versailles à la recherche du bateau de leur rêve. [LMO] L’exemple 3a illustre le cas, fréquent, d’un sujet inversé dans une relative. Le module Sujet reconnaît le nom Bercy comme sujet du verbe de la relative (trouve). Au moment de sa recherche du sujet du verbe découle, il ne sélectionne donc pas ce nom, et reconnaît comme sujet, au-delà de la relative intercalée, le nom situation (exemple 3b). Dans l’exemple 4, les transitions au pas n° 3 (d’une préposition à un adjectif immédiatement à gauche) et au pas n°4 (d’un adjectif à un nom immédiatement à gauche) illustrent le fait que l’algorithme de parcours est conçu de façon à « remonter » les groupes nominaux potentiels, alors que les liens de dépendance au sein de ces groupes n’ont pas encore été posés (comme le lien entre la préposition de et son gouverneur). De façon générale, le postulat qu’il existe certainement un sujet autorise des prises de risques, raisonnables, dans le parcours, et justifie que l’on peut chercher à reconnaître les liens Sujet, pourtant susceptibles d’être à longue distance, assez tôt dans le processus de reconnaissance syntaxique de l’énoncé. (3a) L'étrange situation dans2 laquelle1 se trouve Bercy3 découle largement de la décision prise par le chef du gouvernement. [LMO] (3b) L'étrange situation5 dans4 laquelle3 se trouve2 Bercy1 découle largement de la décision prise par le chef du gouvernement. [LMO] 35 Ces indices ne représentent plus les numéros des mots dans la séquence, comme dans la section 3.2.2. 104 (4) Laisser9 s'installer l'idée8 que7 l'IVG peut6 constituer5 un palliatif4 acceptable3 de2 la contraception1 équivaut à une démission, à un retour en arrière. [LMO] Des incises sont fréquemment intercalées entre un verbe et son sujet. Dans l’exemple 5, le module se déplace de la virgule située à gauche du premier verbe coordonné prend (pas n°1) à la première virgule qu’il rencontre à gauche (pas n°2), puis il continue son parcours jusqu’au nom membre (pas n°3 à 5). La situation peut être, en apparence, plus compliquée quand incises et relatives sont intercalées. Dans l’exemple 6a, le module reconnaît d’abord le lien sujet entre le coordonnant et et le pronom relatif qui, en sautant l’incise peu après Trafalgar. Cela lui permet ensuite d’identifier le nom navire comme sujet du verbe était (exemple 6b), grâce au saut entre le coordonnant et et sa frontière gauche maximale qui (pas n°8). L’algorithme de recherche des sujets est conçu sur la base de l’hypothèse que les virgules dans les séquences sont correctement équilibrées. C’est une contrainte forte qui vaut pour tous les modules de SYNTEX. Quand, dans une séquence, cette norme n’est pas respectée, l’analyse échoue le plus souvent. C’est le cas dans les exemples 7a et 7b, où l’absence de virgule fermante après l’adjectif rural empêche la reconnaissance du sujet du verbe doivent, pour lequel le module Sujet échoue sur la préposition comme (exemple 7a), et du sujet du verbe précise, pour lequel le module Sujet échoue sur le nom aspects (exemple 7b), qui ne s’accorde pas avec le verbe. (5) La célèbre membre5 de4 la meute3 ,2 la députée de Hamilton Est ,1 prend la parole et salit tout ce qu'elle peut. [HAN] (6a) En fait le navire, qui3 ,2 peu après Trafalgar ,1 avait été pris par les Anglais au large de la côte portugaise et avait servi longtemps dans la Royal Navy, était en si mauvais état que les explosifs, au lieu de percer des trous dans la coque comme il avait été prévu, la détruisirent complètement. [LMO] (6b) En fait le navire9 qui8 , peu après Trafalgar , avait été pris par les Anglais au large de la côte portugaise et7 avait6 servi5 longtemps4 dans3 la Royal2 Navy1 était en si mauvais état que les explosifs, au lieu de percer des trous dans la coque comme il avait été prévu, la détruisirent complètement. [LMO] (7a) Les aspects non-commerciaux de l'agriculture, comme4 la protection de l'environnement, la sécurité alimentaire et3 le développement2 rural1 doivent être pris en compte, précise le texte. [LMO] (7b) Les aspects6 non-commerciaux5 de4 l'agriculture3 ,2 comme la protection de l'environnement, la sécurité alimentaire et le développement rural doivent être pris en compte ,1 précise le texte. [LMO] Différents types de configurations d’inversion de sujet sont reconnues, en plus des relatives, par exemple quand un syntagme prépositionnel est positionné en tête de séquence (Sous le pont Mirabeau coule la Seine). Le syntagme prépositionnel n’est pas nécessairement séparé du verbe par une virgule. Dans l’exemple 8, quand le module Sujet traite le verbe est, il arrive (pas n°4) à la préposition à en tête de séquence, sans 105 avoir trouvé de sujet. Il relance alors une recherche à droite du verbe et trouve le nom notion. Dans l’exemple 9, c’est au pas n°12 que le module fait demi-tour pour aller chercher le sujet menace à droite du verbe ajoute. (8) À4 Charlottetown3 ,2 en 1864 ,1 est née la notion5 d'un peuple dont les divers éléments sont à la fois unis et fiers de leurs différences (9) Aux12 soucis12 que11 lui causait10 sa majorité9 au8 conseil7 général6 d'5 Ille et4 Vilaine3 ,2 qu'il préside depuis 1982 ,1 s'ajoute aujourd'hui une menace13 directe sur sa gauche. [LMO] Le module Sujet peut être amené à défaire des liens posés par le module Coordination et d’autres modules. Dans l’exemple 10a, le module Coordination a coordonné les noms histoire et régions et le module Objet a placé un lien entre le verbe a et le coordonnant et. Quand il cherche le sujet du verbe ont (exemple 10b), le module Sujet part du nom régions, situé immédiatement à gauche du verbe. Ce nom est gouverné par le coordonnant et. Le module Sujet garde en mémoire l’information selon laquelle un nom situé à gauche est gouverné par un coordonnant, et il poursuit son parcours du coordonnant et au verbe a, dont ce coordonnant est objet. De façon générale, quand le module Sujet atteint dans son parcours un verbe conjugué, il s’attend à ce que celui-ci soit le verbe d’une proposition relative ou complétive, auquel cas il continue sa recherche à partir du pronom relatif ou de la conjonction. Quand ce n’est pas le cas, s’il a en mémoire le fait qu’il a trouvé au cours de son parcours un nom coordonné à gauche du verbe dont il cherche le sujet, il utilise cette information pour défaire les liens36. Dans l’exemple 10c, le module décoordonne les noms histoire et régions, déplace la cible du lien Objet du coordonnant vers le nom histoire, et enfin ajoute un lien Sujet entre le verbe ont et le nom régions. La situation est analogue dans l’exemple 11, où le module Sujet décoordonne les noms lots et fiches pour placer un lien Sujet entre seront et fiches, et dans l’exemple 12, où le module Sujet décoordonne les noms faim et chef pour placer un lien Sujet entre pouvait et chef. (10a) Le Canada a une histoire relativement courte et certaines régions ont une histoire encore plus courte que d' autres. [HAN] (10b) Le Canada4 a3 une histoire relativement courte et2 certaines régions1 ont une histoire encore plus courte que d'autres. [HAN] (10c) Le Canada a une histoire relativement courte et certaines régions ont une histoire encore plus courte que d' autres. [HAN] (11) Les différents manuels et encyclopédies vendus dans les librairies apportent leur lot de renseignements pratiques et les petites fiches décrivant les plantes 36 Tout ceci évoquera à ceux qui les connaissent le fonctionnement des ATN. 106 qui les accompagnent seront d'un grand secours pour ceux qui débutent. [LMO] (11’) Les différents manuels et encyclopédies vendus dans les librairies apportent leur lot de renseignements pratiques et les petites fiches décrivant les plantes qui les accompagnent seront d'un grand secours pour ceux qui débutent. [LMO] (12) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de presse à El Paso, faire état que de la découverte de restes « qui pourraient être humains ». [LMO] (12’) Les enquêteurs semblaient rester sur leur faim et le chef de la lutte antigang au Mexique, José Larrieta Carrasco, ne pouvait, lors d'une conférence de presse à El Paso, faire état que de la découverte de restes « qui pourraient être humains ». [LMO] Les formes de+le à droite d’une virgule ne sont pas désambiguïsées au moment du traitement des relations locales (cf. 3.2.2). Elles peuvent l’être dans certains cas quand une coordination est reconnue (cf. 3.2.3). Elles peuvent être désambiguïsées aussi par le module Sujet. Dans l’exemple 13, le module Sujet, après avoir identifié le nom millions comme seul sujet possible pour le verbe croupissaient, réétiquette la forme des devant ce nom en Déterminant (PD, pour Préposition ou Déterminant, et D pour Déterminant).Il désambiguïse selon le même principe la forme de dans l’exemple 14. Il désambiguïse en chaîne les formes des dans l’exemple 15. (13) Sans grands secours, desPDD millions de personnes déplacées croupissaient encore dans les centres de regroupement ou campaient dans des villes en ruines. [LMO] (14) Avec le boom économique des années 1975-1983, dePDD vraies maisons où vivent aujourd'hui la majorité des habitants s'élevèrent. [LMO] (15) A mesure que la vidéo se déroule, desPDD textes et desPDD illustrations d'accompagnement apparaissent automatiquement sur une autre partie de l'écran. [LMO] Pour finir, quand le module a posé un lien Sujet entre un verbe et un nom, il stocke cette information en mémoire, sous la forme d’un triplet (verbe, SUJ, nom). Les triplets acquis à l’issue du traitement de l’intégralité du corpus par les modules Sujet et Objet seront exploités dans le processus de désambiguïsation endogène des rattachements des prépositions de (section 3.2.9) et des relatifs (section 3.2.10). 3.2.7. Les relations ambiguës : apprentissage endogène Après les relations Objet, Attribut et Sujet, je présente les relations dites « ambiguës ». Il s’agit des relations suivantes : la relation entre un pronom relatif et son antécédent 107 (relation REL), la relation entre une préposition et son gouverneur (relation PREP) et la relation entre un adjectif et le nom dont il est épithète (relation ADJ). Ces relations sont ambiguës en ce sens qu’au moment de la recherche des liens syntaxiques plusieurs cibles de rattachement peuvent être identifiées, qui sont toutes syntaxiquement également plausibles : on ne peut les départager sur de simples critères de configuration syntaxique. Ces relations imposent un mode de traitement particulier comprenant une phase de désambiguïsation, qui n’existe pas avec les relations Objet, Attribut et Sujet. Pour chacune de ces relations, le traitement s’effectue en deux étapes : - au cours d’une première passe, le module chercherCandidat recherche des candidats gouverneurs sur la base de critères configurationnels ; - dans le cas où plusieurs candidats ont été identifiés, le module choisirCandidat procède à la désambiguïsation en sélectionnant un candidat sur la base d’indices lexico-syntaxiques affectés à chacun des candidats. Les indices sont de deux types : endogène et exogène. Le principe de l’apprentissage endogène, que j’avais introduit dans LEXTER (section 1.2), a été repris et étendu dans SYNTEX. Comme nous l’avons dans la section 2.3.4 du chapitre 2, ce principe a été utilisé par F. Debili dans son analyseur (Debili, 1982). Il est aussi à la base des travaux de R. Basili, M.T. Pazienza et M. Vindigni sur l’analyse syntaxique de l’italien (Basili et al., 1999). L’intérêt est de capter automatiquement des spécificités du corpus, en terme de forces d’association entre unités lexicales, pour les utiliser, en circuit fermé, à des fins de désambiguïsation. Les indices endogènes sont calculés à partir d’informations collectées par l’analyseur lui-même au cours du traitement du corpus. Ces informations sont obtenues à partir de triplets stockés en mémoire par les différents modules au fur et à mesure de l’analyse. Ces triplets ont la forme (w,R,w’), ils sont extraits de contextes non ambigus dans lesquels l’analyseur a placé un lien syntaxique R entre le gouverneur w et le dépendant w’. Par exemple, dans l’exemple 1, le module Sujet stocke en mémoire le triplet (voter,SUJ,néo-démocrate) ; le module chercherCandidat associé à la relation PREP de recherche des gouverneurs des prépositions stocke en mémoire le triplet (voter,CONTRE,TRPG), car il a trouvé le verbe voter comme seul candidat pour la préposition contre37. (1) Les néo-démocrates avaient également voté contre la TRPG. [HAN] Le premier triplet peut permettre de choisir le bon rattachement de la préposition de dans un contexte comme « le vote de défiance des néo-démocrates », si on utilise en plus un lexique morphologique dans lequel le nom vote est associé au verbe voter (section 3.2.10). Bien entendu, l’information désambiguïsante est susceptible d’apparaître dans le corpus après le contexte ambigu. Il s’ensuit que les modules qui exploitent des informations de type endogène doivent intervenir une fois que l’ensemble du corpus a été traité, éventuellement en plusieurs passes, par les modules qui acquièrent 37 Dans le cas de la relation PREP, le triplet est construit à partir de 2 liens syntaxiques, celui entre le gouverneur de la préposition et la préposition et celui entre la préposition et son dépendant : le premier élément du triplet est le gouverneur de la préposition, le deuxième est la préposition elle-même, le troisième est le dépendant de la préposition. 108 ces informations. L’apprentissage endogène implique donc, dans son principe même, le traitement du corpus en au moins deux passes. Les modules Sujet et Objet, et les trois modules chercherCandidat, correspondant aux trois relations ambiguës introduites plus haut, ont traité l’ensemble des séquences du corpus, avant la phase de désambiguïsation : ces modules n’ont acquis que les triplets reconnus dans des contextes non ambigus, c’est-à-dire ceux dans lequel un seul candidat a été identifié. Les modules de désambiguïsation disposent d’un ensemble de données endogènes constituées de triplets (w,R,w’), et de leur fréquence F(w,R,w’). Pour la résolution des ambiguïtés de rattachement prépositionnel, le module choisirCandidatPrep calcule à partir de ces données des probabilités de sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec telle préposition). Le mode de calcul de ces probabilités est simple. Lors du traitement de l’ensemble du corpus, le module chercherCandidatPrep a acquis non seulement les triplets (w,p,w’), où w est le gouverneur de la préposition p, et w’ le dépendant (nom ou verbe à l’infinitif), mais il a compté aussi pour chaque mot w le nombre d’occurrences dans le corpus où ce mot n’est candidat gouverneur d’aucune préposition. A l’issue du traitement de l’ensemble du corpus, le module choisirCandidatPrep dispose des données de fréquence suivantes : – F(w,0) : nombre d’occurrences non ambiguës où le mot w ne gouverne aucune préposition, – F(w,p,w’) : nombre d’occurrences non ambiguës où le mot w gouverne la préposition p, qui elle-même gouverne le mot w’, La probabilité est calculée comme une fréquence relative pondérée38. Soit T, l’ensemble des triplets (w,p,w’). Pour un couple (w,p), on définit Ew,p comme l’ensemble des mots w’ tels que la fréquence F(w,p,w’) est supérieure à 0. Je définis la productivité du couple (w,p), Prod(w,p), comme le cardinal de l’ensemble Ew,p, c’est-à-dire comme le nombre de mots différents que gouverne la préposition p quand elle-même est gouvernée par le mot w. J’utilise ce coefficient pour pondérer la fréquence totale du couple (w,p). A fréquence égale, plus le couple (w,p) a été repéré avec des contextes w’ différents, plus grande est estimée la propension du mot w à gouverner la préposition p. L’expérience montre en effet que, dans des corpus thématiques, la très haute fréquence de certains syntagmes très répétitifs incluant le triplet (w,p,w’) vient biaiser la probabilité d’association lexicale entre w et p. La pondération proposée ci-dessus vise à limiter une telle surestimation et à accorder un poids non seulement à la fréquence de l’association, mais aussi à sa diversité. Par exemple, si le verbe manger apparaît 5 fois avec la préposition avec, uniquement dans {manger,avec,Jean}, et 5 fois aussi avec la préposition à, dans {manger,à,restaurant|maison|self|cantine|table}, la probabilité pondérée de {manger,avec} sera de 0.28 et celle de {manger,avec} sera de 0.72. La formule de calcul de la probabilité pondérée est donnée dans le tableau 7 : F(w,p) est la fréquence totale du couple (w,p), F(w) est la fréquence totale du mot w, et  est un 38 Je n’ai pas testé d’autres méthodes de filtrage, comme celle de la distribution polynomiale (Manning, 1993). 109 coefficient de normalisation, choisi de telle sorte que la somme des probabilités associées à un mot donné soit égale à 1. T = { (w,p,w’) / F(w,p,w’) > 0 }, ensemble de triplets F(w,p,w’) : nombre d’occurrences où le mot w gouverne la préposition p, elle-même gouvernant le mot w’ F(w,0) : nombre de cas où w ne gouverne aucune préposition Ew,p = { w’ / F(w,p,w’) > 0 }, le contexte du couple (w,p) Prod(w,p) = Card(Ew,p), la productivité du couple (w,p) F(w,p) = w’ Ew,p F(w,p,w’), le nombre d’occurrences de w quand il gouverne p F(w)=F(w,0)+  p F(w,p), le nombre total d’occurrences de w P(w,0) = F(w,0)/F(w), la probabilité d’occurrence de w sans préposition P(w,p)=F(w,p) /F(w)*log(1 + Prod(w,p))/ , la probabilité d’occurrence de w avec la préposition p Tableau 7. Méthode de calcul des probabilités de sous-catégorisation Pour être tout à fait précis, il faut préciser que le couple (w,p) est distingué selon que la préposition p gouverne un nom (P(w,pNom)) ou un verbe à l’infinitif (P(w,pVinf)). A titre d’illustration, je donne un extrait du lexique acquis sur un corpus de 400 000 mots constitué de comptes rendus d’hospitalisation dans le domaine de la réanimation chirurgicale (corpus REA, (Bourigault et al., 2004)). P w p 0,44 accord avec 0,24 accouchement par 0,41 allergie à 0,20 amylasémie à 0,46 analgésie par 0,20 anémie à 0,73 antibioprophylaxie par 0,35 antibiothérapie par 0,23 anticoagulation par 0,61 argument pour 0,31 argument en faveur de 0,30 arme à Tableau 8. Quelques probabilités de sous-catégorisation acquise ssur un corpus médical 3.2.8. Ressource exogène : construction d’un lexique de sous-catégorisation Après de longues années d’une adhésion obstinée et exclusive à l’apprentissage endogène, et avec l’arrivée de Cécile Frérot dans le projet, j’ai travaillé à l’élaboration de 110 ressources générales, susceptibles d’être exploitées pour tout corpus. Dans le cadre de sa thèse, Cécile Frérot a expérimenté l’utilisation d’un lexique de sous-catégorisation construit à partir des tables du Lexique Grammaire (Frérot et al., 2003 ; Frérot, 2005). Devant les limites d’une telle approche, j’ai développé une méthode d’acquisition automatique d’un lexique de probabilités de sous-catégorisation à partir d’un corpus de très grande taille (Bourigault et Frérot, 2005). Les méthodes d’acquisition de propriétés de sous-catégorisation exploitent classiquement des corpus étiquetés de grande taille (Ushioda et al., 1993 ; Manning, 1993 ; Basili, Vindigni, 1998). Le Web est aussi considéré comme source potentielle d’acquisition (Gala Pavia, 2003 ; Volk, 2001). J’utilise comme base d’apprentissage un corpus de 200 millions de mots, constitué des articles du journal Le Monde, des années 1991 à 2000 (corpus LM1039). Sa taille et sa diversité thématique en font un corpus référentiellement et linguistiquement peu marqué, à partir duquel il est raisonnable de chercher à acquérir des données de sous-catégorisation qui soient relativement génériques. La procédure d’acquisition est directement adaptée de la méthode d’apprentissage endogène présentée dans la section précédente. La méthode de calcul des probabilités de sous-catégorisation s’appuie sur un ensemble de triplets (w,p,w’) extraits d’une analyse syntaxique de l’ensemble du corpus LM10 effectuée par SYNTEX40. La procédure d’acquisition se déroule en deux étapes, au cours desquelles la même méthode de calcul de probabilités est lancée successivement sur deux ensembles différents de triplets : une étape d’amorçage et une étape de consolidation. - Au cours de l’étape d’amorçage, les probabilités sous-catégorisation sont calculées exactement comme décrit précédemment, et donc à partir de triplets (w,p,w’) acquis dans des contextes non ambigus ; - Au cours de l’étape de consolidation, le module choisirCandidatPrep exploite le lexique construit lors de l’étape d’amorçage, et traite à son tour l’ensemble du corpus LM10, analysé par le module chercherCandidatPrep. Il revient sur les cas ambigus et choisit le gouverneur candidat dont la probabilité de construction avec la préposition, fournie dans le premier lexique, est la plus élevée. A partir de ces nouvelles annotations, un nouvel ensemble de triplets est constitué, qui inclut le précédent et auquel s’ajoutent les triplets (w,p,w’) issus des cas ambigus résolus. De nouvelles données de fréquence F(w,p,w’) et F(w,0) sont alors constituées, à partir desquelles un second ensemble de probabilités de sous-catégorisation est calculé, selon la même méthode. C’est le lexique construit à l’issue de cette étape de consolidation qui est utilisé dans SYNTEX. 39 Ce corpus a été préparé, à partir de fichiers obtenus auprès de l’agence Elra, à l’aide de programmes, mis au point par Benoît Habert (LIMSI), qui ont effectué les tâches de nettoyage, de balisage et de signalisation nécessaires pour transformer les fichiers initiaux en un corpus effectivement « traitable » par des outils de Traitement Automatique des Langues. Nous remercions Benoît Habert et le LIMSI de nous avoir permis de bénéficier de ces programmes. 40 Environ 24 heures de traitement sur un biprocesseur Xeon 3.06GHz (4 Go de RAM) 111 Le nombre total d’occurrences de triplets (w,p,w’) à partir desquels les probabilités sont calculées est de l’ordre de 6,7 millions à l’issue de l’étape d’amorçage, et de 12 millions à l’issue de l’étape de consolidation. Le nombre total d’occurrences de mots ne régissant pas de préposition est d’environ 87 millions à l’issue de l’étape d’amorçage, et de 95 millions à l’issue de l’étape de consolidation. Les probabilités ne sont calculées que pour les couples (w,p) tels que la fréquence totale du mot w est supérieure à 20. Un couple n’est retenu dans le lexique de désambiguïsation que si la probabilité dépasse le seuil de 0.01. Le lexique final compte 6 693 verbes différents (chacun pouvant être présent avec plusieurs prépositions), 11 528 noms et 698 adjectifs. Je présente les résultats d’une évaluation comparative des ressources endogènes et exogènes pour la désambiguïsation prépositionnelle dans la section 3.2.10. 3.2.9. Antécédence relative Je présente successivement les modules « à ambiguïté » : le module de rattachement des pronoms relatifs à leur antécédent (3.2.9), le module de rattachement des prépositions à leur gouverneur (3.2.10) et le module de rattachement des adjectifs épithètes à leur nom (3.2.11). Pour chacun de ces modules, je précise d’abord les conventions de représentation, puis l’algorithme de recherche des candidats gouverneurs et enfin les indices exploités pour la désambiguïsation. Représentation Comme la coordination, la relation de l’antécédence relative pose des problèmes de représentation. Ceux-ci ont pour origine la « nature double » du pronom relatif, pour reprendre les termes de Tesnière. Selon ce dernier, le pronom relatif est à la fois un « translatif », en tant qu’il confère à la subordonnée la valeur d’adjectif, et un « anaphorique », en connexion anaphorique avec son antécédent, subordonné au verbe de la proposition relative (Tesnière, 1959, pp. 560-561). Pour la représentation en stemma, Tesnière propose de disloquer en deux le pronom relatif qui : la forme qu- est le « transférème » et la forme –i est l’« anaphorème ». Le stemma correspondant à la séquence « l’homme qui écrit » est celui-ci : l’homme A qu- écrit -i (Tesnière, 1959, p. 561) La représentation de Mel’cuk est peu différente. Selon lui, le pronom relatif ne dépend syntaxiquement que du verbe de la subordonnée. Certes, le pronom relatif dépend aussi de son antécédent, mais simplement morphologiquement, et il y a par ailleurs un lien 112 anaphorique entre le pronom et son antécédent, mais ceci est non pertinent du point de vue syntaxique. Du point de vue syntaxique, la subordonnée relative dépend de l’antécédent, via son verbe. On reprenant l’exemple de Tesnière, on peut reconstituer la représentation qu’en ferait Mel’cuk, et classiquement les praticiens de la dépendance, ainsi (les traits en pointillés représente un lien anaphorique) : L’homme qui écrit À partir de (Mel’cuk, 1988, p. 26) Dans SYNTEX, je ne dispose pas d’une catégorie spéciale pour les liens anaphorique, je traite la relation d’antécédence relative comme une relation syntaxique. J’ai choisi de représenter cette relation par un lien syntaxique dont la source est l’antécédent et la cible le pronom relatif. Je ne marque pas le lien entre le verbe de la subordonnée et l’antécédent ; ce lien est calculé par une fonction spécifique à chaque fois que cela est nécessaire dans les traitements. Dans la représentation SYNTEX, les pronoms relatifs ont potentiellement deux gouverneurs41. Le pronom relatif est la cible des relations de dépendance Sujet et Objet qui partent du verbe de la subordonnée (exemple 1a). Si le pronom relatif est gouverné par une préposition, celle-ci est gouvernée par le verbe de la relative. Avec une telle représentation, des croisements sont possibles (exemples 1b). (1a) l’homme qui mange l’homme que je vois REL SUJ REL OBJ (1b) l’homme qu’ a vu Jean l’homme avec lequel Jean mange Recherche des antécédents Pour la relation d’antécédence relative, la recherche des candidats est relativement simple. Le module chercherCandidat teste tous les noms qu’il trouve à gauche du pronom relatif, dans un contexte restreint, et il utilise deux contraintes pour les filtrer. La première contrainte est une contrainte d’accord, pour les pronoms relatifs en –quel, pour le pronom relatif sujet qui, et pour le pronom relatif que quand le verbe est à une forme composée. Dans l’exemple 2, le nom ministre est refusé comme candidat antécédent pour le pronom relatif laquelle, de même que le nom libération pour le pronom qui dans l’exemple 3, et que les noms collaboration, fonction et conseil dans l’exemple 4. La seconde contrainte est une contrainte de forme : le module rejette les noms au singulier sans déterminant, gouvernés par une préposition (loi dans l’exemple 5 et financement dans l’exemple 6). 41 S. Kahane (1997) propose lui –aussi d’associer deux noeuds aux mots –wh. 113 (2) L'opinion du ministre selon laquelle ces organismes sont incapables de subvenir à leurs besoins ont provoqué du mécontentement dans de nombreuses localités. [HAN] (2’) Le premier ministre confère un redoutable pouvoir d'empêchement aux organisations clandestines, sur les décisions desquelles la très grande majorité des Corses n'ont pas prise. [LMO] (3) Il permettra d'accélérer la libération des prisonniers qui, pour quelque raison que ce soit, seraient admissibles à la libération conditionnelle de jour. [HAN] (4) Ces lignes directrices avaient été préparées en collaboration avec les syndicats de la Fonction publique représentés au Conseil national mixte, qui les ont approuvées. [HAN] (5) Nous avons enfin adopté le projet de loi qui élargissait la Commission d'appel de l'immigration. [HAN] (6) C'est une formule de financement fort originale dont nous sommes très fiers parce qu'elle est fonction des résultats. [HAN] Désambiguïsation Pour choisir parmi plusieurs antécédents candidats, le module choisirCandidatRel utilise un seul indice, de type endogène, et uniquement dans le cas des pronoms relatifs qui ou que. Pour les autres pronoms, il applique la règle par défaut (cf. infra). Soit c le candidat, soit v le verbe de la relative. Si le pronom relatif est qui, l’indice affecté au candidat c est F(v, SUJ, c), c’est-à-dire le nombre de fois où l’antécédent c a été trouvé comme sujet du verbe v. Si le pronom relatif est que, l’indice affecté au candidat c est F(v, OBJ, c). Dans l’exemple 642, c’est le nom problème qui a été choisi comme antécédent, plutôt que le nom interprétation, car le module Sujet a eu l’occasion d’établir ailleurs dans le corpus un lien entre le verbe demeurer et le nom problème. Dans l’exemple 7, c’est le nom fonctions qui a été choisi comme antécédent, plutôt que le nom anti-terrorisme, car le module Objet a eu l’occasion d’établir ailleurs dans le corpus un lien entre le verbe occuper et le nom fonction. Dans l’exemple 8, le nom rôle est choisi pour des raisons analogues. (6) Il n'est pas possible ici de traiter du problème+ de l'interprétation des séquences, qui demeure le prochain défi à relever. [LMO] (7) Cette règle pourrait, en revanche, contraindre Jean-Louis Bruguière à quitter ses fonctions+ de juge d'instruction spécialisé dans l'anti-terrorisme, qu'il occupe depuis plus de dix ans. [LMO] 42 Dans les exemples suivants, le candidat choisi par le module de désambiguïsation est marqué par un ‘+’ en exposant. 114 (8) Un policier algérien décide de passer du côté du FLN alors que son collègue français, témoin des exactions de l'armée, ne trouve plus sa place dans le rôle+ de maintien de l'ordre qui lui est confié. [LMO] La règle par défaut, qui s’applique pour les pronoms relatifs autres que qui et que ou quand aucun indice n’a été trouvé pour aucun candidat, est la suivante : si le pronom relatif est dans une incise (précédé d’une virgule), choisir le candidat le plus éloigné du pronom relatif(exemples 9 et 10) ; sinon, choisir le candidat le plus proche (exemples 11 et 12). (9) La Chambre a entendu les explications+ du ministre, qu’on retrouve à la page 1147 du Hansard du 6 novembre. [HAN] (10) Le ministre pourra assurément trouver une ou deux personnes+parmi ces groupes, qui seraient favorables à certains des aspects de la mesure. [HAN] (11) Les sénateurs seront nommés à partir d'une liste proposée par le gouvernement de la province+ où il y a des postes à combler. [HAN] (12) Le ministre de la Justice a entrepris une étude de cette question+ au cours de laquelle il consultera les parties intéressées et les groupes professionnels. [HAN] 3.2.10. Attachement des prépositions Représentation Pour la relation PREP, les conventions de représentation sont les suivantes : la relation PREP a pour source le gouverneur de la préposition, qui peut être un verbe, un nom ou un adjectif, et pour cible la préposition. Si le gouverneur est un verbe à une forme composée, c’est l’auxiliaire qui est la source du lien. Dans le cas de prépositions coordonnées, c’est le coordonnant qui est la cible de la relation. Il n’y pas de distinction de représentation entre complément et adjoint, ou entre complément « essentiel » et complément « circonstanciel » (exemple 1). Le problème essentiel en analyse syntaxique automatique est de trouver le bon gouverneur d’une préposition. En corpus, la distinction argument/circonstant est difficile à établir dans nombre de cas, même pour un grammairien. Dans le cadre du développement de SYNTEX, C. Fabre et C. Frérot (2002) ont proposé une mesure simple pour distinguer automatiquement, au sein des groupes prépositionnels rattachés au verbe, les arguments et les circonstants. Cette mesure, endogène, utilise deux coefficients de productivité : la productivité du gouverneur verbal vis à vis de la préposition et celle du dépendant vis à vis de la préposition. Les résultats montrent que cette mesure permet de repérer les arguments avec une précision de 88%, et les circonstants avec une précision de 72%, SYNTEX n’effectue pas la distinction argument/circonstant, mais il tente de distinguer les compléments dits « de phrase », ceux qui ne dépendent syntaxiquement d’aucun mot de la phrase, et qu’il convient de laisser « flotter » dans la séquence (exemple 2). 115 (1) Jean donne un bonbon à Marie. Jean regarde un film à la télévision. PREP PREP (2) Après le travail, Jean rentre chez lui. Recherche des gouverneurs candidats Quand on évoque les prépositions en analyse syntaxique automatique, on parle le plus souvent du problème de l’ambiguïté de rattachement, c’est-à-dire de celui du choix du bon gouverneur parmi plusieurs candidats (en général deux). On s’étend rarement sur le problème de la reconnaissance des gouverneurs candidats. Or, quand il s’agit de développer un analyseur opérationnel, mettre au point des procédures qui cherchent à gauche d’une préposition l’ensemble des mots susceptibles de la gouverner est un problème en soi. Le module chercherCandidatPrep s’appuie sur les liens syntaxiques déjà placés pour parcourir la séquence de droite à gauche. Il dispose d’un certain nombre de critères d’arrêt, décrivant les configurations dans lesquelles il doit stopper sa recherche. Il n’est pas question ici de décrire en détail l’algorithme. Je donne quelques indications en fonction de la catégorie des mots rencontrés par le module pendant le parcours : nom, adjectif, préposition, verbe, virgule. Nom. Si le module rencontre un nom, il le prend comme candidat, puis il se déplace au recteur de ce nom, sauf si celui-ci est placé à droite, comme c’est le cas en particulier s’il est antécédent d’un pronom relatif ou sujet. Dans l’exemple 3, la recherche des gouverneurs candidats pour la préposition sur s’arrête au nom loi qui est lié syntaxiquement au pronom relatif laquelle situé à droite de la préposition. Dans l’exemple 4, la recherche pour la préposition de s’arrête au nom filles qui est lié syntaxiquement au pronom relatif qui situé à droite de la préposition. Dans l’exemple 5, la recherche pour la préposition à s’arrête au nom conflits qui est sujet du verbe se poursuivent situé à droite de la préposition. REL (3) Ce procédé représente de probables atteintes à la loi sur les partis, laquelle fixe en particulier le financement politique. [HAN] (4) Engels s'est plié une fois à l' exercice, sur l' instance des filles de Marx qui le considéraient comme leur oncle. [LMO] REL (5) Elle intervient alors que des conflits liés à l'application des 35 heures se poursuivent dans plusieurs secteurs. [LMO] SUJ Adjectif. Si le module rencontre un adjectif, il conserve cet adjectif comme candidat uniquement si celui-ci est placé immédiatement à gauche de la préposition. La recherche des gouverneurs candidats pour les prépositions et pour les adjectifs s’effectue au cours d’une seule et même passe sur la séquence, de gauche à droite. A un adjectif situé à gauche d’une préposition, le module chercherCandidatAdj peut avoir affecté un ou 116 plusieurs gouverneurs nominaux dont l’adjectif est potentiellement épithète (section 3.2.11). Chacun de ces noms est récupéré comme candidat de la préposition, et la recherche continue à partir du plus à gauche de ces noms. Dans l’exemple 6, le module chercherCandidatPrep retient, pour la préposition en, l’adjectif judiciaire comme candidat, ainsi que ses gouverneurs potentiels dossiers et commissions, préalablement identifiés par le module chercherCandidatAdj. Il retient ensuite le nom ingérence situé immédiatement à gauche du gouverneur des du nom commissions. Dans l’exemple 7, il retient, pour la préposition du, l’adjectif Mondiale, et tous ses gouverneurs nominaux candidats. (6) L’ingérence des commissions dans des dossiers judiciaires en cours. [LMO] ADJ (7) L’ouverture de la réunion de l’OrganisationMondiale du Commerce. [LMO] ADJ Préposition. Si le module rencontre une préposition, il récupère tous les gouverneurs candidats qu’il a lui-même identifiés pour cette préposition, quelque instants auparavant. Dans l’exemple 8, le module chercherCandidatPrep retient, pour la seconde préposition à, le participe passé limitée, puis le nom négociation, puis les deux gouverneurs candidats échec et préfère qu’il avait retenus pour la première préposition à. (8) OMC : la France préfère un échec à une négociation limitée à l'agriculture. [LMO] Verbe. Si le module rencontre un verbe, il le retient comme candidat et arrête sa recherche. Les cas où cet arrêt est prématuré, par exemple quand il s’agit de trouver un gouverneur verbal au-delà d’une relative, sont extrêmement rares. Ils sont pour le moment mal traités par l’analyseur. Virgule. Un cas problématique est celui où une virgule, non coordinatrice, précède immédiatement une préposition. A ce stade du traitement, il est difficile de déterminer s’il faut aller chercher les gouverneurs candidats juste après cette virgule, au cas où la préposition serait tête d’un syntagme prépositionnel en position incise, ou bien s’il faut « sauter » une section incise jusqu’à une éventuelle virgule « ouvrante » pour retrouver le gouverneur de la préposition. On peut être en présence d’un « complément de phrase » qu’il serait malvenu de lier syntaxiquement à quoi que ce soit. C’est pourquoi le rattachement des prépositions précédées d’une virgule est reporté à un stade ultérieur de l’analyse, quand tous les liens ont été posés (section 3.2.8). Dans beaucoup d’études sur l’ambiguïté de rattachement prépositionnel, en particulier dans les travaux fondateurs de Hindle et Rooth (1993), les configurations sur lesquelles 117 sont testés les algorithmes de désambiguïsation ne sont constituées que de deux candidats, un verbe et un nom. Dans les corpus, les configurations d’ambiguïtés, exprimées en termes de suite des catégories des candidats repérés par le module chercherCandidatPrep, sont en fait très diverses. Dans l’expérience que nous avons menée avec Cécile Frérot, et présentée dans (Bourigault et Frérot, 2005), nous avons montré que, sur les 4 corpus de test, la configuration ‘V N’, où seuls un verbe et un nom sont en compétition ne représente que 50 % des cas dans le corpus littéraire, 35 % dans le corpus journalistique et 15 % dans le corpus juridique et le corpus technique. Indices et stratégie de désambiguïsation Le module choisirCandidatPrep exploite essentiellement trois indices : deux indices endogènes (F et ProbaEndo) et un indice exogène (ProbaExo). Soit, p la préposition, w le dépendant de la préposition, C la catégorie de ce dépendant. Soit {ci, i=1, …, n}, les gouverneurs candidats. - L’indice Fi pour le candidat ci est égal à la fréquence du triplet (ci,p,w) dans le corpus. C’est un indice endogène. Si la préposition est de, le module calcule un autre indice endogène du même type, en exploitant le lexique de correspondance verbo-nominale VERBACTION, développé par Nabil Hathout43. Pour chaque gouverneur candidat qui est un nom, si ce nom ci est associé à un verbe vi dans VERBACTION, l’indice Fvi pour le candidat ci est égal à somme des fréquences des triplets (vi,SUJ,w) et (vi,OBJ,w). - L’indice ProbaEndoi pour le candidat ci est égal à la probabilité endogène du couple (ci,pC) dans le corpus. - L’indice ProbaExoi pour le candidat ci est égal à la probabilité exogène du couple (ci,pC). L’algorithme de choix, dans sa version simplifiée, est le suivant : choisir le candidat dont l’indice F est le plus élevé ; ou bien choisir le candidat dont l’indice ProbaEndo ou ProbaExo est le plus élevée ; ou, par défaut, laisser l’ambiguïté, qui sera prise en charge par le module de désambiguïsation globale (section 3.2.12). Quelques exemples de désambiguïsation réussie. Dans l’exemple 9, le nom rappel est choisi comme gouverneur de la préposition au, sur la base de l’indice F, car le triplet (rappel,à,règlement) a été extrait 3 fois dans le corpus, dans des contextes non ambigus comme celui de l’exemple 9’. Dans l’exemple 10, le participe passé venus est choisi comme gouverneur de la préposition à, sur la base de l’indice F, car le triplet (venir,à,Seattle) a été extrait 2 fois dans le corpus, dans des contextes non ambigus comme celui de l’exemple 10’. Dans l’exemple 11, le nom délivrance est choisi comme gouverneur de la préposition de, sur la base de l’indice Fv, car le couple (délivrer, délivrance) est présent dans le lexique VERBACTION et le triplet (délivrer,OBJ,pilule) a été extrait 5 fois dans le corpus. Dans l’exemple 12, le nom modifications est choisi 43 http://w3.univ-tlse2.fr/erss/ressources/verbaction/ 118 comme gouverneur de la préposition au, sur la base de l’indice ProbaEndo, car la probabilité endogène du couple (modification, àNom) est de 0.10, supérieure aux probabilités endogène et exogène du couple (étudier, àNom). Dans l’exemple 13, le verbe attirer est choisi comme gouverneur de la préposition sur, sur la base de l’indice ProbaExo, car la probabilité exogène du couple (attirer, surNom) est de 0.14, alors que les probabilités associées aux autres gouverneurs candidats sont nulles. (9) Monsieur le Président, j'aimerais aussi participer quelques minutes au rappel+ au règlement qui a été soulevé par mon collègue. [HAN] (9’) Ce rappel+ au Règlement est complexe et touche à la politique des musées au Canada. [HAN] (10) Glen Mpufane fait partie des manifestants venus+ du monde entier à Seattle pour protester contre la liberté du commerce. [MON] (10’) BILL CLINTON est venu+à Seattle exposer les positions américaines. [MON] (11) Il s’agit de la décision d'autoriser la délivrance+ de la « pilule du lendemain » aux adolescentes dans les établissements scolaires. [MON] (12) Je suis membre du comité chargé d'étudier les modifications+ au régime d'assurance chômage. [HAN] (13) Elles visent à attirer+ l'attention des Canadiens sur une initiative politique très importante pour notre pays. [HAN] Evaluation Dans (Bourigault et Frérot, 2005), nous présentons une évaluation détaillée de différentes stratégies de désambiguïsation. Nous testons 4 stratégies : une stratégie de base, qui n’exploite que la règle par défaut d’attachement au candidat le plus éloigné, une stratégie endogène, qui est analogue à la stratégie décrite ci-dessus mais qui n’exploite que les indices endogènes, une stratégie exogène, qui est analogue à la stratégie décrite ci-dessus mais qui n’exploite que les indices exogènes, et enfin une stratégie dite « mixte », qui est la stratégie décrite ci-dessus. Nous avons testé ces 4 stratégies sur un grand nombre de cas d’ambiguïté de rattachement, annotés à la main sur 4 corpus de genre différents : - BAL. Le roman Splendeurs et misères des courtisanes, d’Honoré de Balzac (199 789 mots) : 672 cas annotés. - LMO. Un extrait du journal Le Monde (673 187 mots) : 1 238 cas annotés. - TRA. Le Code du travail de la législation française (509 124 mots) : 1 150 cas annotés. - REA. Un corpus de comptes-rendus d’hospitalisation dans le domaine de la réanimation chirurgicale (377 967 mots) : 646 cas annotés. 119 BAL LMO TRA REA base 83.0 70.3 65.5 59.9 endogène 83.5 (-2.9) 80.1 (-33.0) 82.3 (-48.7) 78.0 (-45.1) exogène 86.9 (-22.9) 86.6 (-54.9) 86.3 (-60.3) 66.3 (-16.0) mixte 86.6 (-21.2) 85.9 (-52.5) 87.3 (-63.2) 78.3 (-45.9) Tableau 9. Taux de précision des différentes stratégies de désambiguïsation sur les 4 corpus de test (avec le taux de réduction de l’erreur par rapport à la stratégie de base). Le tableau 9 donne les taux de précision des différentes stratégies de désambiguïsation sur les 4 corpus de test, ainsi que, pour un corpus donné, le taux de réduction de l’erreur par rapport à la stratégie de base. Les principales conclusions que l’on peut tirer de ces résultats sont les suivantes : - L’apport des ressources exogènes génériques est indéniable. Le taux de réduction de l’erreur, qui est de 22.9 % pour le corpus littéraire (BAL), sur lequel la stratégie de base est déjà très performante, s’élève à 54.9 % pour le corpus journalistique (LMO) et à 60.3 % pour le corpus juridique (TRA). - Il n’y a que sur le corpus médical (REA) que l’apprentissage endogène s’avère être indispensable. La réduction du taux d’erreur est de 45.1 % avec la stratégie endogène, alors qu’elle n’est que de 16 % avec la stratégie exogène. Plus que par le domaine couvert, ceci s’explique par le style très particulier utilisé par les médecins pour rédiger les comptes rendus d’hospitalisation, avec un usage abondant de phrases nominales et d’une phraséologie très spécifique. - Le résultat le plus remarquable, et le moins attendu, est la très grande homogénéité des taux de précision obtenus avec les stratégies exploitant le lexique générique (stratégies exogène ou mixte) sur les corpus littéraire, journalistique et juridique. Ces taux ont des écart de moins de 2 % (respectivement 86.6 %, 85.9 % et 87.3 % pour ces trois corpus avec la stratégie mixte). L’exploitation de ressources exogènes conduit à un resserrement et à un rapprochement par le haut des performances. On peut rapprocher ces résultats de ceux, récapitulés dans (Pantel et Lin, 2000), obtenus sur 3 000 cas ambigus extraits de la partie Wall Street Journal du Penn TreeBank par différentes méthodes : 81,6% avec une méthode supervisée utilisant un modèle d’entropie maximale (Ratnaparkhi et al., 1994), 88,1% avec une méthode supervisée utilisant un dictionnaire sémantique (Stetina, Nagao, 1997) et 84.3% avec une méthode non supervisée utilisant des mots distributionnellement proches (Pantel et Lin, op.cit.). Mais puisque les langues, le type de corpus de test et les conventions d’annotations sont différentes, il est délicat de comparer ces chiffres avec ceux que nous présentons dans le tableau 3. Les ressources de sous-catégorisation syntaxique construites à partir du corpus LM10 sont exploitées par l’analyseur sans avoir été validées manuellement, et les résultats montrent qu’elles sont performantes pour cette tâche. Il convient de préciser que, sur le plan linguistique, ces propriétés de sous-catégorisation ne sont pas comparables aux descriptions que l’on peut trouver dans des lexiques construits à la main, comme le 120 Lexique Grammaire ou le lexique Dicovalence44, dans les dictionnaires de langue ou dans les études de psycholinguistique. C’est vrai particulièrement pour les verbes. La probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de toutes les occurrences (lemmatisées) de ce verbe, sans distinction des différentes acceptions du verbe, alors que l’on sait qu’un même verbe peut avoir des cadres de souscatégorisation différents selon ses différents sens. Dans le contexte du développement d’un analyseur syntaxique « tout terrain », l’approximation à laquelle conduit ce lissage des sens est un mal nécessaire. 3.2.11. Attachement des adjectifs Représentation La relation épithète, notée ADJ, a pour source un nom et pour cible un adjectif qualificatif, un participe passé ou un participe présent. L’adjectif peut être antéposé. Dans le cas d’une coordination de noms gouverneurs, la relation a pour source le coordonnant. Dans le cas d’une coordination de dépendants, la relation a pour cible le coordonnant. Recherche des gouverneurs candidats Après avoir testé la possibilité d’un gouverneur à droite, dans le cas d’un adjectif qualificatif, le module chercherCandidatAdj remonte la séquence à gauche à la recherche de noms gouverneurs candidats. S’il rencontre un nom, il teste l’accord, retient ce nom s’il n’y pas d’incompatibilité, et dans tous les cas poursuit au gouverneur de ce nom. Dans le cas de noms coordonnés, s’il y a accord avec le premier de ces noms (le plus à droite), le module retient uniquement celui-ci, et remonte au gouverneur du coordonnant (exemples 1 et 2). S’il n’y a pas accord avec le premier nom, il peut retenir dans certains cas le coordonnant comme gouverneur candidat (exemples 3 et 4). La recherche s’arrête si le gouverneur d’un nom retenu comme gouverneur candidat est situé à droite de l’adjectif. Dans l’exemple 5, la recherche de gouverneurs candidats pour l’adjectif stratégique s’arrête au nom plan, antécédent du pronom relatif lequel situé à droite de l’adjectif, et ne se poursuit donc pas au nom mouture. (1) Il se traduit dans l' agencement des tables, l' accueil prévenant et la cuisine désormais très personnelle de l' ancien chef du restaurant Le Quai d' Orsay. [LMO] (2) Les artistes et les musiciens contemporains. [LMO] 44 http://bach.arts.kuleuven.be/dicovalence/ 121 (3) Exeunt les représentants de l' Etat et les mutuelles , considérés comme « juge et partie ». [LMO] (4) Il s’agit de connaître la nature et la structure exactes des terrains sédimentaires sur lesquels la ville de Grenoble est construite. [LMO] (5) La première mouture du plan stratégique , dans lequel le statut de l' AFP est identifié comme un frein à son développement. [LMO] Indices et stratégie de désambiguïsation Le module choisirCandidatAdj n’utilise qu’un indice, de type endogène. Soit a l’adjectif et {ci, i=1, …, n} les gouverneurs candidats. L’indice Fi pour le candidat ci est égal à la fréquence du triplet (ci,ADJ,a). Le module choisit le candidat qui a l’indice le plus élevé, ou, par défaut, il laisse l’ambiguïté, qui sera prise en charge par le module de désambiguïsation globale (section 3.2.12). Dans l’exemple 6, le module choisit le gouverneur information, car le triplet (information,ADJ,judiciaire) a été extrait de nombreuses fois dans le corpus dans des contextes non ambigus. Dans le cas où le dépendant est un participe passé, le module choisirCandidatAdj utilise un second indice endogène, qui est égal à la fréquence du triplet (a,OBJ, ci). Dans l’exemple 7, le module choisit pour le participe passé déposée le nom plainte, car le triplet (déposer,obj,plainte) a une fréquence non nulle. (6) Cela permet aussitôt l'ouverture d'une nouvelle information+ judiciaire. [LMO] (7) Le tribunal des prud'hommes devait juger une plainte+ pour discrimination déposée par six militants de la CGT. [LMO] 3.2.12. Procédure de désambiguïsation globale La tâche de désambiguïsation des liens PREP et ADJ est réalisée par un module spécifique qui intervient sur le treillis des liens placés par ces modules chercherCandidatPrep et chercherCandidatAdj. La stratégie de désambiguïsation exploite la contrainte de projectivité : au sein d’une séquence, deux liens syntaxiques ne peuvent se croiser, sauf exceptions répertoriées. Dans le treillis de liens syntaxiques, il y a deux types de liens : les liens surs, pour lesquels les source et cible sont des mots uniques, et les liens possibles qui pointent sur le même dépendant et qui sont incompatibles entre eux. La stratégie de désambiguïsation est simple, elle comporte trois étapes. 1- Elagage préliminaire. Le module calcule d’abord les croisements entre liens syntaxiques. Dès qu’il repère un croisement entre un lien sûr et un lien possible, il élimine le lien possible, ce qui élimine un gouverneur de la liste des candidats 122 gouverneurs du mot sur lequel pointait le lien possible. Dans l’exemple 1, le lien entre donne et à et le lien entre bonbon et à sont des liens possibles, incompatibles entre eux. Le lien entre bonbon et rose est un lien sûr. Il y a croisement entre ce lien et le premier des deux liens pointant sur à, qui est alors éliminé. Le rattachement de la préposition à est désambiguïsé. (1) Il donne des bonbons à la fraise roses. (1’) Il donne des bonbons à la fraise roses. 2- Prise en compte des indices positifs. Le module parcourt la séquence de gauche à droite. Si le mot courant est ambigu, c’est-à-dire qu’il a plusieurs gouverneurs candidats, il lance le module de désambiguïsation correspondant (choisirCandidatPrep ou choisirCandidatAdj, selon la catégorie du mot). Je rappelle que ces modules de désambiguïsation ne prennent aucune décision lorsque aucun indice positif ne permet de choisir un gouverneur candidat. Si aucun candidat n’est sélectionné, le module passe au mot suivant. Si un candidat est sélectionné, il place le lien de dépendance entre ce gouverneur et le mot courant, en éliminant tous les liens possibles qui pointaient vers ce dernier. Puis il élimine le cas échéant les liens possibles qui croisent ce nouveau lien sûr. La désambiguïsation d’un lien peut ainsi réduire l’ambiguïté d’autres mots de la séquence45. Par exemple, dans l’exemple 3, aucun indice ne permet de lever l’ambiguïté sur le gouverneur de la préposition de (affiche ou volonté). Puis aucun indice ne permet de lever l’ambiguïté sur le gouverneur de l’adjectif franche (volonté ou discussion). En revanche, parmi les gouverneurs candidats de la préposition avec, le nom discussion possède un indice positif : la probabilité exogène que ce nom se construise avec la préposition avec est de 0.11 (ProbaExo(discussion,avec)=0.11). Le lien syntaxique entre discussion et avec est retenu comme sûr, ce qui conduit à l’élimination des autres liens pointant sur avec, ainsi que celle du lien possible entre volonté et franche. Le rattachement de l’adjectif est alors désambiguïsé (exemple 3’). 3- Décisions par défaut. Le module parcourt une seconde fois la séquence de gauche à droite. Si le mot courant est ambigu, il applique la règle de rattachement par défaut : si le mot est une préposition, il choisit le dernier candidat, c’est-à-dire le plus éloigné de la préposition, dans le cas où la préposition n’est pas de, il choisit le premier si la préposition est de ; si le mot est un adjectif, il choisit le premier 45 Il est possible d’imaginer des procédures de désambiguïsation globale différentes de celle présentée dans cette section : par exemple, plutôt que de résoudre en parcourant les mots de gauche à droite, il serait possible de le faire en parcourant les liens possibles par indice de confiance décroissant. Les gains seraient, je pense, relativement marginaux. 123 candidat. Après chaque application d’une règle par défaut, le module élimine le cas échéant des liens possibles croisants. (3) Le ministre affiche sa volonté d’une discussion franche avec les syndicats. (3’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats. (3’’) Le ministre affiche sa volonté d’une discussion franche avec les syndicats. 3.2.13. Analyse profonde Un certain de nombre de liens syntaxiques (ne) peuvent être placés (qu’) en fin d’analyse, quand la plupart des liens syntaxiques qui structurent la séquence ont été posés par les différents modules décrits jusqu’ici. Ces liens correspondent pour certain à une analyse dite « profonde ». La combinaison de techniques d’analyse superficielle et profonde est une problématique d’actualité. Blache (2005) dresse un bilan sur les différentes approches testées pour combiner ces analyses. Il identifie 4 types d’approches : (1) L’approche pré-traitement, où l’entrée a été préformatée avec des outils de désambiguïsation morphosyntaxique et de reconnaissances d’entités nommées ; (2) l’approche pré-analyse, où l’entrée est le résultat d’une analyse superficielle ; (3) l’approche contrôle, dans laquelle un analyseur profond est guidé par un analyseur superficiel ; (4) l’approche granularité variable, dans laquelle la finesse d’un même analyseur peut être réglée en fonction des objectifs (op. cit., pp. 96-98). Blache et al. (2002) proposent un analyseur du dernier type, basé sur les contraintes, dans lequel les seuils et les types de contraintes sont les variables de réglage. Dans SYNTEX, certaines des analyses que l’on qualifie de profondes sont réalisées en fin de traitement par ce module final. Les principales analyses effectuées par ce module concernent le repérage de dépendances non bornées et celui des sujets logiques de l’infinitif. Dépendances non bornées avec relatif Le phénomène de dépendance non bornée est « le fait que deux éléments liés l’un à l’autre se trouvent à une distance structurelle (en termes de dépendances syntaxiques) potentiellement illimitée » (Kahane, 2002, p. 51). Le module traite certains cas de dépendance non bornée mettant en jeu des relatives (du type « l’homme avec lequel je souhaite manger » ou « l’homme auquel je cherche à parler »), dans lesquels le pronom relatif est gouverné par une préposition, et le verbe de la relative gouverne directement 124 ou indirectement un infinitif. Dans ce cas, la source du lien de dépendance pointant sur la préposition, est déplacée du verbe de la relative au verbe infinitif (exemples 1 et 1’, 2 et 2’). Dans l’état actuel de l’analyseur, l’ambiguïté de rattachement n’est pas traitée, le verbe infinitif est systématiquement choisi, alors que le verbe de la relative peut être le bon gouverneur (exemples 3 et 3’). Le module traite aussi certains cas d’extraction (exemples 4 et 4’). (1) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord . [LMO] (1’) Les compensations sur lesquelles ils n'ont toujours pas réussi à se mettre d'accord. [LMO] (2) Un projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO] (2’) Un projet auquel le gouvernement compte consacrer beaucoup de son énergie. [LMO] (3) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO] (3’) Elle publie un avis dans lequel elle menace de ne pas signer le projet. [LMO] (4) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO] (4’) Les nations arabes sur les territoires desquelles on a prévu de forer le pétrole. [LMO] 125 Dans le cas de dépendances non bornées impliquant le pronom relatif que, le traitement est plus complexe, pour tenir compte d’une possible erreur d’étiquetage de cette forme, et la corriger le cas échéant. Si le verbe à l’infinitif est transitif et n’a pas d’objet, la source du lien objet qui pointe sur que est déplacée du verbe principal au verbe à l’infinitif (exemples 5 et 5’). Si le verbe à l’infinitif a déjà un objet, le module constate une incompatibilité. Il réétiquette le mot que en conjonction de subordination et transforme le lien objet entre le verbe conjugué et que en un lien de subordination entre que et le verbe (exemples 6 et 6’). (5) Le bouclier queProRel Washington tient à déployer a des effets déstabilisants. [LMO] (5’) Le bouclier queProRelWashington tient à déployer a des effets déstabilisants. [LMO] (6) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste queProRel nous continuerons à exercer notre activité. [LMO] (6’) Nous réaffirmons aux réalisateurs qui cautionneraient ce manifeste queCSub nous continuerons à exercer notre activité. [LMO] Sujet logique des infinitifs Le module traite le cas des sujets des infinitifs. Il ajoute une relation Sujet logique qui part de l’infinitif vers un des dépendants du verbe gouverneur. Le module utilise des listes de verbes. Dans les exemples 7 à 9, le sujet de l’infinitif est le sujet du verbe à contrôle. Dans les exemples 10 et 11, le sujet de l’infinitif est le complément d’objet du verbe à contrôle. Dans les exemples 12 et 13, le sujet de l’infinitif est un complément indirect du verbe à contrôle. (7) Rares sont les hommes politiques et les intellectuels qui osent s'opposer à la croisade sanglante menée par Vladimir Poutine dans le Caucase du Nord. (8) Tous les économistes s'accordent à dire qu'elle se situe à la marge. (9) Sensibles aux barrières symboliques, les opérateurs risqueraient alors de fuir en masse. (10) Nous avons décidé d'occuper le terrain militaire pour forcer l'Etat Français à engager le règlement politique de la question corse. 126 (11) Cela ne devrait pas empêcher les partisans de la démocratie de mettre ses bonnes intentions à l'épreuve. (12) Elle reproche à France-Télécom d'abuser de sa position dominante dans les communications locales. (13) Ce texte interdit notamment aux enfants de voyager sur des strapontins. Analyse globale Enfin, le module construit la forme syntaxique finale de la séquence, en termes de succession de clauses. Chaque clause est la projection d’un mot non gouverné. L’algorithme de construction de cette forme est simple. Le résultat de cette construction est la forme globale de la séquence, telle qu’elle est obtenue à l’issue d’une phase d’analyse exclusivement ascendante au cours de laquelle l’analyseur a cherché à lier autant que possible chacun des mots de la séquence à un gouverneur syntaxique. A partir de cette forme globale, on peut envisager une phase d’analyse descendante,au cours de laquelle l’analyseur a une vision globale des clauses construites lors de la première phase, vision globale qui peut lui permettre de compléter l’analyse syntaxique. Dans l’état actuel du développement de SYNTEX, cette étape d’analyse descendante reste marginale. Le seul traitement effectué est le rattachement de certaines prépositions précédées d’une virgule (exemples 4 et 5). Les recherches pour reconnaître, avec cette nouvelle perspective, de nouveaux liens, ou pour corriger des liens existants, se poursuivent… (3) Il refuse de créer avec lui , hors de tout cadre légal , une hypothétique entité constitutionnelle basque . [MON] OBJ (4) Comme le fut en son temps , dans les mêmes conditions , le Tornado , le nouvel avion de combat européen est très inspiré par la « culture » militaro-industrielle britannique . [MON] SUJ (5) Le FBI estime que, pendant la même période, plus de cent personnes pourraient avoir été enterrées dans des fosses communes. [LMO] COMP 3.2.14. Evaluation Je présente les résultats obtenus dans le cadre de la campagne nationale EASY46 d’évaluation des analyseurs syntaxiques du français. Cette campagne était une des 8 46 http://www.limsi.fr/Recherche/CORVAL/easy/ 127 campagnes d’évaluation des technologies de la langue du projet EVALDA47, piloté par l’agence ELDA et financé par le Ministère français en charge de la Recherche dans le cadre du programme Technolangue (décembre 2002 - avril 2006). Les organisateurs de la campagne EASY ont été l’agence ELDA et le laboratoire LIMSI du CNRS. Dans cette campagne, les 15 analyseurs ont participé à la compétition, provenant de 13 participants différents : ERSS, FT R&D, INRIA, LATL, LIC2M, LIRMM, LORIA, LPL, STIM, SYNAPSE, SYSTAL, TAGMATICA, VALORIA et XRCE. Les corpus annotés ont été fournis par 5 partenaires : l’ATILF, le LLF, le DELIC, le STIM et ELDA. La tâche des fournisseurs de corpus a consisté en la collecte du corpus de différents genres de textes et en leur annotation (tableau 10). Les différents corpus sont les suivants : Web, des pages WEB du site ELDA ; Le Monde, des articles du journal Le Monde ; Parlement, des transcriptions de débats parlementaires (Sénat français et Parlement Européen) ; Littérature, des textes littéraires, issus de la base Frantext de l’ATILF ; Mail, des emails ; Médical, des textes médicaux (pathologies et traitements) ; Oral, des transcriptions de parole ; Questions, des questions, issues de la campagne EQUER. Le protocole d’évaluation EASY supposait que tous les participants adoptent la même segmentation en mots et en énoncés. En concertation avec les participants, les organisateurs ont défini un formalisme et des conventions d’annotation censés permettre d’exprimer l’essentiel d’une annotation syntaxique quelle que soit sont type (de surface ou profonde, complète ou partielle), ceci sans privilégier une approche particulière. Le formalisme d’annotation EASY permet d’annoter des constituants continus et non-récursif, ainsi que des relations syntaxiques. Les relations peuvent associer indifféremment des mots ou des constituants. Dans EASY, il y a 6 types de constituants : nominal, adjectival, prépositionnel, adverbial, verbal et prépositionnel-verbal. Il y a 14 types de relations fonctionnelles : sujet-verbe, auxilliaire-verbe, complément d’objet direct, complément-verbe, modifieur de nom, modifieur de verbe, modifieur d’adjectif, modifieur d’adverbe, modifieur de préposition, complémenteur, attribut du sujet/objet, coordination, apposition, juxtaposition. Pour plus de détails, voir (Vilnat et al., 2004) (Paroubek & Robba, 2006) (Paroubek et al., 2007). Nous n’avons participé qu’à l’évaluation sur les relations, puisque SYNTEX ne fabrique pas de constituants. Par ailleurs, j’avais décidé d’emblée de ne pas fournir de résultats sur les corpus Oral et Mail, pour marquer le fait que SYNTEX n’avait pas été conçu pour traiter des corpus de n’importe quel type, mais qu’il avait été mis au point pour, et été testé sur, des corpus qui respectent les normes syntaxiques de l’écrit standard. L’essentiel du travail a consisté, d’une part, à réaliser les programmes de conversion en amont de l’analyseur, pour prendre en entrée le découpage en mots fourni par les organisateurs, et en aval de l’analyseur, pour rendre les résultats dans le format XML demandé, et, d’autre part, à compléter l’analyseur pour qu’il traite correctement des 47 http://www.elda.org/ 128 relations (locales) sur lesquelles j’avais alors peu avancé. L’ensemble de ces tâches a été mené à bien, de main de maître, par Marie-Paule Jacques48. Je présente dans les tableaux 12a-h les résultats, pour les relations, de tous les analyseurs sur tous les corpus, en termes de précision, rappel et f-mesure. Le tableau 11 rassemble ces résultats pour SYNTEX, sur les 6 corpus qu’il a traités. On constate que SYNTEX est classé premier partout, sauf en rappel sur les corpus Littéraire (3ème), Le Monde (3ème) et Parlement (2ème). Le résultat le plus remarquable est l’écart entre SYNTEX et ses suivants en terme de précision : en moyenne 10 points de précision en plus. Corpus Fournisseur Enoncés Mots Enoncés annotés Mots annotés Web ELDA 836 16 786 77 2 104 Le Monde LLF 2 950 86 273 380 10 081 Parlement ELDA 2 818 81 310 276 7 551 Littérature ATILF 8 062 229 894 892 24 358 Mail ELDA 7 976 149 328 852 9 243 Médical STIM 2 270 48 858 554 11 799 Oral DELIC 522 8 106 505 8 117 Questions ELDA 3 528 51 546 203 4 116 Tableau 10. Les corpus de la campagne EASY Corpus Précision Rappel F mesure r S-n°2 r S-n°1 r S-n°2 Web 0.80 1 + 0.11 0.60 1 0 0.69 1 + 0.12 Médical 0.79 1 + 0.14 0.63 1 0 0.70 1 + 0.07 Littéraire 0.80 1 + 0.12 0.55 3 - 0.07 0.65 1 + 0.03 Le Monde 0.76 1 + 0.10 0.58 3 - 0.02 0.66 1 + 0.04 Parlement 0.75 1 + 0.11 0.57 2 - 0.02 0.64 1 + 0.05 Questions 0.77 1 + 0.09 0.63 1 0 0.70 1 + 0.05 Mail Oral Tableau 11. Résultats de SYNTEX dans la compagne EASY (pour les relations), sur 6 corpus. Précision, rappel et f-mesure, avec le rang de classement (r) et l’écart avec l’analyseur classé deuxième pour la précision et la f-mesure (S-n°2), et l’écart avec l’analyseur classé premier pour le rappel (S-n°1). 48 Elle était alors jeune doctorante au sein de l’ERSS. Je la remercie ici chaleureusement, et je suis heureux de partager avec elle la joie de voir d’avoir obtenu de si bons résultats. 129 p r f P1 0.59 0.51 (3) 0.55 (3) P2 0.42 0.16 0.23 P3 - - - P4 0.55 0.33 0.42 P5 0.55 0.44 0.49 P6 0.46 0.41 0.43 P7 0.61 0.39 0.47 Sy 0.80 (1) 0.60 (1) 0.69 (1) P9 0.69 (2) 0.30 0.42 P10 0.60 0.55 (2) 0.57 (2) P11 0.67 (3) 0.06 0.11 P12 0.41 0.29 0.34 P13 0.27 0.24 0.26 P14 - - - P15 0.34 0.32 0.33 Tableau 12a. Résultats EASY (relations) sur le corpus Web p r f P1 0.60 0.53 0.56 P2 0.07 0.04 0.05 P3 0.64 (3) 0.63 (2) 0.63 (2) P4 0.28 0.20 0.23 P5 0.56 0.49 0.52 P6 - - - P7 0.65 (2) 0.44 0.53 Sy 0.79 (1) 0.63 (1) 0.70 (1) P 9 0.04 0.02 0.03 P10 0.61 0.59 (3) 0.60 (3) P11 0.62 0.10 0.17 P12 0.43 0.33 0.38 P13 0.36 0.33 0.34 P14 - - - P15 0.33 0.28 0.30 Tableau 12b. Résultats EASY (relations) sur le corpus Médical p r f P1 0.61 0.54 0.58 P2 0.08 0.04 0.05 P3 0.58 0.62 (1) 0.60 (3) P4 0.53 0.36 0.43 P5 0.51 0.41 0.46 P6 - - - P7 0.68 (2) 0.43 0.52 Sy 0.80 (1) 0.55 (3) 0.65 (1) P9 0.02 0.01 0.02 P10 0.64 (3) 0.61 (2) 0.62 (2) P11 0.64 0.09 0.16 P12 0.39 0.27 0.32 P13 0.43 0.38 0.40 P14 - - - P15 0.38 0.31 0.34 Tableau 12c. Résultats EASY (relations) sur le corpus Littéraire p r f P1 0.57 0.52 0.54 P2 0.32 0.12 0.17 P3 0.63 (3) 0.60 (1) 0.62 (2) P4 0.58 0.32 0.41 P5 0.56 0.46 0.51 P6 0.42 0.34 0.38 P7 0.66 (2) 0.43 0.52 Sy 0.76 (1) 0.58 (3) 0.66 (1) P9 - - - P10 0.61 0.59 (2) 0.60 (3) P11 0.60 0.07 0.13 P12 0.41 0.29 0.34 P13 0.36 0.32 0.34 P14 - - - P15 0.34 0.29 0.31 Tableau 12d. Résultats EASY (relations) sur le corpus Le Monde 130 p r f P1 0.58 0.52 0.55 P2 0.29 0.11 0.16 P3 0.59 0.59 (1) 0.59 (2) P4 0.55 0.32 0.40 P5 0.53 0.43 0.47 P6 0.41 0.34 0.37 P7 0.64 (2) 0.41 0.50 Sy 0.75 (1) 0.57 (2) 0.64 (1) P9 - - - P10 0.58 0.56 (3) 0.57 (3) P11 0.60 (3) 0.08 0.14 P12 0.37 0.24 0.29 P13 0.34 0.31 0.32 P14 - - - P15 0.34 0.29 0.31 Tableau 12e. Résultats EASY (relations) sur le corpus Parlement p r f P1 0.68 (2) 0.62 (2) 0.65 (2) P2 0.16 0.06 0.09 P3 0.66 0.61 (3) 0.64 (3) P4 0.67 (3) 0.56 0.61 P5 0.45 0.38 0.41 P6 - - - P7 0.67 0.43 0.52 Sy 0.77 (1) 0.63 (1) 0.70 (1) P9 0.11 0.05 0.07 P10 0.64 0.61 0.62 P11 0.61 0.09 0.16 P12 0.48 0.35 0.40 P13 0.35 0.31 0.33 P14 - - - P15 0.36 0.29 0.32 Tableau 12f. Résultats EASY (relations) sur le corpus Questions p r f P1 0.57 0.48 (3) 0.52 (3) P2 0.13 0.05 0.08 P3 0.60 (3) 0.55 (1) 0.57 (1) P4 0.55 0.04 0.07 P5 0.50 0.40 0.44 P6 - - - P7 0.64 (2) 0.36 0.46 Sy - - - P9 0.04 0.02 0.03 P10 0.57 0.52 (2) 0.55 (2) P11 0.66 (1) 0.01 0.02 P12 0.39 0.24 0.30 P13 0.45 0.36 0.40 P14 - - - P15 0.41 0.29 0.34 Tableau 12g. Résultats EASY (relations) sur le corpus Mail p r f P1 0.61 (3) 0.49 (1) 0.54 (1) P2 0.33 0.09 0.14 P3 0.56 0.48 (3) 0.51 (2) P4 0.56 0.39 0.46 P5 0.51 0.36 0.43 P6 - - - P7 0.63 (2) 0.33 0.43 Sy - - - P9 0.26 0.09 0.13 P10 0.52 0.48 (2) 0.50 (3) P11 0.65 (1) 0.10 0.18 P12 0.34 0.21 0.26 P13 - - - P14 - - - P15 - - - Tableau 12h. Résultats EASY (relations) sur le corpus Oral 131 3.3. Discussion Pour conclure ce mémoire, je consacre cette dernière section à une discussion épistémologique sur le statut de l’analyseur SYNTEX et sur la valeur des connaissances générées par le projet de recherche décrit dans ce mémoire. Dans une première partie (section 3.3.1), je situe les recherches présentées dans ce mémoire par rapport au paradigme des grammaires formelles, qui domine largement le domaine de l’analyse syntaxique au sein du TAL depuis les travaux de N. Chomsky. Je reprends l’argumentation épistémologique de Jean-Marie Marandin (1993), à propos de l’inadéquation des grammaires formelles pour l’analyse d’énoncés réels. Je discute ensuite les oppositions entre approche procédurale et approche déclarative, et entre analyse et génération. J’insiste sur le rôle central de la grammaire traditionnelle, tant pour le projet de la Grammaire Générative Transformationnelle, que pour celui du développement d’un analyseur syntaxique opérationnel. Je conclus cette section sur la nécessité de choisir un cadre épistémologique au sein duquel il soit possible de penser le statut et la valeur de connaissances des objets techniques réalisés par l’ingénierie linguistique. Dans la deuxième partie de cette section (3.3.2), je me situe dans le cadre épistémologique de la philosophie de la technique de Gilbert Simondon. Je montre comment les concepts d’adaptation et d’auto-corrélation élaborés par Simondon permettent de décrire de façon particulièrement éclairante le processus de développement de l’analyseur SYNTEX en tant qu’objet technique. La dernière partie de cette section (3.3.3) pose la question du savoir sur la langue produit par le projet SYNTEX, et y répond, partiellement, en proposant d’utiliser l’analyseur comme un instrument d’observation en corpus des structures syntaxiques de la langue. 3.3.1. Situation par rapport au paradigme formel La critique de J.-M. Marandin (1993) Dans un article de la revue Traitement Automatique des Langues publié en 1993, Jean-Marie Marandin expose une critique épistémologie du principe de l’utilisation des grammaires formelles en analyse syntaxique automatique (Marandin, 1993). Le point de départ de sa réflexion est la question suivante : « Quel statut (…) prend, ou peut prendre, un analyseur dans un programme de recherche consacrée au langage » (op. cit., p. 5). Marandin examine le statut de l’analyseur syntaxique dans trois programmes de recherche : le Traitement du Langage Naturel, la syntaxe et la compréhension. Je me concentre ici sur ce que dit Marandin du premier programme, le plus proche de mon propre projet. Marandin nomme ce projet « 3A », pour Analyse Automatique Autonome, et il le définit ainsi : « concevoir, étant donné une grammaire, l’algorithme ou l’heuristique qui permet de décrire des énoncés dans les termes de cette grammaire ; implémenter la procédure ». Marandin affirme que, bien que les tenants de ce 132 programme s’en défendent ou bien l’ignorent, ce programme est entièrement déterminé par la problématique de la Grammaire Générative transformationnelle (GGT) dans sa version standard, puisque, de fait, l’analyseur 3A occupe la place du dispositif de performance telle qu’elle est définie dans ce cadre théorique. Or, explique Marandin, « il est faux de considérer que l’appareil de performance, tel que le propose la GGT, en particulier Chomsky dans Aspects, soit réductible à une pure application des règles syntaxiques » (op. cit., p. 12), et il poursuit en citant N. Chomsky : « la grammaticalité est seulement l’un des nombreux facteurs qui, par leur interaction, déterminent l’acceptabilité [des énoncés] » (Chomsky, 1971, p. 23). Ainsi, selon Marandin, les difficultés rencontrées par 3A dans la mise en oeuvre effective de son programme viennent d’une inadéquation de fond entre le dispositif abstrait des grammaires formelles, emprunté au cadre théorique de la GGT dans lequel il est exploité pour générer des phrases grammaticales, et la fonction assignée à l’analyseur par le programme 3A, à savoir de produire automatiquement des descriptions syntaxiques d’énoncés appréhendés dans des échanges langagiers. Un énoncé n’est que partiellement organisé par la grammaire conçue comme un système de règles de bonne formation (voir section 3.1.2). L’énoncé est hétérogène, en tant que résultat intriqué de l’interaction de plusieurs principes organisationnels, et cela se marque dans la forme même des énoncés : « le système des circonstanciels, par exemple, échappe en grande partie au contrôle de la syntaxe ; il en est de même pour les différents système d’anaphore et certains aspects de la sous-catégorisation verbale quand on ne se laisse pas leurrer par le dogme de la projection (ou ses équivalents) » (Marandin, 1993, p. 14). Procéduralité vs. déclarativité On a vu dans le chapitre 2 que l’arrivée sur le devant de la scène des grammaires d’unification pour l’analyse syntaxique, est concomitant du discrédit dans lequel tombe le paradigme des ATN, au moment où l’Intelligence Artificielle promeut la déclarativité au rang de principe incontournable. Le principe de la séparation des règles de grammaire et des algorithmes, cher à Yngve dès les années 1950, est un principe essentiel du paradigme formel. S’écarter de ce paradigme impose-t-il de renoncer au principe de la séparation ? La question est ouverte. Parmi les travaux en analyse syntaxique robuste présentés dans le chapitre 2, la plupart s’inscrivent dans une philosophie procédurale. P. S. Garvin, dès 1967, remet en cause le principe d’une tripartition des analyseur syntaxiques (dictionnaire électronique, base de règles grammaticales, algorithme d’analyse) avec l’argument que dès que la grammaire atteint une taille réaliste, il n’est plus possible de maintenir le principe d’une indépendance entre les règles et les algorithmes, qui rend possible la modification ou l’ajout des règles sans qu’il soit nécessaire de modifier l’algorithme. Son analyseur syntaxique pour le russe est un système bipartite, constitué d’un dictionnaire et d’un algorithme. Il en est de même de SYNTEX. Les connaissances grammaticales sont incluses, « encapsulées », dans les algorithmes. Le grammairien concepteur doit maîtriser intégralement, à la fois le développement des algorithmes locaux de reconnaissance syntaxique, et la mise au point de l’architecture globale de l’analyseur. Analyse vs. génération 133 Un autre dogme du paradigme formel est celui de la réversibilité. L’un des intérêts affichés des grammaires formelles est qu’elles sont censées pouvoir fonctionner en analyse et en génération. Tous les travaux en analyse syntaxique robuste se consacrent exclusivement à la tâche d’analyse, et c’est peut-être l’une des raisons de leur succès. Peut-être faut-il assumer le fait qu’en Traitement Automatique des Langues les tâches d’analyse et de génération sont radicalement différentes, et donc qu’elles exigent des choix méthodologiques potentiellement différents ? S. Kahane explique que « le choix d’un ensemble de fonctions syntaxiques est directement lié à la façon dont seront écrites les règles de pronominalisation, linéarisation, redistribution ou coordination » (Kahane, 2001, p. 25). Les règles évoquées sont des règles de génération. Par exemple, il faut deux relations différentes, complément oblique et complément locatif, pour distinguer la relation entre compte et sur dans Marie compte sur Pierre de la relation entre pose et sur dans Marie pose le livre sur la table, de façon à gérer correctement les différences de pronominalisation en y. En analyse, ces contraintes sur le degré de finesse de la description syntaxique ne s’appliquent pas nécessairement. C’est sans doute sur le lexique que l’impact du choix entre analyse et génération est le plus fort. En génération, il est crucial de coder dans le lexique toutes les informations lexicales nécessaire pour placer les mots, et leur affecter des cas ; la connaissance est concentrée dans le lexique. En analyse, beaucoup d’information est apportée par la séquence en entrée, et ce d’autant plus qu’elle a été préalablement étiquetée. C’est pour cette raison que, dans le projet SYNTEX, j’ai pu adopter, concernant le lexique, une approche minimaliste: (i) Partir de rien. J’ai fait le choix initial de la table rase. Contrairement aux approches qui choisissent, pour réaliser un analyseur syntaxique, de développer au préalable un lexique syntaxique très riche recensant les propriétés syntaxiques des mots de la langue, j’ai commencé sans aucune information de ce type. Cette approche est possible à partir du moment où l’on a choisi de s’appuyer sur les résultats d’un étiqueteur (on bénéficie indirectement des ressources lexicales éventuellement exploitées par celui-ci). (ii) Identifier les besoins en ressources lexicales au fur et à mesure du développement de l’analyseur. Dans un certain nombre de cas, ces ressources sont des listes fermées d’unités lexicales, que l’on peut construire à partir de la consultation de bonnes grammaires. Pour la constitution de listes non fermées d’unités lexicales, les informations sont acquises de façon automatique à partir de corpus, à l’aide de et pour l’analyseur, sans validation manuelle. La place de la grammaire La grammaire, en tant que tradition séculaire de description des structures syntaxiques des langues, joue un rôle fondamental dans le projet de développement d’un analyseur syntaxique opérationnel. Sur ce point, la position que j’adopte est analogue à celle de la Grammaire Générative Transformationnelle : la grammaire comme base d’appui. Dans son Introduction à une science du Langage, J.-C. Milner (1989) montre qu’une science linguistique n’est possible que parce que la grammaire existe et qu’elle fournit les descriptions minimales dont a besoin cette science pour fonctionner comme une science 134 empirique. C’est un postulat qui est à la base de la grammaire générative. Dès le début d’Aspects, Chomsky revendique le recours à la grammaire traditionnelle comme un point de passage indispensable pour élaborer la théorie de la grammaire générative : « [Le linguiste] aura grand avantage à commencer par étudier le type d’information structurale que présentent les grammaires traditionnelles et le type de processus linguistiques qu’elles ont mis au jour, sans encore les formaliser » (Chomsky, 1971, p. 15). Mais c’est Milner qui, dans ses efforts pour reconstituer le cadre épistémologique de la grammaire générative, explicite le statut de la grammaire dans l’édifice théorique. A une science du langage qui se veut empirique, la grammaire fournit ses observables, à savoir les exemples. Dans la grammaire, l’exemple n’est pas un énoncé attesté, c’est le représentant d’une classe d’équivalence, qui rassemble toutes les données de langue (phrases) qui partagent un ensemble de propriétés. L’exemple, et donc l’observable, n’existe que parce qu’il est possible d’attribuer des propriétés à des données de langue. Or, ce qui garantit qu’il soit simplement possible, de manière générale, d’attribuer des propriétés à des données de langue, c’est l’existence de fait de ce qu’on appelle les grammaires (Milner, 1989, p. 53). La grammaire fournit au linguiste une analyse grammaticale minimale, qui segmente les unités, leur attribue un type (nom, verbe…) et identifie des relations. Cette analyse minimale initiale aura à être reprise, critiquée, voire modifiée, mais elle est nécessaire et elle ne peut être entièrement produite par la théorie linguistique elle-même. Selon mon point de vue, le développement d’une théorie formelle et celui d’un analyseur opérationnel ne sont pas des chemins consécutifs, mais parallèles, qui prennent comme point de départ les concepts de la tradition grammaticale. De même que l’existence des grammaires rend possible la construction d’une science linguistique, de même elle rend possible l’élaboration d’analyseurs syntaxiques. Comme pour la théorie, les concepts et descriptions de la grammaire ne sont qu’un point de départ, duquel on s’éloigne vite dès que l’entreprise avance. Dans le contexte du développement d’un analyseur, cette prise de distance s’impose parce que les descriptions syntaxiques que propose la grammaire sont celles d’exemples et non d’énoncés réels. Les exemples sont construits par le grammairien de façon à être le plus simples possible pour isoler au mieux les règles que ces exemples sont censés illustrer : « Quant aux règles qui fonctionnent avec des exemples inventés, elles s’attacheront à inventer des phrases où l’on pourra sans trop de difficulté neutraliser tout ce qui dans la phrase ne relève pas de la règle considérée » (Milner, 1989, p. 113). La matière à traiter par l’analyseur n’est pas constituée d’exemples, mais de séquences réelles, qui possèdent le caractère empirique des données de langue que Milner nomme la concrétion. Tout énoncé résulte de l’application de plusieurs règles syntaxiques. Le grammairien est capable de fabriquer ces artefacts presque purs que sont les exemples, il est aussi capable d’exercer son talent d’analyste pour identifier la description syntaxique d’un énoncé attesté, aussi complexe soit-il. Si le grammairien sait en plus programmer, alors il peut mettre au point un système de reconnaissance de ces formes syntaxiques. Science et ingénierie linguistiques 135 Un argument régulièrement avancé par les promoteurs des grammaires formelles est celui de la possibilité d’un partage des tâches entre linguistes et informaticiens. Avec l’approche formelle et déclarative, chaque communauté de spécialistes peut se concentrer sur son domaine de compétence : aux linguistes la tâche de développer les grammaires, aux informaticiens celle de s’occuper des algorithmes et de toute la mécanique informatique. Il existe une autre voie, celle de l’ingénierie linguistique (Natural Language Engineering). Cette voie se caractérise d’abord par des objectifs appliqués, mais aussi par des profils de compétence particuliers, qui associent chez des individus, d’un côté, un goût prononcé pour la chose linguistique, une bonne connaissance de la grammaire et une bonne culture syntaxique, ainsi que l’absence d’aversion pour le dépouillement de corpus, et, de l’autre côté, de solides compétences en programmation. Ces linguistes informaticiens ne seront pas considérés comme des informaticiens par les informaticiens, à juste titre, ni comme des linguistes par les linguistes, ce qui est sans doute plus regrettable. Ce sont des ingénieurs linguistes. Un ingénieur linguiste, ou une équipe d’ingénieurs linguistes, peut mener à bien un projet de recherche visant la réalisation d’un analyseur syntaxique opérationnel. Le partage des tâches est selon moi dépassé, mais la route est longue avant que les clivages s’estompent. A la conclusion de sa critique du programme de recherche de l’Analyse Automatique Autonome, J.-M. Marandin affiche un certain scepticisme sur la possibilité d’un programme de recherche en ingénierie linguistique : « L’analyseur prend le statut d’une machine industrielle dans le TAL ; il est soumis aux impératifs de la technologie, ce ne sont pas toujours ceux d’un programme de recherche » (Marandin, 1993, p. 31). Nous avons vu aussi, à la fin de la section 2.2.3, comment J. Léon et M. Cori regrettaient que le tournant déclaratif, en encourageant un partage des tâches entre la description des données linguistiques, d’un côté, et l’écriture de modèles et algorithmes, de l’autre, ait contribué à faire réapparaître une ligne de fracture entre la linguistique et l’informatique, et provoqué une régression dans le chemin vers la constitution du TAL comme discipline scientifique, en laissant le champ libre aux ingénieurs : Seuls peuvent se réclamer sans équivoque du domaine les ingénieurs qui réalisent des applications industrielles et qui, donc, ont simultanément besoin des algorithmes et de la description des données. Alors même qu’en adoptant des modèles déclaratifs le TAL cherche à s’imposer des critères de rigueur, il tend du même coup à rendre impossible sa constitution comme discipline scientifique. (Cori et Léon, 2002, p. 50) Cette réticence à accorder un crédit scientifique à un programme de recherche en ingénierie linguistique vient d’une conception schématique et partielle des rapports entre sciences et techniques. Cette conception est exposée pour la linguistique de façon très nette par Jean-Claude Milner dans son ouvrage de 1989. Même si l’épistémologie invoquée par Milner n’est sans doute pas appropriée à l’objet qu’elle vise, on peut sans doute estimer qu’elle est acceptée aisément au sein de la communauté du TAL. Milner s’interroge sur la manière dont la question de la science est pertinente pour la 136 linguistique. Il reprend l’hypothèse du programme de recherche initial de la grammaire générative : si la linguistique est une science, elle est une science empirique ; elle l’est au même sens que le sont les sciences de la nature et elle relève donc de la même épistémologie. Or Milner rappelle que, depuis A. Koyré, on caractérise la science par la combinaison de deux traits : (I) La mathématisation de l’empirique (…) ; (II) La constitution d’une relation avec une technique, telle que la technique se définisse comme l’application pratique de la science (d’où le thème de la science appliquée) et que la science se définisse comme la théorie de la technique (d’où le thème de la science fondamentale). (Milner, 1989, p. 23) Pour accéder au statut de science empirique, la linguistique doit fonctionner comme la théorie d’une ou de plusieurs techniques qui en seraient la version appliquée, autrement dit il faut qu’il existe une « linguistique industrielle ». Pour Milner, on pourra parler de linguistique industrielle quand on disposera de techniques informatiques capables de « transformer » les objets que vise la science linguistique, c’est-à-dire non pas tant les langues elles-mêmes que les réalisations de langue : textes, messages, slogans, discours, etc. Milner évoque des outils informatiques capables de traitements de textes syntaxiques dignes de ce nom, c’est-à-dire au moins capables de réaliser des opération syntaxiques telles que la transposition du style direct au style indirect, ou la conversion actif/passif, ou la correction grammaticale, avec, pour commencer, la vérification de l’accord (op. cit., note 11, pp. 34-35). Mais il ne suffira pas que tels outils existent, il faudra aussi que ces systèmes aient été construits à partir des lois des langues découvertes et organisées en théorie par les linguistes, lois qui régissent ces matières réalisées que sont les productions textuelles. Or Milner constate qu’on est loin de cette situation. La raison essentielle pour lui est que la relation de la science moderne à la technique n’est ni simple, ni directe : il y a loin de la proposition théorique à la procédure technique. Il prend l’exemple de la physique. Le théoricien ne sera satisfait que quand la technique du moteur à explosion pourra être présentée comme déductible de la théorie d’Einstein, et donc comme une application de la physique d’Einstein. Or les ingénieurs n’en ont cure. Ils construisent de leur côté pour leurs propres besoins une physique pour l’ingénieur, en détachant de la science physique quelques parties plus ou moins étendues et détaillées. Toujours selon Milner, ce qui est vrai pour la physique est encore plus vrai pour la linguistique, où l’indifférence réciproque entre linguistes et techniciens de la langue est plus accentuée qu’ailleurs. Ainsi il s’est construit une « linguistique pour ingénieur », qui « n’a guère dépassé en profondeur et en étendue les manuels de grammaire du cours préparatoire » (op. cit., p 34). L’avènement d’une linguistique industrielle n’est pas pour demain, où l’on verrait les ingénieurs venir puiser dans des théories linguistiques les connaissances à appliquer pour construire de belles réalisations industrielles. Au reste, l’on entrevoit déjà ce que promet l’avenir, en ce qui concerne les doctrines du langage et de la langue : d’un côté, l’appel aux technologies obtuses ; de l’autre, la résurgence des bavardages romanesques. En tout état de cause, le fil de la science est bien prêt d’être rompu. 137 (Milner, 1989, p. 19) Il ne conviendrait pas que, poussé par l’exaspération que suscite légitimement l’intervention répétée des charlatans, le linguiste entonne sans prudence le cantique des applications. (Milner, 1989, p. 32) L’épistémologie adoptée par Milner privilégie l’idée d’une relation orientée entre sciences et techniques, dans laquelle les techniques sont fécondées par les sciences, en tant qu’elles n’en sont que des applications, qui, le cas échéant, viennent les valider. Un tel cadre épistémologique laisse donc peu de place à une réflexion sur le statut des techniques, leur valeur de connaissances intrinsèque et leur identité propre. Dans le domaine du TAL, et bien au-delà, on reste souvent prisonnier de la vison traditionnelle d’une dichotomie entre la science fondamentale, noble, et la science appliquée, plus vulgaire, et de la technique comme simple application de la science. Dans cette vision classique, il n’y a pas de place pour un programme de recherche en ingénierie linguistique, au prétexte qu’il ne peut y avoir production de connaissances quand on cherche à réaliser des objets techniques utiles. Dans le domaine du TAL, cette conception sert de justification à l’implication limitée des acteurs de la recherche universitaire dans le monde industriel du TAL et de ses applications, où ils auraient pourtant beaucoup à faire et beaucoup à apprendre. Si l’on veut sortir de la situation d’ignorance ou de méfiance entre linguistes et ingénieurs, et renouveler au-delà des voeux pieux un dialogue entre science et ingénierie linguistiques, il faut dans un premier temps trouver un cadre épistémologique dans lequel les ingénieurs linguistes puissent conceptualiser leur activité de production et donner un statut aux objets qu’ils produisent. B. Habert (2006), dans son article qui présente « le linguiste à l’instrument », suggère de se référer au cadre épistémologique de Gilbert Simondon (Simondon, 1958, 1971). 3.3.2. SYNTEX, un « objet technique » Georges Simondon et la philosophie de l’objet technique G. Simondon a développé une philosophie de la technique. Ancien élève de l’Ecole Normale Supérieure de la rue d’Ulm et agrégé de philosophie en 1948, Simondon a été nommé au lycée Descartes de Tours, où, de 1948 à 1955, il a enseigné non seulement la philosophie, mais aussi la physique dans la classe de philosophie. En 1963, il a été nommé professeur à la Sorbonne, puis à l’Université Paris V, où il a dirigé l’enseignement de psychologie générale et a fondé le laboratoire de psychologie générale et technologie. C’est dans son premier ouvrage, publié en 1958 (Simondon, 1958), dont le titre est « Du mode d’existence des objets techniques », qu’il développe sa philosophie de la technique. Son objectif est de réduire les conflits entre les valeurs de la culture classique et celles qui sont liées aux sciences et aux techniques : Cette étude est animée par l’intention de susciter une prise de conscience du sens des objets techniques. La culture s’est constituée en système de 138 défense contre les techniques ; or cette défense se présente comme une défense de l’homme, supposant que les objets techniques ne présentent pas de réalité humaine. Nous voudrions montrer que la culture ignore dans la réalité technique une réalité humaine, et que, pour jouer son rôle complet, la culture doit incorporer les êtres techniques sous forme de connaissance et de sens des valeurs. (Simondon, 1958, p. 9) La philosophie de la technique de Simondon est une philosophie de l’invention. Les réalisations techniques apparaissent par invention. Les concepts qu’il met en place pour décrire les objets techniques et l’activité d’invention sont élaborés à partir de l’analyse historique, psychologique, technique d’un très grand nombre de réalisations techniques, empruntées à tous les domaines de l’activité humaine. La perspective historique est fondamentale, en ce sens que, pour Simondon, la genèse de l’objet technique fait partie de son être : « L’unité de l’objet technique, son individualité, sa spécificité sont les caractères de consistance et de convergence de sa genèse » (Simondon, 1971, p. 20). Simondon parle de genèse concrétisante. L’étude d’un objet technique doit être appréhendée en tant qu’il appartient à une lignée et marque à un moment donné une étape dans l’évolution de cette lignée. C’est pourquoi j’ai retracé, dans le chapitre 1 de ce mémoire, en quoi l’analyseur SYNTEX était un descendant de l’outil LEXTER, et j’ai cherché ensuite à inscrire mon travail de recherche dans une lignée de travaux en Traitement Automatique des Langues dont l’unité et la convergence se concrétisent par l’objectif commun de réaliser des analyseurs opérationnels (chap. 2). Dans ce deuxième chapitre, la perspective adoptée n’a pas été celle, classique dans les disciplines scientifiques, d’un « état de l’art » dans lequel on montre comment les résultats présentés constituent une contribution à l’avancée des connaissances dans un domaine scientifique. Même si on peut identifier des choix méthodologiques proches dans ces divers travaux, on est moins dans une évolution cumulative des connaissances que dans la réitération d’efforts, accomplis par des chercheurs inventeurs le plus souvent isolés, pour résoudre le même problème, mais dans des contextes différents (différences de langues, de contraintes technologiques, de principes de base, d’applications cibles). L’émergence d’inventions techniques analogues à des dates et des lieux différents n’est d’ailleurs pas un cas rare dans le développement des techniques. Les concepts clés de la philosophie de Simondon sont ceux d’adaptation et d’auto-corrélation. La caractéristique de l’objet technique est d’être un mixte d’adaptation et d’auto-corrélation : L’objet technique est d’une part un médiateur entre organisme et milieu, d’autre part une réalité intérieurement organisée et cohérente ; comme médiateur, il doit s’adapter à des termes extrêmes qu’il relie, et c’est un des aspects de son progrès d’améliorer son couplage aux réalités entre lesquelles il jette un pont ; mais cette augmentation de complexité et de distance entre les termes extrêmes doit être compensée par un surcroît d’organisation et de cohérence entre les différentes parties de l’objet 139 technique ; le progrès se fait par oscillation entre les progrès de la médiation et ceux de l’auto-corrélation. (Simondon, 1971, p. 101-102) Ces concepts ont été élaborés à partir d’études approfondies de multiples inventions, menées par Simondon, que celui-ci a l’habitude de fournir en détail dans ses exposés pour appuyer ces propositions théoriques. Je reproduis ici l’illustration donnée par Simondon à propos de la roue : Une étude plus exhaustive de la roue véhiculaire ne pourrait être faite sans tenir compte des étapes de l’adaptation aux termes extrêmes, le plan de roulement (appartenant au milieu) et le véhicule (portant l’organisme et conduit par lui) ; la roue s’adapte au plan de roulement en se différenciant (roue de chemin de fer, roue d’automobile, roue avant et roue arrière de tracteur) très particulièrement au niveau du contact avec le plan de roulement (pneumatiques pour la neige, tout-terrain…) ; elle s’adapte au véhicule par la suspension, les amortisseurs, les boggies. Ces progrès relationnels amènent à une nécessité d’auto-corrélation plus serrée, en particulier pour les virages (différentiel, système de la barre de couplage des roues directrices avec fusées entraînées par des leviers dont les prolongements géométriques se coupent au milieu du pont arrière) ; dans le cas des chemins de fer, l’auto-corrélation dans les virages est obtenue par inclinaison de la voie, conicité des roues et prescription d’une vitesse définie pour chaque courbe. (Simondon, 1971, p. 102) L’analogie entre la roue et un analyseur syntaxique ne va a priori pas de soi. La différence des déterminants devant ces deux objets est le signe qu’il est trop tôt pour parler de l’analyseur syntaxique comme d’un objet technique reconnu. Néanmoins, les concepts d’adaptation et d’auto-corrélation sont pour moi des clés essentielles pour parler du développement de l’analyseur SYNTEX et pour théoriser l’activité de recherche en ingénierie linguistique dont il est un résultat. Dans la suite de cette section, j’applique d’abord les concepts d’adaptation et d’auto-corrélation aux systèmes de traitement de l’information qui intègrent un analyseur syntaxique comme composant. Je considère ensuite l’analyseur syntaxique en tant qu’objet technique et j’utilise ces mêmes concepts pour décrire les dimensions selon lesquelles se sont développées les évolutions de l’analyseur syntaxique. Adaptation et auto-corrélation de systèmes intégrateurs L’analyseur syntaxique n’est quasiment jamais en contact direct avec l’organisme, c’est-à-dire avec un utilisateur final. Pour une première mise en scène, dans le domaine de l’ingénierie linguistique, des concepts d’adaptation et d’auto-corrélation, et avec eux ceux d’organisme et de milieu, entre lesquels l’objet technique vient établir une liaison, je propose d’observer d’abord des systèmes au sein desquels l’analyseur syntaxique est un composant. Je prends les trois exemples suivants : 140 - une plateforme d’acquisition de terminologie. L’analyseur syntaxique est utilisé pour fournir les analyses syntaxiques des séquences du corpus d’étude, à partir desquelles un programme d’extraction construit un réseau de candidats termes complexes (syntagmes verbaux, nominaux, adjectivaux). L’utilisateur est un terminologue ou un spécialiste qui construit une ressource terminologique pour un domaine donné. - une chaîne d’analyse distributionnelle. Les analyses syntaxiques fournies par l’analyseur sont exploitées par un programme de calcul distributionnel qui extrait les contextes syntaxiques associés aux mots du corpus d’étude et qui rapproche les mots qui ont des profils syntaxiques proches. L’utilisateur est un linguiste spécialiste de sémantique lexicale, ou un chercheur en sciences humaines, intéressé par l’évolution des mots et concepts dans une communauté donnée. - un moteur de recherche sur site Web. L’analyseur syntaxique est utilisé pour extraire des mots clés liés aux mots de la requête posée par l’utilisateur qui seront proposés comme suggestions de reformulation. L’utilisateur final est le responsable du site, qui souhaite intégrer à son site des facilités de navigation, soit pour satisfaire l’internaute qui visite le site, en l’aidant à trouver le plus vite possible l’information qu’il recherche, soit pour le maintenir le plus longtemps possible sur le site. Dans toutes ces applications, le système doit s’adapter aux termes extrêmes qu’il relie, à savoir un fond textuel (milieu) et un utilisateur (organisme). Les adaptations concernent d’abord les frontières externes, avec le milieu d’un côté et avec l’organisme de l’autre. Le système doit comporter en début de chaîne, côté milieu, des programmes de captage, de conversion, de balisage, de nettoyage de sources textuelles, qui permettent la prise en compte de fichiers aux formats divers et leur conversion dans le format adéquat exigé par l’analyseur syntaxique. Puisque l’analyseur SYNTEX attend le corpus à traiter au format texte avec un balisage minimal (séparation en unités textuelles), il faut débarrasser le texte du balisage initial quand il existe, pour éventuellement le récupérer et le reprojeter le cas échéant une fois l’analyse effectuée. Dans certains cas, la phase de pré-traitement peut comporter une étape de découpage du corpus en séquences, dans les contextes où un simple découpage sur ponctuations fortes apparaît inadéquat. Le système intégrateur doit être équipé en fin de chaîne, du côté de l’organisme, d’interfaces adaptées aux besoins de l’utilisateur. Dans les première et troisième applications, il faut intégrer, en aval de l’analyseur, un extracteur, c’est-à-dire un module capable de passer de la représentation syntaxique en dépendance des phrases à des syntagmes structurés49. Ces adaptations sont obligatoires pour permettre la communication entre composants. D’autres adaptations ne sont pas obligatoires, mais sont ajoutées de façon opportuniste pour renforcer le potentiel du système. Par exemple, en amont de l’analyseur, des procédures de prétraitement syntaxiques peuvent être intercalées avant l’analyse syntaxique pour le traitement d’entités nommées spécifiques au domaine traité (reconnaissance de noms de société, de gênes, de composés chimiques, etc.). En aval, 49 J’ai réalisé un tel extracteur pour l’analyseur SYNTEX. Bien que cela représente une quantité de travail non négligeable et un certain intérêt, j’ai choisi de ne pas présenter ce travail dans le présent document. 141 des extensions peuvent être apportées aux interfaces utilisateurs dans le cas où l’analyseur intégré apporte plus d’informations que le strict nécessaire requis initialement par les spécifications de l’application. Par exemple, si l’analyseur est capable de repérer des relations de variations morphosyntaxiques entre candidats termes, ou peut produire des liens de proximités distributionnelles entre candidats termes, les interfaces doivent intégrer la possibilité de visualiser ces liens supplémentaires. Inversement, il existe des applications dans lesquelles il convient plutôt de réduire les capacités de l’analyseur, pour ne se saisir que des résultats pertinents pour l’application (uniquement des syntagmes nominaux, par exemple). Toutes ces interventions portent sur l’amélioration de la caractéristique d’adaptation des systèmes de traitement de l’information qui intègrent un analyseur syntaxique. Au-delà de ces adaptations plus ou moins ad hoc, les concepteurs de tels systèmes sont amenés à réfléchir à une meilleure auto-corrélation de ces systèmes. C’est particulièrement nécessaire quand il s’agit de quitter le cadre des solutions artisanales et d’adopter des solutions ingénieriques destinées à favoriser la maintenance, la réutilisabilité et la généricité de ces systèmes. On peut faire référence à l’initiative GATE pour les applications d’extraction d’information (Cunningham et al., 1996, Cunningham et al., 2002), ainsi qu’aux propositions de F. Cerbah sur une architecture à base de services Web pour la mise en oeuvre d’applications d’acquisition terminologique (Cerbah et Daille, 2006). Ces efforts n’ont pas un impact immédiat fort visible du côté de l’utilisateur final, mais ils permettent des progrès à moyen terme sur le développement des systèmes qui aboutiront à une meilleure adaptation aux besoins des utilisateurs. Adaptation de l’analyseur syntaxique Après avoir présenté l’adaptation et l’auto-corrélation de systèmes qui intègrent comme composant un analyseur syntaxique, je m’intéresse à l’analyseur lui-même en tant qu’objet technique. L’analyseur est bien un objet technique au sens où l’entend Simondon car les progrès dans son développement peuvent être décrits de façon parfaitement adéquate en exploitant les deux dimensions de l’adaptation et de l’auto-corrélation. Les termes extrêmes entre lesquelles l’analyseur doit réaliser l’adaptation sont d’un côté des séquences issues de corpus à analyser, et de l’autre les descriptions grammaticales idéales de ces séquences. Pour une séquence donnée en entrée, l’analyse produite doit être la plus proche possible de l’analyse correcte. Améliorer l’adaptation de l’analyseur, c’est réduire les différences entre analyses produites et analyses correctes. Il s’agit non pas d’améliorations locales qui viseraient à traiter correctement des exemples que telle théorie syntaxique considérerait comme difficiles, mais d’une amélioration globale, dont la mesure doit être effectuée, en terme de rappel et de précision, sur de larges échantillons de corpus de test annotés à la main. Améliorer l’analyseur consiste d’abord à améliorer sa couverture, à savoir le type de relations syntaxiques qu’il est capable de reconnaître, et pour chacune de ces relations améliorer le rappel et la précision, c’est-à-dire reconnaître sans erreur le maximum de liens syntaxiques dans les énoncés. Ces progrès passent essentiellement par une augmentation de la résistance de l’analyseur. On parle souvent de robustesse à propos 142 d’analyse syntaxique et l’on entend généralement la capacité d’un analyseur à traiter des énoncés comportant des malformations grammaticales. Par résistance, j’entends sa capacité à reconnaître les liens syntaxiques dans des configurations complexes, que la caractéristique de concrétion de la langue rend fréquentes dans les corpus. Les séquences réelles sont souvent longues, par rapport aux exemples de la grammaire, et donc les liens syntaxiques sont nombreux et intriqués dans des configurations complexes. Par exemple, améliorer l’adaptation de l’analyseur sur la relation Sujet, c’est complexifier et enrichir les algorithmes de reconnaissance pour trouver les liens Sujet même s’il y a intercalation de chaînes coordonnées, d’incises, de subordonnées relatives entre le verbe et son sujet. La démarche adoptée pour améliorer l’adaptation de l’analyseur est une démarche pragmatique, par essais et erreurs, qui enchaîne de façon systématique programmation et tests sur corpus. C’est une démarche d’ingénierie linguistique. Comme je l’ai dit dans la section précédente, il n’y a pas de partage des tâches, entre d’un côté ce qui relèverait de l’informatique et de l’autre de la linguistique. Le concepteur doit avoir des compétences de grammairien, d’un niveau nettement supérieur à celui du cours moyen ou du collège. Il doit être capable de déterminer lui-même pour tout énoncé sa description syntaxique. De plus, même si la démarche de développement est empirique, elle n’est pas exclusivement guidée par l’observation du corpus. Le recours au corpus est fondamental pour mettre au jour et faire plus rapidement l’inventaire des multiples configurations de surface au sein desquelles il faut reconnaître les liens syntaxiques. Mais le concepteur doit être capable de prévoir des règles pour des configurations qui ne sont pas attestées dans le corpus d’apprentissage. C’est la connaissance qu’il a de la grammaire de la langue qui lui permet de dépasser les configurations qu’il observe en corpus, et d’abstraire à partir d’elles des règles de reconnaissance dont la couverture dépassera les simples cas observés. En revanche, ce sont ses réflexes d’ingénieurs qui vont lui permettre de faire des choix, de prioriser les développements et d’accepter des pertes, en laissant tomber des cas trop spécifiques au corpus, trop rares, voire anecdotiques, ou d’une complexité telle que la résolution entraînerait la mise en place, coûteuse en temps, d’un arsenal sophistiqué pour une amélioration de l’adaptation à peine sensible. Le recours aux tests sur corpus est indispensable pour se donner les moyens d’élaborer une stratégie de développement qui optimise le ratio temps passé sur progrès réalisés. Les progrès de l’adaptation sont le résultat d’une démarche méthodique, systématique de test sur des corpus variés. C’est d’abord de la sueur : le concepteur « a la tête dans le guidon », l’oeil rivé sur les compteurs de rappel et de précision, toute l’énergie mobilisée pour faire bouger les aiguilles. C’est un travail quotidien de développement et d’enrichissement de règles et d’heuristiques, dont le concepteur peut difficilement s’enorgueillir dans de magistrales publications scientifiques. Les progrès d’adaptation et ceux de l’auto-corrélation se manifestent de façon radicalement différente : De manière assez générale, les progrès relationnels sont des perfectionnements progressifs, continus, se faisant par essais et erreurs au cours de l’usage ; ils résultent de l’expérience et s’additionnent : ils conservent l’allure temporelle de la relation entre organisme et milieu. (…) Par contre, les progrès de l’auto-corrélation demandent une résolution 143 de problème, une invention qui pose un système synergétique de compatibilité. Cette invention peut être amenée par le besoin des progrès relationnels, mais elle ré-engendre la logique interne du système, qui est auto-normatif, et confère à ses sous-ensembles des propriétés provenant du fonctionnement et le rendant possible. (Simondon, 1971, p. 102) Auto-corrélation de l’analyseur syntaxique Les progrès d’auto-corrélation concernent l’architecture globale du système, c’est-à-dire d’une part la stratégie d’enchaînement des modules, et d’autre part les fonctions et procédures génériques partagées par l’ensemble des modules. Ils exigent du recul, et ne peuvent se produire qu’à partir d’une réflexion distanciée sur les limites patentes de l’analyseur, à la fois en termes de performances et de facilité de maintenance et de développement, et de la formulation de l’ensemble des difficultés sous la forme d’un ou plusieurs problèmes à résoudre. Alors peut jaillir la trouvaille géniale, l’idée, l’invention, qui conduit à un bond qualitatif que n’auraient pu générer les progrès de l’adaptation. Au départ du projet, j’ai volontairement choisi une architecture initiale simple : la séquence est traitée en plusieurs passes ; chaque passe est dédiée à la reconnaissance d’un type de relation et d’un seul ; chaque module résout immédiatement ses ambiguïtés de rattachement et transmet une séquence sans ambiguïtés au module de la passe suivante ; aucun module ne remet en cause les catégories morphologiques ou les liens syntaxiques posés par les modules antérieurs. Ce choix d’une architecture simple a été une condition nécessaire pour avancer dans la réalisation de l’analyseur, en particulier dans la programmation des algorithmes de recherche de gouverneurs candidats et des procédures de désambiguïsation et des ressources lexicales nécessaires et suffisantes. Il y a eu une longue phase de développement continu visant à améliorer l’adaptation de l’analyseur, sans que l’architecture soit modifiée. Les contraintes simplificatrices ont été poussées jusque dans leurs derniers retranchements. A plusieurs stades du cycle de développement de l’analyseur, j’ai procédé à des restructurations de l’architecture pour améliorer l’auto-corrélation de l’analyseur. Ces opérations se sont imposées sous la pression de différents facteurs : (i) le constat d’un certaine stagnation dans l’amélioration des performances, et l’identification de configurations de surface difficiles à traiter avec une architecture séquentielle cloisonnée ; (ii) la mise en chantier d’un SYNTEX anglais, à l’occasion de laquelle j’ai cherché au maximum à identifier des traitements génériques et à réaliser des fonctions partagées ; (iii) la rédaction du présent mémoire, qui m’a obligé à prendre du recul et m’a incité à m’interroger sur une meilleure cohérence interne et un meilleur équilibre de l’analyseur ; (iv) enfin, et surtout, la volonté de ne pas laisser SYNTEX devenir une « usine à gaz » qui ne pourrait être entretenue que par son concepteur historique. Les « révolutions » importantes dans l’évolution de l’auto-corrélation de l’analyseur ont été l’intégration du retour en arrière et la globalisation de la désambiguïsation. Le principe de l’interdiction du retour en arrière qui, après avoir longtemps été utile pour développer en profondeur les différents modules, s’est avéré être à l’origine d’une 144 stagnation dans l’amélioration des performances. J’ai alors choisi d’intégrer dans l’analyseur la possibilité du retour en arrière. Bien entendu, le premier effet de cette décision n’a pas été une amélioration subite des performances de l’analyseur, mais, comme le formule Simondon, un ré-engendrement de la logique interne du système. Dès lors que cette possibilité est incluse, la philosophie de développement des modules est modifiée de façon profonde : il devient possible d’implémenter la pose de liens provisoires, qui pourront être supprimés lors des étapes ultérieures du traitement si des informations plus complètes sur la forme syntaxique de la séquence l’imposent. Ce changement donne une meilleure prise pour affronter le problème de la circularité, lié à l’incompatibilité entre l’intrication des liens syntaxiques et la séquentialité des traitements (section 3.1.4). Mais il impose de reprendre un à un les différents modules pour les repenser vis-à-vis de cette nouvelle norme et assurer une nouvelle logique interne du système. Cela revient à identifier les configurations dans lesquelles des liens déjà posés peuvent être supprimés et inversement celles où des liens peuvent être placés de façon éventuellement provisoire. La globalisation de la désambiguïsation participe du même effort vers une meilleure prise en compte du problème de la circularité. La modification consiste d’abord à développer une procédure de désambiguïsation sur le treillis des liens placés par les modules à ambiguïté. Mais elle impose aussi un ré-engendrement de la logique interne du système, en particulier au niveau de la formalisation du parcours, puisqu’il faut intégrer le fait qu’à une étape d’un parcours on peut passer sur un mot qui est cible de plusieurs liens de dépendance. 3.3.3. Savoirs Quel savoir sur la langue le projet SYNTEX produit-t-il ? C’est sur cette interrogation que je conclus ce mémoire. Elle ne s’impose pas en droit. Pour reprendre la question de Marandin, « quel est le statut que prend, ou peut prendre, un analyseur dans un programme de recherche consacré au langage » (Marandin, 1993, p. 5, cf. section 3.3.1), je rappelle que mon programme de recherche initial n’était pas explicitement consacré au langage. Mon objectif (cf. section 3.1.1) était de construire un analyseur syntaxique opérationnel, précis et efficace, qui produise des analyses aussi correctes et complètes que possible, sur des textes de genres variés, qui soit utilisable dans une large gamme d’applications, que ce soit du côté de la recherche académique ou de celui des applications industrielles. Ce n’était pas un objectif de connaissance, mais un objectif d’utilité. Par rapport à cet objectif, un premier et rapide bilan peut être tiré après quelques années. D’abord, les résultats de SYNTEX sont exploités par plusieurs dizaines de chercheurs, auxquels j’ai fourni des résultats sur les corpus qu’ils m’ont envoyés. Cette tâche est consommatrice de temps, parfois fastidieuse, mais elle fait partie du contrat initial. Les retours, quand retours il y a, sont souvent très utiles (Bourigault et al., 145 2004). Pour alléger le travail, une interface Web est mise en place à l’ERSS50 pour permettre aux utilisateurs de déposer leur corpus et de le récupérer un peu plus tard, analysé. Par ailleurs, une version de SYNTEX pour la recherche est diffusée aux laboratoires qui souhaitent être autonomes. Ensuite, très tôt dans le projet, une convention de collaboration a été négociée entre le CNRS, l’Université Toulouse Le Mirail et la société Synomia51, pour que celle-ci exploite commercialement l’analyseur dans le domaine de la recherche d’informations sur Internet. Depuis 2003, la société Synomia commercialise des solutions de recherche d’informations sur site Internet. La collaboration avec cette entreprise a été extrêmement stimulante. Outre le retour permanent et systématique sur les erreurs, bugs et limites de l’analyseur, elle m’a permis de mener avec les ingénieurs linguistes de l’entreprise une réflexion particulièrement féconde sur les utilisations potentielles d’un analyseur syntaxique52. Bien entendu, tout n’a pas été toujours facile, que ce soit dans mes relations avec la société, puisque nos contraintes et objectifs concernant la diffusion des résultats n’ont pas toujours été immédiatement compatibles, ou au sein de ma communauté de recherche, où l’on regarde souvent avec beaucoup de suspicion toute collaboration avec le « privé ». Il reste que, sans cette collaboration, SYNTEX n’aurait pas atteint le niveau de performance qu’il a aujourd’hui. Même si la visée utilitaire a été primordiale au départ du projet, ce n’est pas elle qui a été proprement le moteur de la recherche. Comme le dit Simondon, les conditions extrinsèques de l’ambiance dans lesquelles naît une invention et se développe un objet technique, c’est-à-dire les facteurs économiques, culturels, psychologiques…, peuvent participer à la formulation d’une demande d’invention, mais elles ne peuvent produire à elles seules une telle invention : « c’est de la formulation, puis de la résolution du problème que dépendent de façon décisive l’invention et l’existence de la réalité technique. » (Simondon, 1971, p. 45). Le problème vers la résolution duquel ma recherche a été dirigée est celui de l’analyse syntaxique opérationnelle, abordé non comme un problème de compilation, mais comme un problème de reconnaissance de forme. Je l’ai formulé ainsi : pour chaque mot de la séquence, identifier son gouverneur syntaxique (section 3.1.2). La difficulté essentielle est la circularité : l’intrication globale des liens syntaxiques dans une séquence fait que chaque position ne peut être reconnue qu’en interdépendance avec les autres. Or le traitement informatique est séquentiel. Le problème de fond est donc un problème d’architecture : selon quel enchaînement séquentiel passer progressivement des places de mots, qui peuvent être perçues par l’analyseur, à leurs positions, qui doivent être reconnues par lui. L’analyseur SYNTEX constitue une solution technique à ce problème. Pour penser comment l’existence de cet objet technique pourrait contribuer à une avancée du savoir sur les langues, il faut se 50 Je remercie Franck Sajous, qui a réalisé cette interface, pour l’ensemble de sa contribution pour faire de SYNTEX un outil utilisable. 51 www.synomia.com 52 Je remercie très chaleureusement Gaëlle Récourcé, de la société Synomia, pour les innombrables discussions enrichissantes que nous avons eues pendant toute la période de développement de SYNTEX. 146 référer à ce que dit Simondon des rapports entre invention technique et savoir scientifique : Les besoins pratiques ont contraint l’Homme à améliorer les techniques sans attendre le développement de toutes les sciences ; (…) cette avance est surtout caractérisée par le progrès des adaptations et la relative précarités des auto-corrélations ; c’est en partie ce hiatus au coeur des techniques qui a fait ressentir le besoin de sciences, tandis que les parties déjà constituées des techniques offraient aux sciences naissantes non seulement des problèmes théoriques à résoudre (…), mais encore des moyens d’expérimentation : le besoin d’un complément interne de l’invention déjà adaptée est en fait un appel au savoir scientifique ; du progrès rapide réalisé par la constitution de la science répondant à cet appel, il ne faut pas tirer trop hâtivement la conclusion du primat de la science en matière d’invention technique ; la science renouvelle très vite une technique lorsqu’elle a seulement à combler le hiatus central de l’autocorrélation ; si les adaptations ne sont pas constituées avant l’étape scientifique, le progrès est moins rapide. (Simondon, 2005, p. 232) Si l’on fait confiance à Simondon, on peut rêver à des rapports nouveaux entre science du langage et ingénierie linguistique. Si le projet SYNTEX doit produire des connaissances sur la langue, c’est du côté de l’auto-corrélation du système qu’il faut aller chercher. Il faut analyser à quelle logique et organisation internes de l’analyseur a abouti le processus de résolution du problème de la reconnaissance syntaxique : si une architecture optimale et des fonctions génériques partagées se dégagent de façon singulière de l’élaboration d’analyseurs syntaxiques pour des langues appartenant à des familles différentes, alors sans doute pourra-t-on affirmer que « ça dit quelque chose » de fondamental sur la structure syntaxique des langues. Se dessinent ce que pourraient être de nouveaux rapports entre théorie linguistique et développement d’objet techniques : la science linguistique élabore une théorie syntaxique, qui s’appuyant sur les résultats de la technique, produit en retour un cadre théorique capable de faire progresser de façon rationnelle le développement de la technique… Sans attendre la convergence hypothétique entre une science linguistique à construire et une ingénierie linguistique productrice d’objets techniques, il est possible de mettre en oeuvre ces derniers dans une activité de connaissance sur la langue, en les utilisant comme des instruments d’observation (Habert, 2005, chap. VII, 2006). Le double usage de l’objet technique comme outil et comme instrument est une idée fondamentale de la philosophie de Simondon : L’outil est l’objet technique qui permet de prolonger et d’armer le corps pour accomplir un geste, l’instrument est l’objet technique qui permet de prolonger et d’adapter le corps pour obtenir une meilleure perception ; l’instrument est outil de perception. Mais un outil peut servir d’instrument, c’est-à-dire pour prélever des informations sur la tâche qu’il permet d’exécuter (ex marteau). Il y a une manière de considérer et d’étudier la 147 technique qui recherche toujours également ce en quoi l’outil est instrument, c’est-à-dire (…) est le premier moyen de s’instruire de ce qu’il effectue, de considérer ce qu’il fait comme un monde (une dimension ou une partie nouvelle du monde) qu’il donne aussi à connaître – considération qui n’est pas négligeable à l’égard des relations entre la science et la technique. (op. cit., p. 58) Une fois encore, le recours à Simondon est salutaire. Un analyseur syntaxique opérationnel peut servir à acquérir des connaissances sur la tâche de description syntaxique, et donc sur la structure syntaxique des langues. Pour encourager cette production de savoir, nous mettons en place à l’ERSS un certain nombre d’outils d’analyse de corpus, associés à un ensemble de corpus diversifiés analysés syntaxiquement, et accessibles via le Web. Ceci pourrait ensemble constituer un observatoire de la langue française53. Différents outils sont envisagés : un concordancier permettant d’effectuer des requêtes, sur tout ou partie du corpus, portant sur les liens syntaxiques ; des modules d’extraction permettant d’obtenir des listes d’unités lexicales présentant telles ou telles propriétés syntaxiques ; des modules de calcul de corrélation entre faits syntaxiques ; des interfaces d’accès aux résultats d’analyse distributionnelle contrastée sur deux corpus. Bien entendu, ce type d’outils ne présente d’utilité que pour des approches en linguistique qui s’intéressent aux usages plus qu’à la norme, et aux tendances plus qu’aux démarcations binaires. Avec dans le lointain horizon la promesse de nouveaux rapports en science et ingénierie linguistiques, c’est d’abord dans l’utilisation de l’analyseur en tant qu’instrument que l’on doit attendre la production de savoirs diversifiés sur la langue. Et pour cela, on peut raisonnablement compter sur le génie des utilisateurs de SYNTEX. 53 Je remercie une nouvelle fois Franck Sajous, qui pilote ce projet. 148 149 Bibliographie ABEILLE A. & BLACHE P. (1997) Etat de l’art : la syntaxe. In Traitement Automatique des Langues, 38(2), pp. 69-90 ABNEY S. (1987) The English Noun Phrase in Its Sentential Aspects. Thèse du Massachusetts Institute of Technology, Cambridge ABNEY S. (1990a) Rapid incremental parsing with repair. In Proceedings of the 6th New OED Conference: Electronic Text Research, pp. 1-9, University of Waterloo ABNEY S. (1990b) Parsing by Chunks. In BERWICK R., ABNEY S. & TENNY D., Eds, Principle-Based Parsing. Kluwer Academic Publishers ABNEY S. (1996) Partial parsing via finite-state cascades. In Natural Language Engineering 2(4), Cambridge University Press. pp. 337-344 ADDA G., LECOMTE J., MARIANI J., PAROUBEK P. & RAJMAN M. (1998), The GRACE French Part-Of-Speech Tagging Evaluation Task, In proceedings of the 1st International Conference on Language Resources and Evaluation (LREC’1998),Granada ADDA G., MARIANI J., PAROUBEK P. & RAJMAN M. & LECOMTE J. (1999) Métrique et premiers résultats de l'évaluation GRACE des étiqueteurs morphosyntaxiques pour le français. In Actes de la 6ème conférence Traitement Automatique du Langage Naturel (TALN’1999), Cargese AÏT-MOKHTAR S. & CHANOD J.-P. (1997a) Incremental finite-state parsing. In Proceedings of the 5th Conference on Applied Natural Language Processing (ANLP’1997), pp. 72-79, Washington DC AÏT-MOKHTAR S. & CHANOD J.-P. (1997b) Subject and object dependency extraction using finite-state transducers. In Proceedings of the ACL workshop on Automatic Extraction and Building of Lexical Semantic Resources for NLP applications, pp. 71-77, Madrid AÏT-MOKHTAR S., CHANOD J.-P. & ROUX C. (2002) Robustness beyond shallowness: incremental deep parsing. Natural Language Engineering 8(2/3), pp. 121-144 ALPAC (1966) Language and Machines. Computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee (ALPAC), National Academy of Sciences, National Research Council. ASSADI H. (1998) Méthodologie et outils informatiques pour l'acquisition de connaissances à partir de textes, Thèse en informatique de l’Université Paris 6 ASSADI H. & BOURIGAULT D. (1995) Classification d'adjectifs extraits d'un corpus pour l'aide à la modélisation des connaissances. In Actes des 3èmes Journées internationales d'Analyse des Données Textuelles (JADT’1995), pp. 313-320, Rome ASSADI H. & BOURIGAULT D. (1996) Acquisition et modélisation des connaissances à partir de textes : outils informatiques et éléments méthodologiques. In Actes du 10ème 150 congrès Reconnaissance des Formes et Intelligence Artificielle (RFIA’1996), pp. 505-514, Rennes AUSSENAC N., KRIVINE J.-P. & SALLENTIN J. (1992) L’acquisition des connaissances pour les systèmes à base de connaissances. Revue d’Intelligence Artificielle 6(1-2) BACHIMONT B. (1996) Herméneutique matérielle et artéfacture : des machines qui pensent aux machines qui donnent à penser. Thèse de l’Ecole Polytechnique BAR-HILLEL Y. (1951) The present state of research on mechanical translation. In American Documentation 2, pp. 229-237 BAR-HILLEL Y. (1953) A Quasi-Arithmetic Notation for Syntactic Description, Language 29, pp. 47-58. BAR-HILLEL Y. (1960) The Present Status of Automatic Translation of Languages, In Advances in Computers 1, pp. 91-141 BASILI R., PAZIENZA M.T., VINDIGNI M. (1999) Adaptive Parsing and Lexical Learning, in Actes de VEXTAL’1999, Venise. BASILI R., VINDIGNI M. (1998) Adapting a Subcategorization Lexicon to a Domain, Proceedings of the ECML98 Workshop TANLPS, Chemnitz BENVENISTE E. (1974) Forme nouvelle de la composition nominale, Problèmes de linguistique générale, 2, pp. 163-176 BERRENDONNER A. (2002) Les deux syntaxes, in Verbum 1-2, pp. 23-35 BLACHE P. (2005) Combiner analyse superficielle et profonde : bilan et perspectives, in Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles (TALN’2005), pp. 93-102, Dourdan BLACHE P., BALFOURIER J.-M. et VAN RULLEN T. (2002). From Shallow to Deep Parsing Using Constraint Satisfaction, in Proceedings of 19th International Conference on Computational Linguistics (COLING’2002), Taipei BLANCHE-BENVENISTE C. (2002) Phrase et construction verbale, in Verbum 1-2, pp. 7-22 BOUAUD J., BACHIMONT B., CHARLET J. & ZWEIGENBAUM P. (1995) Methodological Principles for Structuring an Ontology, In Proceedings of the IJCAI-95 Workshop on Basic Ontological Issues in Knowledge Sharing, Montreal BOURIGAULT D. (1991) LEXTER, un Logiciel d’Extraction de TERminologie. In Actes du colloque sur le Repérage de l’information textuelle, Ministère des Communications du Gouvernement du Québec et Hydro-Québec, pp. 15-25, Montréal BOURIGAULT D. (1993) Analyse syntaxique locale pour le repérage de termes complexes dans un texte, Traitement Automatique des Langues 34(2), pp. 105-117 BOURIGAULT D. (1994a) Extraction et structuration automatiques de terminologie pour l'aide à l'acquisition des connaissances à partir de textes. In Actes du 9ème congrès Reconnaissance des Formes et Intelligence Artificielle (RFIA&1994). pp. 397-408, Paris 151 BOURIGAULT D. (1994b) Lexter, un logiciel d’extraction de terminologie. Application à l’acquisition des connaissances à partir de textes, Thèse en Mathématique, Informatique Appliquées aux Sciences Humaines de l’Ecole des Hautes Etudes en Sciences Sociales, Paris BOURIGAULT D., AUSSENAC-GILLES N. & CHARLET J. (2004) Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas, Revue d'Intelligence Artificielle 18(1), pp. 87-110 BOURIGAULT D. & FABRE C. (2000), Approche linguistique pour l’analyse syntaxique de corpus, Cahiers de Grammaire 25, pp. 131-151 Université Toulouse le Mirail BOURIGAULT D. & FREROT C. (2005) Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique. In Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles (TALN’2005), pp. 373-382, Dourdan BOURIGAULT D. & JACQUEMIN C. (1999) TERM EXTRACTION + TERM CLUSTERING: An Integrated Platform for Computer-Aided Terminology. In Proceedings of the 9th Conf. of the European Chapter of the Association for Computational Linguistics (EACL’1999), pp. 15-22, Bergen BOURIGAULT D. & JACQUEMIN C. (2000) Construction de ressources terminologiques, in J.-M. PIERREL, Ed., Ingénierie des langues, Hermès, pp. 215-233 BOURIGAULT D. & SLODZIAN C. (1999) Pour une terminologie textuelle. In Actes des troisèmes rencontres Terminologie et Intelligence Artificielle, numéro spécial Terminologies nouvelles 19, pp. 29-32 KAPLAN R. M. & BRESNAN J. (1982). Lexical-Functional Grammar: A formal system for grammatical representation. In J. BRESNAN, Ed., The Mental Representation of Grammatical Relations, chapter 4, p. 173-281. Cambridge, Mass.: MIT Press BROWN P. E., COCKE J., DELLA PIETRA S. A., DELLA PIETRA V. J., JELINEK F., LAFFERTY J. D., MERCER R. L. & ROOSSIN P. S. (1990). A statistical approach to machine translation, Computational Linguistics 16(2), pp. 79-85 CERBAH F., DAILLE B. (2007) Une architecture à base de services pour mieux spécialiser les processus d’acquisition de terminologie. In Traitement Automatique des Langues 47(1), www.atala.org/tal/ CHANOD J.-P. (1993) Problèmes de robustesse en analyse syntaxique. In Actes de la 2ème Conférence Informatique et Langues Naturelles (ILN’1993), pp. 223-244, Nantes CHANOD J.-P. (2000) Robust parsing and beyond. In VAN VOORD G. & JUNQUA J. C., Eds, Robustness in Language Technology, Kluwer Academic Publishers, pp. 132-139 CHOMSKY N. (1965) Aspects de la théorie syntaxique, Editions du Seuil [1971] COLBY K. (1973) Simulations of Belief systems. In SCHANK R. & COLBY K., Eds., Computer Models of Thought and Language, Freeman, San Francisco 152 CORI M. & LEON J. (2002) La constitution du TAL, étude théorique des dénominations et des concepts. In Traitement Automatique des Langues 43(3), pp. 21-55 CUNNINGHAM H., WILKS Y. & GAIZAUSKAS R. (1996) GATE - A General Architecture for Text Engineering, In Proceedings of 16th Conference on Computational Linguistics (COLING'96), Copenhagen CUNNINGHAM H., MAYNARD D., BONTCHEVA K. & TABLAN V. (2002) GATE : A Framework and Graphical Development Environment for Robust NLP tools and applications, In Proceedings of 40th Anniversary Meeting of the Association for Computational Linguistics (ACL’2002), Philadelphia DAVID J.-M., KRIVINE J.-P. & SIMMONS R. (1993) Second generation expert systems, Springer-Verlag DEBILI F. (1982) Analyse syntaxico-sémantique fondée sur une acquisition de relations lexicales-sémantiques. Thèse en informatique de l’Université Paris XI, Orsay FABRE C. & FREROT C. (2002) Groupes prépositionnels arguments ou circonstants : vers un repérage automatique en corpus. In Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles (TALN’2002), pp. 215-224, Nancy FABRE C., HABERT B. & LABBE D. (1997) La polysémie dans la langue générale et les discours spécialisés. Sémiotiques 13, pp. 15-31 FELBER H. (1987) Manuel de terminologie, Unesco, Paris FILLMORE C. J. (1968) The case for case. In BACH & HARMS, Eds, Universal in linguistic theory. New York: Holt, Rinehart and Winston, pp. 1-90 FOLCH H. & HABERT B. (1998) Proximités de comportement syntaxique entre les mots. In S. MELLET, Ed, In Actes des 4èmes journées internationales d'analyse statistique des données textuelles (JADT’1998), pp. 297-303 FREROT C. (2005) Construction et évaluation en corpus variés de lexiques syntaxiques pour la résolution des ambiguïtés de rattachement prépositionnel, Thèse en sciences du langage de l’Université Toulouse le Mirail FREROT C., BOURIGAULT D. & FABRE C. (2003) Marier apprentissage endogène et ressources exogènes dans un analyseur syntaxique de corpus. Le cas du rattachement verbal à distance de la préposition de, in Traitement Automatique des Langues 44(3), pp. 167-186 GALA PAVIA N. (2003) Un modèle d’analyseur syntaxique robuste basé sur la modularité et la lexicalisation de ses grammaires, Thèse en informatique de l’Université de Paris XI, Orsay GAMBIER Y. (1995) Implications épistémologiques et méthodologiques de la socioterminologie. Actes de langue française et linguistique 7/8, pp. 99-115 153 GARCIA D. (1998) L’analyse automatique des textes pour l’organisation causale des actions. Réalisation du système informatique COATIS. Thèse en informatique de l’Université Paris-Sorbonne GARSIDE R. (1987) The CLAWS Word-tagging System. In GARSIDE R., LEECH G. & SAMPSON G., Eds, The Computational Analysis of English: A Corpus-based Approach. London: Longman GARVIN P. L. (1967) The fulcrum syntactic analyzer for Russian. In actes de la conférence internationale sur le traitement automatique des langues (COLING’1967), Grenoble GAZDAR G., KLEIN E., PULLUM G. K. & SAG I. A. (1985) Generalized Phrase Structure Grammar. Cambridge, MA: Harvard University Press GAUDIN F. (1996) Terminologie : l’ombre du concept. Meta XLI-4, pp. 605-621 GERDES K., KAHANE S. (2006) L'amas verbal au coeur dune modélisation topologique du francais, in: Linguisticae Investigationes, vol. 29, p. 75-89 GREFFENSETTE G. (1983) Traitements linguistiques appliquées à la documentation automatique, Thèse en informatique de l’Université Paris XI GREFFENSETTE G. (1994) Exploration in Automatic Thesaurus Discovery, Kluwer Academic Publishers GREFFENSETTE G. (1996) Light Parsing as Finite-State Filtering, In Proceedings of the ECAI’96 workshop on extended finite state models of language, Budapest GUILBERT B. (1965) La formation du vocabulaire de l’aviation, Larousse HABERT B. (1998) Des mots complexes possibles aux mots complexes existants : l'apport des corpus. Habilitation à diriger des recherches en linguistique, Université de Lille III HABERT B. (2005) Instruments et ressources électroniques pour le français, Ophrys HABERT B (2006) Portrait de linguiste(s) à l'instrument. In GUILLOT C., HEIDEN S. & PREVOST S., Eds, À la quête du sens : études littéraires, historiques et linguistiques en hommage à Christiane Marchello-Nizia, ENS Éditions, Lyon , pp. 124-132 HABERT B., BARBAUD P., DUPUIS F. & JACQUEMIN C. (1995) Simplifier des arbres d’analyse pour dégager les comportements syntactico-sémantiques des formes d’un corpus. Cahiers de grammaire 20, Université de Toulouse Le Mirail, pp. 1-32 HABERT B. & FOLCH (1998) Compter sur les arbres. In P. FIALA & P. LAFON, Eds., Hommage à Maurice Tournier, Éditions de l'École Normale Supérieure de Fontenay/Saint-Cloud, pp. 55-63 HABERT B. & NAZARENKO A. (1996) La syntaxe comme marche-pied de l’acquisition des connaissances : bilan critique d’une expérience. In Actes des 6èmes Journées d’Acquisition des Connaissances, pp. 137-142, Sète 154 HAYES P. J. & WEINSTEIN S. P. (1990) CONSTRUE/TIS: A System for Content-Based Indexing of a Database of News Stories, In Proceedings of the The Second Conference on Innovative Applications of Artificial Intelligence, pp. 49-64, Georgetown University HEIDORN G. E. (1972) Natural Language Inputs to a Simulation Programming System. Technical Report NPS-55HD72101A, Naval Postgraduate School, Monterey, California HINDLE D. (1990) Noun Classification from Predicate Argument Structures. In proceedings of the 28st Annual Meeting of the Association for Computational Linguistics (ACL’1990), pp. 268-275, Pittsburgh HINDLE D., ROOTH M. (1993) Structural Ambiguity and Lexical Relations, Computational Linguistics 19(1), pp. 103-120 HUDSON R. (2000) Discontinuity, Traitement Automatique des Langue 41(1), pp. 15-56 HUTCHINS, J. W. (1986) Machine Translation: Past, Present, Future. Ellis Horwood Limited, England (http://ourworld.compuserve.com/homepages/WJHutchins/PPFTOC. htm) JACQUEMIN C. (1997) Variation terminologique : reconnaissance et acquisition automatique de termes et de leurs variantes en corpus. Habilitation à diriger des recherches en informatique, Université de Nantes JACQUEMIN C. & BOURIGAULT D. (2003) Term Extraction and Automatic Indexing, in MITKOV R., Ed, The Oxford Handbook of Computational Linguistics, Oxford University Press, pp. 599-615 JACQUES M.-P. (2005) Que, la valse des étiquettes, in Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles (TALN’2005), pp. 133-142, Dourdan JENSEN K. (1988) Why computational grammarians can be sceptical about existing linguistic theories, In Proceedings of 6th International Conference on Computational Linguistics (COLING’1988), pp. 448-449, Budapest JENSEN K., HEIDORN G. E., MILLER L. A. & RAVIN Y. (1983) Parse Fitting and Prose Fixing: Getting a Hold on Ill-formedness. American Journal of Computational Linguistics 9(3-4), pp. 147-160 JENSEN K., HEIDORN G. E. & RICHARDSON S. D., Eds (1992) Natural Language Processing: the PLNLP approach, Kluwer Academic Publishers JOSHI A. K. (1987) An introduction to tree adjoining grammars. In MANASTER-RAMER A., Ed, Mathematics of Language, John Benjamins Publishing Co., pp. 87-115 JOSHI A. K. & HOPELY P. (1996) A Parser from Antiquity, Natural Language Engineering 2(4), pp. 291-294 JOSHI A. K. & HOPELY P. (1999) A Parser from Antiquity, in KORNAI A., Ed, Extended Finite State Models of Language, Cambridge University Press, pp. 6-15 155 KAHANE S. (1997) Bubble trees and syntactic representations, in BECKER & KRIEGER (eds), In Proc. 5th Meeting of the Mathematics of Language (MOL5), Saarbrücken: DFKI, pp. 70-76 KAHANE S. (2000) Extraction dans une grammaire de dépendance lexicalisée à bulles, in Traitement Automatique des Langues 41(1), pp. 211-243 KAHANE S. (2001) Grammaire de dépendance formelles et théorie Sens-texte, (tutoriel) in Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles (TALN’2002), pp. 17-77, Tours KAHANE S. (2002) Grammaire d'Unification Sens-texte : vers un modèle mathématique articulé de la langue. Habilitation à Diriger les Recherches, Université Paris 7 KAY M. (1973) Automatic translation of natural languages, Daedalus 102(3), pp. 217-230 KAY M. (2002) Introduction, In MITKOV R., Ed., The Oxford Handbook of Computational Linguistics, Oxford University Press, pp. xvii-xx L’HOMME M.-C. (1998) Caractérisation des combinaisons lexicales spécialisées par rapport aux collocations de langue générale. In Proceedings of the 8th EURALEX international congress on lexicography (EURALEX’1998), pp. 513-522, Liège LYTINEN S. & GERSHMAN A. (1986) ATRANS: automatic processing of money transfer messages. In Proceedings of the Fifth National Conference on Artificial Intelligence, pp. 1089-1095, Philadelphia MANNING C. (1993) Automatic Acquisition of Large Subcategorization Dictionary from Corpora, In Proceedings of the 31st Meeting of the Association for Computational Linguistics, pp. 235-242, Morristown MANNING C. D. & SCHÜTZE H. (1999) Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts MARANDIN J.-M. (1993) Analyseurs syntaxiques, équivoques et problèmes. In Traitement Automatique des Langues 34(1), pp. 5-33 MARCUS M. P. (1980) A theory of syntactic recognition for natural language, The MIT Press, Cambridge, Massachusetts MARCUS M. P., SANTORINI B. & MARCINKIEWICZ M. A. (1994) Building a Large Annotated Corpus of English: The Penn Treebank, Computational Linguistics 19(2), pp. 313-330 MARCUS M., KIM G., MARCINKIEWICZ M., MACINTYRE R., BIES A., FERGUSON M, KATZ K. & SCHASBERGER B. (1994) The Penn treebank: Annotating predicate argument structure. In proceedings of the ARPA Human Language Technology Workshop, pp. 114-119? Plainsboro 156 MATTHEWS G. H. (1962) Analysis by synthesis of natural languages. In Proceedings of the International Conference on Machine Translation and Applied Language Analysis, Londres MEL’CUK I. (1988) Dependency Syntax: Theory and Practice, Albany, N.Y.: The SUNY Press MILLER P. & TORRIS T. (1990) Formalismes syntaxiques pour le traitement automatique du langage naturel, Hermès MILNER J.-C. (1989) Introduction à une science du langage, Seuil NAGAO M. (1988) Language Engineering: the real bottle neck of Natural Language Processing. In Proceedings of the 12th International Conference on Computational Linguistics (COLING’1988), pp. 448-449, Budapest PANTEL P. & LIN D. (2000) An Unsupervised Approach to Prepositional Phrase Attachment using Contextually Similar Words. In Proceedings of the 38th Meeting of the Association for Computational Linguistics, pp. 101-108, Hong Kong PAROUBEK P. & ROBBA I. (2006) Data, annotations and measures in Easy - the evaluation campaign for parsers of french. In ELRA, Ed., Proceedings of the fifth international conference on Language Resources and Evaluation (LREC’2006), pp. 315-320, Genoa PAROUBEK P., VILNAT A., ROBBA I. & AYACHE C. (2007) Les résultats de la campagne EASY d’évaluation des analyseurs syntaxiques du français, in actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles (TALN’2007), Toulouse PEREIRA C. N. & WARREN D. H. (1980) Definite clause grammars for language analysis - a survey of the formalism and a comparison with augmented transition networks. Artificial Intelligence 13, pp. 231-278 POLLARD C. & SAG I. A. (1987) Information-based Syntax and Semantics. Volume I: Fundamentals. Stanford: CSLI RATNAPARKHI A., REYNAR J. & ROUKOS S. (1994) A maximum entropy model for prepositional phrase attachment. In proceedings of the ARPA Human Language Technology Workshop, pp. 250-55 RASTIER F. (1987) Sémantique interprétative. Presses Universitaires de France RASTIER F. (1991) Sémantique et recherches cognitives. Presses Universitaires de France RASTIER F. (1995) Le terme : entre ontologie et linguistique. In Actes des premières rencontres Terminologie et Intelligence Artificielle, numéro spécial de la Banque des mots 7, pp. 35-65 RASTIER F., CAVAZZA M. & ABEILLE A. (1994) Sémantique pour l’analyse. Masson 157 SAGER, N. (1970). The Sublanguage Method in String Grammars. In EWTON Jr. R.W. & ORNSTEIN J., Eds, Studies in Language and Linguistics, pp. 89-98, University of Texas at El Paso SEGUELA P., AUSSENAC-GILLES N. (1999) Extraction de relations sémantiques entre termes et enrichissement de modèles du domaine, In Actes de la conférence Ingénierie des Connaissances (IC’1999), pp. 79-88, Palaiseau SCHANK R. C. (1975) Conceptual Information Processing. North-Holland, Amsterdam SHIEBER (1990) Les grammaires basées sur l’unification, In MILLER P. & TORRIS T., Eds, Formalismes syntaxiques pour le traitement automatique du langage naturel, Hermès, pp. 27-85 SIMONDON G. (1958) Du mode d’existence des objets techniques. Aubier, Paris SIMONDON G. (1971) L’invention dans les techniques. Editions du Seuil [2005], Paris SLODZIAN M. (1994) La doctrine terminologique, nouvelle théorie du signe au carrefour de l’universalisme et du logiscisme ? In Actes de Langue française et linguistique, volume 7/8, pp. 121-136 SLODZIAN M. (1995) Comment revisiter la doctrine terminologique aujourd’hui ? In Actes des premières rencontres Terminologie et Intelligence Artificielle, numéro spécial Banque des mots 7, pp. 11-18 STETINA J. & NAGAO M. (1997) Corpus-based PP Attachment Ambiguity Resolution with a Semantic Dictionary. In J. ZHOU and K. CHURCH, Eds, Proceedings of the 5th Workshop on Very Large Corpora, pp. 66-80, Beijing & Hong Kong TAYLOR A., MARCUS M. & SANTORINI B. (2003) The Penn Treebank: an overview. In ABEILLÉ A., Ed., Treebanks: Building and using parsed corpora, Kluwer academic publishers, pp. 5-22 TESNIERES L. (1959) Eléments de syntaxe structurale. Klincksieck USHIODA A., EVANS D., GIBSON T. & WAIBEL A. (1993) The Automatic Acquisition of Frequencies of Verb Subcategorization Frames from Tagged Corpora. In BOGURAEV B., PUSTEJOVSKY J., Eds, Proceedings of the Workshop on Acquisition of Lexical Knowledge from Text, pp. 95-106, Columbus VERGNE J. (1995) Les cadres théoriques des TAL syntaxiques: quelle adéquation linguistique et algorithmique ? Une étude et une alternative. In Actes de la conférence Traitement Automatique du Langage Naturel (TALN’1995), pp. 24-33, Marseille VERGNE J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur. Analyse syntaxique automatique non combinatoire, Habilitation à Diriger les Recherches, Université de Caen VERGNE J. & GIGUET E. (1998) Regards théoriques sur le tagging, in Actes de la 5ème conférence Traitement Automatique du Langage Naturel (TALN’1998), pp. 22-31, Paris 158 VILNAT A., PAROUBEK P., MONCEAUX L., ROBBA I., GENDNER V., ILLOUZ G. & JARDINO M. (2004) The ongoing evaluation campaign of syntactic parsing of French : Easy. In Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC), p. 2023-2026, Lisboa VOLK M. (2001) Exploiting the WWW as a Corpus to Resolve PP Attachment. In Proceedings of Conference on Corpus Linguistics, pp. 601-606, Lancaster WEAVER, W. (1949) Translation. Repr. in LOCKE W.N. & BOOTH A.D. , Eds. (1955) Machine translation of languages: fourteen essays, Press of the Massachusetts Institute of Technology, pp. 15-23 WILKS Y. (2005) Computational Linguistics: History, In Encyclopedia of Language & Linguistics (2nd Edition), Elsevier WILKS Y. & FASS D. (1992) The preference semantics family, In Computers & mathematics with applications 23(2-5), pp. 205-221 WINOGRAD T. (1972) Understanding Natural Language, Academic Press WOODS W. (1970), Transition Network Grammars for Natural Language Analysis, Communications of the ACM, 13, pp. 59-60