Générateur de textes aléatoires automatiquement lemmatisés [r-libre/3355]

Dionne, Jean Philippe (2024). Générateur de textes aléatoires automatiquement lemmatisés (mémoire de maîtrise en Technologie de l'information, Université TÉLUQ, Québec, Canada). Direction : Lemire, Daniel.

Fichier(s) associé(s) à ce document :

PDF - Jean-Philippe Dionne - Dépôt final.pdf
Licence : Creative Commons CC BY-NC.

Télécharger

Catégorie de document :	Thèses et mémoires
Évaluation par un comité de lecture :	Oui
Étape de publication :	Non publié
Résumé :	La lemmatisation d’un texte consiste à réduire chaque mot contenu dans celui-ci à sa forme de base. Cette opération revient à grouper tous les verbes conjugués sous leur forme infinitive, tous les adjectifs sous leur forme masculin singulier, et tous les noms sous leur forme au singulier. C’est d’ailleurs cette forme de base, appelée « lemme », qu’on retrouve dans les entrées de dictionnaires et non les formes dites fléchies. La lemmatisation d’un texte s’effectue dans plusieurs contextes tels que par exemple la recherche de documents par mot-clé, l’analyse du style d’un auteur ou la quantification de la richesse lexicale d’un texte écrit ou oral, ou comme première étape visant à faciliter la traduction automatique de documents. La lemmatisation d’un mot en particulier peut dans la plupart des cas s’effectuer en traitant ce mot seul sans tenir compte du contexte où il est utilisé ou des mots qui l’entourent. Cependant, une lemmatisation appropriée exige de pouvoir distinguer les homographes, c’est-à-dire des mots dont la graphie est la même mais dont le sens et ultimement le lemme et possiblement la classe grammaticale diffèrent. Les homographes ne peuvent être lemmatisés de façon appropriée sans tenir compte du contexte de leur utilisation. Vu la complexité de la désambiguïsation des homographes, il est critique de pouvoir évaluer la performance des algorithmes de lemmatisation automatique disponibles. Mais une telle évaluation requiert la mise en place d’un étalon de référence avec lequel comparer les résultats de chaque algorithme. Mais hélas, comme il n’existe encore aucun algorithme de lemmatisation parfait, cet étalon ne peut se bâtir que par une analyse manuelle d’un texte, une tâche laborieuse. Afin de pallier ce besoin de lemmatisation manuelle, le projet actuel a permis de générer des textes aléatoires en français automatiquement lemmatisés dont la précision en termes de lemmatisation est, par défaut, parfaite. Ces textes générés par ordinateur ne sont donc pas lemmatisés après coup, mais plutôt au moment de leur construction. Une telle génération de textes aléatoires automatiquement lemmatisés a requis la mise en place de banques de données de lemmes ainsi que l’emploi de règles précises pour générer les formes fléchies de ces lemmes. Une approche innovante basée sur l’utilisation d’un corpus de référence a été adoptée pour générer ces banques de mots. L’apprentissage machine appliqué au traitement syntaxique des homographes a été introduit pour assurer un meilleur accord entre le lexique du corpus de référence et celui utilisé pour les phrases aléatoires. L’outil développé dans le cadre de cette recherche a donc permis de créer des phrases lemmatisées dont la structure correspond aux normes de la langue française. En revanche, il n’a pas été possible de générer des textes porteurs de sens, car un tel objectif aurait été trop ambitieux. Une fois ces textes générés, on a procédé à l’évaluation d’outils de lemmatisation sur la base de ces textes ainsi que certains autres, afin d’en déterminer la fiabilité.
Déposant:	Breault, Claude
Responsable :	Claude Breault
Dépôt :	23 août 2024 12:55
Dernière modification :	28 août 2024 17:42

Actions (connexion requise)

RÉVISER