LogoTeluq
Français
Logo
Open access research
publication repository

Générateur de textes aléatoires automatiquement lemmatisés [r-libre/3355]

Dionne, Jean Philippe (2024). Générateur de textes aléatoires automatiquement lemmatisés (Master's thesis, Université TÉLUQ, Québec, Canada). Advisor(s): Lemire, Daniel.

File(s) available for this item:
[img]  PDF - Jean-Philippe Dionne - Dépôt final.pdf
License : Creative Commons Attribution Non-commercial.
 
Item Type: Doctoral Dissertations and Master's Theses
Refereed: Yes
Status: Unpublished
Abstract: La lemmatisation d’un texte consiste à réduire chaque mot contenu dans celui-ci à sa forme de base. Cette opération revient à grouper tous les verbes conjugués sous leur forme infinitive, tous les adjectifs sous leur forme masculin singulier, et tous les noms sous leur forme au singulier. C’est d’ailleurs cette forme de base, appelée « lemme », qu’on retrouve dans les entrées de dictionnaires et non les formes dites fléchies. La lemmatisation d’un texte s’effectue dans plusieurs contextes tels que par exemple la recherche de documents par mot-clé, l’analyse du style d’un auteur ou la quantification de la richesse lexicale d’un texte écrit ou oral, ou comme première étape visant à faciliter la traduction automatique de documents. La lemmatisation d’un mot en particulier peut dans la plupart des cas s’effectuer en traitant ce mot seul sans tenir compte du contexte où il est utilisé ou des mots qui l’entourent. Cependant, une lemmatisation appropriée exige de pouvoir distinguer les homographes, c’est-à-dire des mots dont la graphie est la même mais dont le sens et ultimement le lemme et possiblement la classe grammaticale diffèrent. Les homographes ne peuvent être lemmatisés de façon appropriée sans tenir compte du contexte de leur utilisation. Vu la complexité de la désambiguïsation des homographes, il est critique de pouvoir évaluer la performance des algorithmes de lemmatisation automatique disponibles. Mais une telle évaluation requiert la mise en place d’un étalon de référence avec lequel comparer les résultats de chaque algorithme. Mais hélas, comme il n’existe encore aucun algorithme de lemmatisation parfait, cet étalon ne peut se bâtir que par une analyse manuelle d’un texte, une tâche laborieuse. Afin de pallier ce besoin de lemmatisation manuelle, le projet actuel a permis de générer des textes aléatoires en français automatiquement lemmatisés dont la précision en termes de lemmatisation est, par défaut, parfaite. Ces textes générés par ordinateur ne sont donc pas lemmatisés après coup, mais plutôt au moment de leur construction. Une telle génération de textes aléatoires automatiquement lemmatisés a requis la mise en place de banques de données de lemmes ainsi que l’emploi de règles précises pour générer les formes fléchies de ces lemmes. Une approche innovante basée sur l’utilisation d’un corpus de référence a été adoptée pour générer ces banques de mots. L’apprentissage machine appliqué au traitement syntaxique des homographes a été introduit pour assurer un meilleur accord entre le lexique du corpus de référence et celui utilisé pour les phrases aléatoires. L’outil développé dans le cadre de cette recherche a donc permis de créer des phrases lemmatisées dont la structure correspond aux normes de la langue française. En revanche, il n’a pas été possible de générer des textes porteurs de sens, car un tel objectif aurait été trop ambitieux. Une fois ces textes générés, on a procédé à l’évaluation d’outils de lemmatisation sur la base de ces textes ainsi que certains autres, afin d’en déterminer la fiabilité.
Depositor: Breault, Claude
Owner / Manager: Claude Breault
Deposited: 23 Aug 2024 12:55
Last Modified: 28 Aug 2024 17:42

Actions (login required)

RÉVISER RÉVISER