Techniques d’amplification des données textuelles pour l'apprentissage profond [r-libre/1894]

Coulombe, Claude (2020). Techniques d’amplification des données textuelles pour l'apprentissage profond (thèse de doctorat en Informatique cognitive, Université TÉLUQ, Québec, Canada). Direction : Paquette, Gilbert; Mezghani, Neila et Gagnon, Michel.

Fichier(s) associé(s) à ce document :

PDF - Thèse_Coulombe.pdf
Licence : Creative Commons CC BY-SA.

Télécharger

Catégorie de document :	Thèses et mémoires
Évaluation par un comité de lecture :	Oui
Étape de publication :	Non publié
Résumé :	Cette thèse a pour objectif d’étudier la faisabilité de différentes techniques d’amplification des données textuelles (ADT) basées sur le traitement de la langue naturelle (TLN) et l’apprentissage automatique afin de pallier à l ’insuffisance de données pour l ’entraînement de modèles en apprentissage profond. Pour y arriver, nous montrerons une différence de performance entre les mêmes modèles entraînés avec et sans données amplifiées. Sur le plan pratique, il est fréquent de se retrouver avec des quantités insuffisantes de données pour entraîner de gros modèles statistiques. Ce « mur des données massives » représente un défi à la fois pour les communautés linguistiques minoritaires sur la Toile, les organisations, les laboratoires et les entreprises qui rivalisent avec les géants du GAFAM. Alors que le gros de l’effort de recherche en amplification textuelle se concentre sur des solutions d’apprentissage de bout-en-bout, le présent travail s’oriente plutôt vers l ’emploi de techniques de prétraitement des données pratiques, robustes, capables de monter en charge et simples à mettre en œuvre. Ces techniques sont inspirées par les techniques d’amplification utilisées avec succès en vision artificielle. L’idée est de créer de nouvelles données à partir des données existantes. Par abus de langage on parle d’augmentation des données, mais il s’agit plutôt d’une amplification, puisque l’on crée de nouvelles données en préservant le sens qui demeure invariant. On parle aussi de données synthétiques, de données générées ou de données artificielles. Bien que les techniques étudiées s’appliquent à tout genre de textes, cette thèse se concentre sur l’amplification de phrases. Nous verrons que le concept de « transformation sémantiquement invariante » est au cœur du processus d’amplification des données. Plusieurs techniques d’ADT ont été expérimentées. Certaines furent testées pour fins de comparaison comme l’injection de bruit ou l’emploi d’expressions régulières. D’autres ont été améliorées comme la substitution lexicale. D’autres techniques plus innovatrices font appel à des services en ligne robustes et capables de monter en charge comme la rétrotraduction et la génération de paraphrases par la transformation d’arbres syntaxiques. Les techniques d’amplification textuelle étudiées ont permis d’accroître l’exactitude des résultats dans une fourchette 0.5 à 8.8%, sur une tâche normalisée de prédiction de la polarité de textes de critiques de film de la base de données IMDB. Différentes architectures de réseaux profonds de neurones ont été testées: le perceptron multicouche (PMC), le réseau de neurones convolutif 1D (RNC 1D), le réseau récurrent à longue mémoire court terme (LMCT) et le réseau récurrent LMCT bidirectionnel (biLMCT). Les techniques de transformation de surface (bruit lexical, fautes d’orthographe, expressions régulières) s’avèrent les plus performantes compte tenu de leur rapidité et de leur faible besoin en calcul. La substitution lexicale avec des vecteur-mots AdaGram qui traitent la polysémie est meilleure que la substitution lexicale simple avec WordNet. La génération de paraphrases basée sur la rétrotraduction s’illustre particulièrement sur certains jeux de données et mériterait d’être approfondie. La principale limite de ce travail est que l’expérimentation ne réalise qu’une seule tâche, soit la prédiction de la polarité de textes. Aussi l’objectif se limitait à montrer la faisabilité des différentes techniques d’ADT. Par exemple, les expériences se sont limitées à un facteur d’amplification de cinq (5), soient cinq nouveaux textes par texte original ce qui ne représente, dans bien des cas, qu’une infime partie des combinaisons possibles. Malgré leur côté simple et pratique qui plaira aux praticiens, le principal inconvénient de certaines des techniques d’ADT explorées est la quantité de calculs requis. Notons aussi la dépendance envers les services de traduction et d’analyse syntaxique de fournisseurs privés. Nous proposons des alternatives pour mitiger cette dépendance.
Déposant:	Breault, Claude
Responsable :	Claude Breault
Dépôt :	22 janv. 2020 13:49
Dernière modification :	23 janv. 2020 14:50

Actions (connexion requise)

RÉVISER