[Projets 2026] NAWA – Juan-Manuel Torres Moreno (LIA)
Titre : NAWA – Expansion de corpus textuels en nahuati et leur modelisation via Grammaires non contextuelles et duplication de données pour l’apprentissage des LLM
Équipe :
- Juan-Manuel TORRES MORENO (LIA) – Porteur
- Rémy KESSLER (LIA) – Porteur
- Graham RANGER (ICTT)
- Martha Lorena AVENDANO GARRIDO (Université de Veracruz)
- Miguel FIGUEROA-SAAVEDRA RUIZ (Université de Veracruz)
Résumé : Nous cherchons à développer des algorithmes pour l’expansion des corpus existants en nahuatl. En effet, les documents disponibles dans cette pi-langue (peu dotée de ressources), sont rares et la diversité linguistique est très grande. Également, il y a plusieurs graphies qui compliquent la tâche de collecte des données. Cependant, le projet NAHU² a permis de construire un système orthographique unifiée. Les graphies sont diverses car il y a au moins 4 régions (Centrale, Nord, Pacifique, Golfe du Mexique) où le nahuatl a trop évolué (les vocabulaires différent et leurs caractéristiques grammaticales sont distinctes). La langue est complexe au niveau des structures grammaticales, et les ressources informatisées sont pratiquement inexistantes. Nous voulons construire un système d’expansion artificielle des corpus, en utilisant des Grammaires Libres de Contexte (CFG) et la duplication contrôlée des données. Nous nous appuierons sur des techniques linguistques, TAL et d’IA profonde à ces propos.
Voir aussi : Projet Nahu²
Instrument : Projet blanc
Identifiant : 26-BLC2-1


