Axe 5 : Structuration et exploitation de corpus (SEC)

Coordonnateurs

Mohamed Morchid (LIA, Informatique) et Graham Ranger  (ICTT, Linguistique)

 

Mots-clé

Territorialité, urbanité, identité, pratiques spatiales, smart city, réseaux sociaux, patrimoine, littérature, arts, esthétique

 

Objectifs de l’axe 5

L’objectif premier de l’axe 5 SEC est de penser des modèles et méthodologies innovants de structuration et d’exploitation de l’information. Ces méthodologies seront fondées sur des paradigmes théoriques de modélisation et d’extraction de descripteurs de haut-niveaux pour le volet “structuration”, ainsi que sur des procédés et processus de recherche d’information (RI) pour la partie “extraction” et valorisation des contenus. Ces nouvelles méthodologies seront évaluées lors d’expérimentations de traitement de l’information portant sur des corpus de données interdisciplinaires ainsi que sur des tâches dédiées..
Les chercheurs d’Agorantic travaillent sur des données dont les quantités et les structures internes sont très variables et spécifiques aux disciplines dont elles sont issues. L’axe 5 se propose alors de travailler sur l’accompagnement des membres d’Agorantic dans la préparation de données en vue de leur interrogation, leur modélisation et leur exploitation, via une interface mutualisée et mutualisable en ligne.
L’axe SEC mettra également en place des structures et des procédures qui permettront de promouvoir et de faciliter le travail interdisciplinaire au sein d’Agorantic, et aura comme objectif de promouvoir les inter-échanges entre les différents chercheurs de la structure en organisant des rencontres (séminaires, workshops, etc.) autour de cette gestion commune de l’information.

 

Objets d’étude

Les modèles et méthodologies seront étroitement liés au domaine de l’apprentissage automatique. Parmi celles-ci, les espace thématiques permettent d’extraire des descripteurs abstraits de haut-niveau caractéristiques du contenu du document (thèmes, relation latentes entre les mots, mots-clés, etc.) comme indiqué dans la figure ci-dessous.
L’axe SEC exploitera également pleinement le potentiel très prometteur des représentations et systèmes fondés sur les réseaux de neurones profonds dans un premier temps, puis proposera des modèles théoriques et méthodologies innovants adaptés aux problématiques liées à la SFR Agorantic portées par le vecteur de la pluridisciplinarité. Parmi ces méthodes fondées sur les réseaux de neurones, les réseaux de neurones récurrents (RNN) permettent l’extraction de descripteurs robustes considérant la structure temporelle du flux d’information. Les chercheurs du LIA travaillent sur ces problématiques de structuration de l’information pour le traitement automatique du langage. Ces algorithmes permettent de traiter aussi bien de grands corpus de données (BigData) via des réseaux de neurones parcimonieux [5] que des données multidimensionnelles (texte+parole, texte web+texte littéraire, etc.) .

 

Projets liés à cet axe

2018     2017     2016     2015     2014     2013     2012