Axe A : Données et corpus : constitution, exploitation et valorisation

L’interaction SHS / SFC nécessite souvent de travailler sur des ensembles de données ou des corpus, et à mettre en œuvre des traitements produisant eux-mêmes des données, ce qui justifie l’existence de cet axe.

Celui-ci aborde les méthodes et outils permettant de constituer et exploiter des jeux de données et corpus, mais aussi de les partager et de les valoriser. Il s’agit de couvrir les aspects techniques (collecte, nettoyage, organisation, analyse) ainsi que réglementaires (publication, RGPD, plan de gestion des données, protection).

Un autre point structurant cet axe est la nécessité d’une expertise SHS sur les données mobilisées ou produites par les méthodes issues des SFC. En amont, on s’intéresse à la qualité, au sens, à la fiabilité des jeux de données déjà disponibles ou constitués lors du travail de recherche. Outre les aspects métrologiques, ceci intègre l’élaboration et la critique des référentiels utilisés pour construire ces jeux de données, i.e. les catégories et objets servant de base à la représentation du réel. Ces choix de modélisation sont parfois effectués de façon arbitraire, ou déconnectée de l’usage fait des données, notamment dans le cas de réutilisation de jeux existants. En aval, on s’intéresse aux usages qui peuvent être faits de ces jeux de données, à la signification des données qui les constituent, à la portée des transformations qu’elles ont subies.