[Projets 2018] GoOW – Guillaume Marrel (LNBC)
Titre : GoOW – Gouvernance des corpus scientifiques d’étude du Web 2.0
Équipe :
- Guillaume MARREL (LBNC) – Porteur
- Martine LE FRIANT (LBNC)
- Bérengère GLEIZE (LBNC)
- Samuel PRISO (LBNC)
- Ouassim HAMZAOUI (LBNC)
- Éric SANJUAN (LIA)
- Pierre JOURLIN (LIA)
- Malek HAJJEM (LIA)
Résumé : Toutes les données qui constituent et que génèrent en continu, le Web 2.0 (Tillinac, 2006), sont caractérisées par une grande instabilité, à cause de la labilité de leurs cadres juridiques (Pellegrini & Canevet, 2012), mais aussi du caractère évolutif des techniques informatiques développées pour les saisir, ainsi que des opportunités qu’elles constituent en termes d’analyses sociologiques et socio-politiques (Venturini & al., 2014). C’est dans cet environnement instable que nombre d’institutions universitaires et de recherche scientifique construisent et exploitent de larges corpus de données issus des réseaux sociaux numériques (RSN) et d’autres supports comme les blogs. Autrement dit, un ensemble de matériaux qui contrevient intrinsèquement et de façon croissante, non seulement aux conditions spécifiques d’usage de ces médias aux contenus plus ou moins indexés, mais aussi à la jurisprudence et/ou aux textes juridiques nationaux et européens (Polidori, 2015 ; Foegle, 2017) qui instituent notamment le « droit à l’oubli numérique » (Blanchette & Johnson, 2002 ; Dechenaud & al. 2015). Aussi, est-il possible que des chercheurs des sciences informatiques et sociales soient demain confrontés à d’intempestives demandes provenant d’utilisateurs de RSN ; et dont l’objet serait l’effacement et le déréférencement de tels ou tels de ces messages « publics ». Plusieurs universités de renom international s’inquiètent déjà de ce que la conservation de ces « archives numériques » par un organisme tiers puisse déboucher sur des plaintes. À cette évolution de l’environnement des activités numériques, s’ajoute la montée en puissance des logiques de data lock-in qui consacrent une tendancielle hégémonie des détenteurs de données et qui démultiplient les enjeux juridiques, scientifiques et politiques de la gouvernance des jeux de données. Prenons-en pour exemple les récentes évolutions de la politique d’usage des données de Twitter, objet d’étude privilégié (Smyrnaios & Ratinaud, 2013) de la « puissance sociale » (Elias, 1990) des RSN dans cet espace public du Web (Cardon, 2010) : sur la dernière décennie, le “petit oiseau” a placé l’accès aux données hors de la portée des capacités d’investissement des acteurs publics de la recherche. Dès 2010 et 2012, et au terme de coûteuses transactions4, seules les structures à but lucratif comme Gnip, Datasift, Topsy, et NTT Data ont obtenu l’accès au firehose (le flux exhaustif de ses données brutes5) afin de produire des analyses poussées de datamining à finalités commerciales. Puis en 2014, Twitter a durci radicalement son modèle économique par le rachat de Gnip et la fin de tous les accords conclus précédemment. La firme a pris diverses mesures pour dissuader les pratiques libres d’archivage de tweets et assure de façon monopolistique la revente de ces data à des prix bien trop élevés pour les utilisateurs à finalités scientifiques et/ou non-directement commerciales. Parmi ces derniers, les institutions de la recherche publique se retrouvent de facto empêchées de procéder à une quelconque analyse scientifique des données de ces réseaux, de leur architecture, fonctionnement et usages.
Instrument : Projet blanc
Identifiant : 18-BLC-3


