Des outils de visualisation en sciences sociales

Compte-rendu

Andreas Perret, ancien “décorateur de statistiques” à l’OFS, chercheur au FORS et doctorant SSP à l’Université de Lausanne, mène des recherches sur la façon qu’ont les chercheurs en sciences sociales d’utiliser des outils de visualisation.

Au programme du séminaire de recherche en Digital HumanitiesDHLausanne” de ce 25 janvier, une présentation centrée sur les réflexions d’Andreas Perret, chercheur qui aime à se présenter comme ayant « un pied dans les arts graphiques et un pied dans les sciences sociales », en clair « un décorateur de statistique ». La suite nous montrera que cette définition est bien réductrice puisqu’il s’agit ici d’étudier les modalités d’expression des scientifiques (en se limitant ici à la sociologie) en matière de visualisation de données, tout sauf une simple « décoration » !

Esthétique et science, un désamour ?

D’emblée, on constate que dès que l’on met le doigt dans l’engrenage des aspects esthétiques, on se dirige vers des controverses, dans le milieu académique du moins. De fait, c’est une approche anthropologique qu’il faut adopter vis-à-vis des chercheurs pour comprendre leur manière de présenter leurs travaux. Produire un graphe est un moyen reconnu de transmettre un savoir, mais ce produit est très diversement reçu en fonction de son public-cible. Il faut donc s’intéresser aux rapports de pouvoir (thème cher aux sociologues) dans une dimension autoréflexive, à l’exemple des travaux de Bruno Latour.

Visualisation d'une analyse textuelle (Flesch–Kincaid) des "State of the Union addresses" (Guardian)

Visualisation d’une analyse textuelle (Flesch–Kincaid) des “State of the Union addresses” (Guardian). La visualisation apporte-t-elle un contenu ou n’est-elle que décoration ?

Il existe un décalage évident entre ce que les sociologues présentent à l’interne et ce qu’ils publient en revue : leur fascination pour la visualisation semble douchée par les conditions de publication. L’équation nice visualization = #DataPorn est ainsi très souvent vérifiée dans le milieu. Conséquence : un mouvement de fond qui va dans le sens du « je fais de l’Excel brut pour qu’on ne puisse pas m’accuser d’enjoliver mes résultats ». Cet état d’esprit qui consiste à mettre de côté l’aspect visuel des présentations/publications est d’ailleurs explicité par une observations inquiétante d’Andreas Perret : dans des séminaires, rares sont les chercheurs qui comprennent réellement les visualisations présentées par leurs pairs, quand bien même leurs remarques sont très nombreuses et pointues sur les aspects de fonds de la recherche elle-même, choix de données, méthodes, etc.

Les outils de visualisation

Les scientifiques n’ont pas attendu l’informatique pour visualiser leurs données, en témoigne l’exemple fameux et si (trop ?) souvent cité de Charles Joseph Minard (1869) qui montre la diminution progressive des effectifs de Napoléon pendant sa campagne de Russie (1812-1813):

Retraite de Russie (Charles-Joseph Minard)

Un tableau, c’est déjà une visualisation de données, une façon de les rendre plus intelligibles. Les outils utilisés par les chercheurs nous en disent long sur leur rapport à la visualisation, sur leur communauté d’utilisateurs et leurs liens avec le développement de l’outil. De plus, les logiciels sont parfois typés selon les écoles de recherche dont leurs concepteurs sont issus, leur utilisation conditionne donc parfois également la publication des visualisations (et donc des travaux) qui en tirent parti.

Andreas Perret distingue quatre outils (parmi ceux utilisés par les sociologues quantitatifs) :

  • SAS, utilisé principalement par les offices statistiques et des utilisateurs à but commercial.
  • SPSS/STATA, très courants dans les cursus académiques, en particulier dans les cours de statistiques. Entretiennent un rapport moins étroit entre utilisateurs et développeurs pour des raisons de propriété.
  • R, l’outil des « geeks » bricoleurs, très flexible et OpenSource.
  • Gap-Minder, outil mis en place par Hans Rosling hors académie et racheté par Google.

Il ne faut pas perdre de vue que les outils portent chacun un projet différent, qu’il n’est pas aisé de passer de l’un à l’autre, et qu’ils ouvrent chacun à des possibles variés en matière de publication. L’étude d’Andreas Perret passe par une typologie fine des logiciels et de ce qu’en font les sociologues, tout en s’intéressant à leurs effets sur la publication.

Publier des visualisations ?

C’est cet aspect, les difficultés liées à la publication de visualisation, particulièrement concernant pour les chercheurs, qui a animé la discussion du groupe de chercheurs Unil/EPFL à la suite de la présentation d’Andreas Perret. La question est d’autant plus d’actualité que de nombreuses expériences de publications alternatives se développent en ce moment au sein des digital humanities. On citera par exemple le « Read and Write Book 2 », édité en OpenEdition Press par Pierre Mounier et alii, disponible gratuitement sur internet (également disponible en version papier), qui compile des articles de blog et textes de conférences dans un produit hybride tout à fait intéressant. Il est relevé que ce type de processus éditorial numérique favorise une accélération de la diffusion de l’information scientifique, face au lent processus des revues traditionnelles.

Pour aller plus loin : Plateforme KAIROS; Projet Pegasus Data; Franco Moretti, Graph, Maps and Trees (2005); Cours MOOC de visualisation de Katy BörnerCompte-rendu de la séance par Cécile Armand (Lettres, Lyon).