L’archive mise en réseau⎜La visualisation de données en sciences humaines est un moyen, pas une fin !

CONFERENCE - Cet article est la transcription d'une partie d'une conférence donnée dans le cadre du colloque des "Humanités délivrées" organisée par le LADHUL (Unil) et le DHLab (EPFL) le 1er octobre 2013 à Lausanne.

CONFERENCE – Cet article est la transcription d’une partie d’une conférence donnée dans le cadre du colloque des “Humanités délivrées” organisé par le LADHUL (Unil) et le DHLab (EPFL) le 1er octobre 2013 à Lausanne et qui a rassemblé une cinquantaine de chercheurs aux parcours multiples. (photo Jörg Röder)

La visualisation de données en sciences humaines est une pratique qui divise fréquemment les audiences lors de conférences : entre spectateurs fascinés par l’aspect visuel des éléments de présentation du speaker sans regard critique et scientifiques fièrement conservateurs aux yeux desquels le moindre effort visuel est une prostitution de la science qui n’a pas besoin de médium. Cette incompréhension mutuelle doit être surmontée pour permettre aux sciences humaines de profiter des très nombreux avantages qu’offre la visualisation.

Un processus exploratoire

Il est ici question de traiter d’un moyen de quitter la linéarité du livre, de l’index, du répertoire d’archives, d’une façon de “dé-livrer” le savoir non pas seulement pour créer de nouveaux savoirs mais pour offrir à celui-ci une organisation (en réseau) qui permette une mobilisation plus efficace des connaissance. Il s’agit par là d’établir les conditions qui permettront in fine la création de nouveaux savoirs.

GrapheArchiveCet essai se veut une ouverture sur une infrastructure rendue possible par l’avénement du numérique pour traiter de grands corpus. On est ici dans le domaine de l’exploratoire, les spécialistes transdisciplinaires n’étant pas nombreux. Mais plutôt que d’attendre que l’avenir nous dise si nos disciplines doivent s’hybrider (ou si elles doivent sous-traiter ces aspects techniques à des professionnels externes), je prêche pour que plus d’historiens se saisissent de ces outils !

Etude de cas : les archives de la coopération intellectuelle de la Société des Nations

Le Palais des Nations, à Genève, ancien siège de la SDN où sont déposées les archives de cette dernière.

Le Palais des Nations, à Genève, ancien siège de la SDN où sont déposées les archives de cette dernière.

Alors que le monde, et l’Europe en particulier, se remet des séquelles du premier conflit mondial, la très jeune Société des Nations, établie à Genève, met sur pied une commission chargée de chapeauter les efforts de reconstruction des réseaux d’échanges scientifiques et culturels. Cette Commission Internationale de Coopération Intellectuelle1, composée d’éminents chercheurs animés par la volonté de se poser en rassembleurs dans une Europe scientifique très marquée par cinq années d’absence de relations, entreprend de nombreux projets d’enquêtes, rassemblements scientiques, soutiens à des institutions, publications, etc…

L’intérêt de la présente recherche est de tenter de comprendre dans quel paysage global cette initiative de la SDN s’inscrit et comment elle entre en dialogue avec des initiatives plus locales et périphériques. Méthodologiquement, il s’agit d’opter pour une démarche archivistique qui tire parti de la très grande masse d’informations contenue dans les fonds internationaux de la SDN pour tenter de comprendre le paysage global et offrir au chercheur la possibilité de plonger ensuite à un niveau local en connaissance de cause.

La base de données relationnelle, infrastructure fondamentale

Base de donnée relationnelle : une liste de documents reliés à une liste de fiches biographiques

Base de donnée relationnelle : une liste de documents reliés à une liste de fiches biographiques

Dans le vif du sujet : il s’agit de lister un à un tous les documents contenus dans les sections du fonds SDN qui traitent de la CICI, avec leurs méta-données standardisées. Mon collègue Panayotis Papaevangelou participe également à ce dépouillement systématique. Ici, un exemple de 11 documents, volontairement sélectionnés sur une période large (1921-1932).

En parallèle, on établit un index des acteurs des documents en question. Il peut s’agir des auteurs des documents ou de leurs destinataires (souvent multiples). Ne sont pas pris en compte les personnes citées dans les documents eux-mêmes mais qui n’y agissent pas (il arrive souvent que soient transmises des listes de personnes, qui sont éminemment utiles mais dans un autre contexte).

La base de données, objet interrogeable.

La base de données, objet interrogeable.

Dans notre exemple, sept membres de la CICI : Albert Einstein (Nobel de physique 1921), Henri Bergson (premier président CICI, Nobel de littérature 1927), Marie Curie (Nobel de physique 1903 et Nobel de chimie 1911), Gonzague de Reynold (historien et écrivain, secrétaire puis vice-président CICI), Jules Destrée (Ministre belge des Sciences et Arts), Hendrik Antoon Lorentz (Nobel de physique 1902, par la suite président CICI) et Alfredo Rocco (Ministre italien de la justice).

Informations croisées

Informations croisées

De facto, la base de données relationnelle est déjà un réseau. On imagine toutefois volontiers qu’on s’y perd rapidement si on affiche sous cette forme les milliers d’entrées d’une telle archive et qu’une vision globale y est impossible. Raison pour laquelle on a recours aux artefacts de l’analyse de réseau et de la visualisation. Ceux-ci vont se révéler plus que des artefacts puisque même si le réseau en tant que tel n’a pas forcément besoin d’être visualisé pour être étudié, c’est un objet mathématique dont les propriétés sont très riches.

L’archive mise en réseau

Le réseau de documents et de personnes

Le réseau de documents et de personnes

En reprenant strictement les données décrites par l’exemple ci-dessus, on obtient la visualisation ci-contre, spatialisée de manière à conserver les connexions entre les personnes et les documents dans lesquels elles apparaissent.

Projection : les trois personnes présentes dans le document 28289 sont désormais liées entre elle (suppression de l'entité "document" et modification de la qualité des arêtes)

Projection

On procède ensuite à une projection, qui consiste à résumer les connexions à une source commune par une connexion simple entre personnes, permettant le passage d’un graphe à deux types d’entités à un graphe plus simple. Dans l’exemple ci-contre, les trois personnes présentes dans le document 28289 sont désormais liées entre elle (suppression de l’entité “document” et modification de la qualité des arêtes).

Résultat après projection

Résultat après projection

Lorsque deux personnes sont plus d’une fois présentes simultanément dans un document, on fait varier l’épaisseur de l’arête proportionnellement.

Visualiser la globalité, perspectives

Graphe du fonds CICI

Graphe du fonds CICI

Il s’agit désormais d’appliquer le même procédé à l’entier de la base de données de documents de la SDN (état du dépouillement au 30 septembre), pour obtenir un aperçu de l’étendu des co-occurences d’acteurs dans les documents. Le graphe ci-contre visualise 802 personnes, reliées par 6579 arêtes (qui représentent 10363 relations simples, puisqu’une arête peut être plus “épaisse”)2.

Pour une meilleure compréhension de la composition de cette galaxie difficilement lisible au premier abord, vous trouvez ci-dessous un zoom sur une portion du réseau :

Zoom

Le graphe rend également très visuelle la mise en exergue du réseau de contacts d’une personne et permet des recoupements tout à fait intéressants. Comparons ici les réseaux de Paul Otlet et Henri La Fontaine.

Le belge Paul Otlet, père de la classification décimale universelle, nourrit le grand projet de bibliographie mondiale avec Henri La Fontaine. Ce visionnaire pacifiste a le projet de mettre sur pieds sa « Cité Mondiale », centre de connaissances pour la Paix. Il a exactement le profil de l’individu entreprenant qui prend contact avec la SDN pour réaliser ses projets en périphéries de l’activité de la SDN. Il est donc tout à fait intéressant de tenter de comprendre quels étaient ses contacts à l’intérieur de l’institution.

Otlet (blanc) et ses contacts (vert)

Otlet (blanc) et ses contacts (vert)

 

La Fontaine (blanc) et ses contacts (orange)

La Fontaine (blanc) et ses contacts (orange)

 

Contacts d'Otlet (vert), contacts de La Fontaine (orange) et contacts communs (jaune)

Contacts d’Otlet (vert), contacts de La Fontaine (orange) et contacts communs (jaune)

Henri La Fontaine, homme politique belge et prix Nobel de la paix 1913 participe aux efforts de Otlet en matière de bibliographie. En témoigne son apparition conjointe avec un grand nombre de personnes dans les archives de la SDN, son réseau à l’intérieur de l’institution est plus étendu que celui de son collègue Otlet.

Graphe n'affichant que les relations supérieures ou égales à 2

Graphe n’affichant que les relations supérieures ou égales à 2

Pour éclaircir le graphe et mener une analyse plus concentrée sur le noyau d’acteurs-clé du réseau que nous propose le fonds de la CICI, il est souhaitable de procéder à un “nettoyage” des données en supprimant toutes les relations uniques. Cette méthode, qui part du principe que sur une telle quantité de données les relations uniques sont négligeables3, est un moyen efficace de rendre le réseau plus digeste.

Le graphe ci-contre visualise 204 personnes reliées entre elles par 1063 arêtes (qui représentent 4859 relations simples).

Créer de l’interactivité

Alors que la base de données sert à la collecte des informations et le graphe à leur exploitation, on peut également imaginer un outil complémentaire, qui s’ajouterait à une éventuelle base de données consultable en ligne : un graphe interactif.

Graphe de réseau interactif en ligne

Graphe de réseau interactif en ligne

D’un intérêt évident pour des applications pédagogiques, le graphe interactif en ligne peut être une bon moyen d’explorer le réseau en s’affranchissant des contraintes des outils de visualisation (on utilise dès lors un produit fini et pas une interface d’application de dessin/calcul de réseau).

Cliquez ici pour accéder à la version interactive

Cette visualisation est rendue possible par le plugin Sigma.js de l’OII (Oxford Internet Institute) et du Jisc (Joint Information Systems Committee)4.

Conclusion : le réseau est un moyen, pas une fin !

Trop souvent présenté comme l’aboutissement d’une recherche, la visualisation “d’illustration” décrédibilise le véritable intérêt de la visualisation “de recherche” qui permet au chercheur d’entamer de nouvelles réflexions sur la nature de son objet d’étude. En résumé :

  • Visualisation

GrapheArchiveDans chaque recherche, il faut soupeser les forces et faiblesses de la visualisation : entre avantage de la vision globale avec ses jeux d’échelle et risque de ne s’en tenir qu’au culte de la perspective innovante sans tirer profit des nouvelles possibilités.

  • Aspects mathématiques

GrapheArchiveLe réseau n’est pas qu’un moyen visuel de mettre en valeur une information, c’est d’abord et surtout un objet mathématique5 que les sciences humaines et sociales doivent apprivoiser. Il ne s’agit pas de créer une génération de chercheurs parfaitement hybrides mais plutôt de les rendre conscients des potentialités de tels outils pour qu’ils sachent en tenir compte.

  • Questionnement épistémologique

GrapheArchiveCette perspective exploratoire et cette période d’apprentissage de l’historien face à ces nouvelles possibilités archivistiques ne sont-elles pas des occasions de questionner nos pratiques traditionnelle ? La possibilité, soudain ouverte par le numérique, de se donner les moyens d’une vision globale d’un fonds d’archive ne doit-elle pas modifier le comportement de l’historien qui se concentre si souvent sur la pointe d’un iceberg dont il n’a pas idée de la profondeur ?

Vos commentaires, critiques et suggestions d’autres lectures sur la visualisation scientifique sont les bienvenus ci-dessous. Retrouvez également ces articles qui témoignent d’états antérieurs de cette démarche : graphe 1graphe 2.

  1. Les archives de cette commission ont déjà fait l’objet de publications sur ce blog, en particulier trois galeries d’images de documents remarquables découverts au fil des recherches: galerie 1galerie 2galerie 3
  2. Les graphes présentés dans cet article ont été réalisé à l’aide du logiciel open source Gephi.
  3. Il est évident que cette méthode a un intérêt si on se focalise sur les aspects internes de ce réseau. Si on s’intéresse, comme dans le cas Otlet-La Fontaine, à l’irruption d’éléments externes, les acteurs marginaux prennent beaucoup d’importance.
  4. S. Hale, J.R. Melville, K. Kono, M. Graham, M. Bulger et H. Margetts
  5. Dans cet article il n’a pas été fait mention des metrics propres à l’analyse de réseaux telles qu’indices de centralité, modularité, etc. (dont j’ai évoqué l’intérêt à Berne lors d’un workshop “Gephi”) La raison est que, comme le dépouillement des fonds de la CICI n’est pas encore complet, il n’a pas semblé intéressant d’en tirer des informations et conclusions intermédiaires.