[Big Data littéraire] Et si Google n’avait pas compris son propre outil de “Ngram” ?

L’outil de visualisation d’occurrences de Google, Google Ngram, a de quoi faire rêver les littéraires comme les curieux du net. La plateforme, qui permet de recenser la fréquence d’apparition de certains termes dans le corpus gigantesque de Google Books, est de plus en plus fréquemment utilisée dans des recherches académiques. À l’occasion, on dissertera du bien-fondé d’appuyer une étude sur un tel outil1, avec les problèmes que posent l’opacité de son fonctionnement ainsi que la nature des données sur lesquelles il travaille, mais il est ici question d’un constat technique plutôt alarmant : alors que de nombreux utilisateurs en tirent des conclusions erronées en ne faisant pas attention aux termes qu’ils entrent dans le champ de recherche (sensible à la casse, espaces, etc…), Google lui-même propose un exemple incohérent.

Comparer ce qui est comparable

Quand un ami, un collègue ou un conférencier2 s’amuse à comparer les occurrences de “Nixon” avec celles de “Jimmy Carter” et “obama”, on lui fait poliment remarquer que pour la comparaison soit cohérente, il faut comparer “Nixon” avec “Carter” et “Obama” (en enlevant les prénoms et ajoutant la majuscule, ou alors en ajoutant les prénoms de chacun…). Mais sur sa page d’accueil, Google Ngram croit nous surprendre avec la célébrité de Frankenstein, comparée aux citations d’Albert Einstein et de Sherlock Holmes :


Or, la comparaison est biaisée par le fait que Frankenstein n’est pas assorti de son prénom, Victor ! Muni de celui-ci, le résultat est très différent :

On me répondra à raison que, dans la culture populaire, Frankenstein est généralement cité sans son prénom, mais c’est aussi le cas d’Einstein (un peu moins de Holmes ?). Le graphe n’en est pas moins sans appel :

Bref…

Un exemple de comparaison tout azimut de patronymes de présidents des USA, le genre de graphique totalement aveuglant.

Un exemple de comparaison tout azimut de patronymes de présidents des USA, le genre de graphique totalement aveuglant.

Cet exemple trône sur la page d’accueil de Google Ngram depuis le lancement du service, il ne s’agit donc probablement pas d’une erreur, à moins que le géant de Mountain View n’ait délaissé son joujou depuis. Toujours est-il que cet exemple n’éduque pas l’utilisateur à un usage raisonné de l’outil … et ne facilite pas la tâche des “évangélistes” de la visualisation de données !

Finalement, ces graphes n’ont aucun sens parce que les termes sont susceptibles de référer à des réalités inattendues que seul un examen qualitatif des livres de Google Books pourra rendre intelligible (la fréquence de citations de “Holmes” comme patronyme d’autres personnes que le seul détective d’Arthur Conan Doyle, par exemple). Ah zut, j’avais promis en introduction de n’aborder que la question technique et pas l’interprétation ! :-)

  1. La littérature à ce sujet est déjà nombreuse, mais très inégale en matière de sens critique.
  2. Je prends le parti de ne pas citer ici les articles scientifiques et conférences qui contiennent ce genre d’erreurs, mais c’est tellement fréquent que cela en devient inquiétant.