WEDODATA

Nous vous aidons à raconter vos données.

Gilets jaunes :
dans les coulisses d’une page Wikipédia
pas commes les autres

Le récit d’une enquête data menée grâce aux archives d’une page Wikipédia.

En France, 32 millions de personnes consultent Wikipédia chaque mois. C’est autant que l’audience mensuelle d’Amazon tandis seuls les géants américains Google (52 millions) et Facebook (48 millions) lui passent devant.

Cette omniprésence fait de l’encyclopédie en ligne un objet de débats sans fin sur la qualité et la fiabilité de son contenu, celui-ci étant le résultat d’une écriture collaborative unique au monde. En 2018, en France, plus de 210 000 personnes y ont contribué (au moins une fois dans l’année). Et près d’un million de personnes depuis la création de Wikipédia France en 2001. En découle une encyclopédie de plus de 8,6 millions d’articles à même de fournir une réponse à chacune de nos plus épineuses questions.

Ce contenu ne naît pas sans douleur. Les échanges sont denses et peuvent être vifs au sein de la communauté. En outre, la visibilité de Wikipédia en fait un territoire assailli par de nombreux acteurs mal intentionnés, désireux de « jouer » sur cette plateforme d’influence. Lorsque les intérêts défendus par des communicants ou des militants politiques se heurtent au principe de neutralité de l’encyclopédie, naissent ce que les initiés appellent des « guerres d’édition ».

Retrouvez toutes les statistiques générales sur les différentes plateformes Wikipédia sur Wikimedia Statistics.

Or ces jeux d’influence 2.0 peuvent être suivis en direct puisque Wikipédia, fidèle à sa philosophie de la transparence et d’ouverture, ne cache rien de son fonctionnement quotidien et archive automatiquement l’ensemble des modifications de son contenu, ainsi que l’intégralité des échanges entre les contributeurs impliqués. Pour les chercheurs ou les journalistes spécialisés, ces espaces de discussion, ou forums, représentent un terrain d’enquête d’une richesse inégalée.

Grâce aux archives de Wikipédia, on peut tout simplement rendre compte de la manière dont des humains débattent, interagissent, collaborent en ligne. Cela n’a rien d’anodin à l’ère des fausses nouvelles, des trolls et des algorithmes insondables : alors que leurs propagations mettent à mal la crédibilité du Web, le fait de pouvoir fact-checker les coulisses d’un site mondial d’intérêt général est remarquable.

  • Extrait d'archives sur Wikipédia

Pour tester les limites de ce système collaboratif, nous avons décidé de nous plonger dans les données d’une page Wikipédia hors norme : celle des Gilets Jaunes. Née avec le mouvement en novembre 2018, cette page (qui a vu passer près de 2 million de visiteurs et a été traduite dans 58 langues) cumule tous les pièges craints par les Wikipédien·ne·s.

C’est d’abord une page très visitée, éditée par un nombre record d’individus de tous horizons (ce qui ne facilite guère les échanges) ; c’est ensuite une page politique, où toutes les modifications sont susceptibles de menacer la neutralité, de prendre parti ; et enfin, c’est une page qui porte sur une actualité brûlante et qui, loin de s’éteindre, a rebondi chaque semaine rendant malaisée la prise de recul recommandée pour rédiger des articles encyclopédiques.

Pour la Revue dessinée, nous avons travaillé de concert avec l’illustrateur Vincent Sorel pour vous raconter comment Wikipédia, ses règles de fonctionnement, de collaboration, ses administrateurs, ses outils ont traversé ce contexte explosif. Aussi, nous vous invitons à vous ruer en kiosque pour pouvoir poser vos mirettes sur le très beau récit graphique de Vincent. Dans cet article, nous ne reviendrons pas en profondeur sur le coeur de notre enquête dessinée, mais vous proposons de raconter comment les données de Wikipédia nous ont permis de nourrir cette histoire.

Les indicateurs-clés de l’enquête

 

Le mouvement des Gilets jaunes a ceci de particulier qu’il s’est inscrit sur un temps long ponctué de multiples rebondissements. Notre première volonté a donc été de trouver un indicateur qui permette de percevoir cette intensité sur la page Wikipédia. Or, l’encéphalogramme d’une page web, c’est son audience. Depuis 2015, il est possible de visualiser et télécharger en CSV les audiences quotidiennes de chaque page Wikipédia sur l’outil Toolforge.

Grâce à lui, nous avons pu reconstituer le nombre de pages vues de la page des Gilets jaunes depuis sa création le 14 novembre 2018* et réaliser que chaque pic d’audience, flux et reflux, correspondaient aux manifestations hebdomadaires : comme on peut le constater dans le graphique ci-dessous (qui compare le nombre quotidien de pages vues et le nombre de manifestants recensés chaque semaine), la page vit clairement au rythme des mobilisations.

* Les données s'étalent de novembre 2018 à septembre 2019, date du bouclage de la Revue dessinée.

  • Audience de la page Gilets jaunes sur Wikipédia Audience de la page Gilets jaunes sur Wikipédia

Ceci témoigne de l’intérêt qu’ont porté les internautes francophones à ce sujet, mais pour tenir un récit, il nous fallait une donnée mesurant l’évolution du contenu de la page. Dans ce cas, pas d’outil tout fait pour prémâcher le travail, mais une piste intéressante : n’importe quel internaute peut accéder librement à l’historique d’une page et ainsi consulter l’ensemble des modifications apportées.

  • Extrait de l'historique de la page Gilets jaunes sur Wikipédia

Dans cet historique, sous forme de liste à puces, les métadonnées de chaque édition comportent entre parenthèses un nombre d’octets. Il s’agit du nombre total d’informations que contient la page suite à une modification. Grâce à lui, nous pouvons suivre l’évolution de la taille de la page et ainsi mesurer la progression de cette entreprise encyclopédique.

Mais nous pouvons aussi y dénombrer les contributeurs, notamment les pseudos récurrents, dont on soupçonne qu’ils tiendront les rôles principaux de cette histoire. Ces variations d’octets seront également une porte d’entrée vers une analyse plus qualitative de la page des Gilets jaunes car chaque sursaut ou pic marque un moment-clé de son écriture collective.

  • Extrait de la page de discussion de la page Gilets jaunes sur Wikipédia

Mais pour documenter nos découvertes, il faut plonger dans un espace où l’analyse des données a ses limites : la page de discussion. Aussi appelée « PDD » par les initiés, cette page est un forum qui sert aux contributeurs à organiser leur travail, planifier les tâches et, si nécessaire, délibérer sur un contenu qui fait débat. De fait, elle nous éclaire sur toutes les controverses entre contributeurs. Chaque échange étant horodaté, on déroule ce qui ressemble parfois à un sac de noeuds pour établir les liens entre les discussions, leurs auteurs et leur impact sur le nombre d’octets et d’éditions.

  • Evolution de la taille de la page Gilets jaunes sur Wikipédia Evolution de la taille de la page Gilets jaunes sur Wikipédia

Les acteurs majeurs de la page identifiés grâce à l’analyse des données

 

Grâce à des techniques simples de scrapping (dans notre cas, un court script Python), il a été possible d’explorer l’historique des modifications, puis d’extraire et de structurer ces données. Avec en mains l’évolution du nombre de vues, d’octets de la page, de contributeurs, d’éditions et même d’échanges entre contributeurs, nous pouvons alors reconstituer la chronologie des événements et saisir le travail des Wikipédien·ne·s jour après jour, minute après minute. Il ne nous manquait alors plus qu’une chose pour assembler ce puzzle : des témoignages.

En étudiant le nombre de contributions de chaque Wikipédien·ne, le nombre d’octets qu’ils/elles ont ajouté à la page, la date à laquelle ils/elles étaient les plus actif·ve·s, leur nombre d’interventions sur la page de discussion et le contenu des discussions elles-mêmes, nous avons découvert les acteurs majeurs de la construction de la page et ainsi pu cibler nos interviews.

Notre choix s’est porté sur 5 Wikipédien·ne·s, de rôles et profils divers : Jean-Paul Corlin (alias JPC), le créateur de la page ; Roland45, l’un des premiers contributeurs ; Cheep, le contributeur le plus actif ; Tyseria, une contributrice qui a tenté de réhabiliter la place des femmes dans le mouvement ; et Gratus, élu par la communauté pour tenir le rôle clé d'« administrateur ».

  • Contributeurs les plus actifs sur la page Gilets jaunes Contributeurs les plus actifs sur la page Gilets jaunes

Bien que protégés par un certain anonymat, les Wikipédien·ne·s ne se confient pas si facilement. Comme n’importe quel interviewé, ils ou elles peuvent avoir peur que leur parole soit dévoyée et froisse un autre membre de la communauté. Heureusement, un précédent travail que nous avions réalisé pour Les Jours et qui consistait notamment en une longue interview de Celette, une contributrice de Wikipédia, les a rassuré·e·s sur nos intentions.

« Les députés sont conscients que Wikipédia est le premier résultat qui s’affiche en haut de Google quand on tape leurs noms » - Interview de la contributrice Celette, Février 2019. Interview de Celette, contributrice sur Wikipédia

« Wikipédia : l’armée de l’ombre qui garde les pages des députés » - Enquête data pour Les Jours, Février 2019. L'armée des ombres qui garde les pages des députés

En échangeant avec eux (par mail ou par téléphone), nous avons mesuré la place que prends Wikipédia dans la vie de ces femmes et ces hommes. Tous affirment passer plusieurs heures par jour sur la plateforme, sans être certains du montant exact. Mais d’après leurs données d’activité, Cheep aurait travaillé près de 4h par jour sur l’encyclopédie depuis novembre 2018, JPC 3h45 et Tyseria 3h25. Roland45 et Gratus oscilleraient quant à eux entre 1h30 et 50 minutes par jour, ce qui représente déjà un volume considérable.

Les rôles divers que tiennent ces contributeurs influent sur d’autres statistiques. Cheep consacre, par exemple, la majeure partie de son temps à relire, corriger et synthétiser les contributions des autres participants. En résulte un nombre d’éditions vertigineux et un total d’octets de contenu ajouté… négatif, car dans son effort de concision, Cheep enlève plus de caractères qu’il n’en ajoute.

A l’inverse, la majorité des contributions de JPC et Tyseria est destinée à augmenter l’article. En résulte un nombre limité d’éditions, mais un total d’octets de contenu ajouté très important. Roland45 se situe, lui, dans une position intermédiaire avec un nombre d’octets ajoutés très proche de son nombre d’octets supprimés tandis que Gratus se cantonne à son rôle d’administrateur, réglant des conflits en page de discussion mais intervenant peu sur la page.

  • Heures de contribution sur la page Gilets jaunes Heures de contribution sur la page Gilets jaunes

Le graphique ci-dessus permet de mesurer le niveau d’activité de la communauté sur la page selon l’heure et le jour de la semaine. On constate que le samedi (marqué par les différentes manifestations des Gilets jaunes) est un jour dense, avec un grand nombre de contributions concentré entre 17h et 1h du matin. Quel que soit le jour, la communauté ne s’accorde véritablement de répit sur cette page qu’entre 3h et 10h du matin.

Quoi, où, quand, comment, pourquoi… Les données et archives de Wikipédia répondent à l’ensemble de ces questions de manière quasi-exhaustive, ne laissant que de rares blancs qui ont peu de chance de survivre aux interviews données par les contributeurs.

On en viendrait à rêver que tous les sites majeurs adoptent la politique de transparence que s’impose Wikipédia. À défaut de tout cela, les archives de l’encyclopédie en ligne nous offrent au moins une formidable vue sur les tractations qui permettent à notre mémoire collective de prendre forme et sur ce qu’elle retient de l’histoire.

  • Page d'ouverture de la Revue Dessinée
  • Page d'ouverture de la Revue Dessinée





Retrouvez le dernier numéro de la Revue dessinée ici ou chez tous les bons libraires.