2025

RADAR décortique les délibérations municipales grâce à l’IA

Médiacités

MédiaPolitiqueSociétéSolutions-outilsInfographieEnquêteDashboardBulles & PointsClassementsTreemaps & DonutsHistogrammes

Les rapports des conseils municipaux et métropolitains sont une mine d’informations pour les journaux locaux. Le projet Radar - imaginé par Médiacités et développé par WeDoData - utilise l’intelligence artificielle pour extraire des données structurées de milliers de compte-rendus de 4 grandes villes et métropoles françaises. Objectif : une base de données pour accélérer les investigations des journalistes.

Techno
—

Python
, openAI
, Mistral
, NocoDB
, Tableau

radar, L’analyse des délibérations À l’aide de l’ia

Le projet Radar a été mené main dans la main avec Médiacités, média en ligne indépendant, présent à Lille, Lyon, Nantes et Toulouse. Le défi : passer au crible les compte-rendus des conseils municipaux et métropolitains de ces 4 grandes villes. L’objectif ? Analyser l’action concrète des élu·e·s locaux·ales et la confronter à leurs promesses de campagnes. La mission de WeDoData ? Extraire les informations contenues dans des milliers de compte-rendus de délibérations afin de les rendre facilement explorables et analysables.

De la collecte manuelle et collective....

Ce projet avait été imaginé il y a plus de 5 ans, avant l’ère des IA. À cette époque, la principale barrière à l’analyse de ces compte-rendus était la récolte des données, présentes de manière non-structurée dans des milliers de documents PDF longs et complexes. Un traitement avait été initié - en mode crowdsourcing - par des journalistes et des lecteur·rice·s de confiance bénévoles. Malgré un fort engouement pour le projet, le travail titanesque nécessitant une grande implication de nombreux·ses acteur·rice·s a fini par avoir raison de ce beau projet… pour un temps.

... à un traitement via des outils d’intelligence artificielle

L’émergence des IA génératives - bien que posant de nombreuses questions éthiques et environnementales que nous questionnons à chaque nouveau projet chez WeDoData - rend possible des analyses automatisées basées sur des données très volumineuses et/ou non structurées. C’est pourquoi le projet Radar a revu le jour en 2025, propulsé par ces IA sur 2 étapes-clés : la transcription des compte-rendus et l’extraction d’informations.

Un traitement de données en 4 temps

Du compte-rendu PDF des conseils municipaux et métropolitains jusqu’à la donnée accessible et exploitable par des journalistes, un certain nombre d’étapes et de challenges techniques se sont présentés à notre équipe. Nous avons mis sur pied un processus en 4 temps principaux :

1/ Traiter les délibérations ou récupérer de la donnée “brute”

Les collectivités françaises, et notamment les communes et métropoles, sont tenues par une obligation légale de rendre publics les ordres du jour, ainsi que les compte-rendus de leurs conseils municipaux ou métroplitains. Cependant, il n’existe aucun format standard pour cette mise à disposition : ils restent souvent difficiles d’accès, sur des plateformes hétérogènes à la navigation complexe, sans oublier que la maquette de ces comptes-rendus est à l’initiative de chaque collectivité, donc hétéroclites...

Conséquence directe de cette forte hétérogénéité : la nécessité de mettre en place un scraping de ces documents. L’intégralité des compte-rendus des délibérations pour les 8 collectivités - plus de 23 000 documents (!), généralement des PDF scannés - a été “aspiré” sur chacune des plateformes des collectivités pour l’intégralité du mandat en cours, soit de fin juin 2020 jusqu’à aujourd’hui. Ces rapports ont ensuite été convertis en format markdown - un format facilement ingérable par les LLM - à l’aide de Mistral OCR, une IA d’extraction de texte à partir de documents et d'images.

2/ Extraire des données sous une forme structurée

Vient alors la phase cruciale : nous avons les données textuelles non structurées et nous souhaitons en extraire de l’information tangible, quantifiable, unifiée, en bref… structurée. Pour ce faire, nous avons utilisé une IA générative (GPT 4.1 dans notre cas). Mais, comme un des souci avec les LLMs réside dans leur grande verbosité, nous avons utilisé le mode “structured output” d’OpenAI pour le forcer à nous renvoyer des données sous forme de JSON avec une structure choisie.

Que souhaitons-nous obtenir ? Des montants de subventions ou d’investissement, des noms de quartiers ou de projets, les conseiller·ère·s présent·e·s ou absent·e·s... Autant d’informations hautement dépendantes du contexte local. Donc, pour obtenir une information pertinente, nous avons créé des listes d’entités nommées co-construites avec la rédaction de Médiacités et raffiné et testé des prompts pendant des jours.

3/ Valider la qualité par les premier·ère·s intéressé·e·s

Qui dit intelligence artificielle dit risques d’erreurs et d’hallucinations. Comment vérifier la qualité des données extraites et s’assurer que celles-ci conviennent aux exigences d’un média local d’investigation comme Médiacités ?

Pour cela, nous avons mis en place un processus de validation de la qualité de l’extraction, basé sur un extrait du corpus de délibérations, auprès des journalistes de la rédaction. Pour faciliter leur vérification, nous avons branché notre workflow à NocoDB via API et ainsi construit une base relationnelle qui leur permettait de naviguer entre les délibérations, les dépenses, les conseiller·ère·s etc. Dans cette base, les journalistes évaluaient directement les informations extraites à l’aide d’une notation (extraction mauvaise, moyenne, bonne ou très bonne) et de commentaires.

Cette étape clé a permis d’identifier des points de faiblesse de la méthode, de les corriger et de lancer ensuite le procédé d’extraction final sur les plus de 23 000 délibérations.

4/ Réaliser un outil d’exploration graphique

Une fois la base de données constituée, il nous a semblé important - autant du côté WeDoData que de Médiacités - de faciliter l’accès à cette mine d’informations aux journalistes. Nous avons donc conçu un dashboard permettant de datavisualiser le contenu synthétisé des compte-rendus sur l’outil Tableau.

Les journalistes nous ont soumis les grandes questions éditoriales auxquelles ils et elles aimeraient pouvoir répondre et nous avons alors imaginé les graphiques correspondant à ces angles. Le tableau de bord présente 7 angles journalistiques d’analyse des données auxquels répondent 19 graphiques interactifs, tous déclinés par collectivité bien entendu. Reste maintenant aux journalistes de Médiacités de s’emparer de ces données pour mener des enquêtes approfondies dans ce moment clé de notre vie démocratique que constituent les élections municipales.

Pour quel impact ?

📝 Dans ces prochaines semaines et mois, Médiacités publiera - avec MOB - des bilans des listes élues en 2020. Quelles promesses ont été tenues, abandonnées ou mises en pause ? L’occasion de questionner les choix politiques à Lille, Nantes, Lyon ou Toulouse pour mieux se projeter dans le mandat à venir. Pourquoi avoir abandonné la mise en place d’un budget participatif lillois par exemple ? Quel effet a eu l’encadrement des loyers à Lyon ? Était-ce si compliqué d’ouvrir des crèches à Nantes ? En bref, mettre les mairies face à leur bilan et éclairer les grands enjeux de ces élections. D’autant que le chaos politique national risque d’impacter les campagnes électorales et d’y imposer ses thématiques.

Enquêtes à suivre donc sur Médiacités !

Cookies fonctionnels
Toujours actif
Pour permettre au site de fonctionner de manière optimale (service vidéo optimisée, choix de la langue du site, filtres productions mémorisés...).
Mesure d'audience (MATOMO)
Activé
Pour permettre à MATOMO de mesurer l'audience de ce site.