1/ Traiter les délibérations ou récupérer de la donnée “brute”
Les collectivités françaises, et notamment les communes et métropoles, sont tenues par une obligation légale de rendre publics les ordres du jour, ainsi que les compte-rendus de leurs conseils municipaux ou métroplitains. Cependant, il n’existe aucun format standard pour cette mise à disposition : ils restent souvent difficiles d’accès, sur des plateformes hétérogènes à la navigation complexe, sans oublier que la maquette de ces comptes-rendus est à l’initiative de chaque collectivité, donc hétéroclites...
Conséquence directe de cette forte hétérogénéité : la nécessité de mettre en place un scraping de ces documents. L’intégralité des compte-rendus des délibérations pour les 8 collectivités - plus de 23 000 documents (!), généralement des PDF scannés - a été “aspiré” sur chacune des plateformes des collectivités pour l’intégralité du mandat en cours, soit de fin juin 2020 jusqu’à aujourd’hui. Ces rapports ont ensuite été convertis en format markdown - un format facilement ingérable par les LLM - à l’aide de Mistral OCR, une IA d’extraction de texte à partir de documents et d'images.