Paramètres d'accessibilité

taille du texte

Options de couleurs

monochrome couleurs discrètes sombre

Outils de lecture

isolement règle

Articles

Comment créer votre propre base de données

Crédit :  Julia Joppien / Unsplash

Créer sa propre base de données peut être le point de départ d’une grande enquête journalistique. Voici plusieurs conseils méthodologiques cruciaux pour obtenir et structurer les données que vous recueillez. 

En 2021, les journalistes ont redoublé d’efforts pour couvrir les manifestations, les affrontements armés et les accusations d’abus de pouvoir qui ont secoué la Colombie.

Alors que la crise s’intensifiait, plusieurs médias indépendants et organisations de défense des droits humains ont créé leurs propres bases de données pour répertorier les décès liés aux manifestations, qui s’élevaient début juillet à plus de 70 d’après le décompte de plusieurs ONG. Ils ont également commencé à recueillir des accusations d’abus de pouvoir, de violences et de détentions visant les manifestants.

L’une de ces bases de données a été conçue par Rutas del Conflicto (les Routes du conflit), un média en ligne qui emploie des techniques de journalisme d’enquête et de data journalisme pour couvrir le conflit armé qui gangrène la Colombie depuis 50 ans. Cette année, le groupe s’est mis à couvrir les violences liées aux manifestations, qui ont commencé en réponse à une proposition de réforme fiscale mais se sont depuis transformées en manifestations antigouvernementales généralisées.

« Ne pas avoir les données dont on a besoin à portée de main n’est pas une raison pour ignorer un sujet d’intérêt public » — Romina Colman, OCCRP

Une équipe composée de journalistes, d’étudiants en journalisme, d’un développeur et d’un graphiste, menée par le journaliste Óscar Parra, a créé une base de données pour enregistrer les décès lors des manifestations qui ont secoué les villes du pays.

En recueillant et en recoupant des informations tirées d’événements quotidiens, d’articles de presse, d’ONG et d’entretiens avec des témoins et des proches des victimes, l’équipe a pu créer une base de données fiable sur ces violences. Cela leur a permis de répertorier les événements et les victimes, tout en réfléchissant aux circonstances de leur décès, pour enfin conclure que la brutalité policière était responsable de nombreux incidents.

Ce n’est pas la première fois qu’Óscar Parra a créé une base de données à l’usage de journalistes. Il a lancé Rutas del Conflicto en 2012 alors qu’il couvrait un processus de justice transitionnelle dans lequel d’anciens paramilitaires ont témoigné sur leur rôle dans la guerre qui oppose la Colombie aux Forces armées rebelles de Colombie, les FARC.

Óscar Parra s’est rendu compte que de nombreuses informations sur les massacres de civils et de combattants ennemis étaient rendues publiques au cours des audiences. Il explique : « Je me suis dit qu’il serait bon de regrouper toutes ces informations dans une base de données afin de créer des outils cartographiques et chronologiques ». Il ajoute que des articles individuels traitant de chaque comparution devant le tribunal n’auraient pas réussi à dresser une image complète des informations ainsi révélées, contrairement à une carte.

Óscar Parra a mis à profit ses connaissances en tant qu’ingénieur système – sa précédente carrière – et sa passion pour le journalisme d’investigation pour former un groupe d’étudiants. Il a également demandé des fonds pour les débuts de Rutas del Conflicto, qui allait remporter le Prix du data journalisme 2017 en tant que meilleur site de journalisme de données.

La Paz en el Terreno – ou la paix sur le terrain – est un projet de données sur la violence en Colombie après la signature des accords de paix. Image : Rutas del Conflicto.

L’équipe a depuis reproduit ce schéma de travail afin de recueillir, organiser et traiter des données sur les disparitions dans les fleuves du pays au cours de la guerre et les liens de cause à effet entre la violence en Colombie et les conflits fonciers.

Les rédactions du monde entier créent leurs propres bases de données lorsqu’elles sont confrontées à un manque de données officielles ou lorsque les données disponibles ne sont pas fiables. D’autres rédactions créent des bases de données qui servent de point de départ à leur reportage ou à leur enquête ou lorsqu’il est nécessaire de recouper plusieurs sources d’information différentes.

« Ne pas avoir les données dont on a besoin à portée de main n’est pas une raison d’ignorer un sujet d’intérêt public », selon Romina Colman, experte argentine en data journalisme et rédactrice en chef responsable des données d’Amérique latine à l’Organized Crime and Corruption Reporting Projet (OCCRP).

Les journalistes d’investigation peuvent obtenir des informations dans divers formats. Rapports en format PDF, archives papier en désordre, interviews et observations de journalistes, fichiers numérisés, documents manuscrits et archives anciennes : tous ces formats, correctement traités, peuvent faire l’objet de bases de données.

En 2009, nous avons commencé à transcrire des centaines de documents papier, pour la plupart manuscrits, dans lesquels des agents publics déclaraient leurs conflits d’intérêts.

C’est ce que j’ai découvert en 2009, alors que je travaillais à la création d’une base de données avec Consejo de Redacción (CdR), l’association colombienne des journalistes d’investigation, qui est membre du GIJN. Nous voulions créer une base de données pour nos journalistes partenaires afin de les aider à enquêter sur la corruption d’agents publics. À l’époque, il y avait peu d’outils d’extraction de données à partir de documents. Le data journalisme en était à ses balbutiements en Colombie, et le gouvernement du pays nous communiquait peu d’informations dans des formats numériques faciles à exploiter.

Nous avons donc commencé par transcrire des centaines de documents papier, pour la plupart manuscrits, dans lesquels des agents publics déclaraient leurs conflits d’intérêts et leurs donateurs de campagne. Après plusieurs années de travail nous avions une base de plus de 2 millions d’enregistrements, dont d’autres données connexes provenant de plus de 20 sources officielles. Cela a conduit à un certain nombre d’enquêtes sur des malversations politiques, comme celle-ci sur la redistribution douteuse de terres publiée par le principal magazine d’investigation Semana.

En 2011, alors que de plus en plus de journalistes se tournaient vers la gestion et l’analyse des données, la Colombie a rejoint l’Open Government Partnership (le Partenariat pour un gouvernement ouvert), une initiative mondiale signée par 78 pays pour améliorer la transparence. Cela m’a permis, ainsi qu’à mon équipe, de continuer à créer des bases de données pour couvrir des sujets intéressants. L’une d’elles concernait les liens entre les contrôleurs de l’administration locale – des fonctionnaires chargés de superviser le travail des maires et des gouverneurs – et ceux dont ils contrôlent le travail. Une autre base de données concernait les personnes qui ont financé les campagnes présidentielle et parlementaire en 2018. Elle a été élaborée en recoupant les rapports des candidats avec les annonces de marchés publics, les registres des sociétés et les données historiques des agents publics locaux.

Les journalistes créent des bases de données depuis les années 1980, mais ce n’est qu’au cours des dernières années que la technologie permettant d’extraire des données de pages web, de convertir des PDF ou des fichiers numérisés en formats modifiables et de combiner de grandes quantités de données s’est démocratisée. De plus en plus de journalistes se forment à ce que l’on appelait autrefois le journalisme assisté par ordinateur – et qu’on appelle désormais le data journalisme – et les collaborations entre journalistes et développeurs se sont multipliées, rendant plus facile la création de bases de données à des fins journalistiques.

En tant que journaliste, vous n’avez pas besoin de devenir développeur pour travailler sur un projet de base de données. Mieux vaut ajouter quelqu’un avec cette expertise à votre équipe et travailler en partenariat.

Partout, des rédactions créent des bases de données dans le cadre de leurs enquêtes, que celles-ci concernent les avoirs de criminels qui ont été saisis en Italie, les décès dus à l’usage de pistolets électriques et l’usage de la force par la police aux États-Unis, ou encore des sujets transnationaux. Un groupe de journalistes issus de 12 pays différents a récemment créé une base de données en réunissant des informations qui n’avaient jamais auparavant été collectées de manière systématique, concernant 2 460 cas de violence contre des défenseurs des droits de l’environnement en Amérique latine. Le groupe a ensuite publié 36 reportages d’investigation à partir de cet ensemble de données dans un projet spécial intitulé Terre de résistance (Tierra de Resistentes).

Quelques journalistes du projet Tierra de Resistentes. Capture d’écran.

À l’autre bout du monde, l’OCCRP a remporté le prix Sigma 2020 pour Troika Laundromat, une enquête réalisée à l’aide d’une technologie de pointe pour extraire les données de plus d’1,3 million de transactions issues de centaines de dossiers bancaires. Cette enquête a révélé comment les oligarques et politiciens russes investissent secrètement leurs millions mal acquis à l’étranger, blanchissent leur argent et échappent aux impôts.

Ce qui rend ces projets exceptionnels, c’est d’avoir réussi à rassembler des données qui n’étaient pas accessibles au public ou qui n’avaient jamais été réunies en un seul endroit. Les enquêtes qu’en a tiré l’OCCRP ont eu un impact énorme ; cela n’aurait pas été possible sans les bases de données qui ont permis aux journalistes d’enquêter plus en profondeur. Même avec des bases de données de plus petite échelle il est possible de réaliser des enquêtes qui ont un réel impact. Voici donc un guide qui vous expliquera étape par étape comment créer des bases de données à des fins d’enquête.

1. Préparez-vous

Parcourez les documents dont vous souhaitez extraire les données. Voyez si vous y trouvez des répétitions vous permettant de structurer au mieux votre base de données. Si vous partez de zéro et que vous obtenez des enregistrements d’entretiens et de reportages traditionnels, analysez des situations et récits similaires pour trouver un terrain d’entente. Il pourrait être utile de parler à des experts à ce stade. Définissez la portée des données que vous comptez recueillir. Quelle période allez-vous couvrir ? Quels cas seront inclus/exclus ? (Ce choix nécessite des critères clairs et extrêmement précis). Allez-vous fixer une limite au nombre d’enregistrements que vous traiterez ? Les ressources de votre projet – en temps, en équipe, en fonds, en technologie, etc. – vous aideront à répondre à ces questions. Faites une liste des questions auxquelles vous voulez répondre au cours de l’enquête. Cela guidera la conception de la base de données. Encouragez le travail d’équipe, surtout pendant cette étape initiale. Les échanges entre collègues facilitent ces premières étapes cruciales et renforcent la qualité de votre travail. C’est d’ailleurs ainsi qu’a démarré le projet Tierra de Resistentes : la base de données et l’enquête ont été façonnées lors d’ateliers de journalisme d’investigation.

2. Concevoir et développer la base de données

Commencez par définir ce que chaque ligne dans votre base de données va répertorier : les cas, les personnes, les lieux, les produits, les événements, les pays, les transactions, etc.  Ensuite, faites une liste des éléments qui permettraient d’identifier chaque enregistrement : ce seront vos champs (colonnes). Par exemple, si chaque ligne est une personne, les champs peuvent être le nom, le numéro d’identification, l’âge, le lieu, la profession, etc. Définissez une clé pour chaque enregistrement. Les numéros d’identification sont une meilleure idée (lorsqu’ils sont disponibles) que les noms. Vous pouvez également inventer des codes en combinant deux ou trois aspects qui rendent chaque enregistrement unique. Cette clé sera essentielle si vous devez effectuer des recoupements entre deux ou plusieurs jeux de données. Outre les champs d’identification, incluez des détails supplémentaires – de courts paragraphes qui serviront votre récit – et des informations permettant une meilleure classification, comme celles qui font référence à des caractéristiques communes. Pour ces catégories, il est utile de réfléchir en amont au récit que vous pourriez en tirer. Par exemple, vous pouvez inclure une colonne « race » pour analyser si les données recueillies révèlent du racisme (les statistiques sur la race ne sont cependant pas disponibles dans de nombreux pays NDLR). L’uniformité est primordiale. Utilisez donc les configurations de validation pour vous assurer que les nombres sont saisis comme tels, que les dates sont au bon format et que les noms des catégories sont toujours orthographiées de la même manière. Autant que faire se peut, proposez des questions à choix multiples pour chaque champ plutôt que des questions ouvertes. Incluez qui a saisi chaque information et quelle est la source d’origine (avec un lien vers celle-ci). Cela sera utile plus tard si vous avez besoin de vérifier l’une des données. Essayez de ne pas avoir trop de champs. Faites en sorte que chaque champ créé soit pertinent à votre enquête, ainsi que pour l’analyse des données. Il faut aussi que votre équipe puisse les remplir. Votre base de données peut nécessiter plusieurs tables, selon la complexité du sujet et les relations entre les différentes données recueillies. Assurez-vous que la base de données soit facile d’utilisation pour toutes les personnes impliquées dans le projet, quel que soit leur niveau technologique. « Ce doit être un outil construit avec et pour les journalistes », explique Paul Radu, co-fondateur et chargé de l’innovation à l’OCCRP. Rendez la base de données évolutive : votre conception pourrait être la première étape d’un futur projet plus important, qu’il soit mené par vous et votre équipe ou par quelqu’un d’autre.

3. Testez, testez, testez

Effectuez un test pilote de la base de données. Remplissez quelques champs pour voir si la base de données fonctionne comme prévu et pour évaluer si elle sera utile à votre enquête. Un bon moyen d’estimer la durée du projet : mesurez et calculez le temps moyen nécessaire pour ajouter une nouvelle donnée puis pour confirmer l’information. Faites une liste de possibles écueils afin d’éviter de faire des erreurs. Évaluez la fiabilité et la cohérence des champs les plus importants. Si plusieurs sources se contredisent, ce qui est courant avec les chiffres ou les dates, mieux vaut placer les informations dans une colonne de détails où vous pouvez décrire le désaccord plutôt que de décider arbitrairement qui dit vrai.

4. Remplissez la base de données

Servez-vous de ce que vous aurez appris dans cette phase de test pour former les journalistes qui recueilleront, saisiront et analyseront les informations dans la base de données. Assurez-vous que tout le monde comprend les concepts et les catégories de la même manière. Utilisez des outils de stockage collaboratif, pour que l’accès ne dépende pas d’une seule personne.  Divisez les données en utilisant les catégories que vous avez définies au stade de la conception afin que chacun sache qui collecte quelles informations et ainsi éviter les doublons. Si vous devez extraire des données du web ou de textes, concentrez vos efforts sur ce qui est le plus pertinent pour votre enquête. Dans le projet Troika, par exemple, il fallait déterminer l’objet des transactions. Si vous disposez d’un tel nombre de données que vous ne savez pas quoi en faire, envisagez de faire appel à un professionnel ou à une entreprise externe pour transcrire les documents dans une base de données préalablement conçue avec votre rédaction.

5. Audit et vérification des informations

La constitution de la base de données n’est que la première étape de l’enquête. Avant d’analyser les données et d’en tirer des conclusions, vous devez les confirmer avec les sources originales, qu’il s’agisse de documents ou d’individus. « Nous avons confronté les municipalités où des massacres ont eu lieu aux données recueillies afin que les survivants puissent corriger les erreurs que les médias et d’autres personnes racontaient depuis des années », explique Óscar Parra à propos de l’un de ses projets à Rutas del Conflicto. Décidez du type d’audit que vous effectuerez. Il variera en fonction de la portée de votre projet. Vous pouvez vérifier chaque donnée en la recoupant avec les documents originaux ou vous pouvez effectuer des contrôles aléatoires, mais ces vérifications doivent couvrir un nombre important d’informations dans la base de données. Dans les deux cas, la personne qui examine les données ne doit pas être celle qui les a saisies. Que recherchez vous au cours de l’audit? Les fautes de frappe, les chiffres, les dates, les doublons et les enregistrements qui ne répondent pas aux critères. Deux idées pour vérifier les chiffres : faire en sorte que le système additionne automatiquement les totaux et les compare à ceux des documents originaux, et trie les données pour trouver les valeurs aberrantes (les chiffres trop grands ou trop petits peuvent être erronés). La base de données ne sera pas prête à l’emploi tant que n’auront pas été effectués : une vérification des faits, un audit des données, une confrontation de source individuelles et un examen juridique. Une carte détaillant les attaques contre les défenseurs de l’environnement en Amérique du Sud et en Amérique centrale, réalisée par l’équipe de Tierra de Resistentes. Capture d’écran.

Logiciel

En tant que journaliste, vous n’avez pas besoin de devenir développeur pour travailler sur un projet de base de données. Mieux vaut ajouter quelqu’un avec cette expertise à votre équipe et travailler en partenariat. Cette liste d’outils peut vous être utile :

Applications pour créer un formulaire en ligne qui aidera les journalistes à remplir la base de données : Google Forms, Node.js, Django ou Flask. Stockage de la base de données : MongoDB Atlas ou Firebase de Google. Pour structurer et traiter les données : Python (qui peut être relié aux options de stockage mentionnées ci-dessus), PostgreSQL, ELK Stack et Filemaker.  Pour l’extraction de données et la conversion PDF : Wondershare Pdf Converter Pro, convertisseur de base Google Documents, iLovePDF, Smallpdf,Tabula, Import.io. Vous pouvez évidemment télécharger la base de données et travailler dessus avec Excel ou Google Spreadsheets. Pour les petits projets, il peut être bon de commencer avec l’un ou l’autre outil.

Ultimes recommandations et conseils

La sécurité est un problème clé dans ce type de projets, alors utilisez des communications cryptées, sauvegardez les données à plusieurs endroits et tenez compte de votre sécurité personnelle. Apprenez à utiliser Excel, mais collaborez également avec des spécialistes du traitement de données et des développeurs. Soyez conscient des instruments qui peuvent faciliter le travail : outils de web scraping, formulaires en ligne pour remplir la base de données, convertisseurs PDF, numérisation avec OCR (reconnaissance optique de signes) et traitement de texte massif. OCCRP a créé Aleph, une plateforme qui effectue quasiment toutes ces tâches : elle facilite l’accès, la recherche, la translittération et la lecture de gros volumes de documents multi-formats. Puisque ces initiatives nécessitent généralement de grandes équipes, nommez un chef de projet et envisagez une enquête collaborative. Soyez transparents avec le public par rapport à votre méthodologie et à vos sources, en supposant que les protocoles de sûreté et de sécurité le permettent. Montrez un échantillon des documents originaux à partir desquels vous avez créé la base de données pour renforcer la crédibilité de votre enquête. Publiez vos coordonnées en même temps que l’enquête afin que les lecteurs puissent poser des questions ou vous informer s’ils constatent des erreurs dans la base de données.

Ressources complémentaires

L’enquête data qui a changé le regard de la société britannique sur les sans-abris

Violences policières : comment un journaliste freelance a réussi à briser un tabou médiatique en France

Les meilleurs outils pour collecter des données exclusives

Miriam Forero Ariza est une journaliste d’investigation et de données indépendante colombienne dont le travail a été publié par Vice, Colombiacheck et El Espectador. Elle a plus de dix ans d’expérience dans les enquêtes collaboratives, l’analyse de données et les visualisations. Elle a co-écrit l’Iberoamerican Data Journalism Handbook.

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International

Republier gratuitement nos articles, en ligne ou en version imprimée, sous une licence Creative Commons.

Republier cet article

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Lire la suite

Où trouver des données en Suisse

Par sa structure politique, la Suisse ne centralise que peu ses informations. Pour trouver des données, les journalistes doivent s’armer de patience et explorer les trois niveaux politique (fédéral, cantonal et communal). Dans cet article, le journaliste Dimitri Zufferey, spécialisé en OSINT et en enquêtes à la Radio Télévision Suisse explique aux journalistes comment se retrouver dans ce casse-tête helvétique.

Enseignement et Formation

Webinaire GIJN : Enquêter sur le conflit Israël-Hamas

GIJN organise le mardi 30 avril 2024 à 13h GMT (13h Dakar, 15h Paris) un webinaire au cours duquel trois journalistes d’investigation chevronnés partageront des conseils et des outils sur la manière d’enquêter sur un conflit tel que celui entre Israël et le Hamas et sur un terrain quasi impossible tel que Gaza.

Enquêter sur les institutions Méthodologie Outils et conseils pour enquêter Techniques d'enquête

Webinaire : enquêter sur l’influence française en Afrique (replay)

GIJN Afrique a organisé le 16 avril 2024 un webinaire durant lequel trois journalistes d’expérience ont partagé leurs astuces pour enquêter sur l’influence française en Afrique. Voici le REPLAY de ce webinaire.