{"id":370972,"date":"2021-08-17T12:42:49","date_gmt":"2021-08-17T16:42:49","guid":{"rendered":"https:\/\/gijn.org\/?p=370972"},"modified":"2023-09-05T23:50:07","modified_gmt":"2023-09-06T03:50:07","slug":"comment-creer-votre-propre-base-de-donnees","status":"publish","type":"post","link":"https:\/\/gijn.org\/fr\/histoires\/comment-creer-votre-propre-base-de-donnees\/","title":{"rendered":"Comment cr\u00e9er votre propre base de donn\u00e9es"},"content":{"rendered":"<p>Cr\u00e9dit :\u00a0 Julia Joppien \/ Unsplash<\/p>\n<p><strong>Cr\u00e9er sa propre base de donn\u00e9es peut \u00eatre le point de d\u00e9part d&rsquo;une grande enqu\u00eate journalistique. Voici plusieurs conseils m\u00e9thodologiques cruciaux pour obtenir et structurer les donn\u00e9es que vous recueillez.\u00a0<\/strong><\/p>\n<p>En 2021, les journalistes ont redoubl\u00e9 d\u2019efforts pour couvrir les manifestations, les affrontements arm\u00e9s et les accusations d\u2019abus de pouvoir qui ont secou\u00e9 la Colombie.<\/p>\n<p>Alors que la crise s&rsquo;intensifiait, plusieurs m\u00e9dias ind\u00e9pendants et organisations de d\u00e9fense des droits humains ont cr\u00e9\u00e9 leurs propres bases de donn\u00e9es pour r\u00e9pertorier les d\u00e9c\u00e8s li\u00e9s aux manifestations, qui s\u2019\u00e9levaient d\u00e9but juillet \u00e0 plus de 70 d\u2019apr\u00e8s le d\u00e9compte de plusieurs ONG. Ils ont \u00e9galement commenc\u00e9 \u00e0 recueillir des accusations d\u2019abus de pouvoir, de violences et de d\u00e9tentions visant les manifestants.<\/p>\n<p>L&rsquo;une de ces bases de donn\u00e9es a \u00e9t\u00e9 con\u00e7ue par Rutas del Conflicto (les Routes du conflit), un m\u00e9dia en ligne qui emploie des techniques de journalisme d&rsquo;enqu\u00eate et de data journalisme pour couvrir le conflit arm\u00e9 qui gangr\u00e8ne la Colombie depuis 50 ans. Cette ann\u00e9e, le groupe s\u2019est mis \u00e0 couvrir les violences li\u00e9es aux manifestations, qui ont commenc\u00e9 en r\u00e9ponse \u00e0 une proposition de r\u00e9forme fiscale mais se sont depuis transform\u00e9es en manifestations antigouvernementales g\u00e9n\u00e9ralis\u00e9es.<\/p>\n<p>\u00ab\u00a0Ne pas avoir les donn\u00e9es dont on a besoin \u00e0 port\u00e9e de main n&rsquo;est pas une raison pour ignorer un sujet d\u2019int\u00e9r\u00eat public\u00a0\u00bb \u2014 Romina Colman, OCCRP<\/p>\n<p>Une \u00e9quipe compos\u00e9e de journalistes, d&rsquo;\u00e9tudiants en journalisme, d\u2019un d\u00e9veloppeur et d&rsquo;un graphiste, men\u00e9e par le journaliste \u00d3scar Parra, a cr\u00e9\u00e9 une <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/rutasdelconflicto.com\/especiales\/victimas-mortales-paro\">base de donn\u00e9es pour enregistrer les d\u00e9c\u00e8s lors des manifestations <\/a>qui ont secou\u00e9 les villes du pays.<\/p>\n<p>En recueillant et en recoupant des informations tir\u00e9es d\u2019\u00e9v\u00e9nements quotidiens, d\u2019articles de presse, d\u2019ONG et d\u2019entretiens avec des t\u00e9moins et des proches des victimes, l\u2019\u00e9quipe a pu cr\u00e9er une base de donn\u00e9es fiable sur ces violences. Cela leur a permis de r\u00e9pertorier les \u00e9v\u00e9nements et les victimes, tout en r\u00e9fl\u00e9chissant aux circonstances de leur d\u00e9c\u00e8s, pour enfin conclure que la brutalit\u00e9 polici\u00e8re \u00e9tait responsable de nombreux incidents.<\/p>\n<p>Ce n\u2019est pas la premi\u00e8re fois qu\u2019\u00d3scar Parra a cr\u00e9\u00e9 une base de donn\u00e9es \u00e0 l\u2019usage de journalistes. Il a lanc\u00e9 Rutas del Conflicto en 2012 alors qu&rsquo;il couvrait un processus de justice transitionnelle dans lequel d&rsquo;anciens paramilitaires ont t\u00e9moign\u00e9 sur leur r\u00f4le dans la guerre qui oppose la Colombie aux Forces arm\u00e9es rebelles de Colombie, les FARC.<\/p>\n<p>\u00d3scar Parra s&rsquo;est rendu compte que de nombreuses informations sur les massacres de civils et de combattants ennemis \u00e9taient rendues publiques au cours des audiences. Il explique : \u00ab\u00a0Je me suis dit qu&rsquo;il serait bon de regrouper toutes ces informations dans une base de donn\u00e9es afin de cr\u00e9er <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/rutasdelconflicto.com\/masacres\">des outils cartographiques <\/a>et chronologiques\u00a0\u00bb. Il ajoute que des articles individuels traitant de chaque comparution devant le tribunal n\u2019auraient pas r\u00e9ussi \u00e0 dresser une image compl\u00e8te des informations ainsi r\u00e9v\u00e9l\u00e9es, contrairement \u00e0 une carte.<\/p>\n<p>\u00d3scar Parra a mis \u00e0 profit ses connaissances en tant qu&rsquo;ing\u00e9nieur syst\u00e8me &#8211; sa pr\u00e9c\u00e9dente carri\u00e8re &#8211; et sa passion pour le journalisme d&rsquo;investigation pour former un groupe d&rsquo;\u00e9tudiants. Il a \u00e9galement demand\u00e9 des fonds pour les d\u00e9buts de Rutas del Conflicto, qui allait remporter le <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.semana.com\/nacion\/articulo\/rutas-del-conflicto-fue-el-proyecto-ganador-de-sitio-web-del-ano-en-los-data-journalism-awards-2017\/544075\/\">Prix du data journalisme 2017 en tant que meilleur site de journalisme de donn\u00e9es.<\/a><\/p>\n<p><a href=\"https:\/\/gijn.org\/wp-content\/uploads\/2021\/07\/La-Paz-en-el-terreno-rutas-del-conflicto-graphic.jpg\"><\/a>La Paz en el Terreno &#8211; ou la paix sur le terrain &#8211; est un projet de donn\u00e9es sur la violence en Colombie apr\u00e8s la signature des accords de paix. Image : Rutas del Conflicto.<\/p>\n<p>L&rsquo;\u00e9quipe a depuis reproduit ce sch\u00e9ma de travail afin de recueillir, organiser et traiter des donn\u00e9es sur <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/rutasdelconflicto.com\/rios-vida-muerte\/\">les disparitions dans les fleuves du pays au cours de la guerre<\/a> et les <a rel=\"noopener\" target=\"_blank\" href=\"http:\/\/tierraendisputa.com\/\">liens de cause \u00e0 effet entre la violence en Colombie et les conflits fonciers<\/a>.<\/p>\n<p>Les r\u00e9dactions du monde entier cr\u00e9ent leurs propres bases de donn\u00e9es lorsqu&rsquo;elles sont confront\u00e9es \u00e0 un manque de donn\u00e9es officielles ou lorsque les donn\u00e9es disponibles ne sont pas fiables. D&rsquo;autres r\u00e9dactions cr\u00e9ent des bases de donn\u00e9es qui servent de point de d\u00e9part \u00e0 leur reportage ou \u00e0 leur enqu\u00eate ou lorsqu&rsquo;il est n\u00e9cessaire de recouper plusieurs sources d&rsquo;information diff\u00e9rentes.<\/p>\n<p>\u00ab\u00a0Ne pas avoir les donn\u00e9es dont on a besoin \u00e0 port\u00e9e de main n&rsquo;est pas une raison d\u2019ignorer un sujet d\u2019int\u00e9r\u00eat public\u00a0\u00bb, selon Romina Colman, experte argentine en data journalisme et r\u00e9dactrice en chef responsable des donn\u00e9es d&rsquo;Am\u00e9rique latine \u00e0 l&rsquo;Organized Crime and Corruption Reporting Projet (OCCRP).<\/p>\n<p>Les journalistes d&rsquo;investigation peuvent obtenir des informations dans divers formats. Rapports en format PDF, archives papier en d\u00e9sordre, interviews et observations de journalistes, fichiers num\u00e9ris\u00e9s, documents manuscrits et archives anciennes : tous ces formats, correctement trait\u00e9s, peuvent faire l\u2019objet de bases de donn\u00e9es.<\/p>\n<p>En 2009, nous avons commenc\u00e9 \u00e0 transcrire des centaines de documents papier, pour la plupart manuscrits, dans lesquels des agents publics d\u00e9claraient leurs conflits d&rsquo;int\u00e9r\u00eats.<\/p>\n<p>C\u2019est ce que j\u2019ai d\u00e9couvert en 2009, alors que je travaillais \u00e0 la cr\u00e9ation d&rsquo;une base de donn\u00e9es avec <a href=\"https:\/\/gijn.org\/member\/consejo-de-redaccion-cdr-colombia\/\">Consejo de Redacci\u00f3n<\/a> (CdR), l&rsquo;association colombienne des journalistes d&rsquo;investigation, qui est membre du GIJN. Nous voulions cr\u00e9er une base de donn\u00e9es pour nos journalistes partenaires afin de les aider \u00e0 enqu\u00eater sur la corruption d\u2019agents publics. \u00c0 l&rsquo;\u00e9poque, il y avait peu d\u2019outils d&rsquo;extraction de donn\u00e9es \u00e0 partir de documents. Le data journalisme en \u00e9tait \u00e0 ses balbutiements en Colombie, et le gouvernement du pays nous communiquait peu d\u2019informations dans des formats num\u00e9riques faciles \u00e0 exploiter.<\/p>\n<p>Nous avons donc commenc\u00e9 par transcrire des centaines de documents papier, pour la plupart manuscrits, dans lesquels des agents publics d\u00e9claraient leurs conflits d&rsquo;int\u00e9r\u00eats et leurs donateurs de campagne. Apr\u00e8s plusieurs ann\u00e9es de travail nous avions une base de plus de 2 millions d&rsquo;enregistrements, dont d&rsquo;autres donn\u00e9es connexes provenant de plus de 20 sources officielles. Cela a conduit \u00e0 un certain nombre d\u2019enqu\u00eates sur des malversations politiques, comme celle-ci sur <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.semana.com\/nacion\/articulo\/fraude-agrario-historico-que-tierrero\/267994-3\/\">la redistribution douteuse de terres<\/a> publi\u00e9e par le principal magazine d&rsquo;investigation Semana.<\/p>\n<p>En 2011, alors que de plus en plus de journalistes se tournaient vers la gestion et l&rsquo;analyse des donn\u00e9es, la Colombie a rejoint l\u2019Open Government Partnership (le <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.opengovpartnership.org\/about\/\">Partenariat pour un gouvernement ouvert<\/a>), une initiative mondiale sign\u00e9e par 78 pays pour am\u00e9liorer la transparence. Cela m&rsquo;a permis, ainsi qu&rsquo;\u00e0 mon \u00e9quipe, de continuer \u00e0 cr\u00e9er des bases de donn\u00e9es pour couvrir des sujets int\u00e9ressants. <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/archivo.colombiacheck.com\/especiales\/contralorias\/\">L&rsquo;une d\u2019elles concernait les liens entre les contr\u00f4leurs de l\u2019administration locale \u2013 des fonctionnaires charg\u00e9s de superviser le travail des maires et des gouverneurs \u2013 et ceux dont ils contr\u00f4lent le travail<\/a>. Une autre base de donn\u00e9es concernait les personnes qui ont<a rel=\"noopener\" target=\"_blank\" href=\"http:\/\/archivo.colombiacheck.com\/especiales\/zoom\/\"> financ\u00e9 les campagnes pr\u00e9sidentielle et parlementaire en 2018<\/a>. Elle a \u00e9t\u00e9 \u00e9labor\u00e9e en recoupant les rapports des candidats avec les annonces de march\u00e9s publics, les registres des soci\u00e9t\u00e9s et les donn\u00e9es historiques des agents publics locaux.<\/p>\n<p>Les journalistes cr\u00e9ent des bases de donn\u00e9es depuis les ann\u00e9es 1980, mais ce n\u2019est qu\u2019au cours des derni\u00e8res ann\u00e9es que la technologie permettant d&rsquo;extraire des donn\u00e9es de pages web, de convertir des PDF ou des fichiers num\u00e9ris\u00e9s en formats modifiables et de combiner de grandes quantit\u00e9s de donn\u00e9es s\u2019est d\u00e9mocratis\u00e9e. De plus en plus de journalistes se forment \u00e0 ce que l&rsquo;on appelait autrefois le journalisme assist\u00e9 par ordinateur &#8211; et qu\u2019on appelle d\u00e9sormais le data journalisme &#8211; et les collaborations entre journalistes et d\u00e9veloppeurs se sont multipli\u00e9es, rendant plus facile la cr\u00e9ation de bases de donn\u00e9es \u00e0 des fins journalistiques.<\/p>\n<p>En tant que journaliste, vous n&rsquo;avez pas besoin de devenir d\u00e9veloppeur pour travailler sur un projet de base de donn\u00e9es. Mieux vaut ajouter quelqu&rsquo;un avec cette expertise \u00e0 votre \u00e9quipe et travailler en partenariat.<\/p>\n<p>Partout, des r\u00e9dactions cr\u00e9ent des bases de donn\u00e9es dans le cadre de leurs enqu\u00eates, que celles-ci concernent les <a href=\"https:\/\/gijn.org\/2016\/01\/11\/inside-a-pioneering-italian-data-journalism-collaboration\/\">avoirs de criminels qui ont \u00e9t\u00e9 saisis <\/a>en Italie, les <a href=\"https:\/\/gijn.org\/2017\/10\/02\/how-they-did-it-reuters-massive-database-of-taser-deaths\/\">d\u00e9c\u00e8s dus \u00e0 l\u2019usage de pistolets \u00e9lectriques <\/a>et <a href=\"https:\/\/gijn.org\/2019\/02\/25\/how-they-did-it-building-a-database-of-police-use-of-force-in-the-us\/\">l&rsquo;usage de la force par la police <\/a>aux \u00c9tats-Unis, ou encore des sujets transnationaux. Un groupe de journalistes issus de 12 pays diff\u00e9rents a r\u00e9cemment cr\u00e9\u00e9 une base de donn\u00e9es en r\u00e9unissant des informations qui n&rsquo;avaient jamais auparavant \u00e9t\u00e9 collect\u00e9es de mani\u00e8re syst\u00e9matique, concernant 2 460 cas de violence contre des d\u00e9fenseurs des droits de l&rsquo;environnement en Am\u00e9rique latine. Le groupe a ensuite publi\u00e9 36 reportages d\u2019investigation \u00e0 partir de cet ensemble de donn\u00e9es dans un projet sp\u00e9cial intitul\u00e9 <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/tierraderesistentes.com\/es\/\">Terre de r\u00e9sistance (Tierra de Resistentes)<\/a>.<\/p>\n<p>Quelques journalistes du projet Tierra de Resistentes. Capture d&rsquo;\u00e9cran.<\/p>\n<p>\u00c0 l&rsquo;autre bout du monde, l&rsquo;OCCRP a remport\u00e9 le prix Sigma 2020 pour <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.occrp.org\/en\/troikalaundromat\/\">Troika Laundromat<\/a>, une enqu\u00eate r\u00e9alis\u00e9e \u00e0 l\u2019aide d\u2019<a href=\"https:\/\/gijn.org\/2021\/06\/15\/a-reporters-guide-how-to-investigate-organized-crimes-finances\/\">une technologie de pointe pour extraire les donn\u00e9es de plus d\u20191,3 million de transactions <\/a>issues de centaines de dossiers bancaires. Cette enqu\u00eate a r\u00e9v\u00e9l\u00e9 comment les oligarques et politiciens russes investissent secr\u00e8tement leurs millions mal acquis \u00e0 l&rsquo;\u00e9tranger, blanchissent leur argent et \u00e9chappent aux imp\u00f4ts.<\/p>\n<p>Ce qui rend ces projets exceptionnels, c\u2019est d\u2019avoir r\u00e9ussi \u00e0 rassembler des donn\u00e9es qui n&rsquo;\u00e9taient pas accessibles au public ou qui n&rsquo;avaient jamais \u00e9t\u00e9 r\u00e9unies en un seul endroit. Les enqu\u00eates qu\u2019en a tir\u00e9 l\u2019OCCRP ont eu un impact \u00e9norme ; cela n\u2019aurait pas \u00e9t\u00e9 possible sans les bases de donn\u00e9es qui ont permis aux journalistes d\u2019enqu\u00eater plus en profondeur. M\u00eame avec des bases de donn\u00e9es de plus petite \u00e9chelle il est possible de r\u00e9aliser des enqu\u00eates qui ont un r\u00e9el impact. Voici donc un guide qui vous expliquera \u00e9tape par \u00e9tape comment cr\u00e9er des bases de donn\u00e9es \u00e0 des fins d\u2019enqu\u00eate.<\/p>\n<h5><b>1. Pr\u00e9parez-vous<\/b><\/h5>\n<p><b>Parcourez les documents <\/b>dont vous souhaitez extraire les donn\u00e9es. Voyez si vous y trouvez des r\u00e9p\u00e9titions vous permettant de structurer au mieux votre base de donn\u00e9es. Si vous partez de z\u00e9ro et que vous obtenez des enregistrements d&rsquo;entretiens et de reportages traditionnels, analysez des situations et r\u00e9cits similaires pour trouver un terrain d&rsquo;entente. Il pourrait \u00eatre utile de parler \u00e0 des experts \u00e0 ce stade. <b>D\u00e9finissez la port\u00e9e<\/b> des donn\u00e9es que vous comptez recueillir. Quelle p\u00e9riode allez-vous couvrir ? Quels cas seront inclus\/exclus ? (Ce choix n\u00e9cessite des crit\u00e8res clairs et extr\u00eamement pr\u00e9cis). Allez-vous fixer une limite au nombre d&rsquo;enregistrements que vous traiterez ? Les ressources de votre projet \u2013 en temps, en \u00e9quipe, en fonds, en technologie, etc. \u2013 vous aideront \u00e0 r\u00e9pondre \u00e0 ces questions. <b>Faites une liste des questions <\/b>auxquelles vous voulez r\u00e9pondre au cours de l&rsquo;enqu\u00eate. Cela guidera la conception de la base de donn\u00e9es. <b>Encouragez le travail d&rsquo;\u00e9quipe<\/b>, surtout pendant cette \u00e9tape initiale. Les \u00e9changes entre coll\u00e8gues facilitent ces premi\u00e8res \u00e9tapes cruciales et renforcent la qualit\u00e9 de votre travail. C&rsquo;est d&rsquo;ailleurs ainsi qu&rsquo;a d\u00e9marr\u00e9 le projet Tierra de Resistentes : la base de donn\u00e9es et l&rsquo;enqu\u00eate ont \u00e9t\u00e9 fa\u00e7onn\u00e9es lors <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/tierraderesistentes.com\/es\/2018\/11\/29\/primer-taller-tierra-de-resistentes\/\">d&rsquo;ateliers de journalisme d&rsquo;investigation<\/a>.<\/p>\n<h5><b>2. Concevoir et d\u00e9velopper la base de donn\u00e9es<\/b><\/h5>\n<p><b>Commencez par d\u00e9finir ce que chaque ligne dans votre base de donn\u00e9es va r\u00e9pertorier<\/b> : les cas, les personnes, les lieux, les produits, les \u00e9v\u00e9nements, les pays, les transactions, etc.\u00a0 <b>Ensuite, faites une liste des \u00e9l\u00e9ments qui permettraient d&rsquo;identifier chaque enregistrement :<\/b> ce seront vos champs (colonnes). Par exemple, si chaque ligne est une personne, les champs peuvent \u00eatre le nom, le num\u00e9ro d&rsquo;identification, l&rsquo;\u00e2ge, le lieu, la profession, etc. <b>D\u00e9finissez une cl\u00e9 pour chaque enregistrement. <\/b>Les num\u00e9ros d&rsquo;identification sont une meilleure id\u00e9e (lorsqu&rsquo;ils sont disponibles) que les noms. Vous pouvez \u00e9galement inventer des codes en combinant deux ou trois aspects qui rendent chaque enregistrement unique. Cette cl\u00e9 sera essentielle si vous devez effectuer des recoupements entre deux ou plusieurs jeux de donn\u00e9es. <b>Outre les champs d&rsquo;identification, incluez des d\u00e9tails suppl\u00e9mentaires<\/b> &#8211; de courts paragraphes qui serviront votre r\u00e9cit &#8211; et des informations permettant une meilleure classification, comme celles qui font r\u00e9f\u00e9rence \u00e0 des caract\u00e9ristiques communes. Pour ces cat\u00e9gories, il est utile de r\u00e9fl\u00e9chir en amont au r\u00e9cit que vous pourriez en tirer. Par exemple, vous pouvez inclure une colonne \u00ab\u00a0race\u00a0\u00bb pour analyser si les donn\u00e9es recueillies r\u00e9v\u00e8lent du racisme (les statistiques sur la race ne sont cependant pas disponibles dans de nombreux pays NDLR). <b>L&rsquo;uniformit\u00e9 est primordiale. <\/b>Utilisez donc les configurations de validation pour vous assurer que les nombres sont saisis comme tels, que les dates sont au bon format et que les noms des cat\u00e9gories sont toujours orthographi\u00e9es de la m\u00eame mani\u00e8re. Autant que faire se peut, proposez des questions \u00e0 choix multiples pour chaque champ plut\u00f4t que des questions ouvertes. <b>Incluez qui a saisi chaque information et quelle est la source d&rsquo;origine<\/b> (avec un lien vers celle-ci). Cela sera utile plus tard si vous avez besoin de v\u00e9rifier l&rsquo;une des donn\u00e9es. <b>Essayez de ne pas avoir trop de champs. <\/b>Faites en sorte que chaque champ cr\u00e9\u00e9 soit pertinent \u00e0 votre enqu\u00eate, ainsi que pour l&rsquo;analyse des donn\u00e9es. Il faut aussi que votre \u00e9quipe puisse les remplir. <b>Votre base de donn\u00e9es peut n\u00e9cessiter plusieurs tables,<\/b> selon la complexit\u00e9 du sujet et les relations entre les diff\u00e9rentes donn\u00e9es recueillies. <b>Assurez-vous que la base de donn\u00e9es soit facile d\u2019utilisation<\/b> pour toutes les personnes impliqu\u00e9es dans le projet, quel que soit leur niveau technologique. \u00ab Ce doit \u00eatre un outil construit avec et pour les journalistes \u00bb, explique Paul Radu, co-fondateur et charg\u00e9 de l&rsquo;innovation \u00e0 l&rsquo;OCCRP. <b>Rendez la base de donn\u00e9es \u00e9volutive :<\/b> votre conception pourrait \u00eatre la premi\u00e8re \u00e9tape d&rsquo;un futur projet plus important, qu\u2019il soit men\u00e9 par vous et votre \u00e9quipe ou par quelqu&rsquo;un d&rsquo;autre.<\/p>\n<h5><b>3. Testez, testez, testez<\/b><\/h5>\n<p><b>Effectuez un test pilote de la base de donn\u00e9es. <\/b>Remplissez quelques champs pour voir si la base de donn\u00e9es fonctionne comme pr\u00e9vu et pour \u00e9valuer si elle sera utile \u00e0 votre enqu\u00eate. Un bon moyen d&rsquo;estimer la dur\u00e9e du projet : mesurez et calculez le temps moyen n\u00e9cessaire pour ajouter une nouvelle donn\u00e9e puis pour confirmer l\u2019information. <b>Faites une liste de possibles \u00e9cueils <\/b>afin d\u2019\u00e9viter de faire des erreurs. <b>\u00c9valuez la fiabilit\u00e9 et la coh\u00e9rence des champs les plus importants. <\/b>Si plusieurs sources se contredisent, ce qui est courant avec les chiffres ou les dates, mieux vaut placer les informations dans une colonne de d\u00e9tails o\u00f9 vous pouvez d\u00e9crire le d\u00e9saccord plut\u00f4t que de d\u00e9cider arbitrairement qui dit vrai.<\/p>\n<h5><b>4. Remplissez la base de donn\u00e9es<\/b><\/h5>\n<p><b>Servez-vous de ce que vous aurez appris dans cette phase de test pour former les journalistes<\/b> qui recueilleront, saisiront et analyseront les informations dans la base de donn\u00e9es. Assurez-vous que tout le monde comprend les concepts et les cat\u00e9gories de la m\u00eame mani\u00e8re. <b>Utilisez des outils de stockage collaboratif<\/b>, pour que l&rsquo;acc\u00e8s ne d\u00e9pende pas d&rsquo;une seule personne.\u00a0 <b>Divisez les donn\u00e9es en utilisant les cat\u00e9gories que vous avez d\u00e9finies au stade de la conception<\/b> afin que chacun sache qui collecte quelles informations et ainsi \u00e9viter les doublons. <b>Si vous devez extraire des donn\u00e9es du web ou de textes, concentrez vos efforts<\/b> sur ce qui est le plus pertinent pour votre enqu\u00eate. Dans le projet Troika, <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.occrp.org\/en\/troikalaundromat\/about-the-data\">par exemple, il fallait d\u00e9terminer l&rsquo;<i>objet<\/i> des transactions<\/a>. <b>Si vous disposez d\u2019un tel nombre de donn\u00e9es que vous ne savez pas quoi en faire, envisagez de faire appel \u00e0 un professionnel ou \u00e0 une entreprise<\/b> <b>externe<\/b> pour transcrire les documents dans une base de donn\u00e9es pr\u00e9alablement con\u00e7ue avec votre r\u00e9daction.<\/p>\n<h5><b>5. Audit et v\u00e9rification des informations<\/b><\/h5>\n<p>La constitution de la base de donn\u00e9es n&rsquo;est que la premi\u00e8re \u00e9tape de l&rsquo;enqu\u00eate. <b>Avant d&rsquo;analyser les donn\u00e9es et d\u2019en tirer des conclusions, vous devez les confirmer avec les sources originales,<\/b> qu&rsquo;il s&rsquo;agisse de documents ou d\u2019individus. \u00ab\u00a0Nous avons confront\u00e9 les municipalit\u00e9s o\u00f9 des massacres ont eu lieu aux donn\u00e9es recueillies afin que les survivants puissent corriger les erreurs que les m\u00e9dias et d&rsquo;autres personnes racontaient depuis des ann\u00e9es\u00a0\u00bb, explique \u00d3scar Parra \u00e0 propos de l&rsquo;un de ses projets \u00e0 Rutas del Conflicto. <b>D\u00e9cidez du type d&rsquo;audit que vous effectuerez. <\/b>Il variera en fonction de la port\u00e9e de votre projet. Vous pouvez v\u00e9rifier chaque donn\u00e9e en la recoupant avec les documents originaux ou vous pouvez effectuer des contr\u00f4les al\u00e9atoires, mais ces v\u00e9rifications doivent couvrir un nombre important d\u2019informations dans la base de donn\u00e9es. Dans les deux cas, la personne qui examine les donn\u00e9es ne doit pas \u00eatre celle qui les a saisies. <b style=\"font-weight: 400;\">Que <\/b><b>recherchez vous<\/b><b style=\"font-weight: 400;\"> au cours de l&rsquo;audit? <\/b>Les fautes de frappe, les chiffres, les dates, les doublons et les enregistrements qui ne r\u00e9pondent pas aux crit\u00e8res. <b>Deux id\u00e9es pour v\u00e9rifier les chiffres :<\/b> faire en sorte que le syst\u00e8me additionne automatiquement les totaux et les compare \u00e0 ceux des documents originaux, et trie les donn\u00e9es pour trouver les valeurs aberrantes (les chiffres trop grands ou trop petits peuvent \u00eatre erron\u00e9s). <b>La base de donn\u00e9es ne sera pas pr\u00eate \u00e0 l&#8217;emploi tant que n&rsquo;auront pas \u00e9t\u00e9 effectu\u00e9s :<\/b> une v\u00e9rification des faits, un audit des donn\u00e9es, une confrontation de source individuelles et un examen juridique. Une carte d\u00e9taillant les attaques contre les d\u00e9fenseurs de l&rsquo;environnement en Am\u00e9rique du Sud et en Am\u00e9rique centrale, r\u00e9alis\u00e9e par l&rsquo;\u00e9quipe de Tierra de Resistentes. Capture d&rsquo;\u00e9cran.<\/p>\n<h5><b>Logiciel<\/b><\/h5>\n<p>En tant que journaliste, vous n&rsquo;avez pas besoin de devenir d\u00e9veloppeur pour travailler sur un projet de base de donn\u00e9es. Mieux vaut ajouter quelqu&rsquo;un avec cette expertise \u00e0 votre \u00e9quipe et travailler en partenariat. Cette liste d&rsquo;outils peut vous \u00eatre utile :<\/p>\n<p><b>Applications pour cr\u00e9er un formulaire en ligne<\/b> qui aidera les journalistes \u00e0 remplir la base de donn\u00e9es : Google Forms, <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/nodejs.org\/en\/\">Node.js<\/a>, <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.djangoproject.com\/\">Django<\/a> ou <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/medium.com\/@amelie_yeh\/data-visualization-on-the-web-with-flask-11a3b1f7a476\">Flask.<\/a> <b>Stockage de la base de donn\u00e9es : <\/b><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.mongodb.com\/cloud\/atlas\">MongoDB Atlas<\/a> ou <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/firebase.google.com\/\">Firebase de Google<\/a>. <b>Pour structurer et traiter les donn\u00e9es : <\/b><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.python.org\/\">Python<\/a> (qui peut \u00eatre reli\u00e9 aux options de stockage mentionn\u00e9es ci-dessus), <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.postgresql.org\/\">PostgreSQL<\/a>, <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/aws.amazon.com\/elasticsearch-service\/the-elk-stack\/#:~:text=The%20ELK%20stack%20is%20an,Elasticsearch%2C%20Logstash%2C%20and%20Kibana.\">ELK Stack<\/a> et <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.claris.com\/\">Filemaker.<\/a>\u00a0 <b>Pour l&rsquo;extraction de donn\u00e9es et la conversion PDF : <\/b><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/pdf.wondershare.com\/pdf-converter-pro\/\">Wondershare Pdf Converter Pro,<\/a> convertisseur de base Google Documents, <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.ilovepdf.com\/\">iLovePDF<\/a>, <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/smallpdf.com\/\">Smallpdf,<\/a><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/tabula.technology\/\">Tabula, <\/a><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.import.io\/\">Import.io.<\/a> Vous pouvez \u00e9videmment t\u00e9l\u00e9charger la base de donn\u00e9es et <b>travailler dessus avec Excel ou Google Spreadsheets. <\/b>Pour les petits projets, il peut \u00eatre bon de commencer avec l\u2019un ou l\u2019autre outil.<\/p>\n<h5><b>Ultimes recommandations et conseils<\/b><\/h5>\n<p><b>La s\u00e9curit\u00e9 est un probl\u00e8me cl\u00e9<\/b> dans ce type de projets, alors utilisez des communications crypt\u00e9es, sauvegardez les donn\u00e9es \u00e0 plusieurs endroits et tenez compte de votre s\u00e9curit\u00e9 personnelle. <b>Apprenez \u00e0 utiliser Excel,<\/b> mais collaborez \u00e9galement avec des sp\u00e9cialistes du traitement de donn\u00e9es et des d\u00e9veloppeurs. <b>Soyez conscient des instruments qui peuvent faciliter le travail :<\/b> outils de web scraping, formulaires en ligne pour remplir la base de donn\u00e9es, convertisseurs PDF, num\u00e9risation avec OCR (reconnaissance optique de signes) et traitement de texte massif. OCCRP a<a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/aleph.occrp.org\/?_gl=1*1iqo6qs*_ga*MzcwNTU2NzQ2LjE2MjE5NDEwMDM.*_ga_NHCZV5EYYY*MTYyMjY5NTU4NC4xMi4xLjE2MjI2OTU2MjYuMTg.\"> cr\u00e9\u00e9 Aleph<\/a>, une plateforme qui effectue quasiment toutes ces t\u00e2ches : elle facilite l&rsquo;acc\u00e8s, la recherche, la translitt\u00e9ration et la lecture de gros volumes de documents multi-formats. Puisque ces initiatives n\u00e9cessitent g\u00e9n\u00e9ralement de grandes \u00e9quipes, <strong>n<\/strong><b>ommez un chef de projet<\/b> et envisagez une enqu\u00eate collaborative. <b>Soyez transparents avec le public par rapport \u00e0 votre m\u00e9thodologie et \u00e0 vos sources<\/b>, en supposant que les protocoles de s\u00fbret\u00e9 et de s\u00e9curit\u00e9 le permettent. Montrez un \u00e9chantillon des documents originaux \u00e0 partir desquels vous avez cr\u00e9\u00e9 la base de donn\u00e9es pour renforcer la cr\u00e9dibilit\u00e9 de votre enqu\u00eate. <b>Publiez vos coordonn\u00e9es en m\u00eame temps que l&rsquo;enqu\u00eate<\/b> afin que les lecteurs puissent poser des questions ou vous informer s&rsquo;ils constatent des erreurs dans la base de donn\u00e9es.<\/p>\n<h4><b>Ressources compl\u00e9mentaires<\/b><\/h4>\n<p><a href=\"https:\/\/gijn.org\/2021\/05\/04\/enquete-data-investigation-sdf-sans-abris-societe-britannique\/\"><i>L\u2019enqu\u00eate data qui a chang\u00e9 le regard de la soci\u00e9t\u00e9 britannique sur les sans-abris<\/i><\/a><\/p>\n<p><em><a href=\"https:\/\/gijn.org\/2019\/05\/28\/violences-policieres-comment-un-journaliste-freelance-a-reussi-a-briser-un-tabou-mediatique-en-france\/\">Violences polici\u00e8res : comment un journaliste freelance a r\u00e9ussi \u00e0 briser un tabou m\u00e9diatique en France<\/a><\/em><\/p>\n<p><a href=\"https:\/\/gijn.org\/2019\/10\/08\/les-meilleurs-outils-pour-collecter-des-donnees-exclusives\/\"><em>Les meilleurs outils pour collecter des donn\u00e9es exclusives<\/em><\/a><\/p>\n<p><b><i><\/i><\/b><b><i><a href=\"https:\/\/gijn.org\/wp-content\/uploads\/2021\/07\/miriam-1.jpg\"><\/a>Miriam Forero Ariza<\/i><\/b><i> est une journaliste d&rsquo;investigation et de donn\u00e9es ind\u00e9pendante colombienne dont le travail a \u00e9t\u00e9 publi\u00e9 par Vice, Colombiacheck et El Espectador. Elle a plus de dix ans d&rsquo;exp\u00e9rience dans les enqu\u00eates collaboratives, l&rsquo;analyse de donn\u00e9es et les visualisations. Elle a co-\u00e9crit l\u2019Iberoamerican Data Journalism Handbook.<\/i><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cr\u00e9er sa propre base de donn\u00e9es peut \u00eatre le point de d\u00e9part d&rsquo;une grande enqu\u00eate journalistique. Voici plusieurs conseils m\u00e9thodologiques cruciaux pour obtenir et structurer les donn\u00e9es que vous recueillez.\u00a0<\/p>\n","protected":false},"author":3031133,"featured_media":357488,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_price":"","_stock":"","_tribe_ticket_header":"","_tribe_default_ticket_provider":"","_tribe_ticket_capacity":"0","_ticket_start_date":"","_ticket_end_date":"","_tribe_ticket_show_description":"","_tribe_ticket_show_not_going":false,"_tribe_ticket_use_global_stock":"","_tribe_ticket_global_stock_level":"","_global_stock_mode":"","_global_stock_cap":"","_tribe_rsvp_for_event":"","_tribe_ticket_going_count":"","_tribe_ticket_not_going_count":"","_tribe_tickets_list":"[]","_tribe_ticket_has_attendee_info_fields":false,"republication-tracker-tool-hide-widget":false,"footnotes":"","_tec_slr_enabled":"","_tec_slr_layout":""},"categories":[23098],"tags":[11425,5470],"gijn_topic":[],"series":[],"gijn_language":[17784],"gijn_region":[],"class_list":["post-370972","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-histoires","tag-base-de-donnees","tag-data-journalisme","gijn_language-fr-fr"],"acf":[],"ticketed":false,"_links":{"self":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts\/370972","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/users\/3031133"}],"replies":[{"embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/comments?post=370972"}],"version-history":[{"count":1,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts\/370972\/revisions"}],"predecessor-version":[{"id":1224218,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts\/370972\/revisions\/1224218"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/media\/357488"}],"wp:attachment":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/media?parent=370972"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/categories?post=370972"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/tags?post=370972"},{"taxonomy":"gijn_topic","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/gijn_topic?post=370972"},{"taxonomy":"series","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/series?post=370972"},{"taxonomy":"gijn_language","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/gijn_language?post=370972"},{"taxonomy":"gijn_region","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/gijn_region?post=370972"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}