Paramètres d'accessibilité

taille du texte

Options de couleurs

monochrome couleurs discrètes sombre

Outils de lecture

isolement règle

Articles

Développer une « culture data » : mode d’emploi

Lire cet article en

Aujourd’hui, dans les rédactions print et numérique de toutes tailles, la data fait partie intégrante de la manière dont les journalistes traitent tous les sujets, des dépenses des collectivités locales à l’évolution du changement climatique. Les journalistes se servent des données pour confirmer des tendances, démystifier des idées reçues et répondre à des questions auxquelles les sources humaines ne pourraient pas répondre.

Le data-journalisme existe depuis les années 1950 mais ce domaine a connu un essor fulgurant après le tournant du millénaire, lorsque la publication en ligne a rendu possibles les bases de données interactives, les archives consultables et la visualisation des données.

Mais toutes les rédactions n’ont pas mis en place l’infrastructure éditoriale nécessaire pour répondre à l’utilisation croissante des données. Les rédacteurs en chef qui ont gravi les échelons au sein de rédactions classiques sont de plus en plus souvent amenés à valider et à réviser des articles qui s’appuient essentiellement sur des feuilles de calcul, des ensembles de données et des analyses statistiques… sans avoir ni la formation ni une idée précise de ce que ce processus exige réellement d’eux.

MaryJo Webster, rédactrice en chef data au Minneapolis Star Tribune, travaille depuis des décennies avec des données et forme des journalistes. Elle affirme que le processus d’élaboration et de rédaction d’un article fondé sur des données suit la même logique que n’importe quel autre sujet. Il s’agit de trouver une source, de la vérifier, de la questionner et d’interpréter les réponses de manière impartiale. Les questions auxquelles les données peuvent répondre — Qui est lésé ? Où vont les deniers publics ? Et la politique fonctionne-t-elle comme promis ? — sont les mêmes que celles que le journalisme d’investigation cherche à élucider. La différence réside dans le fait que la source est un tableur, ce qui nécessite un ensemble d’instincts spécifiques.

« Il est vraiment important de considérer les data-journalistes ou les reporters qui utilisent des compétences en matière de données dans leur travail comme n’étant pas si différents des autres journalistes de la rédaction », explique MaryJo Webster, formateur principal d’un cours de quatre semaines organisé par le Knight Center sur ce sujet. « Ils posent des questions et partagent des réponses. Ils utilisent simplement une sorte de langue étrangère pour obtenir des réponses que nous ne pouvons pas obtenir autrement. »

GIJN a suivi ce cours afin de partager les enseignements clés destinés aux journalistes et rédacteurs en chef travaillant sur des articles data — des conseils qui couvrent le processus d’un contenu de ce type, de l’évaluation des sources à la mise au point de la version finale, en passant par la supervision des visualisations.

Développer une « culture data »

MaryJo Webster, rédactrice en chef data au Minnesota Star Tribune. Image: MaryJo Webster

Au fond, le data-journalisme consiste à « interroger » des données structurées. Les informations stockées en lignes et en colonnes sont analysées de la même manière qu’un journaliste interroge une source, mais dans ce cas, ce sont les langages de programmation et les tableurs qui permettent de mener ces entretiens. Souvent, quand les gens entendent parler de journalisme de données, ils pensent que tout repose sur les mathématiques, explique MaryJo Webster, mais il s’agit souvent de savoir interpréter ce que l’on voit dans un tableur. Les données peuvent vous aider à répondre à des questions auxquelles les sources humaines ne connaissent pas la réponse ou ne peuvent pas y répondre.

C’est en considérant les données comme une source à part entière plutôt que comme un simple complément que les rédacteurs en chef modifient leur approche. Les sources humaines se présentent sous différentes formes : l’informateur de confiance, le « tuyau » et le lanceur d’alerte. Les données peuvent elles aussi jouer tous ces rôles. Selon MaryJo Webster, les données peuvent jouer le rôle de lanceur d’alerte — lorsqu’elles permettent de retracer quelque chose que l’on souhaite découvrir —, d’autres fois, elles peuvent servir de source de contexte, offrant une vue d’ensemble, ou encore de répertoire pour aider à trouver les personnes qui seront au cœur de votre article. Si un article fondé uniquement sur des données, sans personnages, sans sources humaines et sans contexte, est rarement de bonne qualité, souligne MaryJo Webster, les données peuvent néanmoins vous mener aux bonnes pistes.

Les données diffèrent des sources humaines sur plusieurs points importants. Il faut parfois plus de temps pour les maîtriser, surtout si un journaliste travaille avec un ensemble de données pour la première fois. Les données sont souvent imparfaites, ce qui ajoute à la complexité. Mais vous pouvez poser autant de questions que vous le souhaitez et, si les données sont suffisamment détaillées, les réponses peuvent être plus précises que celles que des sources humaines pourraient vous fournir.

MaryJo Webster cite une enquête du Star Tribune sur les plages municipales de Minneapolis situées au bord des lacs comme un exemple flagrant où les données surpassent les sources humaines et constituent une référence fiable. Les responsables municipaux ont confirmé que les fermetures de plages étaient devenues plus fréquentes, mais c’était tout ce qu’ils pouvaient dire. Deux ensembles de données ont permis de compléter le tableau : les fermetures de plages se multipliaient en raison de fortes précipitations qui provoquaient des ruissellements transportant des bactéries dans les lacs.

Il y a une chose que les données ne peuvent pas faire : expliquer le pourquoi, explique MaryJo Webster. Elles peuvent révéler une tendance, mais elles vous indiqueront rarement la cause. Cela nécessite toujours un travail de terrain. Il convient de noter qu’avant de se lancer dans une analyse, un journaliste doit reconnaître que ce n’est pas parce qu’une opportunité de données existe qu’il faut nécessairement la saisir. Les questions que les journalistes et les rédacteurs en chef doivent se poser sont les suivantes :

  • Y a-t-il une question à laquelle les sources humaines ne peuvent véritablement pas répondre
  • Quel niveau de détail est-il nécessaire dans les données ?
  • Un simple chiffre déjà calculé par quelqu’un d’autre suffirait-il pour l’article ?
  • Un autre média a-t-il déjà réalisé l’analyse que vous pourriez utiliser ?
  • Et dans quel délai l’article doit-il être publié ?

Trouver des données fiables 

La recherche de données fiables obéit aux mêmes principes que celle d’autres sources d’information. Les journalistes spécialisés devraient prendre le temps de recenser les données disponibles sur les sujets qu’ils couvrent, par exemple les rapports publiés par les organismes publics concernés ou la manière dont un service de police recense les actes de violence par arme à feu.

Le type de données dont vous disposez, qu’il s’agisse de données synthétiques ou brutes, revêt une importance capitale. Les données synthétiques sont des informations déjà traitées par un tiers, par exemple un tableau indiquant le nombre d’armes de poing saisies dans les établissements scolaires. En revanche, les données détaillées, où chaque ligne peut correspondre à un incident, une personne ou un accident, vous permettent de mener votre propre enquête.

Bien que les données détaillées ne soient pas toujours disponibles et qu’il n’y ait parfois pas le temps de les obtenir, la meilleure façon de les trouver est d’agir comme un journaliste : appeler des personnes, demander aux agences comment les choses sont suivies, remonter la piste documentaire derrière tout chiffre important, car les données récapitulatives renvoient généralement toujours à un ensemble de données original plus riche, selon MaryJo Webster. Il est parfois judicieux de demander un entretien avec les personnes chargées de la collecte des données afin de mieux comprendre leur méthodologie ; les journalistes peuvent également demander à un analyste de commenter l’ensemble de données.

C’est également à ce stade que la vérification rigoureuse des données doit commencer. Avant de demander quoi que ce soit, les journalistes doivent comprendre ce que contiennent réellement les données, comment elles ont été collectées, ce qui en est exclu et si des changements susceptibles d’affecter les chiffres sont survenus au fil du temps.

Le choix de la période à couvrir est une autre décision qui doit être prise dès le début. La règle générale consiste à recueillir autant de données historiques que possible, sur cinq à dix ans si cela est faisable, mais certaines complications reviennent régulièrement, explique MaryJo Webster. Par exemple, la pandémie de COVID-19 a faussé la quasi-totalité des ensembles de données couvrant l’année 2020, quel que soit le sujet, et considérer 2020 comme une année de référence normale fausserait toute analyse de tendance.

Il est tout aussi important de réfléchir à l’« univers de données » souhaité par le journaliste. Par exemple, s’il examine une base de données sur les accidents de voiture qui ne recense que les accidents ayant fait des blessés, des morts ou causé d’importants dommages matériels, mais qu’il souhaite savoir à quelle fréquence des voitures percutent des bâtiments, il trouvera probablement ce jeu de données trop restrictif.

Il arrive parfois qu’aucun ensemble de données approprié n’existe, mais dans ce cas, il est possible d’en créer un. En mars 2020, lorsque l’Argentine a fermé ses frontières pendant la pandémie de COVID-19, les journalistes de La Nación savaient que plus de 21 000 Argentins étaient bloqués à l’étranger, dont beaucoup se trouvaient dans des situations de grande vulnérabilité. Plutôt que de se fier aux estimations limitées du gouvernement, ils ont créé leur propre base de données en lançant un formulaire Google public qui recueillait des informations structurées (lieu, âge, facteurs de vulnérabilité, statut du billet de retour) et l’ont diffusé largement sur les réseaux sociaux. Ils ont également retrouvé les comptes Instagram créés par les voyageurs bloqués et les ont contactés directement. La base de données ainsi constituée a permis à l’équipe de cartographier la concentration des personnes bloquées par pays, d’identifier celles qui se trouvaient dans les situations les plus précaires et de produire des reportages qui ont donné à la crise une ampleur et un visage humain que les sources officielles ne pouvaient pas fournir.

La journaliste de données Natalia Louzau, qui a travaillé sur le projet et était conférencière invitée au cours du Knight Center, a déclaré qu’ils avaient tiré plusieurs leçons clés de ce processus :

  • Concevez en gardant à l’esprit le produit final ; les questions auxquelles vous souhaitez que la base de données réponde doivent déterminer les champs à collecter.
  • Collectez des informations dynamiques plutôt que statiques, comme la date de naissance plutôt que l’âge actuel, afin que les données restent exploitables des années plus tard.
  • Normalisez la saisie des données dès le départ, en utilisant des catégories fixes plutôt que du texte libre dans la mesure du possible, afin que la base de données ne devienne pas un casse-tête à nettoyer avant même de devenir un article.
  • Et ne partez pas du principe qu’une base de données doit être volumineuse pour être utile. La base de données « Qui est qui au Congrès » de La Nación ne comptait que 330 lignes. Cela a suffi pour fournir aux lecteurs des informations sur leurs représentants élus qui n’avaient jamais été rassemblées en un seul endroit auparavant.

La base de données « Qui est qui au Congrès » de La Nación. Image : Capture d’écran, La Nación.

Renforcer la fiabilité

L’amélioration de la fiabilité d’un article data ne peut pas attendre la phase finale de vérification des faits. La résolution des problèmes liés aux données prend du temps ; le processus doit donc débuter dès qu’un journaliste identifie son ensemble de données.

Les deux éléments les plus importants sont la fiabilité des données et l’exactitude de l’analyse. Le conseil de Webster aux journalistes et à leurs rédacteurs en chef est de traiter les nouvelles données comme on traiterait un lanceur d’alerte : avec intérêt, mais avec prudence. « Prenez le temps de les examiner », dit MaryJo Webster. Demandez comment elles ont été collectées, à quelle fréquence elles sont mises à jour, ce qu’elles incluent et ce qu’elles omettent. Parcourez les colonnes. Recherchez tout ce qui semble anormal. Vérifiez s’il y a des codes à traduire, des valeurs incohérentes ou des champs manquants. Si l’organisme qui a produit les données dispose d’un livre de codes ou d’un document méthodologique, utilisez-le. Ne présumez pas que vous comprenez la signification d’un champ avant de l’avoir vérifiée.

Selon MaryJo Webster, l’une des habitudes les plus utiles qu’un data-journaliste puisse adopter consiste à tenir un journal de données, c’est-à-dire un registre continu de toutes les sources utilisées, de toutes les décisions prises en matière de nettoyage des données, ainsi que de toutes les colonnes ajoutées ou transformées au cours de l’analyse. C’est cette trace écrite qui permet de vérifier les conclusions, de repérer les erreurs et de défendre son travail s’il est remis en cause après publication. Les rédacteurs en chef devraient exiger ce journal.

De plus, la présence d’une note explicative sur les données peut remplir une fonction différente mais complémentaire. Cette note fait office de résumé dans lequel sont présentés les principaux résultats, les surprises, les limites, ainsi que des remarques sur la manière dont les données se comparent aux déclarations des sources humaines. Elle doit être simple et ciblée, et les rédacteurs en chef doivent l’examiner avec un regard critique. Lorsqu’un résultat semble remarquable, le réflexe approprié est de le remettre en question : est-ce trop beau pour être vrai ? Quelqu’un l’a-t-il contestée ? L’analyse compare-t-elle ce qui est comparable, ou des facteurs externes tels que les changements démographiques n’ont-ils pas été pris en compte ? La méthodologie de l’ensemble de données sous-jacent a-t-elle changé au cours de la période analysée ? Si un autre média ou chercheur a effectué la même analyse de manière indépendante, les conclusions concordent-elles ? MaryJo Webster suggère également de décrire la méthodologie dans un langage simple. Si elle semble trop compliquée à expliquer clairement, c’est généralement le signe qu’il faut réexaminer certains éléments.

Éditer un article data

La principale erreur dans un article data est de mal présenter une analyse pourtant solide. De longues séries de statistiques. Des chiffres à chaque paragraphe. Des résultats présentés sans préciser s’ils sont surprenants, courants ou alarmants. Selon MaryJo Webster, cela fait rapidement perdre l’intérêt des lecteurs.

  • Il vaut mieux avoir moins de chiffres, bien utilisés, que trop. Cela signifie limiter chaque paragraphe à deux ou trois chiffres au maximum (une autre règle empirique est de ne pas dépasser huit chiffres au total). L’objectif est d’expliquer ce que révèlent les données, pas de les afficher.
  • MaryJo Webster suggère de paraphraser les statistiques comme on paraphraserait une longue citation.
  • Il convient également de noter que les journalistes ne doivent pas hésiter à arrondir les chiffres lorsque cela est honnête. « Environ la moitié » communique plus clairement que « 48,7 % » dans la plupart des contextes, et les décimales impliquent une précision que les données, de par leur nature, ne peuvent pas toujours garantir. MaryJo Webster suggère de les éviter complètement pour les éléments qui ne peuvent pas être divisés, les personnes en étant l’exemple le plus évident.
  • Utilisez des proportions ou des ratios plutôt que des chiffres bruts lorsque l’objectif est de faire des comparaisons.
  • Il est également judicieux d’éviter de faire faire des calculs aux lecteurs. Convertissez les taux pour eux. L’article doit mener le lecteur à la conclusion.

Selon MaryJo Webster, chaque analyse devrait comporter un « chiffre phare », c’est-à-dire la conclusion qui va droit au cœur du sujet. Cela équivaut à la citation la plus percutante d’une source humaine. Les journalistes de données peuvent être réticents à laisser de côté le reste, mais pour les lecteurs, un article articulé autour d’une conclusion claire a plus d’impact qu’un article qui tente de tout présenter. Quel que soit ce chiffre phare, veillez à ce que le lecteur sache comment l’interpréter. Un chiffre n’a aucun sens tant que l’article n’en a pas fourni le contexte.

Au sujet des visualizations

Si l’article contient des graphiques ou des cartes, la première question qu’un rédacteur en chef doit se poser est de savoir si ces éléments visuels transmettent un message ou s’ils se contentent d’afficher des données. Il y a une différence.

Selon CJ Sinner, directeur du graphisme et de la visualisation des données au Star Tribune :

  • Les lecteurs interprètent mieux les graphiques lorsqu’ils comportent un titre explicatif percutant, des annotations claires et des étiquettes directes, plutôt qu’une légende séparée qui oblige le regard à faire des allers-retours. Le rôle du graphique est de faciliter la tâche du lecteur.
  • La couleur a également son importance. Utilisez des couleurs plus vives et plus saturées pour les chiffres les plus importants, et employez-les de manière fonctionnelle plutôt que décorative.Le rouge est associé à des valeurs négatives, le vert à des valeurs positives. Parfois, deux nuances d’une même couleur permettent de mieux mettre en évidence une comparaison qu’une palette de plusieurs couleurs, mais soyez attentif aux questions d’accessibilité pour les lecteurs ayant une perception réduite des couleurs. L’alignement permet de garder un visuel épuré. La proximité des éléments sur un graphique signale des relations. Ce sont des choix de conception qui doivent être mis en œuvre pour que chaque lecteur puisse suivre le récit.
  • Adaptez le type de graphique à ce que les données montrent réellement, par exemple des graphiques linéaires pour les tendances dans le temps.
  • Outre les couleurs et les types de graphiques, les mots utilisés dans la visualisation ont également leur importance. Voici les incontournables : étiquetez les axes. Écrivez les noms en entier plutôt que de les abréger. Annotez les moments clés, tels que les récessions sur un graphique des prix du pétrole ou un changement de politique sur une tendance de la criminalité, et évitez de noyer les informations importantes dans des infobulles sur lesquelles les lecteurs ne penseront peut-être jamais à cliquer.

Le critère ultime est de savoir si l’élément visuel a sa place. Si la même information peut être exprimée plus clairement en une seule phrase, supprimez le graphique. Si le graphique révèle quelque chose qu’une phrase ne peut pas exprimer, assurez-vous qu’il soit conçu de manière à être compris par un lecteur lambda.


Hanna Duggal est la rédactrice de la rubrique « Top Ten in Data Journalism » de GIJN et journaliste de données chez AJ Labs, l’équipe d’Al Jazeera spécialisée dans les données, la narration visuelle et les expérimentations. Elle a réalisé des reportages sur des sujets tels que les forces de l’ordre, la surveillance et les manifestations à l’aide de données, et a rédigé pour le GIJN des articles sur le journalisme de données au Moyen-Orient, sur l’analyse des algorithmes de TikTok et sur l’utilisation des données pour enquêter sur les terres tribales aux États-Unis.

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International

Republier gratuitement nos articles, en ligne ou en version imprimée, sous une licence Creative Commons.

Republier cet article

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Lire la suite

data journalism missing piece mistake

Actualités et analyses Climat Data journalisme

10 erreurs courantes dans le data-journalisme

Riches retours d’expériences. GIJN a demandé à des data-journalistes à travers le monde quelles étaient les lacunes en matière de data-journalisme qu’ils constataient et quels étaient les sujets peu couverts que les salles de presse pouvaient aborder.

Data journalisme

10 étapes pour se lancer dans le data journalisme

Avec l’évolution de l’industrie des médias, le data journalisme s’imposera de plus en plus à tous les médias. Mais, bonne nouvelle, même les médias de petite taille peuvent s’y mettre. Et voici 10 étapes pour y arriver.

Data-journalisme : Raconter les histoires humaines derrière les données

Lors du sommet sur le journalisme de données NICAR26, un panel de journalistes de données a partagé des conseils sur la manière de mettre en valeur et de contextualiser les reportages d’intérêt public fondés sur des données, en s’adressant aux citoyens qui sont les premiers à subir les conséquences des politiques.