Ressource

» Fiche Conseils

•

Thématiques

» Data journalisme » Outils et conseils pour enquêter

Boîte à Outils : extraire des données sans savoir coder

Par Rowan Philp • 5 juillet 2022

Lire cet article en

中文

Dans la boîte à outils de GIJN nous passons en revue les outils utiles aux journalistes d’investigation. Découvrez dans cet article trois solutions gratuites et faciles à utiliser pour extraire les données contenues dans des documents. Ces techniques ont été présentées lors de la récente 2022 Investigative Reporters & Editors Conference (IRE22) où elles ont suscité l’enthousiasme et l’approbation des journalistes présents.

Quand les journalistes obtiennent enfin les documents dont ils ont besoin pour leurs enquêtes, ils sont souvent confrontés à une deuxième difficulté : comment sélectionner et extraire les données pour qu’elles puissent être utilisées et copiées dans des tableurs ? Pour beaucoup de petites rédactions, la saisie manuelle, le codage avancé ou les services onéreux de reconnaissance optique de caractères (ROC) ne sont pas des options réalistes.

Par ailleurs, plusieurs journalistes ‘sentinelles’ expérimentés qui assistaient à la conférence IRE22 ont fait remarqué qu’ils constataient non seulement une augmentation du nombre de documents publics publiés dans des formats non structurés ou “à mise en page fixe” – comme les documents scannés ou les PDF “aplatis” – mais aussi que certaines agences gouvernementales utilisaient délibérément ces formats pour compliquer l’accès aux données, et donc les reportages.

Les journalistes doivent enfin relever un dernier défi : un grand nombre d’agences gouvernementales demandent aux reporters de rechercher par eux-mêmes sur les pages web les données souhaitées, ce qui nécessite de copier et de coller des cases individuelles dans des tableaux, puis de cliquer manuellement sur de nombreux onglets ou fiches pour arriver à la fin du fichier.

“Je demande énormément de documents du service public et je constate qu’il est désormais très rare qu’on m’envoie le document ou les données au format que j’ai demandé”, a dit Kenny Jacoby, journaliste d’investigation à USA Today, qui a présenté plusieurs outils PDF lors de la conférence. “On a parfois l’impression que l’agence gouvernementale qui vous fournit le document fait tout pour vous rendre la vie impossible, par exemple en supprimant le texte d’un document en PDF, en le scannant avant de l’envoyer, ou en mettant les données dans un format non structuré, sans lignes ni colonnes. Ces entraves peuvent nous ralentir considérablement, alors il est important de disposer d’outils pour les contourner.”

Google Pinpoint — et ses nouvelles fonctionnalités pour venir à bout des PDF

En 2020, GIJN a été parmi les premiers à annoncer la mise en service d’un nouvel outil d’analyse de document utilisant l’intelligence artificielle, conçu par le Google Journalist Studio et désormais disponible sous la marque “Pinpoint”. À l’époque, nous avions décrit ce nouvel outil comme une fonction “Ctrl-F à turbocompresseur” présentant une ROC avancée qui pouvait effectuer des recherches dans des quantités impressionnantes de documents et d’images. Lors d’une présentation sur les données qui s’est tenue dans le cadre de la conférence IRE22, Jacoby a indiqué que Pinpoint est devenu depuis un outil numérique gratuit, d’accès facile, en partie grâce aux contributions de journalistes d’investigation auprès des concepteurs de l’outil.

Jacoby a montré que les fonctionnalités de données comprennent désormais les caractéristiques suivantes :

Si vous recherchez un seul mot clé – par exemple, “faculté” – non seulement Pinpoint réussira à trouver ce mot partout où il se trouve dans votre fichier de recherche téléchargé, mais il affichera aussi en surbrillance les mots connexes, comme “enseignant”, “campus” ou “professeur”. Il trouvera aussi les variations de conjugaison pour le terme recherché ; il fonctionne dans sept langues, notamment le français, l’espagnol, le portugais et le polonais ; et il est possible d’exclure les termes non désirés en ajoutant le signe “moins”.
Téléchargez le nombre de documents que vous voulez, scannés ou en format PDF – ou même des pages de texte écrit à la main – et l’outil peut rapidement les transformer en texte “dynamique” dans lequel vous pourrez faire des recherches et du copier-coller. Cet outil est même capable de lire des mots écrits autrement qu’horizontalement.
Cet outil peut non seulement reconnaître et transformer en texte la signalisation et les graffitis qui se trouvent sur des photos, mais il peut aussi reproduire de longs passages rédigés en lettres minuscules qu’il identifie sur des plaques ou des panneaux d’affichage en arrière-plan. (Certains des journalistes qui assistaient à la démonstration ont littéralement poussé un cri de surprise quand ils ont vu Pinpoint réussir à lire et à traiter les lettres minuscules qui se trouvaient sur une plaque biographique que l’on voyait de biais sur une photo. Une journaliste de NBC Telemundo, Valezka Gil, s’est exclamée : “Incroyable ! Vous venez de me changer la vie. Cela va me permettre de gagner un temps fou.”)
Jacoby indique que la fonctionnalité de transcription audio et video est maintenant tellement avancée qu’il utilise l’outil gratuit Pinpoint plutôt que des services de transcription spécialisés comme Trint ou Otter – qui comportent des frais d’abonnement peu élevés – pour créer des transcriptions de ses interviews audio dans lesquelles il peut effectuer des recherches. “Cette fonctionnalité est identique aux outils payants, mais elle est gratuite”, a-t-il indiqué. “Mais il y a une chose qu’elle ne fait pas, contrairement à Trint et Otter : identifier la personne qui s’exprime et assigner un nom à chaque personne, par exemple ‘Intervenant 2’. Elle identifie toutefois les pauses logiques dans une conversation, ainsi que les inflexions dans la voix. Il vous suffit de cliquer sur un point particulier dans la transcription du texte et vous entendrez l’enregistrement défiler à partir de ce point donné.”

Jacoby a indiqué que l’accès gratuit aux fonctionnalités de Pinpoint est maintenant très simple, et qu’il est possible de demander de l’espace supplémentaire à ses techniciens pour stocker des données volumineuses.

“Il est vrai qu’il vous faut une autorisation pour l’utiliser, mais quand nous nous sommes inscrits, moi et mon épouse – elle est aussi journaliste – on nous a délivré une autorisation presque instantanément”, a-t-il fait remarquer. “Il vous faudra peut-être une adresse mail professionnelle, mais il n’est pas compliqué de s’inscrire, et l’équipe est très réactive.”

Seul bémol : Pinpoint est un service exclusivement en ligne.

“Cela signifie qu’il vous faut une connexion Internet et que vous devez télécharger vos documents sur un serveur, quelque part. Ainsi, si Google était assigné à comparaître, il est possible que vos documents soient remis à la justice”, a-t-il averti. “Par ailleurs, cet outil ne vous permet pas d’enregistrer le document ROC obtenu, qui ne se trouve que sur Pinpoint. Vous devez donc copier-coller le texte. Mais Pinpoint possède probablement la meilleure ROC qui existe.”

Les journalistes qui ont assisté à la conférence IRE22 ont été stupéfaits d’apprendre que la fonctionnalité de reconnaissance optique de caractère (ROC) de l’outil gratuit, Google Pinpoint, est assez puissante pour lire et transcrire des textes rédigés avec des lettres aussi petites que celles qui figurent sur la plaque biographique sur cette photo. Image : Kenny Jacoby

Formules ImportHTML et ImportXML pour les données des sites web

Comme Craig Silverman, de ProPublica, en a récemment fait la démonstration pour GIJN, le code source de tout site web propose une pléthore d’outils de recherche aux journalistes d’investigation et, en dépit de son aspect impressionnant pour les personnes qui ne s’y connaissent pas en codage, ce code ne demande aucune compétence particulière hormis le fait de savoir à quoi correspondent “Contrôle-F” ou “Commande-F”, pour naviguer.

Lors d’une présentation sur la récupération de données avec Google Sheets qui s’est tenu dans le cadre de la conférence IRE22, la journaliste indépendante Samantha Sunne a fait une démonstration sur la manière dont ce code peut aussi être utilisé pour capturer facilement de long tableaux ou des données spécifiques sur des sites web et – en quelques secondes – mettre toutes ces données dans un tableur au format qui vous convient. Il n’est pas nécessaire de copier et de coller individuellement le contenu de centaines de cases dans votre fichier. La technique implique une formule pour donner des instructions à Google Sheets — dans la première case, en haut à gauche — afin que cet outil puisse extraire un élément de code source dont vous avez besoin sur une page web (le code qui permet de construire, par exemple, un tableau de données qui vous a plu sur cette page web).

En fait, vous n’avez pas vraiment besoin de chercher un code particulier pour extraire un tableau de données bien formaté de n’importe quel site. Il vous suffit de suivre ces étapes :

Pour importer un tableau de données d’une page web, quelle que soit sa longueur, tapez tout simplement cette formule dans Google Sheets : =IMPORTHTML(“URL”, “table”). Si les données sont sous forme de liste, essayez “list” au lieu de “table” et, si vous voulez, par exemple, la liste suivante qui figure sur une page, essayez d’ajouter le chiffre 2 après une virgule et un espace : =IMPORTHTML(“URL”, “list”, 2)

Quand GIJN a essayé cet outil pour importer un tableau comportant les noms de 564 banques en difficulté à partir du site web de l’organisme américain de garantie des déposants, la Federal Deposit Insurance Corp., le processus — copier l’URL de la FDIC URL, ouvrir Google Sheets et visualiser la liste entière de banques parfaitement formatée en colonnes – a pris en tout et pour tout moins de 15 secondes. Toutefois, il est important d’utiliser la bonne ponctuation pour la formule, notamment en ajoutant une virgule après l’URL ainsi que des guillemets avant et après les deux éléments entre parenthèses. Par ailleurs – et c’est très appréciable – toute mise à jour des données de ce site web dynamique apparaîtra aussi automatiquement dans la Google Sheet. Ainsi, vous n’aurez pas à vérifier constamment la page pendant votre enquête, sauf si vous avez désactivé la fonctionnalité de mise à jour.

Samantha Sunne a toutefois ajouté qu’il était également important que les reporters se familiarisent, ne serait-ce qu’un minimum, avec le format html pour avoir une idée de la manière dont sont mises en forme les données que nous voyons sur les pages web. Cela leur permettra d’exploiter des informations formatées de manière imparfaite et de faire des recherches bien plus approfondies avec des formules avancées.

Pour trouver le code qui construit toute page web, il vous suffit de cliquer avec le bouton droit de la souris sur n’importe quel espace vide ou blanc sur un site, puis de cliquer sur “view page source” ou “show page source.” En général, a-t-elle ajouté, il est important de garder à l’esprit que les mots que l’on voit sur la page web doivent aussi apparaître sur la page de code source de l’ordinateur, afin que vous puissiez tout simplement faire “Ctrl-F” pour trouver n’importe quel terme de donnée dans ce code, voir quelles balises sont utilisées pour le saisir, et faire des essais avec ces balises dans la formule.

“Même si elle est utile, la formule ImportHTML ne peut rechercher que les tableaux et les listes. Mais il y a une autre formule, ImportXML, qui peut rechercher n’importe quel élément html”, a expliqué Sunne. “Elle lui ressemble beaucoup – le signe “égal” ; le nom de la formule, l’URL – mais vous pouvez être beaucoup plus précis.” Voici comment procéder :

Pour importer des éléments spécifiques de données spécifiques sur une page web – comme des lignes dans un tableau, ou uniquement les caractères en gras, ou les rubriques – essayez une formule comme celle-ci (pour un exemple de rubriques de données) : =IMPORTXML(“URL”, “//h2”) , ou ceci (pour les lignes d’un tableau) : =IMPORTXML(“URL”, “//table/tr”)

Il y a beaucoup d’éléments html fréquemment utilisés, comme “//h2” (en-tête) et “/tr” (ligne dans un tableau) – que l’on peut trouver dans les dictionnaires html – mais Sunne recommande aux journalistes de prendre simplement note des éléments qui entourent les données dont ils ont besoin et d’identifier les balises clés du jargon informatique qui peuvent les aider à affiner les importations de données. Pour vous entraîner, essayez d’utiliser ces deux techniques de récupération de données sur de longs sites sur Wikipedia, qui comportent généralement plusieurs listes et tableaux de données.

Tesseract, avec ImageMagick, pour extraire des données hors ligne en toute sécurité

Kenny Jacoby, de USA Today, a indiqué qu’un moteur de ROC en source ouverte appelé Tesseract propose une solution très performante d’extraction de données pour les documents sensibles ainsi que pour les archives de données qui sont immenses, si la qualité des données saisies est suffisamment bonne. Par ailleurs – et c’est très appréciable – sa dernière version en date reconnaît aussi plus de 100 langues, ainsi que les textes écrits de droite à gauche en hébreu ou en arabe.

Tesseract convertit des images sans calque de texte en documents PDF sélectionnables, dans lesquels vous pourrez effectuer des recherches. Jacoby a ajouté que cet outil est particulièrement performant quand il s’agit de convertir des lots importants de documents “plats” en texte dynamique qui peut être copié et collé. Il a précisé que cela implique de convertir au préalable les documents PDF en images à haute résolution – dans l’idéal, en utilisant l’outil ImageMagick tool en source ouverte – puis de les transférer dans Tesseract pour obtenir les données récupérées.

“Sa ROC n’est pas aussi performante que Pinpoint, mais elle n’est pas mal du tout”, a ajouté Jacoby. “Un avantage de taille, toutefois, c’est que cet outil est hors ligne : vous pouvez tout faire sur votre ordinateur, donc cet outil est tout indiqué pour les travaux sensibles. Il est vraiment performant pour les conversions par lot ; vous pouvez par exemple appliquer la ROC à chaque document d’un lot de 1000.”

Il a précisé : “Vous devrez peut-être améliorer la qualité de l’image ou le contraste, mais avec ImageMagick, vous pouvez accroître la qualité de l’image.”

Par ailleurs, Jacoby a recommandé le guide détaillé sur les outils Tesseract et ImageMagick rédigé par le journaliste d’investigation Chad Day, du Wall Street Journal, que vous trouverez ici sur Github.

La solution Tesseract requiert des compétences “intermédiaires” en codage, mais Jacoby a indiqué que cette question peut être réglée en une fois : une personne compétente peut installer le programme lors d’une visite et fournir au journaliste deux courtes lignes de code qu’il pourra utiliser par la suite pour chaque extraction de données. Pour extraire des tableaux imprimés en format PDF, Jacoby a recommandé l’appli Tabula – un outil en source ouverte bien connu qui a été créé par des journalistes de OpenNews et de ProPublica. “En substance, il libère les tableaux de données du format PDF et les transfère dans des tableurs”, a-t-il expliqué.

Avec Tabula, les reporters peuvent tout simplement dessiner un cadre autour d’un tableau sur leurs écrans d’ordinateur pour extraire les données qui les intéressent. Cet outil peut aussi détecter des tableaux de manière automatique, notamment ceux qui n’ont pas de bordure. Tabula nécessite des documents “dynamiques” ou passés par la ROC, mais Jacoby a souligné que cet outil fonctionne bien avec des fichiers texte créés par Tesseract. “L’outil peut aussi être utilisé hors ligne, ce qui signifie que vous pouvez travailler en toute discrétion”, a-t-il fait remarquer.

Ressources complémentaires

Comment créer votre propre base de données

Découvrir les liens entre différents sites webs avec SpyOnWeb, VirusTotal et SpiderFoot HX

Les meilleurs outils pour collecter des données exclusives

Rowan Philp est journaliste à GIJN. Auparavant, Rowan a été reporter en chef pour le Sunday Times sud-africain. En tant que correspondant à l’étranger, il a réalisé des reportages sur l’actualité, la politique, la corruption et les conflits dans plus de vingt pays dans le monde entier.

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International

Republier gratuitement nos articles, en ligne ou en version imprimée, sous une licence Creative Commons.

Lire d'autres articles avec le mot-clé :

Archives & Documents Data journalisme investigative Journalism investigative reporting

Republier cet article

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International

Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

<h2>Bo&icirc;te &agrave; Outils : extraire des donn&eacute;es sans savoir coder</h2> Par <a href="https://gijn.org/about/staff-member/rowan-philp/">Rowan Philp</a> for Global Investigative Journalism Network &bull; 5 juillet 2022 Dans la <a href="https://gijn.org/series/the-toolbox/">bo&icirc;te &agrave; outils de GIJN </a>nous passons en revue les outils utiles aux journalistes d&rsquo;investigation. D&eacute;couvrez dans cet article trois solutions gratuites et faciles &agrave; utiliser pour extraire les donn&eacute;es contenues dans des documents. Ces techniques ont &eacute;t&eacute; pr&eacute;sent&eacute;es lors de la r&eacute;cente <a href="https://www.ire.org/training/conferences/ire-2022/">2022 Investigative Reporters &amp; Editors Conference</a> (IRE22) o&ugrave; elles ont suscit&eacute; l&rsquo;enthousiasme et l&rsquo;approbation des journalistes pr&eacute;sents.Quand les journalistes obtiennent enfin les documents dont ils ont besoin pour leurs enqu&ecirc;tes, ils sont souvent confront&eacute;s &agrave; une deuxi&egrave;me difficult&eacute; : comment s&eacute;lectionner et extraire les donn&eacute;es pour qu&rsquo;elles puissent &ecirc;tre utilis&eacute;es et copi&eacute;es dans des tableurs ? Pour beaucoup de petites r&eacute;dactions, la saisie manuelle, le codage avanc&eacute; ou les services on&eacute;reux de reconnaissance optique de caract&egrave;res (ROC) ne sont pas des options r&eacute;alistes.Par ailleurs, plusieurs journalistes &lsquo;sentinelles&rsquo; exp&eacute;riment&eacute;s qui assistaient &agrave; la<img class="alignright" src="https://gijn.org/wp-content/uploads/2022/06/IRE22-logo.png" alt="IRE22 logo" width="183" height="170"> conf&eacute;rence IRE22 ont fait remarqu&eacute; qu&rsquo;ils constataient non seulement une augmentation du nombre de documents publics publi&eacute;s dans des formats non structur&eacute;s ou &ldquo;&agrave; mise en page fixe&rdquo; &ndash; comme les documents scann&eacute;s ou les PDF &ldquo;aplatis&rdquo; &ndash; mais aussi que certaines agences gouvernementales utilisaient d&eacute;lib&eacute;r&eacute;ment ces formats pour compliquer l&rsquo;acc&egrave;s aux donn&eacute;es, et donc les reportages.Les journalistes doivent enfin relever un dernier d&eacute;fi : un grand nombre d&rsquo;agences gouvernementales demandent aux reporters de rechercher par eux-m&ecirc;mes sur les pages web les donn&eacute;es souhait&eacute;es, ce qui n&eacute;cessite de copier et de coller des cases individuelles dans des tableaux, puis de cliquer manuellement sur de nombreux onglets ou fiches pour arriver &agrave; la fin du fichier.&nbsp;&ldquo;Je demande &eacute;norm&eacute;ment de documents du service public et je constate qu&rsquo;il est d&eacute;sormais tr&egrave;s rare qu&rsquo;on m&rsquo;envoie le document ou les donn&eacute;es au format que j&rsquo;ai demand&eacute;&rdquo;, a dit <a href="https://twitter.com/kennyjacoby">Kenny Jacoby</a>, journaliste d&rsquo;investigation &agrave; USA Today, qui a pr&eacute;sent&eacute; plusieurs outils PDF lors de la conf&eacute;rence. &ldquo;On a parfois l&rsquo;impression que l&rsquo;agence gouvernementale qui vous fournit le document fait tout pour vous rendre la vie impossible, par exemple en supprimant le texte d&rsquo;un document en PDF, en le scannant avant de l&rsquo;envoyer, ou en mettant les donn&eacute;es dans un format non structur&eacute;, sans lignes ni colonnes. Ces entraves peuvent nous ralentir consid&eacute;rablement, alors il est important de disposer d&rsquo;outils pour les contourner.&rdquo;<h4>Google Pinpoint &mdash; et ses nouvelles fonctionnalit&eacute;s pour venir &agrave; bout des PDF</h4><aside class="module align-right half type-pull-quote">&ldquo;Incroyable ! Vous venez de me changer la vie. Cela va me permettre de gagner un temps fou.&rdquo; &mdash; La journaliste de NBC Telemundo, Valezka Gil, &agrave; propos de Google Pinpoint.</aside>En 2020, GIJN a &eacute;t&eacute; parmi les premiers &agrave; <a href="https://gijn.org/2020/10/26/tools-for-campaign-sources-disinfo-spying-ai-search-and-election-day-scenarios-from-gijnelectionwatchdog/">annoncer la mise en service</a>&nbsp;d&rsquo;un nouvel outil d&rsquo;analyse de document utilisant l&rsquo;intelligence artificielle, con&ccedil;u par le Google Journalist Studio et d&eacute;sormais disponible sous la marque &ldquo;<a href="https://journaliststudio.google.com/pinpoint/collections">Pinpoint</a>&rdquo;. &Agrave; l&rsquo;&eacute;poque, nous avions d&eacute;crit ce nouvel outil comme une fonction &ldquo;Ctrl-F &agrave; turbocompresseur&rdquo; pr&eacute;sentant une ROC avanc&eacute;e qui pouvait effectuer des recherches dans des quantit&eacute;s impressionnantes de documents et d&rsquo;images. Lors d&rsquo;une pr&eacute;sentation sur les donn&eacute;es qui s&rsquo;est tenue dans le cadre de la conf&eacute;rence IRE22, Jacoby a indiqu&eacute; que Pinpoint est devenu depuis un outil num&eacute;rique gratuit, d&rsquo;acc&egrave;s facile, en partie gr&acirc;ce aux contributions de journalistes d&rsquo;investigation aupr&egrave;s des concepteurs de l&rsquo;outil.Jacoby a montr&eacute; que les fonctionnalit&eacute;s de donn&eacute;es comprennent d&eacute;sormais les caract&eacute;ristiques suivantes :<ul>
<li>Si vous recherchez un seul mot cl&eacute; &ndash; par exemple, &ldquo;facult&eacute;&rdquo; &ndash; non seulement Pinpoint r&eacute;ussira &agrave; trouver ce mot partout o&ugrave; il se trouve dans votre fichier de recherche t&eacute;l&eacute;charg&eacute;, mais il affichera aussi en surbrillance les mots connexes, comme &ldquo;enseignant&rdquo;, &ldquo;campus&rdquo; ou &ldquo;professeur&rdquo;. Il trouvera aussi les variations de conjugaison pour le terme recherch&eacute; ; il fonctionne dans sept langues, notamment le fran&ccedil;ais, l&rsquo;espagnol, le portugais et le polonais ; et il est possible d&rsquo;exclure les termes non d&eacute;sir&eacute;s en ajoutant le signe &ldquo;moins&rdquo;.</li>
<li>T&eacute;l&eacute;chargez le nombre de documents que vous voulez, scann&eacute;s ou en format PDF &ndash; ou m&ecirc;me des pages de texte &eacute;crit &agrave; la main &ndash; et l&rsquo;outil peut rapidement les transformer en texte &ldquo;dynamique&rdquo; dans lequel vous pourrez faire des recherches et du copier-coller. Cet outil est m&ecirc;me capable de lire des mots &eacute;crits autrement qu&rsquo;horizontalement.</li>
<li>Cet outil peut non seulement reconna&icirc;tre et transformer en texte la signalisation et les graffitis qui se trouvent sur des photos, mais il peut aussi reproduire de longs passages r&eacute;dig&eacute;s en lettres minuscules qu&rsquo;il identifie sur des plaques ou des panneaux d&rsquo;affichage en arri&egrave;re-plan. (Certains des journalistes qui assistaient &agrave; la d&eacute;monstration ont litt&eacute;ralement pouss&eacute; un cri de surprise quand ils ont vu Pinpoint r&eacute;ussir &agrave; lire et &agrave; traiter les lettres minuscules qui se trouvaient sur une plaque biographique que l&rsquo;on voyait de biais sur une photo. Une journaliste de NBC Telemundo, <a href="https://twitter.com/ValezkaGil">Valezka Gil</a>, s&rsquo;est exclam&eacute;e : &ldquo;Incroyable ! Vous venez de me changer la vie. Cela va me permettre de gagner un temps fou.&rdquo;)&nbsp;</li>
<li>Jacoby indique que la fonctionnalit&eacute; de transcription audio et video est maintenant tellement avanc&eacute;e qu&rsquo;il utilise l&rsquo;outil gratuit Pinpoint plut&ocirc;t que des<a href="https://gijn.org/2022/01/27/how-secure-are-journalists-favorite-transcription-tools/"> services de transcription sp&eacute;cialis&eacute;s comme Trint ou Otter</a> &ndash; qui comportent des frais d&rsquo;abonnement peu &eacute;lev&eacute;s &ndash; pour cr&eacute;er des transcriptions de ses interviews audio dans lesquelles il peut effectuer des recherches. &ldquo;Cette fonctionnalit&eacute; est identique aux outils payants, mais elle est gratuite&rdquo;, a-t-il indiqu&eacute;. &ldquo;Mais il y a une chose qu&rsquo;elle ne fait pas, contrairement &agrave; Trint et Otter : identifier la personne qui s&rsquo;exprime et assigner un nom &agrave; chaque personne, par exemple &lsquo;Intervenant 2&rsquo;. Elle identifie toutefois les pauses logiques dans une conversation, ainsi que les inflexions dans la voix. Il vous suffit de cliquer sur un point particulier dans la transcription du texte et vous entendrez l&rsquo;enregistrement d&eacute;filer &agrave; partir de ce point donn&eacute;.&rdquo;</li>
</ul>Jacoby a indiqu&eacute; que l&rsquo;acc&egrave;s gratuit aux fonctionnalit&eacute;s de Pinpoint est maintenant tr&egrave;s simple, et qu&rsquo;il est possible de demander de l&rsquo;espace suppl&eacute;mentaire &agrave; ses techniciens pour stocker des donn&eacute;es volumineuses.&ldquo;Il est vrai qu&rsquo;il vous faut une autorisation pour l&rsquo;utiliser, mais quand nous nous sommes inscrits, moi et mon &eacute;pouse &ndash; elle est aussi journaliste &ndash; on nous a d&eacute;livr&eacute; une autorisation presque instantan&eacute;ment&rdquo;, a-t-il fait remarquer. &ldquo;Il vous faudra peut-&ecirc;tre une adresse mail professionnelle, mais il n&rsquo;est pas compliqu&eacute; de s&rsquo;inscrire, et l&rsquo;&eacute;quipe est tr&egrave;s r&eacute;active.&rdquo;Seul b&eacute;mol&nbsp;: Pinpoint est un service exclusivement en ligne.&nbsp;&ldquo;Cela signifie qu&rsquo;il vous faut une connexion Internet et que vous devez t&eacute;l&eacute;charger vos documents sur un serveur, quelque part. Ainsi, si Google &eacute;tait assign&eacute; &agrave; compara&icirc;tre, il est possible que vos documents soient remis &agrave; la justice&rdquo;, a-t-il averti. &ldquo;Par ailleurs, cet outil ne vous permet pas d&rsquo;enregistrer le document ROC obtenu, qui ne se trouve que sur Pinpoint.&nbsp; Vous devez donc copier-coller le texte. Mais Pinpoint poss&egrave;de probablement la meilleure ROC qui existe.&rdquo;&nbsp;<h4>Formules ImportHTML et ImportXML pour les donn&eacute;es des sites web&nbsp;</h4>Comme Craig Silverman, de ProPublica, en a <a href="https://gijn.org/2022/04/04/elections-guide-for-investigative-reporters-chapter-1-new-election-digging-tools/">r&eacute;cemment fait la d&eacute;monstration pour GIJN</a>, le code source de tout site web propose une pl&eacute;thore d&rsquo;outils de recherche aux journalistes d&rsquo;investigation et, en d&eacute;pit de son aspect impressionnant pour les personnes qui ne s&rsquo;y connaissent pas en codage, ce code ne demande aucune comp&eacute;tence particuli&egrave;re hormis le fait de savoir &agrave; quoi correspondent &ldquo;Contr&ocirc;le-F&rdquo; ou &ldquo;Commande-F&rdquo;, pour naviguer.<aside class="module align-right half type-pull-quote">Quand GIJN a essay&eacute; cet outil pour importer un tableau comportant les noms de 564 banques en difficult&eacute; &agrave; partir du site web de l&rsquo;organisme am&eacute;ricain de garantie des d&eacute;posants, le processus a pris en tout et pour tout&hellip; moins de 15 secondes.</aside>Lors d&rsquo;une pr&eacute;sentation sur la r&eacute;cup&eacute;ration de donn&eacute;es avec Google Sheets qui s&rsquo;est tenu dans le cadre de la conf&eacute;rence IRE22, la journaliste ind&eacute;pendante <a href="https://twitter.com/SamanthaSunne">Samantha Sunne</a> a fait une d&eacute;monstration sur la mani&egrave;re dont ce code peut aussi &ecirc;tre utilis&eacute; pour capturer facilement de long tableaux ou des donn&eacute;es sp&eacute;cifiques sur des sites web et &ndash; en quelques secondes &ndash; mettre toutes ces donn&eacute;es dans un tableur au format qui vous convient. Il n&rsquo;est pas n&eacute;cessaire de copier et de coller individuellement le contenu de centaines de cases dans votre fichier. La technique implique une formule pour donner des instructions &agrave; Google Sheets &mdash; dans la premi&egrave;re case, en haut &agrave; gauche &mdash; afin que cet outil puisse extraire un &eacute;l&eacute;ment de code source dont vous avez besoin sur une page web (le code qui permet de construire, par exemple, un tableau de donn&eacute;es qui vous a plu sur cette page web).En fait, vous n&rsquo;avez pas vraiment besoin de chercher un code particulier pour extraire un tableau de donn&eacute;es bien format&eacute; de n&rsquo;importe quel site. Il vous suffit de suivre ces &eacute;tapes :<pre>Pour importer un tableau de donn&eacute;es d&rsquo;une page web, quelle que soit sa longueur, tapez tout simplement cette formule dans Google Sheets : =IMPORTHTML(&ldquo;URL&rdquo;, &ldquo;table&rdquo;). Si les donn&eacute;es sont sous forme de liste, essayez &ldquo;list&rdquo; au lieu de &ldquo;table&rdquo; et, si vous voulez, par exemple, la liste suivante qui figure sur une page, essayez d&rsquo;ajouter le chiffre 2 apr&egrave;s une virgule et un espace : =IMPORTHTML(&ldquo;URL&rdquo;, &ldquo;list&rdquo;, 2)</pre>Quand GIJN a essay&eacute; cet outil pour importer un <a href="https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/">tableau comportant les noms de 564 banques en difficult&eacute; </a>&agrave; partir du site web de l&rsquo;organisme am&eacute;ricain de garantie des d&eacute;posants, la Federal Deposit Insurance Corp., le processus &mdash; copier l&rsquo;URL de la FDIC URL, ouvrir Google Sheets et visualiser la liste enti&egrave;re de banques parfaitement format&eacute;e en colonnes &ndash; a pris en tout et pour tout moins de 15 secondes. Toutefois, il est important d&rsquo;utiliser la bonne ponctuation pour la formule, notamment en ajoutant une virgule apr&egrave;s l&rsquo;URL ainsi que des guillemets avant et apr&egrave;s les deux &eacute;l&eacute;ments entre parenth&egrave;ses. Par ailleurs &ndash; et c&rsquo;est tr&egrave;s appr&eacute;ciable - toute mise &agrave; jour des donn&eacute;es de ce site web dynamique appara&icirc;tra aussi automatiquement dans la Google Sheet. Ainsi, vous n&rsquo;aurez pas &agrave; v&eacute;rifier constamment la page pendant votre enqu&ecirc;te, sauf si vous avez d&eacute;sactiv&eacute; la fonctionnalit&eacute; de mise &agrave; jour.&nbsp;&nbsp;Samantha Sunne a toutefois ajout&eacute; qu&rsquo;il &eacute;tait &eacute;galement important que les reporters se familiarisent, ne serait-ce qu&rsquo;un minimum, avec le format html pour avoir une id&eacute;e de la mani&egrave;re dont sont mises en forme les donn&eacute;es que nous voyons sur les pages web. Cela leur permettra d&rsquo;exploiter des informations format&eacute;es de mani&egrave;re imparfaite et de faire des recherches bien plus approfondies avec des formules avanc&eacute;es.Pour trouver le code qui construit toute page web, il vous suffit de cliquer avec le bouton droit de la souris sur n&rsquo;importe quel espace vide ou blanc sur un site, puis de cliquer sur &ldquo;view page source&rdquo; ou &ldquo;show page source.&rdquo; En g&eacute;n&eacute;ral, a-t-elle ajout&eacute;, il est important de garder &agrave; l&rsquo;esprit que les mots que l&rsquo;on voit sur la page web doivent aussi appara&icirc;tre sur la page de code source de l&rsquo;ordinateur, afin que vous puissiez tout simplement faire &ldquo;Ctrl-F&rdquo; pour trouver n&rsquo;importe quel terme de donn&eacute;e dans ce code, voir quelles balises sont utilis&eacute;es pour le saisir, et faire des essais avec ces balises dans la formule.&nbsp;&ldquo;M&ecirc;me si elle est utile, la formule ImportHTML ne peut rechercher que les tableaux et les listes. Mais il y a une autre formule, ImportXML, qui peut rechercher n&rsquo;importe quel &eacute;l&eacute;ment html&rdquo;, a expliqu&eacute; Sunne. &ldquo;Elle lui ressemble beaucoup &ndash; le signe &ldquo;&eacute;gal&rdquo; ; le nom de la formule, l&rsquo;URL &ndash; mais vous pouvez &ecirc;tre beaucoup plus pr&eacute;cis.&rdquo; Voici comment proc&eacute;der :<pre>Pour importer des &eacute;l&eacute;ments sp&eacute;cifiques de donn&eacute;es sp&eacute;cifiques sur une page web &ndash; comme des lignes dans un tableau, ou uniquement les caract&egrave;res en gras, ou les rubriques &ndash; essayez une formule comme celle-ci (pour un exemple de rubriques de donn&eacute;es) : =IMPORTXML(&ldquo;URL&rdquo;, &ldquo;//h2&rdquo;) , ou ceci (pour les lignes d&rsquo;un tableau) : =IMPORTXML(&ldquo;URL&rdquo;, &ldquo;//table/tr&rdquo;)</pre>Il y a beaucoup d&rsquo;&eacute;l&eacute;ments html fr&eacute;quemment utilis&eacute;s, comme &ldquo;//h2&rdquo; (en-t&ecirc;te) et &ldquo;/tr&rdquo; (ligne dans un tableau) &ndash; que l&rsquo;on peut trouver dans les <a href="https://www.codecademy.com/article/glossary-html">dictionnaires html</a> &ndash; mais Sunne recommande aux journalistes de prendre simplement note des &eacute;l&eacute;ments qui entourent les donn&eacute;es dont ils ont besoin et d&rsquo;identifier les balises cl&eacute;s du jargon informatique qui peuvent les aider &agrave; affiner les importations de donn&eacute;es. Pour vous entra&icirc;ner, essayez d&rsquo;utiliser ces <a href="https://www.youtube.com/watch?v=7B4tPczv-H8">deux techniques de r&eacute;cup&eacute;ration de donn&eacute;es </a>sur de longs sites sur Wikipedia, qui comportent g&eacute;n&eacute;ralement plusieurs listes et tableaux de donn&eacute;es.&nbsp;<h4>Tesseract, avec ImageMagick, pour extraire des donn&eacute;es hors ligne en toute s&eacute;curit&eacute;&nbsp;</h4>Kenny Jacoby, de USA Today, a indiqu&eacute; qu&rsquo;un moteur de ROC en source ouverte appel&eacute; <a href="https://github.com/tesseract-ocr/tesseract">Tesseract</a> propose une solution tr&egrave;s performante d&rsquo;extraction de donn&eacute;es pour les documents sensibles ainsi que pour les archives de donn&eacute;es qui sont immenses, si la qualit&eacute; des donn&eacute;es saisies est suffisamment bonne. Par ailleurs &ndash; et c&rsquo;est tr&egrave;s appr&eacute;ciable - sa derni&egrave;re version en date reconna&icirc;t aussi <a href="https://en.wikipedia.org/wiki/Tesseract_(software)">plus de 100 langues</a>, ainsi que les textes &eacute;crits de droite &agrave; gauche en h&eacute;breu ou en arabe.<aside class="module align-right half type-pull-quote">&ldquo;Un avantage de taille, c&rsquo;est que cet outil est hors ligne : vous pouvez tout faire sur votre ordinateur, donc&nbsp; [Tesseract] est tout indiqu&eacute; pour les travaux sensibles.&rdquo; &mdash; Kenny Jacoby, journaliste d&rsquo;investigation &agrave; USA Today</aside>Tesseract convertit des images sans calque de texte en documents PDF s&eacute;lectionnables, dans lesquels vous pourrez effectuer des recherches.&nbsp; Jacoby a ajout&eacute; que cet outil est particuli&egrave;rement performant quand il s&rsquo;agit de convertir des lots importants de documents &ldquo;plats&rdquo; en texte dynamique qui peut &ecirc;tre copi&eacute; et coll&eacute;. Il a pr&eacute;cis&eacute; que cela implique de convertir au pr&eacute;alable les documents PDF en images &agrave; haute r&eacute;solution &ndash; dans l&rsquo;id&eacute;al, en utilisant <a href="https://imagemagick.org/index.php">l&rsquo;outil ImageMagick tool</a> en source ouverte &ndash; puis de les transf&eacute;rer dans Tesseract pour obtenir les donn&eacute;es r&eacute;cup&eacute;r&eacute;es.&nbsp;&ldquo;Sa ROC n&rsquo;est pas aussi performante que Pinpoint, mais elle n&rsquo;est pas mal du tout&rdquo;, a ajout&eacute; Jacoby. &ldquo;Un avantage de taille, toutefois, c&rsquo;est que cet outil est hors ligne : vous pouvez tout faire sur votre ordinateur, donc cet outil est tout indiqu&eacute; pour les travaux sensibles. Il est vraiment performant pour les conversions par lot ; vous pouvez par exemple appliquer la ROC &agrave; chaque document d&rsquo;un lot de 1000.&rdquo;Il a pr&eacute;cis&eacute; : &ldquo;Vous devrez peut-&ecirc;tre am&eacute;liorer la qualit&eacute; de l&rsquo;image ou le contraste, mais avec ImageMagick, vous pouvez accro&icirc;tre la qualit&eacute; de l&rsquo;image.&rdquo;Par ailleurs, Jacoby a recommand&eacute; le guide d&eacute;taill&eacute; sur les outils&nbsp; Tesseract et ImageMagick r&eacute;dig&eacute; par le journaliste d&rsquo;investigation Chad Day, du Wall Street Journal, que vous trouverez <a href="https://github.com/chadday/nicar_ocr">ici sur Github</a>.La solution Tesseract requiert des comp&eacute;tences &ldquo;interm&eacute;diaires&rdquo; en codage, mais Jacoby a indiqu&eacute; que cette question peut &ecirc;tre r&eacute;gl&eacute;e en une fois : une personne comp&eacute;tente peut installer le programme lors d&rsquo;une visite et fournir au journaliste deux courtes lignes de code qu&rsquo;il pourra utiliser par la suite pour chaque extraction de donn&eacute;es. Pour extraire des tableaux imprim&eacute;s en format PDF, Jacoby a recommand&eacute; l&rsquo;appli <a href="https://tabula.technology/">Tabula</a> &ndash; un outil en source ouverte bien connu qui a &eacute;t&eacute; cr&eacute;&eacute; par des journalistes de OpenNews et de ProPublica. &ldquo;En substance, il lib&egrave;re les tableaux de donn&eacute;es du format PDF et les transf&egrave;re dans des tableurs&rdquo;, a-t-il expliqu&eacute;.&nbsp;Avec Tabula, les reporters peuvent tout simplement dessiner un cadre autour d&rsquo;un tableau sur leurs &eacute;crans d&rsquo;ordinateur pour extraire les donn&eacute;es qui les int&eacute;ressent. Cet outil peut aussi d&eacute;tecter des tableaux de mani&egrave;re automatique, notamment ceux qui n&rsquo;ont pas de bordure. Tabula n&eacute;cessite des documents &ldquo;dynamiques&rdquo; ou pass&eacute;s par la ROC, mais Jacoby a soulign&eacute; que cet outil fonctionne bien avec des fichiers texte cr&eacute;&eacute;s par Tesseract. &ldquo;L&rsquo;outil peut aussi &ecirc;tre utilis&eacute; hors ligne, ce qui signifie que vous pouvez travailler en toute discr&eacute;tion&rdquo;, a-t-il fait remarquer.Ressources compl&eacute;mentaires<a href="https://gijn.org/2021/08/17/francais-enquete-data-base-de-donnees/">Comment cr&eacute;er votre propre base de donn&eacute;es</a><a href="https://gijn.org/2021/02/02/francais-spyonweb-virustotal-spiderfoot-enquete/">D&eacute;couvrir les liens entre diff&eacute;rents sites webs avec SpyOnWeb, VirusTotal et SpiderFoot HX</a><a href="https://gijn.org/2019/10/08/francais-data-donnees-outils-journalisme/">Les meilleurs outils pour collecter des donn&eacute;es exclusives</a><hr><a href="https://gijn.org/wp-content/uploads/2021/02/Rowan-Philp-140x140-1.png"><img class="alignleft size-thumbnail wp-image-309506" src="https://gijn.org/wp-content/uploads/2021/02/Rowan-Philp-140x140-1-140x140.png" alt="Rowan-Philp-140x140" width="140" height="140"></a><a href="https://gijn.org/about/staff-member/rowan-philp/">Rowan Philp</a> est journaliste &agrave; GIJN. Auparavant, Rowan a &eacute;t&eacute; reporter en chef pour le<a href="https://www.timeslive.co.za/sunday-times/"> Sunday Times</a> sud-africain. En tant que correspondant &agrave; l&rsquo;&eacute;tranger, il a r&eacute;alis&eacute; des reportages sur l&rsquo;actualit&eacute;, la politique, la corruption et les conflits dans plus de vingt pays dans le monde entier.&nbsp;
	This <a target="_blank" href="https://gijn.org/fr/ressource/pinpoint-extraction-donnees/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

Lire la suite

Actualités et analyses Data journalisme

« La recherche de preuves » : Ce qui a attiré les femmes datajournalistes de premier plan vers ce domaine

Par Amel Ghani • 7 mars 2025

À l’occasion de la Journée internationale du droit des femmes, GIJN a interrogé des femmes datajournalistes d’Argentine, du Kenya, de Suède et de Turquie pour savoir pourquoi elles ont choisi cette voie et quels sont les défis qui restent à relever.

Actualités et analyses Climat Data journalisme

10 erreurs courantes dans le data-journalisme

Par Rowan Philp • 24 avril 2024

Riches retours d’expériences. GIJN a demandé à des data-journalistes à travers le monde quelles étaient les lacunes en matière de data-journalisme qu’ils constataient et quels étaient les sujets peu couverts que les salles de presse pouvaient aborder.

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche

8 méthodes pour consulter gratuitement les publications scientifiques et universitaires

Par Denise-Marie Ordway • 8 décembre 2023

Dans cet article, vous découvrirez huit méthodes destinées aux journalistes pour consulter gratuitement les publications scientifiques et universitaires.

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche Techniques d'enquête

Astuces pour vérifier, rapidement et en urgence, les antécédents d’un inconnu

Par Rowan Philp • 23 octobre 2023

Les projets d’enquête sont souvent comparés à des marathons. Mais, de temps en temps, les reporters doivent faire un sprint. Retour d’expériences de journalistes d’investigation qui, lors d’une session de la conférence sur le journalisme d’investigation en Amérique du Nord IRE23, ont partagé des conseils sur comment vérifier les antécédents de personnes peu connues, dans un délai très court.

Paramètres d'accessibilité

taille du texte

Options de couleurs

Outils de lecture

autre

Ressource

Thématiques

Boîte à Outils : extraire des données sans savoir coder

Lire cet article en

Google Pinpoint — et ses nouvelles fonctionnalités pour venir à bout des PDF

Formules ImportHTML et ImportXML pour les données des sites web

Tesseract, avec ImageMagick, pour extraire des données hors ligne en toute sécurité

Lire d'autres articles avec le mot-clé :

Republier cet article

Lire la suite

Actualités et analyses Data journalisme

« La recherche de preuves » : Ce qui a attiré les femmes datajournalistes de premier plan vers ce domaine

Actualités et analyses Climat Data journalisme

10 erreurs courantes dans le data-journalisme

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche

8 méthodes pour consulter gratuitement les publications scientifiques et universitaires

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche Techniques d'enquête

Astuces pour vérifier, rapidement et en urgence, les antécédents d’un inconnu

Ressource

Thématiques

Boîte à Outils : extraire des données sans savoir coder

Lire cet article en

Ressources associées

Guide d’enquête sur le crime organisé en Afrique

Recherches sur Google : les conseils de Henk van Ess, spécialiste du journalisme en sources ouvertes

Outils de télédétection et bases de données pour enquêter sur l’environnement

Comment utiliser l’outil “Wayback Machine” pour votre prochaine enquête

Partager

Google Pinpoint — et ses nouvelles fonctionnalités pour venir à bout des PDF

Formules ImportHTML et ImportXML pour les données des sites web

Tesseract, avec ImageMagick, pour extraire des données hors ligne en toute sécurité

Ressources associées

Guide d’enquête sur le crime organisé en Afrique

Recherches sur Google : les conseils de Henk van Ess, spécialiste du journalisme en sources ouvertes

Outils de télédétection et bases de données pour enquêter sur l’environnement

Comment utiliser l’outil “Wayback Machine” pour votre prochaine enquête

Sur le même sujet

« La recherche de preuves » : Ce qui a attiré les femmes datajournalistes de premier plan vers ce domaine

10 erreurs courantes dans le data-journalisme

8 méthodes pour consulter gratuitement les publications scientifiques et universitaires

Astuces pour vérifier, rapidement et en urgence, les antécédents d’un inconnu

Lire d'autres articles avec le mot-clé :

Republier cet article

Lire la suite

Actualités et analyses Data journalisme

« La recherche de preuves » : Ce qui a attiré les femmes datajournalistes de premier plan vers ce domaine

Actualités et analyses Climat Data journalisme

10 erreurs courantes dans le data-journalisme

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche

8 méthodes pour consulter gratuitement les publications scientifiques et universitaires

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche Techniques d'enquête

Astuces pour vérifier, rapidement et en urgence, les antécédents d’un inconnu