{"id":564313,"date":"2022-07-05T02:34:17","date_gmt":"2022-07-05T06:34:17","guid":{"rendered":"https:\/\/gijn.org\/?p=564313"},"modified":"2023-08-25T04:34:03","modified_gmt":"2023-08-25T08:34:03","slug":"pinpoint-extraction-donnees","status":"publish","type":"post","link":"https:\/\/gijn.org\/fr\/ressource\/pinpoint-extraction-donnees\/","title":{"rendered":"Bo\u00eete \u00e0 Outils : extraire des donn\u00e9es sans savoir coder"},"content":{"rendered":"<p><strong>Dans la <a href=\"https:\/\/gijn.org\/series\/the-toolbox\/\">bo\u00eete \u00e0 outils de GIJN <\/a>nous passons en revue les outils utiles aux journalistes d\u2019investigation. D\u00e9couvrez dans cet article trois solutions gratuites et faciles \u00e0 utiliser pour extraire les donn\u00e9es contenues dans des documents. Ces techniques ont \u00e9t\u00e9 pr\u00e9sent\u00e9es lors de la r\u00e9cente <a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.ire.org\/training\/conferences\/ire-2022\/\">2022 Investigative Reporters &amp; Editors Conference<\/a> (IRE22) o\u00f9 elles ont suscit\u00e9 l\u2019enthousiasme et l\u2019approbation des journalistes pr\u00e9sents.<\/strong><\/p>\n<p><span style=\"font-weight: 400;\">Quand les journalistes obtiennent enfin les documents dont ils ont besoin pour leurs enqu\u00eates, ils sont souvent confront\u00e9s \u00e0 une deuxi\u00e8me difficult\u00e9 : comment s\u00e9lectionner et extraire les donn\u00e9es pour qu\u2019elles puissent \u00eatre utilis\u00e9es et copi\u00e9es dans des tableurs ? Pour beaucoup de petites r\u00e9dactions, la saisie manuelle, le codage avanc\u00e9 ou les services on\u00e9reux de reconnaissance optique de caract\u00e8res (ROC) ne sont pas des options r\u00e9alistes.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Par ailleurs, plusieurs journalistes \u2018sentinelles\u2019 exp\u00e9riment\u00e9s qui assistaient \u00e0 la<img loading=\"lazy\" decoding=\"async\" class=\"alignright\" src=\"https:\/\/gijn.org\/wp-content\/uploads\/2022\/06\/IRE22-logo.png\" alt=\"IRE22 logo\" width=\"183\" height=\"170\" \/> conf\u00e9rence IRE22 ont fait remarqu\u00e9 qu\u2019ils constataient non seulement une augmentation du nombre de documents publics publi\u00e9s dans des formats non structur\u00e9s ou \u201c\u00e0 mise en page fixe\u201d \u2013 comme les documents scann\u00e9s ou les PDF \u201caplatis\u201d \u2013 mais aussi que certaines agences gouvernementales utilisaient d\u00e9lib\u00e9r\u00e9ment ces formats pour compliquer l\u2019acc\u00e8s aux donn\u00e9es, et donc les reportages.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les journalistes doivent enfin relever un dernier d\u00e9fi : un grand nombre d\u2019agences gouvernementales demandent aux reporters de rechercher par eux-m\u00eames sur les pages web les donn\u00e9es souhait\u00e9es, ce qui n\u00e9cessite de copier et de coller des cases individuelles dans des tableaux, puis de cliquer manuellement sur de nombreux onglets ou fiches pour arriver \u00e0 la fin du fichier.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">\u201cJe demande \u00e9norm\u00e9ment de documents du service public et je constate qu\u2019il est d\u00e9sormais tr\u00e8s rare qu\u2019on m\u2019envoie le document ou les donn\u00e9es au format que j\u2019ai demand\u00e9\u201d, a dit <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/twitter.com\/kennyjacoby\"><span style=\"font-weight: 400;\">Kenny Jacoby<\/span><\/a><span style=\"font-weight: 400;\">, journaliste d\u2019investigation \u00e0 USA Today, qui a pr\u00e9sent\u00e9 plusieurs outils PDF lors de la conf\u00e9rence. \u201cOn a parfois l\u2019impression que l\u2019agence gouvernementale qui vous fournit le document fait tout pour vous rendre la vie impossible, par exemple en supprimant le texte d\u2019un document en PDF, en le scannant avant de l\u2019envoyer, ou en mettant les donn\u00e9es dans un format non structur\u00e9, sans lignes ni colonnes. Ces entraves peuvent nous ralentir consid\u00e9rablement, alors il est important de disposer d\u2019outils pour les contourner.\u201d<\/span><\/p>\n<h4><b>Google Pinpoint \u2014 et ses nouvelles fonctionnalit\u00e9s pour venir \u00e0 bout des PDF<\/b><\/h4>\n<aside class=\"module align-right half type-pull-quote\">\u201cIncroyable ! Vous venez de me changer la vie. Cela va me permettre de gagner un temps fou.\u201d \u2014 La journaliste de NBC Telemundo, Valezka Gil, \u00e0 propos de Google Pinpoint.<\/aside>\n<p><span style=\"font-weight: 400;\">En 2020, GIJN a \u00e9t\u00e9 parmi les premiers \u00e0 <\/span><a href=\"https:\/\/gijn.org\/2020\/10\/26\/tools-for-campaign-sources-disinfo-spying-ai-search-and-election-day-scenarios-from-gijnelectionwatchdog\/\"><span style=\"font-weight: 400;\">annoncer la mise en service<\/span><\/a><span style=\"font-weight: 400;\">\u00a0d\u2019un nouvel outil d\u2019analyse de document utilisant l\u2019intelligence artificielle, con\u00e7u par le Google Journalist Studio et d\u00e9sormais disponible sous la marque \u201c<\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/journaliststudio.google.com\/pinpoint\/collections\"><span style=\"font-weight: 400;\">Pinpoint<\/span><\/a><span style=\"font-weight: 400;\">\u201d. \u00c0 l\u2019\u00e9poque, nous avions d\u00e9crit ce nouvel outil comme une fonction \u201cCtrl-F \u00e0 turbocompresseur\u201d pr\u00e9sentant une ROC avanc\u00e9e qui pouvait effectuer des recherches dans des quantit\u00e9s impressionnantes de documents et d\u2019images. Lors d\u2019une pr\u00e9sentation sur les donn\u00e9es qui s\u2019est tenue dans le cadre de la conf\u00e9rence IRE22, Jacoby a indiqu\u00e9 que Pinpoint est devenu depuis un outil num\u00e9rique gratuit, d\u2019acc\u00e8s facile, en partie gr\u00e2ce aux contributions de journalistes d\u2019investigation aupr\u00e8s des concepteurs de l\u2019outil.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Jacoby a montr\u00e9 que les fonctionnalit\u00e9s de donn\u00e9es comprennent d\u00e9sormais les caract\u00e9ristiques suivantes :<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Si vous recherchez un seul mot cl\u00e9 \u2013 par exemple, \u201cfacult\u00e9\u201d \u2013 non seulement Pinpoint r\u00e9ussira \u00e0 trouver ce mot partout o\u00f9 il se trouve dans votre fichier de recherche t\u00e9l\u00e9charg\u00e9, mais il affichera aussi en surbrillance les mots connexes, comme \u201censeignant\u201d, \u201ccampus\u201d ou \u201cprofesseur\u201d. Il trouvera aussi les variations de conjugaison pour le terme recherch\u00e9 ; il fonctionne dans sept langues, notamment le fran\u00e7ais, l\u2019espagnol, le portugais et le polonais ; et il est possible d\u2019exclure les termes non d\u00e9sir\u00e9s en ajoutant le signe \u201cmoins\u201d.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">T\u00e9l\u00e9chargez le nombre de documents que vous voulez, scann\u00e9s ou en format PDF \u2013 ou m\u00eame des pages de texte \u00e9crit \u00e0 la main \u2013 et l\u2019outil peut rapidement les transformer en texte \u201cdynamique\u201d dans lequel vous pourrez faire des recherches et du copier-coller. Cet outil est m\u00eame capable de lire des mots \u00e9crits autrement qu\u2019horizontalement.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Cet outil peut non seulement reconna\u00eetre et transformer en texte la signalisation et les graffitis qui se trouvent sur des photos, mais il peut aussi reproduire de longs passages r\u00e9dig\u00e9s en lettres minuscules qu\u2019il identifie sur des plaques ou des panneaux d\u2019affichage en arri\u00e8re-plan. (Certains des journalistes qui assistaient \u00e0 la d\u00e9monstration ont litt\u00e9ralement pouss\u00e9 un cri de surprise quand ils ont vu Pinpoint r\u00e9ussir \u00e0 lire et \u00e0 traiter les lettres minuscules qui se trouvaient sur une plaque biographique que l\u2019on voyait de biais sur une photo. Une journaliste de NBC Telemundo, <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/twitter.com\/ValezkaGil\"><span style=\"font-weight: 400;\">Valezka Gil<\/span><\/a><span style=\"font-weight: 400;\">, s\u2019est exclam\u00e9e : <\/span><span style=\"font-weight: 400;\">\u201cIncroyable ! Vous venez de me changer la vie. Cela va me permettre de gagner un temps fou.\u201d)<\/span><i><span style=\"font-weight: 400;\">\u00a0<\/span><\/i><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Jacoby indique que la fonctionnalit\u00e9 de transcription audio et video est maintenant tellement avanc\u00e9e qu\u2019il utilise l\u2019outil gratuit Pinpoint plut\u00f4t que des<\/span><a href=\"https:\/\/gijn.org\/2022\/01\/27\/how-secure-are-journalists-favorite-transcription-tools\/\"><span style=\"font-weight: 400;\"> services de transcription sp\u00e9cialis\u00e9s comme Trint ou Otter<\/span><\/a><span style=\"font-weight: 400;\"> \u2013 qui comportent des frais d\u2019abonnement peu \u00e9lev\u00e9s \u2013 pour cr\u00e9er des transcriptions de ses interviews audio dans lesquelles il peut effectuer des recherches. \u201cCette fonctionnalit\u00e9 est identique aux outils payants, mais elle est gratuite\u201d, a-t-il indiqu\u00e9. \u201cMais il y a une chose qu\u2019elle ne fait pas, contrairement \u00e0 Trint et Otter : identifier la personne qui s\u2019exprime et assigner un nom \u00e0 chaque personne, par exemple \u2018Intervenant 2\u2019. Elle identifie toutefois les pauses logiques dans une conversation, ainsi que les inflexions dans la voix. Il vous suffit de cliquer sur un point particulier dans la transcription du texte et vous entendrez l\u2019enregistrement d\u00e9filer \u00e0 partir de ce point donn\u00e9.\u201d<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Jacoby a indiqu\u00e9 que l\u2019acc\u00e8s gratuit aux fonctionnalit\u00e9s de Pinpoint est maintenant tr\u00e8s simple, et qu\u2019il est possible de demander de l\u2019espace suppl\u00e9mentaire \u00e0 ses techniciens pour stocker des donn\u00e9es volumineuses.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">\u201cIl est vrai qu\u2019il vous faut une autorisation pour l\u2019utiliser, mais quand nous nous sommes inscrits, moi et mon \u00e9pouse \u2013 elle est aussi journaliste \u2013 on nous a d\u00e9livr\u00e9 une autorisation presque instantan\u00e9ment\u201d, a-t-il fait remarquer. \u201cIl vous faudra peut-\u00eatre une adresse mail professionnelle, mais il n\u2019est pas compliqu\u00e9 de s\u2019inscrire, et l\u2019\u00e9quipe est tr\u00e8s r\u00e9active.\u201d<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Seul b\u00e9mol\u00a0: Pinpoint est un service exclusivement en ligne.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">\u201cCela signifie qu\u2019il vous faut une connexion Internet et que vous devez t\u00e9l\u00e9charger vos documents sur un serveur, quelque part. Ainsi, si Google \u00e9tait assign\u00e9 \u00e0 compara\u00eetre, il est possible que vos documents soient remis \u00e0 la justice\u201d, a-t-il averti. \u201cPar ailleurs, cet outil ne vous permet pas d\u2019enregistrer le document ROC obtenu, qui ne se trouve que sur Pinpoint.\u00a0 Vous devez donc copier-coller le texte. Mais Pinpoint poss\u00e8de probablement la meilleure ROC qui existe.\u201d\u00a0<\/span><\/p>\n<div style=\"width: 781px\" class=\"wp-caption alignnone\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/gijn.org\/wp-content\/uploads\/2022\/07\/Pinpoint-Plaque-771x393.png\" alt=\"\" width=\"771\" height=\"393\" \/><p class=\"wp-caption-text\">Les journalistes qui ont assist\u00e9 \u00e0 la conf\u00e9rence IRE22 ont \u00e9t\u00e9 stup\u00e9faits d\u2019apprendre que la fonctionnalit\u00e9 de reconnaissance optique de caract\u00e8re (ROC) de l\u2019outil gratuit, Google Pinpoint, est assez puissante pour lire et transcrire des textes r\u00e9dig\u00e9s avec des lettres aussi petites que celles qui figurent sur la plaque biographique sur cette photo. Image : Kenny Jacoby<\/p><\/div>\n<h4><b>Formules ImportHTML et ImportXML pour les donn\u00e9es des sites web\u00a0<\/b><\/h4>\n<p><span style=\"font-weight: 400;\">Comme Craig Silverman, de ProPublica, en a <\/span><a href=\"https:\/\/gijn.org\/2022\/04\/04\/elections-guide-for-investigative-reporters-chapter-1-new-election-digging-tools\/\"><span style=\"font-weight: 400;\">r\u00e9cemment fait la d\u00e9monstration pour GIJN<\/span><\/a><span style=\"font-weight: 400;\">,<\/span><span style=\"font-weight: 400;\"> le code source de tout site web propose une pl\u00e9thore d\u2019outils de recherche aux journalistes d\u2019investigation et, en d\u00e9pit de son aspect impressionnant pour les personnes qui ne s\u2019y connaissent pas en codage, ce code ne demande aucune comp\u00e9tence particuli\u00e8re hormis le fait de savoir \u00e0 quoi correspondent \u201cContr\u00f4le-F\u201d ou \u201cCommande-F\u201d, pour naviguer.<\/span><\/p>\n<aside class=\"module align-right half type-pull-quote\">Quand GIJN a essay\u00e9 cet outil pour importer un tableau comportant les noms de 564 banques en difficult\u00e9 \u00e0 partir du site web de l\u2019organisme am\u00e9ricain de garantie des d\u00e9posants, le processus a pris en tout et pour tout\u2026 moins de 15 secondes.<\/aside>\n<p><span style=\"font-weight: 400;\">Lors d\u2019une pr\u00e9sentation sur la r\u00e9cup\u00e9ration de donn\u00e9es avec Google Sheets qui s\u2019est tenu dans le cadre de la conf\u00e9rence IRE22, la journaliste ind\u00e9pendante <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/twitter.com\/SamanthaSunne\"><span style=\"font-weight: 400;\">Samantha Sunne<\/span><\/a><span style=\"font-weight: 400;\"> a fait une d\u00e9monstration sur la mani\u00e8re dont ce code peut aussi \u00eatre utilis\u00e9 pour capturer facilement de long tableaux ou des donn\u00e9es sp\u00e9cifiques sur des sites web et \u2013 en quelques secondes \u2013 mettre toutes ces donn\u00e9es dans un tableur au format qui vous convient. Il n\u2019est pas n\u00e9cessaire de copier et de coller individuellement le contenu de centaines de cases dans votre fichier. La technique implique une formule pour donner des instructions \u00e0 Google Sheets \u2014 dans la premi\u00e8re case, en haut \u00e0 gauche \u2014 afin que cet outil puisse extraire un \u00e9l\u00e9ment de code source dont vous avez besoin sur une page web (le code qui permet de construire, par exemple, un tableau de donn\u00e9es qui vous a plu sur cette page web).<\/span><\/p>\n<p><span style=\"font-weight: 400;\">En fait, vous n\u2019avez pas vraiment besoin de chercher un code particulier pour extraire un tableau de donn\u00e9es bien format\u00e9 de n\u2019importe quel site. Il vous suffit de suivre ces \u00e9tapes :<\/span><\/p>\n<pre><span style=\"font-weight: 400;\">Pour importer un tableau de donn\u00e9es d\u2019une page web, quelle que soit sa longueur, tapez tout simplement cette formule dans Google Sheets : =IMPORTHTML(\u201cURL\u201d, \u201ctable\u201d). Si les donn\u00e9es sont sous forme de liste, essayez \u201clist\u201d au lieu de \u201ctable\u201d et, si vous voulez, par exemple, la liste suivante qui figure sur une page, essayez d\u2019ajouter le chiffre 2 apr\u00e8s une virgule et un espace : =IMPORTHTML(\u201cURL\u201d, \u201clist\u201d, 2)<\/span><\/pre>\n<p><span style=\"font-weight: 400;\">Quand GIJN a essay\u00e9 cet outil pour importer un <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.fdic.gov\/resources\/resolutions\/bank-failures\/failed-bank-list\/\"><span style=\"font-weight: 400;\">tableau comportant les noms de 564 banques en difficult\u00e9 <\/span><\/a><span style=\"font-weight: 400;\">\u00e0 partir du site web de l\u2019organisme am\u00e9ricain de garantie des d\u00e9posants, la Federal Deposit Insurance Corp., le processus \u2014 copier l\u2019URL de la FDIC URL, ouvrir Google Sheets et visualiser la liste enti\u00e8re de banques parfaitement format\u00e9e en colonnes \u2013 a pris en tout et pour tout moins de 15 secondes. Toutefois, il est important d\u2019utiliser la bonne ponctuation pour la formule, notamment en ajoutant une virgule apr\u00e8s l\u2019URL ainsi que des guillemets avant et apr\u00e8s les deux \u00e9l\u00e9ments entre parenth\u00e8ses. Par ailleurs \u2013 et c\u2019est tr\u00e8s appr\u00e9ciable &#8211; toute mise \u00e0 jour des donn\u00e9es de ce site web dynamique appara\u00eetra aussi automatiquement dans la Google Sheet. Ainsi, vous n\u2019aurez pas \u00e0 v\u00e9rifier constamment la page pendant votre enqu\u00eate, sauf si vous avez d\u00e9sactiv\u00e9 la fonctionnalit\u00e9 de mise \u00e0 jour.\u00a0\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Samantha Sunne a toutefois ajout\u00e9 qu\u2019il \u00e9tait \u00e9galement important que les reporters se familiarisent, ne serait-ce qu\u2019un minimum, avec le format html pour avoir une id\u00e9e de la mani\u00e8re dont sont mises en forme les donn\u00e9es que nous voyons sur les pages web. Cela leur permettra d\u2019exploiter des informations format\u00e9es de mani\u00e8re imparfaite et de faire des recherches bien plus approfondies avec des formules avanc\u00e9es.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Pour trouver le code qui construit toute page web, il vous suffit de cliquer avec le bouton droit de la souris sur n\u2019importe quel espace vide ou blanc sur un site, puis de cliquer sur \u201cview page source\u201d ou \u201cshow page source.\u201d En g\u00e9n\u00e9ral, a-t-elle ajout\u00e9, il est important de garder \u00e0 l\u2019esprit que les mots que l\u2019on voit sur la page web doivent aussi appara\u00eetre sur la page de code source de l\u2019ordinateur, afin que vous puissiez tout simplement faire \u201cCtrl-F\u201d pour trouver n\u2019importe quel terme de donn\u00e9e dans ce code, voir quelles balises sont utilis\u00e9es pour le saisir, et faire des essais avec ces balises dans la formule.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">\u201cM\u00eame si elle est utile, la formule ImportHTML ne peut rechercher que les tableaux et les listes. Mais il y a une autre formule, ImportXML, qui peut rechercher n\u2019importe quel \u00e9l\u00e9ment html\u201d, a expliqu\u00e9 Sunne. \u201cElle lui ressemble beaucoup \u2013 le signe \u201c\u00e9gal\u201d ; le nom de la formule, l\u2019URL \u2013 mais vous pouvez \u00eatre beaucoup plus pr\u00e9cis.\u201d Voici comment proc\u00e9der :<\/span><\/p>\n<pre><span style=\"font-weight: 400;\">Pour importer des \u00e9l\u00e9ments sp\u00e9cifiques de donn\u00e9es sp\u00e9cifiques sur une page web \u2013 comme des lignes dans un tableau, ou uniquement les caract\u00e8res en gras, ou les rubriques \u2013 essayez une formule comme celle-ci (pour un exemple de rubriques de donn\u00e9es) : =IMPORTXML(\u201cURL\u201d, \u201c\/\/h2\u201d) , ou ceci (pour les lignes d\u2019un tableau) : =IMPORTXML(\u201cURL\u201d, \u201c\/\/table\/tr\u201d)<\/span><\/pre>\n<p><span style=\"font-weight: 400;\">Il y a beaucoup d\u2019\u00e9l\u00e9ments html fr\u00e9quemment utilis\u00e9s, comme \u201c\/\/h2\u201d (en-t\u00eate) et \u201c\/tr\u201d (ligne dans un tableau) \u2013 que l\u2019on peut trouver dans les <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.codecademy.com\/article\/glossary-html\"><span style=\"font-weight: 400;\">dictionnaires html<\/span><\/a><span style=\"font-weight: 400;\"> \u2013 mais Sunne recommande aux journalistes de prendre simplement note des \u00e9l\u00e9ments qui entourent les donn\u00e9es dont ils ont besoin et d\u2019identifier les balises cl\u00e9s du jargon informatique qui peuvent les aider \u00e0 affiner les importations de donn\u00e9es. Pour vous entra\u00eener, essayez d\u2019utiliser ces <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.youtube.com\/watch?v=7B4tPczv-H8\"><span style=\"font-weight: 400;\">deux techniques de r\u00e9cup\u00e9ration de donn\u00e9es <\/span><\/a><span style=\"font-weight: 400;\">sur de longs sites sur Wikipedia, qui comportent g\u00e9n\u00e9ralement plusieurs listes et tableaux de donn\u00e9es.\u00a0<\/span><\/p>\n<h4><b>Tesseract, avec ImageMagick, pour extraire des donn\u00e9es hors ligne en toute s\u00e9curit\u00e9\u00a0<\/b><\/h4>\n<p><span style=\"font-weight: 400;\">Kenny Jacoby, de USA Today, a indiqu\u00e9 qu\u2019un moteur de ROC en source ouverte appel\u00e9 <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/github.com\/tesseract-ocr\/tesseract\"><span style=\"font-weight: 400;\">Tesseract<\/span><\/a><span style=\"font-weight: 400;\"> propose une solution tr\u00e8s performante d\u2019extraction de donn\u00e9es pour les documents sensibles ainsi que pour les archives de donn\u00e9es qui sont immenses, si la qualit\u00e9 des donn\u00e9es saisies est suffisamment bonne. Par ailleurs \u2013 et c\u2019est tr\u00e8s appr\u00e9ciable &#8211; sa derni\u00e8re version en date reconna\u00eet aussi <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/en.wikipedia.org\/wiki\/Tesseract_(software)\"><span style=\"font-weight: 400;\">plus de 100 langues<\/span><\/a><span style=\"font-weight: 400;\">, ainsi que les textes \u00e9crits de droite \u00e0 gauche en h\u00e9breu ou en arabe.<\/span><\/p>\n<aside class=\"module align-right half type-pull-quote\">\u201cUn avantage de taille, c\u2019est que cet outil est hors ligne : vous pouvez tout faire sur votre ordinateur, donc\u00a0 [Tesseract] est tout indiqu\u00e9 pour les travaux sensibles.\u201d \u2014 Kenny Jacoby, journaliste d\u2019investigation \u00e0 USA Today<\/aside>\n<p><span style=\"font-weight: 400;\">Tesseract convertit des images sans calque de texte en documents PDF s\u00e9lectionnables, dans lesquels vous pourrez effectuer des recherches.\u00a0 Jacoby a ajout\u00e9 que cet outil est particuli\u00e8rement performant quand il s\u2019agit de convertir des lots importants de documents \u201cplats\u201d en texte dynamique qui peut \u00eatre copi\u00e9 et coll\u00e9. Il a pr\u00e9cis\u00e9 que cela implique de convertir au pr\u00e9alable les documents PDF en images \u00e0 haute r\u00e9solution \u2013 dans l\u2019id\u00e9al, en utilisant <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/imagemagick.org\/index.php\"><span style=\"font-weight: 400;\">l\u2019outil ImageMagick tool<\/span><\/a><span style=\"font-weight: 400;\"> en source ouverte \u2013 puis de les transf\u00e9rer dans Tesseract pour obtenir les donn\u00e9es r\u00e9cup\u00e9r\u00e9es.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">\u201cSa ROC n\u2019est pas aussi performante que Pinpoint, mais elle n\u2019est pas mal du tout\u201d, a ajout\u00e9 Jacoby. \u201cUn avantage de taille, toutefois, c\u2019est que cet outil est hors ligne : vous pouvez tout faire sur votre ordinateur, donc cet outil est tout indiqu\u00e9 pour les travaux sensibles. Il est vraiment performant pour les conversions par lot ; vous pouvez par exemple appliquer la ROC \u00e0 chaque document d\u2019un lot de 1000.\u201d<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Il a pr\u00e9cis\u00e9 : \u201cVous devrez peut-\u00eatre am\u00e9liorer la qualit\u00e9 de l\u2019image ou le contraste, mais avec ImageMagick, vous pouvez accro\u00eetre la qualit\u00e9 de l\u2019image.\u201d<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Par ailleurs, Jacoby a recommand\u00e9 le guide d\u00e9taill\u00e9 sur les outils\u00a0 Tesseract et ImageMagick r\u00e9dig\u00e9 par le journaliste d\u2019investigation Chad Day, du Wall Street Journal, que vous trouverez <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/github.com\/chadday\/nicar_ocr\"><span style=\"font-weight: 400;\">ici sur Github<\/span><\/a><span style=\"font-weight: 400;\">.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La solution Tesseract requiert des comp\u00e9tences \u201cinterm\u00e9diaires\u201d en codage, mais Jacoby a indiqu\u00e9 que cette question peut \u00eatre r\u00e9gl\u00e9e en une fois : une personne comp\u00e9tente peut installer le programme lors d\u2019une visite et fournir au journaliste deux courtes lignes de code qu\u2019il pourra utiliser par la suite pour chaque extraction de donn\u00e9es. Pour extraire des tableaux imprim\u00e9s en format PDF, Jacoby a recommand\u00e9 l\u2019appli <\/span><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/tabula.technology\/\"><span style=\"font-weight: 400;\">Tabula<\/span><\/a> <span style=\"font-weight: 400;\">\u2013 un outil en source ouverte bien connu qui a \u00e9t\u00e9 cr\u00e9\u00e9 par des journalistes de OpenNews et de ProPublica. \u201cEn substance, il lib\u00e8re les tableaux de donn\u00e9es du format PDF et les transf\u00e8re dans des tableurs\u201d, a-t-il expliqu\u00e9.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Avec Tabula, les reporters peuvent tout simplement dessiner un cadre autour d\u2019un tableau sur leurs \u00e9crans d\u2019ordinateur pour extraire les donn\u00e9es qui les int\u00e9ressent. Cet outil peut aussi d\u00e9tecter des tableaux de mani\u00e8re automatique, notamment ceux qui n\u2019ont pas de bordure. Tabula n\u00e9cessite des documents \u201cdynamiques\u201d ou pass\u00e9s par la ROC, mais Jacoby a soulign\u00e9 que cet outil fonctionne bien avec des fichiers texte cr\u00e9\u00e9s par Tesseract. \u201cL\u2019outil peut aussi \u00eatre utilis\u00e9 hors ligne, ce qui signifie que vous pouvez travailler en toute discr\u00e9tion\u201d, a-t-il fait remarquer.<\/span><\/p>\n<p><b>Ressources compl\u00e9mentaires<\/b><\/p>\n<p><a href=\"https:\/\/gijn.org\/2021\/08\/17\/francais-enquete-data-base-de-donnees\/\"><em>Comment cr\u00e9er votre propre base de donn\u00e9es<\/em><\/a><\/p>\n<p><a href=\"https:\/\/gijn.org\/2021\/02\/02\/francais-spyonweb-virustotal-spiderfoot-enquete\/\"><em>D\u00e9couvrir les liens entre diff\u00e9rents sites webs avec SpyOnWeb, VirusTotal et SpiderFoot HX<\/em><\/a><\/p>\n<p><a href=\"https:\/\/gijn.org\/2019\/10\/08\/francais-data-donnees-outils-journalisme\/\"><em>Les meilleurs outils pour collecter des donn\u00e9es exclusives<\/em><\/a><\/p>\n<hr \/>\n<p><b><i><\/i><\/b><b><i><a href=\"https:\/\/gijn.org\/wp-content\/uploads\/2021\/02\/Rowan-Philp-140x140-1.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignleft size-thumbnail wp-image-309506\" src=\"https:\/\/gijn.org\/wp-content\/uploads\/2021\/02\/Rowan-Philp-140x140-1-140x140.png\" alt=\"Rowan-Philp-140x140\" width=\"140\" height=\"140\" srcset=\"https:\/\/gijn.org\/wp-content\/uploads\/2021\/02\/Rowan-Philp-140x140-1.png 140w, https:\/\/gijn.org\/wp-content\/uploads\/2021\/02\/Rowan-Philp-140x140-1-60x60.png 60w\" sizes=\"auto, (max-width: 140px) 100vw, 140px\" \/><\/a><a href=\"https:\/\/gijn.org\/about\/staff-member\/rowan-philp\/\">Rowan Philp<\/a><\/i><\/b><i><span style=\"font-weight: 400;\"> est journaliste \u00e0 GIJN. Auparavant, Rowan a \u00e9t\u00e9 reporter en chef pour le<\/span><\/i><a rel=\"noopener\" target=\"_blank\" href=\"https:\/\/www.timeslive.co.za\/sunday-times\/\"><i><span style=\"font-weight: 400;\"> Sunday Times<\/span><\/i><\/a> <i><span style=\"font-weight: 400;\">sud-africain. En tant que correspondant \u00e0 l\u2019\u00e9tranger, il a r\u00e9alis\u00e9 des reportages sur l\u2019actualit\u00e9, la politique, la corruption et les conflits dans plus de vingt pays dans le monde entier.<\/span><\/i><span style=\"font-weight: 400;\">\u00a0<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>D\u00e9couvrez dans cet article, trois solutions gratuites et faciles \u00e0 utiliser pour extraire les donn\u00e9es contenues dans des documents.<\/p>\n","protected":false},"author":3031133,"featured_media":1140305,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_price":"","_stock":"","_tribe_ticket_header":"","_tribe_default_ticket_provider":"","_tribe_ticket_capacity":"0","_ticket_start_date":"","_ticket_end_date":"","_tribe_ticket_show_description":"","_tribe_ticket_show_not_going":false,"_tribe_ticket_use_global_stock":"","_tribe_ticket_global_stock_level":"","_global_stock_mode":"","_global_stock_cap":"","_tribe_rsvp_for_event":"","_tribe_ticket_going_count":"","_tribe_ticket_not_going_count":"","_tribe_tickets_list":"[]","_tribe_ticket_has_attendee_info_fields":false,"republication-tracker-tool-hide-widget":true,"footnotes":"","_tec_slr_enabled":"","_tec_slr_layout":""},"categories":[23096,23092],"tags":[11582,5470,19901,24786],"gijn_topic":[18634,18642],"series":[],"gijn_language":[19911,17784],"gijn_region":[18628],"class_list":["post-564313","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-fiche-de-conseils","category-ressource","tag-archives-documents","tag-data-journalisme","tag-investigative-journalism-fr","tag-investigative-reporting-fr","gijn_topic-journalisme-de-donnees","gijn_topic-outils-conseils-pour-enqueter","gijn_language-en-fr","gijn_language-fr-fr","gijn_region-afrique"],"acf":[],"ticketed":false,"_links":{"self":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts\/564313","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/users\/3031133"}],"replies":[{"embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/comments?post=564313"}],"version-history":[{"count":2,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts\/564313\/revisions"}],"predecessor-version":[{"id":1213762,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/posts\/564313\/revisions\/1213762"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/media\/1140305"}],"wp:attachment":[{"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/media?parent=564313"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/categories?post=564313"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/tags?post=564313"},{"taxonomy":"gijn_topic","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/gijn_topic?post=564313"},{"taxonomy":"series","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/series?post=564313"},{"taxonomy":"gijn_language","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/gijn_language?post=564313"},{"taxonomy":"gijn_region","embeddable":true,"href":"https:\/\/gijn.org\/fr\/wp-json\/wp\/v2\/gijn_region?post=564313"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}