Paramètres d'accessibilité

taille du texte

Options de couleurs

monochrome couleurs discrètes sombre

Outils de lecture

isolement règle

The Wayback Machine and Internet Archive are valuable tools for investigative journalists. Image: Screenshot

Internet Archive et son outil phare, Wayback Machine, sont une aide précieuse pour les journalistes d’investigation. Image : Shutterstock

« Une machine à remonter le temps ». Comme son nom l’indique, le site Wayback Machine permet d’avoir accès à des versions antérieures de pages web. Un outil qui peut s’avérer utile lorsque l’on fait de l’investigation… à condition de connaître quelques techniques.

Internet Archive, une bibliothèque numérique à but non lucratif dont l’objectif est de « rendre tous les savoirs accessibles à tous », fête cette année ses 25 ans. Cette organisation est surtout connue pour Wayback Machine – le service dont je suis actuellement responsable – qui archive et met à disposition une grande partie des sites internet publics, en archivant quotidiennement plus d’un milliard de pages web.

Les journalistes, les chercheurs, les vérificateurs de faits, les activistes et le grand public utilisent Wayback Machine, un outil gratuit, de différentes manières. Plusieurs milliers d’articles ont évoqué notre outil. Plusieurs journalistes d’investigation réputés ayant participé en 2020 à la série Mes outils préférés de GIJN citent d’ailleurs Wayback Machine comme un pilier de leur travail. 

Voici une introduction à Wayback Machine à destination des journalistes qui souhaiteraient s’en servir dans le cadre de leur prochaine enquête.

L’archivage des URL

Si vous publiez un article qui se réfère à un site web et que les propriétaires de ce site suppriment des pages clés, voire le site dans son ensemble, ces informations peuvent être perdues à jamais. D’où l’intérêt de les archiver !

Des dizaines de millions d’URL sont archivées chaque jour par les usagers du site grâce au service « Save Page Now » (Enregistrer la page) de Wayback Machine. N’importe qui peut soumettre une URL et, si vous êtes connecté avec un compte d’archivage gratuit, vous pouvez également demander à ce que soient archivés tous les « liens externes » cités dans la page dont vous souhaitez saisir un instantané – et à recevoir par e-mail un rapport de synthèse de ces enregistrements.

Une autre caractéristique utile est que vous pouvez télécharger les URL capturées dans un fichier WACZ et les examiner/traiter avec vos propres outils.

« Save Page Now » permet d’automatiser une grande partie de l’archivage de Twitter. Par exemple, vous pouvez facilement archiver jusqu’à 3 200 tweets les plus récents de n’importe quel profil Twitter si vous insérez son URL et cochez l’option correspondante.

Sachez que si vous avez une liste d’URL à archiver, vous pouvez toutes les soumettre en même temps : saisissez-les dans la colonne « A » d’un fichier Google Sheets puis soumettez ce fichier via le service Google Sheets « Save Page Now » (Enregistrer la page maintenant), que vous trouverez ici. Dans les colonnes B, C et D apparaîtront un code bilan, une URL archivée et une indication de si l’URL avait déjà été archivée par Wayback Machine.

Vous pouvez également soumettre une URL unique en l’envoyant par mail à « spn@archive.org« . Si vous écrivez « capture outlinks » (enregistrer les liens externes) comme sujet de l’e-mail, ceux-ci seront également enregistrés. Encore une fois, vous recevrez un bilan par mail une fois la tâche accomplie.

Enfin, pour ceux qui disposent de compétences techniques plus avancées, Wayback Machine fournit une interface de programmation (API), qui permet l’intégration dans les flux de travail de vos logiciels existants, ou lors de la création de nouvelles applications, afin d’automatiser votre travail. Ainsi, Meedan – l’organisation de technologie à but non lucratif basée à San Francisco qui construit des logiciels et des initiatives pour renforcer le journalisme mondial – a intégré son service « check » avec Wayback Machine.

Comparer différentes versions archivées d’une même page web

Avez-vous déjà voulu découvrir et afficher les différences entre deux versions d’une même page web – peut-être pour voir comment une entreprise ou un individu avait modifié son site ou adapté le libellé de sa page ? C’est possible, grâce à la fonction « Changes » (Modifications).

Saisissez n’importe quelle URL archivée dans la barre de recherche sur la page d’accueil de Wayback Machine. Sélectionnez ensuite l’option « Change ».

Une liste s’affiche alors de versions archivées à différents moments. Différentes couleurs symbolisent le nombre de modifications d’une URL archivée sur l’autre.

Sélectionnez ensuite deux versions horodatées de l’URL et elles s’afficheront côte à côte. Les différences dans le texte d’une version sur l’autre seront soulignées en bleu ou en jaune. Cette fonctionnalité a été utilisée pour montrer comment un blogueur et conseiller politique britannique a tenté de réécrire l’histoire. En voici (ci-dessous) une illustration.

The Wayback Machine showing how Dominic Cummings made stealth additions (in blue) to a blog post. Image: Screenshot

La fonction « Changes » de Wayback Machine a révélé les ajouts (en bleu, à droite) de Dominic Cummings, l’ancien conseiller en chef du Premier ministre britannique, à son article de blog (à gauche). Capture d’écran.

Recherches d’archives plus approfondies

Vous pouvez utiliser l’option URL de la Wayback Machine pour rechercher des sous-URL de n’importe quelle URL capturée à l’aide de mots-clés et/ou de types de mime. Vous pouvez facilement filtrer et trier les résultats pour localiser les captures intéressantes.

Des fichiers spécifiques et des collections de sites web ont été indexés par nos ingénieurs et la Wayback Machine offre une interface de recherche en texte intégral pour ces fichiers. Consultez la rubrique « Recherche de collections » au bas de la page d’accueil de Wayback Machine. Parmi les sites les plus connus, figurent des sites Web perdus tels que poetry.com, Russian Independent Media et une collection de 749 millions de fichiers PDF. La page d’accueil d’Internet Archive est un autre endroit où vous pouvez voir les services disponibles pour les collections.  

Si vous souhaitez que nous indexions des collections spécifiques de documents archivés (par exemple, en fonction de différents modèles d’URL), veuillez nous contacter à l’adresse info@archive.org.

Utilisation des API avec Wayback Machine

En plus d’une API pour prendre en charge l’archivage via le service « Save Page Now », il existe également des API permettant de vérifier si des URL spécifiques ont déjà été archivées par Wayback Machine. Pour plus d’informations à ce sujet, rendez-vous ici.

Comme la plupart de ses services, Wayback n’impose pas de limite formelle à l’utilisation de ses API. Cela dit, des mesures de limitation sont parfois mises en place. Si vous rencontrez des problèmes liés à l’utilisation de Wayback Machine, envoyez-nous un mail ou un message privé sur Twitter. Soutenir les journalistes est une priorité pour nous.

Contextualiser les pages archivées

Nous reconnaissons que le contexte et la provenance sont essentiels à une meilleure compréhension de toute archive. Dans cet esprit, nous avons commencé à ajouter des bannières contextuelles pour aider nos usagers à mieux saisir nos ressources archivées. Ces types de bannières peuvent apparaître lorsqu’une page web archivée a été supprimée ou lorsque la page a été commentée par des chercheurs reconnus.

Wayback Machine comprend des en-têtes jaunes qui renvoient aux utilisations externes des pages archivées et comportent un onglet « About this capture », qui fournit un contexte historique supplémentaire au sujet de la page. Capture d’écran.

La provenance de chacune des URL archivées qui composent une page web peut être essentielle à la compréhension de cette page. Par exemple, certaines images d’une page archivée ont-elles été capturées à la même heure et à la même date que d’autres éléments de la page ? Vous pouvez voir ces informations en cliquant sur le lien « About this capture » (À propos de cette capture) en haut à droite de chaque URL archivée.

Le soin et l’attention que nous apportons à l’intégrité de nos archives, et notre transparence quant à leur provenance, ont contribué à la confiance dont jouit Wayback Machine. C’est pourquoi les informations stockées sur Wayback Machine ont été admises par plusieurs tribunaux dans le monde.

Si vous souhaitez que nous ajoutions du contexte aux archives que vous avez créées via notre fonction « Save Page Now », veuillez nous contacter.

Extensions de navigateur

Comme vous vous en doutez, nous avons des extensions de navigateur disponibles pour Safari, Firefox et Chrome, ainsi que des applications mobiles natives pour iOS et Android. Nous nous sommes également associés à Brave – un moteur de recherche – pour intégrer la détection native des erreurs 404 (et d’autres erreurs) directement dans leur navigateur afin de permettre une prise en charge ultra-simple des expériences de navigation web par Wayback Machine.

En tout cas, n’hésitez pas à nous écrire par mail ou sur Twitter. Veuillez partager vos questions, requêtes et réussites, ainsi que les anomalies que vous avez pu rencontrer. Nous souhaitons tout particulièrement savoir ce qui vous déplaît, ou quelles fonctionnalités nous pourrions soit améliorer soit ajouter. Cela nous permettra de mieux répondre aux besoins des journalistes.

Mais attendez ! Ce n’est pas tout…

En plus d’archiver une grande partie du web public, Internet Archive préserve et met à disposition d’autres collections de documents : plus de 25 millions d’articles scientifiques en accès libre par le biais de notre service Internet Archive Scholar, près de 30 millions de livres électroniques et de textes pouvant être prévisualisés, empruntés ou téléchargés, et des millions d’heures de journaux télévisés archivés (tirés de dizaines de stations sur une période de près de 10 ans) peuvent être recherchés via l’indexation en texte intégral des sous-titres codés associés.

Si vous souhaitez être tenu informé des projets et services d’Internet Archive et de Wayback Machine, suivez-nous sur Twitter @internetarchive et @waybackmachine et lisez nos articles de blog.

Lectures complémentaires

C’est quoi Internet Archive et qu’est ce que je peux trouver sur ce site ? 

Comment utiliser l’outil Wayback Machine d’Internet Archive

L’utilisation d’Archive.org pour les enquêtes OSINT

Webinaire GIJN : utiliser les outils en sources ouvertes pour enquêter depuis chez soi

Guide de GIJN pour enquêter en ligne


Mark Graham thumbnail imageMark Graham dirige Wayback Machine depuis plus de cinq ans. Auparavant, il était vice-président senior de NBC News Digital. Mark Graham a également aidé à gérer le premier service de messagerie électronique américano-soviétique ; a lancé un projet visant à créer la première interface web pour un système de discussion en ligne ; et aidé à gérer iVillage, l’un des premiers services en ligne à destination d’un public féminin.

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International

Republier gratuitement nos articles, en ligne ou en version imprimée, sous une licence Creative Commons.

Republier cet article

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Lire la suite

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche Techniques d'enquête

Astuces pour rapidement vérifier les antécédents d’un inconnu, en urgence

Les projets d’enquête sont souvent comparés à des marathons. Mais, de temps en temps, les reporters doivent faire un sprint. Retour d’expériences de journalistes d’investigation qui, lors d’une session de la conférence sur le journalisme d’investigation en Amérique du Nord IRE23, ont partagé des conseils sur comment vérifier les antécédents de personnes peu connues, dans un délai très court.