Paramètres d'accessibilité

taille du texte

Options de couleurs

monochrome couleurs discrètes sombre

Outils de lecture

isolement règle
GIJN Toolbox
GIJN Toolbox

Articles

Thématiques

Découvrir les liens entre différents sites webs avec SpyOnWeb, VirusTotal et SpiderFoot HX

Lire cet article en

Image : SpiderFoot HX

Bienvenue dans la Boîte à outils de GIJN, une série d’articles dans laquelle nous recensons pour vous des outils et techniques pouvant être utiles pour enquêter. Dans cet article, nous vous proposons de découvrir SpyOnWeb, DNSlytics, VirusTotal et SpiderFoot HX, qui peuvent vous aider à cartographier et analyser les liens entre des sites web, tout en préservant votre anonymat.

A la recherche de connexions masquées entre les sites

Montrons d’abord comment utiliser les tags sur Google Analytics – intégrées dans le code source des sites web – pour identifier les liens entre différents sites. Cartographier un réseau de cette manière peut aider les journalistes à mettre au jour des connexions auparavant invisibles entre des organisations qui pouvaient sembler parfaitement distinctes. 

Pour découvrir comment procéder, prenons comme exemple le site internet de GIJN. Inspectons le code source de l’une des pages de notre site pour voir si elle contient un tag Google Analytics. On commence par mettre l’URL suivante dans notre barre d’adresse Chrome :

view-source:https://www.gijn.org/contact

Nous générons ainsi le code source de la page qui nous intéresse :

Nous pouvons alors effectuer une recherche « UA- » (« universal analytics »), le tag employé par Google Analytics pour identifier notre site et tous les domaines associés à notre compte Google Analytics. Vous pouvez rechercher dans le code source les tag « Pub-« , qui sont connectées au produit AdSense de Google, ainsi que les tags « G-« , le nouveau format GA4 que Google a déployé à travers son produit Analytics. Il est important de comprendre les différents tags qui peuvent figurer dans le code source afin de pouvoir les rechercher puis les analyser afin d’identifier des connexions, grâce aux outils que nous détaillons ci-dessous. Commençons par rechercher « UA- » dans le code source :

Je trouve ainsi : UA-25037912-1

Copions et collons ceci dans le site SpyOnWeb, qui permet d’effectuer des recherches sur « des sites web qui appartiennent probablement au même propriétaire ». Voici le résultat que nous obtenons  :

Notez que notre tag UA est uniquement associé à notre site, gijn.org. Cette méthode peut servir à suivre un tag UA (ou les tags Pub et G) afin d’identifier des liens entre sites apparemment distincts. La présence d’un ou plusieurs tags identiques dans les codes sources de différents sites peut ainsi vous révéler une connexion entre ces sites. Si vous découvrez ainsi que le site qui fait l’objet de vos recherches est lié à d’autres sites similaires, cela peut vous ouvrir des pistes d’enquête supplémentaires, et vous permettre par la suite d’identifier l’organisation, l’individu ou le sponsor qui se cache derrière ce réseau.

Tentons une autre approche. En utilisant les outils de recherche inversée de DNSlytics, nous pouvons voir quelles autres adresses IP ou tags Google Analytics sont connectées au site qui nous intéresse. 

Prenons comme exemple le site du groupe de presse très marqué à froite Breitbart, qui est basé aux États-Unis. Nous allons d’abord récupérer le code source grâce à notre navigateur :

view-source:https://www.breitbart.com/

Puis nous y recherchons « UA-« . Effectivement, nous trouvons un  tag UA dans le code source :

Voyons ce que DNSlytics peut nous dire sur la tag UA UA-715222-1.

DNSlytics semble avoir trouvé 19 domaines contenant ce même tag. Je ne peux pas tous les voir car je n’ai pas de compte premium chez DNSlytics. Voyons donc ce que SpyOnWeb peut nous apprendre.

Effectuons la même recherche, sur le tag UA UA-715222-1, dans SpyOnWeb :

SpyOnWeb trouve sept noms de domaines, ce qui est un bon début. Essayons une recherche à partir du tag Pub, toujours dans SpyOnWeb, et voyons les résultats que nous obtenons. Voici le tag Pub dans le code source du site Breitbart :

Lorsqu’on tape le tag Pub de pub-9229289037503472 dans SpyOnWeb, voici ce que nous trouvons :

SpyOnWeb a trouvé 17 domaines utilisant la même tag Pub que breitbart.com. (Contre une trentaine sur DNSlytics, via une recherche similaire du tag Pub, mais nous ne pouvons pas les afficher sans compte premium.) Certains de ces domaines recoupent ceux trouvés en effectuant une recherche inversée à partir du tag UA de Breitbart. Ce sont les suivants :

biggovernment.com

bigpeace.com

breitbartchildrenstrust.com

bigjournalism.com

breitbart.tv

breitbart.com

Nous souhaitons approfondir nos recherches sur ces domaines, mais sans nous mettre en danger en nous rendant sur des sites inconnus. Tout d’abord parce que nous ne savons pas encore qui se cache derrière ce réseau de sites, et nous ne voulons pas encore les alerter sur notre enquête. Par ailleurs, si nous n’utilisons pas de réseau privé virtuel (RPV, ou VPN en anglais), le propriétaire des sites pourrait voir l’emplacement géographique associé à notre adresse IP (protocole Internet), ainsi que d’autres informations dont nous pourrions souhaiter qu’elles restent privées. (Nous vous suggérons d’utiliser un VPN lors de certaines enquêtes en ligne, surtout sur des sujets sensibles. Pour en savoir plus sur le sujet, consultez les articles de GIJN 4 Conseils de sécurité numérique que chaque journaliste doit connaître et Quelques lectures essentielles sur les options de sécurité numérique en open source.) Pour finir, nous ne savons pas si des logiciels malveillants ou des logiciels de « tracking » sont installés sur les sites sur lesquels nous enquêtons.

VirusTotal est un des outils qui peut nous aider à éviter cet écueil, en recherchant des logiciels malveillants sur ces sites. En collant n’importe quelle URL dans cette page vous obtiendrez des résultats en quelques secondes. VirusTotal vous indique également le domaine vers lequel l’URL redirige ses visiteurs. Par exemple, si vous essayez de vous rendre sur biggovernment.com, vous finirez, comme nous l’apprend VirusTotal, à l’adresse suivante :

Biggovernment.com semble n’être qu’une porte d’entrée supplémentaire vers la section politique du média breitbart.com. Selon Blacklight, un outil de confidentialité en ligne produit par le média à but non lucratif The Markup, Breitbart utilise un grand nombre de logiciels de suivi sur son site web. Pour autant, le site ne semble pas contenir de logiciels malveillants, selon l’analyse réalisée par VirusTotal. En prime, VirusTotal regroupe également toutes les informations que nous avions recueillies précédemment, comme les tags UA et Pub :

Enfin, VirusTotal vous donne l’option de voir les liens entre domaines / URL / adresses IP sous forme de graphique. Voici le graphique de réseau généré par VirusTotal pour l’un des sites que nous avons rencontrés précédemment bigpeace.com :

On y voit le logo de Breitbart : la lettre « B » dans un cadre orange. En utilisant la fonction graphique de réseau – encore une fois, sans avoir à nous rendre sur les sites web en question – nous pouvons donc voir que bigpeace.com apparait sous l’icône de breitbart.com. C’est très utile pour tout journaliste souhaitant vérifier ce qui se cache derrière une URL sans jamais s’y rendre. Autre fonctionnalité intéressante, VirusTotal vous permet de consulter l’historique des adresses IP et des archives Whois, ainsi que tous les sites associés à une URL spécifique. Voici la liste des sites liés à bigpeace.com, qui redirige ses visiteurs vers la page sécurité nationale de breitbart.com :

Merci à Jane Lytvynenko et Craig Silverman, de BuzzFeed News, qui ont présenté ces méthodes lors d’une séance de formation aux enquêtes numériques à la conférence IRE 2020. DomainBigData, Whoisology, DomainTools et BuiltWith sont des outils similaires.

Réaliser des graphiques de réseau sur SpiderFoot HX 

Vous voulez trouver toutes ces connexions automatiquement ? Essayez la 6ème édition de SpiderFoot HX, qui est sortie en septembre. Nous avons déjà évoqué SpiderFoot HX dans un numéro précédent de la Boîte à outils. Certaines fonctionnalités de cet outil en ligne sont accessibles à tous, d’autres sont payantes.

Donnons un exemple d’emploi de cet outil, en nous intéressant au site Now8News. Nous savons que ce média relaie de nombreuses fausses informations, mais est-il pour autant associé à d’autres faux sites d’information ? 

D’abord, quelques informations sur Now8News. Snopes, le média dédié à la vérification de faits, a inclus ce site dans son Guide pratique des sites de fausses nouvelles et des pourvoyeurs de canulars.

Capture d’écran : snopes.com

Et voici une capture d’écran de l’analyse sans appel qu’en fait le site Media Bias / Fact Check :

Capture d’écran : mediabiasfactcheck.com

Voyons maintenant si d’autres sites sont liés d’une manière ou d’une autre à Now8News. Cliquez sur la fonction « Investigate » en haut de SpiderFoot HX :

Choisissez un nom pour votre enquête, puis dans la barre de recherche inscrivez now8news.com et cliquez sur “Start Investigation” (« Lancer l’enquête »).

SpiderFoot HX génère alors automatiquement un graphique de réseau, comme ceci :

Trois nœuds apparaissent : un nœud racine interne (celui illustré par une araignée), un nœud nom de domaine et un nœud nom Internet. Un clic droit sur le nœud nom de domaine fait apparaître l’option « Investigate… », puis « Passive DNS », puis « Mnemonic PassiveDNS ». Cliquez sur cette dernière. Cela exécutera le module Mnemonic PassiveDNS, qui est l’un des nombreux outils intégrés au logiciel SpiderFoot HX. Ce module recueille de manière passive les requêtes DNS, ce qui nous permet de voir les domaines connectés au site qui nous intéresse. La durée du module dépendra du nombre de connexions trouvées, patientez donc quelques minutes pour que les données soient bien traitées. Puis passez à l’étape suivante.

Cliquez sur « Browse by… » et sélectionnez « Data Type », puis « Co-Hosted Site ».

Cela vous donne une liste de tous les sites co-hébergés que le module Mnemonic PassiveDNS a récupérés à partir de l’adresse IP du site qui vous intéresse, en l’occurrence now8news.com. La liste est longue, il faut donc préciser lesquels sont pertinents. Cliquez sur la case à gauche des sites qui vous paraissent pertinents puis sélectionnez le bouton étoile en haut à droite, comme ceci :

Cliquez ensuite sur « Starred » pour ne voir que les sites ainsi sélectionnés.

Une fois votre liste complétée, sélectionnez le bouton « Toggle View » :

Et sélectionnez « Node graph ». Cela génère automatiquement un graphique de réseau basé sur les sites co-hébergés que vous avez choisis. Voici le graphique que j’ai obtenu de cette manière :

Remarquez que tous ces nœuds – news4ktla.com et abc4la.com, entre autres – partent de l’adresse IP de now8news.com, qui est 67.227.229.104. Cela signifie qu’ils sont tous hébergés à la même adresse IP. Nous pouvons confirmer cela en recherchant now8news.com via l’outil IP inversé de DNSlytics :

Il y a de nombreuses autres fonctionnalités à essayer sur SpiderFoot HX. Faites-nous savoir si vous aimeriez qu’un prochain numéro de la Boîte à outils s’intéresse à un module en particulier. En attendant, vous pouvez consulter le tutoriel de l’expert en recherches en sources ouvertes NixIntel sur l’utilisation qu’il a faite de SpiderFoot HX pour enquêter sur une arnaque à la crypto-monnaie d’une société enregistrée au Royaume-Uni. NixIntel a utilisé SpiderFoot HX de la manière décrite ci-dessus – en utilisant des noms de domaine, des adresses IP et des tags Google Analytics – afin de réaliser un graphique du réseau du site web organisant l’arnaque. Rendez-vous sur le site et la chaîne YouTube de SpiderFoot pour en savoir plus.

Liens recommandés

Lectures complémentaires

Techniques pour enquêter sur les violences policières

6 outils et 6 techniques que les journalistes peuvent utiliser pour démasquer les auteurs de fausses nouvelles concernant le Covid-19

Enquêter sur une cyber-guerre


Brian Perlman est journaliste à GIJN. Il est spécialisé dans les recherches sur les violations des droits de l’homme à l’aide de méthodes d’enquête en ligne avancées, de l’analyse de données et de techniques d’enquête en sources ouvertes. Il est diplômé de la Graduate School of Journalism de l’UC Berkeley et ancien coordinateur au sein du Human Rights Center de Berkeley Law.

 

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International

Republier gratuitement nos articles, en ligne ou en version imprimée, sous une licence Creative Commons.

Republier cet article

Ce travail est sous licence (Creative Commons) Licence Creative Commons Attribution-NonCommercial 4.0 International


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Lire la suite

Actualités et analyses Méthodologie Outils et conseils pour enquêter Recherche Techniques d'enquête

Astuces pour rapidement vérifier les antécédents d’un inconnu, en urgence

Les projets d’enquête sont souvent comparés à des marathons. Mais, de temps en temps, les reporters doivent faire un sprint. Retour d’expériences de journalistes d’investigation qui, lors d’une session de la conférence sur le journalisme d’investigation en Amérique du Nord IRE23, ont partagé des conseils sur comment vérifier les antécédents de personnes peu connues, dans un délai très court.

Un panel discutant des enquêtes sur les féminicides au GIJC23.

Actualités et analyses Data journalisme Féminicide Outils et conseils pour enquêter

Humaniser sans sensationnaliser : enquêter sur le féminicide

Comment les journalistes peuvent-ils enquêter sur les féminicides sans réduire le meurtre de femmes à des statistiques criminelles, et comment produire un récit qui humanise sans sensationnaliser ?