Image: Shuttwerstock
Recherches sur Google : les conseils de Henk van Ess, spécialiste du journalisme en sources ouvertes
Lire cet article en
Pour permettre aux journalistes d’investigation d’optimiser leurs recherches sur Google dans le cadre de leurs enquêtes, GIJN a organisé, en juillet 2022, un webinaire avec le spécialiste de la recherche en ligne, Henk van Ess. Vous trouverez dans cet article, les principaux conseils de l’expert en journalisme OSINT.
De nombreux journalistes se fient encore à la recherche de groupes de mots entre guillemets sur Google. Cette méthode ayant pu produire des résultats intéressants par le passé. Pourtant, selon Henk van Ess, spécialiste de la recherche en ligne, Google ignore désormais fréquemment les instructions précises qu’on lui donne.
Ainsi, la recherche « Saint Kitts » « Taylor Swift » génère environ 400.000 résultats, alors qu’il n’existe, en fait, que deux résultats concernant à la fois l’île des Caraïbes (Saint-Christophe-et-Niévès en français) et la chanteuse américaine, tous deux relatifs à la vente sur l’île en question de produits à l’effigie de célébrités.
Lors d’un récent webinaire proposé par GIJN au sujet des recherches Google – auquel ont pris part 642 journalistes issus de 101 pays – Henk van Ess a expliqué que l’algorithme de recherche de Google a changé au fil du temps « pour plaire au plus grand nombre d’internautes ». L’algorithme privilégie désormais les requêtes les plus fréquentes, en ignorant voire en remplaçant les termes précis qui ont été saisis.
Selon Henk van Ess – qui donne des formations particulièrement pointues sur le journalisme en sources ouvertes et a co-créé l’outil Who Posted What? (« Qui a publié quoi ? ») qui permet de dater les publications sur Facebook – Google s’appuie désormais sur « l’intensité des signaux » pour sélectionner des résultats. Pour trouver ce qui les intéresse, les journalistes doivent donc forcer Google à ignorer ses idées préconçues.
Plutôt que de restreindre les recherches comme vous avez pu le faire par le passé, Henk van Ess explique qu’en ajoutant des mots-clés encore plus précis ou en employant des techniques dites de « Google hacking » (voir cette base de données dédiée), il est possible d’arriver à un plus grand nombre de résultats utiles.
Henk van Ess ajoute que certains mots – des noms de couleurs dans Google Images, des phrases types qu’emploie l’algorithme de Google – peuvent vous aider à trier la masse de résultats anticipés.
Dans ses interventions publiques, notamment ses webinaires pour GIJN, Henk van Ess insiste toujours sur le fait que les journalistes doivent penser différemment lorsqu’ils effectuent des recherches en ligne. Il faut penser de manière à la fois littérale et latérale, conseille-t-il – c’est-à-dire différemment d’une interview.
Un exemple simple : si vous recherchez une carte géographique, n’utilisez pas le mot « carte », mais plutôt un mot susceptible d’apparaître sur une carte, comme « échelle ».
« L’astuce de l’exclusion » compte parmi ses techniques préférées : en mettant le signe moins avant un mot, vous demandez à Google de ne pas l’inclure dans ses résultats. Ainsi, si vous trouvez une vidéo sur YouTube et souhaitez savoir si elle a été diffusée à un autre endroit, vous pouvez la rechercher en indiquant -site:youtube.com. De même, vous pouvez utiliser le signe moins pour exclure le nom d’une personnalité publique (par exemple -Putin) si cette donnée risque de dominer les résultats.
Le spécialiste encourage également les journalistes qui ne savent pas coder à ne plus craindre des URL complexes mais à s’en servir. Par exemple, pour une recherche sur les réseaux sociaux à l’aide de l’outil Who Posted What?, on peut prendre le lien Facebook (qui commence généralement par https://www.facebook.com/search/posts/?…) et remplacer le mot “messages” par “photos” ou “vidéos”, pour trouver des liens vers d’autres contenus en relation avec le sujet de votre enquête.
Selon Henk van Ess, si Google se pliait encore aux requêtes de ses utilisateurs il y a quelques années, le moteur de recherche remplace désormais fréquemment les mots-clés saisis par des mots semblables si ceux-ci sont plus courants.
Il dit aimer effectuer des recherches Google. Mais pour illustrer les problèmes qu’on peut y rencontrer, il donne l’exemple d’une recherche qui combinerait une île des Caraïbes – Saint-Christophe-et-Niévès – et d’autres mots-clés.
En recherchant l’impact des sanctions russes sur l’accès à l’énergie de ce petit Etat des Caraïbes, Henk van Ess montre que même en plaçant le nom de l’île au début de la recherche, et entre guillemets – « Saint Kitts » Putin gas supply – Google n’affiche pas de résultats concernant l’île. (Une recherche du mot « Kitts » parmi les résultats ne montre aucune correspondance). « Pourquoi Google ne tient-il pas compte de ce que vous venez de saisir ? » demande Henk van Ess. « Parce qu’il se fie aux signaux. Si c’est un signal faible, il essaie de vous donner un signal plus fort. En l’occurrence, Google estime que les signaux les plus forts sont ‘gaz’, ‘Poutine’ et ‘approvisionnement’, pas ‘Saint-Kitts’. L’île ne fait pas l’actualité, et Google veut nous faire plaisir. »
Comment contourner l’algorithme de Google
« Aujourd’hui, plus vous utilisez de mots-clés, plus vous obtenez de résultats – ce qui peut sembler contre-intuitif », explique Henk van Ess. « Quand nous sommes plus précis, Google l’est également en nous montrant davantage de résultats pointus. Plus nous saisissons des mots-clés originaux dans Google, plus nous obtenons de résultats. »
Voici comment mettre ce conseil en pratique :
- Utilisez la puissance des moteurs de recherche et le Google hacking. Henk van Ess a montré qu’on obtient de meilleurs résultats en combinant des mots couramment recherchés – loi armes à feu cour suprême New York – avec des termes plus spécifiques : loi armes à feu cour suprême New York filetype:pdf.
- Mettez les mots moins courants, que Google pourrait vouloir ignorer, entre guillemets.
- Forcez Google à trouver des connexions dans de courts passages. Henk van Ess conseille une précieuse « astuce » pour trouver ce qui relie deux choses : saisissez le mot AROUND (“autour”) en majuscules, ainsi que le nombre maximum de mots qui, selon vous, pourraient séparer ces deux choses dans une phrase ou un titre. Ce nombre doit apparaître entre parenthèses après AROUND, sans espace. Une recherche efficace pourrait donc ressembler à ceci : « grace mugabe » AROUND(7) « dubai ». Ou encore, pour trouver un lien entre un journaliste d’investigation du Washington Post et le pays d’origine de Henk van Ess : « Beth Reinhard » AROUND(12) « Pays-Bas” . »Vous devez être très clair avec Google, sinon il cherchera le mot ‘around’ ».
- Réfléchissez au contenu des documents susceptibles de servir votre enquête. On pourrait supposer qu’un énoncé de mission inclurait les mots « énoncé de mission », mais d’après Henk van Ess, Google pourrait « penser » à ce type de document par d’autres biais, notamment si vous saisissez des mots ou des expressions que l’on retrouve fréquemment dans ces textes. Il recommande de parcourir des documents similaires à ceux que vous vous attendez à trouver – en saisissant énoncé de mission filetype:pdf – d’y puiser des expressions caractéristiques puis de rechercher celles-ci en leur associant le nom de l’organisation qui vous intéresse – comme : site:amazon.com.
- Essayez des mots-clés avec la méthode de hacking « inurl » pour trouver des groupes Facebook. Henk van Ess conseille de saisir les mots « SEARCHTERM » inurl:groups site:facebook.com pour trouver des groupes présents sur le réseau social. Par exemple, si votre enquête porte sur des groupes Facebook qui auraient pu prendre part à l’émeute du 6 janvier 2021 au Capitole des États-Unis, saisissez : « stop the steal » inurl:groups site:facebook.com.
-
Si vous avez du mal à trouver une photo en particulier dans la recherche d’images Google, mais que vous connaissez certaines des couleurs dominantes susceptibles d’apparaître en arrière-plan (telles que les couleurs de la marque d’une chaîne de restaurants), saisissez le nom des couleurs (par exemple : vert blanc) après le mot-clé. Pour savoir si un homme politique serbe avait rencontré des personnages politiques à Saint-Christophe, Henk van Ess a saisi les couleurs dominantes du drapeau de l’île et l’URL du pays : Nikola Selaković green red site:kn.
- Autrement, essayez d’utiliser des chaînes de mots utilisées par les algorithmes, telles que “Image may contain: KEYWORD” ou: “May be an image of KEYWORDS” site:facebook.com (“L’image peut contenir : MOT-CLE » ou : « Peut être une image de MOTS-CLES » site:facebook.com).
« A une époque, les guillemets (autour de phrases-clés) ont pu permettre d’éviter une surcharge d’informations, mais ce n’est plus le cas », selon Henk van Ess. « Réfléchissez au contenu des documents. Employez ces astuces. Cela sera particulièrement utile aux journalistes d’investigation, qui sont à l’affût de connexions.”
Lectures complémentaires
Les conseils de Henk van Ess pour enquêter sur les réseaux sociaux (webinaire en français)
Comment utiliser Instagram pour enquêter
Les conseils de Henk van Ess pour faire des recherches avec des images (webinaire en français)
Rowan Philp est journaliste au sein de la rédaction de GIJN. Il a été grand reporter du Sunday Times sud-africain. En tant que correspondant étranger, il a réalisé des reportages sur la politique, la corruption et les conflits armés dans une vingtaine de pays.