Истории

Темы

Инструментарий GIJN: спутниковые данные, поиск по логинам и распознавание лиц

ЧИТАЙТЕ ЭТУ СТАТЬЮ НА ДРУГИХ ЯЗЫКАХ

Эта карта, сделанная в приложении Tableau, иллюстрирует события в Сирии: спутник в инфракрасном диапазоне засёк странную активность. Изображение: Брайан Перлман

В этом выпуске рубрики Инструментарий GIJN мы рассмотрим новые приёмы и советы для журналистов-расследователей — анализ спутниковых изображений в инфракрасном спектре. С помощью этой техники New York Times отслеживала разрушительные пожары на Западном побережье США. Также изучим противоречивую практику применения технологии распознавания лиц, отправку запросов к NASA о предоставлении спутниковых данных, новый инструмент поиска документов от Google и кое-что ещё.

Использование инфракрасных снимков для расследования причин пожара

Изображение: EO Browser

Команда визуальных расследователей New York Times выпустила видео с описанием того, как начинался и распространялся особенно разрушительный пожар в штате Орегон. Продюсер этого видео Кристоф Кёттл использовал инструмент под названием EO Browser (EO означает earth observation, наблюдение за Землей) для доступа к спутниковым данным. Landsat 8, спутник, построенный корпорацией Orbital Science, был запущен правительством США в 2013 году. На его борту находятся несколько инструментов сбора данных, которые потом пересылают на Землю. Чтобы обнаружить, откуда начался пожар, Кёттл использовал инфракрасные снимки NASA для выявления источника тепла. Он сопоставил их с изображением в оптическом диапазоне, как на следующем видео, и определил район, где произошло возгорание.

Изображение: The New York Times

Ещё один полезный ресурс — данные о пожарах от пожарно-информационной службы NASA FIRMS. На этой странице, можно загрузить данные о пожарах за последние 24 часа, 48 часов или семь дней, или отправить запрос на скачивание данных из архива.

NASA предлагает данные двух приборов: MODIS и VIIRS. MODIS — спектрорадиометр среднего разрешения, он установлен на двух спутниках NASA: Terra и Aqua. По сообщениям самого агентства, MODIS сканирует «всю поверхность Земли раз в один-два дня». VIIRS — инфракрасно-оптический радиометрический комплект — один из пяти инструментов на борту спутниковой платформы NPP — финского национального полярноорбитального партнерства, запущенной в 2011 году. Он собирает «наблюдения, охватывающие видимые и инфракрасные диапазоны на суше, в океане и атмосфере». (По этой ссылке находятся метаданные, описывающие формат MODIS, а по этой — метаданные, описывающие формат VIIRS.) Примеры журналистики с использованием этих данных см. в статье немецкой «ZDF heute» про пожары в Арктике.

Данные NASA о пожарах снабжены геотэгами (указанием широты и долготы), их можно нанести на карту в любой геоинформационной системе (ГИС), например, ArcGIS или QGIS, или на таких платформах визуализации данных, как FlourishDatawrapper или Tableau. Я сделал эту визуализацию в Tableau с помощью данных VIIRS по Сирии за октябрь 2017 г. И для сравнения, я сделал другую визуализацию по данным MODIS за тот же период. Дни можно переключать с помощью кнопки в правом верхнем углу карты. На основе данных FIRMS от NASA вы сможете приводить доказательства ракетных обстрелов или подтверждать боевые действия в таком-то районе, соотносить данные визуализации с новостями или сообщениями пользователей.

Спутники передают дату и время в UTC, то есть универсальном скоординированном времени. Поскольку я запросил данные NASA за период 4-31 октября 2017, важно отметить для целей верификации, что в Сирии часовой пояс UTC +3 был с 4 по 26 октября и UTC +2 с 27 по 31 октября. Сравнивая данные MODIS и VIIRS, вы сможете получить неплохой охват событий дня. Особый интерес представляет возможное совпадение времени снимков или получения спутником данных: тогда можно сравнить показания двух спутников. Например, утром 8 октября 2017 года, два спутника, используя два разных набора инструментов, засекли похожие данные почти в одних и тех же координатах в провинции Латакия. Вот результат VIIRS:

А вот, что засёк инструмент MODIS со спутника NASA Terra двумя часами ранее:

Излучаемая мощность огня (FRP) — это «показатель количества теплоты, выделяемой при горении, в мегаваттах», и она помогает «учёным выявить активный фронт пожара», — сообщает NASA. Поскольку оба набора данных, и MODIS, и VIIRS, содержат высокие показатели FRP почти в том же самом месте, мы можем прийти к выводу, что что-то интересное происходило в этом месте утром 8 октября. Что именно — нам не известно, но мы можем использовать службы документирования конфликтов, вроде Liveuamap, чтобы вернуться в тот день и проверить, что публиковали в соцсетях по интересующему нас району в провинции Латакия.

Поиск по именам пользователей в соцсетях

Если вы нашли имя пользователя, которое вам хочется глубже проанализировать, попробуйте ввести его в  Whatsmyname.app. Вы найдете другие учётные записи на веб-сайтах с тем же именем пользователя. Это может быть очень полезно, если вы нашли интересующего человека, например, в Twitter, но он там мало пишет. С помощью этого инструмента можно найти другие платформы, где этот человек создал учётные записи с тем же никнеймом или логином.

Если вы не чураетесь командной строки и языка программирования Python, то можете попробовать похожий инструмент под названием Sherlock. Можно установить Sherlock на свой компьютер или, если у вас есть учётная запись  Google и знание командной строки, в Google Cloud Shell. Третий инструмент называется Holehe. Его легко установить через командную строку, результаты выдаются в простой форме с цветовым кодированием. Я поискал своё имя пользователя каждым из трёх инструментов, и они выдали немного отличающиеся результаты. Поэтому если вы поищете интересующего вас человека во всех трёх, то сможете собрать о его никнейме максимум информации.

Ещё один способ найти учётные записи человека в соцсетях — с помощью Social Links PRO, платного инструмента (в диапазоне, примерно $1000 — 3000), который используется в программе картографирования сетей Maltego Pro (и стоящей отдельно $999 в год). Social Links и Maltego — это мощное сочетание, поскольку многие источники данных (в том числе OpenCorporates, DocumentCloud и Pipl) интегрированы в один инструмент. Дополнительные преимущества возможности поиска по соцсетям с помощью распознавания лиц и нанесения результатов на сетевой граф.

Приведем пример. Допустим, мне нужно найти все учётные записи в соцсетях для окружного прокурора Лос-Анджелеса Джорджа Гаскона. Я создаю узел, добавляю к нему имя, изображение искомого лица, и инструмент с помощью распознавания лица и текста попытается найти аккаунты в соцсетях. В процессе я вижу четыре или пять учётных записей: Facebook, Instagram, Twitter и LinkedIn.

Снимок экрана: Maltego

Распознавание лиц: ценно, но рисковано

Есть и другие инструменты для поиска по лицам, например, Pimeyes или Findclone.ru, но прежде чем вы попробуете там загрузить свои лица, чтобы проверить, как они работают, продумайте связанные с этим риски. Инструмент Blacklight от Markup, определяющий технологии отслеживания пользователей на вебсайтах, выявил инструмент «записи сеанса» на сайте Findclone, то есть они могут отслеживать ваши движения мышью и нажатия на клавиатуру. Blacklight также выявил, что Pimeyes «кажется, использует функцию [Google Analytics] «ремаркетинг аудитории», позволяющую отслеживать пользователей для таргетированной рекламы в разных местах Интернета». Учтите, что загружая своё лицо, вы отдаёте контроль за своими биометрическими данными, а загружая лицо кого-то другого, вы можете нарушать правила пользования сервисом или даже закон.

Российский поисковый сервер Яндекс тоже позволяет обратный поиск по изображениям с возможностью определения лиц, но в выдаче может появляться много ложных совпадений. Обратите внимание, что при загрузке изображения в Яндекс, оно навсегда останется заархивированным где-то на российском сервере, так что будьте осторожны. (Дополнительные сведения про Pimeyes и Yandex можно узнать из комментариев Хенка ван Эсса в нашем вебинаре GIJN.) New York Times описали возможности распознавания лиц в Clearview.ai, но компания сейчас предлагает доступ только правоохранительным органам.

Но, невзирая на сложности с конфиденциальностью, распознавание лиц может быть полезным инструментом для журналистов-расследователей, которым нужно определить людей в каких-то опубликованных онлайн видео и найти их — это оказалось актуально, например, в недавнем штурме американского Капитолия. Или взять дело ливийского военачальника Махмуда Мустафы Бусайифа Аль-Верфалли. Впервые прокуроры в Международном уголовном суде использовали видео, опубликованные в соцсетях, для получения в 2017 году ордера на арест человека, изображённого на видеозаписи, где он совершал, как утверждали прокуроры, военные преступления. В этих видео командир, по всей видимости, проводит жестокие внесудебные казни — приказывает подчинённым расстреливать или сам нажимает на курок. Видео, опубликованные в соцсетях, можно использовать как доказательства — и в правовом, и в журналистском контексте — но новые технологии распознавания лиц влекут за собой морально-этические дилеммы, а также проблемы конфиденциальности и безопасности.

Pinpoint

В завершение этого выпуска «Инструментария» расскажем о новом инструменте от Google, который очень понравится любому журналисту, работающему с различными видами документов. Pinpoint (внутри Google он раньше назывался Backlight) — это инструмент поиска по документам, который автоматически извлекает имена собственные, названия организаций и мест, и приводит их в формате списка ссылок. Pinpoint принимает многие типы файлов, в том числе PDF, аудио, изображения, текст и файлы Microsoft Office, например Word и Excel.

Pinpoint анализирует документы на семи языках: английский, французский, немецкий, итальянский, польский, португальский и испанский. Также он автоматически расшифровывает в текст англоязычные аудиофайлы. Просмотреть пресс-релиз о запуске продукта можно в Google News Initiative по этой ссылке, а вот здесь можно подать заявку на доступ к Pinpoint.

Рекомендованные статьи (на английском)

Статьи на русском по теме

Как с помощью открытых данных удалось идентифицировать участников штурма Капитолия.

OSINT против COVID-19: Как проводить расследования на основе открытых источников.

Как спутниковые снимки стали незаменимым — и легкодоступным — инструментом журналистики.


Брайан Перлман — помощник редактора GIJN. Он специализируется на исследованиях нарушений прав человека с использованием передовых технологий цифровой криминалистики, анализа данных и методов OSINT. Он выпускник Высшей школы журналистики Калифорнийского университета в Беркли и бывший менеджер Центра прав человека в Berkeley Law.

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0

Перепечатывайте наши статьи бесплатно по лицензии Creative Commons

Перепостить эту статью

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Читать дальше

Журналистика данных

Топ-10 DDJ: Аномальная жара, популярные французские имена и звёздные футболистки

Среди самой популярной журналистики данных недели мы нашли материал об изменениях в глобальной демографии, исследование об активах Московской православной церкви в Украине, обзор самых популярных имён во Франции и анализ, предсказывающий будущих звёзд Чемпионата мира по футболу среди женщин.

Uber Files secret access

Журналистика данных

Топ-10 DDJ: Файлы Uber, минута в украинском окопе и кремлёвская пропаганда

Утечка файлов Uber, сомнительное наследие скандального лидера Великобритании Бориса Джонсона, реконструкция собора Нотр-Дам и широко распространенная эпидемия насилия с применением огнестрельного оружия в США.

10 распространенных ошибок в журналистике данных

Журналистика данных Примеры из практики Советы и инструменты

10 типичных ошибок в журналистике данных

На конференции по дата-журналистике NICAR-2024 репортёр GIJN Рован Филп расспросил спикеров и участников о пробелах в журналистике данных, темах, которые часто остаются в тени, и навыках, которых не хватает редакциям.