Портал Internet Archive та його сервіс Wayback Machine є безцінними інструментами для журналістів-розслідувачів.

Internet Archive («інтернет-архів») — це некомерційна бібліотека, яка цього року відзначає 25 років з початку виконання місії «загального доступу до всіх знань». Вона найбільш відома завдяки сервісу Wayback Machine («Машина часу»), яким я зараз керую. Він щодня архівує для надання подальшого загального доступу понад 1 мільярд сторінок  публічного інтернету.

У журналістів, дослідників, фахівців з фактчекінгу, активістів і громадськості є чимало способів щоденно отримувати безкоштовний доступ до Wayback Machine. Про нас або про наші послуги написано кілька тисяч статей. Навіть у підсумковій статті серії GIJN «Мої улюблені інструменти» за 2020 рік кілька провідних журналістів-розслідувачів назвали нас основою своєї роботи.

Текст нижче призначений для журналістів, які хотіли б спробувати використати Wayback Machine у наступному розслідуванні.

Архівування URL-адрес

Якщо ви опублікуєте статтю, у якій є посилання на вебсайт, а його власники видалять ключові сторінки, а то й весь сайт, то дані можна втратити назавжди, якщо їх ніхто не заархівував. Уникайте цього!

Щодня користувачі Wayback Machine архівують десятки мільйонів URL-адрес завдяки функції «Save Page Now» («Зберегти сторінку зараз»). Будь-хто може надсилати URL-адреси сторінок для збереження в архіві, а якщо ви увійшли до архіву через свій безкоштовний обліковий запис, то можна також зробити запит на архівування «outlinks» — зовнішніх посилань з оригінальної сторінки, яку ви зберігаєте — та отримати на електронну пошту звіт про процес збереження. Ще одна корисна функція дозволяє завантажувати збережені сторінки у вигляді файлів формату WACZ і переглядати/обробляти їх за допомогою власних інструментів.

За допомогою функції «Save Page Now» можна автоматично архівувати великі обсяги даних із Twitter. Наприклад, можна легко архівувати до 3200 останніх твітів з будь-якого профілю Twitter; для цього треба лише вставити його URL-адресу та обрати відповідну опцію.

Декілька технічних моментів: якщо вам потрібно заархівувати багато сторінок і ви маєте список їхніх URL-адрес, додайте їх у стовпчик A таблиці Google Sheets та відправте її у сервіс пакетного збереження сторінок Google Sheets сюди. У стовпчиках B, C і D з’являться коди стану операції, URL-адреси заархівованих сторінок і позначки, якщо ці сторінки було заархівовано у Wayback Machine раніше.

Ще один варіант — надіслати на електронну пошту «spn@archive.org» лише одну URL-адресу. Якщо додати до теми повідомлення команду «capture outlinks» («зафіксувати зовнішні посилання»), зовнішні посилання також буде збережено. Коли процес буде завершено, ви отримаєте електронний лист зі звітом.

Нарешті, для більш технічно просунутих юзерів Wayback Machine пропонує  API або програмний інтерфейс, який дозволить інтегрувати цю функцію у робочі процеси існуючого програмного забезпечення чи автоматизувати роботу при створенні нових програм. Як приклад можна згадати, як технологічна некомерційна організація з Сан-Франциско Meedan, що випускає ПЗ для зміцнення глобальної журналістики, інтегрувала із Wayback Machine свою службу «Check».

Порівняйте зміни у різних архівних версіях

У вас виникало бажання виявити і показати відмінності між двома версіями однієї вебсторінки, наприклад, щоб дізнатися, як компанія чи окрема особа змінили свій сайт або виправили формулювання на своїй сторінці? Це можна зробити за допомогою функції «Changes» («Зміни»).

Для цього введіть будь-яку заархівовану URL-адресу в пошук на стартовій сторінці Wayback Machine. Потім оберіть функцію «Change».

Ви побачите перелік архівних версій сторінки з різними датами та часом, при цьому кольором буде показано ступінь відмінності однієї архівної версії від іншої.

Далі оберіть будь-які дві версії сторінки з часовими мітками, і вони відобразяться поруч з відмінностями, виділеними синім і жовтим кольорами. Ця функція допомогла показати, як британський блоґер та політичний радник намагався переписати історію — див. знімок екрана нижче.

Завдяки функції «Changes» сервісу Wayback Machine вдалося довести, як Домінік Каммінґз (Dominic Cummings), колишній головний радник британського прем’єр-міністра, намагався непомітно доповнити (синім, праворуч) свій оригінальний допис у блозі (ліворуч).

Функція «Зміни» Wayback Machine зафіксувала, як Домінік Каммінгс, колишній головний радник британського прем’єр-міністра, зробив приховані доповнення (синім, праворуч) до свого оригінального повідомлення в блозі (ліворуч). Зображення: знімок екрана

Глибші пошуки в архіві

У Wayback Machine можна використовувати опцію URL-адрес для пошуку суб-сторінок будь-якої збереженої сторінки за допомогою ключових слів та/або MIME-типів. Можна легко фільтрувати й сортувати результати, щоб знайти цікаві деталі.

Наші інженери проіндексували певні файли та збірки вебсайтів, і тепер Wayback Machine пропонує повний інтерфейс текстового пошуку по них. Знайдіть розділ «Collection Search» («Пошук у збірках») в нижній частині стартової сторінки Wayback Machine. Цікавинки включають видалені сайти, такі як poetry.com, сайти незалежних російських медіа і збірку з 749 мільйонами PDF-файлів. Різні варіанти опрацювання збірок також можна переглянути на стартовій сторінці Internet Archive.  Якщо ви хочете, щоб ми проіндексували певні збірки архівних матеріалів (наприклад, із URL закономірностями), зв’яжіться з нами через info@archive.org.

Використання API із Wayback Machine

Окрім API для архівування через функцію «Save Page Now», існують й інші API, які дозволяють запитувати Wayback Machine, чи було заархівовано конкретні URL-адреси. Детальніше про це можна дізнатися тут.

Як і більшість інших сервісів, Wayback не встановлює формальних обмежень на частоту використання API. Однак час від часу у вас можуть виникати проблеми зі швидкістю обробки. В разі будь-яких проблем з використанням Wayback Machine, надішліть нам електронний лист або приватне повідомлення у Twitter. Підтримка журналістів дуже важлива для нас.

Додавання контексту до архівних сторінок

Ми усвідомлюємо, що для ґрунтовнішої обробки будь-якого архіву життєво важливими є контекст і джерела інформації. Саме тому ми почали додавати контекстні банери, щоб допомогти користувачам краще розуміти ресурси нашого архіву. Такі банери можуть використовуватися, коли заархівовану сторінку видалили або коли про сторінку написала відома дослідницька організація.

Wayback Machine включає жовті заголовки, які посилаються на зовнішнє використання архівних сторінок, і має вкладку «Про цей запис», яка надає додатковий історичний контекст сторінки. Зображення: знімок екрану

Походження кожної заархівованої URL-адреси, з яких складається вебсторінка, може мати вирішальне значення для розуміння цієї сторінки. Наприклад, чи з’явилися певні зображення на заархівованій сторінці у ті самі час та день, що й інші елементи? Цю інформацію можна отримати, натиснувши на кнопку «About this capture» («Про цей запис») у верхньому правому куті екрану кожної архівної сторінки.

Завдяки нашому багаторічному дбайливому й уважному ставленню до цілісності наших архівів та прозорості їхнього походження, користувачі в цілому довіряють Wayback Machine. Тому докази, збережені на сервері Wayback Machine, приймають як допустимі багато судів по всьому світу.

Якщо ви хочете, щоб ми розглянули можливість додавання контексту до архівів, які ви створили за допомогою функції «Save Page Now», зв’яжіться з нами.

Розширення для браузера

Як ви, мабуть, здогадалися, у нас є розширення для браузерів Safari, Firefox і Chrome, а також мобільні застосунки для iOS та Android. І окремо підкреслимо, що завдяки партнерству з пошуковиком Brave ми інтегрували нативне визначення помилки 404 (та інших) просто в їхній браузер, що спрощує використання Wayback Machine під час користування інтернетом.

І найголовніше: пам’ятайте, що отримати підтримку Internet Archive і Wayback Machine дуже легко — через електронну пошту або приватні повідомлення у Twitter. Надсилайте нам свої запитання, запити, повідомлення про помилки та історії успіху. Особливо ми хочемо почути, що вам не подобається в наших сервісах або які функції, на вашу думку, варто покращити чи додати. Так ми зможемо працювати над тим, щоб краще задовольняти потреби журналістів.

Але стривайте! Це ще не все…

Окрім архівування більшості сторінок загальнодоступної мережі, Internet Archive зберігає та показує інші колекції матеріалів: зокрема, у відкритому доступі на нашому сайті Internet Archive Scholar є понад 25 мільйонів наукових робіт; майже 30 мільйонів електронних книг і текстів, які можна переглянути, використовувати або завантажити; мільйони годин архівних телевізійних новин (десятки каналів за період близько 10 років) доступні для повнотекстового пошуку за індексованими субтитрами.

Щоб бути в курсі проєктів і сервісів Internet Archive та Wayback Machine, підписуйтесь на нас у Twitter @internetarchive і @waybackmachine, а також читайте дописи у нашому блозі.

Додаткові ресурси англійською:

What is the Internet Archive and What Can I Find on It?

How to Use the Internet Archive’s Wayback Machine

Using Archive.org for OSINT Investigations

GIJN Webinar: Using Open Source Info to Report from Home

GIJN Resource Center: Online Research Tools


Марк Ґрем (Mark Graham) керує Wayback Machine більше п’яти років. До цього він був старшим віцепрезидентом NBC News Digital. Ґрем також допоміг запустити першу американо-радянську службу електронної пошти; започаткував проєкт зі створення першого вебінтерфейсу для онлайн-форуму і допоміг запустити iVillage, один з найперших онлайн-сервісів для жінок. 


Переклад здійснений в партнерстві з Інститутом регіональної преси та за підтримки EU4 Independent Media.

Republish our articles for free, online or in print, under a Creative Commons license.

Republish this article


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Читати далі

Дослідження Журналістика даних Новини та аналітика Приклади розслідувань

Украдені скарби, депортовані діти й окупація АЕС: Найкращі журналістські розслідування 2023 року українською

Редакція GIJN зібрала деякі з видатних розслідувань, які попри всі перешкоди вдалося провести українським незалежним ЗМІ й журналістам 2024 року.

Новини та аналітика

GIJC23: Зустріч року для журналістів-розслідувачів

13-а Глобальна конференція журналістів-розслідувачів стала найбільшим зібранням журналістів-розслідувачів за всю історію #GIJC. Про те, чим вона запам’яталася українським учасникам і учасницям, читайте у нашому огляді.

Поради та інструменти Приклади розслідувань

Співпраця для розкриття «тіньової війни Путіна» в Скандинавії

Транскордонна співпраця чотирьох скандинавських видань мала на меті розкрити масштаби російських таємних операцій у регіоні. На GIJC23 журналісти та режисери-документалісти пояснили, як їм це вдалося.

Дослідження

Глобальна хакерська загроза: Як журналісти-розслідувачі можуть дати відсіч

Ключовий спікер GIJC23, директор Citizen Lab Рон Дейберт, попередив про епідемію кібершпигунства, і порадив, як журналісти-розслідувачі можуть захистити себе та свої джерела.