Веб-скрейпинг с помощью Data Miner. Изображение: Смаранда Толосано для GIJN
Веб-скрейпинг без программирования с помощью Data Miner: Пошаговая инструкция
ЧИТАЙТЕ ЭТУ СТАТЬЮ НА ДРУГИХ ЯЗЫКАХ
В современной журналистике умение искать и эффективно обрабатывать данные выходит на первый план, особенно для тех, кто занимается расследованиями. Грамотное использование данных не только улучшает качество журналистского расследования, но и может усилить его влияние.
За последние два десятилетия мы столкнулись с беспрецедентным ростом количества доступных баз данных. По информации International Data Corporation (IDC), к 2025 году общий объём данных в мире достигнет 175 зеттабайт (один зеттабайт равен одному триллиону гигабайт). По оценкам IDC, если всю глобальную информацию, доступную на 2025 год, разместить на DVD-дисках, то получились бы «змеи» из дисков, обвивающие Землю 222 раза.
По некоторым оценкам, только Google, Facebook, Microsoft и Amazon хранят не менее 1 200 петабайт данных (один петабайт = один миллион гигабайт). Журналисты-расследователи и дата-журналисты используют больше количественных, качественных и категориальных данных, чем когда-либо прежде, однако найти действительно качественные данные по-прежнему нелегко.
Получение доступа или подбор структурированных данных – тех, что имеют чёткий, стандартизированный формат, и годятся для анализа, или поиск среди некачественных или неполных наборов данных (включая ошибочные, «неочищенные», сфальсифицированные или ненадёжные, фейковые, разрозненные и непонятные данные) – довольно сложная задача, независимо от вашей сферы деятельности. Частью решения этой проблемы является развитие грамотности в области данных: мы должны понимать, как собирать, очищать, проверять, анализировать и визуализировать данные, поскольку это взаимосвязанные процессы. Для журналистов грамотность в области данных имеет ключевое значение.
В дата-журналистике, как и в любой другой журналистской области, мы ищем способы получить доступ ко всем видам данных, например, из утечек, тысяч pdf-файлов или веб-сайтов – будь то организованные или неструктурированные данные. К некоторым из них легко получить доступ, другие же требуют использования технологий и времени.
Однако существуют инструменты и методы, которые делают это занятие приятным и простым – например, веб-скрейпинг. В данном контексте этот термин означает использование компьютерных программ или программного обеспечения для извлечения или копирования определённых данных с веб-сайтов. Этот процесс позволяет собирать или анализировать данные быстрее и эффективнее, чем вручную.
Преимущества скрейпинга данных для журналистов:
- Скорость и масштаб. С помощью скрейпинга журналисты могут быстро и эффективно собирать информацию. Получение данных из различных источников в интернете представляет более широкую перспективу и помогает строить истории на более прочном фундаменте.
- Верификация. Скрейпинг помогает в процессе проверки данных. Путём сопоставления информации из различных источников можно выявлять противоречия, повышая достоверность информации.
- Выявление тенденций. Скрейпинг позволяет выявлять закономерности, связанные с определёнными темами или событиями. Анализируя большие массивы данных, можно, например, понять тенденции в социальных сетях или общественном мнении, и интегрировать эту информацию в свои материалы.
- Визуализация данных. Использование визуализации данных, собранных с помощью скрейпинга, помогает журналистам более эффективно представлять информацию. Графики, диаграммы и интерактивные методы делают данные понятнее для читателей.
- Возможность проведения глубоких расследований. Сбор данных с помощью скрейпинга позволяет журналистам копать глубже, раскрывая детали, например, финансовой деятельности компаний или политики правительства.
- Повышение ценности новостей. С помощью скрейпинга можно создать увлекательные и убедительные новостные материалы. Статистика, тенденции и демографические данные сделать ваши истории интереснее и весомей.
Data Miner – это бесплатный инструмент для скрейпинга данных и расширение для браузера, которое автоматически извлекает данные с веб-страниц и сохраняет в файл Excel, CSV или JSON.
Однако важно помнить, что массовый сбор данных с веб-сайтов может противоречить условиям их использования или даже нарушать законы. Прежде чем использовать дополнение или плагин для браузера, рекомендуется внимательно изучить условия использования конкретного сайта и действовать в соответствии со всеми юридическими нормами и правилами. Также следует ознакомиться с условиями обслуживания используемого расширения.
Как журналисты могут использовать Data Miner
Ниже приведена инструкция по применению Data Miner.
- Установите расширение Data Miner. Откройте браузер Chrome и перейдите в интернет-магазин. В поисковой строке введите «Data Miner» и найдите официальное расширение.
- Откройте сайт, откуда вам нужно извлечь данные, и запустите расширение. Найти Data Miner можно в меню расширений/плагинов браузера. Как правило, все расширения находятся в правом верхнем углу браузера.
- Создайте новую задачу/команду. В Data Miner есть кнопка «My Recipes», щёлкните на неё. Перед вами появится командный экран для продолжения процесса.
- Настройте параметры для скрейпинга сайта: Data Miner предлагает различные опции и настройки для сбора информации с веб-сайта. Например, можно указать, какие данные нужно извлечь, а также задать автоматические действия, такие как переход по странице или заполнение формы.
- Запустите процесс сбора данных. После завершения настройки можно приступить к сбору данных, нажав на кнопку «Scrape» на панели Data Miner. Инструмент начнёт сканирование сайта и соберёт указанные вами данные (процесс скрейпинга можно увидеть в этом видео).
- Сохраните или экспортируйте данные. Далее Data Miner предоставит возможность сохранить данные в различных форматах, таких как CSV или Excel. Также можно скопировать экран с результатами с помощью буфера обмена – это удобная и экономящая время функция. Если объём данных превышает 10 000 строк, они будут сохранены в двух отдельных файлах.
Следуя этим инструкциям, вы легко освоите процесс веб-скрейпинга с использованием расширения DataMiner. Вам будут доступны свыше 60 000 встроенных методов, или же можно создать собственные правила, чтобы извлекать только необходимую информацию с веб-страниц. Есть возможность создавать как одностраничные, так и многостраничные автоматизированные задачи.
Data Miner также предоставляет возможность автоматизировать процесс скрейпинга и запускать несколько заданий на основе списка URL-адресов веб-сайтов. Более того, бесплатный тарифный план позволяет обработать до 500 страниц в месяц на более чем 15 000 популярных веб-сайтах. Вы также можете просматривать URL-адреса, разбивать их на страницы и выполнять скрейпинг по одной странице – и всё это без навыков программирования.
Помимо этого, расширение Data Miner обладает рядом дополнительных преимуществ:
- Безопасность и надёжность: Расширение ведёт себя так, как если бы вы сами выполняли действия в браузере.
- Не бойтесь блокировки: Поскольку это не бот, использование расширения не приводит к блокировке.
- Конфиденциальность данных: Расширение не передаёт и не продает ваши личные данные.
Пинар Даг – редакторка турецкой редакции GIJN и преподавательница в Университете Кадир Хас. Соучредительница Data Literacy Association, Data Journalism Platform Turkey и DağMedya, она сосредоточила свои профессиональные усилия на повышении грамотности в области данных, открытых данных, визуализации данных и журналистики данных. Она также входит в состав жюри премии Sigma за лучшую дата-журналистику.