Веб-скрейпинг с помощью Data Miner. Изображение: Смаранда Толосано для GIJN

» Советы

Ресурс

Истории

Темы

Веб-скрейпинг без программирования с помощью Data Miner: Пошаговая инструкция

ЧИТАЙТЕ ЭТУ СТАТЬЮ НА ДРУГИХ ЯЗЫКАХ

В современной журналистике умение искать и эффективно обрабатывать данные выходит на первый план, особенно для тех, кто занимается расследованиями. Грамотное использование данных не только улучшает качество журналистского расследования, но и может усилить его влияние.

За последние два десятилетия мы столкнулись с беспрецедентным ростом количества доступных баз данных. По информации International Data Corporation (IDC), к 2025 году общий объём данных в мире достигнет 175 зеттабайт (один зеттабайт равен одному триллиону гигабайт). По оценкам IDC, если всю глобальную информацию, доступную на 2025 год, разместить на DVD-дисках, то получились бы «змеи» из дисков, обвивающие Землю 222 раза.

По некоторым оценкам, только Google, Facebook, Microsoft и Amazon хранят не менее 1 200 петабайт данных (один петабайт = один миллион гигабайт). Журналисты-расследователи и дата-журналисты используют больше количественных, качественных и категориальных данных, чем когда-либо прежде, однако найти действительно качественные данные по-прежнему нелегко.

Получение доступа или подбор структурированных данных – тех, что имеют чёткий, стандартизированный формат, и годятся для анализа, или поиск среди некачественных или неполных наборов данных (включая ошибочные, «неочищенные», сфальсифицированные или ненадёжные, фейковые, разрозненные и непонятные данные) – довольно сложная задача, независимо от вашей сферы деятельности. Частью решения этой проблемы является развитие грамотности в области данных: мы должны понимать, как собирать, очищать, проверять, анализировать и визуализировать данные, поскольку это взаимосвязанные процессы. Для журналистов грамотность в области данных имеет ключевое значение.

В дата-журналистике, как и в любой другой журналистской области, мы ищем способы получить доступ ко всем видам данных, например, из утечек, тысяч pdf-файлов или веб-сайтов – будь то организованные или неструктурированные данные. К некоторым из них легко получить доступ, другие же требуют использования технологий и времени.

Однако существуют инструменты и методы, которые делают это занятие приятным и простым – например, веб-скрейпинг. В данном контексте этот термин означает использование компьютерных программ или программного обеспечения для извлечения или копирования определённых данных с веб-сайтов. Этот процесс позволяет собирать или анализировать данные быстрее и эффективнее, чем вручную.

Преимущества скрейпинга данных для журналистов:

  1. Скорость и масштаб. С помощью скрейпинга журналисты могут быстро и эффективно собирать информацию. Получение данных из различных источников в интернете представляет более широкую перспективу и помогает строить истории на более прочном фундаменте.
  2. Верификация. Скрейпинг помогает в процессе проверки данных. Путём сопоставления информации из различных источников можно выявлять противоречия, повышая достоверность информации.
  3. Выявление тенденций. Скрейпинг позволяет выявлять закономерности, связанные с определёнными темами или событиями. Анализируя большие массивы данных, можно, например, понять тенденции в социальных сетях или общественном мнении, и интегрировать эту информацию в свои материалы.
  4. Визуализация данных. Использование визуализации данных, собранных с помощью скрейпинга, помогает журналистам более эффективно представлять информацию. Графики, диаграммы и интерактивные методы делают данные понятнее для читателей.
  5. Возможность проведения глубоких расследований. Сбор данных с помощью скрейпинга позволяет журналистам копать глубже, раскрывая детали, например, финансовой деятельности компаний или политики правительства.
  6. Повышение ценности новостей. С помощью скрейпинга можно создать увлекательные и убедительные новостные материалы. Статистика, тенденции и демографические данные сделать ваши истории интереснее и весомей.

Data Miner – это бесплатный инструмент для скрейпинга данных и расширение для браузера, которое автоматически извлекает данные с веб-страниц и сохраняет в файл Excel, CSV или JSON.

Однако важно помнить, что массовый сбор данных с веб-сайтов может противоречить условиям их использования или даже нарушать законы. Прежде чем использовать дополнение или плагин для браузера, рекомендуется внимательно изучить условия использования конкретного сайта и действовать в соответствии со всеми юридическими нормами и правилами. Также следует ознакомиться с условиями обслуживания используемого расширения.

Редакторка турецкой редакции GIJN Пинар Даг, авторка этой статьи, показывает, как использовать Data Miner, на GIJC23 в Гётеборге. Изображение: Смаранда Толосано для GIJN

Как журналисты могут использовать Data Miner

Ниже приведена инструкция по применению Data Miner.

  1. Установите расширение Data Miner. Откройте браузер Chrome и перейдите в интернет-магазин. В поисковой строке введите «Data Miner» и найдите официальное расширение.

Установите расширение Data Miner. Изображение: Скриншот

  1. Откройте сайт, откуда вам нужно извлечь данные, и запустите расширение. Найти Data Miner можно в меню расширений/плагинов браузера. Как правило, все расширения находятся в правом верхнем углу браузера.

Откройте сайт, откуда вам нужно извлечь данные. Изображение: Скриншот

Запустите расширение. Изображение: Скриншот

  1. Создайте новую задачу/команду. В Data Miner есть кнопка «My Recipes», щёлкните на неё. Перед вами появится командный экран для продолжения процесса.

Создайте новую задачу/команду. Изображение: Скриншот

  1. Настройте параметры для скрейпинга сайта: Data Miner предлагает различные опции и настройки для сбора информации с веб-сайта. Например, можно указать, какие данные нужно извлечь, а также задать автоматические действия, такие как переход по странице или заполнение формы.

Настройте параметры для скрейпинга сайта. Изображение: Скриншот

  1. Запустите процесс сбора данных. После завершения настройки можно приступить к сбору данных, нажав на кнопку «Scrape» на панели Data Miner. Инструмент начнёт сканирование сайта и соберёт указанные вами данные (процесс скрейпинга можно увидеть в этом видео).
  2. Сохраните или экспортируйте данные. Далее Data Miner предоставит возможность сохранить данные в различных форматах, таких как CSV или Excel. Также можно скопировать экран с результатами с помощью буфера обмена – это удобная и экономящая время функция. Если объём данных превышает 10 000 строк, они будут сохранены в двух отдельных файлах.

Сохраните данные в нужном формате. Изображение: Скриншот

Следуя этим инструкциям, вы легко освоите процесс веб-скрейпинга с использованием расширения DataMiner. Вам будут доступны свыше 60 000 встроенных методов, или же можно создать собственные правила, чтобы извлекать только необходимую информацию с веб-страниц. Есть возможность создавать как одностраничные, так и многостраничные автоматизированные задачи.

Data Miner также предоставляет возможность автоматизировать процесс скрейпинга и запускать несколько заданий на основе списка URL-адресов веб-сайтов. Более того, бесплатный тарифный план позволяет обработать до 500 страниц в месяц на более чем 15 000 популярных веб-сайтах. Вы также можете просматривать URL-адреса, разбивать их на страницы и выполнять скрейпинг по одной странице – и всё это без навыков программирования.

Помимо этого, расширение Data Miner обладает рядом дополнительных преимуществ:

  • Безопасность и надёжность: Расширение ведёт себя так, как если бы вы сами выполняли действия в браузере.
  • Не бойтесь блокировки: Поскольку это не бот, использование расширения не приводит к блокировке.
  • Конфиденциальность данных: Расширение не передаёт и не продает ваши личные данные.

Пинар Даг редакторка турецкой редакции GIJN и преподавательница в Университете Кадир Хас. Соучредительница Data Literacy Association, Data Journalism Platform Turkey и DağMedya, она сосредоточила свои профессиональные усилия на повышении грамотности в области данных, открытых данных, визуализации данных и журналистики данных. Она также входит в состав жюри премии Sigma за лучшую дата-журналистику.

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0

Перепечатывайте наши статьи бесплатно по лицензии Creative Commons

Перепостить эту статью

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Читать дальше

data information war

Журналистика данных

Как использовать журналистику данных для освещения войн и конфликтов

Применяя инструменты OSINT, публичную информацию и открытые данные, журналист может изучить тенденции, составить карты и модели, узнать, как развивается ситуация в зоне конфликта, какие факторы влияют на гражданское население, отследить маршруты внутренних переселенцев и беженцев. Из этой статьи вы подробнее узнаете о том, как использовать данные в своем следующем расследовании.

Как найти историю в финансовых отчетах 

Советы и инструменты

9 способов найти историю в финансовых отчётах компаний

Пол Брэдшоу, который ведёт магистерскую программу по мультиплатформной и мобильной журналистике и магистерскую программу по журналистике данных в Бирмингемском университете, вместе со своими студентами собрал ряд советов об использовании публичной отчётности компаний для поиска новых историй.

Ресурс

9 картографических инструментов, необходимых журналистам в 2022 году

Научитесь делать привлекательные и информативные карты для ваших журналистских расследований. Хорошая новость заключается в том, что сегодня доступно значительно больше картографических инструментов, чем пять лет назад, а многие из давно известных стали намного мощнее.

Ресурс Ресурс Советы

Бесплатные инновационные инструменты для извлечения данных, не требующие навыков программирования

Новейшие бесплатные инструменты извлечения данных и оптического распознавания символов (OCR), которые журналисты могут использовать для преобразования громоздких документов в таблицы с возможностью поиска.