Истории

Темы

Копаем глубже: краткое руководство по бесплатным и недорогим инструментам обработки данных

ЧИТАЙТЕ ЭТУ СТАТЬЮ НА ДРУГИХ ЯЗЫКАХ

Редакциям больше не нужны огромные бюджеты для анализа данных — можно легко получить доступ к бесплатными или недорогим базовым инструментам обработки данных. Ниже приведен список, созданный по результатам  пятидневного тренинга в редакции газеты «Дело» — ведущей ежедневной газеты Словении. Анушка Делич, журналист и руководитель проекта DeloData в этой газете, начала обучение сотрудников с целью подтолкнуть команду к использованию легко доступных инструментов обработки данных и множества новых источников информации при работе над сюжетами.

«Поначалу казалось, что не все из 11 участников, у которых не было или почти не было начальных знаний об этой захватывающей области журналистики, заразятся идеей использования мышления, ориентированного на данные, при работе с новостями. Но очень быстро эта идея стала для них очевидной», сказала Анушка Делич после начала тренинга.

Знакомство с инструментами по обработке данных

Помимо демонстрации базовых интернет-запросов (см. ниже), продвинутого владения Excel, Google Fusion, OpenRefine и Helium Scraper, которые я также включил в программу тренинга на Европейской конференции журналистики данных «Data Harvest», я предложил обучение по извлечению данных из PDF-файлов с помощью CometDocs, DocumentCloud, Datawrapper и CartoDB.

Оказывается, в Словении есть масса качественных материалов и публичных данных, которые можно использовать для создания новостей. Например, данные из статистического управления. Вся эта информация даже может быть отсортирована по муниципальным округам, что потенциально актуально и для других стран Европейского Союза.

Советы по поиску в Интернете (ссылки)

Исследовательская клиника Пола Майерса (Paul Myers researchclinic) Расширенный поиск по Facebook от интернет-эксперта Хенка ван Эсса (Henk van Ess on Facebooksearch) Поиск ID в Facebook (Findmyfacebookid)

Инструменты Google (ссылки)

Двухэтапная авторизация (Two-step verification) Работа с файлами Google в офлайн-режиме (Google Offline) Расширение Table Capture для Chrome

Импорт PDF файлов

Мы извлекали данные из PDF-файлов, используя CometDocs и OnlineOCR.net. Но советуем также ознакомиться с данным обзором удобных инструментов для импорта PDF-файлов (http://46.38.172.73/unv/dh14/tipsheet-pdf.pdf). В целом, CometDocs решает большинство задач, связанных с импортом PDF, а также распознает специальные символы в алфавитах разных стран. Для членов Организации журналистов и редакторов-расследователей (Investigative Reporters and Editors) CometDocs является бесплатным.

DocumentCloud

DocumentCloud является бесплатным ПО. Это хороший инструмент для встраивания заметок в документ, который предоставляет пользователям возможность рецензировать весь файл.

OpenRefine

OpenRefine (ранее Google Refine) — это бесплатный мощный инструмент для работы с неструктурированными данными, их очистки и преобразования из одного формата в другой. Вот хороший учебник по OpenRefine (http://2016.uncoveringasia.org/wp-content/uploads/sites/5/2013/10/refine.pdf).

Скрейпинг данных

Базовая версия Helium Scraper, которая является хорошим инструментом для этих целей, стоит 100 дол. США. Я думаю, что это программа является неплохим способом освоить скрейпинг. Helium Scraper работает на всех ПК, кроме компьютеров Mac.

Здесь вы также можете найти другие инструменты для скрейпинга данных из Интернета.

Google Fusion

Google Fusion — это отличный инструмент для визуализации данных на основе интерактивной карты, который в большинстве случаев доступен бесплатно. Важно попытаться получить правильную версию карты городов/районов вашей страны и импортировать ее в качестве стандартной карты в Google Fusion. Ниже приведены некоторые полезные ссылки для работы с Fusion:

Поиск таблиц для Fusion  (Search for fusion tables) Хранилище данных Google Drive Список иконок для Google Fusion (List of icons) Программа для маппинга DIVA-GIS (http://www.diva-gis.org/) Конвертация shape-файлов (Converting shape-files)

Таблица «безопасных» цветов для отображения на мониторах (http://www.december.com/html/spec/colorsafe.html) Инструмент для подбора цветов Colorbrewer2 (http://colorbrewer2.org/) Сервис Layer Wizard для Google Fusion (Layer Builder)

Data Wrapper

Data Wrapper — это очень простой инструмент для визуализации данных в виде интерактивных графиков, но для использования услуги встраивания графиков с сервера компании требуется оплата.

Вместо этого вы можете запускать графики на своем собственном сервере и использовать WinSCP в качестве системы для передачи файлов. WinSCP является бесплатным ПО и работает на всех ПК, кроме Mac.

Собственный сервер может также использоваться и для карт, созданных с помощью Google Fusion, но не забывайте правильно структурировать свое дисковое пространство.

CartoDB

CartoDB — это отличная альтернатива Google Fusion со множеством возможностей для создания карт совершенно по-новому.

В бесплатной версии можно загрузить неограниченное количество карт и таблиц, однако общий предел загружаемых данных составляет 50 МБ, чего как правило достаточно в большинстве случаев. В бесплатной версии программы ограничен доступ к геокодированию, которое затем необходимо выполнить с помощью другого инструмента или же можно приобрести хотя бы один платный аккаунт на CartoDB для получения доступа к этой функции.

TimelineJS

TimelineJS — это бесплатный инструмент с открытым исходным кодом, который позволяет пользователям создавать красочные интерактивные тайм-линии. Он доступен на 40 языках. Вы можете легко создать контент в электронной таблице Google, а затем импортировать его в TimelineJS.

Удачи в раскопках данных!

Нильс Мулвад — соучредитель и член совета Глобальной сети журналистов-расследователей, а также организации Investigative Reporting Denmark (Дания). Он также является редактором в Kaas & Mulvad, консалтинговой фирме по журналистике данных, и доцентом в Датской школе медиа и журналистики. Нильс Мулвад был генеральным директором Датского международного центра аналитической отчетности в 2001-2006 годах и европейским журналистом года в 2006 году.

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0

Перепечатывайте наши статьи бесплатно по лицензии Creative Commons

Перепостить эту статью

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Читать дальше

10 распространенных ошибок в журналистике данных

Журналистика данных Примеры из практики Советы и инструменты

10 типичных ошибок в журналистике данных

На конференции по дата-журналистике NICAR-2024 репортёр GIJN Рован Филп расспросил спикеров и участников о пробелах в журналистике данных, темах, которые часто остаются в тени, и навыках, которых не хватает редакциям.

Журналистика данных Награды Новости и аналитика

Интервью с исполнительной директоркой Sigma Awards Марианной Бушар

О роли премии Sigma Awards для журналистского сообщества, критериях отбора победителей, эволюции журналистики данных, текущих тенденциях и эффективных стратегиях для тех, кто работает с данными.

Советы Журналистика данных

Веб-скрейпинг без программирования с помощью Data Miner: Пошаговая инструкция

Расширение для браузера Data Miner извлекает данные с веб-страниц и сохраняет их в формате Excel, CSV или JSON. Редакторка турецкой редакции GIJN Пинар Даг предлагает пошаговую инструкцию по использованию этого инструмента.

Журналистика данных

Топ-10 DDJ: Бизнес-империя «Вагнера», карьера Барби и результаты выборов в Испании

Сколько российских солдат ушли в «самоволку» , кем работала Барби, почему в Германии опаздывают поезда, и как выглядит бизнес-империя основателя ЧВК «Вагнер» – в рейтинге Топ-10 журналистики данных.