Инструменты очистки данных без программирования. Изображение: Shutterstock

Истории

Темы

Инструменты и методы очистки данных без программирования

ЧИТАЙТЕ ЭТУ СТАТЬЮ НА ДРУГИХ ЯЗЫКАХ

Каждая страна производит данные, но далеко не каждая — делает это организованно. Важен не только объём данных, но и то, как они стандартизированы и структурированы. Самые беспорядочные или объёмные данные обычно приходят из систем ручного ввода — процессов без стандартизации, управляемых людьми. Эти системы не только медленно работают, но и затрудняют верификацию, что может привести к серьёзным ошибкам.

Даже в странах, производящих огромные объёмы данных, наборы часто оказываются недоступными, разрозненными или без метаданных:

  • Соединённые Штаты производят огромные объёмы данных, при этом очень распространены децентрализованные структуры и устаревшие системы.
  • В Китае есть масштабные платформы, но обмен данными ограничен из-за закрытости инфраструктуры.
  • Индия лидирует по объёму производимых данных, но их качество снижено из-за отсутствия единообразия в процессе оцифровки.
  • В Бразилии действуют строгие законы о прозрачности, однако ведётся борьба за стандартизацию данных.
  • В европейских странах и в Турции противоречивые правила иногда приводят к несовместимости данных.
  • В африканских странах, в частности, в Нигерии, инфраструктура весьма ограничена, и это сдерживает развитие экосистемы данных.

Для журналистов-расследователей это означает, что нужно смотреть не только на содержание набора данных — не менее важно учитывать, как он был произведён и структурирован. Почему журналистам важно понимать рынки «грязных» данных? Потому что журналисты, как и крупные компании, государственные учреждения и НПО, часто видят только часть истории. А наша цель — раскрыть то, что не лежит на поверхности.

В этой связи расследовательская журналистика и журналистика данных требуют разных подходов в зависимости от типа данных. Структурированные данные — организованные, часто в формате чисел и таблиц — идеальны для анализа, сравнения и визуализации. Однако сегодня цифровой мир состоит в основном из неструктурированных данных: электронных писем, постов в социальных сетях, отзывов клиентов, видео, аудиофайлов и другого разнородного контента.

Эти наборы данных могут содержать ценнейшую информацию, но из-за их неупорядоченности бывает затруднительно провести глубокий анализ. Сегодня около 80% цифровых данных не структурированы, что представляет значительную проблему для журналистов: прежде чем проводить осмысленный анализ или раскрывать истории, данные сначала нужно очистить и организовать.

Согласно оценкам исследовательской фирмы DataIntelo в отчёте за 2024 год, глобальный рынок аналитики неструктурированных данных в 2024 году составил 7,92 миллиарда долларов США, и ожидается, что к 2033 году он достигнет 65,45 миллиарда долларов. Это объясняется стремительным ростом цифрового контента и внедрением ИИ. Однако развитие технологий не означает, что с данными автоматически становится легко работать — потребность в тщательной очистке данных сейчас больше, чем когда-либо ранее.

Даже в таких странах-лидерах по объёму данных, как США или Китай, анализировать данные сложно из-за их беспорядочности, отсутствия метаданных и разнородности форматов. PDF-файлы, отсканированные документы, нестандартизированные файлы Excel и базы данных с ограниченным доступом — всё это примеры историй очистки данных, с которыми журналисты должны справляться.

Журналисты часто работают с файлами Excel, PDF, сложными таблицами из открытых порталов или необработанными данными из социальных сетей, которые публикуют различные учреждения. Эти наборы данных обычно бессистемны, неполны или содержат ошибки. Программисты могут преодолеть эти проблемы с помощью Python, R или SQL — но далеко не все журналисты знают языки программирования. А поверхностная работа с данными чревата серьёзными ошибками.

В статье «Удар молнии: краткий урок по очистке данных», опубликованной на сайте GIJN, автор это прекрасно иллюстрирует. Используя большой набор данных об ударах молнии, он подчёркивает, как незначительные различия в столбце «активность» — например, «roofing» (кровельные работы) и «working on the roof» (работа на крыше)  — могут привести к ошибкам классификации. Статья демонстрирует, что визуализация данных без предварительной очистки может привести к искажению результатов и ложным историям, что превращает очистку данных из технической задачи в этическую ответственность журналистов.

К счастью, существуют инструменты и ресурсы, облегчающие эти задачи. Статья «Использование инструмента Pinpoint для упорядочивания разрозненных данных» на сайте GIJN показывает, как можно организовать неструктурированные наборы данных с помощью Pinpoint. Работа с неочищенными данными может казаться сизифовым трудом, однако благодаря таким инструментам можно извлечь ценную информацию из текста, документов и файлов.

Руководство по очистке данных, созданное для сотрудников цифрового издания Quartz поясняет методологию, в которой автор исследует причины низкого качества данных, отсутствия метаданных и противоречий среди источников, и предлагает способы получения надёжных, осмысленных наборов данных.

Эти примеры показывают, что очистка данных — это не просто технический навык — это необходимая основа для достоверной журналистики. Ниже мы рассматриваем процесс очистки данных.

Что такое очистка данных и почему это важно?

Очистка данных (или обработка данных) — это выявление и исправление ошибок, заполнение пробелов, удаление дубликатов и несоответствий в наборе данных. Этот процесс обеспечивает надёжность данных для дальнейшего анализа и создания истории.

Например, если в таблице расходов города один и тот же департамент упоминается как «Ankara Belediyesi» и «Ank. Bld.», подсчёт итоговых расходов становится невозможным. Аналогично, смешанные форматы дат или пропущенные строки приводят к ложным результатам. Вот почему очистка — один из самых критически важных, хотя и невидимых, этапов для журналиста в расследовании.

Основная цель очистки — подготовка данных — решение о том, какие наборы данных нужны, какие форматы использовать, какие строки и столбцы корректировать, и документирование каждого шага. Отслеживание процессов, проверка ошибок и ведение документации — всё это часть ежедневной рабочей рутины.

Очистка данных без программирования

В последние годы появилось много новых инструментов для непрограммистов, позволяющих журналистам очищать, организовывать и анализировать данные с помощью графических интерфейсов. Вместо того, чтобы фокусироваться на технических деталях и писать сложный код, журналисты могут использовать эти инструменты и просто перетаскивать данные, применять фильтры и автоматические подсказки по очистке, а в остальном – полностью сосредоточиться на сторителлинге.

Этапы очистки данных

Даже без программирования очистка данных должна следовать определённой логике:

Понять данные

  • Прежде чем выполнять очистку, изучите.
  • Сколько там столбцов?
  • Есть ли пропущенные значения?
  • Какие сокращения используются?
  • Последовательны ли орфография и форматирование?
  • Совпадает ли везде формат дат?

Создайте резервную копию исходных данных

  • Перед очисткой всегда копируйте исходный файл

Удалите дубликаты

  • Многие наборы данных содержат повторяющиеся строки.
  • Google Sheets: Данные → Удалить дубликаты
  • OpenRefine: Facet → Duplicates

Идентифицируйте и обработайте пропущенные значения

  • Найдите пустые ячейки.
  • Удалите строки или логически заполните пропущенные значения (например, скопируйте название города из предыдущей строки).

Стандартизируйте форматы

  • Исправьте заглавные и строчные буквы.
  • Преобразуйте даты в единый формат.
  • Стандартизируйте валюту, проценты и т.д.

Объедините категории

  • Объедините похожие категории, написанные по-разному:
    • «F» «FEMALE,» «female» → «Female»

Проверьте логическую согласованность

  • Даже «чистые» данные могут содержать ошибки (например, год рождения вроде 1790 или 2060).

Сохраните и задокументируйте

  • Сохраните очищенный набор данных отдельно (например, city_expenses_cleaned.csv).
  • Для прозрачности документируйте все этапы очистки.

Представьте, что вы скачали таблицу расходов города на 2025 год в Excel со следующими проблемами:

Дата
Отдел
Статья расходов
Сумма
12/01/24
Финансовый отд.
уборка
25000 РУБ.
13.01.2024
ФИНАНСОВЫЙ ОТД
УБОРКА
25.000,00
15/01/24
финансовый отд.
Вынос мусора
12.5
16/01/2024
Финансовыйотд
СБОР МУСОРА
25,000

Пример: Очистка данных о расходах города.

Проблемы:

  • Смешанные форматы дат.
  • Названия департаментов написаны по-разному.
  • Суммы отформатированы по-разному.

Этапы очистки:

  1. Преобразовать все даты в единый формат.
  2. Стандартизировать названия департаментов в OpenRefine с использованием «Cluster & Edit» → «Финансовый отдел»
  3. Преобразовать все суммы в единый числовой формат.

После очистки данные готовы для анализа: категоризации расходов, подсчёта итогов и визуализации тенденций.

Лучшие инструменты для очистки данных

Ниже вы найдёте доступные и практичные инструменты для журналистов, а также описание их преимуществ:

Google Sheets

Это один из самых простых инструментов для очистки данных. В знакомой практически каждому среде электронных таблиц можно выполнять эффективные операции очистки с помощью простых формул и фильтров.

Использование: Удаление дубликатов строк, исправление текстовых форматов и стандартизация дат.

Пример:

=TRIM(A2) → Очищает ненужные пробелы в ячейке.

=PROPER(A2) → Настраивает заглавные/строчные буквы.

Инструмент «Удалить дубликаты» на вкладке «Данные» идентифицирует повторяющиеся строки.

Преимущество: Бесплатный, облачный, им легко делиться.

Недостаток: При работе с большими наборами данных может замедляться.

OpenRefine

OpenRefine — этот бесплатный инструмент очистки данных чаще всего используют дата-журналисты. Ранее известная как «Google Refine», эта программа с открытым исходным кодом может организовать тысячи строк данных за секунды. Я часто использую её на своих занятиях.

Использование: Позволяет объединять дублирующиеся записи, стандартизировать текстовые форматы, преобразовывать столбцы и многое другое.

Примечательная функция: Функция «Cluster and Edit» автоматически группирует похожие написания.

Изображение: снимок экрана

Например, вы можете преобразовать записи вроде «Istanbul,» «İstanbul» и «Ist» в единый стандартный формат.

Типы данных: CSV, TSV, Excel, JSON, XML.

Преимущество: Упрощает сложные задачи очистки и обеспечивает мощную фильтрацию.

Недостаток: Кажется технически непростым при первой настройке, но его легко освоить на нескольких примерах.

Excel Power Query

Надстройка «Power Query» в Microsoft Excel подходит тем, кто привык пользоваться Excel.

Изображение: снимок экрана

  • Использование: Позволяет выполнять такие операции, как объединение нескольких файлов, переформатирование столбцов и преобразование текста.
  • Функция: Записывает все операции, позволяя автоматически применять те же шаги очистки к новым данным.

Преимущество: Естественный переход для пользователей Excel.

Недостаток: Ограниченная поддержка в старых версиях, может требовать платной лицензии.

Научитесь автоматизировать что угодно с помощью Power Query в Excel (видео на английском)

AirTable

AirTable — это гибридная электронной таблицы и базы данных. Пользователи могут визуально организовывать данные, категоризировать их и создавать связанные таблицы.

  • Использование: Организует исходные данные, поддерживает точность данных и создаёт таблицы отслеживания новостей.
  • Функции: Фильтрация, цветовое кодирование, установление связей (например, связи типа человек-организация).

Преимущества: Подходит для командной работы, эстетически приятный и интуитивно понятный инструмент.

Недостатки: Бесплатная версия имеет ограничения по объёмам хранения данных.

Trifacta Wrangler (Alteryx Cloud)

Это мощный инструмент очистки для больших команд и предприятий. Он предоставляет рекомендации на основе ИИ; сам обнаруживает ошибки в данных и предлагает варианты исправления.

Область применения: Очистка больших наборов данных, автоматическое преобразование.

data cleaning graphs

Изображение: снимок экрана

Преимущество: Экономит время, поддерживает сложные источники данных. Недостаток: Ориентирован на платную версию, интерфейс на английском языке.

Tabula (для PDF)

Tabula — это инструмент для извлечения таблиц с данными из PDF-файлов.

Распространённая проблема, с которой сталкиваются журналисты: государственные учреждения делятся данными в формате PDF. Tabula преобразует таблицы из PDF-файлов в формат Excel или CSV.

  • Применение: Извлечение таблиц из PDF.

Изображение: снимок экрана

Преимущество: Бесплатный, с открытым исходным кодом.

Недостаток: В сложных PDF документах или в тех, где много изображений, могут возникать ошибки.

Продвинутые методы очистки данных без программирования

Фильтрация и условная очистка

В Google Sheets или Excel для цветового выделения аномальных значений и быстрого обнаружения ошибок вы можете использовать «Условное форматирование».

Автоматизация на основе формул

Очистку можно автоматизировать без написания кода – с использованием простых формул:

  • =UNIQUE(A:A) → Перечисляет неповторяющиеся значения.
  • =CLEAN(A2) → Удаляет невидимые символы.
  • =SUBSTITUTE(A2,»,»,».») → Исправляет разницу между запятыми и точками.

Проверка данных

В AirTable или Sheets можно ограничить ввод данных только определёнными категориями. Это обеспечивает единообразие в долгосрочной перспективе.

Передовые практики и этика

Очистка данных — это не только технический процесс — это ещё и этический процесс. Журналисты должны сохранять исходный смысл, обеспечивая точность и единообразие.

  • Прозрачность: Отмечайте этапы.
  • Сохранение оригиналов: Храните необработанные данные.
  • Воспроизводимость: Документируйте этапы, чтобы другие могли повторить или проверить вашу работу, пошагово воспроизводя процессы.
  • Не гадайте: Если значение отсутствует, отметьте его как «неизвестное».

Журналистика данных и расследовательская журналистика подразумевают не только владение техническими навыками. Понимание, организация и проверка данных напрямую влияют на точность ваших историй. Новые инструменты делают очистку доступной для журналистов без навыков программирования. Вы прежде всего рассказчик историй, а не инженер. Всегда помните: сильная история требует надёжных данных. С правильными инструментами и методами даже те, кто не программирует, могут очистить данные и превратить их в достойные доверия новости.


 

Pinar DagПинар Даг — редакторка GIJN Turkish и преподавательница в университете Кадир Хас. Она является соучредительницей Ассоциации грамотности данных (DLA), Платформы журналистики данных Турции и DağMedya. Она с 2012 года занимается такими темами, как: грамотность в области данных, открытые данные, визуализация данных и журналистика данных, а также проводит семинары по этим темам. В 2026 году она возглавила жюри премии Sigma Data Journalism Awards.

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0

Перепечатывайте наши статьи бесплатно по лицензии Creative Commons

Перепостить эту статью

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Читать дальше

10 распространенных ошибок в журналистике данных

Журналистика данных Примеры из практики Советы и инструменты

10 типичных ошибок в журналистике данных

На конференции по дата-журналистике NICAR-2024 репортёр GIJN Рован Филп расспросил спикеров и участников о пробелах в журналистике данных, темах, которые часто остаются в тени, и навыках, которых не хватает редакциям.

Журналистика данных Награды Новости и аналитика

Интервью с исполнительной директоркой Sigma Awards Марианной Бушар

О роли премии Sigma Awards для журналистского сообщества, критериях отбора победителей, эволюции журналистики данных, текущих тенденциях и эффективных стратегиях для тех, кто работает с данными.

Советы Журналистика данных

Веб-скрейпинг без программирования с помощью Data Miner: Пошаговая инструкция

Расширение для браузера Data Miner извлекает данные с веб-страниц и сохраняет их в формате Excel, CSV или JSON. Редакторка турецкой редакции GIJN Пинар Даг предлагает пошаговую инструкцию по использованию этого инструмента.

Журналистика данных

Топ-10 DDJ: Климатические выплаты, «теневой флот» с российской нефтью и камера Навального

Расследование New York Times о том, как танкеры с российской нефтью подделывают GPS-координаты, анализ поисковых запросов Google в Таджикистане и 3D-модель ШИЗО, в котором содержат Алексея Навального – в десятке самой популярной журналистики данных недели на GIJN.