Истории

Темы

Извлечение данных из PDF-файлов для «чайников»

ЧИТАЙТЕ ЭТУ СТАТЬЮ НА ДРУГИХ ЯЗЫКАХ

Журналисты получают множество данных в формате PDF – это могут быть таблицы с данными, встроенные в отчеты, или электронные таблицы, которые были тщательно сохранены в виде PDF-файлов, прежде чем их отправили вам по электронной почте. Но пока вы не преобразуете эти данные в электронную таблицу, то никак не сможете их использовать.

К счастью, есть несколько отличных инструментов, которые могут быстро и сравнительно легко переформатировать ваши данные. Ниже я перечислила некоторые из тех, которые перепробовала (хотя, без сомнения, их намного больше), а также дала несколько советов по извлечению некоторых более сложных типов PDF-файлов, включая повернутые таблицы, конвертацию сканированных PDF-файлов и PDF-файлов, защищенных паролем.

Tabula

Я люблю Tabula. Это мой выбор номер один. Во-первых, потому что он бесплатный, а во-вторых, потому что он чрезвычайно прост в использовании. На их веб-сайте сказано, что он был создан “журналистами для журналистов”, и, вероятно, поэтому он так популярен среди таких «нетехнарей», как я.

 

Мне часто нужно извлекать таблицы данных из огромных PDF-файов. Tabula позволяет загружать весь документ и выбирать только нужные вам таблицы. Вы можете конвертировать по одной таблице или сразу несколько, в зависимости от компоновки вашего документа, в CSV, TSV JSON-файлы, которые можно импортировать в Google Sheets (бесплатно), Libre Office Calc (бесплатно), Excel (не бесплатно) или любую другую предпочитаемую вами программу.

Единственный случай, когда я не иду прямиком в Tabula, — это когда имею дело со сканированными PDF-файлами или когда таблицы, которые я хочу конвертировать, повернуты на 90 градусов. Но об этом позже.

Cometdocs

Этот инструмент также популярен среди журналистов – не в последнюю очередь потому, что члены организации Журналистов и редакторов-расследователей (IRE) получают бесплатный доступ премиум-класса, а еще потому что Cometdocs очень удобен в использовании. Вы можете конвертировать до пяти документов в неделю бесплатно, но вам придется оформить подписку, если вы захотите сделать больше. Мне очень нравится тот факт, что вы можете подписываться на месяц за $ 9,99, но если вам действительно понравиться, можно получить пожизненное членство примерно за $130.

Вот как это работает: загрузите или импортируйте PDF-документ, который хотите преобразовать, нажмите кнопку конвертировать и выбирайте между Excel и .ODS (который вы можете открыть в Libre Office). К сожалению, опции .CSV нет. Если у вас нет одного из этих пакетов электронных таблиц, вы можете загрузить файл на Google Диск и открыть его в Google Таблицах.

Cometdocs  работает быстро и качественно, но его особое преимущество — то, что он выполняет оптическое распознавание символов (OCR), поэтому способен конвертировать сканированные PDF-файлы. Однако желательно сверять конвертированный документ с оригиналом, чтобы убедиться, что всё преобразовано правильно. Как и Tabula,этот инструмент не может обрабатывать перевернутые таблицы.

Adobe Export PDF

Этот инструмент не бесплатный, но тоже не слишком дорогой – около 24 долларов в год. Если вы используете Adobe Reader, который является бесплатным PDF-распознавателем Adobe, Export PDF позволяет конвертировать PDF-документ, который вы открыли в Acrobat Reader, в Excel, Word, PowerPoint или RTF. Он хорошо и быстро работает с довольно большими документами. Но, как и Tabula, он не обрабатывает сканированные документы или перевернутые таблицы.

Nitro Pro

Если у вас есть компьютер с Windows, Nitro – отличный инструмент для обработки и конвертирования PDF-файлов в полезные форматы, но он не бесплатный (около $ 160), а тот факт, что он работает только с Windows, означает, что он недоступен для меня и моего MacBook. Тем не менее, я пробовала поработать с ним на чужой машине, и он меня впечатлил.

Acrobat Pro

Этот доступен для пользователей Mac, но также не является бесплатным (около 15 долларов в месяц и годовое обязательство).

Zanran

Эта британская компания разработала программное обеспечение для автоматизации обработки PDF. Оно не бесплатное, но вы можете увидеть его возможности, опробовав его демоверсию – если ваш документ весит 1,5 МБ или меньше. Вы загружаете свой PDF-файл, указываете, во что хотите его конвертировать, даете им свой адрес электронной почты, и они отправляют вам конвертированный документ.

Zamzar

Еще один инструмент онлайн-конвертации, куда вы можете загрузить свой документ, выбрать формат, в который хотите его конвертировать, и получить конвертированный документ на выбранный вами адрес электронной почты.

Перевернутые таблицы

Иногда таблицы в PDF-документах  повернуты на 90 градусов. До того, как инструмент преобразования сможет идентифицировать их как текст, вам нужно вернуть таблицы обратно в нормальное положение. Обычное вращение страницы в Acrobat Reader или Preview не сработает. Вам нужно повернуть непосредственно саму таблицу. Для этого вам нужен правильный PDF-редактор, такой как Acrobat Pro или Nitro Pro.

Если у вас есть Acrobat Pro, вот что нужно сделать:

  • Если ваши таблицы являются частью более крупного документа, откройте свой документ и, используя опцию «Упорядочить страницы», извлеките страницы c таблицами, которые вы хотите повернуть. Если вы хотите извлечь несколько последовательных страниц, легче извлечь их отдельными файлами.
  • Откройте страницу с таблицей. Перейдите в меню «Вид» и поворачивайте таблицу, пока она не окажется в нужном положении.
  • Если есть верхние и нижние колонтитулы или любой другой текст, который не вращается в том же направлении, что и ваша таблица, удалите их с помощью функции «Редактировать PDF». Вам нужно именно удалить их, прикрыть не получится.
  • Перейдите к опции «Расширенные сканы» (Enhance Scans) и выберите «Распознать текст» (Recognize Text); проверьте настройки, чтобы убедиться, что выбрана опция «Сохранить как редактируемый текст и изображения» (Save as editable text and images). Это может занять несколько минут, и после этого ваша таблица будет снова повернута на 90 процентов.
  • Вернитесь назад в “Просмотр” и поворачивайте страницу до тех пор, пока она снова не кажется в нужном положении. Затем сохраните файл.
  • Вы можете попытаться преобразовать свою страницу в электронную таблицу Excel с помощью функции «Преобразование PDF» (Export PDF), но, как по мне, Tabula делает это лучше.
  • Всегда сверяйте преобразованные данные с оригинальными документами, потому что иногда восьмерки могут быть ошибочно приняты за шестерки или букву ”B”. Но даже если ваш конвертированный документ не будет абсолютно идеальным, преобразовать его таким образом намного быстрее, чем вручную вводить все в электронную таблицу.

Преобразование сканированных PDF-файлов

В сканированном PDF-файле таблица будет идентифицироваться как изображение, а не текст, поэтому, если вы хотите извлечь данные из таблицы, вам сначала нужно преобразовать ее в текст с помощью чего-то с оптическим распознаванием символов (OCR). Вы можете использовать Cometdocs, Acrobat Pro или Nitro Pro. Инструмент Acrobat Pro Enhance Scans должен распознавать текст в вашем PDF-файле, если качество сканирования не ужасное. Иногда стоит попробовать сделать из скриншота таблицы, которую вы хотите извлечь, отдельный PDF-файл, прежде чем использовать инструмент Enhance Scans. После того, как сканированный документ преобразуется в текст и изображения, я все равно сохраняю его как PDF и преобразовываю в CSV с помощью Tabula. И, конечно же, всегда сверяйте свои данные с оригиналом.

Защищенные паролем PDF-файлы

Иногда PDF-файлы защищены паролем, поэтому вы не можете редактировать их или преобразовывать в любой другой формат. Если у вас есть Mac с предварительным просмотром, попробуйте открыть PDF в режиме предварительного просмотра, а затем выберите пункт «Экспорт как PDF» в меню «Файл». Откройте новую версию своего PDF-файла и попробуйте преобразовать ее в электронную таблицу.

У вас есть любимый инструмент для извлечения данных из PDF-файлов? Дайте мне знать. Вы можете найти меня на Twitter: @laurajgrant.

___________________________________________________________

Это третья часть очередной серии о полезных инструментах для журналистов, работающих с данными, из “Инструментария журналиста» от Media Hack Collective. Мы перепечатываем ее с разрешения.

Лора Грант — журналистка данных и управляющий партнер Media Hack Collectiveпроекта, посвященного цифровому сторителлингу. Она работает в журналистике более 20 лет и является бывшим заместителем редактора цифровых и информационных проектов в Mail & Guardian в Южной Африке, где создавала материалы на основе данных, интерактивную графику и карты.

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0

Перепечатывайте наши статьи бесплатно по лицензии Creative Commons

Перепостить эту статью

Это произведение защищено лицензией Международная лицензия Creative Commons Attribution-NoDerivatives 4.0


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Читать дальше

Журналистика данных Награды Новости и аналитика

Интервью с исполнительной директоркой Sigma Awards Марианной Бушар

О роли премии Sigma Awards для журналистского сообщества, критериях отбора победителей, эволюции журналистики данных, текущих тенденциях и эффективных стратегиях для тех, кто работает с данными.

Советы Журналистика данных

Веб-скрейпинг без программирования с помощью Data Miner: Пошаговая инструкция

Расширение для браузера Data Miner извлекает данные с веб-страниц и сохраняет их в формате Excel, CSV или JSON. Редакторка турецкой редакции GIJN Пинар Даг предлагает пошаговую инструкцию по использованию этого инструмента.

Журналистика данных

Топ-10 журналистики данных GIJN-2023

Для всех, кто интересуется визуализацией данных и дата-проектами, GIJN публикует cамые обсуждаемые и популярные в Твиттере публикации по журналистике данных с хэштегами #ddj и #datajournalism.

Журналистика данных

Топ-10 DDJ: Связи влиятельных китайцев, реальная явка избирателей в России, границы между Индией и Пакистаном

В преддверии партийного съезда в Китае газета South China Morning Post опубликовала подробный справочник о ключевых деятелях компартии. Также в нашем Топ-10 журналистики данных: расследование произвольного характера военной юстиции в Соединенных Штатах, анализ явки избирателей на выборах в России с использованием искусственного интеллекта и диаграммы, посвященные теннисной карьере Серены Уильямс.