إعداد إمكانية الوصول

خيارات الألوان

لون أحادي لون باهت مظلم

أدوات القراءة

عزل حاكم

القصص

مواضيع

دليل المبتدئين لاستخراج البيانات من ملفات الـبي دي إف

إقرأ هذه المقال في

English 

يحصل الصحفيون على الكثير من البيانات على هيئة PDF – يمكن أن تحتوي تلك المعلومات على جداول للبيانات مضمّنة في التقارير أو جداول البيانات التي تم حفظها بعناية كملفات PDF قبل إرسالها إليك بالبريد الإلكتروني – ولكن قد يتعذر عليك نقل هذه البيانات المحفوظة في صورة جداول PDF.

لحسن الحظ، هناك بعض الأدوات الرائعة التي يمكنها تحرير بياناتك بسرعة وسهولة نسبيًا. لقد أدرجت بعضًا من الأدوات التي جربتها هنا (لا يوجد شك في وجود أدوات أخرى متعددة ) بالإضافة إلى بعض النصائح حول بعض الأجزاء الأكثر ملائمة لاستخراج ملفات PDF، بما في ذلك الجداول المستديرة وتحويل ملفات PDF الممسوحة ضوئيًا وملفات PDF المحمية بكلمة مرور. 

 Tabula

أنا أحب Tabula. إنه الخيار الأفضل بالنسبة لي، أولاً لأنه مجاني، وثانيًا لأنه سهل الاستخدام حقًا. يقول موقع Tabula على شبكة الإنترنت إنه تم إنشاؤه “من قِبل الصحفيين للصحفيين”، ولعل هذا هو السبب في تمتعه بشعبية كبيرة في أوساط غير التقنيين من أمثالي.

أحتاج غالبًا إلى استخراج جداول البيانات من تقارير PDF الكبيرة. يتيح لك Tabula تحميل مستند بأكمله وتحديد الجداول التي تريدها فقط. يمكنك تحويل جدول واحد في وقت واحد، أو عدة، وفقًا لإعدادات المستند الخاص بك، إلى ملف CSV، TSV من JSON، والذي يمكنك نقل البيانات إلى Google Sheets (مجانًا)، وLibre Office Calc (مجانًا)، وExcel (ليست مجانية)، أو أيا كان البرنامج الذي تفضله.

Cometdocs

وهذا التطبيق أيضا يحظى بشعبية كبيرة لدى الصحفيين – لأسباب ليس أقلها إن صحفيي التحقيقات الاستقصائية والمحررين يحصلون على عضوية مجانية متميزة – وهو سهل الاستخدام حقًا. يمكنك تحويل ما يصل إلى خمس مستندات أسبوعيًا مجانًا، ولكن عليك الاشتراك إذا أردت تحويل المزيد. يعجبني حقيقة أنه يمكنك الاشتراك لمدة شهر في المرة الواحدة مقابل 9.99 دولار، ولكن إذا كنت ترغب حقاً في الاشتراك، يمكنك الحصول على عضوية مدى الحياة مقابل 130 دولارًا تقريبًا.

هذه هي الطريقة التي يعمل بها: قم بتحميل  ملف PDF الذي تريد تحويله، وانقر فوق زر التحويل واختر بين Excel وODS (الذي يمكنك فتحه في Libre Office)، لسوء الحظ CSV ليس خيارًا. إذا لم يكن لديك أي من حزم جداول البيانات هذه، يمكنك تحميل الملف في Google Drive وفتحه من خلال Google Sheets.

هذا التطبيق يعمل بسرعة وبشكل جيد، لكن المتميز حقًا في Cometdocs هو أنه يقوم بالتعرف الضوئي على الأحرف (OCR)، بحيث يمكنه تحويل ملفات PDF الممسوحة ضوئيًا. ومع ذلك، تحتاج إلى التأكد من المستند الذي تم تحويله مقابل المستند الأصلي، فقط للتأكد من أنه انتقى كل شيء بشكل صحيح. 

Adobe Export PDF

هذا التطبيق ليس مجانيًا، لكنه ليس مكلفًا للغاية – حوالي 24 دولارًا سنويًا، إذا كنت تستخدم Adobe Reader، وهو قارئ PDF مجاني من Adobe، فإن Export PDF يسمح لك بتحويل مستند PDF الذي فتحته في Acrobat Reader إلى Excel أو Word أو PowerPoint أو RTF، يعمل بشكل جيد وسريع ويستوعب وثائق كبيرة الحجم إلى حد ما، ولكن، مثل Tabula، لا يمكنه إجراء مسح ضوئي للمستندات أو الجداول المستديرة.

Nitro Pro

إذا كان لديك جهاز يعمل بنظام Windows، فإن Nitro أداة رائعة لتحرير ملفات PDF وتحويلها إلى تنسيقات مفيدة، لكنها ليست مجانية (حوالي 160 دولارًا)، وحقيقة أنها تعمل فقط مع Windows يعني عدم إمكانية استخدامها على أجهزة MacBook. لقد جربتها على كل حال وقد أبهرتني.

Acrobat Pro

يمكن الوصول إلى هذا التطبيق لمستخدمي أجهزة Mac، لكنه أيضًا غير مجاني (حوالي 15 دولارًا في الشهر ويتطلب التزامًا سنويًا).

Zanran

طورت هذه الشركة ومقرها المملكة المتحدة برنامجًا لأتمتة معالجة ملفات PDF. إنها ليست مجانية، ولكن يمكنك أن ترى ما يمكن أن تفعله من خلال تجربة محول المستندات التوضيحي – طالما أن المستند حجمه 1.5 ميغابايت أو أصغر. يمكنك تحميل ملف PDF الخاص بك، وإخباره بما تريد تحويله إليه، ومنحه عنوان بريدك الإلكتروني وسيقوم بإرسال المستند المحول إليك عبر البريد.

Zamzar

هذه أداة تحويل أخرى عبر الإنترنت حيث يمكنك تحميل المستند، واختيار التنسيق الذي تريد تحويله إليه، وسيتم إرسال المستند الذي تم تحويله عبر البريد الإلكتروني إلى عنوان البريد الذي تختاره.

الجداول المستديرة (Rotated Tables)

في بعض الأحيان، يتم تدوير الجداول الموجودة في مستندات PDF بمقدار 90 درجة، يجب أن تكون قادرًا على تدوير الجداول مرة أخرى إلى الاتجاه الطبيعي قبل أن تتمكن أي أداة تحويل من التعرف عليها كنص، فمجرد تدوير الصفحة في Acrobat Reader أو Preview، على سبيل المثال، لن ينجح. تحتاج إلى تدوير الجدول نفسه، للقيام بذلك، تحتاج إلى محرر PDF مناسب مثل Acrobat Pro أو Nitro Pro.

إذا كان لديك برنامج Acrobat Pro، فإليك ما تفعله:

– إذا كانت الجداول الخاصة بك جزءًا من مستند أكبر، افتح المستند، وباستخدام خيار “تنظيم الصفحات”، قم باستخراج الصفحات بالجداول التي تريد تدويرها، إذا كنت ترغب في استخراج عدد من الصفحات المتتالية، فمن الأسهل استخراجها في ملفات منفصلة.

– افتح صفحة وضع الجدول عليها. انتقل إلى قائمة العرض وقم بالتدوير حتى تصبح في وضع عمودي.

– إذا كانت هناك عناوين وهوامش أو أي نص آخر لم تتم تدويره في نفس اتجاه الجدول، فقم بإزالته باستخدام خاصية تحرير PDF – إن أردت حذفها، فإن تغطيتها دون إزالتها لا يفي بالغرض

– انتقل إلى خيار تحسين المسح الضوئي واختر التعرف على النص، تحقق من الإعدادات للتأكد من تحديد خيار “حفظ كنص وصورة قابلة للتحرير”. قد يستغرق هذا الأمر بضع دقائق وعند الانتهاء من جدولك قد يتم تدويره الى 90 درجة مرة أخرى.

– ارجع إلى طريقة العرض وقم بتدوير الصفحة حتى يصبح الجدول مستقيمًا مرة أخرى، ثم احفظ الملف.

– يمكنك محاولة تحويل الصفحة إلى جدول بيانات Excel باستخدام وظيفة Export PDF، ولكن Tabula تؤدي الوظيفة بشكل أفضل بشكل عام.

تحقق دائمًا من البيانات المحولة مقارنة بالمستندات الأصلية لأنه في بعض الأحيان يمكن أن يُخطئ. ولكن حتى لو لم يكن المستند المحول مثاليًا تمامًا، فإن تحويله بهذه الطريقة سيكون أسرع بكثير من كتابته يدويًا في جدول بيانات.

تحويل ملفات PDF الممسوحة ضوئيًا

في ملف PDF الممسوح ضوئيًا، سيتم تحديد الجدول كصورة بدلاً من نص، لذلك إذا كنت ترغب في استخراج البيانات من جدول تحتاج أولاً إلى تحويله لنص يتضمن شيئاً ما به ميزة التعرف البصري على الأحرف (OCR). يمكنك استخدام Cometdocs أو Acrobat Pro أو Nitro Pro.  يمكن أن تتعرف أداة تحسين في Acrobat Pro على النص الموجود في ملف PDF طالما أن جودة المسح الضوئي ليست سيئة.

يمكنك استخدام حيلة بسيطة وهي حفظ لقطة من الجدول الذي تريد استخراجه في ملف PDF الخاص به قبل استخدام أداة تحسين المسح الضوئي. بمجرد تحويل المسح الضوئي إلى نص وصور،احتفظ بتنسيق PDF ثم قم بتحويله إلى ملف CSV باستخدام Tabula. وبالطبع، تحقق دائمًا من بياناتك مقارنة بالنسخة الأصل.

ملفات PDF المحمية بكلمة مرور

في بعض الأحيان تكون ملفات PDF محمية بكلمة مرور بحيث لا يمكنك من تحريرها أو تحويلها إلى أي تنسيق آخر، إذا كان لديك جهاز Mac مع Preview، فحاول فتح ملف PDF في Preview، ثم حدد خيار Export as PDF ضمن قائمة File. افتح الإصدار الجديد من PDF الخاص بك لترى ما إذا كنت قادرًا على تحويله إلى جدول بيانات الآن.

إذا كان لديك أداة مفضلة لاستخراج البيانات من ملفات PDF؟ تواصل معي على عنواني في تويتر: @laurajgrant.


هذا الجزء هو الجزء الثالث من سلسلة متفرقة حول الأدوات المفيدة لصحفيي البيانات تحت عنوان صندوق أدوات الصحافة من Media Hack Collective. وأعيد نشرها هنا بعد الحصول على إذن.

 لورا غرانت هي صحفية بيانات وشريكة في إدارة Media Hack Collective، وهو تعاون مخصص لسرد القصص الرقمية، عملت كصحفية منذ أكثر من 20 عامًا، وهي المحرر المساعد السابق لمشاريع البيانات والبيانات في Mail & Guardian في جنوب إفريقيا، حيث أنتجت قصصًا تعتمد على البيانات والرسومات التفاعلية والخرائط.

إعادة نشر مقالتنا عبر الانترنت أوطباعة تحت رخصة النشاط الابداعي

إعادة نشر هذا المقال


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

إقرأ التالي

ورقة نصائح الأمن والأمان نصائح وأدوات

كيف يمكن للصّحفيين أن يعتنوا بأنفسهم عند التّحقيق في الصور القاسية للحرب والصراع

يواجه خبراء المصادر المفتوحة كمًا هائلاً من الصّور القاسية. فكيف يمكن للصّحفيين حماية أنفسهم من الأذى الناجم عن مشاهدة الصّور الصّادمة باستمرار؟
التّحقيقات مفتوحةُ المصدرِ التي كانت في السابق محصورةً بمواقع متخصّصة مثل Bellingcat، دخلت عالم الصحافة السائدة، مدفوعة بالحاجة إلى التحقُّق على الفور من كميات كبيرة من الصور ومقاطع الفيديو والادّعاءات. بات لدى وسائل الإعلام الكبيرة مثل بي بي سي ونيويورك تايمز فرق مخصصة للتّحقيقات البصريّة، وتزايدت أهمية عملها في سياق حرب المعلومات.

العثور على سجلات أمريكية لمتابعة التّحقيقات العابرة للحدود

دليل لبعض مصادر البيانات الحكوميّة الأمريكيّة التي يمكن أن تساعد الصّحفيين الأجانب والأمريكيين في تغطية الحروب الأمريكيّة ومبيعات الأسلحة وتأثير السياسة الخارجيّة الأمريكيّة.

رون ديبرت في الجلسة الافتتاحية #gijc23

الأمن والأمان

أزمة القرصنة العالمية: كيف يمكن للصحفيين الاستقصائيين مواجهتها

تم تحذير أكبر تجمع على الإطلاق من الصحفيين الاستقصائيين من أنهم يواجهون وباء التجسس السيبراني ، ويجب أن يذهبوا إلى الهجوم لفضح الممثلين السيئين الذين يسعون إلى تقويض الأمن الرقمي.

توصّل الموقع الاستقصائيّ الفنزويلي Armando.info إلى أن ميامي ومواقع أخرى في جنوب فلوريدا أصبحت مراكز للشّركات والممتلكات المسجلّة من قبل مسؤولين سابقين رفيعي المستوى في الدّولة الفنزويليّة.

منهجية

كيف تمكن “أرماندوا. إنفو” من كشف أصول سرية لمسؤولين فنزويليين في فلوريدا

عندما شرع فريق في Armando.info في العثور على أفراد مرتبطين بالحكومة الفنزويلية والذين قد يكون لديهم استثمارات سرية – وحتى تصاريح إقامة – في الولايات المتحدة، لم يتخيلوا أبدًا حجم ما سيجدونه بمجرد أن يبدأوا في متابعة الأموال.