आलेख

विषय

पीडीएफ फ़ाइल से डेटा कैसे निकालें ?

इस लेख को पढ़ें

पत्रकारों को बहुत सारे डेटा पीडीएफ फाइल के रूप में मिलते हैं। यह डेटा किसी रिपोर्ट में टेबल के रूप में हो सकते हैं, या कोई स्प्रेडशीट हो सकती है, जिसे आपके पास ईमेल करने से पहले पीडीएफ के रूप में सेव किया गया हो। लेकिन जब तक आपको वह डेटा एक स्प्रेडशीट या वर्ड फाइल के रूप में न मिले, तब तक  उसका उपयोग करना मुश्किल होता है।

सौभाग्यवश, कई ऐसे शानदार उपकरण हैं, जो डेटा को बेहद कम समय में बेहद आसानी से आपके उपयोग लायक बना सकते हैं। मैंने जिन उपकरणों को सफलतापूर्वक आजमाया है, उनकी जानकारी यहां प्रस्तुत है। साथ ही, पीडीएफ से जुड़े कई सुझाव दिए गए हैं, जिनमें रोटेटेड टेबल का उपयोग, स्कैन किए गए पीडीएफ को बदलने तथा पासवर्ड संरक्षित पीडीएफ संबंधी मामले शामिल हैं।

टेबुला (Tabula)

मुझे टेबुला बहुत पसंद है। यह सबसे अच्छा विकल्प है। पहली बात कि यह मुफ्त है। दूसरी खास बात कि यह उपयोग करने में बेहद आसान है। इसकी वेबसाइट कहती है कि इसे ‘पत्रकारों के लिए पत्रकारों द्वारा‘ बनाया गया है। शायद यही कारण है कि यह मेरे जैसे गैर-तकनीकी लोगों के बीच काफी लोकप्रिय है।

मुझे अक्सर बड़ी-बड़ी पीडीएफ रिपोर्ट के टेबल से डेटा निकालने की जरूरत पड़ती है। टेबुला आपको एक संपूर्ण दस्तावेज अपलोड करने और उसमें मनपसंद तालिकाओं (टेबल) का चयन करने की सुविधा देता है। आप अपने दस्तावेज के लेआउट के अनुसार किसी तालिका को एक बार में या उसके कुछ हिस्सों को JSON फाइल के CSV, TSV में बदल सकते हैं। उसे आप Google Sheets गूगल शीट (निशुल्क), लिब्रे ऑफिस Libre Office Calc (निशुल्क) या एक्सेल Excel (निशुल्क नहीं) या किसी भी अन्य प्रोग्राम में इम्पोर्ट कर सकते हैं।

हालांकि जिस पीडीएफ को स्कैन किया गया हो, या जिसमें तालिकाओं को 90 डिग्री घुमाया गया हो, उनके लिए मैं टेबुला का उपयोग नहीं करती। लेकिन इस विषय पर बाद में बात होगी।

कोमेटडॉक्स (Cometdocs)

यह भी पत्रकारों के बीच काफी लोकप्रिय है। खोजी पत्रकारों और संपादकों को इसकी प्रीमियम सदस्यता मुफ्त मिलती है। यह उपयोग करने में भी बेहद आसान है। आप इसके जरिए हर सप्ताह पांच दस्तावेजों को बदल सकते हैं। लेकिन यदि आपको इससे अधिक जरूरत हो, तो सदस्यता लेनी होगी। लगभग दस डाॅलर में एक महीने के लिए सदस्यता मिल सकती है। आप चाहें, तो लगभग 130 डाॅलर में आजीवन सदस्यता प्राप्त कर सकते हैं।

कोमेटडॉक्स किस तरह से काम करता है? जिस पीडीएफ को आप कन्वर्ट करना चाहते हैं, उसे अपलोड या इम्पोर्ट करें। फिर कन्वर्ट बटन पर क्लिक करके एक्सेल या ओडीएस के बीच चयन करें। इसे आप लिब्रे ऑफिस में खोल सकते हैं। सीएसवी में इसे खोलने का विकल्प नहीं है। यदि आपके पास उन दोनों स्प्रेडशीट पैकेजों में से कोई भी नहीं है, तो आप फाइल को गूगल ड्राइव पर अपलोड कर सकते हैं और इसे गूगल शीट में खोल सकते हैं।

कोमेटडॉक्स बहुत जल्दी और अच्छी तरह से काम करता है। सबसे अच्छी बात है कि इसमें ऑप्टिकल कैरेक्टर रिकाॅगनिशन की क्षमता है। इसलिए यह स्कैन किए गए पीडीएफ को भी परिवर्तित कर सकता है। हालांकि, यह सुनिश्चित करने के लिए कि सब कुछ सही है, आपको मूल दस्तावेज के साथ मिलान कर लेना बेहतर होगा। टेबुला की तरह, यह घुमाई गई तालिकाओं को ठीक नहीं कर पाता।

एडोब एक्सपोर्ट पीडीएफ (Adobe Export PDF)

यह मुफ्त नहीं है, लेकिन महंगा भी नहीं है। इसके लिए वार्षिक लगभग 24 डॉलर का खर्च करना पड़ता है। यदि आप ‘एडोब रीडर‘ का उपयोग करते हैं, जो कि एडोब का मुफ्त पीडीएफ रीडर है, तो ‘एडोब एक्सपोर्ट पीडीएफ‘ आपको किसी पीडीएफ दस्तावेज को बदलने की सुविधा देता है। ऐसे दस्तावेज को आप एक्रोबेट रीडर से एक्सेल, वर्ड, पावरपॉइंट या आरटीएफ में खोल सकते हैं। यह काफी बड़े दस्तावेजों के मामले में भी अच्छी तरह से और जल्दी से काम करता है। लेकिन, टेबुला की तरह यह घुमाए गए टेबल के मामले में कारगर नहीं है।

नाइट्रो प्रो (Nitro Pro)

अगर आप विंडोज का उपयोग कर रहे हैं, तो पीडीएफ को उपयोगी प्रारूपों के संपादित और परिवर्तित करने के लिए ‘नाइट्रो प्रो‘ एक शानदार उपकरण है। लेकिन यह मुफ्त नहीं है। इसके लिए लगभग 160 डाॅलर खर्च करना पड़ता है। लेकिन यह केवल ‘विंडोज‘ में काम करता है। इसलिए यदि आप ‘मैकबुक‘ का उपयोग कर रहे हों, तो यह काम नहीं करेगा। मैंने इसे ‘विंडोज‘ पर आजमाया है, और यह काफी कारगर है।

एक्रोबेट प्रो (Acrobat Pro)

यह मैक उपयोगकर्ताओं के लिए कारगर है। लेकिन यह भी मुफ्त नहीं है। इसके लिए लगभग 15 डॉलर प्रति माह का खर्च करना होगा। न्यूनतम एक साल की प्रतिबद्धता के आधार पर ही मिलेगा।

जेनरेन (Zanran)

ब्रिटेन की इस कंपनी ने पीडीएफ को स्वचालित ढंग से परिवर्तित करने के लिए यह सॉफ्टवेयर विकसित किया है। यह मुफ्त नहीं है। लेकिन अगर आपका दस्तावेज 1.5 एमबी या उससे छोटा है, तो आप इसके डेमो दस्तावेज कन्वर्टर को आजमा सकते हैं। आप अपना पीडीएफ अपलोड करें, बताएं कि आप इसे किस रूप में परिवर्तित करना चाहते हैं। उन्हें अपना ईमेल दें। वे आपको परिवर्तित दस्तावेज मेल करेंगे।

जेमजार (Zamzar)

यह भी एक ऑनलाइन रूपांतरण उपकरण है। इसमें आप अपना दस्तावेज अपलोड करके उस प्रारूप को चुन सकते हैं, जिसमें आप इसे बदलना चाहते हैं। परिवर्तित दस्तावेज को आपके ईमेल पते पर मिल जाएगा।

घुमाए हुए टेबल्स

कई बार पीडीएफ दस्तावेजों में टेबल या तालिकाओं को 90 डिग्री घुमा दिया जाता है। उन तालिकाओं को सामान्य प्रारूप में वापस लाने पर ही रूपांतरण उपकरण उसकी टेक्स्ट के रूप में पहचान कर सकेगा। एक्रोबैट रीडर या प्रीव्यू में पेज को सिर्फ घुमाने से काम नहीं चलेगा। तालिका को घुमाना आवश्यक है। ऐसा करने के लिए आपके पास ‘एक्रोबेट प्रो‘ या ‘नाइट्रो प्रो‘ जैसा कोई अच्छा ‘पीडीएफ एडिटर‘ होना जरूरी है।

‘एक्रोबैट प्रो‘ का उपयोग कैसे करें:

  • यदि किसी बड़े दस्तावेज में कई टेबल हों, तो उस दस्तावेज को खोलें। इसके बाद आप टेबल वाले जिन पृष्ठों को घुमाना चाहते हैं, उन्हें ‘ऑर्गेनाइज़ पेजेज‘ आप्शन का उपयोग करके निकालें। यदि आप लगातार कई पृष्ठ निकालना चाहते हैं, तो उन्हें अलग-अलग फाइलों में निकालना आसान है।
  • इसके बाद टेबल वाले पेज खोलें। फिर ‘व्यू‘ मेनू पर जाएं और टेबल को जिस दिशा में चाहें, घुमा दें।
  • यदि ऐसे पेज में ‘हेडर‘ और ‘फुटर‘ या कोई अन्य टेक्स्ट है, जो आपकी टेबल की समान दिशा में नहीं घूम पाया हो, तो एडिट पीडीएफ फंक्शन‘ का उपयोग करके उसे हटा दें। आपको उन्हें डिलिट करना होगा।
  • ‘एन्हांस स्कैन‘ विकल्प पर जाकर ‘रिकाॅगनाइज टेक्स्ट‘ चुनें। इसकी सेटिंग में ‘सेव एज एडिटेबल टेक्स्ट एंड इमेजेज‘ का चयन करें। इसके बाद की प्रक्रिया में कुछ मिनट लग सकते हैं। जब यह समाप्त हो जाए तो टेबल को 90 प्रतिशत फिर से घुमाया जा सकता है।
  • अब एक बार फिर ‘व्यू‘ मेनू पर जाएं और टेबल को आप जिस दिशा में रखना चाहते हों, उस दिशा में घुमा दें। इसके बाद अपनी फाइल को ‘सेव‘ कर लें।
  • आप एक्सपोर्ट पीडीएफ फंक्शन का उपयोग करके अपने पेज को ‘एक्सेल स्प्रेडशीट‘ में बदलने की कोशिश कर सकते हैं। लेकिन ‘टेबुला‘ यह काम बेहतर करता है।
  • हमेशा मूल दस्तावेजों के साथ परिवर्तित डेटा की जांच करें क्योंकि कई बार त्रुटियों की संभावना होती है। लेकिन अगर आपका परिवर्तित दस्तावेज पूरी तरह सही नहीं है, तब भी मैन्युअल रूप से एक स्प्रेडशीट में टाइप करने की तुलना में इस तरह से परिवर्तित करना बहुत आसान और कम समय में होगा।

स्कैन किए गए पीडीएफ को परिवर्तित करना

स्कैन किए गए पीडीएफ में किसी टेबल को टेक्स्ट के बजाय एक इमेज के रूप में पहचाना जाएगा। इसलिए यदि आप किसी टेबल से डेटा निकालना चाहते हैं, तो आपको पहले इसे ‘ऑप्टिकल कैरेक्टर रिकाॅगनिशन‘ के जरिए टेक्स्ट में परिवर्तित करना होगा। इसके लिए आप ‘कोमेटडाॅक्स‘, ‘एक्रोबेट प्रो‘ अथवा ‘नाइट्रो प्रो‘ का उपयोग कर सकते हैं। आपके पीडीएफ के स्कैन की गुणवत्ता बेहद खराब न हो, तो ‘एक्रोबेट प्रो‘ का एन्हांस स्कैन्स टूल इसके टेक्स्ट को अच्छी तरह पहचान सकता है। एक बार जब स्कैन टेक्स्ट या इमेज में परिवर्तित हो जाए, तो उसे हम पुनः पीडीएफ के रूप में सेव करके टेबुला के जरिए एक सीएसवी में बदल सकते हैं। लेकिन हमेशा अपने परिवर्तित डेटा की मूल दस्तावेज से मिलान अवश्य कर लें।

पासवर्ड संरक्षित पीडीएफ

कुछ पीडीएफ ‘पासवर्ड संरक्षित‘ होते हैं। आप उन्हें न तो संपादित कर सकते हैं, और न ही किसी अन्य प्रारूप में परिवर्तित कर सकते हैं। यदि आपके पास प्रिव्यू वाला मैक है, तो ‘प्रिव्यू‘ में अपना पीडीएफ खोलने का प्रयास करें। फिर फाइल मेनू के जाकर ‘एक्सपोर्ट एज पीडीएफ‘ विकल्प चुनें। अब पीडीएफ के इस नए संस्करण को खोलें और देखें कि क्या आप इसे अब स्प्रैडशीट में परिवर्तित कर सकते हैं।

क्या आपके पास पीडीएफ से डेटा निकालने का कोई मनपसंद उपकरण है? मुझे बताएं। आप मुझे ट्विटर पर देख सकते हैं-  @laurajgrant

‘मीडिया हैक कलेक्टिव‘ के जर्नलिज्म टूलबॉक्स द्वारा डेटा पत्रकारों के लिए उपयोगी उपकरणों पर श्रृंखला का यह तीसरा भाग है। इसे अनुमति लेकर यहां प्रस्तुत किया गया है।


लौरा ग्रांट एक डेटा जर्नलिस्ट हैं। वह ‘मीडिया हैक कलेक्टिव‘ की मैनेजिंग पार्टनर हैं, जो डिजिटल पत्रकारिता के लिए समर्पित एक सहयोगी संगठन है। वह 20 से अधिक वर्षों से पत्रकारिता कर रही हैं। वह दक्षिण अफ्रीका के मेल एंड गार्जियन में डिजिटल और डेटा प्रोजेक्ट्स की पूर्व सहयोगी संपादक हैं, जहां उन्होंने डेटा-आधारित खबरों, इंटरैक्टिव ग्राफिक्स और मैप्स पर काम किया।

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

GIJC25 Kuala Lumpur, Malaysia, November 21 - 24, 2025

जीआईजेएन की अगले वैश्विक सम्मेलन की तारीख़ के साथ वेबसाइट लॉन्च

ग्लोबल इनवेस्टिगेटिव जर्नलिज्म कांफ्रेंस यानि GIJC25  (जीआईजेसी25) शुक्रवार, 21 नवंबर से सोमवार, 24 नवंबर, 2025 तक मलेशिया की राजधानी कुआलालंपुर में आयोजित किया जाएगा।

Student journalist, talking notes

खोजी पत्रकारिता के विद्यार्थियों के लिए सुझाव और संसाधन

सच तो यह है कि कोई रातोंरात खोजी पत्रकार नहीं बन सकता। पारंपरिक पत्रकारिता के तरीके आज भी वॉचडॉग रिपोर्टिंग की आधारशिला हैं। लेकिन अब कई नए उपकरण हैं। नवीन तकनीक आ चुकी हैं। पत्रकार अपने तरकश में इन्हें शामिल करके खोजी रिपोर्टिंग में इनकी मदद ले सकते हैं। यदि आवश्यक प्रशिक्षण मिल जाए, तो एक खोजी पत्रकार बनना किसी के लिए पहुंच से बाहर की चीज नहीं है।

सरकार डेटा छुपाए तो जांच कैसे करें : बेलारूस से सबक

बेलारूस में विदेशी व्यापार संबंधी आंकड़ों को गोपनीय रखा जा रहा हैं। लेकिन यूरोपीय देशों में ऐसे आंकड़े हासिल करना संभव है। इसलिए अलीना यान्चुर ऐसे आंकड़ों की तलाश के लिए यूरोपीय संघ के सांख्यिकीय कार्यालय Eurostat का उपयोग करती हैं।

Veteran investigative journalist, Martin Tomkinson, and director of the Centre for Investigative Journalism, James Harkin, talk about lessons learned from a 50-year career at CIJ Summer Conference.

50 साल के अनुभवी खोजी पत्रकार ने दिए रिपोर्टिंग टिप्स

आप जिस भी स्तर की पत्रकारिता करते हों, यह सुनिश्चित करें कि वह वैध हो। कानूनी तौर पर मजबूत रहें। ऐसा करने के लिए आपको थोड़ी परेशानी उठानी पड़ सकती है। लेकिन यदि आप ऐसा नहीं करते हैं, तो किसी मुश्किल में पड़ने का जोखिम उठाते हैं।