आलेख

विषय

पीडीएफ फ़ाइल से डेटा कैसे निकालें ?

इस लेख को पढ़ें

पत्रकारों को बहुत सारे डेटा पीडीएफ फाइल के रूप में मिलते हैं। यह डेटा किसी रिपोर्ट में टेबल के रूप में हो सकते हैं, या कोई स्प्रेडशीट हो सकती है, जिसे आपके पास ईमेल करने से पहले पीडीएफ के रूप में सेव किया गया हो। लेकिन जब तक आपको वह डेटा एक स्प्रेडशीट या वर्ड फाइल के रूप में न मिले, तब तक  उसका उपयोग करना मुश्किल होता है।

सौभाग्यवश, कई ऐसे शानदार उपकरण हैं, जो डेटा को बेहद कम समय में बेहद आसानी से आपके उपयोग लायक बना सकते हैं। मैंने जिन उपकरणों को सफलतापूर्वक आजमाया है, उनकी जानकारी यहां प्रस्तुत है। साथ ही, पीडीएफ से जुड़े कई सुझाव दिए गए हैं, जिनमें रोटेटेड टेबल का उपयोग, स्कैन किए गए पीडीएफ को बदलने तथा पासवर्ड संरक्षित पीडीएफ संबंधी मामले शामिल हैं।

टेबुला (Tabula)

मुझे टेबुला बहुत पसंद है। यह सबसे अच्छा विकल्प है। पहली बात कि यह मुफ्त है। दूसरी खास बात कि यह उपयोग करने में बेहद आसान है। इसकी वेबसाइट कहती है कि इसे ‘पत्रकारों के लिए पत्रकारों द्वारा‘ बनाया गया है। शायद यही कारण है कि यह मेरे जैसे गैर-तकनीकी लोगों के बीच काफी लोकप्रिय है।

मुझे अक्सर बड़ी-बड़ी पीडीएफ रिपोर्ट के टेबल से डेटा निकालने की जरूरत पड़ती है। टेबुला आपको एक संपूर्ण दस्तावेज अपलोड करने और उसमें मनपसंद तालिकाओं (टेबल) का चयन करने की सुविधा देता है। आप अपने दस्तावेज के लेआउट के अनुसार किसी तालिका को एक बार में या उसके कुछ हिस्सों को JSON फाइल के CSV, TSV में बदल सकते हैं। उसे आप Google Sheets गूगल शीट (निशुल्क), लिब्रे ऑफिस Libre Office Calc (निशुल्क) या एक्सेल Excel (निशुल्क नहीं) या किसी भी अन्य प्रोग्राम में इम्पोर्ट कर सकते हैं।

हालांकि जिस पीडीएफ को स्कैन किया गया हो, या जिसमें तालिकाओं को 90 डिग्री घुमाया गया हो, उनके लिए मैं टेबुला का उपयोग नहीं करती। लेकिन इस विषय पर बाद में बात होगी।

कोमेटडॉक्स (Cometdocs)

यह भी पत्रकारों के बीच काफी लोकप्रिय है। खोजी पत्रकारों और संपादकों को इसकी प्रीमियम सदस्यता मुफ्त मिलती है। यह उपयोग करने में भी बेहद आसान है। आप इसके जरिए हर सप्ताह पांच दस्तावेजों को बदल सकते हैं। लेकिन यदि आपको इससे अधिक जरूरत हो, तो सदस्यता लेनी होगी। लगभग दस डाॅलर में एक महीने के लिए सदस्यता मिल सकती है। आप चाहें, तो लगभग 130 डाॅलर में आजीवन सदस्यता प्राप्त कर सकते हैं।

कोमेटडॉक्स किस तरह से काम करता है? जिस पीडीएफ को आप कन्वर्ट करना चाहते हैं, उसे अपलोड या इम्पोर्ट करें। फिर कन्वर्ट बटन पर क्लिक करके एक्सेल या ओडीएस के बीच चयन करें। इसे आप लिब्रे ऑफिस में खोल सकते हैं। सीएसवी में इसे खोलने का विकल्प नहीं है। यदि आपके पास उन दोनों स्प्रेडशीट पैकेजों में से कोई भी नहीं है, तो आप फाइल को गूगल ड्राइव पर अपलोड कर सकते हैं और इसे गूगल शीट में खोल सकते हैं।

कोमेटडॉक्स बहुत जल्दी और अच्छी तरह से काम करता है। सबसे अच्छी बात है कि इसमें ऑप्टिकल कैरेक्टर रिकाॅगनिशन की क्षमता है। इसलिए यह स्कैन किए गए पीडीएफ को भी परिवर्तित कर सकता है। हालांकि, यह सुनिश्चित करने के लिए कि सब कुछ सही है, आपको मूल दस्तावेज के साथ मिलान कर लेना बेहतर होगा। टेबुला की तरह, यह घुमाई गई तालिकाओं को ठीक नहीं कर पाता।

एडोब एक्सपोर्ट पीडीएफ (Adobe Export PDF)

यह मुफ्त नहीं है, लेकिन महंगा भी नहीं है। इसके लिए वार्षिक लगभग 24 डॉलर का खर्च करना पड़ता है। यदि आप ‘एडोब रीडर‘ का उपयोग करते हैं, जो कि एडोब का मुफ्त पीडीएफ रीडर है, तो ‘एडोब एक्सपोर्ट पीडीएफ‘ आपको किसी पीडीएफ दस्तावेज को बदलने की सुविधा देता है। ऐसे दस्तावेज को आप एक्रोबेट रीडर से एक्सेल, वर्ड, पावरपॉइंट या आरटीएफ में खोल सकते हैं। यह काफी बड़े दस्तावेजों के मामले में भी अच्छी तरह से और जल्दी से काम करता है। लेकिन, टेबुला की तरह यह घुमाए गए टेबल के मामले में कारगर नहीं है।

नाइट्रो प्रो (Nitro Pro)

अगर आप विंडोज का उपयोग कर रहे हैं, तो पीडीएफ को उपयोगी प्रारूपों के संपादित और परिवर्तित करने के लिए ‘नाइट्रो प्रो‘ एक शानदार उपकरण है। लेकिन यह मुफ्त नहीं है। इसके लिए लगभग 160 डाॅलर खर्च करना पड़ता है। लेकिन यह केवल ‘विंडोज‘ में काम करता है। इसलिए यदि आप ‘मैकबुक‘ का उपयोग कर रहे हों, तो यह काम नहीं करेगा। मैंने इसे ‘विंडोज‘ पर आजमाया है, और यह काफी कारगर है।

एक्रोबेट प्रो (Acrobat Pro)

यह मैक उपयोगकर्ताओं के लिए कारगर है। लेकिन यह भी मुफ्त नहीं है। इसके लिए लगभग 15 डॉलर प्रति माह का खर्च करना होगा। न्यूनतम एक साल की प्रतिबद्धता के आधार पर ही मिलेगा।

जेनरेन (Zanran)

ब्रिटेन की इस कंपनी ने पीडीएफ को स्वचालित ढंग से परिवर्तित करने के लिए यह सॉफ्टवेयर विकसित किया है। यह मुफ्त नहीं है। लेकिन अगर आपका दस्तावेज 1.5 एमबी या उससे छोटा है, तो आप इसके डेमो दस्तावेज कन्वर्टर को आजमा सकते हैं। आप अपना पीडीएफ अपलोड करें, बताएं कि आप इसे किस रूप में परिवर्तित करना चाहते हैं। उन्हें अपना ईमेल दें। वे आपको परिवर्तित दस्तावेज मेल करेंगे।

जेमजार (Zamzar)

यह भी एक ऑनलाइन रूपांतरण उपकरण है। इसमें आप अपना दस्तावेज अपलोड करके उस प्रारूप को चुन सकते हैं, जिसमें आप इसे बदलना चाहते हैं। परिवर्तित दस्तावेज को आपके ईमेल पते पर मिल जाएगा।

घुमाए हुए टेबल्स

कई बार पीडीएफ दस्तावेजों में टेबल या तालिकाओं को 90 डिग्री घुमा दिया जाता है। उन तालिकाओं को सामान्य प्रारूप में वापस लाने पर ही रूपांतरण उपकरण उसकी टेक्स्ट के रूप में पहचान कर सकेगा। एक्रोबैट रीडर या प्रीव्यू में पेज को सिर्फ घुमाने से काम नहीं चलेगा। तालिका को घुमाना आवश्यक है। ऐसा करने के लिए आपके पास ‘एक्रोबेट प्रो‘ या ‘नाइट्रो प्रो‘ जैसा कोई अच्छा ‘पीडीएफ एडिटर‘ होना जरूरी है।

‘एक्रोबैट प्रो‘ का उपयोग कैसे करें:

  • यदि किसी बड़े दस्तावेज में कई टेबल हों, तो उस दस्तावेज को खोलें। इसके बाद आप टेबल वाले जिन पृष्ठों को घुमाना चाहते हैं, उन्हें ‘ऑर्गेनाइज़ पेजेज‘ आप्शन का उपयोग करके निकालें। यदि आप लगातार कई पृष्ठ निकालना चाहते हैं, तो उन्हें अलग-अलग फाइलों में निकालना आसान है।
  • इसके बाद टेबल वाले पेज खोलें। फिर ‘व्यू‘ मेनू पर जाएं और टेबल को जिस दिशा में चाहें, घुमा दें।
  • यदि ऐसे पेज में ‘हेडर‘ और ‘फुटर‘ या कोई अन्य टेक्स्ट है, जो आपकी टेबल की समान दिशा में नहीं घूम पाया हो, तो एडिट पीडीएफ फंक्शन‘ का उपयोग करके उसे हटा दें। आपको उन्हें डिलिट करना होगा।
  • ‘एन्हांस स्कैन‘ विकल्प पर जाकर ‘रिकाॅगनाइज टेक्स्ट‘ चुनें। इसकी सेटिंग में ‘सेव एज एडिटेबल टेक्स्ट एंड इमेजेज‘ का चयन करें। इसके बाद की प्रक्रिया में कुछ मिनट लग सकते हैं। जब यह समाप्त हो जाए तो टेबल को 90 प्रतिशत फिर से घुमाया जा सकता है।
  • अब एक बार फिर ‘व्यू‘ मेनू पर जाएं और टेबल को आप जिस दिशा में रखना चाहते हों, उस दिशा में घुमा दें। इसके बाद अपनी फाइल को ‘सेव‘ कर लें।
  • आप एक्सपोर्ट पीडीएफ फंक्शन का उपयोग करके अपने पेज को ‘एक्सेल स्प्रेडशीट‘ में बदलने की कोशिश कर सकते हैं। लेकिन ‘टेबुला‘ यह काम बेहतर करता है।
  • हमेशा मूल दस्तावेजों के साथ परिवर्तित डेटा की जांच करें क्योंकि कई बार त्रुटियों की संभावना होती है। लेकिन अगर आपका परिवर्तित दस्तावेज पूरी तरह सही नहीं है, तब भी मैन्युअल रूप से एक स्प्रेडशीट में टाइप करने की तुलना में इस तरह से परिवर्तित करना बहुत आसान और कम समय में होगा।

स्कैन किए गए पीडीएफ को परिवर्तित करना

स्कैन किए गए पीडीएफ में किसी टेबल को टेक्स्ट के बजाय एक इमेज के रूप में पहचाना जाएगा। इसलिए यदि आप किसी टेबल से डेटा निकालना चाहते हैं, तो आपको पहले इसे ‘ऑप्टिकल कैरेक्टर रिकाॅगनिशन‘ के जरिए टेक्स्ट में परिवर्तित करना होगा। इसके लिए आप ‘कोमेटडाॅक्स‘, ‘एक्रोबेट प्रो‘ अथवा ‘नाइट्रो प्रो‘ का उपयोग कर सकते हैं। आपके पीडीएफ के स्कैन की गुणवत्ता बेहद खराब न हो, तो ‘एक्रोबेट प्रो‘ का एन्हांस स्कैन्स टूल इसके टेक्स्ट को अच्छी तरह पहचान सकता है। एक बार जब स्कैन टेक्स्ट या इमेज में परिवर्तित हो जाए, तो उसे हम पुनः पीडीएफ के रूप में सेव करके टेबुला के जरिए एक सीएसवी में बदल सकते हैं। लेकिन हमेशा अपने परिवर्तित डेटा की मूल दस्तावेज से मिलान अवश्य कर लें।

पासवर्ड संरक्षित पीडीएफ

कुछ पीडीएफ ‘पासवर्ड संरक्षित‘ होते हैं। आप उन्हें न तो संपादित कर सकते हैं, और न ही किसी अन्य प्रारूप में परिवर्तित कर सकते हैं। यदि आपके पास प्रिव्यू वाला मैक है, तो ‘प्रिव्यू‘ में अपना पीडीएफ खोलने का प्रयास करें। फिर फाइल मेनू के जाकर ‘एक्सपोर्ट एज पीडीएफ‘ विकल्प चुनें। अब पीडीएफ के इस नए संस्करण को खोलें और देखें कि क्या आप इसे अब स्प्रैडशीट में परिवर्तित कर सकते हैं।

क्या आपके पास पीडीएफ से डेटा निकालने का कोई मनपसंद उपकरण है? मुझे बताएं। आप मुझे ट्विटर पर देख सकते हैं-  @laurajgrant

‘मीडिया हैक कलेक्टिव‘ के जर्नलिज्म टूलबॉक्स द्वारा डेटा पत्रकारों के लिए उपयोगी उपकरणों पर श्रृंखला का यह तीसरा भाग है। इसे अनुमति लेकर यहां प्रस्तुत किया गया है।


लौरा ग्रांट एक डेटा जर्नलिस्ट हैं। वह ‘मीडिया हैक कलेक्टिव‘ की मैनेजिंग पार्टनर हैं, जो डिजिटल पत्रकारिता के लिए समर्पित एक सहयोगी संगठन है। वह 20 से अधिक वर्षों से पत्रकारिता कर रही हैं। वह दक्षिण अफ्रीका के मेल एंड गार्जियन में डिजिटल और डेटा प्रोजेक्ट्स की पूर्व सहयोगी संपादक हैं, जहां उन्होंने डेटा-आधारित खबरों, इंटरैक्टिव ग्राफिक्स और मैप्स पर काम किया।

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

Investigating AI Audio Deepfakes

टिपशीट

फर्जी एआई ऑडियो की जांच कैसे करें

एडवांस्ड स्पीच डीपफेक के द्वारा बिल्कुल असली लगने वाले नकली ऑडियो बनाए जा सकते हैं। उसकी सच्चाई को उस व्यक्ति के नजदीकी दोस्त भी नहीं पहचान सकेंगे। ऐसे ऑडियो क्लिप की जांच के लिए विशेषज्ञ और नए उपकरणों की आवश्यकता होती है। अक्सर पत्रकार किसी नेता के बारे में अपने ज्ञान, रिकॉर्डिंग की खराब गुणवत्ता, संदर्भ या सामान्य सामान्य ज्ञान के आधार पर किसी ऑडियो क्लिप में किए गए फर्जीवाड़े को तुरंत पहचान लेते हैं।

ऐप्स की ‘प्राइवेसी पॉलिसी’ को कैसे समझें?

आम तौर पर अधिकांश प्राइवेसी पॉलिसी में एक पूर्व-अनुमानित संरचना का पालन किया जाता है। इसलिए आप उनकी तह तक जाने की कला सीख सकते हैं। उसके मुख्य हिस्सों का पता लगा सकते हैं। लंबा दस्तावेज होने के बावजूद केवल महत्वपूर्ण जानकारी को निकालने के लिए झपट्टा मार सकते हैं। आप कुछ सूचनाओं के संग्रह के आधार पर उससे बाहर निकलने या विकल्प चुनने के अवसर का लाभ उठा सकते हैं। अधिक गहराई तक जाने और अधिक व्यक्तिगत प्रकटीकरण से जुड़े बिंदुओं को भी बेहद कम समय में आसानी से समझ सकते हैं।

दीर्घकालिक खोजी रिपोर्टिंग को जारी रखने या रोकने का निर्णय कैसे लें?

संपादकों के अनुसार न्यूनतम स्टोरीज प्रकाशित करने का भी काफी महत्व है। ऐसी स्टोरी आने के बाद विस्सल-ब्लोअर सामने आते हैं। किसी संगठन के भीतर के लोग आकर कोई बड़ी जानकारी देते हैं। संपादकों के अनुसार ऐसी खबरें प्रकाशित करने के दौरान पारदर्शिता महत्वपूर्ण है। पाठकों को स्पष्ट रूप से बताना सुनिश्चित करें कि क्या साबित किया जा सकता है और क्या नहीं।

Data mining workshop scraping website GIJC23

टिपशीट

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

Data Miner डाटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।