पीडीएफ फ़ाइल से डेटा कैसे निकालें ?
पत्रकारों को बहुत सारे डेटा पीडीएफ फाइल के रूप में मिलते हैं। यह डेटा किसी रिपोर्ट में टेबल के रूप में हो सकते हैं, या कोई स्प्रेडशीट हो सकती है, जिसे आपके पास ईमेल करने से पहले पीडीएफ के रूप में सेव किया गया हो। लेकिन जब तक आपको वह डेटा एक स्प्रेडशीट या वर्ड फाइल के रूप में न मिले, तब तक उसका उपयोग करना मुश्किल होता है।
सौभाग्यवश, कई ऐसे शानदार उपकरण हैं, जो डेटा को बेहद कम समय में बेहद आसानी से आपके उपयोग लायक बना सकते हैं। मैंने जिन उपकरणों को सफलतापूर्वक आजमाया है, उनकी जानकारी यहां प्रस्तुत है। साथ ही, पीडीएफ से जुड़े कई सुझाव दिए गए हैं, जिनमें रोटेटेड टेबल का उपयोग, स्कैन किए गए पीडीएफ को बदलने तथा पासवर्ड संरक्षित पीडीएफ संबंधी मामले शामिल हैं।
टेबुला (Tabula)
मुझे टेबुला बहुत पसंद है। यह सबसे अच्छा विकल्प है। पहली बात कि यह मुफ्त है। दूसरी खास बात कि यह उपयोग करने में बेहद आसान है। इसकी वेबसाइट कहती है कि इसे ‘पत्रकारों के लिए पत्रकारों द्वारा‘ बनाया गया है। शायद यही कारण है कि यह मेरे जैसे गैर-तकनीकी लोगों के बीच काफी लोकप्रिय है।
मुझे अक्सर बड़ी-बड़ी पीडीएफ रिपोर्ट के टेबल से डेटा निकालने की जरूरत पड़ती है। टेबुला आपको एक संपूर्ण दस्तावेज अपलोड करने और उसमें मनपसंद तालिकाओं (टेबल) का चयन करने की सुविधा देता है। आप अपने दस्तावेज के लेआउट के अनुसार किसी तालिका को एक बार में या उसके कुछ हिस्सों को JSON फाइल के CSV, TSV में बदल सकते हैं। उसे आप Google Sheets गूगल शीट (निशुल्क), लिब्रे ऑफिस Libre Office Calc (निशुल्क) या एक्सेल Excel (निशुल्क नहीं) या किसी भी अन्य प्रोग्राम में इम्पोर्ट कर सकते हैं।
हालांकि जिस पीडीएफ को स्कैन किया गया हो, या जिसमें तालिकाओं को 90 डिग्री घुमाया गया हो, उनके लिए मैं टेबुला का उपयोग नहीं करती। लेकिन इस विषय पर बाद में बात होगी।
कोमेटडॉक्स (Cometdocs)
यह भी पत्रकारों के बीच काफी लोकप्रिय है। खोजी पत्रकारों और संपादकों को इसकी प्रीमियम सदस्यता मुफ्त मिलती है। यह उपयोग करने में भी बेहद आसान है। आप इसके जरिए हर सप्ताह पांच दस्तावेजों को बदल सकते हैं। लेकिन यदि आपको इससे अधिक जरूरत हो, तो सदस्यता लेनी होगी। लगभग दस डाॅलर में एक महीने के लिए सदस्यता मिल सकती है। आप चाहें, तो लगभग 130 डाॅलर में आजीवन सदस्यता प्राप्त कर सकते हैं।
कोमेटडॉक्स किस तरह से काम करता है? जिस पीडीएफ को आप कन्वर्ट करना चाहते हैं, उसे अपलोड या इम्पोर्ट करें। फिर कन्वर्ट बटन पर क्लिक करके एक्सेल या ओडीएस के बीच चयन करें। इसे आप लिब्रे ऑफिस में खोल सकते हैं। सीएसवी में इसे खोलने का विकल्प नहीं है। यदि आपके पास उन दोनों स्प्रेडशीट पैकेजों में से कोई भी नहीं है, तो आप फाइल को गूगल ड्राइव पर अपलोड कर सकते हैं और इसे गूगल शीट में खोल सकते हैं।
कोमेटडॉक्स बहुत जल्दी और अच्छी तरह से काम करता है। सबसे अच्छी बात है कि इसमें ऑप्टिकल कैरेक्टर रिकाॅगनिशन की क्षमता है। इसलिए यह स्कैन किए गए पीडीएफ को भी परिवर्तित कर सकता है। हालांकि, यह सुनिश्चित करने के लिए कि सब कुछ सही है, आपको मूल दस्तावेज के साथ मिलान कर लेना बेहतर होगा। टेबुला की तरह, यह घुमाई गई तालिकाओं को ठीक नहीं कर पाता।
एडोब एक्सपोर्ट पीडीएफ (Adobe Export PDF)
यह मुफ्त नहीं है, लेकिन महंगा भी नहीं है। इसके लिए वार्षिक लगभग 24 डॉलर का खर्च करना पड़ता है। यदि आप ‘एडोब रीडर‘ का उपयोग करते हैं, जो कि एडोब का मुफ्त पीडीएफ रीडर है, तो ‘एडोब एक्सपोर्ट पीडीएफ‘ आपको किसी पीडीएफ दस्तावेज को बदलने की सुविधा देता है। ऐसे दस्तावेज को आप एक्रोबेट रीडर से एक्सेल, वर्ड, पावरपॉइंट या आरटीएफ में खोल सकते हैं। यह काफी बड़े दस्तावेजों के मामले में भी अच्छी तरह से और जल्दी से काम करता है। लेकिन, टेबुला की तरह यह घुमाए गए टेबल के मामले में कारगर नहीं है।
नाइट्रो प्रो (Nitro Pro)
अगर आप विंडोज का उपयोग कर रहे हैं, तो पीडीएफ को उपयोगी प्रारूपों के संपादित और परिवर्तित करने के लिए ‘नाइट्रो प्रो‘ एक शानदार उपकरण है। लेकिन यह मुफ्त नहीं है। इसके लिए लगभग 160 डाॅलर खर्च करना पड़ता है। लेकिन यह केवल ‘विंडोज‘ में काम करता है। इसलिए यदि आप ‘मैकबुक‘ का उपयोग कर रहे हों, तो यह काम नहीं करेगा। मैंने इसे ‘विंडोज‘ पर आजमाया है, और यह काफी कारगर है।
एक्रोबेट प्रो (Acrobat Pro)
यह मैक उपयोगकर्ताओं के लिए कारगर है। लेकिन यह भी मुफ्त नहीं है। इसके लिए लगभग 15 डॉलर प्रति माह का खर्च करना होगा। न्यूनतम एक साल की प्रतिबद्धता के आधार पर ही मिलेगा।
जेनरेन (Zanran)
ब्रिटेन की इस कंपनी ने पीडीएफ को स्वचालित ढंग से परिवर्तित करने के लिए यह सॉफ्टवेयर विकसित किया है। यह मुफ्त नहीं है। लेकिन अगर आपका दस्तावेज 1.5 एमबी या उससे छोटा है, तो आप इसके डेमो दस्तावेज कन्वर्टर को आजमा सकते हैं। आप अपना पीडीएफ अपलोड करें, बताएं कि आप इसे किस रूप में परिवर्तित करना चाहते हैं। उन्हें अपना ईमेल दें। वे आपको परिवर्तित दस्तावेज मेल करेंगे।
जेमजार (Zamzar)
यह भी एक ऑनलाइन रूपांतरण उपकरण है। इसमें आप अपना दस्तावेज अपलोड करके उस प्रारूप को चुन सकते हैं, जिसमें आप इसे बदलना चाहते हैं। परिवर्तित दस्तावेज को आपके ईमेल पते पर मिल जाएगा।
घुमाए हुए टेबल्स
कई बार पीडीएफ दस्तावेजों में टेबल या तालिकाओं को 90 डिग्री घुमा दिया जाता है। उन तालिकाओं को सामान्य प्रारूप में वापस लाने पर ही रूपांतरण उपकरण उसकी टेक्स्ट के रूप में पहचान कर सकेगा। एक्रोबैट रीडर या प्रीव्यू में पेज को सिर्फ घुमाने से काम नहीं चलेगा। तालिका को घुमाना आवश्यक है। ऐसा करने के लिए आपके पास ‘एक्रोबेट प्रो‘ या ‘नाइट्रो प्रो‘ जैसा कोई अच्छा ‘पीडीएफ एडिटर‘ होना जरूरी है।
‘एक्रोबैट प्रो‘ का उपयोग कैसे करें:
- यदि किसी बड़े दस्तावेज में कई टेबल हों, तो उस दस्तावेज को खोलें। इसके बाद आप टेबल वाले जिन पृष्ठों को घुमाना चाहते हैं, उन्हें ‘ऑर्गेनाइज़ पेजेज‘ आप्शन का उपयोग करके निकालें। यदि आप लगातार कई पृष्ठ निकालना चाहते हैं, तो उन्हें अलग-अलग फाइलों में निकालना आसान है।
- इसके बाद टेबल वाले पेज खोलें। फिर ‘व्यू‘ मेनू पर जाएं और टेबल को जिस दिशा में चाहें, घुमा दें।
- यदि ऐसे पेज में ‘हेडर‘ और ‘फुटर‘ या कोई अन्य टेक्स्ट है, जो आपकी टेबल की समान दिशा में नहीं घूम पाया हो, तो एडिट पीडीएफ फंक्शन‘ का उपयोग करके उसे हटा दें। आपको उन्हें डिलिट करना होगा।
- ‘एन्हांस स्कैन‘ विकल्प पर जाकर ‘रिकाॅगनाइज टेक्स्ट‘ चुनें। इसकी सेटिंग में ‘सेव एज एडिटेबल टेक्स्ट एंड इमेजेज‘ का चयन करें। इसके बाद की प्रक्रिया में कुछ मिनट लग सकते हैं। जब यह समाप्त हो जाए तो टेबल को 90 प्रतिशत फिर से घुमाया जा सकता है।
- अब एक बार फिर ‘व्यू‘ मेनू पर जाएं और टेबल को आप जिस दिशा में रखना चाहते हों, उस दिशा में घुमा दें। इसके बाद अपनी फाइल को ‘सेव‘ कर लें।
- आप एक्सपोर्ट पीडीएफ फंक्शन का उपयोग करके अपने पेज को ‘एक्सेल स्प्रेडशीट‘ में बदलने की कोशिश कर सकते हैं। लेकिन ‘टेबुला‘ यह काम बेहतर करता है।
- हमेशा मूल दस्तावेजों के साथ परिवर्तित डेटा की जांच करें क्योंकि कई बार त्रुटियों की संभावना होती है। लेकिन अगर आपका परिवर्तित दस्तावेज पूरी तरह सही नहीं है, तब भी मैन्युअल रूप से एक स्प्रेडशीट में टाइप करने की तुलना में इस तरह से परिवर्तित करना बहुत आसान और कम समय में होगा।
स्कैन किए गए पीडीएफ को परिवर्तित करना
स्कैन किए गए पीडीएफ में किसी टेबल को टेक्स्ट के बजाय एक इमेज के रूप में पहचाना जाएगा। इसलिए यदि आप किसी टेबल से डेटा निकालना चाहते हैं, तो आपको पहले इसे ‘ऑप्टिकल कैरेक्टर रिकाॅगनिशन‘ के जरिए टेक्स्ट में परिवर्तित करना होगा। इसके लिए आप ‘कोमेटडाॅक्स‘, ‘एक्रोबेट प्रो‘ अथवा ‘नाइट्रो प्रो‘ का उपयोग कर सकते हैं। आपके पीडीएफ के स्कैन की गुणवत्ता बेहद खराब न हो, तो ‘एक्रोबेट प्रो‘ का एन्हांस स्कैन्स टूल इसके टेक्स्ट को अच्छी तरह पहचान सकता है। एक बार जब स्कैन टेक्स्ट या इमेज में परिवर्तित हो जाए, तो उसे हम पुनः पीडीएफ के रूप में सेव करके टेबुला के जरिए एक सीएसवी में बदल सकते हैं। लेकिन हमेशा अपने परिवर्तित डेटा की मूल दस्तावेज से मिलान अवश्य कर लें।
पासवर्ड संरक्षित पीडीएफ
कुछ पीडीएफ ‘पासवर्ड संरक्षित‘ होते हैं। आप उन्हें न तो संपादित कर सकते हैं, और न ही किसी अन्य प्रारूप में परिवर्तित कर सकते हैं। यदि आपके पास प्रिव्यू वाला मैक है, तो ‘प्रिव्यू‘ में अपना पीडीएफ खोलने का प्रयास करें। फिर फाइल मेनू के जाकर ‘एक्सपोर्ट एज पीडीएफ‘ विकल्प चुनें। अब पीडीएफ के इस नए संस्करण को खोलें और देखें कि क्या आप इसे अब स्प्रैडशीट में परिवर्तित कर सकते हैं।
क्या आपके पास पीडीएफ से डेटा निकालने का कोई मनपसंद उपकरण है? मुझे बताएं। आप मुझे ट्विटर पर देख सकते हैं- @laurajgrant
‘मीडिया हैक कलेक्टिव‘ के जर्नलिज्म टूलबॉक्स द्वारा डेटा पत्रकारों के लिए उपयोगी उपकरणों पर श्रृंखला का यह तीसरा भाग है। इसे अनुमति लेकर यहां प्रस्तुत किया गया है।
लौरा ग्रांट एक डेटा जर्नलिस्ट हैं। वह ‘मीडिया हैक कलेक्टिव‘ की मैनेजिंग पार्टनर हैं, जो डिजिटल पत्रकारिता के लिए समर्पित एक सहयोगी संगठन है। वह 20 से अधिक वर्षों से पत्रकारिता कर रही हैं। वह दक्षिण अफ्रीका के मेल एंड गार्जियन में डिजिटल और डेटा प्रोजेक्ट्स की पूर्व सहयोगी संपादक हैं, जहां उन्होंने डेटा-आधारित खबरों, इंटरैक्टिव ग्राफिक्स और मैप्स पर काम किया।