A data scraping workshop at GIJC23. Image: Smaranda Tolosano for GIJN
‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?
खोजी पत्रकारों के लिए यह जानना बेहद जरूरी है कि उपयोगी डेटा कहाँ मिलेगा। उस तक कैसे पहुँचना है, यह जानना भी जरूरी है। इसके लिए आपको कोडिंग सीखने की जरूरत नहीं है। इस आलेख में बताया गया है कि कोडिंग जाने बगैर आप वेबसाइटों से उपयोगी जानकारी कैसे निकालें। इसे ‘डेटा स्क्रेपिंग’ करना कहते हैं। इसके लिए ‘डेटा माइनर’ एक उपयोगी टूल है। खोजी पत्रकार किसी डेटा का प्रभावी उपयोग करके अपनी जांच की गुणवत्ता काफी बढ़ा सकते हैं। ऐसा करके आप जनहित में बेहतर सेवा प्रदान कर सकते हैं।
पिछले 20 वर्षों में दुनिया भर में उपलब्ध डेटा की मात्रा अभूतपूर्व रूप से बढ़ती जा रही है । इंटरनेशनल डेटा कॉरपोरेशन (आईडीसी) के अनुसार वर्ष 2025 तक दुनिया का कुल डेटा की मात्रा 175 ज़ेटाबाइट्स तक पहुंच जाएगी। एक ज़ेटाबाइट का मतलब एक ट्रिलियन गीगाबाइट है। अगर कोई व्यक्ति 2025 डेटास्फेयर को डीवीडी में संग्रह करे, तो कर सकता है, तो डीवीडी की लाइन 222 बार पृथ्वी को घेर सकती है।
कुछ लोगों का आकलन है कि सिर्फ गूगल, फेसबुक, माइक्रोसॉफ्ट और अमेजन मिलकर 1200 पेटाबाइट डेटा संग्रहित करते हैं। एक पेटाबाइट का मतलब एक मिलियन गीगाबाइट डेटा है। खोजी और डेटा पत्रकार पहले की तुलना में अब काफी अधिक मात्रात्मक, गुणात्मक और श्रेणीबद्ध डेटा का उपयोग कर रहे हैं। लेकिन उपयोगी और अच्छा डेटा प्राप्त करना अभी भी पत्रकारों के लिए एक चुनौती भरा काम है। इसलिए उन्हें विभिन्न वेबसाइट से उपयोगी डेटा हासिल करने के टूल्स और तरीकों की जानकारी होना आवश्यक है।
आपकी जरूरत के अनुसार डेटा की तलाश करना बेहद मुश्किल काम है। आप जिस प्रारूप में डाटा चाहिए, वैसा संरचित डेटा मिलना मुश्किल है। संरचित या स्ट्रक्चर्ड डेटा का मतलब आपके विश्लेषण के लिए तैयार किया गया स्पष्ट रूप से परिभाषित और मानकीकृत प्रारूप में डेटा मिलना है। लेकिन वेबसाइटों में उपलब्ध डेटा के महासागर में काफी खराब या अपूर्ण डेटा है। इनमें काफी झूठ, गंदगी, और त्रुटियों की भरमार है। साथ ही, काफी डेटा भ्रामक, नकली और बिखरा हुआ मिलेगा। डेटा के इस महासागर में मौजूद अस्पष्ट डेटा से अपने काम की जानकारी निकालना अब भी काफी कठिन है। चाहे क्षेत्र कोई भी हो, हर मामले में यह समस्या मौजूद है।
इस समस्या का समाधान करने के लिए डेटा साक्षरता को बढ़ाना होगा। हमें यह समझने की ज़रूरत है कि डेटा कैसे एकत्र किया जाता है। उसकी सफाई करके कैसे सत्यापित किया जाता है। उसका विश्लेषण और उसे विज़ुअलाइज़ कैसे किया जाता है, यह भी जानना होगा। यह सब परस्पर जुड़ी प्रक्रिया है। पत्रकारों के लिए डेटा साक्षरता काफी महत्वपूर्ण है।
पत्रकारिता की सर्वमान्य प्रथा की ही तरह डेटा पत्रकारिता में भी हम सभी प्रकार के डेटा तक पहुंचने के तरीकों की तलाश करते हैं। जैसे, पीडीएफ फाइलों और वेबसाइटों पर रिकॉर्ड किए गए इंडेक्स से लेकर किसी संस्था द्वारा लीक किये गए आंकड़ों तक। भले ही ऐसे डेटा व्यवस्थित हों या न हों। इनमें से कुछ तक पहुंचना आसान है। लेकिन कई प्रकार के अन्य तक पहुंचने के लिए तकनीक की आवश्यकता होती है, जिसमें समय लगता है।
कई ऐसे उपकरण और तरीके हैं, जिनके कारण यह काम आनंददायक और सरल हो सकता है। जैसे वेबसाइटों से डेटा स्क्रैप करना। ऐसे तरीके से स्क्रैप करने का अर्थ है वेबसाइटों से विशिष्ट डेटा निकालने या कॉपी करने के लिए कंप्यूटर प्रोग्राम या सॉफ़्टवेयर का उपयोग करना। इस प्रक्रिया का उपयोग डेटा एकत्र करने या उसका विश्लेषण करने के लिए किया जा सकता है। यह मैन्युअल रूप से डेटा प्राप्त करने की तुलना में तेज़ और अधिक कुशल है।
डेटा स्क्रैपिंग के कारण पत्रकारों को निम्नलिखित लाभ हो सकते हैं:
- तीव्र गति और व्यापक दायरा: डेटा स्क्रैपिंग से पत्रकारों को जल्दी और कुशलता से जानकारी इकट्ठा करने की सुविधा मिलती है। इंटरनेट पर विभिन्न स्रोतों से डेटा निकालने के कारण आपको एक व्यापक परिप्रेक्ष्य मिलता है। लिहाजा, आपको अधिक ठोस आधार पर अपनी स्टोरी लिखने में मदद मिलती है।
- सत्यापन: डेटा स्क्रैपिंग से पत्रकारों को सत्यापन प्रक्रिया में मदद मिल सकती है। आप वेबसाइट पर मिली जानकारी की जांच करने और उनमें विरोधाभासों का पता लगाने के लिए डेटा की तुलना कर सकते हैं। इससे जानकारी को सत्यापित करने और उसकी विश्वसनीयता बढ़ाने में मदद मिलती है।
- रुझानों और प्रवृत्तियों का पता लगाना: डेटा स्क्रैपिंग का उपयोग किसी विशेष विषय या घटना से संबंधित पैटर्न को समझने के लिए किया जा सकता है। किसी बड़े डेटासेट का विश्लेषण करके आप सोशल मीडिया या जनता की राय के रुझानों को समझ सकते हैं। इस जानकारी के आधार पर आपको ठोस खबर लिखने में मदद मिलेगी।
- डेटा का विज़ुअलाइज़ेशन: डेटा स्क्रैपिंग द्वारा एकत्र किए गए डेटाको विज़ुअलाइज़ करके आप स्टोरी को अधिक प्रभावी ढंग से प्रस्तुत कर सकते हैं। ग्राफ़, चार्ट और इंटरैक्टिव विज़ुअल का उपयोग करके आप डेटा को आसानी से समझने योग्य बना सकते हैं। इस तरह पाठकों को विषय की बेहतर समझ दे सकते हैं।
- गहन जांच करना सम्भव है: डेटा स्क्रैपिंग से पत्रकारों को अधिक गहन शोध करने की सुविधा मिलती है। आप किसी बड़े डेटासेट का विश्लेषण कर सकते हैं। जैसे, किसी वित्तीय डेटा में आप कंपनी के संचालन या सरकारी नीतियों की गहरी समझ प्राप्त कर सकते हैं।
- न्यूज़-वैल्यू में वृद्धि: डेटा स्क्रैपिंग से काफी महत्वपूर्ण समाचार मूल्य वाली स्टोरी बन सकती है। सांख्यिकी, रुझान, जनसांख्यिकी या अन्य डेटा आपकी स्टोरी को अधिक आकर्षक बना सकते हैं।
डेटा माइनर (Data Miner ) – यह डेटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।
हालाँकि वेबसाइटों से बड़ी मात्रा में डेटा एकत्र करना उनकी उपयोग की शर्तों या कानून का उल्लंघन हो सकता है। इसलिए ब्राउज़र एक्सटेंशन या प्लग-इन का उपयोग करने से पहले वेबसाइट के उपयोग की शर्तों को ध्यान से पढ़ लें। सभी कानूनी नियमों के अनुसार कार्य करना महत्वपूर्ण है। आप जिस एक्सटेंशन का उपयोग कर रहे हैं, उसकी सेवा शर्तों की समीक्षा भी कर लें।
‘डेटा माइनर’ का उपयोग कैसे करें?
‘डेटा माइनर’ ब्राउज़र एक्सटेंशन का उपयोग करके एक वेबसाइट को स्क्रैप करने का तरीका इस प्रकार है:
- अपने ब्राउज़र में ‘डेटा माइनर’ (Data Miner) ऐड-ऑन को इंस्टॉल करें। यह ऐड-ऑन आपको गूगल क्रोम या फ़ायरफ़ॉक्स जैसे ब्राउज़रों के लिए मिल जाएंगे। अपने ब्राउज़र के ऐड-ऑन स्टोर से डेटा माइनर ऐड-ऑन ढूंढें और इंस्टॉल करें।
- कोई वेबसाइट खोलें: उस वेबसाइट को खोलें, जिससे आप डेटा स्क्रैप करना चाहते हैं। इसके बाद अपने ब्राउज़र में उसका एक्सटेंशन लॉन्च करें। दूसरे शब्दों में, अपने ब्राउज़र में एक्सटेंशन/प्लगइन्स मेनू में ‘डेटा माइनर’ खोजकर उसे खोलें। एक्सटेंशन आमतौर पर आपके ब्राउज़र के ऊपरी दाएं कोने में स्थित होता है।
- वेब स्क्रैपिंग के लिए एक नया टास्क/रेसिपी बनाएं। डेटा माइनर एक्सटेंशन में ‘माई रेसिपीज़’ नामक ऑप्शन मिलेगा। नए वेब स्क्रैपिंग के लिए इस पर क्लिक करें। डेटा निकालने की प्रक्रिया जारी रखने के लिए आपको एक कमांड स्क्रीन मिलेगी।
- वेबसाइट से डेटा स्क्रैप करने के लिए ऑप्शन सेट करें: डेटा माइनर में वेबसाइट से डेटा स्क्रैप करने के लिए कई ऑप्शन और सेटिंग्स हैं। जैसे, आप तय कर सकते हैं कि कौन सा डेटा स्क्रैप करना है। आप स्वचालित क्रियाएं सेट कर सकते हैं। जैसे पेज नेविगेशन या फॉर्म भरना।
- वेबसाइट से डेटा स्क्रैप करना शुरू करें। एक बार सेटिंग्स को अंतिम रूप देने के बाद आप डेटा माइनर एक्सटेंशन डैशबोर्ड में “स्क्रैप” बटन पर क्लिक करके डेटा स्क्रैपिंग शुरू कर सकते हैं। एक्सटेंशन वेबसाइट को क्रॉल करेगा और आपके द्वारा निर्धारित डेटा एकत्र करेगा। इस प्रक्रिया को आप इस वीडियो में भी देख सकते हैं।
- डेटा को सेव या एक्सपोर्ट करें। आप स्क्रैप किए गए डेटा को सीएसवी फ़ाइल या एक्सेल स्प्रेडशीट के रूप में सेव कर सकते हैं। आप क्लिपबोर्ड फीचर का उपयोग करके स्क्रैपिंग स्क्रीन को भी कॉपी कर सकते हैं। यह समय बचाने वाली बेहद आसान सुविधा है। यदि आपका स्क्रैप किया गया डेटा दस हजार पंक्तियों से अधिक होगा, तो इसे दो अलग फ़ाइलों में डाउनलोड किया जाएगा।
इन चरणों का पालन करके आप डेटा माइनर के जरिये एक या अधिक वेबसाइटों को डेटा स्क्रैप कर सकते हैं। आप साठ हजार से अधिक डेटा स्क्रैपिंग नियमों में से कोई भी चला सकते हैं। वेब पेज से केवल आवश्यक डेटा पाने के लिए अपनी अनुकूलित डेटा स्क्रैपिंग विधि भी बना सकते हैं। सिंगल पेज या मल्टी पेज ऑटोमेटिक स्क्रैपिंग बनाना संभव है।
ऑटोमेटिक स्क्रैपिंग के जरिये आप वेबसाइट के यूआरएल की सूची के आधार पर स्क्रैपिंग संबधी कार्य के बैच चला सकते हैं। आप 15000 से अधिक लोकप्रिय वेबसाइटों के लिए 50000 निःशुल्क, पूर्व-निर्मित क्वेरीज़ का उपयोग कर सकते हैं। आप यूआरएल को क्रॉल भी कर सकते हैं। उन्हें पेजिनेट कर सकते हैं। एक ही स्थान से एक पेज को स्क्रैप कर सकते हैं। इसके लिए किसी कोडिंग की आवश्यकता नहीं है।
‘डेटा माइनर’ एक्सटेंशन का उपयोग करने के निम्नलिखित फायदे भी हैं।
- यह सुरक्षित रूप से उपयोग करने में मदद करता है। यह ऐसा व्यवहार करता है मानो आप स्वयं अपने ब्राउज़र में पेज पर क्लिक कर रहे हों।
- यह आपको बिना किसी चिंता के स्क्रैप करने में मदद करता है। यह कोई बॉट नहीं है। इसलिए जब आप कोई प्रश्न पूछेंगे तो आपको ब्लॉक नहीं किया जाएगा।
- यह आपके डेटा को निजी रखता है। ऐड-ऑन आपके डेटा को बेचता नहीं और न ही किसी को शेयर करता है।
पिनार दाग़ जीआईजेएन तुर्की की संपादक और कादिर हस विश्वविद्यालय में व्याख्याता हैं। वह डेटा लिटरेसी एसोसिएशन, डेटा जर्नलिज्म प्लेटफ़ॉर्म टर्की और DağMedia की सह-संस्थापक हैं। वह डेटा साक्षरता, ओपन डेटा, डेटा विज़ुअलाइज़ेशन और डेटा पत्रकारिता पर काम करती हैं। वह सिग्मा डेटा जर्नलिज्म अवार्ड्स की जूरी में है