Data mining workshop scraping website GIJC23
Data mining workshop scraping website GIJC23

A data scraping workshop at GIJC23. Image: Smaranda Tolosano for GIJN

संसाधन

» टिपशीट

आलेख

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

इस लेख को पढ़ें

खोजी पत्रकारों के लिए यह जानना बेहद जरूरी है कि उपयोगी डेटा कहाँ मिलेगा। उस तक कैसे पहुँचना है, यह जानना भी जरूरी है। इसके लिए आपको कोडिंग सीखने की जरूरत नहीं है। इस आलेख में बताया गया है कि कोडिंग जाने बगैर आप वेबसाइटों से उपयोगी जानकारी कैसे निकालें। इसे ‘डेटा स्क्रेपिंग’ करना कहते हैं। इसके लिए ‘डेटा माइनर’ एक उपयोगी टूल है। खोजी पत्रकार किसी डेटा का प्रभावी उपयोग करके अपनी जांच की गुणवत्ता काफी बढ़ा सकते हैं। ऐसा करके आप जनहित में बेहतर सेवा प्रदान कर सकते हैं।

पिछले 20 वर्षों में दुनिया भर में उपलब्ध डेटा की मात्रा अभूतपूर्व रूप से बढ़ती जा रही है । इंटरनेशनल डेटा कॉरपोरेशन (आईडीसी) के अनुसार वर्ष 2025 तक दुनिया का कुल डेटा की मात्रा 175 ज़ेटाबाइट्स तक पहुंच जाएगी। एक ज़ेटाबाइट का मतलब एक ट्रिलियन गीगाबाइट है। अगर कोई व्यक्ति 2025 डेटास्फेयर को डीवीडी में संग्रह करे, तो कर सकता है, तो डीवीडी की लाइन 222 बार पृथ्वी को घेर सकती है।

कुछ लोगों का आकलन है कि सिर्फ गूगल, फेसबुक, माइक्रोसॉफ्ट और अमेजन मिलकर 1200 पेटाबाइट डेटा संग्रहित करते हैं। एक पेटाबाइट का मतलब एक मिलियन गीगाबाइट डेटा है। खोजी और डेटा पत्रकार पहले की तुलना में अब काफी अधिक मात्रात्मक, गुणात्मक और श्रेणीबद्ध डेटा का उपयोग कर रहे हैं। लेकिन उपयोगी और अच्छा डेटा प्राप्त करना अभी भी पत्रकारों के लिए एक चुनौती भरा काम है। इसलिए उन्हें विभिन्न वेबसाइट से उपयोगी डेटा हासिल करने के टूल्स और तरीकों की जानकारी होना आवश्यक है।

आपकी जरूरत के अनुसार डेटा की तलाश करना बेहद मुश्किल काम है। आप जिस प्रारूप में डाटा चाहिए, वैसा संरचित डेटा मिलना मुश्किल है। संरचित या स्ट्रक्चर्ड डेटा का मतलब आपके विश्लेषण के लिए तैयार किया गया स्पष्ट रूप से परिभाषित और मानकीकृत प्रारूप में डेटा मिलना है। लेकिन वेबसाइटों में उपलब्ध डेटा के महासागर में काफी खराब या अपूर्ण डेटा है। इनमें काफी झूठ, गंदगी, और त्रुटियों  की भरमार है। साथ ही, काफी डेटा भ्रामक, नकली और बिखरा हुआ मिलेगा। डेटा के इस महासागर में मौजूद अस्पष्ट डेटा से अपने काम की जानकारी निकालना अब भी काफी कठिन है। चाहे क्षेत्र कोई भी हो, हर मामले में यह समस्या मौजूद है।

इस समस्या का समाधान करने के लिए डेटा साक्षरता को बढ़ाना होगा। हमें यह समझने की ज़रूरत है कि डेटा कैसे एकत्र किया जाता है। उसकी सफाई करके कैसे सत्यापित किया जाता है। उसका विश्लेषण और उसे विज़ुअलाइज़ कैसे किया जाता है, यह भी जानना होगा। यह सब परस्पर जुड़ी प्रक्रिया है। पत्रकारों के लिए डेटा साक्षरता काफी महत्वपूर्ण है।

पत्रकारिता की सर्वमान्य प्रथा की ही तरह डेटा पत्रकारिता में भी हम सभी प्रकार के डेटा तक पहुंचने के तरीकों की तलाश करते हैं। जैसे, पीडीएफ फाइलों और वेबसाइटों पर रिकॉर्ड किए गए इंडेक्स से लेकर किसी संस्था द्वारा लीक किये गए आंकड़ों तक। भले ही ऐसे डेटा व्यवस्थित हों या न हों। इनमें से कुछ तक पहुंचना आसान है। लेकिन कई प्रकार के अन्य तक पहुंचने के लिए तकनीक की आवश्यकता होती है, जिसमें समय लगता है।

कई ऐसे उपकरण और तरीके हैं, जिनके कारण यह काम आनंददायक और सरल हो सकता है। जैसे वेबसाइटों से डेटा स्क्रैप करना। ऐसे तरीके से स्क्रैप करने का अर्थ है वेबसाइटों से विशिष्ट डेटा निकालने या कॉपी करने के लिए कंप्यूटर प्रोग्राम या सॉफ़्टवेयर का उपयोग करना। इस प्रक्रिया का उपयोग डेटा एकत्र करने या उसका विश्लेषण करने के लिए किया जा सकता है। यह मैन्युअल रूप से डेटा प्राप्त करने की तुलना में तेज़ और अधिक कुशल है।

डेटा स्क्रैपिंग के कारण पत्रकारों को निम्नलिखित लाभ हो सकते हैं:

  1. तीव्र गति और व्यापक दायरा: डेटा स्क्रैपिंग से पत्रकारों को जल्दी और कुशलता से जानकारी इकट्ठा करने की सुविधा मिलती है। इंटरनेट पर विभिन्न स्रोतों से डेटा निकालने के कारण आपको एक व्यापक परिप्रेक्ष्य मिलता है। लिहाजा, आपको अधिक ठोस आधार पर अपनी स्टोरी लिखने में मदद मिलती है।
  2. सत्यापन: डेटा स्क्रैपिंग से पत्रकारों को सत्यापन प्रक्रिया में मदद मिल सकती है। आप वेबसाइट पर मिली जानकारी की जांच करने और उनमें विरोधाभासों का पता लगाने के लिए डेटा की तुलना कर सकते हैं। इससे जानकारी को सत्यापित करने और उसकी विश्वसनीयता बढ़ाने में मदद मिलती है।
  3. रुझानों और प्रवृत्तियों का पता लगाना: डेटा स्क्रैपिंग का उपयोग किसी विशेष विषय या घटना से संबंधित पैटर्न को समझने के लिए किया जा सकता है। किसी बड़े डेटासेट का विश्लेषण करके आप सोशल मीडिया या जनता की राय के रुझानों को समझ सकते हैं। इस जानकारी के आधार पर आपको ठोस खबर लिखने में मदद मिलेगी।
  4. डेटा का विज़ुअलाइज़ेशन: डेटा स्क्रैपिंग द्वारा एकत्र किए गए डेटाको विज़ुअलाइज़ करके आप स्टोरी को अधिक प्रभावी ढंग से प्रस्तुत कर सकते हैं। ग्राफ़, चार्ट और इंटरैक्टिव विज़ुअल का उपयोग करके आप डेटा को आसानी से समझने योग्य बना सकते हैं। इस तरह पाठकों को विषय की बेहतर समझ दे सकते हैं।
  5. गहन जांच करना सम्भव है: डेटा स्क्रैपिंग से पत्रकारों को अधिक गहन शोध करने की सुविधा मिलती है। आप किसी बड़े डेटासेट का विश्लेषण कर सकते हैं। जैसे, किसी वित्तीय डेटा में आप कंपनी के संचालन या सरकारी नीतियों की गहरी समझ प्राप्त कर सकते हैं।
  6. न्यूज़-वैल्यू में वृद्धि: डेटा स्क्रैपिंग से काफी महत्वपूर्ण समाचार मूल्य वाली स्टोरी बन सकती है। सांख्यिकी, रुझान, जनसांख्यिकी या अन्य डेटा आपकी स्टोरी को अधिक आकर्षक बना सकते हैं।

डेटा माइनर (Data Miner ) – यह डेटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।

हालाँकि वेबसाइटों से बड़ी मात्रा में डेटा एकत्र करना उनकी उपयोग की शर्तों या कानून का उल्लंघन हो सकता है। इसलिए ब्राउज़र एक्सटेंशन या प्लग-इन का उपयोग करने से पहले वेबसाइट के उपयोग की शर्तों को ध्यान से पढ़ लें। सभी कानूनी नियमों के अनुसार कार्य करना महत्वपूर्ण है। आप जिस एक्सटेंशन का उपयोग कर रहे हैं, उसकी सेवा शर्तों की समीक्षा भी कर लें।

इस आलेख की लेखिका एवं जीआईजेएन, तुर्की की संपादक पिनार डेग – गोथेनबर्ग में GIJC23 में डेटा माइनर के उपयोग पर प्रस्तुति देते हुए। इमेज: जीआईजेएन के लिए स्मरंडा टोलोसानो

‘डेटा माइनर’ का उपयोग कैसे करें?

‘डेटा माइनर’ ब्राउज़र एक्सटेंशन का उपयोग करके एक वेबसाइट को स्क्रैप करने का तरीका इस प्रकार है:

  1. अपने ब्राउज़र में ‘डेटा माइनर’ (Data Miner) ऐड-ऑन को इंस्टॉल करें। यह ऐड-ऑन आपको गूगल क्रोम या फ़ायरफ़ॉक्स जैसे ब्राउज़रों के लिए मिल जाएंगे। अपने ब्राउज़र के ऐड-ऑन स्टोर से डेटा माइनर ऐड-ऑन ढूंढें और इंस्टॉल करें।

इमेज: स्क्रीनशॉट

  1. कोई वेबसाइट खोलें: उस वेबसाइट को खोलें, जिससे आप डेटा स्क्रैप करना चाहते हैं। इसके बाद अपने ब्राउज़र में उसका एक्सटेंशन लॉन्च करें। दूसरे शब्दों में, अपने ब्राउज़र में एक्सटेंशन/प्लगइन्स मेनू में ‘डेटा माइनर’ खोजकर उसे खोलें। एक्सटेंशन आमतौर पर आपके ब्राउज़र के ऊपरी दाएं कोने में स्थित होता है।

इमेज: स्क्रीनशॉट

  1. वेब स्क्रैपिंग के लिए एक नया टास्क/रेसिपी बनाएं। डेटा माइनर एक्सटेंशन में ‘माई रेसिपीज़’ नामक ऑप्शन मिलेगा। नए वेब स्क्रैपिंग के लिए इस पर क्लिक करें। डेटा निकालने की प्रक्रिया जारी रखने के लिए आपको एक कमांड स्क्रीन मिलेगी।

इमेज: स्क्रीनशॉट

  1. वेबसाइट से डेटा स्क्रैप करने के लिए ऑप्शन सेट करें: डेटा माइनर में वेबसाइट से डेटा स्क्रैप करने के लिए कई ऑप्शन और सेटिंग्स हैं। जैसे, आप तय कर सकते हैं कि कौन सा डेटा स्क्रैप करना है। आप स्वचालित क्रियाएं सेट कर सकते हैं। जैसे पेज नेविगेशन या फॉर्म भरना।

इमेज: स्क्रीनशॉट

  1. वेबसाइट से डेटा स्क्रैप करना शुरू करें। एक बार सेटिंग्स को अंतिम रूप देने के बाद आप डेटा माइनर एक्सटेंशन डैशबोर्ड में “स्क्रैप” बटन पर क्लिक करके डेटा स्क्रैपिंग शुरू कर सकते हैं। एक्सटेंशन वेबसाइट को क्रॉल करेगा और आपके द्वारा निर्धारित डेटा एकत्र करेगा। इस प्रक्रिया को आप इस वीडियो में भी देख सकते हैं।
  2. डेटा को सेव या एक्सपोर्ट करें। आप स्क्रैप किए गए डेटा को सीएसवी फ़ाइल या एक्सेल स्प्रेडशीट के रूप में सेव कर सकते हैं। आप क्लिपबोर्ड फीचर का उपयोग करके स्क्रैपिंग स्क्रीन को भी कॉपी कर सकते हैं। यह समय बचाने वाली बेहद आसान सुविधा है। यदि आपका स्क्रैप किया गया डेटा दस हजार पंक्तियों से अधिक होगा, तो इसे दो अलग फ़ाइलों में डाउनलोड किया जाएगा।

इमेज: स्क्रीनशॉट

इन चरणों का पालन करके आप डेटा माइनर के जरिये एक या अधिक वेबसाइटों को डेटा स्क्रैप कर सकते हैं। आप साठ हजार से अधिक डेटा स्क्रैपिंग नियमों में से कोई भी चला सकते हैं। वेब पेज से केवल आवश्यक डेटा पाने के लिए अपनी अनुकूलित डेटा स्क्रैपिंग विधि भी बना सकते हैं। सिंगल पेज या मल्टी पेज ऑटोमेटिक स्क्रैपिंग बनाना संभव है।

ऑटोमेटिक स्क्रैपिंग के जरिये आप वेबसाइट के यूआरएल की सूची के आधार पर स्क्रैपिंग संबधी कार्य के बैच चला सकते हैं। आप 15000 से अधिक लोकप्रिय वेबसाइटों के लिए 50000 निःशुल्क, पूर्व-निर्मित क्वेरीज़ का उपयोग कर सकते हैं। आप यूआरएल को क्रॉल भी कर सकते हैं। उन्हें पेजिनेट कर सकते हैं। एक ही स्थान से एक पेज को स्क्रैप कर सकते हैं। इसके लिए किसी कोडिंग की आवश्यकता नहीं है।

‘डेटा माइनर’ एक्सटेंशन का उपयोग करने के निम्नलिखित फायदे भी हैं।

  • यह सुरक्षित रूप से उपयोग करने में मदद करता है। यह ऐसा व्यवहार करता है मानो आप स्वयं अपने ब्राउज़र में पेज पर क्लिक कर रहे हों।
  • यह आपको बिना किसी चिंता के स्क्रैप करने में मदद करता है। यह कोई बॉट नहीं है। इसलिए जब आप कोई प्रश्न पूछेंगे तो आपको ब्लॉक नहीं किया जाएगा।
  • यह आपके डेटा को निजी रखता है। ऐड-ऑन आपके डेटा को बेचता नहीं और न ही किसी को शेयर करता है।

पिनार दाग़ जीआईजेएन तुर्की की संपादक और कादिर हस विश्वविद्यालय में व्याख्याता हैं। वह डेटा लिटरेसी एसोसिएशन, डेटा जर्नलिज्म प्लेटफ़ॉर्म टर्की और DağMedia की सह-संस्थापक हैं। वह डेटा साक्षरता, ओपन डेटा, डेटा विज़ुअलाइज़ेशन और डेटा पत्रकारिता पर काम करती हैं। वह सिग्मा डेटा जर्नलिज्म अवार्ड्स की जूरी में है

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

Asia Focus environmental exploitation

एशिया में घटती प्रेस की स्वतंत्रता के बावजूद पर्यावरण अपराधों पर साझा पत्रकारिता कैसे हो रही है

पर्यावरण संबंधी ज़रूरी मुद्दे स्वाभाविक तौर पर देशों की सीमाओं से परे होते हैं। इसलिए अच्छी जांच के लिए विभिन्न देशों में काम करना आवश्यक है। लेकिन भाषा, दूरी, प्रेस की स्वतंत्रता से जुड़े मामलों और संसाधनों की कमी के कारण साझा पत्रकारिता काफी चुनौतीपूर्ण है। इसके बावजूद, स्थानीय स्तर पर कई महत्वपूर्ण विषयों पर खोजी पत्रकारिता के उदाहरण देखने को मिलते हैं।

Asia Focus, Kunda Dixit, Centre for Investigative Journalism - Nepal

‘प्रभाव अक्सर अवचेतन होता है’: नेपाली पत्रकारिता के अनुभवी कुंदा दीक्षित, अपने रिपोर्टिंग जीवन के उतार-चढ़ाव पर।

जीआईजेएन ने वर्ष 2016 में नेपाल की राजधानी काठमांडू में दूसरा ‘अनकवरिंग एशिया सम्मेलन’ आयोजित किया। यह सम्मेलन ऐतिहासिक था। इसे आयोजित करने वाले प्रमुख लोगों में कुंदा दीक्षित शामिल थे। लेकिन सम्मेलन शुरू होने से ठीक पहले कुछ घटनाओं का एक जटिल मोड़ आया। इसके कारण वह व्यक्तिगत रूप से सम्मेलन में शामिल नहीं हो सके। गिरफ़्तारी से बचने के लिए वह स्व-निर्वासन में चले गए।

Asia Focus main image

एशिया में खोजी पत्रकारिता : बढ़ती चुनौतियों के बीच प्रतिरोध, सहयोग और बदलाव

भारत में डिजिटल मीडिया प्लेटफॉर्म्स ने ऐसी खबरों के लिए वैकल्पिक माध्यम तैयार किए हैं, जो वाकई जनता के लिए मायने रखती हैं। जीआईजेएन की सदस्य संस्था ‘द रिपोर्टर्स कलेक्टिव’ ने अपनी खोजी रिपोर्टिंग के लिए ख्याति प्राप्त की है। इसने चुनावी बॉन्ड के जरिए भ्रष्टाचार, सरकारी योजनाओं में अनियमितताओं और कॉर्पोरेट व राजनेताओं के बीच सांठगांठ जैसे मुद्दे उजागर किए हैं। ‘द स्क्रॉल’ और ‘द वायर’ ने निगरानी, पर्यावरण उल्लंघनों और राज्य सत्ता के दुरुपयोग जैसे मुद्दों की पड़ताल की है। ‘द कारवां’ पत्रिका ने सांप्रदायिक हिंसा, न्यायपालिका और राजनीतिक भ्रष्टाचार पर गहन लेख प्रस्तुत किए हैं। ‘न्यूज़लॉन्ड्री’ ने मीडिया की भूमिका पर ही ध्यान केंद्रित किया है और मीडिया स्वामित्व के पैटर्न, दुष्प्रचार और संपादकीय स्वतंत्रता में गिरावट की जांच की है।

The megayacht Eclipse, owned by Russian oligarch Roman Abramovich. Abramovich was forced to sell his ownership stake in the English football club Chelsea after Russia invaded Urkaine in early 2022, due to the billionaire's ties to Russian President Vladimir Putin. Image: Shutterstock

अमीरों के भ्रष्टाचार के नए तरीकों पर रिपोर्टिंग कैसे करें?

यह मत सोचिए कि सरकारी जानकारी हमेशा उपलब्ध रहेगी। जिस देश में लोकतंत्र के कमजोर होने का खतरा हो, वहां आपको अपने रिकॉर्ड बनाने के लिए डेटा पत्रकारिता रणनीति का उपयोग करना चाहिए। रूस, कुछ अरब देशों और वेनेज़ुएला में ऐसे मामले देखने को मिल रहे हैं।