Data mining workshop scraping website GIJC23
Data mining workshop scraping website GIJC23

A data scraping workshop at GIJC23. Image: Smaranda Tolosano for GIJN

संसाधन

» टिपशीट

आलेख

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

इस लेख को पढ़ें

खोजी पत्रकारों के लिए यह जानना बेहद जरूरी है कि उपयोगी डेटा कहाँ मिलेगा। उस तक कैसे पहुँचना है, यह जानना भी जरूरी है। इसके लिए आपको कोडिंग सीखने की जरूरत नहीं है। इस आलेख में बताया गया है कि कोडिंग जाने बगैर आप वेबसाइटों से उपयोगी जानकारी कैसे निकालें। इसे ‘डेटा स्क्रेपिंग’ करना कहते हैं। इसके लिए ‘डेटा माइनर’ एक उपयोगी टूल है। खोजी पत्रकार किसी डेटा का प्रभावी उपयोग करके अपनी जांच की गुणवत्ता काफी बढ़ा सकते हैं। ऐसा करके आप जनहित में बेहतर सेवा प्रदान कर सकते हैं।

पिछले 20 वर्षों में दुनिया भर में उपलब्ध डेटा की मात्रा अभूतपूर्व रूप से बढ़ती जा रही है । इंटरनेशनल डेटा कॉरपोरेशन (आईडीसी) के अनुसार वर्ष 2025 तक दुनिया का कुल डेटा की मात्रा 175 ज़ेटाबाइट्स तक पहुंच जाएगी। एक ज़ेटाबाइट का मतलब एक ट्रिलियन गीगाबाइट है। अगर कोई व्यक्ति 2025 डेटास्फेयर को डीवीडी में संग्रह करे, तो कर सकता है, तो डीवीडी की लाइन 222 बार पृथ्वी को घेर सकती है।

कुछ लोगों का आकलन है कि सिर्फ गूगल, फेसबुक, माइक्रोसॉफ्ट और अमेजन मिलकर 1200 पेटाबाइट डेटा संग्रहित करते हैं। एक पेटाबाइट का मतलब एक मिलियन गीगाबाइट डेटा है। खोजी और डेटा पत्रकार पहले की तुलना में अब काफी अधिक मात्रात्मक, गुणात्मक और श्रेणीबद्ध डेटा का उपयोग कर रहे हैं। लेकिन उपयोगी और अच्छा डेटा प्राप्त करना अभी भी पत्रकारों के लिए एक चुनौती भरा काम है। इसलिए उन्हें विभिन्न वेबसाइट से उपयोगी डेटा हासिल करने के टूल्स और तरीकों की जानकारी होना आवश्यक है।

आपकी जरूरत के अनुसार डेटा की तलाश करना बेहद मुश्किल काम है। आप जिस प्रारूप में डाटा चाहिए, वैसा संरचित डेटा मिलना मुश्किल है। संरचित या स्ट्रक्चर्ड डेटा का मतलब आपके विश्लेषण के लिए तैयार किया गया स्पष्ट रूप से परिभाषित और मानकीकृत प्रारूप में डेटा मिलना है। लेकिन वेबसाइटों में उपलब्ध डेटा के महासागर में काफी खराब या अपूर्ण डेटा है। इनमें काफी झूठ, गंदगी, और त्रुटियों  की भरमार है। साथ ही, काफी डेटा भ्रामक, नकली और बिखरा हुआ मिलेगा। डेटा के इस महासागर में मौजूद अस्पष्ट डेटा से अपने काम की जानकारी निकालना अब भी काफी कठिन है। चाहे क्षेत्र कोई भी हो, हर मामले में यह समस्या मौजूद है।

इस समस्या का समाधान करने के लिए डेटा साक्षरता को बढ़ाना होगा। हमें यह समझने की ज़रूरत है कि डेटा कैसे एकत्र किया जाता है। उसकी सफाई करके कैसे सत्यापित किया जाता है। उसका विश्लेषण और उसे विज़ुअलाइज़ कैसे किया जाता है, यह भी जानना होगा। यह सब परस्पर जुड़ी प्रक्रिया है। पत्रकारों के लिए डेटा साक्षरता काफी महत्वपूर्ण है।

पत्रकारिता की सर्वमान्य प्रथा की ही तरह डेटा पत्रकारिता में भी हम सभी प्रकार के डेटा तक पहुंचने के तरीकों की तलाश करते हैं। जैसे, पीडीएफ फाइलों और वेबसाइटों पर रिकॉर्ड किए गए इंडेक्स से लेकर किसी संस्था द्वारा लीक किये गए आंकड़ों तक। भले ही ऐसे डेटा व्यवस्थित हों या न हों। इनमें से कुछ तक पहुंचना आसान है। लेकिन कई प्रकार के अन्य तक पहुंचने के लिए तकनीक की आवश्यकता होती है, जिसमें समय लगता है।

कई ऐसे उपकरण और तरीके हैं, जिनके कारण यह काम आनंददायक और सरल हो सकता है। जैसे वेबसाइटों से डेटा स्क्रैप करना। ऐसे तरीके से स्क्रैप करने का अर्थ है वेबसाइटों से विशिष्ट डेटा निकालने या कॉपी करने के लिए कंप्यूटर प्रोग्राम या सॉफ़्टवेयर का उपयोग करना। इस प्रक्रिया का उपयोग डेटा एकत्र करने या उसका विश्लेषण करने के लिए किया जा सकता है। यह मैन्युअल रूप से डेटा प्राप्त करने की तुलना में तेज़ और अधिक कुशल है।

डेटा स्क्रैपिंग के कारण पत्रकारों को निम्नलिखित लाभ हो सकते हैं:

  1. तीव्र गति और व्यापक दायरा: डेटा स्क्रैपिंग से पत्रकारों को जल्दी और कुशलता से जानकारी इकट्ठा करने की सुविधा मिलती है। इंटरनेट पर विभिन्न स्रोतों से डेटा निकालने के कारण आपको एक व्यापक परिप्रेक्ष्य मिलता है। लिहाजा, आपको अधिक ठोस आधार पर अपनी स्टोरी लिखने में मदद मिलती है।
  2. सत्यापन: डेटा स्क्रैपिंग से पत्रकारों को सत्यापन प्रक्रिया में मदद मिल सकती है। आप वेबसाइट पर मिली जानकारी की जांच करने और उनमें विरोधाभासों का पता लगाने के लिए डेटा की तुलना कर सकते हैं। इससे जानकारी को सत्यापित करने और उसकी विश्वसनीयता बढ़ाने में मदद मिलती है।
  3. रुझानों और प्रवृत्तियों का पता लगाना: डेटा स्क्रैपिंग का उपयोग किसी विशेष विषय या घटना से संबंधित पैटर्न को समझने के लिए किया जा सकता है। किसी बड़े डेटासेट का विश्लेषण करके आप सोशल मीडिया या जनता की राय के रुझानों को समझ सकते हैं। इस जानकारी के आधार पर आपको ठोस खबर लिखने में मदद मिलेगी।
  4. डेटा का विज़ुअलाइज़ेशन: डेटा स्क्रैपिंग द्वारा एकत्र किए गए डेटाको विज़ुअलाइज़ करके आप स्टोरी को अधिक प्रभावी ढंग से प्रस्तुत कर सकते हैं। ग्राफ़, चार्ट और इंटरैक्टिव विज़ुअल का उपयोग करके आप डेटा को आसानी से समझने योग्य बना सकते हैं। इस तरह पाठकों को विषय की बेहतर समझ दे सकते हैं।
  5. गहन जांच करना सम्भव है: डेटा स्क्रैपिंग से पत्रकारों को अधिक गहन शोध करने की सुविधा मिलती है। आप किसी बड़े डेटासेट का विश्लेषण कर सकते हैं। जैसे, किसी वित्तीय डेटा में आप कंपनी के संचालन या सरकारी नीतियों की गहरी समझ प्राप्त कर सकते हैं।
  6. न्यूज़-वैल्यू में वृद्धि: डेटा स्क्रैपिंग से काफी महत्वपूर्ण समाचार मूल्य वाली स्टोरी बन सकती है। सांख्यिकी, रुझान, जनसांख्यिकी या अन्य डेटा आपकी स्टोरी को अधिक आकर्षक बना सकते हैं।

डेटा माइनर (Data Miner ) – यह डेटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।

हालाँकि वेबसाइटों से बड़ी मात्रा में डेटा एकत्र करना उनकी उपयोग की शर्तों या कानून का उल्लंघन हो सकता है। इसलिए ब्राउज़र एक्सटेंशन या प्लग-इन का उपयोग करने से पहले वेबसाइट के उपयोग की शर्तों को ध्यान से पढ़ लें। सभी कानूनी नियमों के अनुसार कार्य करना महत्वपूर्ण है। आप जिस एक्सटेंशन का उपयोग कर रहे हैं, उसकी सेवा शर्तों की समीक्षा भी कर लें।

इस आलेख की लेखिका एवं जीआईजेएन, तुर्की की संपादक पिनार डेग – गोथेनबर्ग में GIJC23 में डेटा माइनर के उपयोग पर प्रस्तुति देते हुए। इमेज: जीआईजेएन के लिए स्मरंडा टोलोसानो

‘डेटा माइनर’ का उपयोग कैसे करें?

‘डेटा माइनर’ ब्राउज़र एक्सटेंशन का उपयोग करके एक वेबसाइट को स्क्रैप करने का तरीका इस प्रकार है:

  1. अपने ब्राउज़र में ‘डेटा माइनर’ (Data Miner) ऐड-ऑन को इंस्टॉल करें। यह ऐड-ऑन आपको गूगल क्रोम या फ़ायरफ़ॉक्स जैसे ब्राउज़रों के लिए मिल जाएंगे। अपने ब्राउज़र के ऐड-ऑन स्टोर से डेटा माइनर ऐड-ऑन ढूंढें और इंस्टॉल करें।

इमेज: स्क्रीनशॉट

  1. कोई वेबसाइट खोलें: उस वेबसाइट को खोलें, जिससे आप डेटा स्क्रैप करना चाहते हैं। इसके बाद अपने ब्राउज़र में उसका एक्सटेंशन लॉन्च करें। दूसरे शब्दों में, अपने ब्राउज़र में एक्सटेंशन/प्लगइन्स मेनू में ‘डेटा माइनर’ खोजकर उसे खोलें। एक्सटेंशन आमतौर पर आपके ब्राउज़र के ऊपरी दाएं कोने में स्थित होता है।

इमेज: स्क्रीनशॉट

  1. वेब स्क्रैपिंग के लिए एक नया टास्क/रेसिपी बनाएं। डेटा माइनर एक्सटेंशन में ‘माई रेसिपीज़’ नामक ऑप्शन मिलेगा। नए वेब स्क्रैपिंग के लिए इस पर क्लिक करें। डेटा निकालने की प्रक्रिया जारी रखने के लिए आपको एक कमांड स्क्रीन मिलेगी।

इमेज: स्क्रीनशॉट

  1. वेबसाइट से डेटा स्क्रैप करने के लिए ऑप्शन सेट करें: डेटा माइनर में वेबसाइट से डेटा स्क्रैप करने के लिए कई ऑप्शन और सेटिंग्स हैं। जैसे, आप तय कर सकते हैं कि कौन सा डेटा स्क्रैप करना है। आप स्वचालित क्रियाएं सेट कर सकते हैं। जैसे पेज नेविगेशन या फॉर्म भरना।

इमेज: स्क्रीनशॉट

  1. वेबसाइट से डेटा स्क्रैप करना शुरू करें। एक बार सेटिंग्स को अंतिम रूप देने के बाद आप डेटा माइनर एक्सटेंशन डैशबोर्ड में “स्क्रैप” बटन पर क्लिक करके डेटा स्क्रैपिंग शुरू कर सकते हैं। एक्सटेंशन वेबसाइट को क्रॉल करेगा और आपके द्वारा निर्धारित डेटा एकत्र करेगा। इस प्रक्रिया को आप इस वीडियो में भी देख सकते हैं।
  2. डेटा को सेव या एक्सपोर्ट करें। आप स्क्रैप किए गए डेटा को सीएसवी फ़ाइल या एक्सेल स्प्रेडशीट के रूप में सेव कर सकते हैं। आप क्लिपबोर्ड फीचर का उपयोग करके स्क्रैपिंग स्क्रीन को भी कॉपी कर सकते हैं। यह समय बचाने वाली बेहद आसान सुविधा है। यदि आपका स्क्रैप किया गया डेटा दस हजार पंक्तियों से अधिक होगा, तो इसे दो अलग फ़ाइलों में डाउनलोड किया जाएगा।

इमेज: स्क्रीनशॉट

इन चरणों का पालन करके आप डेटा माइनर के जरिये एक या अधिक वेबसाइटों को डेटा स्क्रैप कर सकते हैं। आप साठ हजार से अधिक डेटा स्क्रैपिंग नियमों में से कोई भी चला सकते हैं। वेब पेज से केवल आवश्यक डेटा पाने के लिए अपनी अनुकूलित डेटा स्क्रैपिंग विधि भी बना सकते हैं। सिंगल पेज या मल्टी पेज ऑटोमेटिक स्क्रैपिंग बनाना संभव है।

ऑटोमेटिक स्क्रैपिंग के जरिये आप वेबसाइट के यूआरएल की सूची के आधार पर स्क्रैपिंग संबधी कार्य के बैच चला सकते हैं। आप 15000 से अधिक लोकप्रिय वेबसाइटों के लिए 50000 निःशुल्क, पूर्व-निर्मित क्वेरीज़ का उपयोग कर सकते हैं। आप यूआरएल को क्रॉल भी कर सकते हैं। उन्हें पेजिनेट कर सकते हैं। एक ही स्थान से एक पेज को स्क्रैप कर सकते हैं। इसके लिए किसी कोडिंग की आवश्यकता नहीं है।

‘डेटा माइनर’ एक्सटेंशन का उपयोग करने के निम्नलिखित फायदे भी हैं।

  • यह सुरक्षित रूप से उपयोग करने में मदद करता है। यह ऐसा व्यवहार करता है मानो आप स्वयं अपने ब्राउज़र में पेज पर क्लिक कर रहे हों।
  • यह आपको बिना किसी चिंता के स्क्रैप करने में मदद करता है। यह कोई बॉट नहीं है। इसलिए जब आप कोई प्रश्न पूछेंगे तो आपको ब्लॉक नहीं किया जाएगा।
  • यह आपके डेटा को निजी रखता है। ऐड-ऑन आपके डेटा को बेचता नहीं और न ही किसी को शेयर करता है।

पिनार दाग़ जीआईजेएन तुर्की की संपादक और कादिर हस विश्वविद्यालय में व्याख्याता हैं। वह डेटा लिटरेसी एसोसिएशन, डेटा जर्नलिज्म प्लेटफ़ॉर्म टर्की और DağMedia की सह-संस्थापक हैं। वह डेटा साक्षरता, ओपन डेटा, डेटा विज़ुअलाइज़ेशन और डेटा पत्रकारिता पर काम करती हैं। वह सिग्मा डेटा जर्नलिज्म अवार्ड्स की जूरी में है

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

Investigating AI Audio Deepfakes

टिपशीट

फर्जी एआई ऑडियो की जांच कैसे करें

एडवांस्ड स्पीच डीपफेक के द्वारा बिल्कुल असली लगने वाले नकली ऑडियो बनाए जा सकते हैं। उसकी सच्चाई को उस व्यक्ति के नजदीकी दोस्त भी नहीं पहचान सकेंगे। ऐसे ऑडियो क्लिप की जांच के लिए विशेषज्ञ और नए उपकरणों की आवश्यकता होती है। अक्सर पत्रकार किसी नेता के बारे में अपने ज्ञान, रिकॉर्डिंग की खराब गुणवत्ता, संदर्भ या सामान्य सामान्य ज्ञान के आधार पर किसी ऑडियो क्लिप में किए गए फर्जीवाड़े को तुरंत पहचान लेते हैं।

ऐप्स की ‘प्राइवेसी पॉलिसी’ को कैसे समझें?

आम तौर पर अधिकांश प्राइवेसी पॉलिसी में एक पूर्व-अनुमानित संरचना का पालन किया जाता है। इसलिए आप उनकी तह तक जाने की कला सीख सकते हैं। उसके मुख्य हिस्सों का पता लगा सकते हैं। लंबा दस्तावेज होने के बावजूद केवल महत्वपूर्ण जानकारी को निकालने के लिए झपट्टा मार सकते हैं। आप कुछ सूचनाओं के संग्रह के आधार पर उससे बाहर निकलने या विकल्प चुनने के अवसर का लाभ उठा सकते हैं। अधिक गहराई तक जाने और अधिक व्यक्तिगत प्रकटीकरण से जुड़े बिंदुओं को भी बेहद कम समय में आसानी से समझ सकते हैं।

दीर्घकालिक खोजी रिपोर्टिंग को जारी रखने या रोकने का निर्णय कैसे लें?

संपादकों के अनुसार न्यूनतम स्टोरीज प्रकाशित करने का भी काफी महत्व है। ऐसी स्टोरी आने के बाद विस्सल-ब्लोअर सामने आते हैं। किसी संगठन के भीतर के लोग आकर कोई बड़ी जानकारी देते हैं। संपादकों के अनुसार ऐसी खबरें प्रकाशित करने के दौरान पारदर्शिता महत्वपूर्ण है। पाठकों को स्पष्ट रूप से बताना सुनिश्चित करें कि क्या साबित किया जा सकता है और क्या नहीं।

टिपशीट

अपना ख़ुद का न्यूज़ स्टार्टअप स्थापित करने के लिए दस टिप्स

मीडिया संगठनों में प्रबंधन संबंधी कार्यों के लिए किसी प्रोफेशनल प्रशासक के बजाय खबरों का जुनून रखने वाले पत्रकारों को रखा जाता है। जबकि एक पेशेवर प्रशासक (एडमिनिस्ट्रेटर) नियुक्त करना पहला कदम होना चाहिए।