Data mining workshop scraping website GIJC23

A data scraping workshop at GIJC23. Image: Smaranda Tolosano for GIJN

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

द्वारा पिनार दाग़ • 1 मार्च 2024

इस लेख को पढ़ें

खोजी पत्रकारों के लिए यह जानना बेहद जरूरी है कि उपयोगी डेटा कहाँ मिलेगा। उस तक कैसे पहुँचना है, यह जानना भी जरूरी है। इसके लिए आपको कोडिंग सीखने की जरूरत नहीं है। इस आलेख में बताया गया है कि कोडिंग जाने बगैर आप वेबसाइटों से उपयोगी जानकारी कैसे निकालें। इसे ‘डेटा स्क्रेपिंग’ करना कहते हैं। इसके लिए ‘डेटा माइनर’ एक उपयोगी टूल है। खोजी पत्रकार किसी डेटा का प्रभावी उपयोग करके अपनी जांच की गुणवत्ता काफी बढ़ा सकते हैं। ऐसा करके आप जनहित में बेहतर सेवा प्रदान कर सकते हैं।

पिछले 20 वर्षों में दुनिया भर में उपलब्ध डेटा की मात्रा अभूतपूर्व रूप से बढ़ती जा रही है । इंटरनेशनल डेटा कॉरपोरेशन (आईडीसी) के अनुसार वर्ष 2025 तक दुनिया का कुल डेटा की मात्रा 175 ज़ेटाबाइट्स तक पहुंच जाएगी। एक ज़ेटाबाइट का मतलब एक ट्रिलियन गीगाबाइट है। अगर कोई व्यक्ति 2025 डेटास्फेयर को डीवीडी में संग्रह करे, तो कर सकता है, तो डीवीडी की लाइन 222 बार पृथ्वी को घेर सकती है।

कुछ लोगों का आकलन है कि सिर्फ गूगल, फेसबुक, माइक्रोसॉफ्ट और अमेजन मिलकर 1200 पेटाबाइट डेटा संग्रहित करते हैं। एक पेटाबाइट का मतलब एक मिलियन गीगाबाइट डेटा है। खोजी और डेटा पत्रकार पहले की तुलना में अब काफी अधिक मात्रात्मक, गुणात्मक और श्रेणीबद्ध डेटा का उपयोग कर रहे हैं। लेकिन उपयोगी और अच्छा डेटा प्राप्त करना अभी भी पत्रकारों के लिए एक चुनौती भरा काम है। इसलिए उन्हें विभिन्न वेबसाइट से उपयोगी डेटा हासिल करने के टूल्स और तरीकों की जानकारी होना आवश्यक है।

आपकी जरूरत के अनुसार डेटा की तलाश करना बेहद मुश्किल काम है। आप जिस प्रारूप में डाटा चाहिए, वैसा संरचित डेटा मिलना मुश्किल है। संरचित या स्ट्रक्चर्ड डेटा का मतलब आपके विश्लेषण के लिए तैयार किया गया स्पष्ट रूप से परिभाषित और मानकीकृत प्रारूप में डेटा मिलना है। लेकिन वेबसाइटों में उपलब्ध डेटा के महासागर में काफी खराब या अपूर्ण डेटा है। इनमें काफी झूठ, गंदगी, और त्रुटियों की भरमार है। साथ ही, काफी डेटा भ्रामक, नकली और बिखरा हुआ मिलेगा। डेटा के इस महासागर में मौजूद अस्पष्ट डेटा से अपने काम की जानकारी निकालना अब भी काफी कठिन है। चाहे क्षेत्र कोई भी हो, हर मामले में यह समस्या मौजूद है।

इस समस्या का समाधान करने के लिए डेटा साक्षरता को बढ़ाना होगा। हमें यह समझने की ज़रूरत है कि डेटा कैसे एकत्र किया जाता है। उसकी सफाई करके कैसे सत्यापित किया जाता है। उसका विश्लेषण और उसे विज़ुअलाइज़ कैसे किया जाता है, यह भी जानना होगा। यह सब परस्पर जुड़ी प्रक्रिया है। पत्रकारों के लिए डेटा साक्षरता काफी महत्वपूर्ण है।

पत्रकारिता की सर्वमान्य प्रथा की ही तरह डेटा पत्रकारिता में भी हम सभी प्रकार के डेटा तक पहुंचने के तरीकों की तलाश करते हैं। जैसे, पीडीएफ फाइलों और वेबसाइटों पर रिकॉर्ड किए गए इंडेक्स से लेकर किसी संस्था द्वारा लीक किये गए आंकड़ों तक। भले ही ऐसे डेटा व्यवस्थित हों या न हों। इनमें से कुछ तक पहुंचना आसान है। लेकिन कई प्रकार के अन्य तक पहुंचने के लिए तकनीक की आवश्यकता होती है, जिसमें समय लगता है।

कई ऐसे उपकरण और तरीके हैं, जिनके कारण यह काम आनंददायक और सरल हो सकता है। जैसे वेबसाइटों से डेटा स्क्रैप करना। ऐसे तरीके से स्क्रैप करने का अर्थ है वेबसाइटों से विशिष्ट डेटा निकालने या कॉपी करने के लिए कंप्यूटर प्रोग्राम या सॉफ़्टवेयर का उपयोग करना। इस प्रक्रिया का उपयोग डेटा एकत्र करने या उसका विश्लेषण करने के लिए किया जा सकता है। यह मैन्युअल रूप से डेटा प्राप्त करने की तुलना में तेज़ और अधिक कुशल है।

डेटा स्क्रैपिंग के कारण पत्रकारों को निम्नलिखित लाभ हो सकते हैं:

तीव्र गति और व्यापक दायरा: डेटा स्क्रैपिंग से पत्रकारों को जल्दी और कुशलता से जानकारी इकट्ठा करने की सुविधा मिलती है। इंटरनेट पर विभिन्न स्रोतों से डेटा निकालने के कारण आपको एक व्यापक परिप्रेक्ष्य मिलता है। लिहाजा, आपको अधिक ठोस आधार पर अपनी स्टोरी लिखने में मदद मिलती है।
सत्यापन: डेटा स्क्रैपिंग से पत्रकारों को सत्यापन प्रक्रिया में मदद मिल सकती है। आप वेबसाइट पर मिली जानकारी की जांच करने और उनमें विरोधाभासों का पता लगाने के लिए डेटा की तुलना कर सकते हैं। इससे जानकारी को सत्यापित करने और उसकी विश्वसनीयता बढ़ाने में मदद मिलती है।
रुझानों और प्रवृत्तियों का पता लगाना: डेटा स्क्रैपिंग का उपयोग किसी विशेष विषय या घटना से संबंधित पैटर्न को समझने के लिए किया जा सकता है। किसी बड़े डेटासेट का विश्लेषण करके आप सोशल मीडिया या जनता की राय के रुझानों को समझ सकते हैं। इस जानकारी के आधार पर आपको ठोस खबर लिखने में मदद मिलेगी।
डेटा का विज़ुअलाइज़ेशन: डेटा स्क्रैपिंग द्वारा एकत्र किए गए डेटाको विज़ुअलाइज़ करके आप स्टोरी को अधिक प्रभावी ढंग से प्रस्तुत कर सकते हैं। ग्राफ़, चार्ट और इंटरैक्टिव विज़ुअल का उपयोग करके आप डेटा को आसानी से समझने योग्य बना सकते हैं। इस तरह पाठकों को विषय की बेहतर समझ दे सकते हैं।
गहन जांच करना सम्भव है: डेटा स्क्रैपिंग से पत्रकारों को अधिक गहन शोध करने की सुविधा मिलती है। आप किसी बड़े डेटासेट का विश्लेषण कर सकते हैं। जैसे, किसी वित्तीय डेटा में आप कंपनी के संचालन या सरकारी नीतियों की गहरी समझ प्राप्त कर सकते हैं।
न्यूज़-वैल्यू में वृद्धि: डेटा स्क्रैपिंग से काफी महत्वपूर्ण समाचार मूल्य वाली स्टोरी बन सकती है। सांख्यिकी, रुझान, जनसांख्यिकी या अन्य डेटा आपकी स्टोरी को अधिक आकर्षक बना सकते हैं।

डेटा माइनर (Data Miner ) – यह डेटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।

हालाँकि वेबसाइटों से बड़ी मात्रा में डेटा एकत्र करना उनकी उपयोग की शर्तों या कानून का उल्लंघन हो सकता है। इसलिए ब्राउज़र एक्सटेंशन या प्लग-इन का उपयोग करने से पहले वेबसाइट के उपयोग की शर्तों को ध्यान से पढ़ लें। सभी कानूनी नियमों के अनुसार कार्य करना महत्वपूर्ण है। आप जिस एक्सटेंशन का उपयोग कर रहे हैं, उसकी सेवा शर्तों की समीक्षा भी कर लें।

इस आलेख की लेखिका एवं जीआईजेएन, तुर्की की संपादक पिनार डेग – गोथेनबर्ग में GIJC23 में डेटा माइनर के उपयोग पर प्रस्तुति देते हुए। इमेज: जीआईजेएन के लिए स्मरंडा टोलोसानो

‘डेटा माइनर’ का उपयोग कैसे करें?

‘डेटा माइनर’ ब्राउज़र एक्सटेंशन का उपयोग करके एक वेबसाइट को स्क्रैप करने का तरीका इस प्रकार है:

अपने ब्राउज़र में ‘डेटा माइनर’ (Data Miner) ऐड-ऑन को इंस्टॉल करें। यह ऐड-ऑन आपको गूगल क्रोम या फ़ायरफ़ॉक्स जैसे ब्राउज़रों के लिए मिल जाएंगे। अपने ब्राउज़र के ऐड-ऑन स्टोर से डेटा माइनर ऐड-ऑन ढूंढें और इंस्टॉल करें।

इमेज: स्क्रीनशॉट

कोई वेबसाइट खोलें: उस वेबसाइट को खोलें, जिससे आप डेटा स्क्रैप करना चाहते हैं। इसके बाद अपने ब्राउज़र में उसका एक्सटेंशन लॉन्च करें। दूसरे शब्दों में, अपने ब्राउज़र में एक्सटेंशन/प्लगइन्स मेनू में ‘डेटा माइनर’ खोजकर उसे खोलें। एक्सटेंशन आमतौर पर आपके ब्राउज़र के ऊपरी दाएं कोने में स्थित होता है।

इमेज: स्क्रीनशॉट

वेब स्क्रैपिंग के लिए एक नया टास्क/रेसिपी बनाएं। डेटा माइनर एक्सटेंशन में ‘माई रेसिपीज़’ नामक ऑप्शन मिलेगा। नए वेब स्क्रैपिंग के लिए इस पर क्लिक करें। डेटा निकालने की प्रक्रिया जारी रखने के लिए आपको एक कमांड स्क्रीन मिलेगी।

इमेज: स्क्रीनशॉट

वेबसाइट से डेटा स्क्रैप करने के लिए ऑप्शन सेट करें: डेटा माइनर में वेबसाइट से डेटा स्क्रैप करने के लिए कई ऑप्शन और सेटिंग्स हैं। जैसे, आप तय कर सकते हैं कि कौन सा डेटा स्क्रैप करना है। आप स्वचालित क्रियाएं सेट कर सकते हैं। जैसे पेज नेविगेशन या फॉर्म भरना।

इमेज: स्क्रीनशॉट

वेबसाइट से डेटा स्क्रैप करना शुरू करें। एक बार सेटिंग्स को अंतिम रूप देने के बाद आप डेटा माइनर एक्सटेंशन डैशबोर्ड में “स्क्रैप” बटन पर क्लिक करके डेटा स्क्रैपिंग शुरू कर सकते हैं। एक्सटेंशन वेबसाइट को क्रॉल करेगा और आपके द्वारा निर्धारित डेटा एकत्र करेगा। इस प्रक्रिया को आप इस वीडियो में भी देख सकते हैं।
डेटा को सेव या एक्सपोर्ट करें। आप स्क्रैप किए गए डेटा को सीएसवी फ़ाइल या एक्सेल स्प्रेडशीट के रूप में सेव कर सकते हैं। आप क्लिपबोर्ड फीचर का उपयोग करके स्क्रैपिंग स्क्रीन को भी कॉपी कर सकते हैं। यह समय बचाने वाली बेहद आसान सुविधा है। यदि आपका स्क्रैप किया गया डेटा दस हजार पंक्तियों से अधिक होगा, तो इसे दो अलग फ़ाइलों में डाउनलोड किया जाएगा।

इमेज: स्क्रीनशॉट

इन चरणों का पालन करके आप डेटा माइनर के जरिये एक या अधिक वेबसाइटों को डेटा स्क्रैप कर सकते हैं। आप साठ हजार से अधिक डेटा स्क्रैपिंग नियमों में से कोई भी चला सकते हैं। वेब पेज से केवल आवश्यक डेटा पाने के लिए अपनी अनुकूलित डेटा स्क्रैपिंग विधि भी बना सकते हैं। सिंगल पेज या मल्टी पेज ऑटोमेटिक स्क्रैपिंग बनाना संभव है।

ऑटोमेटिक स्क्रैपिंग के जरिये आप वेबसाइट के यूआरएल की सूची के आधार पर स्क्रैपिंग संबधी कार्य के बैच चला सकते हैं। आप 15000 से अधिक लोकप्रिय वेबसाइटों के लिए 50000 निःशुल्क, पूर्व-निर्मित क्वेरीज़ का उपयोग कर सकते हैं। आप यूआरएल को क्रॉल भी कर सकते हैं। उन्हें पेजिनेट कर सकते हैं। एक ही स्थान से एक पेज को स्क्रैप कर सकते हैं। इसके लिए किसी कोडिंग की आवश्यकता नहीं है।

‘डेटा माइनर’ एक्सटेंशन का उपयोग करने के निम्नलिखित फायदे भी हैं।

यह सुरक्षित रूप से उपयोग करने में मदद करता है। यह ऐसा व्यवहार करता है मानो आप स्वयं अपने ब्राउज़र में पेज पर क्लिक कर रहे हों।
यह आपको बिना किसी चिंता के स्क्रैप करने में मदद करता है। यह कोई बॉट नहीं है। इसलिए जब आप कोई प्रश्न पूछेंगे तो आपको ब्लॉक नहीं किया जाएगा।
यह आपके डेटा को निजी रखता है। ऐड-ऑन आपके डेटा को बेचता नहीं और न ही किसी को शेयर करता है।

पिनार दाग़ जीआईजेएन तुर्की की संपादक और कादिर हस विश्वविद्यालय में व्याख्याता हैं। वह डेटा लिटरेसी एसोसिएशन, डेटा जर्नलिज्म प्लेटफ़ॉर्म टर्की और DağMedia की सह-संस्थापक हैं। वह डेटा साक्षरता, ओपन डेटा, डेटा विज़ुअलाइज़ेशन और डेटा पत्रकारिता पर काम करती हैं। वह सिग्मा डेटा जर्नलिज्म अवार्ड्स की जूरी में है

यह कार्य लाइसेंस के अन्तर्गत है क्रिएटिव कॉमन्स एट्रिब्यूशन-नोडेरिवेटिव्स 4.0 अंतर्राष्ट्रीय लाइसेंस

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

इससे जुड़े अन्य आलेख पढ़ें:

GIJN Hindi हिंदी GIJN हिंदी कोडिंग डाटा जर्नलिज्म डेटा डेटा माइनर डेटासेट वेब स्क्रैपिंग सीएसवी फ़ाइल

आलेख पुनर्प्रकाशित करें

Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

<h2>&lsquo;डेटा माइनर&rsquo; के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?</h2> द्वारा <a href="https://gijn.org/staff-member/pinar-dag/">पिनार दाग़ </a> for Global Investigative Journalism Network &bull; 1 मार्च 2024 खोजी पत्रकारों के लिए यह जानना बेहद जरूरी है कि उपयोगी डेटा कहाँ मिलेगा। उस तक कैसे पहुँचना है, यह जानना भी जरूरी है। इसके लिए आपको कोडिंग सीखने की जरूरत नहीं है। इस आलेख में बताया गया है कि कोडिंग जाने बगैर आप वेबसाइटों से उपयोगी जानकारी कैसे निकालें। इसे 'डेटा स्क्रेपिंग' करना कहते हैं। इसके लिए 'डेटा माइनर' एक उपयोगी टूल है। खोजी पत्रकार किसी डेटा का प्रभावी उपयोग करके अपनी जांच की गुणवत्ता काफी बढ़ा सकते हैं। ऐसा करके आप जनहित में बेहतर सेवा प्रदान कर सकते हैं।<aside>'डेटा स्क्रैपिंग' से पत्रकारों को जल्दी और कुशलता से जानकारी इकट्ठा करने की सुविधा मिलती है।</aside>पिछले 20 वर्षों में दुनिया भर में उपलब्ध डेटा<a href="https://seedscientific.com/how-much-data-is-created-every-day/#:~:text=Every%20day%2C%20we%20create%20roughly,rate%20will%20become%20even%20greater.">&nbsp;की मात्रा</a> अभूतपूर्व रूप से बढ़ती जा रही है । इंटरनेशनल डेटा कॉरपोरेशन (आईडीसी) के अनुसार वर्ष 2025 तक दुनिया का कुल डेटा की मात्रा <a href="https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf">175 ज़ेटाबाइट्स</a>&nbsp;तक पहुंच जाएगी। एक ज़ेटाबाइट का मतलब एक ट्रिलियन गीगाबाइट है। अगर कोई व्यक्ति 2025 डेटास्फेयर को डीवीडी में संग्रह करे, तो कर सकता है, तो डीवीडी की लाइन 222 बार पृथ्वी को घेर सकती है।कुछ लोगों का आकलन है कि सिर्फ गूगल, फेसबुक, माइक्रोसॉफ्ट और अमेजन मिलकर <a href="https://www.sciencefocus.com/future-technology/how-much-data-is-on-the-internet">1200 पेटाबाइट डेटा संग्रहित</a> करते हैं। एक पेटाबाइट का मतलब एक मिलियन गीगाबाइट डेटा है। खोजी और डेटा पत्रकार पहले की तुलना में अब काफी अधिक <a href="https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5958489/">मात्रात्मक, गुणात्मक और श्रेणीबद्ध डेटा</a> का उपयोग कर रहे हैं। लेकिन उपयोगी और अच्छा डेटा प्राप्त करना अभी भी पत्रकारों के लिए एक चुनौती भरा काम है। इसलिए उन्हें विभिन्न वेबसाइट से उपयोगी डेटा हासिल करने के टूल्स और तरीकों की जानकारी होना आवश्यक है।आपकी जरूरत के अनुसार डेटा की तलाश करना बेहद मुश्किल काम है। आप जिस प्रारूप में डाटा चाहिए, वैसा <a href="https://5stardata.info/en/">संरचित डेटा</a> मिलना मुश्किल है। संरचित या स्ट्रक्चर्ड डेटा का मतलब आपके विश्लेषण के लिए तैयार किया गया स्पष्ट रूप से परिभाषित और मानकीकृत प्रारूप में डेटा मिलना है। लेकिन वेबसाइटों में उपलब्ध डेटा के महासागर में काफी खराब या अपूर्ण डेटा है। इनमें काफी <a href="https://en.wikipedia.org/wiki/Dirty_data">झूठ, गंदगी, और त्रुटियों</a> &nbsp;की भरमार है। साथ ही, काफी डेटा<a href="https://math.scholastic.com/issues/2017-18/092517/fake-news-fake-data.html">&nbsp;भ्रामक, नकली</a>&nbsp;और <a href="https://github.com/Quartz/bad-data-guide#aggregations-were-computed-on-missing-values">बिखरा हुआ</a> मिलेगा। डेटा के इस महासागर में मौजूद अस्पष्ट डेटा से अपने काम की जानकारी निकालना अब भी काफी कठिन है। चाहे क्षेत्र कोई भी हो, हर मामले में यह समस्या मौजूद है।इस समस्या का समाधान करने के लिए डेटा साक्षरता को बढ़ाना होगा। हमें यह समझने की ज़रूरत है कि डेटा कैसे एकत्र किया जाता है। उसकी सफाई करके कैसे सत्यापित किया जाता है। उसका विश्लेषण और उसे विज़ुअलाइज़ कैसे किया जाता है, यह भी जानना होगा। यह सब परस्पर जुड़ी प्रक्रिया है। पत्रकारों के लिए डेटा साक्षरता काफी महत्वपूर्ण है।पत्रकारिता की सर्वमान्य प्रथा की ही तरह डेटा पत्रकारिता में भी हम सभी प्रकार के डेटा तक पहुंचने के तरीकों की तलाश करते हैं। जैसे, पीडीएफ फाइलों और वेबसाइटों पर रिकॉर्ड किए गए इंडेक्स से लेकर किसी संस्था द्वारा लीक किये गए आंकड़ों तक। भले ही ऐसे डेटा व्यवस्थित हों या न हों। इनमें से कुछ तक पहुंचना आसान है। लेकिन कई प्रकार के अन्य तक पहुंचने के लिए तकनीक की आवश्यकता होती है, जिसमें समय लगता है।<aside>खोजी और डेटा पत्रकार अब पहले की तुलना में काफी अधिक मात्रात्मक, गुणात्मक और श्रेणीबद्ध डेटा का उपयोग कर रहे हैं। लेकिन अच्छा डेटा प्राप्त करना अब भी एक चुनौतीपूर्ण काम है।</aside>कई ऐसे उपकरण और तरीके हैं, जिनके कारण यह काम आनंददायक और सरल हो सकता है। जैसे वेबसाइटों से डेटा स्क्रैप करना। ऐसे तरीके से स्क्रैप करने का अर्थ है वेबसाइटों से विशिष्ट डेटा निकालने या कॉपी करने के लिए कंप्यूटर प्रोग्राम या सॉफ़्टवेयर का उपयोग करना। इस प्रक्रिया का उपयोग डेटा एकत्र करने या उसका विश्लेषण करने के लिए किया जा सकता है। यह मैन्युअल रूप से डेटा प्राप्त करने की तुलना में तेज़ और अधिक कुशल है।डेटा स्क्रैपिंग के कारण पत्रकारों को निम्नलिखित लाभ हो सकते हैं:<ol>
<li>तीव्र गति और व्यापक दायरा: डेटा स्क्रैपिंग से पत्रकारों को जल्दी और कुशलता से जानकारी इकट्ठा करने की सुविधा मिलती है। इंटरनेट पर विभिन्न स्रोतों से डेटा निकालने के कारण आपको एक व्यापक परिप्रेक्ष्य मिलता है। लिहाजा, आपको अधिक ठोस आधार पर अपनी स्टोरी लिखने में मदद मिलती है।</li>
<li>सत्यापन: डेटा स्क्रैपिंग से पत्रकारों को सत्यापन प्रक्रिया में मदद मिल सकती है। आप वेबसाइट पर मिली जानकारी की जांच करने और उनमें विरोधाभासों का पता लगाने के लिए डेटा की तुलना कर सकते हैं। इससे जानकारी को सत्यापित करने और उसकी विश्वसनीयता बढ़ाने में मदद मिलती है।</li>
<li>रुझानों और प्रवृत्तियों का पता लगाना: डेटा स्क्रैपिंग का उपयोग किसी विशेष विषय या घटना से संबंधित पैटर्न को समझने के लिए किया जा सकता है। किसी बड़े डेटासेट का विश्लेषण करके आप सोशल मीडिया या जनता की राय के रुझानों को समझ सकते हैं। इस जानकारी के आधार पर आपको ठोस खबर लिखने में मदद मिलेगी।</li>
<li>डेटा का विज़ुअलाइज़ेशन: डेटा स्क्रैपिंग द्वारा एकत्र किए गए डेटाको विज़ुअलाइज़ करके आप स्टोरी को अधिक प्रभावी ढंग से प्रस्तुत कर सकते हैं। ग्राफ़, चार्ट और इंटरैक्टिव विज़ुअल का उपयोग करके आप डेटा को आसानी से समझने योग्य बना सकते हैं। इस तरह पाठकों को विषय की बेहतर समझ दे सकते हैं।</li>
<li>गहन जांच करना सम्भव है: डेटा स्क्रैपिंग से पत्रकारों को अधिक गहन शोध करने की सुविधा मिलती है। आप किसी बड़े डेटासेट का विश्लेषण कर सकते हैं। जैसे, किसी वित्तीय डेटा में आप कंपनी के संचालन या सरकारी नीतियों की गहरी समझ प्राप्त कर सकते हैं।</li>
<li>न्यूज़-वैल्यू में वृद्धि: डेटा स्क्रैपिंग से काफी महत्वपूर्ण समाचार मूल्य वाली स्टोरी बन सकती है। सांख्यिकी, रुझान, जनसांख्यिकी या अन्य डेटा आपकी स्टोरी को अधिक आकर्षक बना सकते हैं।</li>
</ol><a href="https://dataminer.io/">डेटा माइनर</a> (<a href="https://dataminer.io/">Data Miner</a> ) - यह डेटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।हालाँकि वेबसाइटों से बड़ी मात्रा में डेटा एकत्र करना उनकी उपयोग की शर्तों या कानून का उल्लंघन हो सकता है। इसलिए ब्राउज़र एक्सटेंशन या प्लग-इन का उपयोग करने से पहले वेबसाइट के उपयोग की शर्तों को ध्यान से पढ़ लें। सभी कानूनी नियमों के अनुसार कार्य करना महत्वपूर्ण है। आप जिस एक्सटेंशन का उपयोग कर रहे हैं, उसकी <a href="https://dataminer.io/tos">सेवा शर्तों</a>&nbsp;की समीक्षा भी कर लें।<h4>'डेटा माइनर' का उपयोग कैसे करें?</h4>'डेटा माइनर' ब्राउज़र एक्सटेंशन का उपयोग करके एक वेबसाइट को स्क्रैप करने का तरीका इस प्रकार है:<ol>
<li>अपने ब्राउज़र में 'डेटा माइनर' (<a href="https://dataminer.io/">Data Miner</a>) ऐड-ऑन को इंस्टॉल करें। यह ऐड-ऑन आपको गूगल क्रोम या फ़ायरफ़ॉक्स जैसे ब्राउज़रों के लिए मिल जाएंगे। अपने ब्राउज़र के ऐड-ऑन स्टोर से डेटा माइनर ऐड-ऑन ढूंढें और इंस्टॉल करें।</li>
</ol><ol start="2">
<li>कोई वेबसाइट खोलें: उस वेबसाइट को खोलें, जिससे आप डेटा स्क्रैप करना चाहते हैं। इसके बाद अपने ब्राउज़र में उसका एक्सटेंशन लॉन्च करें। दूसरे शब्दों में, अपने ब्राउज़र में एक्सटेंशन/प्लगइन्स मेनू में 'डेटा माइनर' खोजकर उसे खोलें। एक्सटेंशन आमतौर पर आपके ब्राउज़र के ऊपरी दाएं कोने में स्थित होता है।</li>
</ol><ol start="3">
<li>वेब स्क्रैपिंग के लिए एक नया टास्क/रेसिपी बनाएं। डेटा माइनर एक्सटेंशन में 'माई रेसिपीज़' नामक ऑप्शन मिलेगा। नए वेब स्क्रैपिंग के लिए इस पर क्लिक करें। डेटा निकालने की प्रक्रिया जारी रखने के लिए आपको एक कमांड स्क्रीन मिलेगी।</li>
</ol><ol start="4">
<li>वेबसाइट से डेटा स्क्रैप करने के लिए ऑप्शन सेट करें: डेटा माइनर में वेबसाइट से डेटा स्क्रैप करने के लिए कई ऑप्शन और सेटिंग्स हैं। जैसे, आप तय कर सकते हैं कि कौन सा डेटा स्क्रैप करना है। आप स्वचालित क्रियाएं सेट कर सकते हैं। जैसे पेज नेविगेशन या फॉर्म भरना।</li>
</ol><ol start="5">
<li>वेबसाइट से डेटा स्क्रैप करना शुरू करें। एक बार सेटिंग्स को अंतिम रूप देने के बाद आप डेटा माइनर एक्सटेंशन डैशबोर्ड में "स्क्रैप" बटन पर क्लिक करके डेटा स्क्रैपिंग शुरू कर सकते हैं। एक्सटेंशन वेबसाइट को क्रॉल करेगा और आपके द्वारा निर्धारित डेटा एकत्र करेगा। इस प्रक्रिया को आप <a href="https://www.youtube.com/watch?v=rjuuVdebWiY">इस वीडियो</a>&nbsp;में भी देख सकते हैं।<img class="aligncenter size-full wp-image-1360120" src="https://gijn.org/wp-content/uploads/2024/03/4a-771x413-1.png" alt="" width="771" height="413"></li>
<li>डेटा को सेव या एक्सपोर्ट करें। आप स्क्रैप किए गए डेटा को सीएसवी फ़ाइल या एक्सेल स्प्रेडशीट के रूप में सेव कर सकते हैं। आप क्लिपबोर्ड फीचर का उपयोग करके स्क्रैपिंग स्क्रीन को भी कॉपी कर सकते हैं। यह समय बचाने वाली बेहद आसान सुविधा है। यदि आपका स्क्रैप किया गया डेटा दस हजार पंक्तियों से अधिक होगा, तो इसे दो अलग फ़ाइलों में डाउनलोड किया जाएगा।</li>
</ol>इन चरणों का पालन करके आप डेटा माइनर के जरिये एक या अधिक वेबसाइटों को डेटा स्क्रैप कर सकते हैं। आप साठ हजार से अधिक डेटा स्क्रैपिंग नियमों में से कोई भी चला सकते हैं। वेब पेज से केवल आवश्यक डेटा पाने के लिए अपनी अनुकूलित डेटा स्क्रैपिंग विधि भी बना सकते हैं। सिंगल पेज या मल्टी पेज <a href="https://dataminer.io/features">ऑटोमेटिक स्क्रैपिंग</a>&nbsp;बनाना संभव है।ऑटोमेटिक स्क्रैपिंग के जरिये आप वेबसाइट के यूआरएल की सूची के आधार पर स्क्रैपिंग संबधी कार्य के बैच चला सकते हैं। आप 15000 से अधिक लोकप्रिय वेबसाइटों के लिए 50000 निःशुल्क, पूर्व-निर्मित क्वेरीज़ का उपयोग कर सकते हैं। आप यूआरएल को क्रॉल भी कर सकते हैं। उन्हें पेजिनेट कर सकते हैं। एक ही स्थान से एक पेज को स्क्रैप कर सकते हैं। इसके लिए किसी कोडिंग की आवश्यकता नहीं है।'डेटा माइनर' एक्सटेंशन का उपयोग करने के निम्नलिखित फायदे भी हैं।<ul>
<li>यह सुरक्षित रूप से उपयोग करने में मदद करता है। यह ऐसा व्यवहार करता है मानो आप स्वयं अपने ब्राउज़र में पेज पर क्लिक कर रहे हों।</li>
<li>यह आपको बिना किसी चिंता के स्क्रैप करने में मदद करता है। यह कोई बॉट नहीं है। इसलिए जब आप कोई प्रश्न पूछेंगे तो आपको ब्लॉक नहीं किया जाएगा।</li>
<li>यह आपके डेटा को निजी रखता है। ऐड-ऑन आपके डेटा को बेचता नहीं और न ही किसी को शेयर करता है।</li>
</ul><hr><a href="https://gijn.org/about/staff-member/pinar-dag/"><img class="alignleft size-thumbnail wp-image-1176064" src="https://gijn.org/wp-content/uploads/2021/02/Pinar-e1671732851826-140x140.png" alt="" width="140" height="140">पिनार दाग़</a> जीआईजेएन तुर्की की संपादक और <a href="https://twitter.com/khasedutr">कादिर हस विश्वविद्यालय</a> में व्याख्याता हैं। वह डेटा<a href="https://www.voyd.org.tr/">&nbsp;लिटरेसी एसोसिएशन</a>, डेटा<a href="http://www.verigazeteciligi.com/">&nbsp;जर्नलिज्म प्लेटफ़ॉर्म टर्की </a>और <a href="https://twitter.com/Dagmedyanet">DağMedia</a> की सह-संस्थापक हैं। वह डेटा साक्षरता, ओपन डेटा, डेटा विज़ुअलाइज़ेशन और डेटा पत्रकारिता पर काम करती हैं। वह <a href="https://sigmaawards.org/about/">सिग्मा डेटा जर्नलिज्म अवार्ड्स</a> की जूरी में है
	This <a target="_blank" href="https://gijn.org/hi/sansadhan/data-mainara-ke-jarie-vebasaitom-se-upayogi-deta-kaise-nikalem/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

अगला पढ़ें

A reporter holding a magnifying glass peers out of the Indian flag.

सदस्यों के बारे में

कठिन सवाल, निर्भीक पत्रकारिता: ‘द रिपोर्टर्स कलेक्टिव’

द्वारा रक्षा कुमार • 15 अक्टूबर 2025

आज ‘द रिपोर्टर्स कलेक्टिव’ में छह पूर्णकालिक कर्मचारी कार्यरत हैं। स्वतंत्र पत्रकारों का एक अच्छा नेटवर्क है। यह हर महीने दो से तीन लंबी जांच-पड़ताल पर ध्यान केंद्रित करता है। इसकी कार्यप्रणाली ‘मितव्ययी’ है। यह पूरी तरह से पाठकों द्वारा वित्त पोषित है। यह उनके दान पर निर्भर है। नितिन सेठी कहते हैं- “पहले दिन से ही हमारी 85% राशि का उपयोग खबरों के उत्पादन में लग रहा है।”

An illustration shows the shadows of four reporters in the choppy seas of data journalism, making their way towards a lighthouse.

एशिया में डेटा पत्रकारिता : मीडिया, समुदाय और साक्ष्यों के नए रिश्ते

द्वारा रेचल चित्रा • 15 अक्टूबर 2025

इंडिया-स्पेंड धीमे और धैर्यपूर्ण डेटा कार्य की ताकत को दर्शाता है। लेकिन एल्गोरिदम की गति डेटा पत्रकारिता में एक कमज़ोर बिंदु को उजागर करती है। रॉयटर्स 2025 फ़ेलो और बूम लाइव की उप-संपादक, करेन रेबेलो कहती हैं – “एल्गोरिदम के सामाजिक प्रभाव पर अधिकांश डेटा-संचालित शोध अनुदान-वित्त पोषित हैं। मुख्यधारा के समाचार संस्थान इसमें कोई निवेश नहीं कर रहे हैं।”

एशिया : सरकारी खजाने की लूट पर साझा खोजी पत्रकारिता

द्वारा शेर खाशिमोव • 13 अक्टूबर 2025

एक समय किर्गिज़स्तान की गिनती मध्य एशिया के सबसे लोकतांत्रिक गणराज्यों में होती थी। यहां वास्तविक चुनाव होते थे। एक सशक्त नागरिक समाज और एक जीवंत मीडिया परिदृश्य था। लेकिन एक लोकलुभावन और निरंकुश राष्ट्रपति के शासन में कई स्वतंत्र मीडिया संस्थानों पर भारी दबाव हैं।

एशिया में घटती प्रेस की स्वतंत्रता के बावजूद पर्यावरण अपराधों पर साझा पत्रकारिता कैसे हो रही है

द्वारा नितिन कोका • 10 अक्टूबर 2025

पर्यावरण संबंधी ज़रूरी मुद्दे स्वाभाविक तौर पर देशों की सीमाओं से परे होते हैं। इसलिए अच्छी जांच के लिए विभिन्न देशों में काम करना आवश्यक है। लेकिन भाषा, दूरी, प्रेस की स्वतंत्रता से जुड़े मामलों और संसाधनों की कमी के कारण साझा पत्रकारिता काफी चुनौतीपूर्ण है। इसके बावजूद, स्थानीय स्तर पर कई महत्वपूर्ण विषयों पर खोजी पत्रकारिता के उदाहरण देखने को मिलते हैं।

सुगमता सेटिंग्स

टेक्स्ट साइज

रंगों का चुनाव

पाठन टूल्स

अन्य

संसाधन

आलेख

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

इस लेख को पढ़ें

‘डेटा माइनर’ का उपयोग कैसे करें?

इससे जुड़े अन्य आलेख पढ़ें:

आलेख पुनर्प्रकाशित करें

अगला पढ़ें

सदस्यों के बारे में

कठिन सवाल, निर्भीक पत्रकारिता: ‘द रिपोर्टर्स कलेक्टिव’

एशिया में डेटा पत्रकारिता : मीडिया, समुदाय और साक्ष्यों के नए रिश्ते

एशिया : सरकारी खजाने की लूट पर साझा खोजी पत्रकारिता

एशिया में घटती प्रेस की स्वतंत्रता के बावजूद पर्यावरण अपराधों पर साझा पत्रकारिता कैसे हो रही है

संसाधन

आलेख

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

इस लेख को पढ़ें

संबंधित संसाधन

AI का उपयोग करके तैयार किए गए लेख का पता कैसे लगाएं

सोशल मीडिया एल्गोरिदम की जांच कैसे करें

भूमि संबंधी विवादों पर खोजी ख़बरें लिखने के लिए गाइड

जातिगत भेदभाव पर रिपोर्टिंग कैसे करें?

शेयर

‘डेटा माइनर’ का उपयोग कैसे करें?

संबंधित संसाधन

AI का उपयोग करके तैयार किए गए लेख का पता कैसे लगाएं

सोशल मीडिया एल्गोरिदम की जांच कैसे करें

भूमि संबंधी विवादों पर खोजी ख़बरें लिखने के लिए गाइड

जातिगत भेदभाव पर रिपोर्टिंग कैसे करें?

संबंधित आलेख

कठिन सवाल, निर्भीक पत्रकारिता: ‘द रिपोर्टर्स कलेक्टिव’

एशिया में डेटा पत्रकारिता : मीडिया, समुदाय और साक्ष्यों के नए रिश्ते

एशिया : सरकारी खजाने की लूट पर साझा खोजी पत्रकारिता

एशिया में घटती प्रेस की स्वतंत्रता के बावजूद पर्यावरण अपराधों पर साझा पत्रकारिता कैसे हो रही है

इससे जुड़े अन्य आलेख पढ़ें:

आलेख पुनर्प्रकाशित करें

अगला पढ़ें

सदस्यों के बारे में

कठिन सवाल, निर्भीक पत्रकारिता: ‘द रिपोर्टर्स कलेक्टिव’

एशिया में डेटा पत्रकारिता : मीडिया, समुदाय और साक्ष्यों के नए रिश्ते

एशिया : सरकारी खजाने की लूट पर साझा खोजी पत्रकारिता

एशिया में घटती प्रेस की स्वतंत्रता के बावजूद पर्यावरण अपराधों पर साझा पत्रकारिता कैसे हो रही है