आलेख

विषय

पत्रकारों के लिए बहुत उपयोगी है इंटरनेट का यह वेब इंस्पेक्टर !

इस लेख को पढ़ें

Shutterstock

मीडिया संस्थानों में पत्रकार अपनी रिपोर्ट बनाते या फाइल करते समय ‘Copy ‘ या ‘Save as ‘ जैसे टूल से तो न सिर्फ भली भांति परिचित होते हैं बल्कि इनका जमकर उपयोग भी करते हैं लेकिन अधिकांश रिपोर्टर इस बात से अनभिज्ञ रहते हैं कि जिस राइट क्लिक पर उन्हें ‘Copy ‘ या ‘save as ‘ जैसे टूल मिलते हैं वहीं एक ऐसा टूल भी है जो उन्हें अनगिनत सूचनाएं और डाटा भी उपलब्ध करा सकता है। इस टूल का नाम है ‘इंस्पेक्ट एलिमेंट’ “inspect element”

वेब-पेज के किसी भी हिस्से पर राइट-क्लिक करें। एक मेनू खुलेगा। इसके सबसे नीचे  ‘inspect’ लिखा होगा। यह ‘वेब इंस्पेक्टर‘ web inspector tool बहुत उपयोगी है। आइए, जानते हैं कि इसका उपयोग कर किस तरह पत्रकार अनगिनत छुपी हुई सूचनाएं और डेटा निकाल सकते हैं।

इस web inspector tool (‘वेब इंस्पेक्टर‘ टूल) का अभी बेहद कम उपयोग किया जा रहा है। जबकि यह किसी वेबसाइट के ‘सोर्स-कोड‘ में छिपी हुई जानकारी का खजाना निकाल सकता है। यह किसी ग्राफिक्स का कच्चा डेटा भी निकाल सकता है। यह उन तस्वीरों और वीडियो को डाउनलोड भी कर सकता है, जिनके बारे में हमें लगता है कि इन्हें ‘सेव‘ नहीं किया जा सकता।

‘वेब इंस्पेक्टर‘ टूल और HTML basics (एचटीएमएल बेसिक्स) की सामान्य समझ हो तो पत्रकार किसी भी वेब-पेज से डेटा स्क्रैप कर सकता है। इसके लिए कंप्यूटर विज्ञान में पारंगत होने की आवश्यकता भी नहीं है।

खोजी पत्रकारों और संपादकों के वार्षिक सम्मेलन आईआरई-21 में इस पर उपयोगी जानकारी शेयर की गई थी। मीडिया शिक्षक एवं पत्रकार सामंथा सुन्ने द्वारा यह प्रस्तुति की गई। इसमें पत्रकारों के लिए दो सरल टूल्स की जानकारी दी गई- वेब इंस्पेक्टर और गूगल शीट्स। इनका उपयोग करके पत्रकार किसी भी वेब पेज से डेटा को निकालकर विश्लेषण कर सकते हैं। जिन पत्रकारों को कोडिंग की जानकारी नहीं हो, वे भी इन दोनों टूल्स का उपयोग बेहद आसानी से कर सकते हैं।

किसी वेब-पेज से डेटा निकालने और उसका विश्लेषण करने के लिए इन दोनों उपकरणों का उपयोग करने के पांच तरीके यहां प्रस्तुत हैं।

1. लिंक, फोटो और एम्बेडेड सामग्री निकालने के लिए वेबसाइट के ‘सोर्स कोड‘ को ‘इंस्पेक्ट‘ करें।

प्रत्येक ब्राउजर के डेवलपर टूल या डेवलप टैब में ‘वेब इंस्पेक्टर‘ का एक संस्करण प्रदान किया जाता है। ‘सोर्स कोड‘ को ब्राउजर द्वारा पढ़ा जाता है। इसी कोड से वेबपेज बनता है और उसे उपयोगकर्ता को दिखाया जाता है।

पत्रकार सामंथा सुन्ने अपने ट्यूटोरियल (Tutorial) में विभिन्न ब्राउजरों पर निरीक्षण उपकरण के प्रकट होने के तरीकों के बारे में विस्तार से बताती हैं। जैसे, सफारी में आप किसी पेज के जिस क्षेत्र का निरीक्षण करना चाहते हैं, वहां राइट क्लिक करके ‘इंस्पेक्ट एलीमेंट‘ चुनें। ऐसा करने पर आप किसी भी हाइपरलिंक और वेब पेज में एम्बेड की गई अन्य सामग्री के स्रोत का पता लगा सकते हैं। आप किसी पेज पर किसी फोटो या सामग्री का वर्णन करने के लिए उपयोग किए गए वैकल्पिक पाठ को भी पढ़ सकेंगे। साथ ही, फोटो कैप्शन तथा उसमें मौजूद लोगों के नाम, फोटो लिए जाने के स्थान सहित अन्य काफी जानकारी मिल सकती है।

एम्बेड किए गए फोटो (<img src=”url”>) और लिंक (<a href=”url”>) की पहचान करने वाले कोड को खोजने के लिए आप एचटीएमएल रेफ्रेंस गाइड HTML reference guide देख सकते हैं।

2. किसी वेबसाइट और इंस्टाग्राम से फोटो और वीडियो ‘सेव’ करें।

सामंथा सुन्ने के अनुसार जिन फाइलों की खोज मुश्किल हो, उसके लिए ‘वेब इंस्पेक्टर‘ काफी उपयोगी है। इसके द्वारा मूल फाइलों को भी पुनर्प्राप्त किया जा सकता है। यहां तक कि इंस्टाग्राम से भी, जिसमें किसी फोटो या वीडियो को निकालने की सुविधा नहीं है। इसके लिए सिर्फ तीन आसान कदम उठाने होंगे-

  • सबसे पहले, जिस फोटो या वीडियो को आप डाउनलोड करना चाहते हैं, उस पर राइट क्लिक करके ‘इंस्पेक्ट‘  (“Inspect.”) चुनें। फिर ‘कंट्रोल‘ या ‘कमांड प्लस एफ‘ (control or command + F) के जरिए पेज सर्च करें। इसमें वीडियो टैग “<video>” की तलाश करें। यह वीडियो के सोर्स कोड को ब्रैकेट करेगा।
  • इसके बाद ‘वेब इंस्पेक्टर‘ स्वचालित रूप से उन सभी मामलों की पहचान करेगा, जिनके ‘सोर्स कोड में वीडियो “<video>” दिखाई देता है। फिर, “src=” से पहले सोर्स लिंक खोजने के लिए हाइलाइट किए गए लिंक पर होवर करें। या, सभी इमेज/टैग के माध्यम से आगे बढ़ें।
  • अंत में, एक अलग ब्राउजर टैब में फोटो या वीडियो को खोलने के लिए सोर्स लिंक पर क्लिक करें और इसे एक साधारण राइट क्लिक के साथ डाउनलोड करें।

3. स्वचालित रूप से अपडेट होने वाली स्प्रेडशीट में डेटा एकत्र करें।

अपनी जांच के लिए आप महत्वपूर्ण डेटासेट तक पहुंच चुके हैं। लेकिन यह एक वेब-पेज में है। इस डेटा को स्प्रेडशीट के रूप में डाउनलोड करने के लिए आप क्या करेंगे?

सामंथा सुन्ने के अनुसार ‘वेब-पेज‘ से आप किसी भी सामग्री को कॉपी-पेस्ट कर सकते हैं। लेकिन एक पत्रकार के लिए इतना करना ही पर्याप्त नहीं है। यह जानकारी अपडेट नहीं रहेगी, या आपको अतिरिक्त जानकारी नहीं दिखाएगी। उन लिंक्स के जरिए किन वेबसाइटों तक पहुँचा जा सकता है, यह जानना आपके लिए काफी उपयोगी होगा।

इस मामले में भी ‘वेब इंस्पेक्टर‘ काम आता है। इसके जरिए आप वेब-पेज पर संग्रहित डेटा के प्रकार की पहचान कर सकते हैं। आप उस डेटा को गूगल शीट में आयात भी कर सकते हैं। इसके अलावा, विभिन्न तरीकों से इसका विश्लेषण या चित्रण भी कर सकते हैं।

नीचे प्रस्तुत उदाहरण देखें। हमने ‘यूरोपियन सेंटर फॉर डिजीज प्रिवेंशन एंड कंट्रोल‘ से कोविड-19 संबंधी डेटा के लिए ‘वेब इंस्पेक्टर‘ का उपयोग किया।European Centre for Disease Prevention and Control.

इस वेबसाइट की तालिका को पुनः प्राप्त करने के लिए हमने निम्नांकित कदम उठाए:

  • तालिका या अन्य डेटा सेट के जिन हिस्सों को हम कॉपी करना चाहते थे, उन पर राइट-क्लिक करके ‘इंस्पेक्ट‘ का चयन किया। इसके जरिए यह पता लगाया कि यह किस प्रकार का एचटीएमएल एलीमेंट है। सामान्य एलीमेंट थे- ‘टेबल‘ (“table”), बुलेट सूचियां (”यूएल”) (“ul”), और लिंक (”ए”) (“a”)।
  • ‘वेब इंस्पेक्टर‘ उस वेब पेज के तत्वों (एलीमेंट्स) को हाइलाइट करता है और संबंधित सोर्स कोड दिखाता है। इस प्रकार हम इस तालिका जैसे एचटीएमएल तत्वों की पहचान कर सकते हैं।
  • नई गूगल शीट में निम्नांकित सूत्र के प्रारूप में उस तत्व को भरें, जिसे आप निकालना चाहते हैं। जैसे, इस मामले में- ‘तालिका‘ या ‘टेबल‘। यदि आपके द्वारा स्क्रैप किए जा रहे पृष्ठ पर केवल एक ‘तालिका‘ है, तो आईडी ‘0‘ यानी शून्य होगी। यदि दो तालिका हैं, तो दूसरी तालिका की आईडी ‘1‘ होगी। इसी तरह आगे का क्रम भी जारी रहेगा।

=ImportHTML(“url”,“table”,”ID”)

  • जब आप =ImportHTML सूत्र भरते हैं, तो गूगल शीट आपको एक उदाहरण और स्पष्टीकरण प्रदान करता है कि सूत्र कैसे कार्य करता है और यह किस प्रकार का डेटा पुनर्प्राप्त कर सकता है।

=ImportHTML(“https://www.ecdc.europa.eu/en/geographical-distribution-2019-ncov-cases”,“table”,0)

  • गूगल शीट स्वचालित रूप से स्प्रैडशीट को वेब पेज से स्क्रैप किए गए डेटा से भर देगा। फिर आप अपनी आवश्यकतानुसार डेटा को व्यवस्थित, फिल्टर और विजुअलाइज कर सकते हैं।

यह सूत्र HTML element table एचटीएमएल तत्व ‘तालिका‘ की तलाश के लिए सोर्स कोड का उपयोग करता है। Scraping without Programming प्रोग्रामिंग के बगैर स्क्रैपिंग पर अपने ट्यूटोरियल में सामंथा सुन्ने ने विस्तार से इन चीजों पर बताया।

4. केवल एक विशिष्ट प्रकार का डेटा निकालें

किसी तालिका या पृष्ठ के सभी डेटा को डाउनलोड करना आपकी जांच में उपयोगी हो सकता है। लेकिन अगर आप किसी पृष्ठ पर सभी इमेज या किसी रिपोर्ट में स्रोतों के सभी लिंक खोज रहे हैं, तो क्या करेंगे?

गूगल शीट आपको =ImportXML(“url”,”xpath_query”) सूत्र का उपयोग करके ऐसी स्क्रैपिंग भी करने देता है।

सामंथा सुन्ने के अनुसार कोई ‘एक्सपाथ‘ (XPATH) मूल रूप से एक पृष्ठ पर कुछ डेटा के पते जैसा है। यह आपको वेब-पेज पर एक साफ-सुथरी तालिका में डेटा को पुनः प्राप्त करने की अनुमति देता है। भले ही वह पूरी तरह उस प्रारूप में व्यवस्थित न हो।

सम्मेलन के दौरान पैनल चर्चा में सामंथा सुन्ने कई उपयोगी ‘एक्सपाथ‘ के उदाहरण दिखाती हैं। जैसे, किसी देश के नाम वाले सभी शीर्षकों की तलाश के लिए।

यदि आप अपनी जांच के विषय संबंधी दिलचस्प क्लिप पर नजर रखना चाहते हैं, तो आप इस सूत्र का उपयोग करके किसी भी समाचार साइट से यूआरएल और हेडलाइन भी निकाल सकते हैं-

=IMPORTXML=(“url”,”//CLASS[contains(.,”country”)]”)

=IMPORTXML(“https://www.nytimes.com/section/world”,”//h2“)  यह पेज के सभी “एच2” तत्वों को गूगल शीट में स्क्रैप कर देगा।

=IMPORTXML(“https://www.nytimes.com/section/world”,”//h2[contains(.,’China’)]”)   केवल उन एच2 तत्वों की तलाश करेगा जिनमें ‘चीन‘ शब्द शामिल है।

जैसे, हमने ‘द न्यूयॉर्क टाइम्स‘ के विश्वखंड में ‘चीन‘ शब्द वाले सभी शीर्षकों के लिए एक सूत्र का उपयोग करते हुए स्क्रैप किया।

  • आप जिस प्रकार की सामग्री या जैसा टेक्स्ट तलाश रहे हैं, उसकी पहचान करने के लिए वेबपेज को ‘इंस्पेक्ट‘ करें। जैसे- पैराग्राफ के लिए ”पी”, हेडर के लिए ”एच1”, उपशीर्षक के लिए ”एच2” इत्यादि।
  • सूत्र में वह शब्द डालें जिसे आप ढूंढ रहे हैं। जैसे, देश का नाम बदलकर जिस देश का डाटा चाहिए, उसका नाम इस सूत्र में लिखें।
  • डेटा को अपने गूगल शीट में प्रतिदिन एक बार स्वचालित रूप से लोड करें!

5. यदि आप ‘कोड‘ से डरते हैं, तो फ़्री में उपलब्ध ऐप्स का उपयोग करें

यदि इतनी बातों के बावजूद आपको एचटीएमएल सीखने में दिलचस्पी नहीं जगी है, तो आप ब्राउजर एक्सटेंशन या निःशुल्क ऐप्स का उपयोग कर सकते हैं। इनमें आपको डेटा एकत्र और व्यवस्थित करने के तरीकों पर ज्यादा स्वतंत्रता नहीं मिलेगी। लेकिन इससे आप कोड लाइन और स्प्रेडशीट फार्मूले लिखने की परेशानी से बच सकते हैं।

सामंथा सुन्ने के सुझाव इस प्रकार हैं-

  • Parsehub:  यह एक डेस्कटॉप एप्लिकेशन है जो इंटरैक्टिव सामग्री सहित किसी भी वेबसाइट से डेटा स्क्रैप करने में सक्षम है। यह जावास्क्रिप्ट या एजेएएक्स का उपयोग करके कोड किए गए पृष्ठों से डेटा निकाल लेता है। इसमें उपयोगकर्ता के अनुकूल इंटरफेस होने के कारण आपको कोडिंग ज्ञान की आवश्यकता नहीं है। यह  आपको एक्सेल और जेएसओएन पर डेटा अपलोड करने के साथ-साथ गूगल शीट्स और टेबलाऊ एनालिटिक्स प्लेटफॉर्म पर आयात करने की सुविधा देता है।
  • Outwit: अपने वेब स्क्रैपर के अलावा, आउटविट कस्टम स्क्रैपर बनाने, स्क्रैपिंग को स्वचालित करने और यहां तक कि आपके लिए डेटा निकालने के लिए सेवाएं प्रदान करता है।
  • WebScraper: यह उन लोगों के लिए एक आसान प्वाइंट-एंड-क्लिक समाधान है, जो ‘कोड‘ के साथ काम करना पसंद नहीं करते हैं। यह वेबसाइट की संरचना और उन डेटा बिंदुओं के आधार पर ‘साइट मानचित्र‘ बनाने में सक्षम है, जिन्हें आप निकालना चाहते हैं।

यह भी देखें :

स्मेरेंडा टोलोसाना, जीआइजेएन के लिए अनुवाद और साझेदारी प्रबंधन करती हैं। उन्होंने पहले मोरक्को में Thomson Reuters Foundation के लिए रिपोर्टिंग की थी। इसमें उन्होंने सरकार से असहमत लोगों के खिलाफ स्पाइवेयर के उपयोग और सोशल मीडिया पर नारीवादी आंदोलनों के उभार जैसे विषयों को कवर किया था।

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

मानव तस्करी रिपोर्टिंग टूल्स और टिप्स

मानव तस्करी की रिपोर्टिंग के दौरान कैसे रहें सुरक्षित

अपने देश में मानव तस्करी पर रिपोर्टिंग में एक अतिरिक्त जोखिम मौजूद है। आपकी खबर प्रकाशित होने के बाद एक विदेशी पत्रकार की तरह आपके पास देश छोडकर जा़ने का विकल्प नहीं है। इसलिए एनी केली ने सुझाव दिया कि आपके ऊपर ऐसे लोग हों, जो आपका समर्थन करें। आपकी खबरों को उच्चस्तरीय समर्थन मिलना महत्वपूर्ण है। ऐसी मदद पाने के लिए किसी बड़े या अंतर्राष्ट्रीय संगठन के साथ साझेदारी करना लाभदायक होगा।

रिपोर्टिंग टूल्स और टिप्स

कुछ स्टोरी आईडिया जिन्हें पत्रकार हर देश में दोहरा सकते हैं

कुछ विषय हैं, जो दुनिया के कमोबेश हर कोने में पाए जाते  हैं। जैसे, भ्रष्टाचार, अवैध कार्य, सत्ता का दुरुपयोग जैसी बातें अधिकांश देशों में मौजूद हैं। इनमें कई की कार्यप्रणाली भी लगभग एक जैसी होती हैं। इसलिए अन्य देशों के प्रमुख खोजी पत्रकारों के अनुभवों के आधार पर यहां कुछ ऐसी खोजपूर्ण खबरों के बारे में जानकारी प्रस्तुत है, जिन्हें दुनिया भर में दोहराया जा सकता है।

Supporters of far right group Golden Dawn in Greece

अति-दक्षिण चरमपंथियों की चैट पर नज़र कैसे रखें?

Junkipedia tool – ऑडियो पर नजर रखने के लिए यह एक नई दक्षता वाला टूल भी आया है। यह पत्रकारों को उग्र भाषणों को पूरा सुनने की कठिन मेहनत से भी बचा सकता  है। यह अंग्रेजी भाषा के पॉडकास्ट को स्वचालित रूप से ट्रांसक्राइब कर सकता है। साथ ही, कीवर्ड के आधार पर खोज करने में भी कारगर है।

GIJC25 Kuala Lumpur, Malaysia, November 21 - 24, 2025

जीआईजेएन की अगले वैश्विक सम्मेलन की तारीख़ के साथ वेबसाइट लॉन्च

ग्लोबल इनवेस्टिगेटिव जर्नलिज्म कांफ्रेंस यानि GIJC25  (जीआईजेसी25) शुक्रवार, 21 नवंबर से सोमवार, 24 नवंबर, 2025 तक मलेशिया की राजधानी कुआलालंपुर में आयोजित किया जाएगा।