Website code metadata analysis tool
Website code metadata analysis tool

Image: Shutterstock

आलेख

वेबसाइट सामग्री की जांच में उपयोगी है ‘इन्फॉरमेशन लॉन्ड्रोमैट’

इस लेख को पढ़ें

किसी वेबसाइट की सामग्री के विश्लेषण से कई बातों का पता चलता है। उसकी सामग्री मौलिक है, अथवा नकल पर आधारित है, इसकी जानकारी मिल सकती है। कई बेवसाइटों के आपसी संबंध क्या हैं? उनके मालिक कौन हैं? उनके द्वार किस प्रकार के विचारों का प्रसार किया जा रहा है? यह सब जानना महत्वपूर्ण है।

वेबसाइटों की जांच करना मुझे अच्छा लगता है। मैंने ‘वेरिफिकेशन हैंडबुक‘ के नए संस्करण में इस पर एक अध्याय लिखा है। मैं वेबसाइटों का आपसी रिश्ता जोड़ने तथा उनके मालिकों की पहचान का प्रयास करता हूं। उनकी सामग्री, बुनियादी ढांचे और व्यवहार का विश्लेषण करने लायक नए टूल और तरीकों की मुझे हमेशा तलाश रहती है।

वेबसाइट विश्लेषण के लिए Information Laundromat सबसे नया, दिलचस्प और मुफ्त टूल है। जॉर्ज मार्शल फंड के अलायंस फॉर सिक्योरिंग डेमोक्रेसी – (एएसडी) ने यह टूल विकसित किया है। यह सामग्री और मेटाडेटा का विश्लेषण कर सकता है। एएसडी ने अपनी ताजा रिपोर्ट- ‘द रशियन प्रोपेगैंडा नेस्टिंग डॉल : हाउ आरटी इज लेयर्ड इन द डिजिटल इंफॉर्मेशन एनवायरनमेंट‘ में इसका इस्तेमाल किया। एएसडी ने यह रिपोर्ट ‘एम्स्टर्डम विश्वविद्यालय‘ और ‘इंस्टीट्यूट फॉर स्ट्रैटेजिक डायलॉग‘ के शोधकर्ताओं के साथ मिलकर बनाई है।

इन्फॉरमेशन लॉन्ड्रोमैट दो तत्वों का विश्लेषण कर सकता है। पहला, किसी वेबसाइट पर पोस्ट की गई सामग्री। दूसरा, इसे बनाने और चलाने के लिए उपयोग किया जाने वाला मेटाडेटा। मैंने इस टूल का प्रारंभिक परीक्षण किया है। टूल के डेवलपर पीटर बेंज़ोनी का साक्षात्कार भी लिया है। इस आधार प्रस्तुत इस आलेख में मैंने बताया है कि यह टूल कैसे काम करता है।

पीटर बेंज़ोनी के अनुसार, इन्फॉरमेशन लॉन्ड्रोमैट लीड जनरेशन के लिए सबसे अच्छा काम करता है। यह आपकी जांच को स्वचालित करने वाला टूल नहीं है। यह एक ओपेन सोर्स है। यह एएसडी के GitHub account पर उपलब्ध है।

सामग्री समानता विश्लेषण

इमेज : स्क्रीनशॉट, डिजिटल जांच

यह टूल दो वेबसाइटों की सामग्री की समानता की जांच कर सकता है। यह एक समान सामग्री वाली अन्य वेब संपत्तियों की पहचान करने के लिए टेक्स्ट के लिंक, शीर्षक या स्निपेट का विश्लेषण करता है। यह एएसडी जांच में उपयोगी साबित हुआ। वे देखना चाहते थे कि रूस के सरकारी साइट ‘रसिया टुडे‘ (आरटी) की लगातार नकल कौन सी साइटें कर रही हैं। इस शोध  में उन साइटों की पहचान हुई, जो ‘रसिया टुडे‘ की सामग्री को लगातार पुनर्मुद्रित कर रही थीं। ‘रसिया टुडे‘ के नरेटिव को वेब पर प्रसारित करने और वैध बनाने वालों की भी पहचान हो गई।

यह टूल कैसे काम करता है

  • आप जिस टेक्स्ट की जांच चाहते हैं, उसके यूआरएल, शीर्षक या स्निपेट को इंटर करें।
  • सिस्टम आपकी स्रोत सामग्री और अन्य वेबसाइटों की समानता का विश्लेषण करने के लिए सर्च इंजन, कॉपीस्केप साहित्यिक चोरी चेकर टूल और जीडीईएलटी डेटाबेस (GDELT database) की मदद लेता है।
  • इस आधार पर एक परिणाम पृष्ठ आता है। यह आपके मूल स्रोत के समान सामग्री के प्रतिशत के आधार पर वेबसाइटों की सूची बनाता है।
  • मैंने एक खबर का यूआरएल डालकर खोज की। मुझे पता था कि यह किसी अन्य वेबसाइट में प्रकाशित खबर की लगभग कार्बन कॉपी है। ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ ने उसके मूल स्रोत की सही पहचान कर ली। इसमें इसे 97 प्रतिशत समानता स्कोर मिला।

इमेज: स्क्रीनशॉट, डिजिटल जांच

टूल यह भी बताता है कि यह क्या नहीं करेगा

सामग्री समानता खोज के लिए यह टूल खुले वेब पर समान लेख या टेक्स्ट को खोजने का प्रयास करता है। यह इस बात का सबूत नहीं देता कि वह टेक्स्ट कहां से उत्पन्न हुआ। दो समान टेक्स्ट पोस्ट करने वाली दो संस्थाओं के बीच कोई संबंध भी नहीं बताता। किसी टेक्स्ट की उत्पत्ति का निर्धारण यह टूल नहीं करता।

पीटर बेंज़ोनी ने सुझाव दिया कि यदि आपको बहुत सारे परिणाम मिलते हैं, तो हर चीज़ को एक्सेल के रूप में डाउनलोड कर लें। फिर पिवट टेबल के साथ इसे खुद देखें।

70 प्रतिशत या उससे अधिक समानता रेटिंग वाली साइटें या उससे अधिक की रुचि सबसे अधिक होने की संभावना है। यदि आप साइट पर पंजीकरण करते हैं तो टूल में बैच अपलोड विकल्प भी होता है।

मेटाडेटा समानता विश्लेषण

इमेज: स्क्रीनशॉट, डिजिटल जांच

जब आप वेबसाइटों के एक सेट का विश्लेषण करना चाहते हों, तो इस टूल का मेटाडेटा समानता उपकरण अच्छा काम करता है। किसी एक साइट का विश्लेषण करने में यह कम प्रभावी है।

यह कैसे काम करता है

  • आप जिन वेबसाइटों के आपसी संबंध का विश्लेषण करना चाहते हैं, उनके डोमेन का एक सेट इंटर करें।
  • यह टूल प्रत्येक डोमेन को स्कैन करता है। यह उन सभी डोमेन के आईपी पते और स्रोत कोड जैसे बुनियादी ढांचे की जांच करता है। उनके खास इंडीकेटर की तलाश करके डोमेन के बीच ओवरलैप का पता लगाता है। यह उनके आईपी पतों के लिए सीधे मिलान को भी चिह्नित करता है। यह भी देखता है कि साइटें समान आईपी रेंज में होस्ट की गई हैं। यह एक कमजोर कनेक्शन है। फिर भी ध्यान देने योग्य है। अद्वितीय विज्ञापन और विश्लेषण कोड की तलाश के साथ ही यह टूल समानताएं देखने के लिए साइट की सीएसएस फ़ाइल को स्कैन करता है। पीटर बेंज़ोनी के अनुसार, टूल को उल्लेखनीय के रूप में चिह्नित करने के लिए इसमें 90 प्रतिशत से अधिक समान सीएसएस क्लासेस होनी चाहिए। (टूल की वेबसाइट संकेतकों की पूरी सूची यहां देखें
  • मेटाडेटा पृष्ठ दो खंडों में परिणाम दिखाता है।
  • पहली लिस्ट बताती है कि प्रत्येक साइट पर कौन से संकेतक मौजूद हैं।
  • दूसरी लिस्ट सभी साइटों पर साझा संकेतकों की पहचान करती है।
  • यह उपकरण प्रत्येक संकेतक की सापेक्ष शक्ति के अनुसार प्रत्येक लिस्ट में परिणामों को भी क्रमबद्ध करता है। (इस पोस्ट के अंतिम भाग में इस पर अधिक जानकारी दी जाएगी।)

पीटर बेंज़ोनी ने कहा- “वेबसाइटों के बारे में आप जो कुछ भी बता सकते हैं, उसे निकालने का प्रयास है। इसका उपयोग साइटों को एक साथ लिंक करने में हो सकता है।“

यदि आप एनालिटिक्स और विज्ञापन कोड के माध्यम से साइटों को जोड़ना नहीं जानते, तो यह बेसिक गाइड और मेरी ताजा पोस्ट पढ़ें। पहले गाइड पढ़ना बेहतर होगा। यदि आप आईपी पते जैसे वेबसाइट के बुनियादी ढांचे से परिचित हैं और संकेतक का उपयोग करके साइटों को जोड़ना जानते हैं तो ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ का मेटाडेटा मॉड्यूल सबसे उपयोगी है। यदि आप प्रत्येक संकेतक और कनेक्शन की सापेक्ष शक्तियों और कमजोरियों को नहीं जानते, तो इसका उपयोग करने में थोड़ा जोखिम आता है। (उस पर अधिक जानकारी नीचे दी गई है।)

पीटर बेंज़ोनी के अनुसार मेटाडेटा विश्लेषण उपकरण कुछ वेबसाइटों के एक समूह के बीच कनेक्शन खोजने के लिए एक बेहतरीन प्रारंभिक बिंदु है। वेबसाइटों के किसी सेट में आप संभावित ओवरलैप का अंदाजा लगाना चाहते हैं, तो यह उसका त्वरित स्नैपशॉट लेने का एक अच्छा तरीका है। अन्य उपकरणों के एक समूह में उन्हें मैन्युअल रूप से चलाने के बजाय यह आसान है।

यदि आपके पास साइटों का एक सेट है, तो उनके बीच कनेक्शन की जांच के लिए यह एक अच्छा प्रारंभिक बिंदु है। ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ आपको संभावित कनेक्शनों की उपयोगी जानकारी देगा। फिर आप DNSlytics, BuiltWith, SpyOnWeb, जैसे अपने पसंदीदा टूल तथा डीएनएस जैसे निष्क्रिय प्लेटफ़ॉर्म का उपयोग करके गहराई से जांच कर सकते हैं।

यह टूल डोमेन के समूह पर सबसे अच्छा काम करता है। आप एकल यूआरएल का मेटाडेटा सर्च कर सकते हैं। सिस्टम के माध्यम से डीएनएस लिटिक्स जैसी जगहों पर आसान खोज के लिए एनालिटिक्स कोड जैसे संकेतक निकालने में यह उपयोगी है। आप यह भी देख सकते हैं कि क्या यूआरएल ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ डेटाबेस के लगभग 10,000 डोमेन के सेट के साथ कोई संकेतक साझा करता है। इस टूल के ‘अबाउट‘ पेज में स्रोतों की जानकारी मिलती है।

पीटर बेंज़ोनी के अनुसार यह टूल उपयोगकर्ता द्वारा इनपुट किए गए डोमेन को डेटाबेस में नहीं जोड़ता है। इसलिए यदि आप संवेदनशील डोमेन के सेट की सर्च कर रहे हैं तो यह भरोसा रखें कि टूल आपकी साइटों को ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ डेटासेट में नहीं जोड़ेगा।

तकनीकी वेबसाइट संकेतक की रैंकिंग

ऊपर बताया गया है कि इस टूल द्वारा साइट के संकेतकों की सापेक्ष शक्तियों और कमजोरियों संबंधी जानकारी को समझना महत्वपूर्ण है। अन्यथा आप उन साइटों के बीच संबंध को बढ़ा-चढ़ाकर बताने की गलती कर सकते हैं। लेकिन एक अच्छी बात यह है कि ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ का दस्तावेज़ीकरण आपको संकेतकों का उपयोगी विवरण प्रदान करता है।

जैसे, यदि कई वेबसाइटें अपनी सामग्री प्रबंधन प्रणाली के लिए ‘वर्डप्रेस‘ का उपयोग करती हैं, तो यह एक कमजोर कनेक्शन है। करोड़ों वेबसाइटें ‘वर्डप्रेस‘ का उपयोग करती हैं। यह उन वेबसाइटों का संबंध जोड़ने के लिए उपयोगी संकेत नहीं है। लेकिन यदि सभी साइटें एक ही ‘गूगल एडसेन्स कोड‘ का उपयोग करें, तो उनके बीच गहरे संबंध का पता चलता है।

आदर्श रूप से आप वेबसाइटों के एक सेट को जोड़ने वाले कई तकनीकी संकेतकों की पहचान करना चाहते हैं। ऐसे कनेक्शन की ताकत का सही आकलन करने के लिए उसे अन्य जानकारी के साथ जोड़ना जरूरी है।

विश्लेषण में सहायता के लिए यह टूल संकेतकों को तीन स्तरों में क्रमबद्ध करता है। परिणाम पृष्ठ आपको मजबूत, मध्यम या कमजोर संकेतक दिखाने के लिए ‘कलर-कोड‘ का उपयोग करता है। इसके बाद भी आपको अपना विश्लेषण करना होगा। लेकिन यह एक उपयोगी प्रारंभिक बिंदु है।

आरटी-संबंधी डोमेन का उपयोग करके एक मेटाडेटा सर्च। इमेज: स्क्रीनशॉट, डिजिटल जांच

‘इन्फॉरमेशन लॉन्ड्रोमैट‘ के दस्तावेज़ीकरण से संकेतक के तीन टियर इस प्रकार हैं –

  • टियर एक – यह आम तौर पर अद्वितीय या किसी वेबसाइट की उत्पत्ति का अत्यधिक संकेतक होते हैं। इसमें सत्यापन उद्देश्यों और गूगल, यान्डेक्स आदि जैसी वेब सेवाओं के अलावा हू-इज की जानकारी और प्रमाणन जैसे साइट मेटाडेटा की विशेष आईडी शामिल हैं।
  • टियर दो – ऐसे संकेतक किसी वेबसाइट की उत्पत्ति के संबंध में मध्यम स्तर की निश्चित जानकारी देते हैं। इनसे उपयोगी संदर्भ मिलता है। यह एक ही सबनेट के भीतर आईपी, मिलान मेटा टैग, मानक और कस्टम प्रतिक्रिया हेडर में समानता दिखाते हैं।
  • टियर तीन – इससे उक्त संकेतकों को उच्चस्तरीय संकेतकों के साथ संयोजन में उपयोग करने का सुझाव मिलता है। इसमें शेयर्ड सीएसएस क्लासेस, यूयूआईडी और सामग्री प्रबंधन प्रणाली शामिल हैं।

संपादकीय टिप्पणी : मूल रूप से यह पोस्ट प्रोपब्लिका रिपोर्टर के ‘डिजिटल इन्वेस्टिगेशन‘ सबस्टैक पर प्रकाशित हुई थी। यहां उसे अनुमति लेकर पुनर्मुद्रित किया गया है।


क्रेग सिल्वरमैन प्रोपब्लिका के नेशनल रिपोर्टर हैं। वह मतदान, प्लेटफ़ॉर्म, दुष्प्रचार और ऑनलाइन हेराफेरी को कवर करते हैं। वह पहले बज़फीड न्यूज के मीडिया संपादक थे। वहां उन्होंने डिजिटल दुष्प्रचार का महत्वपूर्ण कवरेज किया।

अनुवाद : डॉ. विष्णु राजगढ़िया

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

pile of crumpled dirty money laundering

मनी लॉन्ड्रिंग के नए ट्रेंड जिन पर पत्रकार नज़र रख सकते हैं

मनी लॉन्ड्रिंग को रिश्वतखोरी या टैक्स-चोरी जैसे अन्य वित्तीय अपराधों के साथ न जोड़ें। मनी लॉन्ड्रिंग एक विशेष अपराध है। इसके संबंध में ओसीसीआरपी की परिभाषा पर ध्यान दें। इसमें कहा गया है कि मनी लॉन्ड्रिंग का मतलब अवैध रूप से प्राप्त धन की उत्पत्ति को छिपाना है। इसके लिए विदेशी बैंकों अथवा वैध व्यवसायों से जुड़े हस्तांतरण जैसे तरीके अपनाए जाते हैं।

गूगल शीट्स का उपयोग कैसे करें पत्रकार

सूचना के अधिकार के जरिए भी काफी डेटा मिलते हैं। इनका विश्लेषण करने में स्प्रेडशीट काफी उपयोगी है। इसे जानना एक महत्वपूर्ण कौशल है। इससे आपको भारी-भरकम डेटा में संभावित खबरें निकालने में मदद मिलती है। स्प्रेडशीट का उपयोग करके आप पाठकों के लायक मनपसंद प्रस्तुति कर सकते हैं।

ग्लोबल शाइनिंग लाइट अवार्ड के आवेदन की अंतिम तिथि 28 फरवरी

शीर्ष विजेताओं को मानद पट्टिका, 2500 अमेरिकी डॉलर और नवंबर 2025 में कुआलालंपुर, मलेशिया में वैश्विक खोजी पत्रकारिता सम्मेलन में दुनिया भर से अपने सैकड़ों सहयोगियों के सामने पुरस्कार स्वीकार करने के लिए एक यात्रा मिलेगी।