

Image: Shutterstock
वेबसाइट सामग्री की जांच में उपयोगी है ‘इन्फॉरमेशन लॉन्ड्रोमैट’
इस लेख को पढ़ें
किसी वेबसाइट की सामग्री के विश्लेषण से कई बातों का पता चलता है। उसकी सामग्री मौलिक है, अथवा नकल पर आधारित है, इसकी जानकारी मिल सकती है। कई बेवसाइटों के आपसी संबंध क्या हैं? उनके मालिक कौन हैं? उनके द्वार किस प्रकार के विचारों का प्रसार किया जा रहा है? यह सब जानना महत्वपूर्ण है।
वेबसाइटों की जांच करना मुझे अच्छा लगता है। मैंने ‘वेरिफिकेशन हैंडबुक‘ के नए संस्करण में इस पर एक अध्याय लिखा है। मैं वेबसाइटों का आपसी रिश्ता जोड़ने तथा उनके मालिकों की पहचान का प्रयास करता हूं। उनकी सामग्री, बुनियादी ढांचे और व्यवहार का विश्लेषण करने लायक नए टूल और तरीकों की मुझे हमेशा तलाश रहती है।
वेबसाइट विश्लेषण के लिए Information Laundromat सबसे नया, दिलचस्प और मुफ्त टूल है। जॉर्ज मार्शल फंड के अलायंस फॉर सिक्योरिंग डेमोक्रेसी – (एएसडी) ने यह टूल विकसित किया है। यह सामग्री और मेटाडेटा का विश्लेषण कर सकता है। एएसडी ने अपनी ताजा रिपोर्ट- ‘द रशियन प्रोपेगैंडा नेस्टिंग डॉल : हाउ आरटी इज लेयर्ड इन द डिजिटल इंफॉर्मेशन एनवायरनमेंट‘ में इसका इस्तेमाल किया। एएसडी ने यह रिपोर्ट ‘एम्स्टर्डम विश्वविद्यालय‘ और ‘इंस्टीट्यूट फॉर स्ट्रैटेजिक डायलॉग‘ के शोधकर्ताओं के साथ मिलकर बनाई है।
इन्फॉरमेशन लॉन्ड्रोमैट दो तत्वों का विश्लेषण कर सकता है। पहला, किसी वेबसाइट पर पोस्ट की गई सामग्री। दूसरा, इसे बनाने और चलाने के लिए उपयोग किया जाने वाला मेटाडेटा। मैंने इस टूल का प्रारंभिक परीक्षण किया है। टूल के डेवलपर पीटर बेंज़ोनी का साक्षात्कार भी लिया है। इस आधार प्रस्तुत इस आलेख में मैंने बताया है कि यह टूल कैसे काम करता है।
पीटर बेंज़ोनी के अनुसार, इन्फॉरमेशन लॉन्ड्रोमैट लीड जनरेशन के लिए सबसे अच्छा काम करता है। यह आपकी जांच को स्वचालित करने वाला टूल नहीं है। यह एक ओपेन सोर्स है। यह एएसडी के GitHub account पर उपलब्ध है।
सामग्री समानता विश्लेषण

इमेज : स्क्रीनशॉट, डिजिटल जांच
यह टूल दो वेबसाइटों की सामग्री की समानता की जांच कर सकता है। यह एक समान सामग्री वाली अन्य वेब संपत्तियों की पहचान करने के लिए टेक्स्ट के लिंक, शीर्षक या स्निपेट का विश्लेषण करता है। यह एएसडी जांच में उपयोगी साबित हुआ। वे देखना चाहते थे कि रूस के सरकारी साइट ‘रसिया टुडे‘ (आरटी) की लगातार नकल कौन सी साइटें कर रही हैं। इस शोध में उन साइटों की पहचान हुई, जो ‘रसिया टुडे‘ की सामग्री को लगातार पुनर्मुद्रित कर रही थीं। ‘रसिया टुडे‘ के नरेटिव को वेब पर प्रसारित करने और वैध बनाने वालों की भी पहचान हो गई।
यह टूल कैसे काम करता है
- आप जिस टेक्स्ट की जांच चाहते हैं, उसके यूआरएल, शीर्षक या स्निपेट को इंटर करें।
- सिस्टम आपकी स्रोत सामग्री और अन्य वेबसाइटों की समानता का विश्लेषण करने के लिए सर्च इंजन, कॉपीस्केप साहित्यिक चोरी चेकर टूल और जीडीईएलटी डेटाबेस (GDELT database) की मदद लेता है।
- इस आधार पर एक परिणाम पृष्ठ आता है। यह आपके मूल स्रोत के समान सामग्री के प्रतिशत के आधार पर वेबसाइटों की सूची बनाता है।
- मैंने एक खबर का यूआरएल डालकर खोज की। मुझे पता था कि यह किसी अन्य वेबसाइट में प्रकाशित खबर की लगभग कार्बन कॉपी है। ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ ने उसके मूल स्रोत की सही पहचान कर ली। इसमें इसे 97 प्रतिशत समानता स्कोर मिला।

इमेज: स्क्रीनशॉट, डिजिटल जांच
टूल यह भी बताता है कि यह क्या नहीं करेगा
सामग्री समानता खोज के लिए यह टूल खुले वेब पर समान लेख या टेक्स्ट को खोजने का प्रयास करता है। यह इस बात का सबूत नहीं देता कि वह टेक्स्ट कहां से उत्पन्न हुआ। दो समान टेक्स्ट पोस्ट करने वाली दो संस्थाओं के बीच कोई संबंध भी नहीं बताता। किसी टेक्स्ट की उत्पत्ति का निर्धारण यह टूल नहीं करता।
पीटर बेंज़ोनी ने सुझाव दिया कि यदि आपको बहुत सारे परिणाम मिलते हैं, तो हर चीज़ को एक्सेल के रूप में डाउनलोड कर लें। फिर पिवट टेबल के साथ इसे खुद देखें।
70 प्रतिशत या उससे अधिक समानता रेटिंग वाली साइटें या उससे अधिक की रुचि सबसे अधिक होने की संभावना है। यदि आप साइट पर पंजीकरण करते हैं तो टूल में बैच अपलोड विकल्प भी होता है।
मेटाडेटा समानता विश्लेषण

इमेज: स्क्रीनशॉट, डिजिटल जांच
जब आप वेबसाइटों के एक सेट का विश्लेषण करना चाहते हों, तो इस टूल का मेटाडेटा समानता उपकरण अच्छा काम करता है। किसी एक साइट का विश्लेषण करने में यह कम प्रभावी है।
यह कैसे काम करता है
- आप जिन वेबसाइटों के आपसी संबंध का विश्लेषण करना चाहते हैं, उनके डोमेन का एक सेट इंटर करें।
- यह टूल प्रत्येक डोमेन को स्कैन करता है। यह उन सभी डोमेन के आईपी पते और स्रोत कोड जैसे बुनियादी ढांचे की जांच करता है। उनके खास इंडीकेटर की तलाश करके डोमेन के बीच ओवरलैप का पता लगाता है। यह उनके आईपी पतों के लिए सीधे मिलान को भी चिह्नित करता है। यह भी देखता है कि साइटें समान आईपी रेंज में होस्ट की गई हैं। यह एक कमजोर कनेक्शन है। फिर भी ध्यान देने योग्य है। अद्वितीय विज्ञापन और विश्लेषण कोड की तलाश के साथ ही यह टूल समानताएं देखने के लिए साइट की सीएसएस फ़ाइल को स्कैन करता है। पीटर बेंज़ोनी के अनुसार, टूल को उल्लेखनीय के रूप में चिह्नित करने के लिए इसमें 90 प्रतिशत से अधिक समान सीएसएस क्लासेस होनी चाहिए। (टूल की वेबसाइट संकेतकों की पूरी सूची यहां देखें।
- मेटाडेटा पृष्ठ दो खंडों में परिणाम दिखाता है।
- पहली लिस्ट बताती है कि प्रत्येक साइट पर कौन से संकेतक मौजूद हैं।
- दूसरी लिस्ट सभी साइटों पर साझा संकेतकों की पहचान करती है।
- यह उपकरण प्रत्येक संकेतक की सापेक्ष शक्ति के अनुसार प्रत्येक लिस्ट में परिणामों को भी क्रमबद्ध करता है। (इस पोस्ट के अंतिम भाग में इस पर अधिक जानकारी दी जाएगी।)
पीटर बेंज़ोनी ने कहा- “वेबसाइटों के बारे में आप जो कुछ भी बता सकते हैं, उसे निकालने का प्रयास है। इसका उपयोग साइटों को एक साथ लिंक करने में हो सकता है।“
यदि आप एनालिटिक्स और विज्ञापन कोड के माध्यम से साइटों को जोड़ना नहीं जानते, तो यह बेसिक गाइड और मेरी ताजा पोस्ट पढ़ें। पहले गाइड पढ़ना बेहतर होगा। यदि आप आईपी पते जैसे वेबसाइट के बुनियादी ढांचे से परिचित हैं और संकेतक का उपयोग करके साइटों को जोड़ना जानते हैं तो ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ का मेटाडेटा मॉड्यूल सबसे उपयोगी है। यदि आप प्रत्येक संकेतक और कनेक्शन की सापेक्ष शक्तियों और कमजोरियों को नहीं जानते, तो इसका उपयोग करने में थोड़ा जोखिम आता है। (उस पर अधिक जानकारी नीचे दी गई है।)
पीटर बेंज़ोनी के अनुसार मेटाडेटा विश्लेषण उपकरण कुछ वेबसाइटों के एक समूह के बीच कनेक्शन खोजने के लिए एक बेहतरीन प्रारंभिक बिंदु है। वेबसाइटों के किसी सेट में आप संभावित ओवरलैप का अंदाजा लगाना चाहते हैं, तो यह उसका त्वरित स्नैपशॉट लेने का एक अच्छा तरीका है। अन्य उपकरणों के एक समूह में उन्हें मैन्युअल रूप से चलाने के बजाय यह आसान है।
यदि आपके पास साइटों का एक सेट है, तो उनके बीच कनेक्शन की जांच के लिए यह एक अच्छा प्रारंभिक बिंदु है। ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ आपको संभावित कनेक्शनों की उपयोगी जानकारी देगा। फिर आप DNSlytics, BuiltWith, SpyOnWeb, जैसे अपने पसंदीदा टूल तथा डीएनएस जैसे निष्क्रिय प्लेटफ़ॉर्म का उपयोग करके गहराई से जांच कर सकते हैं।
यह टूल डोमेन के समूह पर सबसे अच्छा काम करता है। आप एकल यूआरएल का मेटाडेटा सर्च कर सकते हैं। सिस्टम के माध्यम से डीएनएस लिटिक्स जैसी जगहों पर आसान खोज के लिए एनालिटिक्स कोड जैसे संकेतक निकालने में यह उपयोगी है। आप यह भी देख सकते हैं कि क्या यूआरएल ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ डेटाबेस के लगभग 10,000 डोमेन के सेट के साथ कोई संकेतक साझा करता है। इस टूल के ‘अबाउट‘ पेज में स्रोतों की जानकारी मिलती है।
- ईयू बनाम डिस्इन्फो का डेटाबेस ।
- साझेदार और संबंधित संगठनों का अनुसंधान। जैसे- ‘इंस्टीट्यूट फॉर स्ट्रैटेजिक डायलॉग‘ (आईएसडी) की आरटी मिरर साइट्स पर रिपोर्ट।
- ज्ञात सरकारी मीडिया साइटें ।
- अविश्वसनीय स्रोतों, पिंक स्लाइम साइटों और नकली स्थानीय समाचार साइटों की सूची।
- विकिपीडिया की फर्जी समाचार वेबसाइटों की सूची और विकिडेटा की समाचार वेबसाइटों की सूची।
पीटर बेंज़ोनी के अनुसार यह टूल उपयोगकर्ता द्वारा इनपुट किए गए डोमेन को डेटाबेस में नहीं जोड़ता है। इसलिए यदि आप संवेदनशील डोमेन के सेट की सर्च कर रहे हैं तो यह भरोसा रखें कि टूल आपकी साइटों को ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ डेटासेट में नहीं जोड़ेगा।
तकनीकी वेबसाइट संकेतक की रैंकिंग
ऊपर बताया गया है कि इस टूल द्वारा साइट के संकेतकों की सापेक्ष शक्तियों और कमजोरियों संबंधी जानकारी को समझना महत्वपूर्ण है। अन्यथा आप उन साइटों के बीच संबंध को बढ़ा-चढ़ाकर बताने की गलती कर सकते हैं। लेकिन एक अच्छी बात यह है कि ‘इन्फॉरमेशन लॉन्ड्रोमैट‘ का दस्तावेज़ीकरण आपको संकेतकों का उपयोगी विवरण प्रदान करता है।
जैसे, यदि कई वेबसाइटें अपनी सामग्री प्रबंधन प्रणाली के लिए ‘वर्डप्रेस‘ का उपयोग करती हैं, तो यह एक कमजोर कनेक्शन है। करोड़ों वेबसाइटें ‘वर्डप्रेस‘ का उपयोग करती हैं। यह उन वेबसाइटों का संबंध जोड़ने के लिए उपयोगी संकेत नहीं है। लेकिन यदि सभी साइटें एक ही ‘गूगल एडसेन्स कोड‘ का उपयोग करें, तो उनके बीच गहरे संबंध का पता चलता है।
आदर्श रूप से आप वेबसाइटों के एक सेट को जोड़ने वाले कई तकनीकी संकेतकों की पहचान करना चाहते हैं। ऐसे कनेक्शन की ताकत का सही आकलन करने के लिए उसे अन्य जानकारी के साथ जोड़ना जरूरी है।
विश्लेषण में सहायता के लिए यह टूल संकेतकों को तीन स्तरों में क्रमबद्ध करता है। परिणाम पृष्ठ आपको मजबूत, मध्यम या कमजोर संकेतक दिखाने के लिए ‘कलर-कोड‘ का उपयोग करता है। इसके बाद भी आपको अपना विश्लेषण करना होगा। लेकिन यह एक उपयोगी प्रारंभिक बिंदु है।

आरटी-संबंधी डोमेन का उपयोग करके एक मेटाडेटा सर्च। इमेज: स्क्रीनशॉट, डिजिटल जांच
‘इन्फॉरमेशन लॉन्ड्रोमैट‘ के दस्तावेज़ीकरण से संकेतक के तीन टियर इस प्रकार हैं –
- टियर एक – यह आम तौर पर अद्वितीय या किसी वेबसाइट की उत्पत्ति का अत्यधिक संकेतक होते हैं। इसमें सत्यापन उद्देश्यों और गूगल, यान्डेक्स आदि जैसी वेब सेवाओं के अलावा हू-इज की जानकारी और प्रमाणन जैसे साइट मेटाडेटा की विशेष आईडी शामिल हैं।
- टियर दो – ऐसे संकेतक किसी वेबसाइट की उत्पत्ति के संबंध में मध्यम स्तर की निश्चित जानकारी देते हैं। इनसे उपयोगी संदर्भ मिलता है। यह एक ही सबनेट के भीतर आईपी, मिलान मेटा टैग, मानक और कस्टम प्रतिक्रिया हेडर में समानता दिखाते हैं।
- टियर तीन – इससे उक्त संकेतकों को उच्चस्तरीय संकेतकों के साथ संयोजन में उपयोग करने का सुझाव मिलता है। इसमें शेयर्ड सीएसएस क्लासेस, यूयूआईडी और सामग्री प्रबंधन प्रणाली शामिल हैं।
संपादकीय टिप्पणी : मूल रूप से यह पोस्ट प्रोपब्लिका रिपोर्टर के ‘डिजिटल इन्वेस्टिगेशन‘ सबस्टैक पर प्रकाशित हुई थी। यहां उसे अनुमति लेकर पुनर्मुद्रित किया गया है।
क्रेग सिल्वरमैन प्रोपब्लिका के नेशनल रिपोर्टर हैं। वह मतदान, प्लेटफ़ॉर्म, दुष्प्रचार और ऑनलाइन हेराफेरी को कवर करते हैं। वह पहले बज़फीड न्यूज के मीडिया संपादक थे। वहां उन्होंने डिजिटल दुष्प्रचार का महत्वपूर्ण कवरेज किया।
अनुवाद : डॉ. विष्णु राजगढ़िया