The Internet Archive and its Wayback Machine are invaluable tools for investigative journalists. Image: Shutterstock

इंटरनेट आर्काइव यानि Wayback Machine पत्रकारों के लिए बहुत उपयोगी है। एक तरह का यह पुस्तकालय है। ज्ञान की सार्वभौमिक पहुंच हो: यही इसका मिशन है। इस वर्ष इसकी 25वीं वर्षगांठ है।  Wayback Machine एक तरह का अभिलेखागार है। इसमें प्रतिदिन एक बिलियन से अधिक यूआरएल संग्रहित किए जाते हैं। इन्हें सार्वजनिक तौर पर वेब में उपलब्ध कराया जाता है।

दुनिया भर के पत्रकार, शोधकर्ता, तथ्य-जांचकर्ता, कार्यकर्ता और आम नागरिक प्रतिदिन इस निशुल्क Wayback Machine का विभिन्न तरीकों से काफी उपयोग करते हैं। हमारे बारे में हजारों लेख प्रकाशित हुए हैं। जीआईजेएन की  My Favorite Tools 2020 series  में विभिन्न खोजी पत्रकारों ने अपने लिए महत्वपूर्ण उपकरणों के बारे में बताया है। इसमें कई पत्रकारों ने कहा कि Wayback Machine उनके काम में काफी सहयोगी साबित हुई है।

आइए, समझते हैं कि एक पत्रकार के बतौर आप अपनी अगली  खोजी खबर के लिए Wayback Machine का किस तरह उपयोग कर सकते हैं।

URL को आर्काइव करना

आप अपने लेख में किसी वेबसाइट की किसी सामग्री या पेज का संदर्भ देते हैं। लेकिन अगर उस वेबसाइट का मालिक उस सामग्री या पेज को वेबसाइट से हटा दे, तो वह ‘संदर्भ‘ हमेशा के लिए गायब हो जाएगा। आप अपने किसी संदर्भ के साथ ऐसा न होने दें!

Wayback Machine की “Save Page Now” सेवा में उपयोगकर्ताओं द्वारा प्रतिदिन लाखों यूआरएल संग्रहित (आर्काइव) किए जाते हैं। इसमें कोई भी व्यक्ति किसी भी यूआरएल को संग्रहित कर सकता है। यदि आप एक निःशुल्क खाते से लॉग-इन करते हैं, तो आप किसी भी ‘आउटलिंक‘ को संग्रहित कर सकते हैं। किसी ओरिजिनल पेज में दिए गए बाहरी लिंक को भी आप कैप्चर कर सकते हैं। इस कैप्चर प्रक्रिया की एक रिपोर्ट आपको ईमेल में मिल जाएगी। एक अन्य उपयोगी सुविधा यह है कि आप कैप्चर किए गए यूआरएल को WACZ फ़ाइल में डाउनलोड कर सकते हैं और अपने टूल से इसकी समीक्षा/प्रक्रिया कर सकते हैं।

Save Page Now बहुत सारे स्वचालित ट्विटर संग्रह कर सकता है। उदाहरण के लिए, यदि आप किसी भी ट्विटर प्रोफ़ाइल का यूआरएल डालते हैं और संबंधित विकल्प की जांच करते हैं तो आप आसानी से 3,200 नवीनतम ट्वीट्स को संग्रहीत कर सकते हैं।

यहाँ इसके कुछ तकनीकी पहलुओं को समझें। यदि आपके पास ऐसे यूआरएल की सूची है, जिन्हें आप संग्रह करना चाहते हैं, तो उन्हें गूगल शीट के ‘कॉलम ए‘ में रखकर सबमिट करें। इसे Save Page Now गूगल शीट सेवा के माध्यम से सबमिट करें। कॉलम बी, सी, और डी को एक स्टेटस कोड के रूप में रखते हुए आर्काइव किया जाएगा। जिन यूआरएल को Wayback Machine द्वारा पहले आर्काइव किया गया हो, उन्हें एक फ्लैग के साथ संग्रहित किया जाएगा।

एक अन्य विकल्प यह है कि आप किसी भी यूआरएल को “spn@archive-org” पर ईमेल करके सबमिट करें। इसके विषय में ‘कैप्चर आउटलिंक‘ लिख दें, तो इसे भी संरक्षित किया जाएगा। प्रक्रिया पूरी होने पर आपको ईमेल रिपोर्ट मिल जाएगी।

अंत में, तकनीकी रूप से अधिक कुशलता के लिए कुछ अन्य बातें जानना भी उपयोगी होगा। Wayback Machine एक API अथवा प्रोग्रामिंग इंटरफेस प्रदान करती है, जो आपके मौजूदा सॉफ्टवेयर वर्कफ्लो में एकीकरण की सुविधा प्रदान करती है। किसी नए अनुप्रयोग का निर्माण करते समय भी अपना काम स्वचालित करने में इससे मदद करेगी। इसका एक उदाहरण यह है कि सन् फ्रांसिस्को की गैर-लाभकारी प्रौद्योगिकी कंपनी Meedan ने अपनी ‘जांच‘ सेवा को वेबैक मशीन के साथ एकीकृत कर दिया है। यह कंपनी वैश्विक पत्रकारिता को मजबूत करने के लिए सॉफ्टवेयर का निर्माण और पहल करती है।

विभिन्न संग्रहित संस्करणों में परिवर्तन की जानकारी कैसे मिलेगी?

क्या आप किसी वेब पेज के दो संस्करणों में अंतर खोजना चाहते हैं? यह जानना चाहते हैं कि किसी व्यक्ति ने अपनी वेबसाइट में किस शब्द या वाक्य को बदल दिया है? आप ‘चेंज‘ आॅप्शन के जरिए यह देख सकते हैं।

इसके लिए Wayback Machine  के होमपेज पर किसी भी संग्रहित यूआरएल को ‘सर्च‘ फंक्शन में डालें। फिर ‘चेंज‘ आॅप्शन चुनें।

इसमें आपको विभिन्न तिथियों और समय के अनुसार संग्रहित संस्करणों की सूची मिल जाएगी। हरेक संग्रहित यूआरएल में हुए परिवर्तन को दिखाने के लिए उस हिस्से को किसी रंग से चिन्हित किया जाता है।

इसके बाद किसी यूआरएल के दो संस्करणों का चयन करें। उनके टेक्स्ट में नीले और पीले रंग के जरिए अंतर दिख जाएगा। इस सुविधा का उपयोग करके आप देख सकते हैं कि एक ब्रिटिश राजनीतिक सलाहकार ने किस तरह इतिहास को फिर से लिखने की कोशिश की। इसे नीचे स्क्रीनशॉट में दिखाया गया है।

The Wayback Machine showing how Dominic Cummings made stealth additions (in blue) to a blog post. Image: Screenshot

डोमिनिक कमिंग्स ने एक ब्लॉग पोस्ट में क्या बात जोड़ी, इसे Wayback Machine ने नीले रंग में दिखाया

Wayback Machine की ‘चेंज‘ सुविधा ने यह दिखाया कि ब्रिटिश प्रधानमंत्री के पूर्व मुख्य सलाहकार डोमिनिक कमिंग्स ने अपने मूल ब्लॉग पोस्ट (बाएं) में किस तरह की बातें जोड़ दी (नीले रंग में, दाहिनी तरफ देखें)।

ज्यादा गहराई से आर्काइव सर्च

आप कीवर्ड और/या माइम-प्रकारों का उपयोग करके किसी भी कैप्चर किए गए यूआरएल के उप-यूआरएल को खोजने के लिए वेबैक मशीन के यूआरएल विकल्प का उपयोग कर सकते हैं। किसी कैप्चर का पता लगाने के लिए आप परिणामों को आसानी से फ़िल्टर और अलग-अलग कर सकते हैं।

विशिष्ट फ़ाइलों और वेबसाइटों के संग्रह को हमारे इंजीनियरों द्वारा अनुक्रमित किया गया है और वेबैक मशीन उनके लिए एक पूर्ण पाठ-खोज इंटरफ़ेस प्रदान करती है। वेबैक मशीन होमपेज के नीचे “संग्रह खोज” देखें। हाइलाइट्स में खोई हुई वेबसाइटें जैसे poetry.com, Russian Independent Media और 749M PDFs का संग्रह शामिल हैं। एक अन्य स्थान जहां आप संग्रह के लिए उपलब्ध सेवाओं को देख सकते हैं वह इंटरनेट आर्काइव होम पेज है। यदि आप चाहते हैं कि हम संग्रहीत सामग्री के विशिष्ट संग्रहों को अनुक्रमित करें (उदाहरण के लिए विभिन्न यूआरएल पैटर्न का मिलान) तो कृपया info@archive.org पर हमसे संपर्क करें।

Wayback Machine में API का उपयोग करना

Save Page Now सेवा के माध्यम से आर्काइव करने के लिए एक API  के अलावा, ऐसे अन्य API भी हैं, जिनका उपयोग Wayback Machine में जानकारी के लिए किया जा सकता है। इसके जरिए यह देख सकते हैं कि क्या इसमें कुछ विशिष्ट यूआरएल संग्रहित किए गए हैं। आप यहां उनके बारे में विस्तार से पढ़ सकते हैं।

अपनी अधिकांश सेवाओं की तरह, Wayback Machine अपने API के उपयोग की आवृत्ति पर कोई औपचारिक रोक नहीं लगाता है। हालांकि, यह कभी-कभी विशेष उपाय लागू कर सकता है। यदि आपको Wayback Machine के उपयोग में कोई समस्या हो, तो हमें ईमेल भेजें या ट्विटर पर डायरेक्ट मैसेज करें। पत्रकारों की सहायता करना हमारी प्राथमिकता है।

आर्काइव किए गए पेजों में संदर्भ जोड़ना

किसी भी आर्काइव की गई सामग्री की बेहतर समझ के लिए उसकी उत्पति और संदर्भ की जानकारी महत्वपूर्ण है। इस बात को ध्यान में रखते हुए हमने अपने संग्रहित संसाधनों को बेहतर ढंग से समझने में मदद के लिए संदर्भ बैनर जोड़ना शुरू किया है। ऐसे बैनर का उपयोग तब होगा, जब किसी संग्रहित वेब पेज को हटाया जाए, या जब कोई पेज किसी ज्ञात शोध संगठन द्वारा लिखा गया हो

Wayback Machine में संग्रहित पृष्ठों को बाहरी उपयोग से लिंक करने के लिए पीले हेडर का उपयोग हुआ है। साथ ही, ‘अबाउट दिस कैप्चर‘ टैब के जरिए पृष्ठ के बारे में अतिरिक्त ऐतिहासिक संदर्भ बताया गया है

प्रत्येक संग्रहित यूआरएल की उत्पति की जानकारी मिलना उस वेब पेज की समझ के लिए महत्वपूर्ण है। जैसे, क्या उस वेब पेज के अन्य तत्वों की तरह एक ही समय और दिनांक पर उसमें कुछ तस्वीरें भी थीं? आप प्रत्येक संग्रहित यूआरएल के प्लेबैक पृष्ठ के ऊपरी-दाईं ओर ‘अबाउट दिस कैप्चर‘ (About this capture) लिंक पर क्लिक करके यह जानकारी देख सकते हैं।

हमने इस अभिलेखागार की अखंडता बनाए रखने पर पूरा ध्यान रखा है। हमने काफी पारदर्शिता के साथ वर्षों से इसे कारगर बनाए रखा है। यही कारण है कि हमें व्यापक लोगों का विश्वास मिला है। दुनिया भर की विभिन्न अदालतों ने भी हमारे द्वारा संग्रहित सामग्री को साक्ष्य के बतौर स्वीकार किया है।

यदि आप हमारे Save Page Now फीचर के साथ बनाए गए अभिलेखागार के संदर्भ को कुछ जोड़ना चाहते हों, तो कृपया हमसे संपर्क करें।

ब्राउजर एक्सटेंशन

जैसा कि आप उम्मीद कर सकते हैं, हमारे पास Safari, Firefox, और Chrome के साथ-साथ iOS और Android के लिए देशी मोबाइल ऐप के लिए ब्राउजर एक्सटेंशन उपलब्ध हैं। इसके अलावा हमने Brave नामक सर्च इंजन के साथ भागीदारी की है।

इंटरनेट आर्काइव और Wayback Machine  से कोई भी मदद लेने के लिए सिर्फ एक ईमेल भेजना या ट्विटर डीएम काफी है। कृपया अपने प्रश्न, अनुरोध, त्रुटि-रिपोर्ट और सफलता की कहानियां साझा करें। हम जानना चाहते हैं कि आपको हमारी सेवाओं में क्या चीज पसंद नहीं आई, या हमें क्या सुधार करना चाहिए, या जोड़ना चाहिए।

पर रुकिए…अभी और भी है !

Internet Archive Scholar service वेब पेजेज के सार्वजनिक संग्रह के अलावा इंटरनेट आर्काइव के माध्यम से 25 मिलियन से भी अधिक विद्वतापूर्ण दस्तावेजों को संरक्षित और उपलब्ध कराया जाता है। इसमें लगभग 30 मिलियन ई-बुक्स और टेक्स्ट उपलब्ध हैं। इनका अवलोकन करने या उधार लेने या इन्हें डाउनलोड करने की सुविधा है। साथ ही, लाखों घंटों में टीवी समाचार संग्रहित हैं जो पिछले दस वर्षों में दर्जनों अच्छे टीवी स्टेशनों से संबंधित हैं। इन्हें पूर्ण कैप्शन के माध्यम से सर्च किया जा सकता है।

इंटरनेट आर्काइव, और वेबैक मशीन की परियोजना और सेवाओं पर अप-टू-डेट जानकारी के लिए कृपया ट्विटर @internetarchive और @waybackmachine पर हमें फाॅलो करें और हमारे ब्लॉग पोस्ट पढ़ें।


Mark Graham thumbnail imageमार्क ग्राहम ने Wayback Machine का पांच साल से अधिक समय तक प्रबंधन किया है। इससे पहले, वह NBC News Digital में वरिष्ठ उपाध्यक्ष थे। ग्राहम ने पहली यूएस-सोवियत ईमेल सेवा चलाने में भी मदद की। उन्होंने एक ऑनलाइन चर्चा प्रणाली के लिए पहला वेब-आधारित इंटरफेस बनाने की एक परियोजना शुरू की। उन्होंने महिलाओं के लिए एक प्रारंभिक ऑनलाइन सेवा iVillage चलाने में भी मदद की है।

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

Investigating AI Audio Deepfakes

टिपशीट

फर्जी एआई ऑडियो की जांच कैसे करें

एडवांस्ड स्पीच डीपफेक के द्वारा बिल्कुल असली लगने वाले नकली ऑडियो बनाए जा सकते हैं। उसकी सच्चाई को उस व्यक्ति के नजदीकी दोस्त भी नहीं पहचान सकेंगे। ऐसे ऑडियो क्लिप की जांच के लिए विशेषज्ञ और नए उपकरणों की आवश्यकता होती है। अक्सर पत्रकार किसी नेता के बारे में अपने ज्ञान, रिकॉर्डिंग की खराब गुणवत्ता, संदर्भ या सामान्य सामान्य ज्ञान के आधार पर किसी ऑडियो क्लिप में किए गए फर्जीवाड़े को तुरंत पहचान लेते हैं।

ऐप्स की ‘प्राइवेसी पॉलिसी’ को कैसे समझें?

आम तौर पर अधिकांश प्राइवेसी पॉलिसी में एक पूर्व-अनुमानित संरचना का पालन किया जाता है। इसलिए आप उनकी तह तक जाने की कला सीख सकते हैं। उसके मुख्य हिस्सों का पता लगा सकते हैं। लंबा दस्तावेज होने के बावजूद केवल महत्वपूर्ण जानकारी को निकालने के लिए झपट्टा मार सकते हैं। आप कुछ सूचनाओं के संग्रह के आधार पर उससे बाहर निकलने या विकल्प चुनने के अवसर का लाभ उठा सकते हैं। अधिक गहराई तक जाने और अधिक व्यक्तिगत प्रकटीकरण से जुड़े बिंदुओं को भी बेहद कम समय में आसानी से समझ सकते हैं।

दीर्घकालिक खोजी रिपोर्टिंग को जारी रखने या रोकने का निर्णय कैसे लें?

संपादकों के अनुसार न्यूनतम स्टोरीज प्रकाशित करने का भी काफी महत्व है। ऐसी स्टोरी आने के बाद विस्सल-ब्लोअर सामने आते हैं। किसी संगठन के भीतर के लोग आकर कोई बड़ी जानकारी देते हैं। संपादकों के अनुसार ऐसी खबरें प्रकाशित करने के दौरान पारदर्शिता महत्वपूर्ण है। पाठकों को स्पष्ट रूप से बताना सुनिश्चित करें कि क्या साबित किया जा सकता है और क्या नहीं।

Data mining workshop scraping website GIJC23

टिपशीट

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

Data Miner डाटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।