The Internet Archive and its Wayback Machine are invaluable tools for investigative journalists. Image: Shutterstock
पुरानी जानकारी खोजने में बहुत उपयोगी है Wayback Machine
इंटरनेट आर्काइव यानि Wayback Machine पत्रकारों के लिए बहुत उपयोगी है। एक तरह का यह पुस्तकालय है। ज्ञान की सार्वभौमिक पहुंच हो: यही इसका मिशन है। इस वर्ष इसकी 25वीं वर्षगांठ है। Wayback Machine एक तरह का अभिलेखागार है। इसमें प्रतिदिन एक बिलियन से अधिक यूआरएल संग्रहित किए जाते हैं। इन्हें सार्वजनिक तौर पर वेब में उपलब्ध कराया जाता है।
दुनिया भर के पत्रकार, शोधकर्ता, तथ्य-जांचकर्ता, कार्यकर्ता और आम नागरिक प्रतिदिन इस निशुल्क Wayback Machine का विभिन्न तरीकों से काफी उपयोग करते हैं। हमारे बारे में हजारों लेख प्रकाशित हुए हैं। जीआईजेएन की My Favorite Tools 2020 series में विभिन्न खोजी पत्रकारों ने अपने लिए महत्वपूर्ण उपकरणों के बारे में बताया है। इसमें कई पत्रकारों ने कहा कि Wayback Machine उनके काम में काफी सहयोगी साबित हुई है।
आइए, समझते हैं कि एक पत्रकार के बतौर आप अपनी अगली खोजी खबर के लिए Wayback Machine का किस तरह उपयोग कर सकते हैं।
URL को आर्काइव करना
आप अपने लेख में किसी वेबसाइट की किसी सामग्री या पेज का संदर्भ देते हैं। लेकिन अगर उस वेबसाइट का मालिक उस सामग्री या पेज को वेबसाइट से हटा दे, तो वह ‘संदर्भ‘ हमेशा के लिए गायब हो जाएगा। आप अपने किसी संदर्भ के साथ ऐसा न होने दें!
Wayback Machine की “Save Page Now” सेवा में उपयोगकर्ताओं द्वारा प्रतिदिन लाखों यूआरएल संग्रहित (आर्काइव) किए जाते हैं। इसमें कोई भी व्यक्ति किसी भी यूआरएल को संग्रहित कर सकता है। यदि आप एक निःशुल्क खाते से लॉग-इन करते हैं, तो आप किसी भी ‘आउटलिंक‘ को संग्रहित कर सकते हैं। किसी ओरिजिनल पेज में दिए गए बाहरी लिंक को भी आप कैप्चर कर सकते हैं। इस कैप्चर प्रक्रिया की एक रिपोर्ट आपको ईमेल में मिल जाएगी। एक अन्य उपयोगी सुविधा यह है कि आप कैप्चर किए गए यूआरएल को WACZ फ़ाइल में डाउनलोड कर सकते हैं और अपने टूल से इसकी समीक्षा/प्रक्रिया कर सकते हैं।
Save Page Now बहुत सारे स्वचालित ट्विटर संग्रह कर सकता है। उदाहरण के लिए, यदि आप किसी भी ट्विटर प्रोफ़ाइल का यूआरएल डालते हैं और संबंधित विकल्प की जांच करते हैं तो आप आसानी से 3,200 नवीनतम ट्वीट्स को संग्रहीत कर सकते हैं।
यहाँ इसके कुछ तकनीकी पहलुओं को समझें। यदि आपके पास ऐसे यूआरएल की सूची है, जिन्हें आप संग्रह करना चाहते हैं, तो उन्हें गूगल शीट के ‘कॉलम ए‘ में रखकर सबमिट करें। इसे Save Page Now गूगल शीट सेवा के माध्यम से सबमिट करें। कॉलम बी, सी, और डी को एक स्टेटस कोड के रूप में रखते हुए आर्काइव किया जाएगा। जिन यूआरएल को Wayback Machine द्वारा पहले आर्काइव किया गया हो, उन्हें एक फ्लैग के साथ संग्रहित किया जाएगा।
एक अन्य विकल्प यह है कि आप किसी भी यूआरएल को “spn@archive-org” पर ईमेल करके सबमिट करें। इसके विषय में ‘कैप्चर आउटलिंक‘ लिख दें, तो इसे भी संरक्षित किया जाएगा। प्रक्रिया पूरी होने पर आपको ईमेल रिपोर्ट मिल जाएगी।
अंत में, तकनीकी रूप से अधिक कुशलता के लिए कुछ अन्य बातें जानना भी उपयोगी होगा। Wayback Machine एक API अथवा प्रोग्रामिंग इंटरफेस प्रदान करती है, जो आपके मौजूदा सॉफ्टवेयर वर्कफ्लो में एकीकरण की सुविधा प्रदान करती है। किसी नए अनुप्रयोग का निर्माण करते समय भी अपना काम स्वचालित करने में इससे मदद करेगी। इसका एक उदाहरण यह है कि सन् फ्रांसिस्को की गैर-लाभकारी प्रौद्योगिकी कंपनी Meedan ने अपनी ‘जांच‘ सेवा को वेबैक मशीन के साथ एकीकृत कर दिया है। यह कंपनी वैश्विक पत्रकारिता को मजबूत करने के लिए सॉफ्टवेयर का निर्माण और पहल करती है।
विभिन्न संग्रहित संस्करणों में परिवर्तन की जानकारी कैसे मिलेगी?
क्या आप किसी वेब पेज के दो संस्करणों में अंतर खोजना चाहते हैं? यह जानना चाहते हैं कि किसी व्यक्ति ने अपनी वेबसाइट में किस शब्द या वाक्य को बदल दिया है? आप ‘चेंज‘ आॅप्शन के जरिए यह देख सकते हैं।
इसके लिए Wayback Machine के होमपेज पर किसी भी संग्रहित यूआरएल को ‘सर्च‘ फंक्शन में डालें। फिर ‘चेंज‘ आॅप्शन चुनें।
इसमें आपको विभिन्न तिथियों और समय के अनुसार संग्रहित संस्करणों की सूची मिल जाएगी। हरेक संग्रहित यूआरएल में हुए परिवर्तन को दिखाने के लिए उस हिस्से को किसी रंग से चिन्हित किया जाता है।
इसके बाद किसी यूआरएल के दो संस्करणों का चयन करें। उनके टेक्स्ट में नीले और पीले रंग के जरिए अंतर दिख जाएगा। इस सुविधा का उपयोग करके आप देख सकते हैं कि एक ब्रिटिश राजनीतिक सलाहकार ने किस तरह इतिहास को फिर से लिखने की कोशिश की। इसे नीचे स्क्रीनशॉट में दिखाया गया है।
Wayback Machine की ‘चेंज‘ सुविधा ने यह दिखाया कि ब्रिटिश प्रधानमंत्री के पूर्व मुख्य सलाहकार डोमिनिक कमिंग्स ने अपने मूल ब्लॉग पोस्ट (बाएं) में किस तरह की बातें जोड़ दी (नीले रंग में, दाहिनी तरफ देखें)।
ज्यादा गहराई से आर्काइव सर्च
आप कीवर्ड और/या माइम-प्रकारों का उपयोग करके किसी भी कैप्चर किए गए यूआरएल के उप-यूआरएल को खोजने के लिए वेबैक मशीन के यूआरएल विकल्प का उपयोग कर सकते हैं। किसी कैप्चर का पता लगाने के लिए आप परिणामों को आसानी से फ़िल्टर और अलग-अलग कर सकते हैं।
विशिष्ट फ़ाइलों और वेबसाइटों के संग्रह को हमारे इंजीनियरों द्वारा अनुक्रमित किया गया है और वेबैक मशीन उनके लिए एक पूर्ण पाठ-खोज इंटरफ़ेस प्रदान करती है। वेबैक मशीन होमपेज के नीचे “संग्रह खोज” देखें। हाइलाइट्स में खोई हुई वेबसाइटें जैसे poetry.com, Russian Independent Media और 749M PDFs का संग्रह शामिल हैं। एक अन्य स्थान जहां आप संग्रह के लिए उपलब्ध सेवाओं को देख सकते हैं वह इंटरनेट आर्काइव होम पेज है। यदि आप चाहते हैं कि हम संग्रहीत सामग्री के विशिष्ट संग्रहों को अनुक्रमित करें (उदाहरण के लिए विभिन्न यूआरएल पैटर्न का मिलान) तो कृपया info@archive.org पर हमसे संपर्क करें।
Wayback Machine में API का उपयोग करना
Save Page Now सेवा के माध्यम से आर्काइव करने के लिए एक API के अलावा, ऐसे अन्य API भी हैं, जिनका उपयोग Wayback Machine में जानकारी के लिए किया जा सकता है। इसके जरिए यह देख सकते हैं कि क्या इसमें कुछ विशिष्ट यूआरएल संग्रहित किए गए हैं। आप यहां उनके बारे में विस्तार से पढ़ सकते हैं।
अपनी अधिकांश सेवाओं की तरह, Wayback Machine अपने API के उपयोग की आवृत्ति पर कोई औपचारिक रोक नहीं लगाता है। हालांकि, यह कभी-कभी विशेष उपाय लागू कर सकता है। यदि आपको Wayback Machine के उपयोग में कोई समस्या हो, तो हमें ईमेल भेजें या ट्विटर पर डायरेक्ट मैसेज करें। पत्रकारों की सहायता करना हमारी प्राथमिकता है।
आर्काइव किए गए पेजों में संदर्भ जोड़ना
किसी भी आर्काइव की गई सामग्री की बेहतर समझ के लिए उसकी उत्पति और संदर्भ की जानकारी महत्वपूर्ण है। इस बात को ध्यान में रखते हुए हमने अपने संग्रहित संसाधनों को बेहतर ढंग से समझने में मदद के लिए संदर्भ बैनर जोड़ना शुरू किया है। ऐसे बैनर का उपयोग तब होगा, जब किसी संग्रहित वेब पेज को हटाया जाए, या जब कोई पेज किसी ज्ञात शोध संगठन द्वारा लिखा गया हो।
प्रत्येक संग्रहित यूआरएल की उत्पति की जानकारी मिलना उस वेब पेज की समझ के लिए महत्वपूर्ण है। जैसे, क्या उस वेब पेज के अन्य तत्वों की तरह एक ही समय और दिनांक पर उसमें कुछ तस्वीरें भी थीं? आप प्रत्येक संग्रहित यूआरएल के प्लेबैक पृष्ठ के ऊपरी-दाईं ओर ‘अबाउट दिस कैप्चर‘ (About this capture) लिंक पर क्लिक करके यह जानकारी देख सकते हैं।
हमने इस अभिलेखागार की अखंडता बनाए रखने पर पूरा ध्यान रखा है। हमने काफी पारदर्शिता के साथ वर्षों से इसे कारगर बनाए रखा है। यही कारण है कि हमें व्यापक लोगों का विश्वास मिला है। दुनिया भर की विभिन्न अदालतों ने भी हमारे द्वारा संग्रहित सामग्री को साक्ष्य के बतौर स्वीकार किया है।
यदि आप हमारे Save Page Now फीचर के साथ बनाए गए अभिलेखागार के संदर्भ को कुछ जोड़ना चाहते हों, तो कृपया हमसे संपर्क करें।
ब्राउजर एक्सटेंशन
जैसा कि आप उम्मीद कर सकते हैं, हमारे पास Safari, Firefox, और Chrome के साथ-साथ iOS और Android के लिए देशी मोबाइल ऐप के लिए ब्राउजर एक्सटेंशन उपलब्ध हैं। इसके अलावा हमने Brave नामक सर्च इंजन के साथ भागीदारी की है।
इंटरनेट आर्काइव और Wayback Machine से कोई भी मदद लेने के लिए सिर्फ एक ईमेल भेजना या ट्विटर डीएम काफी है। कृपया अपने प्रश्न, अनुरोध, त्रुटि-रिपोर्ट और सफलता की कहानियां साझा करें। हम जानना चाहते हैं कि आपको हमारी सेवाओं में क्या चीज पसंद नहीं आई, या हमें क्या सुधार करना चाहिए, या जोड़ना चाहिए।
पर रुकिए…अभी और भी है !
Internet Archive Scholar service वेब पेजेज के सार्वजनिक संग्रह के अलावा इंटरनेट आर्काइव के माध्यम से 25 मिलियन से भी अधिक विद्वतापूर्ण दस्तावेजों को संरक्षित और उपलब्ध कराया जाता है। इसमें लगभग 30 मिलियन ई-बुक्स और टेक्स्ट उपलब्ध हैं। इनका अवलोकन करने या उधार लेने या इन्हें डाउनलोड करने की सुविधा है। साथ ही, लाखों घंटों में टीवी समाचार संग्रहित हैं जो पिछले दस वर्षों में दर्जनों अच्छे टीवी स्टेशनों से संबंधित हैं। इन्हें पूर्ण कैप्शन के माध्यम से सर्च किया जा सकता है।
इंटरनेट आर्काइव, और वेबैक मशीन की परियोजना और सेवाओं पर अप-टू-डेट जानकारी के लिए कृपया ट्विटर @internetarchive और @waybackmachine पर हमें फाॅलो करें और हमारे ब्लॉग पोस्ट पढ़ें।
और भी पढ़ें :
What is the Internet Archive and What Can I Find on It?
How to Use the Internet Archive’s Wayback Machine
मार्क ग्राहम ने Wayback Machine का पांच साल से अधिक समय तक प्रबंधन किया है। इससे पहले, वह NBC News Digital में वरिष्ठ उपाध्यक्ष थे। ग्राहम ने पहली यूएस-सोवियत ईमेल सेवा चलाने में भी मदद की। उन्होंने एक ऑनलाइन चर्चा प्रणाली के लिए पहला वेब-आधारित इंटरफेस बनाने की एक परियोजना शुरू की। उन्होंने महिलाओं के लिए एक प्रारंभिक ऑनलाइन सेवा iVillage चलाने में भी मदद की है।