The Internet Archive and its Wayback Machine are invaluable tools for investigative journalists. Image: Shutterstock
আপনার পরবর্তী অনুসন্ধানে ওয়েব্যাক মেশিন ব্যবহার করবেন যেভাবে
“সব ধরনের জ্ঞানে সবার প্রবেশাধিকার” নিশ্চিত করার মিশন নিয়ে এবছর ২৫তম জন্মবার্ষিকী পালন করছে ইন্টারনেট আর্কাইভ। এটি একটি অলাভজনক লাইব্রেরি, যা বেশি পরিচিতি পেয়েছে ওয়েব্যাক মেশিনের জন্য, যেখানে প্রতিদিন একশ কোটির বেশি ইউআরএল আর্কাইভ হয়। এর ফলে, ইন্টারনেটের একটি বিপুল অংশ আর্কাইভ ও সবার কাছে উন্মুক্ত হতে থাকে। আমি বর্তমানে এই ওয়েব্যাক মেশিনের দেখভাল করছি।ওয়েব্যাক মেশিন একটি ফ্রি সেবা। প্রতিদিন অসংখ্য সাংবাদিক, গবেষক, তথ্য যাচাইকারী, অ্যাক্টিভিস্ট ও সাধারণ মানুষ এটি ব্যবহার করছেন। আমাদের নাম বা সূত্র উল্লেখ করে হাজার হাজার প্রবন্ধ-প্রতিবেদন এরই মধ্যে প্রকাশিত হয়েছে। এমনকি, ২০২০ সালে জিআইজেএন-এর আমার প্রিয় টুল সিরিজের ক্ষেত্রেও দেখা গেছে, অনেক অগ্রণী অনুসন্ধানী সাংবাদিক এটিকে বর্ণনা করেছেন তাদের প্রাত্যহিক কাজের অন্যতম টুল হিসেবে।
যে রিপোর্টাররা তাদের আগামী অনুসন্ধানে ওয়েব্যাক মেশিন ব্যবহারের সুযোগ খুঁজছেন, তাদের জন্য এখানে থাকছে কিছু প্রাথমিক কথা।
ইউআরএল আর্কাইভ করা
আপনি যদি কোনো প্রতিবেদনে একটি ওয়েবসাইটের সূত্র উল্লেখ করেন এবং তারপর সেই ওয়েবসাইটটির কিছু গুরুত্বপূর্ণ পেজ বা পুরো সাইটটিই যদি মুছে দেওয়া হয়, তাহলে সেখানকার যাবতীয় তথ্য চিরদিনের জন্য হারিয়ে যাবে, যদি সেটি আর্কাইভ করা না থাকে। আপনি নিশ্চয়ই এমনটি হতে দিতে চাইবেন না!
বিশ্বজুড়ে, প্রতিদিন ওয়েব্যাক মেশিনের “সেইভ পেজ নাও” সার্ভিস ব্যবহার করে কোটি কোটি ইউআরএল আর্কাইভ করছেন আমাদের ব্যবহারকারীরা। যে কেউ এখানে ইউআরএল সেইভ করতে পারেন। এবং আপনি যদি একটি ফ্রি অ্যাকাউন্ট খুলে লগইন অবস্থায় থাকেন, তাহলে কোনো পেজের মধ্যে থাকা বাইরের লিংকগুলোও (“আউটলিংকস”) আর্কাইভ করে ফেলতে পারবেন এবং গোটা প্রক্রিয়ার একটি পূর্ণাঙ্গ প্রতিবেদনও চলে যাবে আপনার মেইলে। আরো একটি গুরুত্বপূর্ণ ফিচার হচ্ছে আপনি একটি ওয়েব আর্কাইভ কালেকশন জিপড (ডব্লিউএসিজেড) ফাইলে সংগ্রহিত ইউআরএল ডাউনলোড ও আপনার নিজস্ব টুলগুলোর সঙ্গে যাচাই-বাছাই/ সমন্বয় করতে পারেন।
সেভ পেজ নাও অপশনটির মাধ্যমে আপনি স্বয়ংক্রিয়ভাবে টুইটার আর্কাইভ করতে পারেন। যেমন, এখানে যেকোনো টুইটার প্রোফাইলের ইউআরএল দিয়ে এবং প্রাসঙ্গিক অপশন সিলেক্ট করে দিলে সেই প্রোফাইলের সাম্প্রতিক ৩২০০ টুইট সহজে আর্কাইভ করে ফেলতে পারবেন।
কিছু কারিগরী বিষয় হলো: আপনি যদি একসাথে বেশ কিছু ইউআরএল-এর একটি তালিকা আর্কাইভ করতে চান, তাহলে সেগুলোকে একটি গুগল শিটের “এ” কলামে যোগ করুন, এবং গুগল শিটস সার্ভিসের “সেইভ পেজ নাও” (যেটি পাবেন এখানে)-এ সাবমিট করুন। তাহলে কলাম বি, সি ও ডি স্বয়ংক্রিয়ভাবে পূরণ হয়ে যাবে একটি স্ট্যাটাস কোড, আর্কাইভ করা ইউআরএল, এবং একটি ফ্ল্যাগ দিয়ে। এখান থেকে বোঝা যাবে ইউআরএলটি ওয়েব্যাক মেশিনে আগেই আর্কাইভ করা হয়েছে কিনা।
ইউআরএল আর্কাইভ করার আরেকটি উপায় হলো: সেগুলো “spn@archive.org”-এই ঠিকানায় ইমেইল করা। আপনি যদি ইমেইলের বিষয়ের জায়গায় “ক্যাপচার আউটলিংকস” যোগ করে দেন, তাহলে মূল ইউআরএলের পেজে থাকা অন্যান্য বাইরের লিংকগুলোও আর্কাইভ হয়ে যাবে। এবং পুরো প্রক্রিয়াটি শেষ হলে আপনি রিপোর্ট পেয়ে যাবেন আপনার মেইলে।
যারা এসব প্রযুক্তিগত কারিগরী কাজে আরো দক্ষ, তাদের জন্য ওয়েব্যাক মেশিন একটি এপিআই, বা প্রোগ্রামিং ইন্টারফেসও সরবরাহ করে থাকে। যার মাধ্যমে আপনি নিজস্ব কোনো সফটওয়্যারের সাথে এটির সংযোগ ঘটাতে পারেন; অথবা নতুন কোনো অ্যাপ্লিকেশন বানানোর সময় বা কাজের প্রক্রিয়া স্বয়ংক্রিয় করে তুলতে সাহায্য করায় ব্যবহার করতে পারেন। এর একটি উদাহরণ হতে পারে মেডান। সান ফ্রান্সিসকো-ভিত্তিক এই অলাভজনক প্রযুক্তি কোম্পানি তাদের “চেক” সার্ভিসের সঙ্গে যুক্ত করেছে ওয়েব্যাক মেশিনকে। মেডান এমন ধরনের সফটওয়্যার বানায় ও উদ্যোগ নেয়, যা বৈশ্বিক সাংবাদিকতাকে আরো শক্তিশালী করে।
আর্কাইভ করা বিভিন্ন সংস্করণের মধ্যে তুলনা
কখনো ভেবেছেন বা খোঁজ করেছেন: একই ওয়েব পেজের দুটি ভিন্ন সময়ের সংস্করণের মধ্যে পার্থক্য আছে কিনা? দেখতে চেয়েছেন: কোনো কোম্পানি বা ব্যক্তি তাদের সাইটে পরিবর্তন এনেছে কিনা, বা নতুন কিছু যোগ করেছে কিনা? এই কাজগুলো আপনি চাইলে করতে পারেন ওয়েব্যাক মেশিনের “চেঞ্জেস” ফিচার দিয়ে।
এটি করার জন্য, ওয়েব্যাক মেশিনের হোমপেজে যে কোনো আর্কাইভ করা ইউআরএল বসিয়ে সার্চ করুন। এরপর “চেঞ্জ” অপশনটি বাছাই করুন।
এবার আপনি সেই ইউআরএলের বিভিন্ন সময়ের আর্কাইভ করা ভার্সনের তালিকা দেখতে পাবেন। এক ভার্সন থেকে অন্য ভার্সনে কী মাত্রার পরিবর্তন হয়েছে, তা বোঝানো হয়েছে কালার কোড দিয়ে।
এবার যে কোনো দুই সময়ের দুটি ভার্সনের ইউআরএল বাছাই করলে সেগুলো পাশাপাশি দেখাবে। লেখায় কোনো পরিবর্তন থাকলে সেগুলো হাইলাইট করে দেখিয়ে দেওয়া হবে নীল ও হলুদ রঙে। কিভাবে এক ব্রিটিশ ব্লগার ও রাজনৈতিক পরামর্শদাতা কিভাবে ইতিহাস পুনর্লিখনের চেষ্টা করেছিলেন, তা দেখানো হয়েছিল এই অপশনটি ব্যবহার করে। নিচে দেখুন স্ক্রিনশট।
আর্কাইভে গভীর সার্চ
সংগ্রহিত ইউআরএলগুলোর সাব-ইউআরএল অনুসন্ধান করতে আপনি কীওয়ার্ড এবং/অথবা মাইম-টাইপ ব্যবহার করে ওয়েব্যাক মেশিনের ইউআরএলএস অপশন কাজে লাগাতে পারেন। গুরুত্বপূর্ণ সংগ্রহগুলো চিহ্নিত করার মাধ্যমে আপনি সহজেই ফলাফল আলাদা ও বাছাই করতে সমর্থ হবেন।
আমাদের প্রকৌশলীরা নির্দিষ্ট ফাইল এবং ওয়েবসাইটগুলো সুনির্দিষ্টভাবে তালিকাভুক্ত করেছেন। তাই ওয়েব্যাক মেশিন সম্পূর্ণ পাঠ্য নির্ভর অনুসন্ধান (টেক্সট-সার্চ) ইন্টারফেসের সুযোগ করে দেয়। ওয়েব্যাক মেশিন-এর হোমপেজের নীচে “কালেকশন সার্চ” অপশনে চোখ রাখুন। হারিয়ে যাওয়া উল্লেখযোগ্য ওয়েবসাইট যেমন পোয়েট্রি ডটকম, রাশিয়ান ইন্ডিপেন্ডেন্ট মিডিয়া এবং ৭৪৯এম পিডিএফ ফাইলের একটি সংগ্রহ চোখে পড়বে আপনার। এছাড়া রয়েছে ইন্টারনেট আর্কাইভ হোম পেজ, যেখানে আপনি আরো কিছু তথ্য পাবেন। আপনি যদি আমাদের মাধ্যমে আর্কাইভের সুনির্দিষ্ট সংগ্রহগুলো তালিকাভুক্ত করতে চান (যেমন, যেগুলো বিভিন্ন ইউআরএল প্যাটার্নের সঙ্গে মিলে যায়), সেক্ষেত্রে info@archive.org-এর মাধ্যমে আমাদের সঙ্গে যোগাযোগ করতে পারেন।
ওয়েব্যাক মেশিনের এপিআই ব্যবহার
“সেইভ পেজ নাও” সার্ভিসের মাধ্যমে আর্কাইভ করার সুবিধা দেওয়া এপিআই ছাড়াও, এমন কিছু এপিআই-ও আছে যেগুলো দিয়ে আপনি ওয়েব্যাক মেশিনে খোঁজ করতে পারবেন যে, কোনো নির্দিষ্ট ইউআরএল আগেই আর্কাইভ করা হয়েছে কিনা। এ বিষয়ে বিস্তারিত পড়ুন এখানে।
এর বেশিরভাগ সার্ভিসের মতো, ওয়েব্যাক মেশিনেও এপিআই ব্যবহারের কোনো আনুষ্ঠানিক সীমা নেই। তবে, মাঝেমধ্যে এটি কিছু নিয়ন্ত্রণমূলক ব্যবস্থা নেয়। আপনি যদি এমন কোনো পরিস্থিতির মুখোমুখি হন, তাহলে আমাদের ইমেইল বা টুইটারে মেসেজ করুন। সাংবাদিকদের সহায়তা দেওয়া আমাদের সর্বোচ্চ অগ্রাধিকার।
আর্কাইভ পেজগুলোতে প্রেক্ষাপট যোগ করা
আমরা বুঝি যে, কোনো আর্কাইভ সম্পর্কে পূর্ণাঙ্গ বোঝাপড়া তৈরির জন্য সেটির প্রেক্ষাপট ও উৎস উল্লেখ করা খুবই জরুরি। এটি মাথায় রেখে, আমরা কনটেক্সট ব্যানার যোগ করা শুরু করেছি, যেন আমাদের আর্কাইভ করা রিসোর্সগুলো আরো ভালোভাবে বোঝা যায়। এই ধরনের ব্যানার ব্যবহার করা হতে পারে যদি আর্কাইভ করা কোনো ওয়েবপেজ মুছে দেওয়া হয়, বা যখন কোনো পেজ নিয়ে লেখালেখি হয় কোনো সুপরিচিত গবেষণা প্রতিষ্ঠানের পক্ষ থেকে।
একটি ওয়েব পেজ ভালোভাবে বোঝার জন্য সেটিতে আর্কাইভ করা প্রতিটি ইউআরএলের উৎস জানতে পারা খুবই গুরুত্বপূর্ণ। যেমন, আর্কাইভ করা ওয়েব পেজের কোনো একটি ছবি কী পেজের অন্যান্য জিনিসগুলোর সঙ্গেই আর্কাইভ করা হয়েছিল নাকি আলাদা সময়ে? এসব তথ্য আপনি দেখতে পারবেন প্রতিটি আর্কাইভ করা ইউআরএল প্লেব্যাক পেজের উপরে-ডানদিকে, “অ্যাবাউট দিস ক্যাপচার” লিংকে ক্লিক করে।
আর্কাইভের বিশ্বাসযোগ্যতা বজায় রাখার জন্য আমরা এখানে অনেক মনোযোগ দিয়েছি ও যত্ন নিয়েছি। পেজগুলোর আদি উৎস উল্লেখ করার মাধ্যমে আমরা স্বচ্ছতাও বজায় রাখার চেষ্টা করেছি। সব মিলিয়ে ওয়েব্যাক মেশিনের ওপর মানুষের এমন আস্থা জন্মেছে যে, বিশ্বজুড়ে বেশ কয়েকটি আদালতে প্রমাণ হিসেবে গ্রহণ করা হয়েছে ওয়েব্যাক মেশিনে সংরক্ষিত তথ্যকে।
“সেইভ পেজ নাও” ফিচার ব্যবহার করে তৈরি করা আর্কাইভ পেজগুলোতে যদি আপনি কনটেক্সট যোগ করতে চান, তাহলে আমাদের সঙ্গে যোগাযোগ করুন।
ব্রাউজার এক্সটেনশন
আপনাদের প্রত্যাশা অনুযায়ী, আমরা ওয়েব ব্রাউজার এক্সটেনশনও তৈরি করেছি। সাফারি, ফায়ারফক্স ও ক্রোম তো আছেই, আইওএস ও অ্যান্ডয়েড ডিভাইসের জন্যও এক্সটেনশন পাওয়া যায়। এছাড়া সার্চ ইঞ্জিন, ব্রেভ-এর সঙ্গে জোট বেঁধে আমরা 404 (ও অন্যান্য এরর পেজগুলো) সনাক্ত এবং ব্রাউজারেই সেটির বার্তা দেওয়ার মতো ব্যবস্থা তৈরি করছি। এতে করে ওয়েব ব্রাউজ করতে করতেই আপনি ওয়েব্যাক মেশিনের সহায়তা পাবেন।
এত সবকিছুর বাইরেও, আপনি ইন্টারনেট আর্কাইভ ও ওয়েব্যাক মেশিনের সহায়তা পেতে পারেন মাত্র একটি ইমেইল বা টুইটার বার্তার মাধ্যমে। আপনাদের যেকোনো প্রশ্ন, অনুরোধ, ত্রুটি সংশোধন (বাগ রিপোর্ট) বা সাফল্যের গল্প আমাদের সঙ্গে শেয়ার করুন। আমরা বিশেষভাবে শুনতে চাই, আমাদের সেবার কোন বিষয়গুলো আপনি পছন্দ করেন না, বা কোন জায়গাগুলোতে আমাদের আরো উন্নতি বা নতুন কিছু যোগ করার আছে। এগুলো জানতে পারলে আমরা সাংবাদিকদের চাহিদা ও আকাঙ্ক্ষা অনুযায়ী আরো ভালো সহায়তা দেওয়ার জন্য কাজ করতে পারব।
থামুন! আরো কিছু কথা…
জনসাধারণের জন্য উন্মুক্ত, ইন্টারনেটের এমন অংশের অনেকখানিই আর্কাইভ করে রাখছে ইন্টারনেট আর্কাইভ। এছাড়াও এখানে গড়ে তোলা হচ্ছে নানা বিষয়ের সংগ্রহ। এদের মধ্যে আছে আড়াই কোটির বেশি স্কলারলি পেপার (ইন্টারনেট আর্কাইভ স্কলার সার্ভিস); প্রায় ৩০ মিলিয়ন ইবুক ও টেক্সট যেগুলো প্রিভিউ করা যায়, ধার নেওয়া যায় বা ডাউনলোড করা যায়; এবং এখানে আর্কাইভ করা হয়েছে মিলিয়ন ঘন্টার বেশি টিভি নিউজ (বেশ কয়েকটি টিভি স্টেশনের প্রায় ১০ বছরের কনটেন্ট)। এসব কিছুই সার্চ করা যায় ফুল-টেক্সট ইনডেক্সিংয়ের মাধ্যমে।
ইন্টারনেট আর্কাইভ ও ওয়েব্যাক মেশিনের প্রকল্প ও সেবা সম্পর্কে হালনাগাদ তথ্য পেতে আমাদের ফলো করুন টুইটারে, @internetarchive ও @waybackmachine এবং পড়ুন আমাদের ব্লগ পোস্ট।
আরো পড়ুন
হোয়াট ইজ দ্য ইন্টারনেট আর্কাইভ অ্যান্ড হোয়াট ক্যান আই ফাইন্ড অন ইন?
হাও টু ইউজ দ্য ইন্টারনেট আর্কাইভ’স ওয়েব্যাক মেশিন
ইউজিং আর্কাইভ ডট অর্গ ফর ওসিন্ট ইনভেস্টিগেশনস
জিআইজেএন ওয়েবিনার: ইউজিং ওপেন সোর্স ইনফো টু রিপোর্ট ফ্রম হোম
মার্ক গ্রাহাম পাঁচ বছরেরও বেশি সময় ধরে ব্যবস্থাপনা করছেন ওয়েব্যাক মেশিনের। তার আগে, তিনি ছিলেন এনবিসি নিউজ ডিজিটালের সিনিয়র ভাইস প্রেসিডেন্ট। প্রথমবারের মতো যুক্তরাষ্ট্র-সোভিয়েত ইমেইল সেবা চালুতেও সহায়তা করেছেন গ্রাহাম। অনলাইনে আলোচনার জন্য তিনি প্রথম একটি ওয়েব-ভিত্তিক ইন্টারফেস তৈরির প্রকল্পে কাজ করেছিলেন। ইন্টারনেটে নারীদের জন্য প্রথম দিককার বিশেষ সেবা, আইভিলেজ পরিচালনাতেও সহায়তা করেছেন গ্রাহাম।