

The Internet Archive and its Wayback Machine are invaluable tools for investigative journalists. Image: Shutterstock
আপনার পরবর্তী অনুসন্ধানে ওয়েব্যাক মেশিন ব্যবহার করবেন যেভাবে

অনুসন্ধানী সাংবাদিকদের জন্য ক্রমেই মূল্যবান টুল হয়ে উঠছে ইন্টারনেট আর্কাইভ ও এর ওয়েব্যাক মেশিন। ছবি: শাটারস্টক
“সব ধরনের জ্ঞানে সবার প্রবেশাধিকার” নিশ্চিত করার মিশন নিয়ে এবছর ২৫তম জন্মবার্ষিকী পালন করছে ইন্টারনেট আর্কাইভ। এটি একটি অলাভজনক লাইব্রেরি, যা বেশি পরিচিতি পেয়েছে ওয়েব্যাক মেশিনের জন্য, যেখানে প্রতিদিন একশ কোটির বেশি ইউআরএল আর্কাইভ হয়। এর ফলে, ইন্টারনেটের একটি বিপুল অংশ আর্কাইভ ও সবার কাছে উন্মুক্ত হতে থাকে। আমি বর্তমানে এই ওয়েব্যাক মেশিনের দেখভাল করছি।
ওয়েব্যাক মেশিন একটি ফ্রি সেবা। প্রতিদিন অসংখ্য সাংবাদিক, গবেষক, তথ্য যাচাইকারী, অ্যাক্টিভিস্ট ও সাধারণ মানুষ এটি ব্যবহার করছেন। আমাদের নাম বা সূত্র উল্লেখ করে হাজার হাজার প্রবন্ধ-প্রতিবেদন এরই মধ্যে প্রকাশিত হয়েছে। এমনকি, ২০২০ সালে জিআইজেএন-এর আমার প্রিয় টুল সিরিজের ক্ষেত্রেও দেখা গেছে, অনেক অগ্রণী অনুসন্ধানী সাংবাদিক এটিকে বর্ণনা করেছেন তাদের প্রাত্যহিক কাজের অন্যতম টুল হিসেবে।
যে রিপোর্টাররা তাদের আগামী অনুসন্ধানে ওয়েব্যাক মেশিন ব্যবহারের সুযোগ খুঁজছেন, তাদের জন্য এখানে থাকছে কিছু প্রাথমিক কথা।
ইউআরএল আর্কাইভ করা
আপনি যদি কোনো প্রতিবেদনে একটি ওয়েবসাইটের সূত্র উল্লেখ করেন এবং তারপর সেই ওয়েবসাইটটির কিছু গুরুত্বপূর্ণ পেজ বা পুরো সাইটটিই যদি মুছে দেওয়া হয়, তাহলে সেখানকার যাবতীয় তথ্য চিরদিনের জন্য হারিয়ে যাবে, যদি সেটি আর্কাইভ করা না থাকে। আপনি নিশ্চয়ই এমনটি হতে দিতে চাইবেন না!
বিশ্বজুড়ে, প্রতিদিন ওয়েব্যাক মেশিনের “সেইভ পেজ নাও” সার্ভিস ব্যবহার করে কোটি কোটি ইউআরএল আর্কাইভ করছেন আমাদের ব্যবহারকারীরা। যে কেউ এখানে ইউআরএল সেইভ করতে পারেন। এবং আপনি যদি একটি ফ্রি অ্যাকাউন্ট খুলে লগইন অবস্থায় থাকেন, তাহলে কোনো পেজের মধ্যে থাকা বাইরের লিংকগুলোও (“আউটলিংকস”) আর্কাইভ করে ফেলতে পারবেন এবং গোটা প্রক্রিয়ার একটি পূর্ণাঙ্গ প্রতিবেদনও চলে যাবে আপনার মেইলে।
কিছু কারিগরী বিষয় হলো: আপনি যদি একসাথে বেশ কিছু ইউআরএল-এর একটি তালিকা আর্কাইভ করতে চান, তাহলে সেগুলোকে একটি গুগল শিটের “এ” কলামে যোগ করুন, এবং গুগল শিটস সার্ভিসের “সেইভ পেজ নাও” (যেটি পাবেন এখানে)-এ সাবমিট করুন। তাহলে কলাম বি, সি ও ডি স্বয়ংক্রিয়ভাবে পূরণ হয়ে যাবে একটি স্ট্যাটাস কোড, আর্কাইভ করা ইউআরএল, এবং একটি ফ্ল্যাগ দিয়ে। এখান থেকে বোঝা যাবে ইউআরএলটি ওয়েব্যাক মেশিনে আগেই আর্কাইভ করা হয়েছে কিনা।
ইউআরএল আর্কাইভ করার আরেকটি উপায় হলো: সেগুলো “spn@archive.org”-এই ঠিকানায় ইমেইল করা। আপনি যদি ইমেইলের বিষয়ের জায়গায় “ক্যাপচার আউটলিংকস” যোগ করে দেন, তাহলে মূল ইউআরএলের পেজে থাকা অন্যান্য বাইরের লিংকগুলোও আর্কাইভ হয়ে যাবে। এবং পুরো প্রক্রিয়াটি শেষ হলে আপনি রিপোর্ট পেয়ে যাবেন আপনার মেইলে।
যারা এসব প্রযুক্তিগত কারিগরী কাজে আরো দক্ষ, তাদের জন্য ওয়েব্যাক মেশিন একটি এপিআই, বা প্রোগ্রামিং ইন্টারফেসও সরবরাহ করে থাকে। যার মাধ্যমে আপনি নিজস্ব কোনো সফটওয়্যারের সাথে এটির সংযোগ ঘটাতে পারেন; অথবা নতুন কোনো অ্যাপ্লিকেশন বানানোর সময় বা কাজের প্রক্রিয়া স্বয়ংক্রিয় করে তুলতে সাহায্য করায় ব্যবহার করতে পারেন। এর একটি উদাহরণ হতে পারে মেডান। সান ফ্রান্সিসকো-ভিত্তিক এই অলাভজনক প্রযুক্তি কোম্পানি তাদের “চেক” সার্ভিসের সঙ্গে যুক্ত করেছে ওয়েব্যাক মেশিনকে। মেডান এমন ধরনের সফটওয়্যার বানায় ও উদ্যোগ নেয়, যা বৈশ্বিক সাংবাদিকতাকে আরো শক্তিশালী করে।
আর্কাইভ করা বিভিন্ন সংস্করণের মধ্যে তুলনা
কখনো ভেবেছেন বা খোঁজ করেছেন: একই ওয়েব পেজের দুটি ভিন্ন সময়ের সংস্করণের মধ্যে পার্থক্য আছে কিনা? দেখতে চেয়েছেন: কোনো কোম্পানি বা ব্যক্তি তাদের সাইটে পরিবর্তন এনেছে কিনা, বা নতুন কিছু যোগ করেছে কিনা? এই কাজগুলো আপনি চাইলে করতে পারেন ওয়েব্যাক মেশিনের “চেঞ্জেস” ফিচার দিয়ে।
এটি করার জন্য, ওয়েব্যাক মেশিনের হোমপেজে যে কোনো আর্কাইভ করা ইউআরএল বসিয়ে সার্চ করুন। এরপর “চেঞ্জ” অপশনটি বাছাই করুন।
এবার আপনি সেই ইউআরএলের বিভিন্ন সময়ের আর্কাইভ করা ভার্সনের তালিকা দেখতে পাবেন। এক ভার্সন থেকে অন্য ভার্সনে কী মাত্রার পরিবর্তন হয়েছে, তা বোঝানো হয়েছে কালার কোড দিয়ে।
এবার যে কোনো দুই সময়ের দুটি ভার্সনের ইউআরএল বাছাই করলে সেগুলো পাশাপাশি দেখাবে। লেখায় কোনো পরিবর্তন থাকলে সেগুলো হাইলাইট করে দেখিয়ে দেওয়া হবে নীল ও হলুদ রঙে। কিভাবে এক ব্রিটিশ ব্লগার ও রাজনৈতিক পরামর্শদাতা কিভাবে ইতিহাস পুনর্লিখনের চেষ্টা করেছিলেন, তা দেখানো হয়েছিল এই অপশনটি ব্যবহার করে। নিচে দেখুন স্ক্রিনশট।

ওয়েব্যাক মেশিনের “চেঞ্জেস” ফিচারটি দিয়ে ধরা গিয়েছিল: ব্রিটিশ প্রধানমন্ত্রীর সাবেক প্রধান পরামর্শক, ডোমিনিক কামিন্স কিভাবে তাঁর আসল ব্লগপোস্টে (বামে) পরবর্তীতে গোপনে পরিবর্তন (ডানে, নীল কালিতে) এনেছিলেন। ছবি: স্ক্রিনশট
আর্কাইভে গভীর সার্চ
ওয়েব্যাক মেশিনের আর্কাইভ করা ইউআরএলগুলোর টেক্সট ইনডেক্স করা হয় না। ফলে এখানে এখনো একটি পূর্ণাঙ্গ টেক্সট-সার্চ ইন্টারফেস নেই। যার অর্থ: আর্কাইভে কোনো পেজ খুঁজে বের করার জন্য ব্যবহারকারীর কাছে অবশ্যই সেই সংশ্লিষ্ট ইউআরএলটি থাকতে হবে। তবে ওয়েব্যাক মেশিনের প্রকৌশলীরা নির্দিষ্ট ধরনের কালেকশনের সঙ্গে সংশ্লিষ্ট বিভিন্ন ওয়েব পেজের মেটাডেটা ইনডেক্স করার একটি পদ্ধতি তৈরির জন্য কাজ করছেন। (বিভিন্ন ধরনের কালেকশনের জন্য এই সেবা সম্পর্কে বিস্তারিত দেখুন ইন্টারনেট আর্কাইভের হোম পেজে।)
ওয়েব্যাক মেশিনের এপিআই ব্যবহার
“সেইভ পেজ নাও” সার্ভিসের মাধ্যমে আর্কাইভ করার সুবিধা দেওয়া এপিআই ছাড়াও, এমন কিছু এপিআই-ও আছে যেগুলো দিয়ে আপনি ওয়েব্যাক মেশিনে খোঁজ করতে পারবেন যে, কোনো নির্দিষ্ট ইউআরএল আগেই আর্কাইভ করা হয়েছে কিনা। এ বিষয়ে বিস্তারিত পড়ুন এখানে।
এর বেশিরভাগ সার্ভিসের মতো, ওয়েব্যাক মেশিনেও এপিআই ব্যবহারের কোনো আনুষ্ঠানিক সীমা নেই। তবে, মাঝেমধ্যে এটি কিছু নিয়ন্ত্রণমূলক ব্যবস্থা নেয়। আপনি যদি এমন কোনো পরিস্থিতির মুখোমুখি হন, তাহলে আমাদের ইমেইল বা টুইটারে মেসেজ করুন। সাংবাদিকদের সহায়তা দেওয়া আমাদের সর্বোচ্চ অগ্রাধিকার।
আর্কাইভ পেজগুলোতে প্রেক্ষাপট যোগ করা
আমরা বুঝি যে, কোনো আর্কাইভ সম্পর্কে পূর্ণাঙ্গ বোঝাপড়া তৈরির জন্য সেটির প্রেক্ষাপট ও উৎস উল্লেখ করা খুবই জরুরি। এটি মাথায় রেখে, আমরা কনটেক্সট ব্যানার যোগ করা শুরু করেছি, যেন আমাদের আর্কাইভ করা রিসোর্সগুলো আরো ভালোভাবে বোঝা যায়। এই ধরনের ব্যানার ব্যবহার করা হতে পারে যদি আর্কাইভ করা কোনো ওয়েবপেজ মুছে দেওয়া হয়, বা যখন কোনো পেজ নিয়ে লেখালেখি হয় কোনো সুপরিচিত গবেষণা প্রতিষ্ঠানের পক্ষ থেকে।

কোনো আর্কাইভ করা পেজ বাইরের কোনো জায়গায় ব্যবহার করা হলে, ওয়েব্যাক মেশিনে একটি হলুদ হেডার যুক্ত করা হয়। এবং সেখানে “অ্যাবাউট দিস ক্যাপচার” ট্যাবে ক্লিক করলে পেজের আরো অনেক ঐতিহাসিক প্রেক্ষাপট দেখা যায়। ছবি: স্ক্রিনশট
একটি ওয়েব পেজ ভালোভাবে বোঝার জন্য সেটিতে আর্কাইভ করা প্রতিটি ইউআরএলের উৎস জানতে পারা খুবই গুরুত্বপূর্ণ। যেমন, আর্কাইভ করা ওয়েব পেজের কোনো একটি ছবি কী পেজের অন্যান্য জিনিসগুলোর সঙ্গেই আর্কাইভ করা হয়েছিল নাকি আলাদা সময়ে? এসব তথ্য আপনি দেখতে পারবেন প্রতিটি আর্কাইভ করা ইউআরএল প্লেব্যাক পেজের উপরে-ডানদিকে, “অ্যাবাউট দিস ক্যাপচার” লিংকে ক্লিক করে।
আর্কাইভের বিশ্বাসযোগ্যতা বজায় রাখার জন্য আমরা এখানে অনেক মনোযোগ দিয়েছি ও যত্ন নিয়েছি। পেজগুলোর আদি উৎস উল্লেখ করার মাধ্যমে আমরা স্বচ্ছতাও বজায় রাখার চেষ্টা করেছি। সব মিলিয়ে ওয়েব্যাক মেশিনের ওপর মানুষের এমন আস্থা জন্মেছে যে, বিশ্বজুড়ে বেশ কয়েকটি আদালতে প্রমাণ হিসেবে গ্রহণ করা হয়েছে ওয়েব্যাক মেশিনে সংরক্ষিত তথ্যকে।
“সেইভ পেজ নাও” ফিচার ব্যবহার করে তৈরি করা আর্কাইভ পেজগুলোতে যদি আপনি কনটেক্সট যোগ করতে চান, তাহলে আমাদের সঙ্গে যোগাযোগ করুন।
ব্রাউজার এক্সটেনশন
আপনাদের প্রত্যাশা অনুযায়ী, আমরা ওয়েব ব্রাউজার এক্সটেনশনও তৈরি করেছি। সাফারি, ফায়ারফক্স ও ক্রোম তো আছেই, আইওএস ও অ্যান্ডয়েড ডিভাইসের জন্যও এক্সটেনশন পাওয়া যায়। এছাড়া সার্চ ইঞ্জিন, ব্রেভ-এর সঙ্গে জোট বেঁধে আমরা 404 (ও অন্যান্য এরর পেজগুলো) সনাক্ত এবং ব্রাউজারেই সেটির বার্তা দেওয়ার মতো ব্যবস্থা তৈরি করছি। এতে করে ওয়েব ব্রাউজ করতে করতেই আপনি ওয়েব্যাক মেশিনের সহায়তা পাবেন।
এত সবকিছুর বাইরেও, আপনি ইন্টারনেট আর্কাইভ ও ওয়েব্যাক মেশিনের সহায়তা পেতে পারেন মাত্র একটি ইমেইল বা টুইটার বার্তার মাধ্যমে। আপনাদের যেকোনো প্রশ্ন, অনুরোধ, ত্রুটি সংশোধন (বাগ রিপোর্ট) বা সাফল্যের গল্প আমাদের সঙ্গে শেয়ার করুন। আমরা বিশেষভাবে শুনতে চাই, আমাদের সেবার কোন বিষয়গুলো আপনি পছন্দ করেন না, বা কোন জায়গাগুলোতে আমাদের আরো উন্নতি বা নতুন কিছু যোগ করার আছে। এগুলো জানতে পারলে আমরা সাংবাদিকদের চাহিদা ও আকাঙ্ক্ষা অনুযায়ী আরো ভালো সহায়তা দেওয়ার জন্য কাজ করতে পারব।
থামুন! আরো কিছু কথা…
জনসাধারণের জন্য উন্মুক্ত, ইন্টারনেটের এমন অংশের অনেকখানিই আর্কাইভ করে রাখছে ইন্টারনেট আর্কাইভ। এছাড়াও এখানে গড়ে তোলা হচ্ছে নানা বিষয়ের সংগ্রহ। এদের মধ্যে আছে আড়াই কোটির বেশি স্কলারলি পেপার (ইন্টারনেট আর্কাইভ স্কলার সার্ভিস); প্রায় ৩০ মিলিয়ন ইবুক ও টেক্সট যেগুলো প্রিভিউ করা যায়, ধার নেওয়া যায় বা ডাউনলোড করা যায়; এবং এখানে আর্কাইভ করা হয়েছে মিলিয়ন ঘন্টার বেশি টিভি নিউজ (বেশ কয়েকটি টিভি স্টেশনের প্রায় ১০ বছরের কনটেন্ট)। এসব কিছুই সার্চ করা যায় ফুল-টেক্সট ইনডেক্সিংয়ের মাধ্যমে।
ইন্টারনেট আর্কাইভ ও ওয়েব্যাক মেশিনের প্রকল্প ও সেবা সম্পর্কে হালনাগাদ তথ্য পেতে আমাদের ফলো করুন টুইটারে, @internetarchive ও @waybackmachine এবং পড়ুন আমাদের ব্লগ পোস্ট।
আরো পড়ুন
হোয়াট ইজ দ্য ইন্টারনেট আর্কাইভ অ্যান্ড হোয়াট ক্যান আই ফাইন্ড অন ইন?
হাও টু ইউজ দ্য ইন্টারনেট আর্কাইভ’স ওয়েব্যাক মেশিন
ইউজিং আর্কাইভ ডট অর্গ ফর ওসিন্ট ইনভেস্টিগেশনস
জিআইজেএন ওয়েবিনার: ইউজিং ওপেন সোর্স ইনফো টু রিপোর্ট ফ্রম হোম
মার্ক গ্রাহাম পাঁচ বছরেরও বেশি সময় ধরে ব্যবস্থাপনা করছেন ওয়েব্যাক মেশিনের। তার আগে, তিনি ছিলেন এনবিসি নিউজ ডিজিটালের সিনিয়র ভাইস প্রেসিডেন্ট। প্রথমবারের মতো যুক্তরাষ্ট্র-সোভিয়েত ইমেইল সেবা চালুতেও সহায়তা করেছেন গ্রাহাম। অনলাইনে আলোচনার জন্য তিনি প্রথম একটি ওয়েব-ভিত্তিক ইন্টারফেস তৈরির প্রকল্পে কাজ করেছিলেন। ইন্টারনেটে নারীদের জন্য প্রথম দিককার বিশেষ সেবা, আইভিলেজ পরিচালনাতেও সহায়তা করেছেন গ্রাহাম।