প্রবেশগম্যতা সেটিংস

The Internet Archive and its Wayback Machine are invaluable tools for investigative journalists. Image: Shutterstock

রিসোর্স

» টিপশীট

বিষয়

আপনার পরবর্তী অনুসন্ধানে ওয়েব্যাক মেশিন ব্যবহার করবেন যেভাবে

আর্টিকেলটি পড়ুন এই ভাষায়:

“সব ধরনের জ্ঞানে সবার প্রবেশাধিকার” নিশ্চিত করার মিশন নিয়ে এবছর ২৫তম জন্মবার্ষিকী পালন করছে ইন্টারনেট আর্কাইভ। এটি একটি অলাভজনক লাইব্রেরি, যা বেশি পরিচিতি পেয়েছে ওয়েব্যাক মেশিনের জন্য, যেখানে প্রতিদিন একশ কোটির বেশি ইউআরএল আর্কাইভ হয়। এর ফলে, ইন্টারনেটের একটি বিপুল অংশ আর্কাইভ ও সবার কাছে উন্মুক্ত হতে থাকে। আমি বর্তমানে এই ওয়েব্যাক মেশিনের দেখভাল করছি।ওয়েব্যাক মেশিন একটি ফ্রি সেবা। প্রতিদিন অসংখ্য সাংবাদিক, গবেষক, তথ্য যাচাইকারী, অ্যাক্টিভিস্ট ও সাধারণ মানুষ এটি ব্যবহার করছেন। আমাদের নাম বা সূত্র উল্লেখ করে হাজার হাজার প্রবন্ধ-প্রতিবেদন এরই মধ্যে প্রকাশিত হয়েছে। এমনকি, ২০২০ সালে জিআইজেএন-এর আমার প্রিয় টুল সিরিজের ক্ষেত্রেও দেখা গেছে, অনেক অগ্রণী অনুসন্ধানী সাংবাদিক এটিকে বর্ণনা করেছেন তাদের প্রাত্যহিক কাজের অন্যতম টুল হিসেবে।

যে রিপোর্টাররা তাদের আগামী অনুসন্ধানে ওয়েব্যাক মেশিন ব্যবহারের সুযোগ খুঁজছেন, তাদের জন্য এখানে থাকছে কিছু প্রাথমিক কথা।

ইউআরএল আর্কাইভ করা

আপনি যদি কোনো প্রতিবেদনে একটি ওয়েবসাইটের সূত্র উল্লেখ করেন এবং তারপর সেই ওয়েবসাইটটির কিছু গুরুত্বপূর্ণ পেজ বা পুরো সাইটটিই যদি মুছে দেওয়া হয়, তাহলে সেখানকার যাবতীয় তথ্য চিরদিনের জন্য হারিয়ে যাবে, যদি সেটি আর্কাইভ করা না থাকে। আপনি নিশ্চয়ই এমনটি হতে দিতে চাইবেন না!

বিশ্বজুড়ে, প্রতিদিন ওয়েব্যাক মেশিনের “সেইভ পেজ নাও” সার্ভিস ব্যবহার করে কোটি কোটি ইউআরএল আর্কাইভ করছেন আমাদের ব্যবহারকারীরা। যে কেউ এখানে ইউআরএল সেইভ করতে পারেন। এবং আপনি যদি একটি ফ্রি অ্যাকাউন্ট খুলে লগইন অবস্থায় থাকেন, তাহলে কোনো পেজের মধ্যে থাকা বাইরের লিংকগুলোও (“আউটলিংকস”) আর্কাইভ করে ফেলতে পারবেন এবং গোটা প্রক্রিয়ার একটি পূর্ণাঙ্গ প্রতিবেদনও চলে যাবে আপনার মেইলে। আরো একটি গুরুত্বপূর্ণ ফিচার হচ্ছে আপনি একটি ওয়েব আর্কাইভ কালেকশন জিপড (ডব্লিউএসিজেড) ফাইলে সংগ্রহিত ইউআরএল ডাউনলোড ও আপনার নিজস্ব টুলগুলোর সঙ্গে যাচাই-বাছাই/ সমন্বয় করতে পারেন।

সেভ পেজ নাও অপশনটির মাধ্যমে আপনি স্বয়ংক্রিয়ভাবে টুইটার আর্কাইভ করতে পারেন। যেমন, এখানে যেকোনো টুইটার প্রোফাইলের ইউআরএল দিয়ে এবং প্রাসঙ্গিক অপশন সিলেক্ট করে দিলে সেই প্রোফাইলের সাম্প্রতিক ৩২০০ টুইট সহজে আর্কাইভ করে ফেলতে পারবেন।

কিছু কারিগরী বিষয় হলো: আপনি যদি একসাথে বেশ কিছু ইউআরএল-এর একটি তালিকা আর্কাইভ করতে চান, তাহলে সেগুলোকে একটি গুগল শিটের “এ” কলামে যোগ করুন, এবং গুগল শিটস সার্ভিসের “সেইভ পেজ নাও” (যেটি পাবেন এখানে)-এ সাবমিট করুন। তাহলে কলাম বি, সি ও ডি স্বয়ংক্রিয়ভাবে পূরণ হয়ে যাবে একটি স্ট্যাটাস কোড, আর্কাইভ করা ইউআরএল, এবং একটি ফ্ল্যাগ দিয়ে। এখান থেকে বোঝা যাবে ইউআরএলটি ওয়েব্যাক মেশিনে আগেই আর্কাইভ করা হয়েছে কিনা।

ইউআরএল আর্কাইভ করার আরেকটি উপায় হলো: সেগুলো “spn@archive.org”-এই ঠিকানায় ইমেইল করা। আপনি যদি ইমেইলের বিষয়ের জায়গায় “ক্যাপচার আউটলিংকস” যোগ করে দেন, তাহলে মূল ইউআরএলের পেজে থাকা অন্যান্য বাইরের লিংকগুলোও আর্কাইভ হয়ে যাবে। এবং পুরো প্রক্রিয়াটি শেষ হলে আপনি রিপোর্ট পেয়ে যাবেন আপনার মেইলে।

যারা এসব প্রযুক্তিগত কারিগরী কাজে আরো দক্ষ, তাদের জন্য ওয়েব্যাক মেশিন একটি এপিআই, বা প্রোগ্রামিং ইন্টারফেসও সরবরাহ করে থাকে। যার মাধ্যমে আপনি নিজস্ব কোনো সফটওয়্যারের সাথে এটির সংযোগ ঘটাতে পারেন; অথবা নতুন কোনো অ্যাপ্লিকেশন বানানোর সময় বা কাজের প্রক্রিয়া স্বয়ংক্রিয় করে তুলতে সাহায্য করায় ব্যবহার করতে পারেন। এর একটি উদাহরণ হতে পারে মেডান। সান ফ্রান্সিসকো-ভিত্তিক এই অলাভজনক প্রযুক্তি কোম্পানি তাদের “চেক” সার্ভিসের সঙ্গে যুক্ত করেছে ওয়েব্যাক মেশিনকে। মেডান এমন ধরনের সফটওয়্যার বানায় ও উদ্যোগ নেয়, যা বৈশ্বিক সাংবাদিকতাকে আরো শক্তিশালী করে।

আর্কাইভ করা বিভিন্ন সংস্করণের মধ্যে তুলনা

কখনো ভেবেছেন বা খোঁজ করেছেন: একই ওয়েব পেজের দুটি ভিন্ন সময়ের সংস্করণের মধ্যে পার্থক্য আছে কিনা? দেখতে চেয়েছেন: কোনো কোম্পানি বা ব্যক্তি তাদের সাইটে পরিবর্তন এনেছে কিনা, বা নতুন কিছু যোগ করেছে কিনা? এই কাজগুলো আপনি চাইলে করতে পারেন ওয়েব্যাক মেশিনের “চেঞ্জেস” ফিচার দিয়ে।

এটি করার জন্য, ওয়েব্যাক মেশিনের হোমপেজে যে কোনো আর্কাইভ করা ইউআরএল বসিয়ে সার্চ করুন। এরপর “চেঞ্জ” অপশনটি বাছাই করুন।

এবার আপনি সেই ইউআরএলের বিভিন্ন সময়ের আর্কাইভ করা ভার্সনের তালিকা দেখতে পাবেন। এক ভার্সন থেকে অন্য ভার্সনে কী মাত্রার পরিবর্তন হয়েছে, তা বোঝানো হয়েছে কালার কোড দিয়ে।

এবার যে কোনো দুই সময়ের দুটি ভার্সনের ইউআরএল বাছাই করলে সেগুলো পাশাপাশি দেখাবে। লেখায় কোনো পরিবর্তন থাকলে সেগুলো হাইলাইট করে দেখিয়ে দেওয়া হবে নীল ও হলুদ রঙে। কিভাবে এক ব্রিটিশ ব্লগার ও রাজনৈতিক পরামর্শদাতা কিভাবে ইতিহাস পুনর্লিখনের চেষ্টা করেছিলেন, তা দেখানো হয়েছিল এই অপশনটি ব্যবহার করে। নিচে দেখুন স্ক্রিনশট।

The Wayback Machine showing how Dominic Cummings made stealth additions (in blue) to a blog post. Image: Screenshot

ওয়েব্যাক মেশিনের “চেঞ্জেস” ফিচারটি দিয়ে ধরা গিয়েছিল: ব্রিটিশ প্রধানমন্ত্রীর সাবেক প্রধান পরামর্শক, ডোমিনিক কামিন্স কিভাবে তাঁর আসল ব্লগপোস্টে (বামে) পরবর্তীতে গোপনে পরিবর্তন (ডানে, নীল কালিতে) এনেছিলেন। ছবি: স্ক্রিনশট

আর্কাইভে গভীর সার্চ

সংগ্রহিত ইউআরএলগুলোর সাব-ইউআরএল অনুসন্ধান করতে আপনি কীওয়ার্ড এবং/অথবা মাইম-টাইপ ব্যবহার করে ওয়েব্যাক মেশিনের ইউআরএলএস অপশন কাজে লাগাতে পারেন। গুরুত্বপূর্ণ সংগ্রহগুলো চিহ্নিত করার মাধ্যমে আপনি সহজেই ফলাফল আলাদা ও বাছাই করতে সমর্থ হবেন।

আমাদের প্রকৌশলীরা নির্দিষ্ট ফাইল এবং ওয়েবসাইটগুলো সুনির্দিষ্টভাবে তালিকাভুক্ত করেছেন। তাই ওয়েব্যাক মেশিন সম্পূর্ণ পাঠ্য নির্ভর অনুসন্ধান (টেক্সট-সার্চ) ইন্টারফেসের সুযোগ করে দেয়। ওয়েব্যাক মেশিন-এর হোমপেজের নীচে “কালেকশন সার্চ” অপশনে চোখ রাখুন। হারিয়ে যাওয়া উল্লেখযোগ্য ওয়েবসাইট যেমন পোয়েট্রি ডটকম, রাশিয়ান ইন্ডিপেন্ডেন্ট মিডিয়া এবং ৭৪৯এম পিডিএফ ফাইলের একটি সংগ্রহ চোখে পড়বে আপনার। এছাড়া রয়েছে ইন্টারনেট আর্কাইভ হোম পেজ, যেখানে আপনি আরো কিছু তথ্য পাবেন। আপনি যদি আমাদের মাধ্যমে আর্কাইভের সুনির্দিষ্ট সংগ্রহগুলো তালিকাভুক্ত করতে চান (যেমন, যেগুলো বিভিন্ন ইউআরএল প্যাটার্নের সঙ্গে মিলে যায়), সেক্ষেত্রে info@archive.org-এর মাধ্যমে আমাদের সঙ্গে যোগাযোগ করতে পারেন।

ওয়েব্যাক মেশিনের এপিআই ব্যবহার 

“সেইভ পেজ নাও” সার্ভিসের মাধ্যমে আর্কাইভ করার সুবিধা দেওয়া এপিআই ছাড়াও, এমন কিছু এপিআই-ও আছে যেগুলো দিয়ে আপনি ওয়েব্যাক মেশিনে খোঁজ করতে পারবেন যে, কোনো নির্দিষ্ট ইউআরএল আগেই আর্কাইভ করা হয়েছে কিনা। এ বিষয়ে বিস্তারিত পড়ুন এখানে

এর বেশিরভাগ সার্ভিসের মতো, ওয়েব্যাক মেশিনেও এপিআই ব্যবহারের কোনো আনুষ্ঠানিক সীমা নেই।  তবে, মাঝেমধ্যে এটি কিছু নিয়ন্ত্রণমূলক ব্যবস্থা নেয়। আপনি যদি এমন কোনো পরিস্থিতির মুখোমুখি হন, তাহলে আমাদের ইমেইল বা টুইটারে মেসেজ করুন। সাংবাদিকদের সহায়তা দেওয়া আমাদের সর্বোচ্চ অগ্রাধিকার।

আর্কাইভ পেজগুলোতে প্রেক্ষাপট যোগ করা

আমরা বুঝি যে, কোনো আর্কাইভ সম্পর্কে পূর্ণাঙ্গ বোঝাপড়া তৈরির জন্য সেটির প্রেক্ষাপট ও উৎস উল্লেখ করা খুবই জরুরি। এটি মাথায় রেখে, আমরা কনটেক্সট ব্যানার যোগ করা শুরু করেছি, যেন আমাদের আর্কাইভ করা রিসোর্সগুলো আরো ভালোভাবে বোঝা যায়। এই ধরনের ব্যানার ব্যবহার করা হতে পারে যদি আর্কাইভ করা কোনো ওয়েবপেজ মুছে দেওয়া হয়, বা যখন কোনো পেজ নিয়ে লেখালেখি হয় কোনো সুপরিচিত গবেষণা প্রতিষ্ঠানের পক্ষ থেকে।

কোনো আর্কাইভ করা পেজ বাইরের কোনো জায়গায় ব্যবহার করা হলে, ওয়েব্যাক মেশিনে একটি হলুদ হেডার যুক্ত করা হয়। এবং সেখানে “অ্যাবাউট দিস ক্যাপচার” ট্যাবে ক্লিক করলে পেজের আরো অনেক ঐতিহাসিক প্রেক্ষাপট দেখা যায়। ছবি: স্ক্রিনশট

একটি ওয়েব পেজ ভালোভাবে বোঝার জন্য সেটিতে আর্কাইভ করা প্রতিটি  ইউআরএলের উৎস জানতে পারা খুবই গুরুত্বপূর্ণ। যেমন, আর্কাইভ করা ওয়েব পেজের কোনো একটি ছবি কী পেজের অন্যান্য জিনিসগুলোর সঙ্গেই আর্কাইভ করা হয়েছিল নাকি আলাদা সময়ে? এসব তথ্য আপনি দেখতে পারবেন প্রতিটি আর্কাইভ করা ইউআরএল প্লেব্যাক পেজের উপরে-ডানদিকে, “অ্যাবাউট দিস ক্যাপচার” লিংকে ক্লিক করে।

আর্কাইভের বিশ্বাসযোগ্যতা বজায় রাখার জন্য আমরা এখানে অনেক মনোযোগ দিয়েছি ও যত্ন নিয়েছি। পেজগুলোর আদি উৎস উল্লেখ করার মাধ্যমে আমরা স্বচ্ছতাও বজায় রাখার চেষ্টা করেছি। সব মিলিয়ে ওয়েব্যাক মেশিনের ওপর মানুষের এমন আস্থা জন্মেছে যে, বিশ্বজুড়ে বেশ কয়েকটি আদালতে প্রমাণ হিসেবে গ্রহণ করা হয়েছে ওয়েব্যাক মেশিনে সংরক্ষিত তথ্যকে।

“সেইভ পেজ নাও” ফিচার ব্যবহার করে তৈরি করা আর্কাইভ পেজগুলোতে যদি আপনি কনটেক্সট যোগ করতে চান, তাহলে আমাদের সঙ্গে যোগাযোগ করুন

ব্রাউজার এক্সটেনশন

আপনাদের প্রত্যাশা অনুযায়ী, আমরা ওয়েব ব্রাউজার এক্সটেনশনও তৈরি করেছি। সাফারি, ফায়ারফক্সক্রোম  তো আছেই, আইওএসঅ্যান্ডয়েড ডিভাইসের জন্যও এক্সটেনশন পাওয়া যায়। এছাড়া সার্চ ইঞ্জিন, ব্রেভ-এর সঙ্গে জোট বেঁধে আমরা 404 (ও অন্যান্য এরর পেজগুলো) সনাক্ত এবং ব্রাউজারেই সেটির বার্তা দেওয়ার মতো ব্যবস্থা তৈরি করছি। এতে করে ওয়েব ব্রাউজ করতে করতেই আপনি ওয়েব্যাক মেশিনের সহায়তা পাবেন।

এত সবকিছুর বাইরেও, আপনি ইন্টারনেট আর্কাইভ ও ওয়েব্যাক মেশিনের সহায়তা পেতে পারেন মাত্র একটি ইমেইল বা টুইটার বার্তার মাধ্যমে। আপনাদের যেকোনো প্রশ্ন, অনুরোধ, ত্রুটি সংশোধন (বাগ রিপোর্ট) বা সাফল্যের গল্প আমাদের সঙ্গে শেয়ার করুন। আমরা বিশেষভাবে শুনতে চাই, আমাদের সেবার কোন বিষয়গুলো আপনি পছন্দ করেন না, বা কোন জায়গাগুলোতে আমাদের আরো উন্নতি বা নতুন কিছু যোগ করার আছে। এগুলো জানতে পারলে আমরা সাংবাদিকদের চাহিদা ও আকাঙ্ক্ষা অনুযায়ী আরো ভালো সহায়তা দেওয়ার জন্য কাজ করতে পারব।

থামুন! আরো কিছু কথা…

জনসাধারণের জন্য উন্মুক্ত, ইন্টারনেটের এমন অংশের অনেকখানিই আর্কাইভ করে রাখছে ইন্টারনেট আর্কাইভ। এছাড়াও এখানে গড়ে তোলা হচ্ছে নানা বিষয়ের সংগ্রহ। এদের মধ্যে আছে আড়াই কোটির বেশি স্কলারলি পেপার (ইন্টারনেট আর্কাইভ স্কলার সার্ভিস); প্রায় ৩০ মিলিয়ন ইবুক ও টেক্সট যেগুলো প্রিভিউ করা যায়, ধার নেওয়া যায় বা ডাউনলোড করা যায়; এবং এখানে আর্কাইভ করা হয়েছে মিলিয়ন ঘন্টার বেশি টিভি নিউজ (বেশ কয়েকটি টিভি স্টেশনের প্রায় ১০ বছরের কনটেন্ট)। এসব কিছুই সার্চ করা যায় ফুল-টেক্সট ইনডেক্সিংয়ের মাধ্যমে।

ইন্টারনেট আর্কাইভ ও ওয়েব্যাক মেশিনের প্রকল্প ও সেবা সম্পর্কে হালনাগাদ তথ্য পেতে আমাদের ফলো করুন টুইটারে, @internetarchive@waybackmachine এবং পড়ুন আমাদের ব্লগ পোস্ট

আরো পড়ুন

হোয়াট ইজ দ্য ইন্টারনেট আর্কাইভ অ্যান্ড হোয়াট ক্যান আই ফাইন্ড অন ইন?

হাও টু ইউজ দ্য ইন্টারনেট আর্কাইভ’স ওয়েব্যাক মেশিন

ইউজিং আর্কাইভ ডট অর্গ ফর ওসিন্ট ইনভেস্টিগেশনস

জিআইজেএন ওয়েবিনার: ইউজিং ওপেন সোর্স ইনফো টু রিপোর্ট ফ্রম হোম

অনলাইনে অনুসন্ধানের যত টুল


Mark Graham thumbnail image মার্ক গ্রাহাম পাঁচ বছরেরও বেশি সময় ধরে ব্যবস্থাপনা করছেন ওয়েব্যাক মেশিনের। তার আগে, তিনি ছিলেন এনবিসি নিউজ ডিজিটালের সিনিয়র ভাইস প্রেসিডেন্ট। প্রথমবারের মতো যুক্তরাষ্ট্র-সোভিয়েত ইমেইল সেবা চালুতেও সহায়তা করেছেন গ্রাহাম। অনলাইনে আলোচনার জন্য তিনি প্রথম একটি ওয়েব-ভিত্তিক ইন্টারফেস তৈরির প্রকল্পে কাজ করেছিলেন।  ইন্টারনেটে নারীদের জন্য প্রথম দিককার বিশেষ সেবা, আইভিলেজ পরিচালনাতেও সহায়তা করেছেন গ্রাহাম। 

লেখাটি পুনঃপ্রকাশ করুন


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

পরবর্তী

পরামর্শ ও টুল

ত্রুটিপূর্ণ ও ভুয়া একাডেমিক গবেষণা নিয়ে কীভাবে কাজ করবেন

একাডেমিক গবেষণাপত্রের ওপর ভিত্তি করে শিক্ষা, স্বাস্থ্য, জলবায়ু পরিবর্তন ইত্যাদি বিষয়ে নেওয়া হয় গুরুত্বপূর্ণ সব সিদ্ধান্ত। ফলে ত্রুটিপূর্ণ ও ভুয়া গবেষণা অনেক সময় তৈরি করতে পারে নেতিবাচক প্রভাব। পড়ুন, কীভাবে এমন ত্রুটিপূর্ণ গবেষণা নিয়ে অনুসন্ধান করতে পারেন।

গাইড পরামর্শ ও টুল

প্রতিবন্ধীদের নিয়ে অনুসন্ধানের রিপোর্টিং গাইড: সংক্ষিপ্ত সংস্করণ

জাতিসংঘের মতে, প্রতিবন্ধী ব্যক্তিরা হচ্ছেন বৃহত্তম বিভক্ত সংখ্যালঘু জনগোষ্ঠী। কার্যত প্রতিটি রিপোর্টিং বীটেই প্রতিবন্ধী বিষয়ক দৃষ্টিকোণ থেকে আলোচনা বা কাজ করার সুযোগ রয়েছে।

Using Social Network Analysis for Investigations YouTube Image GIJC23

পরামর্শ ও টুল

অনুসন্ধানী সাংবাদিকতায় শক্তিশালী টুল সোশ্যাল নেটওয়ার্ক অ্যানালাইসিস

ডেটা-চালিত সাংবাদিকতার যুগে, বিভিন্ন বিষয়কে একসঙ্গে যুক্ত করার মাধ্যমে যুগান্তকারী সব তথ্য উন্মোচন করা সম্ভব। সোশ্যাল নেটওয়ার্ক অ্যানালাইসিস (এসএনএ) ঠিক এমন একটি কৌশল, যা ব্যবহার করে অনুসন্ধানী সাংবাদিকেরা ঠিক এ কাজটিই করতে পারেন।

পরামর্শ ও টুল

বৈশ্বিক সহযোগিতা ও কৃত্রিম বুদ্ধিমত্তা: অনুসন্ধানী সাংবাদিকতার ভবিষ্যৎ গতিপথ 

কৃত্রিম বুদ্ধিমত্তা ও আন্তঃসীমান্ত সহযোগিতার সর্বোচ্চ ব্যবহার নিশ্চিত করা এবং এ সংক্রান্ত ভুলভ্রান্তি এড়ানোর পরামর্শ দিয়েছেন তিন অভিজ্ঞ সাংবাদিক।