রিসার্চ ডেস্ক: ওয়েব্যাক মেশিনের রহস্য

English
বিশিষ্ট লাইব্রেরিয়ান ও পরামর্শক গ্যারি প্রাইস শুরু করেছেন দ্য রিসার্চ ডেস্ক নামের এই ফিচার। তিনি লেখালেখি করেন লাইব্রেরি জার্নালের ব্লগ ইনফোডকেট-এ। গ্যারি, জিআইজেএন-এর পাঠকদের পরিচয় করিয়ে দেবেন বিশ্বজুড়ে ছড়িয়ে থাকা ডাটাবেজ, ডিজিটাল টুল ও ডকুমেন্টের সঙ্গে।

ইনফোডকেট (@infodocket) শুরু করার আগে গ্যারি ছিলেন রিসোর্সশেল্ফ ও ডকুটিকারের সহ-প্রতিষ্ঠাতা। জ্যেষ্ঠ সম্পাদক হিসেবে কাজ করেছেন ১০ বছর ধরে। আস্ক ডট কমে তিনি কাজ করেছেন অনলাইন ইনফরমেশন সার্ভিসের ডিরেক্টর হিসেবে। দ্য ইনভিজিবল ওয়েব বইয়ের এই সহ-লেখক, কন্ট্রিবিউটিং এডিটর হিসেবে কাজ করেছেন সার্চ ইঞ্জিন জার্নালেও।

ইন্টারনেট আর্কাইভের অনেকগুলো সেবার মধ্যে একটি হলো দ্য ওয়েব্যাক মেশিন। ইন্টারনেটকে যারা গবেষণার কাজে ব্যবহার করেন তাদের জন্য এটা খুবই ‍উপকারী ও গুরুত্বপূর্ণ টুল।

কেন? এখন পর্যন্ত জনগণের জন্য উন্মুক্ত সবচেয়ে বড় ওয়েবপেইজ আর্কাইভ এই ওয়েব্যাক মেশিন (১৯৯৬ থেকে ২০১৫ সালের জানুয়ারি পর্যন্ত ৪৩৫ বিলিয়নের বেশি পেইজ আছে এখানে)। এটা ছাড়া, ইন্টারনেটের পুরোনো কন্টেন্ট খুঁজে পাওয়া এবং সেটা ব্যবহার করা প্রায় অসম্ভবই হয়ে পড়ত। আপনাকে পুরোনো কন্টেন্টের জন্য যোগাযোগ করতে হতো সেই সাইটের ওয়েবমাস্টারের সঙ্গে। আর জিজ্ঞাস করতে হতো, আপনার কাঙ্ক্ষিত পেইজের কপি তাদের কাছে আছে কিনা।

তবে ওয়েব্যাক মেশিন ব্যবহারের কিছু সীমাবদ্ধতাও আছে। এর মধ্যে একটি হলো এখানে কিওয়ার্ড ধরে সার্চ করা যায় না। আর প্রতিটি পেইজের প্রতিদিনের কন্টেন্ট যে এখানে পাবেন তা-ও নয়। কারণ, যে ওয়েব ক্রলার কন্টেন্ট আর্কাইভ করে, সেটি একই পেইজ প্রতিনিয়ত ভিজিট করে না।

৪৩৫ বিলিয়ন ওয়েবপেইজ থেকে কিওয়ার্ড দিয়ে সার্চ করতে পারলে দারুন হতো। ভবিষ্যতে হয়তো সেটাও আমরা দেখতে পাব। কিন্তু তার আগ পর্যন্ত এই ওয়েব্যাক মেশিনই সমাধান। এটি ব্যবহার করে যে কোনো ওয়েবপেইজ বা পিডিএফ লিংক সহজে আর্কাইভ করে ফেলা সম্ভব।

এই সুবিধা চালু হয়েছে বেশ কয়েক বছর আগে, কিন্তু অনেক ব্যবহারকারীর কাছেই তা অজানা থেকে গেছে।

এতে দু’টি সুবিধা। একদিকে ওয়েব্যাক মেশিন ব্যবহার করে আপনি ইন্টারনেটের যেকোনো কন্টেন্ট  বিনাপয়সায় আর্কাইভ করছেন। আর এই কাজ করতে গিয়ে আপনি তাদের ডেটাবেজকেও সমৃদ্ধ করছেন।

এবার ওয়েব্যাক মেশিনের ডিরেক্টর মার্ক গ্রাহামের ২০১৮ সালে দেওয়া এক অডিও প্রেজেন্টেশন থেকে জেনে নেওয়া যাক, কীভাবে কাজটি করবেন।

কীভাবে এটা কাজ করে

১. শুরুতেই চলে যান দ্য ওয়েব্যাক মেশিনের হোমপেইজে: http://web.archive.org

২. নিচে ডানদিকে ‘সেভ পেইজ নাও’ বাটনটি খুঁজে নিন।

৩. আরেকটি ব্রাউজার ট্যাব বা উইন্ডো থেকে যে পেইজ বা পিডিএফ আপনি আর্কাইভ করতে চান, সেটা কপি করুন।

৪.

অনুসন্ধানী সাংবাদিকতায় জরিপ: যে খবর এড়িয়ে যাওয়া কঠিন

কখনো কখনো ছোট ছোট স্থানীয় সংবাদপত্র এমন সব বড় খবরের জন্ম দেয়, যা হেভিওয়েট জাতীয় পত্রিকাগুলোতে খুঁজে পাওয়া যায় না। রাজধানী ঢাকা থেকে প্রায় দুইশ কিলোমিটার দূরে, যশোরের গ্রামের কাগজের ঘটনাও ঠিক একই রকম।

নাম ও ওয়েবসাইট ট্র্যাকিং, ভিডিও যাচাই এবং ক্লাস্টারিং সার্চ ইঞ্জিন

চলতি মাসের টুলবক্সে আমরা নজর দিয়েছি অনলাইন গবেষণার রিয়েল-টাইম রেকর্ড সংরক্ষণের ওপর। এজন্য সার্চ ইঞ্জিন ও ভিডিও ভেরিফিকেশন টুলসসহ বেশকিছু উদাহরণ তুলে ধরা হয়েছে, যা আপনাকে পুরনো সার্চ ফলাফল খুঁজে বের করার নানান উপায়ের সাথে পরিচয় করিয়ে দেবে।

টুলবক্স: অন্তর্জালে জাল পেতে মানুষ খোঁজার পদ্ধতি

ইমেল ঠিকানা, ইউজার নেম, বিভিন্ন সাইটে অ্যাকাউন্ট – এমন তথ্য দিয়ে আপনি যে কারো প্রোফাইল তৈরি করতে পারেন এবং সেটি কাজে লাগাতে পারেন আরো গভীর অনুসন্ধানের জন্য। কিন্তু কীভাবে খুঁজবেন এসব তথ্য?

তথ্য যাচাই, সাইবার হামলা আর ক্ষ্যাপাটে অনুসন্ধানীদের নিয়ে যা বললেন বেলিংক্যাটের ইলিয়ট হিগিন্স

আমরা এমন একটা পৃথিবীতে বাস করছি যেখানে প্রযুক্তি প্রতিনিয়ত প্রতিটি ক্ষেত্রে পরিবর্তন আনছে। প্রত্যেক পাঠক (সাংবাদিকসহ) প্রতিনিয়ত “ভূয়া সংবাদ” এর মুখোমুখি হচ্ছে এবং দিন দিন তা চিহ্নিত করাও হয়ে উঠছে কঠিন। এই কারণে সঠিক পথের দিক-নির্দেশনা বেশ জটিল হয়ে গেছে। বেলিংক্যাট ভুয়া খবর ও মিথ্যা তথ্যের এই জোয়ারকে কীভাবে মোকাবেলা করছে, বলেছেন সংগঠনের প্রতিষ্ঠাতা ইলিয়ট হিগিন্স

অনলাইনে গবেষণা ও অনুসন্ধানের যত কৌশল

ওপেন সোর্স অনুসন্ধানের জন্য সবচে জরুরী টুল হলো সার্চ ইঞ্জিন। এর সাথে যদি সোশ্যাল মিডিয়া, ডোমেইন লুক-আপ এবং সংবাদপত্র ও টেলিফোন ডিরেক্টরির মত প্রথাগত উৎস যোগ করা যায়, তাহলে শুধু ইন্টারনেটে ঘাঁটাঘাটি করেই আপনি অনুসন্ধানী রিপোর্টের জন্য অনেক কার্যকর তথ্য বের করে আনতে পারবেন।