

দেখুন, ওয়েবসাইট কনটেন্ট ও মেটাডেটা বিশ্লেষণে ওপেন সোর্স টুল ‘ইনফরমেশন লন্ড্রোম্যাট’ কীভাবে কাজ করে
নানা রকমের ওয়েবসাইট নিয়ে ঘাঁটাঘাঁটি করাটা আমার ভীষণ পছন্দের একটি কাজ। ভেরিফিকেশন হ্যান্ডবুকের সম্প্রতি প্রকাশিত সর্বশেষ সংস্করণে এর ওপর একটি অধ্যায়ও লিখেছি। বিভিন্ন ওয়েবসাইটের মধ্যকার যোগসূত্র, মালিকানা চিহ্নিত করা এবং কনটেন্টের ধরন ও বৈশিষ্ট্য বিশ্লেষণের জন্য আমি সবসময় নতুন টুল ও পদ্ধতি খুঁজে বের করতে চেষ্টা করি।
ওয়েবসাইট বিশ্লেষণে সবচেয়ে নতুন ও মজার টুলগুলোর মধ্যে ইনফরমেশন লন্ড্রোম্যাট একটি। কোনো খরচা না করেই আপনি এটি ব্যবহার করতে পারেন।জর্জ মার্শালের অর্থায়নে টুলটি বানিয়েছে অ্যালায়েন্স ফর সিকিউরিং ডেমোক্রেসি (এএসডি)। যা একইসঙ্গে কনটেন্ট ও মেটাডেটা বিশ্লেষণে সক্ষম। এএসডি, এএসডি, আমস্টারডাম বিশ্ববিদ্যালয় এবং ইন্সটিটিউট ফর স্ট্র্যাটেজিক ডায়ালগের গবেষকেরা তাদের যৌথ প্রতিবেদন “দ্য রাশিয়ান প্রোপাগান্ডা নেস্টিং ডল:হাউ আরটি ইজ লেয়ারড ইন্টু দ্য ডিজিটাল
ইনফরমেশন এনভায়রনমেন্ট” তৈরিতে ব্যবহার করেছে এ টুলটি।
ইনফরমেশন লন্ড্রোম্যাট মূলত দুটি বিষয় বিশ্লেষণ করতে পারে: প্রথমত, সাইটে পোস্ট করা কনটেন্টন্ট। দ্বিতীয়ত, ওই সাইট তৈরি ও পরিচালনার জন্য ব্যবহৃত মেটাডেটা। প্রাথমিকভাবে আমি টুলটি নিয়ে কিছু পরীক্ষা-নিরীক্ষা চালাই। আমার সে অভিজ্ঞতা আর টুলের ডেভেলপার পিটার বেনজোনির সাথে আলাপচারিতার ভিত্তিতে টুলটির কার্যকারিতাগুলো তুলে ধরছি।
পিটার আমাকে বলেছেন যে, ইনফরমেশন লন্ড্রোম্যাট প্রধানত লিড জেনারেশনের (বিপণন প্রক্রিয়া—যা পণ্য বা সেবা সম্পর্কে আগ্রহী সম্ভাব্য গ্রাহকদের (leads) তথ্য সংগ্রহ করে) ক্ষেত্রে সবচেয়ে ভালো কাজ করে।
তবে “এটি আপনার অনুসন্ধানকে পুরোপুরি স্বয়ংক্রিয় করার জন্য তৈরি করা হয়নি।” ইনফরমেশন লন্ড্রোম্যাট ওপেন সোর্স টুল এবং এএসডির গিটহাব অ্যাকাউন্টে পাওয়া যায়।
বিভিন্ন কনটেন্টের একই ধরনের বিশ্লেষণ

ছবি: স্ক্রিটশট, ডিজিটাল ইনভেস্টিগেশনস
একটি লিঙ্ক, শিরোনাম, বা টেক্সটের একটি অংশ বিশ্লেষণ করে অন্যান্য ওয়েব প্রপার্টিতে একই ধরনের বা অভিন্ন কনটেন্টকে চিহ্নিত করতে পারে এ টুলটি। যা এএসডির অনুসন্ধানে বেশ কাজে লেগেছে। কারণ গবেষকেরা দেখতে চেয়েছিলেন কোন কোন সাইটগুলো নিয়মিত রাষ্ট্র নিয়ন্ত্রিত সংবাদমাধ্যম রাশিয়া টুডের (আরটি) কনটেন্টগুলো নকল (কপি) করছে। গবেষণা অনুসারে তাঁরা এমন কিছু সাইট শনাক্ত করতে সক্ষম হন, যেগুলো ধারাবাহিকভাবে আরটির কনন্টেট পুনর্মুদ্রণ, আরটির সংবাদগুলো ইন্টারনেটে ছড়িয়ে দেওয়া ও সুস্পষ্টভাবে তুলে ধরতে সাহায্য করত।
টুলটি কীভাবে কাজ করে
- আপনি যে লিঙ্ক, শিরোনাম, বাটেক্সটের অংশ পরীক্ষা করতে চান, তা লিখুন।
- সিস্টেমটিসার্চ ইঞ্জিন, কপিস্কেপ প্লেজিয়ারিজম চেকার টুল, এবং জিডিইএলটি ডেটাবেস ব্যবহার করে আপনার সোর্স কনটেন্ট ও অন্যান্য সাইটের কনটেন্ট বিশ্লেষণ করে এবং কনটেন্টগুলোর মধ্যে কী ধরনের মিল আছে সেগুলোর তালিকা করে।
- খুঁজে পাওয়া ফলাফলগুলো আপনার বিষয়বস্তুর সাথে কতটা সাদৃশ্যপূর্ণ সে অনুযায়ী শতকরাহার হিসেবে সাজানো হয়।
এমন একটি ইউআরএল (URL) ব্যবহার করে আমি একটি নমুনা অনুসন্ধান চালাই। আমি ভালোভাবেই জানতাম যে, এটি অন্য জায়গায় প্রকাশিত একটি প্রতিবেদনের পুরোপুরি নকল কপি। ফলাফলস্বরূপ, ইনফরমেশন লন্ড্রোম্যাট নিভুর্লভাবে ওই প্রতিবেদনের মূল উৎস শনাক্ত করে এবং ৯৭ শতাংশ মিল রয়েছে বলে তথ্য দেয়।

ছবি: স্ক্রিনশট, ডিজিটাল ইনভেস্টিগেশনস
তবে এই টুলটি কী করে না, সেটাও পরিষ্কারভাবে বলা হয়েছে।
টুলটির ‘কনটেন্ট সিমিলারিটি সার্চ’ উন্মুক্ত ওয়েবসাইট থেকে একই ধরনের লেখা বা নিবন্ধ খুঁজে বের করার চেষ্টা করে। তবে লেখাটির মূল উৎস কী কিংবা পোস্ট করা একই ধরনের টেক্সটের মধ্যে কোনো সম্পর্ক আছে কিনা, সে বিষয়ক কোনো তথ্য-প্রমাণ হাজির করে না। কেননা, কোনো নির্দিষ্ট টেক্সটের উৎস খুঁজে বের করা টুলটির কাজের মধ্যে পড়ে না।
আপনার সামনে যদি একসাথে অনেকগুলো ফলাফল হাজির হয়, সেক্ষেত্রে পিটার পরামর্শ দিয়েছেন:
“সবকিছু ডাউনলোড করে এক্সেলে নিয়ে নিন এবং পিভট টেবিল (ডাটা বিশ্লেষণ টুল) ব্যবহার করে নিজেই বিশ্লেষণ করুন।”
পিটারের মতে, যেসব সাইটের সিমিলারিটি রেটিং বেশি বা ৭০ শতাংশের কাছাকাছি স্বাভাবিকভাবেই সে সাইটগুলো সবচেয়ে গুরুত্বপূর্ণ হতে পারে। এছাড়া, আপনি যদি নিবন্ধিত ব্যবহারকারী হন তাহলে টুলটির ব্যাচ আপলোড অপশনটি ব্যবহার করতে পারেন।
মেটাডাটার মিলগুলো বিশ্লেষণ

ইমেজ: স্ক্রিনশট, ডিজিটাল ইনভেস্টিগেশনস
ইনফরমেশন লন্ড্রোম্যাটের মেটাডেটা সিমিলারিটি টুলটি তখনই সবচেয়ে কার্যকরভাবে কাজ করে যখন আপনার কাছে বিশ্লেষণের জন্য একাধিক সাইটের একটি তালিকা থাকে। একক সাইট বিশ্লেষণ করাও সম্ভব, তবে তা কম কার্যকর।কীভাবে কাজ করে:
- আপনিযে ডোমেইনগুলোর মধ্যে যোগসূত্র খুঁজতে চান, সেগুলোর একটি তালিকা দিন।
- টুলটিপ্রতিটি ডোমেইন স্ক্যান করে। এতে আইপি অ্যাড্রেস, সোর্স কোডসহ সাইটের ধরন বিশ্লেষণ করে ইউনিক ইন্ডিকেটর বের করে এবং ডোমেইনগুলোর মধ্যে কোনো ওভারল্যাপ আছে কিনা তা চিহ্নিত করে। এটি সরাসরি আইপি অ্যাড্রেসের মিল খুঁজে বের করে। একই ধরনের আইপি রেঞ্জে হোস্ট করা সাইটগুলোকেও উল্লেখ করে। যদিও একই আইপি রেঞ্জ দুর্বল সংযোগ নির্দেশ করে, তবুও তা গুরুত্বপূর্ণ হতে পারে। টুলটি ভিন্ন ধরনের বিজ্ঞাপন এবং অ্যানালিটিক্স কোড খোঁজার পাশাপাশি সাইটের সিএসএস ফাইল (CSS ফাইল হচ্ছে স্টাইল শিট ফাইল যা ওয়েব পেজের ডিজাইন এবং লেআউট নির্ধারণে ব্যবহৃত হয়) স্ক্যান করে মিলগুলো চিহ্নিত করে। পিটার বলেছেন, “৯০ শতাংশ বা এর বেশি মিল রয়েছে এমন সিএসএস ক্লাস থাকলে টুলটি গুরুত্বপূর্ণ হিসেবে তা চিহ্নিত করে। (টুলটির সবগুলো ওয়েবসাইট ইন্ডিকেটরের তালিকা দেখতে ক্লিক করুন এখানে।)
মেটাডেটা পেজে ফলাফল দুটি বিভাগে ভাগ করা হয়:
- প্রথমটেবিলে প্রতিটি সাইটের ইন্ডিকেটরগুলোকে তালিকাভুক্ত করা হয়।
- দ্বিতীয়টেবিলে সাইটগুলোর মধ্যে শেয়ার করা ইন্ডিকেটরগুলো চিহ্নিত করা হয়।
- টুলটি বিভিন্ন ইনডিকেটর অনুসারে প্রাপ্ত ফলাফলগুলোকে শ্রেণীবদ্ধ করে (এসম্পর্কে আরও বিস্তারিত নিচের অংশে ব্যাখ্যা করা হয়েছে।)
পিটার বলেন, “এখানে মূল লক্ষ্য হচ্ছে এমন কিছু খুঁজে বের করা, যা একে অপরের সাথে সাইটগুলোর সম্পর্ক বা সংযোগগুলো তুলে ধরে।”
আপনি যদি অ্যানালিটিক্স এবং বিজ্ঞাপন কোডের মাধ্যমে বিভিন্ন সাইট লিংকের পদ্ধতি ব্যবহারে নতুন হন, তাহলে এই মৌলিক গাইড এবং আমার সাম্প্রতিক একটি লেখা ( তবে প্রথমে গাইডটি পড়ুন!) থেকে প্রাথমিক ধারণা পারেন। ইনফরমেশন লন্ড্রোম্যাটের মেটাডেটা মডিউল আপনার জন্য তখনই সবচেয়ে কার্যকর হবে, যখন আপনি ওয়েবসাইটের ধরন (যেমন আইপি অ্যাড্রেস) সম্পর্কে জানেন এবং ইন্ডিকেটর ব্যবহার করে সাইটগুলোর মধ্যের যোগসূত্র বের করতে শিখবেন। তবে টুল ব্যবহারের ঝুঁকি হচ্ছে, যদি আপনি প্রতিটি ইন্ডিকেটর ও সংযোগের কার্যকারিতা এবং দুর্বলতাগুলো না বোঝেন, তাহলে ভুল সিদ্ধান্ত নেওয়ার সম্ভাবনা থাকে। (এ বিষয়ে নিচে আরও ব্যাখ্যা রয়েছে।)
পিটার যেমনটা বলেছেন, একাধিক সাইটের মধ্যে সংযোগ খুঁজে বের করার শুরুটা করতে পারেন মেটাডেটা বিশ্লেষণ টুল ব্যবহার করে।
তিনি বলেন, “আপনার কাছে যদি সাইটগুলোর একটি তালিকা থাকে এবং আপনি সম্ভাব্য ওভারল্যাপ সম্পর্কে জানতে চান, তাহলে দ্রুত স্ন্যাপশট নেওয়ার ভালো উপায় এটি। তাছাড়া এটি একাধিক টুলে ম্যানুয়ালি পরীক্ষা চালানোর তুলনায় অনেক সহজ।”
পিটারের কথার সাথে আমিও একমত। কনন্টেটের মিল রয়েছে—আপনার কাছে যদি এ ধরনের সাইটের তালিকা থাকে, তাহলে কাজ শুরুর জন্য তা বেশ ভালো উপায়। ইনফরমেশন লন্ড্রোম্যাট সম্ভাব্য সংযোগগুলো সম্পর্কে বেশ কার্যকর ধারণা দেয়।এরপর ডিএনএসলিটিকস (DNSlytics), বিল্টউইথ (BuiltWith), স্পাইঅনওয়েব (SpyOnWeb)-সহ আপনার পছন্দের ডিএনএস প্ল্যাটফর্ম (ডাটাবেস বা টুল) ব্যবহার করে আপনি এগুলো নিয়ে আরও গভীরভাবে বিশ্লেষণ চালাতে পারেন ।
যদিও টুলটি একাধিক ডোমেইনে সবচেয়ে ভালো কাজ করে,তবে আপনি একটি একক ইউআরএল দিয়েও মেটাডেটা (এটি এমন ডেটা যা নির্দিষ্ট ডেটাকে সংজ্ঞায়িত, বর্ণনা বা বিশ্লেষণ করতে সহায়তা করে) নিয়ে অনুসন্ধান চালাতে পারেন। আপনি যদি সিস্টেম থেকে অ্যানালিটিক্স কোডের মতো ইন্ডিকেটর খুঁজতে চান, এটি তখন আরো ভালোভাবে কাজ করে। ডিএনএসলিটিকসের মতো প্ল্যাটফর্মে আপনি সহজেই এ ইন্ডিকেটর খুঁজতে পারেন। তাছাড়া ইনফরমেশন লন্ড্রোম্যাট ডেটাবেসে সংরক্ষিত প্রায় ১০,০০০ ডোমেইনের তালিকার ইউআরএলে এ ধরনের কোনো ইন্ডিকেটরের কথা বলা আছে কিনা, তাও দেখতে পারেন। টুলটির about পেজে সোর্সের তালিকা রয়েছে।
- ইইউবনাম ডিসইনফোর ডেটাবেস
- অংশীদার ওসংশ্লিষ্ট সংস্থাগুলোর গবেষণা, যেমন ইন্সটিটিউট ফর স্ট্র্যাটেজিক ডায়ালগের (আইএসডি) আরটি মিরর সাইটের প্রতিবেদন।
- রাষ্ট্রনিয়ন্ত্রিতপরিচিত সংবাদসংস্থার সাইট।
- অবিশ্বস্তসূত্র, পিঙ্ক স্লাইম সাইট (এ ধরনের ওয়েবসাইট বা মিডিয়া প্ল্যাটফর্ম সাধারণত মানহীন ও বিভ্রান্তিকর তথ্য প্রকাশ করে) এবং ভুয়া স্থানীয় নিউজ সাইটের তালিকা।
- উইকিপিডিয়ারভুয়া নিউজ সাইটের তালিকা এবং উইকিডেটার নিউজ সাইট তালিকা।
বিশেষভাবে লক্ষণীয়, পিটার বলেছেন যে এখন পর্যন্ত এই টুলে ব্যবহারকারীদের ইনপুট করা ডোমেইনগুলো ডেটাবেসে সংযোজন করা হয় না। তাই আপনি যদি সংবেদনশীল ডোমেইনের একটি তালিকা ব্যবহার করে অনুসন্ধান করেন, তাহলে আশ্বস্ত হতে পারেন যে, আপনার সাইটগুলো ইনফরমেশন লন্ড্রোম্যাটের ডেটাসেটে যোগ হবে না।
টেকনিক্যাল ওয়েবসাইট ইন্ডিকেটর র্যাংকিং
উপরে যেমনটা বলা হয়েছে, সাইটগুলোর ইন্ডিকেটরের কার্যকারিতা এবং দুর্বলতা বোঝাটা গুরুত্বপূর্ণ। তা না হলে, সাইটগুলোর মধ্যেকার সংযোগের বিষয়গুলো বাড়াবাড়ি রকমভাবে উপস্থাপনের ঝুঁকি থেকে যায়। আশার কথা, ইনফরমেশন লন্ড্রোম্যাটের ডকুমেন্টেশন ইন্ডিকেটরগুলোর কার্যকর বিশ্লেষণগুলোকেই তুলে ধরে।
যেমন, বেশিরভাগ সাইট যদি একাধিক ওয়ার্ডপ্রেস (ওপেন সোর্স কনটেন্ট ম্যানেজমেন্ট সিস্টেম বা CMS) ব্যবহার করে, তাহলে ধরে নেবেন সংযোগগুলো দুর্বল। কারণ কোটি কোটি সাইট ওয়ার্ডপ্রেস ব্যবহার করে; যা কাজের কিছু নয়। তবে, যদি সাইটগুলো একই গুগল অ্যাডসেন্স (Google AdSense) কোড ব্যবহার করে, তাহলে ওই সংযোগগুলো অনেক বেশি শক্তিশালী হয়ে থাকে।
তাই, আপনি সাইটগুলোর মধ্যে সম্পর্ক বা সংযোগ খুঁজতে একাধিক টেকনিক্যাল ইন্ডিকেটর চিহ্নিত করতে চাইবেন—যা যথাযথ। পাশাপাশি সেগুলোকে অন্যান্য তথ্যের সঙ্গে মিলিয়ে সংযোগের কার্যকারিতা সঠিকভাবে মূল্যায়ন করতে চাইবেন।
বিশ্লেষণে সাহায্য করার জন্য: ইনফরমেশন লন্ড্রোম্যাট ইন্ডিকেটরকে তিনটি স্তরে ভাগ করা হয়েছে।ফলাফলের পেজে রঙ কোডিং ব্যবহার করে শক্তিশালী, মাঝারি, বা দুর্বল ইন্ডিকেটর বোঝানো হয়েছে। যদিও আপনাকে নিজে নিজেই এ বিশ্লেষণগুলো করতে হবে, যা একটি কার্যকর সূচনা বিন্দু।

আরটির সঙ্গে সংযুক্ত ডোমেইন ব্যবহার করে চালানো নমুনা মেটাডেটা অনুসন্ধানের স্ক্রিনশট। ছবি: স্ক্রিনশট, ডিজিটাল ইনভেস্টিগেশনস
ইনফরমেশন লন্ড্রোম্যাটের ডকুমেন্টেশন অনুযায়ী ইন্ডিকেটরের তিনটি স্তরকে নিচে দেখানো হলো:
- সারি১: এগুলো একক বা সুনির্দিষ্টভাবে কোনো ওয়েবসাইটের উৎস নির্দেশ করে। যাচাইয়ের জন্য নির্দিস্ট আইডি, গুগল, ইয়ানডেক্সের (Yandex) মতো ওয়েব সার্ভিসের তথ্যের পাশাপাশি WHOIS (একধরনের ডেটাবেস: ওয়েবসাইটের মালিকানা, পরিচালনা, এবং সুরক্ষা সম্পর্কিত বিবরণ প্রদান করে)-এর তথ্য-প্রমাণ ব্যবহার করে।
- সারি২: ওয়েবসাইটের উৎস সম্পর্কে এ ধরনের ইন্ডিকেটর মাঝামাঝি ধরনের নিশ্চিয়তা দেয়। তবে মূল্যবান প্রেক্ষিতও প্রদান করে। এর মধ্যে রয়েছে: একই সাবনেটে থাকা আইপি অ্যাড্রেস। ম্যাচিং মেটা ট্যাগ (ওয়েবসাইটের বিবরণ বা কীওয়ার্ড), রেসপন্স হেডারগুলোর ( যে তথ্য সার্ভার ও ব্রাউজারের মধ্যে আদান-প্রদান হয়) মিল ও বৈশিষ্ট্য।
- সারি৩: এ স্তরের ইন্ডিকেটরগুলো উচ্চ মাত্রার ইন্ডিকেটরের সঙ্গে মিলিয়ে ব্যবহার করার পরামর্শ দেওয়া হয়েছে। এর মধ্যে রয়েছে: শেয়ারড সিসিএস ক্লাস (একাধিক সাইটে একই ধরনের CSS কোড বা ডিজাইন ফাইল), ইউইউআইডিএস (Universally Unique Identifiers: সাইট বা ডেটার জন্য ব্যবহারিত সতন্ত্র আইডি) এবং কনটেন্ট ম্যানেজমেন্ট সিস্টেম (সাইটগুলো একই CMS, যেমন WordPress ব্যবহার করছে কিনা)।
সম্পাদকের নোট: এলেখাটি প্রোপাবলিকার প্রতিবেদক ক্রেইগ সিলভারম্যানের ডিজিটাল ইনভেস্টিগেশনস সাবস্ট্যাক–এ প্রকাশিত হয়েছিল। তাঁর অনুমতি নিয়ে এখানে পুনপ্রকাশ করা হয়েছে।
ক্রেইগ সিলভারম্যান প্রোপাবলিকার ন্যাশনাল রিপোর্টার, যিনি ভোট, প্ল্যাটফর্ম, ভুয়া ও বিভ্রান্তিকর তথ্য এবং অনলাইন-ম্যানুপুলেশন নিয়ে রিপোর্টিং করেন। এর আগে তিনি বাজফিড নিউজের মিডিয়া সম্পাদক ছিলেন, সেখানে ডিজিটাল ডিজইনফরমেশন নিয়ে প্রতিবেদন তৈরিতে অগ্রগামী ভূমিকা রেখেছেন।