Image: Shutterstock
ডেটার যে সামান্য ১০টি ভুলে ভেস্তে যেতে পারে অনুসন্ধান
সংখ্যাগত ত্রুটির কারণে অনুসন্ধানী স্টোরিতে ক্রমিক প্রভাব পড়তে পারে। সেই প্রাথমিক ত্রুটি থেকে অন্যান্য পরিসংখ্যান, প্রবণতা সম্পর্কিত দাবি ও সিদ্ধান্তে ভুল হতে পারে, যা পাঠকদের আস্থায় বিরূপ প্রভাব ফেলে।
সম্প্রতি টেনেসির ন্যাশভিলে নিকার২৩ সম্মেলনে ইনভেস্টিগেটিভ রিপোর্টার্স অ্যান্ড এডিটরস (আইআরই) এর বার্ষিক ডেটা সাংবাদিকতা সম্মেলনে জিআইজেএন বেশ কজন বক্তার কাছে জানতে চেয়েছিল, তারা অতীতে ডেটা নিয়ে এমন কোন ভুল করেছিলেন কিনা, যা তাদের অনুসন্ধানের সর্বনাশ করেছিল বা অনুসন্ধানকে হুমকিতে ফেলে দিয়েছিল।
আমেরিকান ইউনিভার্সিটির ইনভেস্টিগেটিভ রিপোর্টিং ওয়ার্কশপের ডেটা এডিটর আরুশি সাহেজপাল বলেন, “প্রত্যেক সাংবাদিকেরই ভুল হয় — আপনি যে ফের সেই ভুল করছেন না এবং পাঠকদের প্রতি স্বচ্ছ আছেন, তা নিশ্চিত করার মতো বুদ্ধিমত্তা থাকলেই চলবে। তিনি বলেন, “তবে আপনি অবশ্যই ভুলের সম্ভাবনা কমাতে পারেন।”
অন্যান্য বিশেষজ্ঞদের বক্তব্যের সারাংশ টেনে সাহেজপাল বলেছেন, ত্রুটিগুলো এড়ানোর সাধারণ উপায় হলো নিজেকে তিনটি প্রশ্ন করা: আপনার কাছে কি আসলেই পুরো ডেটাসেট আছে? এর প্রকৃত অর্থ বুঝতে আপনি কি ডেটার পেছনে থাকা ব্যক্তির সঙ্গে কথা বলেছেন? আর সেই ডেটা আপনাকে কী জানাচ্ছে না?
তবুও, ভুল হয়। অভিজ্ঞ ডেটা সাংবাদিকদের মতামতের ভিত্তিতে এখানে ভুলের ১০টি সাধারণ কারণ তুলে ধরা হলো৷
১. স্প্রেডশিটে কোনো সারি ফাঁকা রাখার ঝুঁকি ভুলে যাওয়া। প্রোপাবলিকার লোকাল রিপোর্টিং ফেলো এবং ডেটা সাংবাদিকতার প্রশিক্ষক সামান্থা সুনের মতে, গুগলশিটে একটি পুরো ডেটা কলাম সিলেক্ট করেছেন বা হাইলাইট করেছেন বলে ধরে নেওয়া একটি সাধারণ ও বিপর্যয়কর ভুল। তিনি বলেন, সমস্যা হলো এই যে স্প্রেডশিটগুলো কলামে কোনো ফাঁকা সারি (রো) পেলে, তার নিচের অংশটুকু হাইলাইট বা সিলেক্ট করে না। তাঁর মতে, ডেটা বাদ পড়ে যাওয়ার এই বিষয়টি শনাক্ত করতে না পারার কারণে কিছু রিপোর্টার তাঁদের অনুসন্ধানে ত্রুটিপূর্ণ সিদ্ধান্তে পৌঁছান।
সুনে ব্যাখ্যা করে বলেন, “অনেক সময় আপনার ডেটায় ফাঁকা সারি পাবেন – সম্ভবত ঠিক সেখানটাতেই পৃষ্ঠা বিরতি ছিল, বা সেই বিষয়ের কোনো ডেটা ছিল না – আর নিচে স্ক্রল না করলে সহজে সেগুলো হয়তো আপনার চোখে পড়ত না। আপনি যদি সত্যিই সবকিছু সিলেক্ট করার ব্যাপারে সতর্ক না হন, তাহলে আপনার বিশ্লেষণ পুরোপুরি নষ্ট হয়ে যেতে পারে।”
এক্ষেত্রে তাঁর সমাধান: ফাঁকা সারির নিচের ডেটা সিলেক্ট করতে কোনো ডেটা কলামে ক্লিক করার পর একবার কন্ট্রোল এ (বা কমান্ড এ) চাপুন — আর তারপর আবার কন্ট্রোল এ (বা কমান্ড এ) চাপুন।
২. সরকারি নামকরণ পদ্ধতি বা কোডিংয়ের পরিবর্তন যাচাইয়ে ব্যর্থতা। রয়টার্সের ডেটা সাংবাদিকতা সম্পাদক জ্যানেট রবার্টস বলেন, সরকার ও পৌর সংস্থাগুলো প্রায়ই তাদের কাজের স্বার্থে কোডে পরিবর্তন আনে এবং আপনার ডেটা সংগ্রহের সময়ও এটি ঘটতে পারে। আপনার ডেটাসেটের সব ডেটা প্রকাশের আগে একই বিষয় প্রযোজ্য কিনা, তা যাচাই করা সাংবাদিকদের জন্য অত্যন্ত জরুরি।
রবার্টস মনে করে বলেন, “সেইন্ট পলে (মিনেসোটা) বস্তির মালিকদের নিয়ে অনুসন্ধান করতে গিয়ে আমরা ভবন নির্মাণ কোড লঙ্ঘনের ডেটা পাই, এবং নির্দিষ্ট একটি অপরাধের সঙ্গে জড়িত জমির মালিকদের খুঁজতে মাঠে নামি।” তিনি আরও বলেন, “আমরা ডেটা বিশ্লেষণ শেষ করলাম, কিন্তু দেখা গেল, কোনো এক ফাঁকে ভবন অধিদপ্তর তাদের কোডে পরিবর্তন এনেছে; এর ফলে হয়তো আগে “০২” বলতে যেখানে ইঁদুরের উপদ্রব বোঝাত, পরে তার অর্থ গিয়ে দাঁড়ায়, আপনি নিজের ফুটপাত ঝাড়ু দেননি। সৌভাগ্যবশত, প্রক্রিয়াটির খুব গভীরে গিয়ে হলেও আমরা এটি খুঁজে পেয়েছি ; আমরা এটি খুঁজে না পেলে পুরো স্টোরি ত্রুটিপূর্ণ থেকে যেত।”
তিনি যোগ করেন: “এখানে সম্ভাব্য ত্রুটি হলো ডেটা বুঝতে না পারা; যাদের কাছে তথ্য থাকে, তাদের সঙ্গে কথা বলতে না পারা। তাই ডেটা বিবর্তনের প্রক্রিয়া সম্পর্কে প্রশ্ন করুন।”
৩. শতাংশ পয়েন্টের সঙ্গে শতাংশ গুলিয়ে ফেলা। এই ভুলটি একটি চিরায়ত সমস্যা, এবং তা পাঠকদের বিভ্রান্ত করতে পারে৷ “কোনো কিছু যদি ২০ থেকে বেড়ে ৩০% হয়, তবে এটি আসলে ১০% বৃদ্ধি নয়, বরং ৫০% বৃদ্ধি, যা কিছুটা বিভ্রান্তিকর মনে হতে পারে; তাই এ বিষয়ে নজর দেওয়া জরুরি,” সুনে ব্যাখ্যা করেন। ডেটা বিশেষজ্ঞরা জোর দিয়ে বলেন, শতাংশ পরিবর্তন বলতে একটি হার বোঝায়, তবে শতাংশ পয়েন্ট পরিবর্তন মানে একটি পরিমাণ। বিভ্রান্তি এড়াতে কোনো কিছুর ১০০% বৃদ্ধি বলতে “দ্বিগুণ” হয়েছে বলা ভালো। “অনেক মানুষই শতাংশ পয়েন্ট ও শতাংশের পার্থক্য বোঝেন না,” সাহেজপাল বলেন। “‘মাথাপিছু’ এর ক্ষেত্রে একই কথা প্রযোজ্য – অনেক সময় একই বাক্যে হার ও মাথাপিছু ব্যবহার করার কোনো মানে হয় না, কারণ মাথাপিছু মানেই ব্যক্তি প্রতি।”
৪. বারবার যাচাই না করে পূর্ণমাণ সংখ্যার ব্যবহার। রবার্টসের মতে, ডেটার সারিতে ৭,০০০ বা ২,০০০ এর মতো বড় অংকের সংখ্যায় যখন পূর্ণমাণ (রাউন্ড ফিগার) পাবেন, অনেক সময় তার অর্থ হলো রেকর্ড সার্চ বা ডেটা স্থানান্তরে কোনো সমস্যা ছিল, এটি হয়তো সত্যিকারের সমষ্টি নয়।
“আমাদের কাছে থাকা ডেটায় দেখা যাচ্ছিল, কেবল ৫,০০০ কোম্পানি কিছু বিষয়ে তাদের প্রয়োজনীয় প্রতিবেদন দাখিল করেছে। তাই আমাদের মনে প্রশ্ন জাগে: ‘কাটায় কাটায় ৫,০০০?’” রবার্টস বলেন। “ব্যাপারটি খটকা লেগেছিল, আর সংখ্যাটাও কম। প্রতিবেদক যে বিষয়টি লক্ষ্য করেননি, তা হলো ওয়েবসাইটটি সার্চ ফলাফলে সর্বোচ্চ ৫,০০০ রেকর্ড দেখাতো, যদিও প্রকৃত ফলাফল ছিল এর প্রায় তিনগুণ।”
সাহেজপাল বলেন, “আপনার কাছে ঠিক ১,০০০ বা ১০,০০০ সারির ডেটাসেট থাকলে আমি টাকা দিয়ে বাজি ধরতে পারি যে সেখানে ঝামেলা আছে। হিসাব করে বলতে পারব না, আমার কত শিক্ষার্থী যে ফাইল ডাউনলোড করার পরও বুঝতে পারেনি তারা ফিল্টার্ড সংস্করণ ডাউনলোড করেছে৷ আরেকটি ভুল হলো আপনার নিজের ডেটাসেটের রেঞ্জ, সরকারি ওয়েবসাইটে নির্ধারিত রেঞ্জের সমান কিনা তা যাচাই না করা।”
৫. দেশভেদে সংখ্যা বিন্যাসের ভিন্নতা ভুলে যাওয়া। ইন্টারন্যাশনাল কনসোর্টিয়াম অব ইনভেস্টিগেটিভ জার্নালিস্ট (আইসিআইজে) এর লাতিন আমেরিকার সমন্বয়ক এমিলিয়া ডিয়াজ-স্ট্রাক বলেন, “যুক্তরাষ্ট্রের ১,৭৫৩.০০ মার্কিন ডলারকে লাতিন আমেরিকায় ‘১.৭৫৩,০০ মার্কিন ডলার’ হিসেবে লেখা হয়, যেখানে কমা ও ফুল স্টপ (.) এবং উদ্ধৃতি চিহ্নগুলো ভিন্ন জায়গায় বসে — তবে বিভিন্ন বিরামচিহ্ন ব্যবহারে স্প্রেডশিটের কোনো দায় নেই। আপনি সংখ্যার উৎস সম্পর্কে না ভাবলে সত্যিই মৌলিক ধারণাগত ভুল হতে পারে।”
৬. ডেটা “সন্দেহজনক” মনে হওয়ার পরও নিজের মনকে পাত্তা না দেয়া। এমনকি স্প্রেডশিটে সংখ্যাগুলো যাচাই করার পরও, এবং ডেটা-সংশ্লিষ্ট ব্যক্তিদের দিয়ে দু’বার যাচাই করার পরও অভিজ্ঞ সাংবাদিকেরা অনেক সময় এই পরিসংখ্যানগত বিভ্রান্তি বা বিষয় সম্পর্কিত নিজেদের জানাবোঝা নিয়ে ঝামেলায় পড়েন। আইসিটি (আগের ইন্ডিয়ান কান্ট্রি টুডে) এর জ্যেষ্ঠ সম্পাদক ডায়ানা হান্ট বলেন, নিজের কী মনে হলো সেই অনুভূতির প্রতি রিপোর্টারদের সম্মান রাখা উচিত, এবং সংখ্যাগুলোকে স্বাধীনভাবে যাচাই করার জন্য অথবা সেটি নিদেনপক্ষে বিষয়টি কেন্দ্রিক কোনো “আনুমানিক” ডেটা কিনা তা নিশ্চিত হতে বিকল্প বা ঐতিহাসিক ডেটা বা একাডেমিক গবেষকদের সঙ্গে মিলিয়ে নেওয়া উচিত। যেমন, এই অনুভূতিটি মূল সরকারি ডেটা সংগ্রাহকদের বড় বড় ত্রুটি বা এমনকি ইনপুট পর্যায়ে কেবল একটি দশমিক বিন্দুর মতো ছোটখাটো ভুলের দিকে ইঙ্গিত করতে পারে।
হান্ট বলেন, “কোনো কিছু ভুল মনে হলে নিজের মন কী বলে, সেদিকে নজর দিতে হবে – আমার বেশ কয়েকটি অনুসন্ধানে এটি কাজে এসেছে।”
৭. ডেটাসেটের পেছনের মানুষগুলোর সঙ্গে কথা বলতে না পারা। “ডেটা ব্যবহারের আগে আপনাকে সোর্সের নাগাল পেতে হবে এবং প্রতিটি কলামের অর্থ বুঝতে হবে” – বলেন সাহেজপাল৷ “দেখুন, হয়ত আপনি এমন কোনো ওয়েবসাইট থেকে ডাউনলোড করছেন, যেখানে একটি নিখুঁত পদ্ধতিগত ব্যবস্থা আছে — তবে আমি বাজি ধরে বলতে পারি যে কোনটি প্রকৃত অর্থ এবং কোনটি তা নয়, সেই প্রেক্ষিতে আপনার দেখা অনেক ডেটা সহজে বোঝা যায় না। ডেটা সাংবাদিকতা সংশ্লিষ্টরা প্রায়ই এটি ব্যাখ্যা করেন না, তবে সত্যি কথা বলতে কী, আমরা সবাই মানুষের সঙ্গে নিজেদের ধারণার চেয়ে বেশি কথা বলি – আমরা কেবল কম্পিউটারের স্ক্রিনের দিকে তাকিয়ে থাকি না।”
তিনি আরও বলেন: “ডেটাসেট নিয়ে কী করা যায়, তা বুঝতে পারার চেয়ে ডেটা ইনপুট সংশ্লিষ্টদের কাছে পৌঁছানোর উপায় খুঁজে বের করা অনেক সহজ।”
৮. ডেটাসেটই পুরো স্টোরি তুলে ধরবে, এমনটি মনে করা। সাহেজপালের পরামর্শ: একটি প্রাসঙ্গিক ডেটাসেট পাওয়ার পর রিপোর্টারেরা অবিলম্বে সেগুলো জড়ো করেন এবং ডেটাসেটে যে প্রাসঙ্গিক প্রশ্নগুলোর উত্তর পাওয়া যায় না, বিশেষভাবে সেগুলো পোস্ট করেন।
তিনি বলেন, “সম্পাদক হিসেবে ভুল এড়াতে আমার প্রথম কাজটি হলো, ডেটায় কী নেই তা তালিকাভুক্ত করা। ডেটাসেটে আমরা যেটিকে ‘সীমাবদ্ধতা অংশ’ বলি সেটিই আপনার সবচেয়ে শক্তিশালী হাতিয়ার, কারণ ডেটায় কী নেই তা যদি আপনার জানা থাকে, তবে আপনি জানেন যে আপনার কী বলা উচিত নয় এবং আরো কী প্রশ্ন করা উচিত।”
সাহেজপাল আরও বলেন: “ধরা যাক, ওয়াশিংটন ডিসিতে পার্কিং টিকিট সম্পর্কিত নিয়মের লঙ্ঘন নিয়ে একটি ডেটাসেট পেয়েছেন, তাহলে প্রথম কাজ হবে যে অঞ্চল ও পরিবর্তনশীল উপাদানের (ভ্যারিয়েবল) তথ্য নেই তার একটি তালিকা তৈরি করা, যা আপনার বিশ্লেষণকে প্রভাবিত করতে পারে; এটি করা মাত্রই পুরো চিত্র আপনার কাছে পরিষ্কার হয়ে উঠবে। তারপর ডেটার দায়িত্বে থাকা ব্যক্তিকে ফোন করুন এবং আপনার কাছে কী আছে, তা নিশ্চিত হোন।”
৯. গ্রাফ বা চার্টের ক্ষেত্রে ভুল মানদণ্ড ব্যবহার করা। গণমাধ্যমে প্রকাশিত বা এমনকি সাংবাদিকদের হাতে আসা গ্রাফের অক্ষগুলোতে অনেক সময় ইচ্ছামত সংখ্যা দিয়ে শুরু করা হয় – যেমন শূন্যের পরিবর্তে “১,৫০০” – যা পাঠকদের বিভ্রান্ত করতে পারে বা সেটি ভুলও হতে পারে৷ সাহেজপাল বলেন, “আপনি যে ভিজ্যুয়াল প্রকাশ করেন, সেগুলো খতিয়ে দেখুন। নির্ভুলতার ব্যাপারে নিশ্চিত হতে এক্স এবং ওয়াই অক্ষ তুলনা করা ভ্যারিয়েবল ও মানদণ্ড, সবকিছুই যাচাই করে নিশ্চিত হয়ে নিন। যে কোনো ডেটা ভিজ্যুয়ালাইজেশনের ক্ষেত্রে স্কেলের শুরুতে ভুল আছে কিনা বা পরিবর্তনের ব্যবধান অস্পষ্ট কিনা তা দেখা জরুরি। আমি সব সময় এধরনের ত্রুটির দিকে নজর দেই।”
১০. গুগলশিট সাজানোর ক্ষেত্রে কলামগুলো একসুঁতোয় বাঁধতে ভুলে যাওয়া৷ উপস্থাপনের জন্য ডেটার সারিগুলোকে সর্ট করে সাজিয়ে নিলে অনেক সময় সহজ অ্যাঙ্গেল পাওয়া যায়। যেমন, সবচেয়ে খারাপ থেকে সবচেয়ে ভালো: একটি কলামের শীর্ষে সবচেয়ে বেশি মৃত্যু-হারের শহরগুলো, আর নিচের দিকে আরও ভালো অবস্থায় থাকা শহরগুলোর অবস্থান।
গুগল শিটগুলোতে সর্ট করা অনেক সহজ, আর প্রোগ্রামের পপ-আপ সাজেশন থেকেও সাহায্য পাওয়া যায় — তবে এটির জন্য প্রয়োজন শিটে ধাপে ধাপে ক্রমানুসারে সাজানো ৷
ইএসপিএনের ডেটা রিপোর্টার টিশা থম্পসনের মতে, রিপোর্টারেরা অনেক ফাংশন নিয়ে কাজ করতে পারেন, তবে তিনি সতর্ক করে বলেন, গুগলশিটে সাজানোর সময় যে বিষয়টি কোনভাবেই ভোলা যাবে না, তা হলো “উপরের বামপাশের বর্গক্ষেত্রে” ক্লিক করা: ফাঁকা একটি বক্স যা কলাম ও সারি, দুটি অক্ষকেই সিলেক্ট করে। এই বক্সটি পুরো ডেটাসেটের সঙ্গে একটি সাজানো কলামকে যুক্ত করে। তিনি বলেন, এই বর্গক্ষেত্রটি ভুলে যাওয়াটা কেবল আপনার সংখ্যাগুলোকে এলোমেলো করতে পারে তা নয়, বরং প্রকাশের আগে ত্রুটি নজরে আসতেও বাধা দেয়৷
“উপরের বাম কোণে নজর না দেওয়াটা সবচেয়ে মামুলি ভুল, যা আপনারা করে থাকেন, আর এটি আপনার ক্যারিয়ার শেষ করতে যথেষ্ট,” থম্পসন সতর্ক করে বলেন। “আপনারা সবসময় ডেটাকে অন্যান্য লাইন ও সারির সঙ্গে যুক্ত রাখতে চান, যেন সবকিছু একসঙ্গে হাইলাইট করতে পারেন। কেবল একটি কলাম বাছাই করবেন না; সবসময় উপরের বাম কোণটি ব্যবহার করুন – এটি অনেকটা আপনার জুতা বাঁধার মত।”
আরও পড়ুন
জিআইজেএন রিসোর্স সেন্টার: ডেটা জার্নালিজম
সম্পাদকের বাছাই: ২০২২ সালের সেরা ১০ ডেটা সাংবাদিকতা প্রকল্প
রোয়ান ফিলিপ জিআইজেএনের প্রতিবেদক। তিনি দক্ষিণ আফ্রিকার সানডে টাইমস পত্রিকার প্রধান প্রতিবেদক ছিলেন। বিদেশ প্রতিনিধি হিসেবে বিশ্বের ২৪টির বেশি দেশে সংবাদ, রাজনীতি, দুর্নীতি ও সংঘাত নিয়ে রিপোর্ট করেছেন।