প্রবেশগম্যতা সেটিংস

data journalism errors avoid spreadsheets
data journalism errors avoid spreadsheets

Image: Shutterstock

লেখাপত্র

বিষয়

ডেটার যে সামান্য ১০টি ভুলে ভেস্তে যেতে পারে অনুসন্ধান

আর্টিকেলটি পড়ুন এই ভাষায়:

English

data journalism errors avoid spreadsheets

ছবি: শাটারস্টক

সংখ্যাগত ত্রুটির কারণে অনুসন্ধানী স্টোরিতে ক্রমিক প্রভাব পড়তে পারে। সেই প্রাথমিক ত্রুটি থেকে অন্যান্য পরিসংখ্যান, প্রবণতা সম্পর্কিত দাবি ও সিদ্ধান্তে ভুল হতে পারে, যা পাঠকদের আস্থায় বিরূপ প্রভাব ফেলে।

সম্প্রতি টেনেসির ন্যাশভিলে নিকার২৩ সম্মেলনে ইনভেস্টিগেটিভ রিপোর্টার্স অ্যান্ড এডিটরস (আইআরই) এর বার্ষিক ডেটা সাংবাদিকতা সম্মেলনে জিআইজেএন বেশ কজন বক্তার কাছে জানতে চেয়েছিল, তারা অতীতে ডেটা নিয়ে এমন কোন ভুল করেছিলেন কিনা, যা তাদের অনুসন্ধানের সর্বনাশ করেছিল বা অনুসন্ধানকে  হুমকিতে ফেলে দিয়েছিল। 

আমেরিকান ইউনিভার্সিটির ইনভেস্টিগেটিভ রিপোর্টিং ওয়ার্কশপের ডেটা এডিটর আরুশি সাহেজপাল বলেন, “প্রত্যেক সাংবাদিকেরই ভুল হয় — আপনি যে ফের সেই ভুল করছেন না এবং পাঠকদের প্রতি স্বচ্ছ আছেন, তা নিশ্চিত করার মতো বুদ্ধিমত্তা থাকলেই চলবে। তিনি বলেন, “তবে আপনি অবশ্যই ভুলের সম্ভাবনা কমাতে পারেন।”

অন্যান্য বিশেষজ্ঞদের বক্তব্যের সারাংশ টেনে সাহেজপাল বলেছেন, ত্রুটিগুলো এড়ানোর সাধারণ উপায় হলো নিজেকে তিনটি প্রশ্ন করা: আপনার কাছে কি আসলেই পুরো ডেটাসেট আছে? এর প্রকৃত অর্থ বুঝতে আপনি কি ডেটার পেছনে থাকা ব্যক্তির সঙ্গে কথা বলেছেন? আর সেই ডেটা আপনাকে কী জানাচ্ছে না?

তবুও, ভুল হয়। অভিজ্ঞ ডেটা সাংবাদিকদের মতামতের ভিত্তিতে এখানে ভুলের ১০টি সাধারণ কারণ তুলে ধরা হলো৷

১. স্প্রেডশিটে কোনো সারি ফাঁকা রাখার ঝুঁকি ভুলে যাওয়া। প্রোপাবলিকার লোকাল রিপোর্টিং ফেলো এবং ডেটা সাংবাদিকতার প্রশিক্ষক সামান্থা সুনের মতে, গুগলশিটে একটি পুরো ডেটা কলাম সিলেক্ট করেছেন বা হাইলাইট করেছেন বলে ধরে নেওয়া একটি সাধারণ ও বিপর্যয়কর ভুল। তিনি বলেন, সমস্যা হলো এই যে স্প্রেডশিটগুলো কলামে কোনো ফাঁকা সারি (রো) পেলে, তার নিচের অংশটুকু হাইলাইট বা সিলেক্ট করে না। তাঁর মতে, ডেটা বাদ পড়ে যাওয়ার এই বিষয়টি শনাক্ত করতে না পারার কারণে কিছু রিপোর্টার তাঁদের অনুসন্ধানে ত্রুটিপূর্ণ সিদ্ধান্তে পৌঁছান।

সুনে ব্যাখ্যা করে বলেন, “অনেক সময় আপনার ডেটায় ফাঁকা সারি পাবেন – সম্ভবত ঠিক সেখানটাতেই পৃষ্ঠা বিরতি ছিল, বা সেই বিষয়ের কোনো ডেটা ছিল না – আর নিচে স্ক্রল না করলে সহজে সেগুলো হয়তো আপনার চোখে পড়ত না। আপনি যদি সত্যিই সবকিছু সিলেক্ট করার ব্যাপারে সতর্ক না হন, তাহলে আপনার বিশ্লেষণ পুরোপুরি নষ্ট হয়ে যেতে পারে।”

এক্ষেত্রে তাঁর সমাধান: ফাঁকা সারির নিচের ডেটা সিলেক্ট করতে কোনো ডেটা কলামে ক্লিক করার পর একবার কন্ট্রোল এ (বা কমান্ড এ) চাপুন — আর তারপর আবার কন্ট্রোল এ (বা কমান্ড এ) চাপুন।

২. সরকারি নামকরণ পদ্ধতি বা কোডিংয়ের পরিবর্তন যাচাইয়ে ব্যর্থতা। রয়টার্সের ডেটা সাংবাদিকতা সম্পাদক জ্যানেট রবার্টস বলেন, সরকার ও পৌর সংস্থাগুলো প্রায়ই তাদের কাজের স্বার্থে কোডে পরিবর্তন আনে এবং আপনার ডেটা সংগ্রহের সময়ও এটি ঘটতে পারে। আপনার ডেটাসেটের সব ডেটা প্রকাশের আগে একই বিষয় প্রযোজ্য কিনা, তা যাচাই করা সাংবাদিকদের জন্য অত্যন্ত জরুরি।

রবার্টস মনে  করে বলেন, “সেইন্ট পলে (মিনেসোটা) বস্তির মালিকদের নিয়ে অনুসন্ধান করতে গিয়ে আমরা ভবন নির্মাণ কোড লঙ্ঘনের ডেটা পাই,  এবং নির্দিষ্ট একটি অপরাধের সঙ্গে জড়িত জমির মালিকদের খুঁজতে মাঠে নামি।” তিনি আরও বলেন, “আমরা ডেটা বিশ্লেষণ শেষ করলাম, কিন্তু দেখা গেল, কোনো এক ফাঁকে  ভবন অধিদপ্তর তাদের কোডে পরিবর্তন এনেছে; এর ফলে হয়তো আগে “০২” বলতে যেখানে ইঁদুরের উপদ্রব বোঝাত, পরে তার অর্থ গিয়ে দাঁড়ায়, আপনি নিজের ফুটপাত ঝাড়ু দেননি। সৌভাগ্যবশত, প্রক্রিয়াটির খুব গভীরে গিয়ে হলেও আমরা এটি খুঁজে পেয়েছি ; আমরা এটি খুঁজে না পেলে পুরো স্টোরি ত্রুটিপূর্ণ থেকে যেত।”

তিনি যোগ করেন: “এখানে সম্ভাব্য ত্রুটি হলো ডেটা বুঝতে না পারা; যাদের কাছে তথ্য থাকে, তাদের সঙ্গে কথা বলতে না পারা। তাই ডেটা বিবর্তনের প্রক্রিয়া সম্পর্কে প্রশ্ন করুন।”

৩. শতাংশ পয়েন্টের সঙ্গে শতাংশ গুলিয়ে ফেলা। এই ভুলটি একটি চিরায়ত সমস্যা, এবং তা পাঠকদের বিভ্রান্ত করতে পারে৷ “কোনো কিছু যদি ২০ থেকে বেড়ে ৩০% হয়, তবে এটি আসলে ১০% বৃদ্ধি নয়, বরং ৫০% বৃদ্ধি, যা কিছুটা বিভ্রান্তিকর মনে হতে পারে; তাই এ বিষয়ে নজর দেওয়া জরুরি,” সুনে ব্যাখ্যা করেন। ডেটা বিশেষজ্ঞরা জোর দিয়ে বলেন, শতাংশ পরিবর্তন বলতে একটি হার বোঝায়, তবে শতাংশ পয়েন্ট পরিবর্তন মানে একটি পরিমাণ। বিভ্রান্তি এড়াতে কোনো কিছুর ১০০% বৃদ্ধি বলতে “দ্বিগুণ” হয়েছে বলা ভালো। “অনেক মানুষই শতাংশ পয়েন্ট ও শতাংশের পার্থক্য বোঝেন না,” সাহেজপাল বলেন। “‘মাথাপিছু’ এর ক্ষেত্রে একই কথা প্রযোজ্য – অনেক সময় একই বাক্যে হার ও মাথাপিছু ব্যবহার করার কোনো মানে হয় না, কারণ মাথাপিছু মানেই ব্যক্তি প্রতি।”

৪. বারবার যাচাই না করে পূর্ণমাণ সংখ্যার ব্যবহার। রবার্টসের মতে, ডেটার সারিতে  ৭,০০০ বা ২,০০০ এর মতো বড় অংকের সংখ্যায় যখন পূর্ণমাণ (রাউন্ড ফিগার) পাবেন, অনেক সময় তার অর্থ হলো রেকর্ড সার্চ বা ডেটা স্থানান্তরে কোনো সমস্যা ছিল, এটি হয়তো সত্যিকারের সমষ্টি নয়।

“আমাদের কাছে থাকা ডেটায় দেখা যাচ্ছিল, কেবল ৫,০০০ কোম্পানি কিছু বিষয়ে তাদের প্রয়োজনীয় প্রতিবেদন দাখিল করেছে। তাই আমাদের মনে প্রশ্ন জাগে: ‘কাটায় কাটায় ৫,০০০?’” রবার্টস বলেন। “ব্যাপারটি খটকা লেগেছিল, আর সংখ্যাটাও কম। প্রতিবেদক যে বিষয়টি লক্ষ্য করেননি, তা হলো ওয়েবসাইটটি সার্চ ফলাফলে সর্বোচ্চ ৫,০০০ রেকর্ড দেখাতো, যদিও প্রকৃত ফলাফল ছিল এর প্রায় তিনগুণ।”

সাহেজপাল বলেন, “আপনার কাছে ঠিক ১,০০০ বা ১০,০০০ সারির ডেটাসেট থাকলে আমি টাকা দিয়ে বাজি ধরতে পারি যে সেখানে ঝামেলা আছে। হিসাব করে বলতে পারব না, আমার কত শিক্ষার্থী যে ফাইল ডাউনলোড করার পরও বুঝতে পারেনি তারা ফিল্টার্ড সংস্করণ ডাউনলোড করেছে৷ আরেকটি ভুল হলো আপনার নিজের ডেটাসেটের রেঞ্জ, সরকারি ওয়েবসাইটে নির্ধারিত রেঞ্জের সমান কিনা তা যাচাই না করা।”

৫. দেশভেদে সংখ্যা বিন্যাসের ভিন্নতা ভুলে যাওয়া। ইন্টারন্যাশনাল কনসোর্টিয়াম অব ইনভেস্টিগেটিভ জার্নালিস্ট (আইসিআইজে) এর লাতিন আমেরিকার সমন্বয়ক এমিলিয়া ডিয়াজ-স্ট্রাক বলেন, “যুক্তরাষ্ট্রের ১,৭৫৩.০০ মার্কিন ডলারকে লাতিন আমেরিকায় ‘১.৭৫৩,০০ মার্কিন ডলার’ হিসেবে লেখা হয়, যেখানে কমা ও ফুল স্টপ (.) এবং উদ্ধৃতি চিহ্নগুলো ভিন্ন জায়গায় বসে — তবে বিভিন্ন বিরামচিহ্ন ব্যবহারে স্প্রেডশিটের কোনো দায় নেই। আপনি সংখ্যার উৎস সম্পর্কে না ভাবলে সত্যিই মৌলিক ধারণাগত ভুল হতে পারে।”

৬. ডেটা “সন্দেহজনক” মনে হওয়ার পরও নিজের মনকে পাত্তা না দেয়া। এমনকি স্প্রেডশিটে সংখ্যাগুলো যাচাই করার পরও, এবং ডেটা-সংশ্লিষ্ট ব্যক্তিদের দিয়ে দু’বার যাচাই করার পরও অভিজ্ঞ সাংবাদিকেরা অনেক সময় এই পরিসংখ্যানগত বিভ্রান্তি বা বিষয় সম্পর্কিত নিজেদের জানাবোঝা নিয়ে ঝামেলায় পড়েন। আইসিটি (আগের ইন্ডিয়ান কান্ট্রি টুডে) এর জ্যেষ্ঠ সম্পাদক ডায়ানা হান্ট বলেন, নিজের কী মনে হলো সেই অনুভূতির প্রতি রিপোর্টারদের সম্মান রাখা উচিত, এবং সংখ্যাগুলোকে স্বাধীনভাবে যাচাই করার জন্য অথবা সেটি নিদেনপক্ষে বিষয়টি কেন্দ্রিক কোনো “আনুমানিক” ডেটা কিনা তা নিশ্চিত হতে বিকল্প বা ঐতিহাসিক ডেটা বা একাডেমিক গবেষকদের সঙ্গে মিলিয়ে নেওয়া উচিত। যেমন, এই অনুভূতিটি মূল সরকারি ডেটা সংগ্রাহকদের বড় বড় ত্রুটি বা এমনকি ইনপুট পর্যায়ে কেবল একটি দশমিক বিন্দুর মতো ছোটখাটো ভুলের দিকে ইঙ্গিত করতে পারে।

হান্ট বলেন, “কোনো কিছু ভুল মনে হলে নিজের মন কী বলে, সেদিকে নজর দিতে হবে – আমার বেশ কয়েকটি অনুসন্ধানে এটি কাজে এসেছে।”

৭. ডেটাসেটের পেছনের মানুষগুলোর সঙ্গে কথা বলতে না পারা। “ডেটা ব্যবহারের আগে আপনাকে সোর্সের নাগাল পেতে হবে এবং প্রতিটি কলামের অর্থ বুঝতে হবে” – বলেন সাহেজপাল৷ “দেখুন, হয়ত আপনি এমন কোনো ওয়েবসাইট থেকে ডাউনলোড করছেন, যেখানে একটি নিখুঁত পদ্ধতিগত ব্যবস্থা আছে — তবে আমি বাজি ধরে বলতে পারি যে কোনটি প্রকৃত অর্থ এবং কোনটি তা নয়, সেই প্রেক্ষিতে আপনার দেখা অনেক ডেটা সহজে বোঝা যায় না। ডেটা সাংবাদিকতা সংশ্লিষ্টরা প্রায়ই এটি ব্যাখ্যা করেন না, তবে সত্যি কথা বলতে কী, আমরা সবাই মানুষের সঙ্গে নিজেদের ধারণার চেয়ে বেশি কথা বলি – আমরা কেবল কম্পিউটারের স্ক্রিনের দিকে তাকিয়ে থাকি না।”

তিনি আরও বলেন: “ডেটাসেট নিয়ে কী করা যায়, তা বুঝতে পারার চেয়ে ডেটা ইনপুট সংশ্লিষ্টদের কাছে পৌঁছানোর উপায় খুঁজে বের করা অনেক সহজ।”

৮. ডেটাসেটই পুরো স্টোরি তুলে ধরবে, এমনটি মনে করা।  সাহেজপালের পরামর্শ: একটি প্রাসঙ্গিক ডেটাসেট পাওয়ার পর রিপোর্টারেরা অবিলম্বে সেগুলো জড়ো করেন এবং ডেটাসেটে যে প্রাসঙ্গিক প্রশ্নগুলোর উত্তর পাওয়া যায় না, বিশেষভাবে সেগুলো পোস্ট করেন।

তিনি বলেন, “সম্পাদক হিসেবে ভুল এড়াতে আমার প্রথম কাজটি হলো, ডেটায় কী নেই তা তালিকাভুক্ত করা। ডেটাসেটে আমরা যেটিকে ‘সীমাবদ্ধতা অংশ’ বলি সেটিই আপনার সবচেয়ে শক্তিশালী হাতিয়ার, কারণ ডেটায় কী নেই তা যদি আপনার জানা থাকে, তবে আপনি জানেন যে আপনার কী বলা উচিত নয় এবং আরো কী প্রশ্ন করা উচিত।”

সাহেজপাল আরও বলেন: “ধরা যাক, ওয়াশিংটন ডিসিতে পার্কিং টিকিট সম্পর্কিত নিয়মের লঙ্ঘন নিয়ে একটি ডেটাসেট পেয়েছেন, তাহলে প্রথম কাজ হবে যে অঞ্চল ও পরিবর্তনশীল উপাদানের (ভ্যারিয়েবল) তথ্য নেই তার একটি তালিকা তৈরি করা, যা আপনার বিশ্লেষণকে প্রভাবিত করতে পারে; এটি করা মাত্রই পুরো চিত্র আপনার কাছে পরিষ্কার হয়ে উঠবে। তারপর ডেটার দায়িত্বে থাকা ব্যক্তিকে ফোন করুন এবং আপনার কাছে কী আছে, তা নিশ্চিত হোন।”

৯. গ্রাফ বা চার্টের ক্ষেত্রে ভুল মানদণ্ড ব্যবহার করা। গণমাধ্যমে প্রকাশিত বা এমনকি সাংবাদিকদের হাতে আসা গ্রাফের অক্ষগুলোতে অনেক সময় ইচ্ছামত সংখ্যা দিয়ে শুরু করা হয় – যেমন শূন্যের পরিবর্তে “১,৫০০” – যা পাঠকদের বিভ্রান্ত করতে পারে বা সেটি ভুলও হতে পারে৷ সাহেজপাল বলেন, “আপনি যে ভিজ্যুয়াল প্রকাশ করেন, সেগুলো খতিয়ে দেখুন। নির্ভুলতার ব্যাপারে নিশ্চিত হতে এক্স এবং ওয়াই অক্ষ তুলনা করা ভ্যারিয়েবল ও মানদণ্ড, সবকিছুই যাচাই করে নিশ্চিত হয়ে নিন। যে কোনো ডেটা ভিজ্যুয়ালাইজেশনের ক্ষেত্রে স্কেলের শুরুতে ভুল আছে  কিনা বা পরিবর্তনের ব্যবধান অস্পষ্ট কিনা তা দেখা জরুরি। আমি সব সময় এধরনের ত্রুটির দিকে নজর দেই।”

১০. গুগলশিট সাজানোর ক্ষেত্রে কলামগুলো একসুঁতোয় বাঁধতে ভুলে যাওয়া৷ উপস্থাপনের জন্য ডেটার সারিগুলোকে সর্ট করে সাজিয়ে নিলে অনেক সময় সহজ অ্যাঙ্গেল পাওয়া যায়। যেমন, সবচেয়ে খারাপ থেকে সবচেয়ে ভালো: একটি কলামের শীর্ষে সবচেয়ে বেশি মৃত্যু-হারের শহরগুলো, আর নিচের দিকে আরও ভালো অবস্থায় থাকা শহরগুলোর অবস্থান।

গুগল শিটগুলোতে সর্ট করা অনেক সহজ, আর প্রোগ্রামের পপ-আপ সাজেশন থেকেও সাহায্য পাওয়া যায় — তবে এটির জন্য প্রয়োজন শিটে ধাপে ধাপে ক্রমানুসারে সাজানো ৷

ইএসপিএনের ডেটা রিপোর্টার টিশা থম্পসনের মতে, রিপোর্টারেরা অনেক ফাংশন নিয়ে কাজ করতে পারেন, তবে তিনি সতর্ক করে বলেন, গুগলশিটে সাজানোর সময় যে বিষয়টি কোনভাবেই ভোলা যাবে না, তা হলো “উপরের বামপাশের বর্গক্ষেত্রে” ক্লিক করা: ফাঁকা একটি বক্স যা কলাম ও সারি, দুটি অক্ষকেই সিলেক্ট করে। এই বক্সটি পুরো ডেটাসেটের সঙ্গে একটি সাজানো কলামকে যুক্ত করে। তিনি বলেন, এই বর্গক্ষেত্রটি ভুলে যাওয়াটা কেবল আপনার সংখ্যাগুলোকে এলোমেলো করতে পারে তা নয়, বরং প্রকাশের আগে ত্রুটি নজরে আসতেও বাধা দেয়৷

“উপরের বাম কোণে নজর না দেওয়াটা সবচেয়ে মামুলি ভুল, যা আপনারা করে থাকেন, আর এটি আপনার ক্যারিয়ার শেষ করতে যথেষ্ট,” থম্পসন সতর্ক করে বলেন। “আপনারা সবসময় ডেটাকে অন্যান্য লাইন ও সারির সঙ্গে যুক্ত রাখতে চান, যেন সবকিছু একসঙ্গে হাইলাইট করতে পারেন। কেবল একটি কলাম বাছাই করবেন না; সবসময় উপরের বাম কোণটি ব্যবহার করুন – এটি অনেকটা আপনার জুতা বাঁধার মত।”

আরও পড়ুন

টপ ১০ ইন ডেটা জার্নালিজম

জিআইজেএন রিসোর্স সেন্টার: ডেটা জার্নালিজম

সম্পাদকের বাছাই: ২০২২ সালের সেরা ১০ ডেটা সাংবাদিকতা প্রকল্প


Rowan Philp, senior reporter GIJNরোয়ান ফিলিপ জিআইজেএনের প্রতিবেদক। তিনি দক্ষিণ আফ্রিকার সানডে টাইমস পত্রিকার প্রধান প্রতিবেদক ছিলেন। বিদেশ প্রতিনিধি হিসেবে বিশ্বের ২৪টির বেশি দেশে সংবাদ, রাজনীতি, দুর্নীতি ও সংঘাত নিয়ে রিপোর্ট করেছেন।

লেখাটি পুনঃপ্রকাশ করুন


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

পরবর্তী

ডেটা সাংবাদিকতা পরামর্শ ও টুল

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

স্প্রেডশিট থেকে ডেটা বাছাই কিংবা প্রয়োজনীয় তথ্য দ্রুত কীভাবে খুঁজতে হয়, তা জানা প্রয়োজন। আর এ জন্য স্প্রেডশিট ব্যবহারে দক্ষতা থাকাটা খুবই গুরুত্বপূর্ণ। কারণ এতে করে আপনি তুলে আনতে পারবেন দারুন সব গল্প।

টেকসইতা পদ্ধতি

সাংবাদিকতার প্রভাব পরিমাপ — আমরা নতুন যা জানি

সব সংবাদমাধ্যমই চেষ্টা করে তাদের রিপোর্টিংয়ের মাধ্যমে সমাজে প্রভাব তৈরির জন্য। কিন্তু এই প্রভাব পরিমাপ করার ক্ষেত্রে সংবাদমাধ্যমগুলো ব্যবহার করে একেক ধরনের সূচক। পড়ুন, এ নিয়ে সাম্প্রতিক গবেষণার মাধ্যমে নতুন কী জানা গেছে।

টিপশীট ডেটা সাংবাদিকতা পরামর্শ ও টুল

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

সমুদ্র সংক্রান্ত ডেটার ধরন হতে পারে বহুবিচিত্র। সমুদ্রে দূষণ, জীববৈচিত্র্য পরিস্থিতি অথবা অর্থবাণিজ্য— এমন বিভিন্ন ধরনের ডেটা, সাংবাদিকেরা ব্যবহার করতে পারেন তাদের রিপোর্টিংয়ে। এই টিপশিটে পাবেন অনুসন্ধানে সামুদ্রিক ডেটা ব্যবহারের পরামর্শ ও রিসোর্সের খোঁজ।

Leon Yin on Investigating Algorithms YouTube

ডেটা সাংবাদিকতা পদ্ধতি

অ্যালগরিদমের গোপন রহস্য: অনুসন্ধানী ডেটা সাংবাদিক লিওন ইয়িনের সঙ্গে কথোপকথন

সোশ্যাল মিডিয়া বা সার্চ ইঞ্জিনের অ্যালগরিদম নিয়ে অনুসন্ধানের জন্য খ্যাতি কুড়িয়েছেন ডেটা সাংবাদিক লিওন ইয়িন। ২০২০ সালে তাঁর একটি কাজের কথা উল্লেখ করা হয়েছিল মার্কিন কংগ্রেসের একটি উপকমিটির শুনানিতে। পড়ুন, তিনি এসব কাজ কীভাবে করেন।