ছবি: শাটারস্টক
ডেটা সাংবাদিকদের জন্য প্রতিবেদন লেখার চারটি সাধারণ অ্যাঙ্গেল
আর্টিকেলটি পড়ুন এই ভাষায়:
পল ব্রাডশের দেওয়া এই পোস্ট মূলত অনলাইন জার্নালিজম ব্লগে প্রকাশিত হয়েছিল এবং অনুমতি নিয়ে এখানে পুনরায় প্রকাশ করা হলো। ব্রাডশ বার্মিংহাম সিটি ইউনিভার্সিটিতে ডেটা সাংবাদিকতার স্নাতকোত্তর কোর্স পরিচালনা করেন।
ডেটা সাংবাদিকতা পড়াতে ও শেখাতে গিয়ে আমি প্রায়ই ডেটাসেট থেকে পাওয়া স্টোরির অতিপ্রচলিত ধরন নিয়ে কথা বলি। তাই ভাবলাম, ডেটা সাংবাদিকতার ১০০টি প্রতিবেদন নিয়ে বিশ্লেষণ করে দেখি যে কোন কোন অ্যাঙ্গেল কত বেশি ব্যবহার হয়৷
বিশ্লেষণ করে দেখলাম, আসলে মোটাদাগে ডেটাভিত্তিক স্টোরির সাতটি মৌলিক অ্যাঙ্গেল আছে। অনেকে স্টোরিটেলিংয়ে দ্বিতীয় মাত্রা হিসেবে অন্যান্য অ্যাঙ্গেলগুলোকে যুক্ত করেন (যেমন, সংখ্যাগত পরিবর্তন বিষয়ক প্রতিবেদনে এক পর্যায়ে কোনো কিছুর স্কেল বা আকারসূচক বিশ্লেষণও যুক্ত হতে পারে), তবে আমার দেখা ডেটা স্টোরিগুলোতে এই সাতটি অ্যাঙ্গেল থেকে কোনো না কোনো একটিকে প্রধান হিসেবে বেছে নেওয়া হয়েছে।
দুই-পর্বের এই ধারাবাহিকের প্রথমটিতে আমি দেখিয়েছি, চারটি সাধারণ অ্যাঙ্গেল কীভাবে আপনাকে স্টোরির আইডিয়া বা ধারণা, সেগুলো বিভিন্নভাবে বাস্তবায়ন ও মনে রাখার মতো বিবেচ্য বিষয়গুলো চিনতে সহায়তা করতে পারে।
ডেটা অ্যাঙ্গেল ১: স্কেল – ‘সমস্যাটি আসলে এত বড়’
সম্ভবত ডেটা থেকে সবচেয়ে বেশি পাওয়া যায়, স্কেল বা আকার বিষয়ক স্টোরি: এই স্টোরিগুলো একটি বড় সমস্যা বা প্রাসঙ্গিক হয়ে ওঠা একটি সমস্যার আকার চিহ্নিত করে।
সবচেয়ে সহজ স্কেল বিষয়ক স্টোরিগুলোতে নতুন বা সর্বশেষ প্রকাশিত সংখ্যার আপডেট দেওয়া হয়: এটি হতে পারে বেকারত্ব, অপরাধের পরিমাণ, বায়ু দূষণ, এলাকাভিত্তিক অর্থ ব্যয়, অথবা জন্ম, মৃত্যু বা বিয়ের সর্বশেষ পরিসংখ্যান।
যেমন, আমরা মহামারির প্রথম কয়েক মাসে মামলা, মৃত্যু ও স্বাস্থ্য-পরীক্ষার সংখ্যা নিয়ে প্রায় প্রতিদিনই স্কেল বিষয়ক স্টোরি হতে দেখেছি।
যুক্তরাজ্যে সেবা সদনগুলোতে করোনা ভাইরাসে আক্রান্ত মৃতের সংখ্যা জরিপের তথ্যমতে ৬,০০০ হতে পারে, এবং অসঙ্গতভাবে প্রদান করা স্বল্পমেয়াদী সাজা পর্যালোচনার পদ্ধতিটি ‘অপ্রতুল’ শিরোনামের প্রতিবেদন দুটি স্কেল স্টোরির অন্যতম উদাহরণ, যেখানে মূল ভিত্তি ছিল প্রতিবেদকের চিহ্নিত করা একটি সমস্যার স্কেল বা আকারের প্রতিক্রিয়া।
অনেক সময় দিনের ঘটনা নিয়ে করা স্টোরির পটভূমি হিসেবে স্কেল ব্যবহার করা হয়, যেমন ড্রোনের কারণে গাটউইক এয়ারপোর্টে বিঘ্ন ঘটে (কতবার অল্পের জন্য বিঘ্ন ঘটেনি?) বা কোনো নীতি-প্রস্তাবের পটভূমিতে স্কেল থাকে, যেমন মন্ত্রীদের মতে, নতুন ড্রাইভারদের জন্য রাতে গাড়ি চালানো নিষিদ্ধ হতে পারে, (কতজন নতুন ড্রাইভারের বয়স ১৯ বছরের কম?)।
সহজে লেখা যায়, এমন স্টোরিগুলোর মধ্যে স্কেল বিষয়ক স্টোরি অন্যতম, যেখানে অনেক ক্ষেত্রে কোন হিসাবনিকাশের প্রয়োজন হয় না।
প্রকৃতপক্ষে, মূল কাজটি হলো সেই স্কেলের প্রেক্ষাপট নির্ধারণ করা — সবচেয়ে বাজে ধরনের স্কেল বিষয়ক স্টোরিগুলো নিছক “বড় সংখ্যার” স্টোরিতে রূপ নেয় (“বেশ কিছু বিষয়ে অনেক টাকা খরচ হয়েছিল” বা “অনেক মানুষের সঙ্গে কিছু একটা ঘটেছে”)। তখন পাঠক বুঝতে পারে না যে আসলেই বিষয়টি সংবাদ হওয়ার মতো, নাকি নেহাতই স্বাভাবিক ঘটনা।
তাই যে কোনো ঘটনায় শতাংশ বা অনুপাত (যেমন “পাঁচের মধ্যে একজন”) বা তুলনা ও উপমা ব্যবহার করাটা গুরুত্বপূর্ণ (“কোনো ঘটনায় খরচ হওয়া অর্থ ৫০০ শিক্ষকের মজুরির সমান”)।
আপনি একটি কম গুরুত্বপূর্ণ অ্যাঙ্গেল হিসেবে পরিবর্তন এবং/অথবা পার্থক্য টেনে আনতে পারেন: এর অর্থ হচ্ছে আপনার দেওয়া স্কেলের ঐতিহাসিক প্রেক্ষাপট, বা স্কেলে পার্থক্য কীভাবে হচ্ছে সেটি তুলে ধরা।
যেমন, নিউইয়র্ক টাইমসের উপরের লেখাটিতে পাঠক চার্ট দেখেই বুঝতে পারবে, করোনাভাইরাস মহামারিতে “নিহতের সত্যিকারের সংখ্যার” (স্কেল) প্রেক্ষাপটটি কেমন ছিল। এতে দেখা যায়, বছরের শুরু থেকে দেশটির বিভিন্ন অঞ্চলে কীভাবে পরিস্থিতির পরিবর্তন হয়েছে।
ডেটা অ্যাঙ্গেল ২: পরিবর্তন ও স্থবিরতা – বাড়ছে, কমছে, অনড়
চেঞ্জ বা পরিবর্তন বিষয়ক স্টোরিগুলো স্কেল স্টোরির মতোই বহুল ব্যবহৃত — এবং সম্ভবত পিচ করাও সহজ।
পরিবর্তন, স্বাভাবিকভাবেই একটি সংবাদযোগ্য বিষয় এবং এটি শিরোনাম তৈরির জন্য প্রয়োজনীয় ক্রিয়াপদের (“ওঠে,” “নামে,” “[বেড়ে] যায়”) যোগান দেয়।
যখন আপনি ডেটায় কোনো পরিবর্তন লক্ষ্য করবেন, তখন “কেন” সেটি হচ্ছে তার উত্তর খুঁজতে আপনাকে আরো আরও কাজ করতে হবে। কেন এই সংখ্যা বাড়ছে বা কমছে?
আপনার গল্পে ছোটখাটো একটি অ্যাঙ্গেলও জুড়ে দিতে পারেন যা সেই প্রবণতায় ব্যতিক্রমী কিছু সামনে আনবে – যে যে অঞ্চলে বেড়েছে বা কমেছে, কোথায় বৃদ্ধি সবচেয়ে বেশি এবং কোথায় সবচেয়ে কম।
এটি আপনার রিপোর্টিংকে “কেন?” প্রশ্নের দিকে পথ দেখাতে সহায়তা করতে পারে। কারণ এমন সম্ভাবনাও উড়িয়ে দেওয়া যায় না যে সবচেয়ে বেশি আক্রান্ত এলাকাগুলো এই সমস্যা সম্পর্কে সচেতন এবং সেখানকার অধিবাসীরা বিষয়টি নিয়ে কথা বলতে পারে।
পরিবর্তন নিয়ে প্রতিবেদনের সময় দুটি বিষয় বিবেচনা করা জরুরি: সিজনালিটি (সময়ের বৈশিষ্ট্য) এবং মার্জিন অব এরর (ভুলের মাত্রা)।
সিজনালিটি হলো এমন একটি বিষয় যেখানে (সাধারণত অনুমানযোগ্য ও স্বাভাবিক, আর তাই অ-সংবাদযোগ্য) মৌসুমী বিষয়গুলো সংখ্যায় প্রকাশ পেতে পারে, যেমন একটি অর্থ বছর বা স্কুলের মেয়াদ শেষ হওয়া, নতুন গাড়ি উন্মোচন বা কেবলমাত্র তাপমাত্রার পরিবর্তন। প্রায়ই সিজনালিটির প্রভাব প্রতিরোধে সালওয়ারী তুলনা (যেমন, গত বছরের আগস্টের তুলনায় এই আগস্ট) বা কালভিত্তিক সমন্বয় ব্যবহৃত হয়।
এদিকে, মার্জিন অব এরর হলো সেই পরিসর যেখানে প্রকৃত সংখ্যাগুলো আসলে ভুল তথ্য উপস্থাপন করে৷ অনেক ডেটাসেট নমুনার ভিত্তিতে তৈরি হওয়ায় পরবর্তীতে বাদবাকি সব উপাত্তে নজর দিয়ে সাধারণীকরণ করা হয়, সেই সাধারণীকরণটি আসলে কতটা সঠিক তা বোঝাতে ভুলের মাত্রা (বা কনফিডেন্স ইন্টারভাল) ব্যবহার করা হয়। সেই ভুলের মাত্রায় কোনো পরিবর্তন পেলে, তখন আসলে কোনো পরিবর্তন হয়েছে বলে রিপোর্ট করা যায় না।
পরিবর্তন না হওয়াও পরিবর্তন বিষয়ক স্টোরির একটি ভিন্ন অ্যাঙ্গেল। যেমন, কোম্পানির অস্বচ্ছলতা নিয়ে এই স্টোরিটি মানুষের প্রত্যাশার জায়গায় একটি পরিবর্তন খোঁজ করেছে। আপনি হয়ত আশা করছেন যে মহামারিতে অনেক কোম্পানি লোকসানে ডুবে যাবে, কিন্তু উল্টো দেখা গেছে, মহামারির সময় দেউলিয়া কোম্পানির সংখ্যা বাড়েনি। প্রত্যাশার বিপরীতে ডুবে যাওয়া কোম্পানির সংখ্যা কেন বাড়ল না, তার উত্তর জানতে এই প্রতিবেদনে বিশেষজ্ঞদের মন্তব্য জানতে চাওয়া হয়েছে।
ডেটা অ্যাঙ্গেল ৩: র্যাঙ্কিং (তালিকা) ও আউটলায়ার (ব্যতিক্রম) – কে উৎকৃষ্ট, কে নিকৃষ্ট? কে অস্বাভাবিক আর এর কারণ কী?
র্যাঙ্কিং বিষয়ক স্টোরিগুলো হলো ডেটাসেটে কে বা কী সবচেয়ে খারাপ বা সেরা, বা কোনো নির্দিষ্ট প্রতিষ্ঠান (স্থানীয় পুলিশ বাহিনী, স্কুল বা দল, অথবা বিশেষ বিষয়ে বিশেষজ্ঞতাসম্পন্ন কোনো গণামাধ্যম হলে একটি ইন্ডাস্ট্রি) অন্য প্রতিষ্ঠানের তুলনায় কেমন করছে।
“এই এলাকাটি সবচেয়ে অপরাধপ্রবণ” বা “স্থানীয় স্কুলের শিক্ষার্থীরা পরীক্ষার ফলাফলে সেরাদের মধ্যে তৃতীয় হয়েছে” – এমন স্টোরি এই ক্যাটাগরিতে সবচেয়ে বেশি দেখা যায়।
আপনি নজর দিতে পারেন সবচেয়ে বেশি আক্রান্ত এলাকার দিকেও। যেমন: ইউনিভার্সাল ক্রেডিট অ্যাডভান্সেস (এক ধরনের ঋণ) এর কারণে যুক্তরাজ্যে সবচেয়ে বেশি আক্রান্ত ১০টি এলাকার তালিকায় বার্মিংহামের একাংশ। আপনি দেখতে চাইতে পারেন যে কোন নির্দিষ্ট খাত, অন্য খাতের তুলনায় কেমন করছে। যেমন. নির্মাণখাত যুক্তরাজ্যের সবচেয়ে বিপজ্জনক শিল্পের মধ্যে তৃতীয়।
তবে র্যাঙ্কিং ঘরানার স্টোরিগুলো সবচেয়ে সেরা বা সবচেয়ে খারাপ সময়, স্থান বা বিভাগ নিয়েও হতে পারে,” যা ডেটাসেট থেকে “বেরিয়ে আসতে পারে।”
যেমন, ইকোনমিস্টের উল্লিখিত নিবন্ধটির বিষয়বস্তু ছিল কোন মাসে সবচেয়ে বেশি দুঃখের গান শোনা হয়। অন্যদিকে বার্মিংহাম লাইভের এই স্টোরিতে তুলে ধরা হয় স্যান্ডওয়েলে কোন অপরাধ বেশি ঘটে — এবং কোথায় আপনার অপরাধের শিকার হওয়ার আশঙ্কা বেশি।
দ্য ইকোনমিস্টের ডেটা সাংবাদিকতার নিউজলেটারে “কীভাবে একটি সূচক সংকলন করা যায়” শিরোনামে একটি নির্দিষ্ট অংশ রয়েছে:
“এ ধরনের সূচকগুলো কতটা দরকারি? বস্তুনিষ্ঠ মাপকাঠি না থাকলে যে কোনো র্যাঙ্কিং নিয়ে সমালোচনা হতে পারে। গুণগত র্যাঙ্কিংগুলোর পরিমাপ আপেক্ষিক হয়ে থাকে। সম্ভবত কারো কাছে যা ‘সহনীয়’ অন্য কারো কাছে তাই ‘অস্বস্তিকর’ হতে পারে- যেখানে ‘অনাকাঙ্খিত’ বিষয়ের চেয়ে ‘অসহনীয়’ দ্বিগুণ খারাপ মনে হতে পারে? অর্ডিনাল স্কেলে (যেখানে সূচক পর্যায়ক্রমে দেখানো হয়) একটি সূচক থেকে অন্যটির মধ্যবর্তী দূরত্বটি আপেক্ষিক – এরপরও এই র্যাঙ্কিং কাজে লাগাতে সেগুলোতে একটি সংখ্যাসূচক স্কোর আরোপ করতে হবে।
“দ্য ইকোনমিস্ট ১৯৮৬ সাল মুদ্রার মানের পরিসংখ্যান তুলে ধরে বিগ ম্যাক সূচক প্রকাশ করে আসছে। ২০১১ সালে আমরা শু থ্রোয়ার্স ইনডেক্স প্রকাশ করেছি, যেখানে আরব বিশ্বজুড়ে অস্থিরতার সম্ভাবনা মূল্যায়ন করা হয়েছে। আর এ বছর আমরা একটি বৈশ্বিক স্বাভাবিকতা সূচক তৈরি করেছি, যা কোভিড-১৯ এর প্রভাব কাটিয়ে দেশগুলোর ঘুরে দাঁড়ানো ট্র্যাক করছে। একেবারেই কোনো তুলনামূলক চিত্র উপস্থপানের ব্যবস্থা না থাকার চেয়ে ত্রুটিপূর্ণ পরিসংখ্যান হলেও কিছু একটা থাকা ভালো।”
র্যাঙ্কিং বিষয়ক স্টোরিতে প্রেক্ষাপট সম্পর্কে সচেতন থাকা উচিত: কেবলমাত্র জনসংখ্যা বেশি হওয়ার কারণে কোনো এলাকায় অপরাধ, রোগ বা দূষণের পরিমাণ সবচেয়ে বেশি হতে পারে। প্রতিবেদনের তারিখের কারণেও বিভ্রান্তিকর ডেটা আসতে পারে: মঙ্গলবারে কোভিড আক্রান্তের হার শীর্ষে থাকে কারণ “সপ্তাহের ছুটির দিনগুলোতে অনেক মৃতের সংখ্যা জানানো হয় না,” যা ব্রিটিশ গণমাধ্যম সংস্থা ফুলফ্যাক্ট সামনে এনেছে।
ডেটা অ্যাঙ্গেল ৪: পার্থক্য — ‘পোস্টকোড লটারি,’ মানচিত্র ও বন্টন
আমরা যেখানে সমতাভিত্তিক আচরণ আশা করি বা জীবনের কোনো একটি পর্ব আঁতশ কাঁচের নিচে ফেলতে চাই, সেখানে পার্থক্য বা বৈষম্যের স্টোরিগুলো সবচেয়ে বেশি প্রযোজ্য।
কীভাবে একটি দেশের কিছু অংশের তুলনায় অন্য অংশে কোনো কিছু ব্যবহারের সুবিধা কম বা বেশি চাহিদা থাকে, তা দেখাতে কোরোপ্লেথ ম্যাপ বা হিটম্যাপের ব্যবহার একটি বহুল পরিচিত দৃষ্টান্ত।
যেমন, “পোস্টকোড লটারি” শব্দযুগল দিয়ে বোঝানো হয়, কোনো সুবিধা সবার সমানভাবে পাওয়ার কথা থাকলেও, তা আসলে কপালের ফের।
আইভিএফ: এনএইচএস কাপলস ‘ফেস সোশ্যাল রেশনিং,’ শীর্ষক বিবিসি ডেটা ইউনিটের স্টোরিতে যেমনটা উঠে আসে যে ইংল্যান্ডে আপনার অবস্থানের ভিত্তিতে কীভাবে সন্তান ধারণ সংশ্লিষ্ট চিকিৎসা সুবিধা পাওয়া বা না পাওয়া নির্ভর করে।
বৈষম্য বা পার্থক্য বিষয়ক স্টোরি হয়ত বিদ্যমান অন্যায্যতা – বা, মানুষ যদি তা আগে থেকে জেনে থাকে তবে তা কীভাবে ও কোথায় (বিশেষত তাদের এলাকায়) ঘটছে – সামনে আনে।
যান্ত্রিক বৈষম্য নিয়ে প্রোপাবলিকার এই ধারাবাহিকের মতো অ্যালগরিদম ভিত্তিক জবাবদিহিতার স্টোরিগুলোর বিষয়বস্তু অনেক সময় ভিন্নতা ও অন্যায্যতা হয়ে থাকে, কোনো অ্যালগরিদম বাছাই করা না হলে যা সামনে চলে আসে: বিশেষ কোনো পার্থক্য না থাকলেও কাউকে হয়তো ভিন্নভাবে সাজা দেওয়া হচ্ছে, বা ভিন্ন ধরনের বীমা সুবিধা দেওয়া হয়েছে।
অবহেলিত দাবি-দাওয়া বা সরবরাহ ঘাটতির বিষয়গুলোকে সমান গুরুত্ব দিয়ে তুলে ধরতে পার্থক্যসূচক স্টোরি ব্যবহার করা যেতে পারে: বিবিসি শেয়ার্ড ডেটা ইউনিটের হয়ে বৈদ্যুতিক গাড়ির চার্জিং পয়েন্ট নিয়ে আমার করা একটি কাজে দেশের বিদ্যমান অবকাঠামো পরিস্থিতি ও অবস্থান শনাক্ত করা হয়েছে। ডেটা থেকে যে চিত্র উঠে এসেছে, তা কেস স্টাডি ও পাল্টা ব্যবস্থা নেওয়ার ভিত্তি তৈরি করেছে।
এই ধারাবাহিকের দ্বিতীয় পর্বে আমি অন্য তিনটি অ্যাঙ্গেলে নজর দিয়েছি: অনুসন্ধানী স্টোরি; ডেটার গুণগত মান, অস্তিত্ব বা ঘাটতি; এবং সম্পর্ক বিষয়ক অ্যাঙ্গেল। ফিনিশ ভাষাতেও এই রেখচিত্রটি পাওয়া যায়।
আরও পড়ুন
ডেটা জার্নালিজম: দ্য জিআইজেএন কালেকশন
অনারিং দ্য বেস্ট ইন ডেটা জার্নালিজম: উইনার্স অব দ্য ২০২৩ সিগমা অ্যাওয়ার্ডস
হাও ডেটা জার্নালিস্টস ক্যান ইউজ অ্যানোনিমাইজেশন টু প্রোটেক্ট প্রাইভেসি
পল ব্রাডশ, যুক্তরাজ্যের বার্মিংহাম সিটি বিশ্ববিদ্যালয়ে ডেটাসাংবাদিকতা এবং মাল্টিপ্লাটফর্ম ও মোবাইল সাংবাদিকতা বিষয়ে স্নাতকোত্তর কোর্স পরিচালনা করেন। তিনি বিবিসি ইংল্যান্ডের ডেটা ইউনিটেও পরামর্শক ডেটা সাংবাদিক হিসেবে কর্মরত আছেন।