Leon Yin on Investigating Algorithms YouTube

Bloomberg News investigative data journalist Leon Yin has trained his reporting focus on major social network's algorithm's function. Image: Screenshot, YouTube

লেখাপত্র

•

বিষয়

» ডেটা সাংবাদিকতা » পদ্ধতি

অ্যালগরিদমের গোপন রহস্য: অনুসন্ধানী ডেটা সাংবাদিক লিওন ইয়িনের সঙ্গে কথোপকথন

লিখেছেন ইন ওল্ড নিউজ • 5 মার্চ 2024

আর্টিকেলটি পড়ুন এই ভাষায়:

লিওন ইয়িন একজন অনুসন্ধানী ডেটা সাংবাদিক। প্রযুক্তি কীভাবে সমাজকে প্রভাবিত করে— এ বিষয়ক কাজের জন্য তিনি স্বীকৃত। অনুসন্ধানের মাধ্যমে দেখিয়েছেন গুগল কীভাবে বিজ্ঞাপনদাতাদের বাধা দেয় “ব্ল্যাক লাইভস ম্যাটার”-এর মতো জাতিগত শব্দের ব্যবহারে, বিপরীতে “হোয়াইট লাইভস ম্যাটার” কথাটি ব্যবহারের অনুমতি দেয়। অন্য একটি অনুসন্ধানের মাধ্যমে তিনি ডানপন্থী কনটেন্টের জনপ্রিয়তা বিষয়ক ফেসবুক প্ল্যাটফর্মের স্বচ্ছতার অভাব উন্মোচন করেছেন। এছাড়া ভিন্ন একটি প্রজেক্ট নিয়ে কাজ করার সময় উন্মোচন করেছেন সার্চ রেজাল্টে গুগলের নিজস্ব পণ্যগুলোকে শীর্ষে প্রদর্শন করে বা অগ্রাধিকার দেয়। এই কাজটি ২০২০ সালের জুলাইয়ে মার্কিন কংগ্রেসের একটি উপকমিটির শুনানিতে উল্লেখ করা হয়েছিল।

আন্তর্জাতিক সাংবাদিক সম্মেলনের সময় আমরা যখন লিওনের সাক্ষাতকার নিই, তখন তিনি মার্কআপে কর্মরত ছিলেন। অলাভজনক এ নিউজরুমটি প্রযুক্তি জগত নিয়ে অনুসন্ধান করে। এরপর তিনি যোগ দেন ব্লুমবার্গ টেকনোলজিতে, বর্তমানে এ প্রতিষ্ঠানটির হয়েও তিনি তার অনুসন্ধানী কাজগুলো চালিয়ে যাচ্ছেন।

অনুসন্ধানী প্রতিবেদনের বাইরেও লিওন বিভিন্ন রিসোর্সে ব্যাখ্যা করেন যে, তিনি কীভাবে এই কাজগুলো করেন। তার এমনই একটি রিসোর্স ইন্সপেক্ট এলিমেন্ট। এই গাইডে তিনি অ্যালগরিদম নিয়ে তার অনুসন্ধানের অভিজ্ঞতা, ডেটাসেট তৈরি করাসহ বিভিন্ন বিষয় সম্পর্কে লিখেছেন।

ইন ওল্ড নিউজ: আপনি কি সাধারণত একসঙ্গে বেশ কয়েকটি বিষয় নিয়ে কাজ করেন? এগুলোর পাশাপাশি অনুসন্ধানের নতুন কৌশল শেখার বিষয়গুলো কীভাবে ভারসাম্য করেন?

লিওন ইয়িন: আমি সবসময় বলি যে আমি একসঙ্গে দুটি বিষয় নিয়ে কাজ করতে পছন্দ করি, যেগুলো দীর্ঘ সময় নিয়ে করা যায়। অথবা যদি কোনো কিছু আটকে যায়, তাহলে যেন অন্য কোনো দিকে মনোযোগ দেওয়া যায়। সেটি হতে পারে আরেকটি দীর্ঘমেয়াদী প্রকল্প বা দ্রুত করে ফেলা যাবে– এমন কিছু। আমি এটি করি নিজেকে সচল রাখার জন্য। কারণ মাঝে মধ্যে অল্পতেই আপনি নিরুৎসাহিত বোধ করতে পারেন। আমি মনে করি, এই ধরনের অনুসন্ধানে বেশি সময় লাগে, আপনার সত্যিই সময় নিতে হবে, তাছাড়া আপনার অন্যদের মতামত এবং পরামর্শেরও প্রয়োজন।

ইন ওল্ড নিউজ: কংগ্রেসের শুনানির সময় আপনার একটি প্রতিবেদনের কথা উল্লেখ করা হয়েছিল। আপনি কী ওই বিষয়ে কিছু বলবেন, আর এমনটা ঘটতে পারে বলে কী ধারণা করেছিলেন?

লিওন ইয়িন: ঘটনাটি শুরু আমার রিপোর্টিং অংশীদার অ্যাড্রিয়ান জেফ্রিস থেকে — তিনি অনেক বছর ধরে গুগলের ওপর প্রতিবেদন করছেন এবং স্নিপেট ফিচার নিয়ে অনেক কাজও করেছেন। স্নিপেট ফিচার ওয়েব থেকে বিষয়বস্তুকে স্ক্র্যাপ করে সংক্ষিপ্ত ও টেক্সট বক্স আকারে উপস্থাপন করে। সে সত্যিই [এটা] নিয়ে আগ্রহী।

গুগল সার্চের মাধ্যমে পাওয়া স্নিপেটের উদাহরণ। ছবি: স্ক্রিনশট, গুগল

কিন্তু তার সাড়া জাগানো অনুসন্ধানটি ছিল— গুগলের কতটা জুড়ে গুগল? এ প্রক্রিয়ায় আমরা আমাদের তদন্তদের কাজগুলো কীভাবে পরিচালনা করবো, তার ওপর ভিত্তি করে আনুমানিক একটা চেকলিস্ট তৈরি করি।” পরের প্রশ্নটি ছিল, আমরা কিভাবে কাজটি পরীক্ষা করবো? এবং আমরা কিভাবে ডেটাসেট তৈরি করবো?

সৌভাগ্যক্রমে, গুগল স্ক্র্যাপ করা সত্যিই সহজ। তাই আমরা গুগল ট্রেন্ড থেকে সর্বাধিক জনপ্রিয় সার্চগুলোকে স্ক্র্যাপ করেছি। কাজটি আমরা করি কয়েক মাস ধরে। ব্রাউজার অটোমেশন টুল সেলেনিয়াম ব্যবহার করে অ্যান্ড্রয়েড কিংবা আইফোন টেনের হাজার হাজার জনপ্রিয় সার্চ তালিকা আমরা সংগ্রহ করেছি। সেলেনিয়াম হচ্ছে একটি ব্রাউজার অটোমেশন টুল যা সাধারণত ওয়েবসাইটগুলো পরীক্ষা করতে ব্যবহৃত হয়। আমরা ওয়েবসাইটের তালিকা সংগ্রহ করতে এটি ব্যবহার করি। মাসের পর ধরে আমরা কাজটি করার মাধ্যমে বুঝতে চেষ্টা করি যে গুগল কী বা কীভাবে কাজ করে। এজন্য আমরা আমরা সোর্স কোডগুলো খতিয়ে দেখেছি এবং সার্চ ইঞ্জিন অপটিমাইজেশন (এসইও) নিয়ে কাজ করে– এমন অনেক সূত্রের সঙ্গে কথা বলেছি।

আমরা ওয়েবপেজকে রঙের মাধ্যমে চিহ্নিত করার (ওয়েব স্টেনিং) একটি পদ্ধতি তৈরি করি এবং এর মাধ্যমে লেখা, ছবি, বিজ্ঞাপন ও ওয়েবপেজের বিভিন্ন কনটেন্ট পেতে শুরু করি। আমরা একবাক্যে বলতে পারতাম যে, এগুলো সব গুগলের, তবে আমাদের কিছু বিষয় মূল্যায়নের প্রয়োজন ছিল। আমরা বিভিন্ন কনটেন্ট ঘিরে চারকোনা বক্স আঁকার একটি পদ্ধতিও উদ্ভাবন করি। এর মধ্যে কিছু ছিল গুগলের এবং কিছু লিঙ্ক করা। আমরা নির্দিষ্ট একটি রঙের মাধ্যমে এগুলো হাইলাইট করি, তারপর পেজের লেখা, ছবি, বিজ্ঞাপনের সঙ্গে হাইলাইট করা অংশের যোগফলগুলো ভাগ করি। এ পর্যায়ে আমরা দেখতে পাই যে, প্রথম পৃষ্ঠার প্রায় ৪২ শতাংশ সার্চ রেজাল্টই গুগলের নিজস্ব পণ্যের।

Image of the web staining technique Leon and his team used to investigate Google search results. Image: Screenshot, leonyin.org

তাত্ত্বিক বা আনুমানিক ধারণা থাকলেও শেষ পর্যন্ত বিষয়টি ছিল চোখে আঙ্গুল দিয়ে দেখিয়ে দেওয়া। একটি পরিচ্ছন্ন পরিসংখ্যান তুলে ধরা, যেটি সম্পর্কে সবাই ওয়াকিবল। গুগল নিজেদের পণ্যকে অগ্রাধিকার দেয়; তারা হচ্ছে ওই বেকারির মালিক, যারা রুটি বানায়। যদিও তারা জোর গলায় বলতেই পারে “আমাদের পণ্যগুলো দেখো,” তাই না? কিন্তু প্রকৃত পরিসংখ্যানগুলো খুঁজে পাওয়া সত্যিই কঠিন ছিল। আর তাই, আমি ঠিক এ কাজটিই করতে পছন্দ করি যেখানে সাধারণ জ্ঞান দিয়ে আপনি বিষয়টি ধরতে পারবেন, যদিও কোন প্রমাণ নেই, তাই না?

আমরা এই জায়গাটি নিয়েই কাজ করেছি এবং ফাঁকগুলো পূরণ করেছি। সুতরাং গুগলের ঘটনাটি যখন বেরিয়ে আসে, তখন অ্যান্টিট্রাস্ট নিয়ে কংগ্রেসের শুনানি অনুষ্ঠিত হয়। কংগ্রেসের পক্ষ থেকে সব বড় বড় প্রযুক্তি প্রতিষ্ঠানের প্রধান নির্বাহীদের প্রশ্ন করা হয়। সম্ভবত প্রারম্ভিক বক্তব্যে, [তৎকালীন মার্কিন কংগ্রেসম্যান] ডেভিড সিসিলিন যখন গুগল প্রধানকে প্রশ্ন করেন, তখন আমাদের এ কাজটির কথা উল্লেখ করেন। বিষয়টি আমাদের জন্য ছিল অবিশ্বাস্য। আমাদের প্রতিক্রিয়া ছিল, ও খোদা, এটা কিভাবে ঘটলো? মাঝে মধ্যে আমাদের কাজগুলো এ ধরনের ইতিবাচক প্রভাব ফেলতে সক্ষম হয়, আমাদের কোন ধারণাই থাকে না যে এমন কিছু ঘটতে পারে কিংবা সময়ের সঙ্গে মিলে যাবে। আমি ঠিক জানি না যে, আমাদের নথিগুলো তার সহকর্মীদের সঙ্গে শেয়ার করা হয়েছিল কিনা। আমরা জানি না যে সব ক্ষেত্রে এমনটি করা হয় কিনা। তবে আমার মনে হয় না যে এমনটি করা হয়েছিল।

অ্যামাজনের ওপর অনুসন্ধানের সময়ও একই রকম ঘটনা ঘটেছিল, যেটি ছিল একটি স্বাভাবিক ফলোআপ। আমরা ভাবছিলাম যে, কীভাবে আমরা আরেকটি বড় প্রযুক্তি প্ল্যাটফর্মকে নিয়ে এরকম কাজ করতে পারি, যারা নিজেদের পণ্যগুলোকে অগ্রাধিকার দিতে পছন্দ করে?

আমরা অ্যামাজনের নিজস্ব লেবেলকৃত পণ্য, জনপ্রিয় অ্যামাজন সার্চগুলো দেখি। আমাদের অনুসন্ধানটি প্রকাশের কয়েক দিনের মধ্যে, [কংগ্রেস] অ্যামাজনের প্রধান নির্বাহীকে একটি চিঠি পাঠায় [সেখানে উল্লেখ করা হয়]: আপনি শপথ করেছিলেন যে অ্যামাজন এর নিজস্ব পণ্যের প্রচার পছন্দ করে না, কিন্তু এ গবেষণাটি সরাসরি বিপরীত কথা বলছে। বিষয়টি দয়া করে ব্যাখ্যা করবেন।

যা সত্যিই চমৎকার। যখন আমরা গল্পগুলো পিচ করি, তখন সবসময় দায়বদ্ধতা সম্পর্কে চিন্তা করি। যেমন, কোন নিয়মটি ভাঙা হচ্ছে? কারা প্রভাবিত হচ্ছেন? কেউ হয়তো শপথ নিয়েও মিথ্যা বলেছেন যেগুলো আমরা প্রমাণ করতে পারি। হয়তো সেখানে কোনো আইন ভাঙা হচ্ছে। তাই আমার মনে হয়, আমরা এভাবেই আমাদের প্রতিবেদনগুলোকে কাঠামোবদ্ধ করে তুলি। প্রায়ই এমন হয় যে, একজন নির্বাহী শপথের অধীনে যে প্রতিশ্রুতি দিয়েছিলেন তা লঙ্ঘন করেছেন।

আমরা সেসময় কিছু জানতামও না। কিন্তু সেটি ঘটেছিল। তো, এভাবেই আমরা কিছু প্রভাব তৈরি করেছি।

ইন ওল্ড নিউজ: তথ্য-উপাত্তনির্ভর অনুসন্ধানটি ফলপ্রসু হবে কিনা আপনি কীভাবে তা বুঝতে পারেন?

লিওন ইয়িন: অনুসন্ধানটি ফলপ্রসু হবে কিনা— এটি বুঝতে আমি ও আমার সম্পাদক সাধারণত এক ধরনের চেকলিস্টের ওপর নির্ভর করি। যা আমি আগেও উল্লেখ করেছি। তাৎক্ষণিক প্রশ্নটি হচ্ছে ডেটা দিয়ে আপনি কী কিছু পরীক্ষা করতে পারেন? আপনি কীভাবে ডেটা সংগ্রহ করবেন, এটি কতটা কঠিন? আপনাকে কোন জিনিসগুলো শ্রেণীবদ্ধ ও বিন্যস্ত করতে হবে? আমরা যে ফলাফলটি খুঁজছি তা প্রায়ই পরিবর্তিত হয় বলে সবসময় ডেটার একটি মান উল্লেখ করি — যেমন গুগল কী, অ্যামাজন কী — এটি কিন্তু ঝরঝরে কোনো স্প্রেডশিট কলাম নয়। আমাদের বিষয়টি খুঁজে বের করতে হবে। এটি কী— আমাদের কেবল তা খুঁজে বের করলেই চলবে না, আমাদের বের করতে হবে ওই ডেটাসেটটি কী, এই জগতটা কীভাবে কাজ করে। আমরা কোথায় থামবো? আমাদের জন্য কতটুকু যথেষ্ট? প্রাপ্ত ডেটা কার্যকর কিনা তা দ্রুত পরীক্ষার উপায় কী?

আমি সবসময় এ প্রশ্নগুলো নিয়ে চিন্তা করি ও উত্তর বের করার চেষ্টা করি, এরপর পুরোদমে কাজ শুরুর আগে সম্ভাব্য সব দিকগুলো সম্পর্কে সম্পাদককে বলি। আমরা আরেকটি জিনিস করি তা হচ্ছে, একটি দ্রুত পরীক্ষা— কোন কিছু পরিমাপযোগ্য কিনা তা প্রমাণের সর্বনিম্ন কার্যকর বিশ্লেষণ কী, কী চলছে? দেখা যে, কোনো প্যাটার্ন আছে কিনা।

এভাবেই মার্কিন যুক্তরাষ্ট্রে ইন্টারনেট বৈষম্যের ঘটনা নিয়ে একটি সাম্প্রতিক প্রতিবেদন তৈরি হয়েছে। আমরা চেষ্টা করছিলাম একটি একাডেমিক নিবন্ধ ধরে কাজ করতে, যেখানে নয়টি প্রদেশজুড়ে অসংখ্য ইন্টারনেট পরিষেবা প্রদানকারীর কার্মকাণ্ড ঘিরে কাজ করা হয়েছিল। এটি করার জন্য আমরা নজর দিয়েছিলাম ছোট একটি শহরের একটি ইন্টারনেট পরিষেবা প্রদানকারীর তথ্যের দিকে।

আমি দেখতে পাই যে ইন্টারনেটের দ্রুত গতি আর ধীর গতির মধ্যে এক ধরনের ফারাক আছে, যা আইন বহির্ভূত। তাছাড়া ধীর বা দ্রুত গতির ক্ষেত্রে ভোক্তাকে একই পরিমাণ খরচ বহন করতে হচ্ছে। আমরা আদমশুমারির তথ্য যাচাই করে দেখতে পাই যে, বিষয়টি সত্যিই পক্ষপাতদুষ্ট। নিম্ন আয়ের লোকেরা মূলত সম পরিমাণ অর্থ দিয়ে ধীর গতির ইন্টারনেট পরিষেবা পাচ্ছেন।

এই দ্রুত পরীক্ষাটি আপনাকে কেবল কার্যকর তথ্যই প্রদান করে না, বরং ভিন্ন গল্পের দিকে অগ্রসর হওয়ার কথা বলে। আর তাই একাডেমিক গবেষণার পরিবর্তে আমরা একটি ভিন্ন গল্প খুঁজতে থাকি। যেখানে নীতি-নির্ধারণী বিষয়গুলো অন্তর্ভুক্ত হবে, এবং যেখানে ভোক্তাদের পক্ষ হয়ে গল্প বলার আছে: আপনি একটি খারাপ চুক্তির নেতিবাচক ফল ভোগ করছেন, যা সারা দেশে ঘটছে।

তাই আমরা চেকলিস্টের প্রশ্নগুলোর উত্তর খুঁজতে শুরু করি আর এটাও ভাবতে থাকি যে, কী পদ্ধতিতে দ্রুত বিশ্লেষণের মাধ্যমে আমরা বিষয়টি সুস্পষ্টভাবে তুলে ধরতে পারি। আমরা কী কী করতে পারি, তা আমি আমার সম্পাদককে জানাই এবং নিজেদের মধ্যে আলোচনা করি। আপনার কাছে কোনো গল্প আছে কিনা— তা কিন্তু পরিষ্কার। এটাও নিশ্চিত যে আপনার গল্পটি ভালো কিনা। আপনি কিছু বিষয় নিয়ে অনিশ্চিত থাকতে পারেন, তবে সেসব প্রশ্নের কোনো উত্তর যদি খুঁজে না পান, তাহলে আপনি কিন্তু এটাও নিশ্চিত যে গল্পটিকে মেরে ফেলা ছাড়া আর কোনো উপায় নেই।

ইন ওল্ড নিউজ: সাংবাদিকেরা কীভাবে তাদের কাজগুলো করেছেন– তা ব্যাখ্যা করা কতটা গুরুত্বপূর্ণ?

লিওন ইয়িন: আমি মনে করি, ঠিক এই কারণেই [মার্কআপ প্রতিষ্ঠাতা] জুলিয়া অ্যাংউইন বিশ্বাস তৈরির প্রয়োজনীয়তার ওপর জোর দিয়েছিলেন। এটা বলার জন্য যে, আমরা পি-হ্যাকিং করছি না। নিজেদের মতো করে কোনো জিনিস তৈরি করছি না। এই যে তার প্রমাণ। এবং আপনি দেখতে পাচ্ছেন যে আমরা কীভাবে আমাদের সিদ্ধান্তে পৌঁছাচ্ছি। এগুলো দেখে আপনি নিজের মতো করে সিদ্ধান্ত নিতে পারবেন।

আমি মনে করি এর মধ্যে অনেক শক্তি আছে। আমি ঐতিহ্যগত সাংবাদিকতায় ফিরে যাচ্ছি। আপনার যদি নথি বা সাক্ষাৎকার থাকে তবে আপনি সেগুলো মাকরক বা ডকুমেন্টক্লাউডের মতো কোথাও দিবেন, তাই না? বলতে গেলে, এটা আমার ফোয়া [তথ্যের স্বাধীনতা আইন] অনুরোধের মতো। আমি সেই অনুরোধ থেকে যে তথ্য পেয়েছি তা এখানে রয়েছে।

মৌলিকভাবে, কাজগুলো একই রকম, যেখানে কোনো সরকারি সংস্থার কাছে তথ্যের অনুরোধ না করে আমি সেটি করছি একটি ওয়েবসাইটের কাছে। আমি ওয়েবসাইটগুলো থেকে যা জানতে চেয়েছি তা এখানে রয়েছে, তারা আমাকে যে তথ্যগুলো দিয়েছে তা এবং ওই তথ্যগুলো দিয়ে আমি কী করেছি তাও এখানে আপনি পাবেন। তাই গোটা প্রক্রিয়াটিকেই আমি প্রথাগত সাংবাদিকতার ওপর গড়ে উঠতে দেখি। শুধু খানিকটা ভিন্ন মাত্রা আর ভিন্ন ভাষা ব্যবহার করা হয়।

তাই গোটা বিষয়টাই অনেকটা মৌলিকতার কাছে ফিরে যাওয়া। আমার এটি দেখতে খুবই ভালো লাগবে যে, আরও বেশি নিউজরুম প্রমাণাদি তৈরির জন্য এবং বিভিন্ন প্রশ্নের উত্তর খোঁজার জন্য নিজেদের ডেটাসেট তৈরি করার পেছনে বিনিয়োগ করতে শুরু করেছে। আমি দেখতে পাচ্ছি, বড় নিবন্ধ আর সেটি তৈরির প্রক্রিয়া প্রকাশ করার চর্চা জনপ্রিয় হয়ে উঠেছে। কনজিউমার রিপোর্টের অনুসন্ধানী দলটি সেটাই করে। ওয়াশিংটন পোস্টও তাই করে।

আমি অনেক পরিবর্তন দেখতে শুরু করছি, কিন্তু এগুলোর মাত্রা এখনো কম। তবে আমি যে গল্পগুলো নিয়ে কাজ করি, সেখানে এটার প্রয়োজন আছে। কারণ আমরা চাই, আমার কাছে, আমার প্রতিবেদকের কাছে, আমার সম্পাদক এবং যাদের ঘিরে অনুসন্ধানগুলো করি, সবাই যেন বুঝতে পারি যে আমাদের কাছে অনেক তথ্য রয়েছে। আমরা সবাই জানি, কী পরিমাপ করা হচ্ছে, তথ্যগুলো কোথা থেকে আসে, আমরা কী অনুমান করছি আর আমাদের সীমাবদ্ধতাই বা কতটুকু।

Leon Yin, Bloomberg investigative data journalist

লিওন ইয়িন। ছবি: স্ক্রিনশট, টুইটার/এক্স

অপ্রমানিত তথ্য দিয়ে নয়, জোরালো অভিযোগ করার জন্য আপনার তথ্যগুলোকে গুরুত্বপূর্ণ ও নির্ভুল হতে হবে। আপনি কোথা থেকে তথ্যগুলো সংগ্রহ করেছেন কিংবা কীভাবে যাচাই করেছেন— এ ধরনের তথ্যগত বিবরণগুলো পরিচ্ছন্ন ও নির্ভুল হওয়া জরুরী।

গুরুত্বপূর্ণ সব কিছুই নির্ভুল ও নির্ভরযোগ্য হওয়া চাই। আপনি যা দেখছেন তা অতিরঞ্জন করে উপস্থাপনের কোনো চেষ্টাই আমরা করিনি। বৈষম্য আর পদ্ধতিগত পার্থক্যের উদাহরণগুলো স্পষ্টভাবে দেখানো হয়েছে। আমি মনে করি আমাদের কাজ শুধু ডেটাগুলোকে একত্রিত করা, প্যাটার্ন অনুসরণ করা, এর মাধ্যমে যে কেউ একই উপসংহারে পৌঁছাতে পারবেন। এটি এমন একটি দক্ষতা যা আমি অন্যদেরকেও শেখানোর আশা রাখি।

আমার কাছে একটি টিউটোরিয়াল আছে, যেটি আমি প্রায়ই ব্যবহার করি। কৌশলটি হচ্ছে অনথিভুক্ত এপিআই (অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস) খুঁজে বের করা। এপিআই হচ্ছে সার্ভার ও ওয়েবসাইটের পরস্পরের সঙ্গে যোগাযোগ পদ্ধতি এবং এর মধ্যে অনেকগুলোই অফিসিয়াল এপিআই নয়, তবে এগুলো এখনও ওয়েবসাইটে কাজ করে। এটি ওয়েব স্ক্র্যাপিংয়ের একটি উপসেট । আমার প্রায় প্রতিটি অনুসন্ধানে আমি এগুলো ব্যবহার করি এবং এ পদ্ধতিটি খুঁজে পাওয়ার জন্য কৃতজ্ঞবোধ করি। আমার কাছে, ডেটা এমন একটা বিষয়, যেখানে আপনাকে সত্যতা যাচাই করতে হবে। কিন্তু কেউ তা করতে সক্ষম নয়। সবকিছুই নির্ভুল, পুনরুৎপাদনযোগ্য ও ব্যাখ্যাযোগ্য— আর তা নিশ্চিত করার জন্য আমি মনে করি যে পর্যালোচনা করাটা ভীষণ গুরুত্বপূর্ণ।

এভাবে অগ্রসর হওয়ার মাধ্যমে আপনি আমার প্রশ্নগুলো ব্যবহার করেও একই ধরনের উত্তর পাবেন। যা নিশ্চিত করে আপনি আপনার পছন্দ মতো উত্তর বাছাই করছেন না। এটি আরো নিশ্চিত করে যে আপনি একটি যুক্তিসঙ্গত পদ্ধতি বেছে নিয়েছেন। আমাদের আরো দীর্ঘ পদ্ধতি রয়েছে, আমরা তা তুলে ধরতে পারি। দেখানোর জন্য যে আমরা অন্য শ্রেণীকরণ স্কিমগুলো চেষ্টা করেছি বা আমরা অন্য মডেল চেষ্টা করেছি এবং প্রাপ্ত ফলাফল একই হয়েছে। যেহেতু আমাদের ডেটাগুলো সবার জন্য উন্মুক্ত, অন্যরাও তা ব্যবহার করে দেখতে পারেন। সুতরাং এটি আমাদের কাজের বড় শক্তি।

লেখাটি ইন ওল্ড নিউজ-এর সাবস্ট্যাক সাইটে প্রকাশিত হয়েছিল। লেখাটি আরো বেশি সুস্পষ্টভাবে তুলে ধরার জন্য সামান্য সম্পাদনা করা হয়েছে এবং অনুমতি নিয়ে পুনরায় প্রকাশ করা হলো। সাক্ষাৎকারটি আপনি নিচের এই ইউটিউব ভিডিওতে দেখতে পারেন।

ইন ওল্ড নিউজের লক্ষ্য গল্প এবং প্রশিক্ষণের মাধ্যমে বৈচিত্র্যময় সাংবাদিকতার ইকোসিস্টেমকে সমর্থন করা। কীভাবে নিজস্ব ফোন ব্যবহার করে মাল্টিমিডিয়া সাংবাদিকতার মাধ্যমে সাংবাদিকতার বৈচিত্র্যময় ইকোসিস্টেমকে সমর্থন করা যায় সে লক্ষ্যে সংগঠনটি ৬৫টিরও বেশি নিউজরুমের হাজার হাজার সাংবাদিককে প্রশিক্ষণ প্রদান করেছে। এখানে “সাংবাদিকদের সাংবাদিকতার গল্প” প্রকাশিত হয়।

এই লেখা যে লাইসেন্সের অধীনে ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন-নোডেরিভেটিভস ৪.০ ইন্টারন্যাশনাল লাইসেন্স

ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে আমাদের লেখা বিনামূল্যে অনলাইন বা প্রিন্টে প্রকাশযোগ্য

(Tag): ট্যাগ করা অন্যান্য স্টোরি

data journalism অ্যামাজন অ্যালগরিদম গুগল ডেটা সাংবাদিকতা সাক্ষাৎকার

লেখাটি পুনঃপ্রকাশ করুন

Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

<h2>অ্যালগরিদমের গোপন রহস্য: অনুসন্ধানী ডেটা সাংবাদিক লিওন ইয়িনের সঙ্গে কথোপকথন</h2> লিখেছেন <a href="https://inoldnews.com/about">ইন ওল্ড নিউজ</a> for Global Investigative Journalism Network &bull; 5 মার্চ 2024 <a href="https://twitter.com/LeonYin">লিওন ইয়িন</a> একজন অনুসন্ধানী ডেটা সাংবাদিক। প্রযুক্তি কীভাবে সমাজকে প্রভাবিত করে&mdash; এ বিষয়ক কাজের&nbsp; জন্য তিনি স্বীকৃত। অনুসন্ধানের মাধ্যমে দেখিয়েছেন<a href="https://themarkup.org/google-the-giant/2021/04/09/google-blocks-advertisers-from-targeting-black-lives-matter-youtube-videos"> গুগল কীভাবে বিজ্ঞাপনদাতাদের বাধা দেয়</a> &ldquo;ব্ল্যাক লাইভস ম্যাটার&rdquo;-এর মতো জাতিগত শব্দের ব্যবহারে, বিপরীতে &ldquo;হোয়াইট লাইভস ম্যাটার&rdquo; কথাটি ব্যবহারের অনুমতি দেয়। অন্য একটি অনুসন্ধানের মাধ্যমে তিনি ডানপন্থী কনটেন্টের জনপ্রিয়তা বিষয়ক<a href="https://themarkup.org/citizen-browser/2021/11/18/facebook-isnt-telling-you-how-popular-right-wing-content-is-on-the-platform"> ফেসবুক প্ল্যাটফর্মের স্বচ্ছতার অভাব</a> উন্মোচন করেছেন। এছাড়া ভিন্ন একটি প্রজেক্ট নিয়ে কাজ করার সময়<a href="https://www.leonyin.org/images/web-assay-flow.png"> উন্মোচন করেছেন</a> সার্চ রেজাল্টে গুগলের নিজস্ব পণ্যগুলোকে শীর্ষে প্রদর্শন করে বা অগ্রাধিকার দেয়। এই কাজটি ২০২০ সালের জুলাইয়ে মার্কিন কংগ্রেসের একটি উপকমিটির শুনানিতে উল্লেখ করা হয়েছিল।আন্তর্জাতিক সাংবাদিক সম্মেলনের সময় আমরা যখন লিওনের সাক্ষাতকার নিই, তখন তিনি<a href="https://themarkup.org/about"> মার্কআপে</a> কর্মরত ছিলেন। অলাভজনক এ নিউজরুমটি প্রযুক্তি জগত নিয়ে অনুসন্ধান করে। এরপর তিনি যোগ দেন<a href="https://www.bloomberg.com/authors/AWeGYifVgnI/leon-yin"> ব্লুমবার্গ টেকনোলজিতে</a>, বর্তমানে এ প্রতিষ্ঠানটির হয়েও তিনি তার অনুসন্ধানী কাজগুলো চালিয়ে যাচ্ছেন।<aside>"গুগলের কতটা জুড়ে গুগল?&hellip; এবং এই প্রক্রিয়ায় আমরা আমাদের অনুসন্ধানগুলো পরিচালনা করতে একটি আনুমানিক চেকলিস্ট তৈরি করি।" &mdash; ব্লুমবার্গের প্রযুক্তি বিষয়ক অনুসন্ধানী ডেটা সাংবাদিক লিওন ইয়িন</aside>অনুসন্ধানী প্রতিবেদনের বাইরেও লিওন বিভিন্ন রিসোর্সে ব্যাখ্যা করেন যে, তিনি কীভাবে এই কাজগুলো করেন। তার এমনই একটি রিসোর্স <a href="https://inspectelement.org/">ইন্সপেক্ট এলিমেন্ট</a>। এই গাইডে তিনি অ্যালগরিদম নিয়ে তার অনুসন্ধানের অভিজ্ঞতা, ডেটাসেট তৈরি করাসহ বিভিন্ন বিষয় সম্পর্কে লিখেছেন।ইন ওল্ড নিউজ: আপনি কি সাধারণত একসঙ্গে বেশ কয়েকটি বিষয় নিয়ে কাজ করেন? এগুলোর পাশাপাশি অনুসন্ধানের নতুন কৌশল শেখার বিষয়গুলো কীভাবে ভারসাম্য করেন?লিওন ইয়িন: আমি সবসময় বলি যে আমি একসঙ্গে দুটি বিষয় নিয়ে কাজ করতে পছন্দ করি, যেগুলো দীর্ঘ সময় নিয়ে করা যায়। অথবা যদি কোনো কিছু আটকে যায়, তাহলে যেন অন্য কোনো দিকে মনোযোগ দেওয়া যায়। সেটি হতে পারে আরেকটি দীর্ঘমেয়াদী প্রকল্প বা দ্রুত করে ফেলা যাবে&ndash; এমন কিছু। আমি এটি করি নিজেকে সচল রাখার জন্য। কারণ মাঝে মধ্যে অল্পতেই আপনি নিরুৎসাহিত বোধ করতে পারেন। আমি মনে করি, এই ধরনের অনুসন্ধানে বেশি সময় লাগে, আপনার সত্যিই সময় নিতে হবে, তাছাড়া আপনার অন্যদের মতামত এবং পরামর্শেরও প্রয়োজন।ইন ওল্ড নিউজ: কংগ্রেসের শুনানির সময়<a href="https://themarkup.org/google-the-giant/2020/07/29/congressman-says-the-markup-investigation-proves-google-has-created-a-walled-garden"> আপনার একটি প্রতিবেদনের কথা</a> উল্লেখ করা হয়েছিল। আপনি কী ওই বিষয়ে কিছু বলবেন, আর এমনটা ঘটতে পারে বলে কী ধারণা করেছিলেন?লিওন ইয়িন: ঘটনাটি শুরু আমার রিপোর্টিং অংশীদার অ্যাড্রিয়ান জেফ্রিস থেকে &mdash; তিনি অনেক বছর ধরে গুগলের ওপর প্রতিবেদন করছেন এবং স্নিপেট ফিচার নিয়ে অনেক কাজও করেছেন। স্নিপেট ফিচার ওয়েব থেকে বিষয়বস্তুকে স্ক্র্যাপ করে সংক্ষিপ্ত ও টেক্সট বক্স আকারে উপস্থাপন করে। সে সত্যিই [এটা] নিয়ে আগ্রহী।কিন্তু তার সাড়া জাগানো অনুসন্ধানটি ছিল&mdash; গুগলের কতটা জুড়ে গুগল? এ প্রক্রিয়ায় আমরা আমাদের তদন্তদের কাজগুলো কীভাবে পরিচালনা করবো, তার ওপর ভিত্তি করে আনুমানিক একটা চেকলিস্ট তৈরি করি।" পরের প্রশ্নটি ছিল, আমরা কিভাবে কাজটি পরীক্ষা করবো? এবং আমরা কিভাবে ডেটাসেট তৈরি করবো?সৌভাগ্যক্রমে, গুগল স্ক্র্যাপ করা সত্যিই সহজ। তাই আমরা গুগল ট্রেন্ড থেকে সর্বাধিক জনপ্রিয় সার্চগুলোকে স্ক্র্যাপ করেছি। কাজটি আমরা করি কয়েক মাস ধরে। ব্রাউজার অটোমেশন টুল<a href="https://www.selenium.dev/"> সেলেনিয়াম</a> ব্যবহার করে অ্যান্ড্রয়েড কিংবা আইফোন টেনের হাজার হাজার জনপ্রিয় সার্চ তালিকা আমরা সংগ্রহ করেছি। সেলেনিয়াম হচ্ছে একটি ব্রাউজার অটোমেশন টুল যা সাধারণত ওয়েবসাইটগুলো পরীক্ষা করতে ব্যবহৃত হয়। আমরা ওয়েবসাইটের তালিকা সংগ্রহ করতে এটি ব্যবহার করি। মাসের পর ধরে আমরা কাজটি করার মাধ্যমে বুঝতে চেষ্টা করি যে গুগল কী বা কীভাবে কাজ করে। এজন্য আমরা আমরা সোর্স কোডগুলো খতিয়ে দেখেছি এবং সার্চ ইঞ্জিন অপটিমাইজেশন (এসইও) নিয়ে কাজ করে&ndash; এমন অনেক সূত্রের সঙ্গে কথা বলেছি।আমরা ওয়েবপেজকে রঙের মাধ্যমে চিহ্নিত করার (ওয়েব স্টেনিং) একটি পদ্ধতি তৈরি করি এবং এর মাধ্যমে লেখা, ছবি, বিজ্ঞাপন ও ওয়েবপেজের বিভিন্ন কনটেন্ট পেতে শুরু করি। আমরা একবাক্যে বলতে পারতাম যে, এগুলো সব গুগলের, তবে আমাদের কিছু বিষয় মূল্যায়নের প্রয়োজন ছিল। আমরা বিভিন্ন কনটেন্ট ঘিরে চারকোনা বক্স আঁকার একটি পদ্ধতিও উদ্ভাবন করি। এর মধ্যে কিছু ছিল গুগলের এবং কিছু লিঙ্ক করা। আমরা নির্দিষ্ট একটি রঙের মাধ্যমে এগুলো হাইলাইট করি, তারপর পেজের লেখা, ছবি, বিজ্ঞাপনের সঙ্গে হাইলাইট করা অংশের যোগফলগুলো ভাগ করি। এ পর্যায়ে আমরা দেখতে পাই যে, প্রথম পৃষ্ঠার প্রায় ৪২ শতাংশ<a href="https://themarkup.org/google-the-giant/2020/07/28/google-search-results-prioritize-google-products-over-competitors"> সার্চ রেজাল্টই</a> গুগলের নিজস্ব পণ্যের।<figure>
</figure>তাত্ত্বিক বা আনুমানিক ধারণা থাকলেও শেষ পর্যন্ত বিষয়টি ছিল চোখে আঙ্গুল দিয়ে দেখিয়ে দেওয়া। একটি পরিচ্ছন্ন পরিসংখ্যান তুলে ধরা, যেটি সম্পর্কে সবাই ওয়াকিবল। গুগল নিজেদের পণ্যকে অগ্রাধিকার দেয়; তারা হচ্ছে ওই বেকারির মালিক, যারা রুটি বানায়। যদিও তারা জোর গলায় বলতেই পারে "আমাদের পণ্যগুলো দেখো," তাই না? কিন্তু প্রকৃত পরিসংখ্যানগুলো খুঁজে পাওয়া সত্যিই কঠিন ছিল। আর তাই, আমি ঠিক এ কাজটিই করতে পছন্দ করি যেখানে সাধারণ জ্ঞান দিয়ে আপনি বিষয়টি ধরতে পারবেন, যদিও কোন প্রমাণ নেই, তাই না?আমরা এই জায়গাটি নিয়েই কাজ করেছি এবং ফাঁকগুলো পূরণ করেছি। সুতরাং গুগলের ঘটনাটি যখন বেরিয়ে আসে, তখন অ্যান্টিট্রাস্ট নিয়ে কংগ্রেসের শুনানি অনুষ্ঠিত হয়। কংগ্রেসের পক্ষ থেকে সব বড় বড় প্রযুক্তি প্রতিষ্ঠানের প্রধান নির্বাহীদের প্রশ্ন করা হয়। সম্ভবত প্রারম্ভিক বক্তব্যে, [তৎকালীন মার্কিন কংগ্রেসম্যান] ডেভিড সিসিলিন যখন গুগল প্রধানকে প্রশ্ন করেন, তখন আমাদের এ কাজটির কথা উল্লেখ করেন। বিষয়টি আমাদের জন্য ছিল অবিশ্বাস্য। আমাদের প্রতিক্রিয়া ছিল, ও খোদা, এটা কিভাবে ঘটলো? মাঝে মধ্যে আমাদের কাজগুলো এ ধরনের ইতিবাচক প্রভাব ফেলতে সক্ষম হয়, আমাদের কোন ধারণাই থাকে না যে এমন কিছু ঘটতে পারে কিংবা সময়ের সঙ্গে মিলে যাবে। আমি ঠিক জানি না যে, আমাদের নথিগুলো তার সহকর্মীদের সঙ্গে শেয়ার করা হয়েছিল কিনা। আমরা জানি না যে সব ক্ষেত্রে এমনটি করা হয় কিনা। তবে আমার মনে হয় না যে এমনটি করা হয়েছিল।<a href="https://themarkup.org/amazons-advantage/2021/10/14/when-amazon-takes-the-buy-box-it-doesnt-give-it-up">অ্যামাজনের ওপর অনুসন্ধানের সময়</a>ও একই রকম ঘটনা ঘটেছিল, যেটি ছিল একটি স্বাভাবিক ফলোআপ। আমরা ভাবছিলাম যে, কীভাবে আমরা আরেকটি বড় প্রযুক্তি প্ল্যাটফর্মকে নিয়ে এরকম কাজ করতে পারি, যারা নিজেদের পণ্যগুলোকে অগ্রাধিকার দিতে পছন্দ করে?<aside>&ldquo;তাই তাৎক্ষণিক প্রশ্নটি হচ্ছে ডেটা দিয়ে আপনি কী কিছু পরীক্ষা করতে পারেন? আপনি কীভাবে ডেটা সংগ্রহ করবেন, এটি কতটা কঠিন? আপনাকে কোন জিনিসগুলো শ্রেণীবদ্ধ ও বিন্যস্ত করতে হবে?" &mdash; লিওন ইয়িন</aside>আমরা অ্যামাজনের নিজস্ব লেবেলকৃত পণ্য, জনপ্রিয় অ্যামাজন সার্চগুলো দেখি। আমাদের অনুসন্ধানটি প্রকাশের কয়েক দিনের মধ্যে, [কংগ্রেস] অ্যামাজনের প্রধান নির্বাহীকে একটি চিঠি পাঠায় [সেখানে উল্লেখ করা হয়]: আপনি শপথ করেছিলেন যে অ্যামাজন এর নিজস্ব পণ্যের প্রচার পছন্দ করে না, কিন্তু এ গবেষণাটি সরাসরি বিপরীত কথা বলছে। বিষয়টি দয়া করে ব্যাখ্যা করবেন।যা সত্যিই চমৎকার। যখন আমরা গল্পগুলো পিচ করি, তখন সবসময় দায়বদ্ধতা সম্পর্কে চিন্তা করি। যেমন, কোন নিয়মটি ভাঙা হচ্ছে? কারা প্রভাবিত হচ্ছেন? কেউ হয়তো শপথ নিয়েও মিথ্যা বলেছেন যেগুলো আমরা প্রমাণ করতে পারি। হয়তো সেখানে কোনো আইন ভাঙা হচ্ছে। তাই আমার মনে হয়, আমরা এভাবেই আমাদের প্রতিবেদনগুলোকে কাঠামোবদ্ধ করে তুলি। প্রায়ই এমন হয় যে, একজন নির্বাহী শপথের অধীনে যে প্রতিশ্রুতি দিয়েছিলেন তা লঙ্ঘন করেছেন।আমরা সেসময় কিছু জানতামও না। কিন্তু সেটি ঘটেছিল। তো, এভাবেই আমরা কিছু প্রভাব তৈরি করেছি।ইন ওল্ড নিউজ: তথ্য-উপাত্তনির্ভর অনুসন্ধানটি ফলপ্রসু হবে কিনা আপনি কীভাবে তা বুঝতে পারেন?লিওন ইয়িন: অনুসন্ধানটি ফলপ্রসু হবে কিনা&mdash; এটি বুঝতে আমি ও আমার সম্পাদক সাধারণত এক ধরনের চেকলিস্টের ওপর নির্ভর করি। যা আমি আগেও উল্লেখ করেছি। তাৎক্ষণিক প্রশ্নটি হচ্ছে ডেটা দিয়ে আপনি কী কিছু পরীক্ষা করতে পারেন? আপনি কীভাবে ডেটা সংগ্রহ করবেন, এটি কতটা কঠিন? আপনাকে কোন জিনিসগুলো শ্রেণীবদ্ধ ও বিন্যস্ত করতে হবে? আমরা যে ফলাফলটি খুঁজছি তা প্রায়ই পরিবর্তিত হয় বলে সবসময় ডেটার একটি মান উল্লেখ করি &mdash; যেমন গুগল কী, অ্যামাজন কী &mdash; এটি কিন্তু ঝরঝরে কোনো স্প্রেডশিট কলাম নয়। আমাদের বিষয়টি খুঁজে বের করতে হবে। এটি কী&mdash; আমাদের কেবল তা খুঁজে বের করলেই চলবে না, আমাদের বের করতে হবে ওই ডেটাসেটটি কী, এই জগতটা কীভাবে কাজ করে। আমরা কোথায় থামবো? আমাদের জন্য কতটুকু যথেষ্ট? প্রাপ্ত ডেটা কার্যকর কিনা তা দ্রুত পরীক্ষার উপায় কী?আমি সবসময় এ প্রশ্নগুলো নিয়ে চিন্তা করি ও উত্তর বের করার চেষ্টা করি, এরপর পুরোদমে কাজ শুরুর আগে&nbsp; সম্ভাব্য সব দিকগুলো সম্পর্কে সম্পাদককে বলি। আমরা আরেকটি জিনিস করি তা হচ্ছে, একটি দ্রুত পরীক্ষা&mdash;&nbsp; কোন কিছু পরিমাপযোগ্য কিনা তা প্রমাণের সর্বনিম্ন কার্যকর বিশ্লেষণ কী, কী চলছে? দেখা যে, কোনো প্যাটার্ন আছে কিনা।এভাবেই <a href="https://themarkup.org/still-loading/2022/10/19/dollars-to-megabits-you-may-be-paying-400-times-as-much-as-your-neighbor-for-internet-service">মার্কিন যুক্তরাষ্ট্রে ইন্টারনেট বৈষম্যের ঘটনা</a> নিয়ে একটি সাম্প্রতিক প্রতিবেদন তৈরি হয়েছে। আমরা চেষ্টা করছিলাম একটি একাডেমিক নিবন্ধ ধরে কাজ করতে, যেখানে নয়টি প্রদেশজুড়ে অসংখ্য ইন্টারনেট পরিষেবা প্রদানকারীর কার্মকাণ্ড ঘিরে কাজ করা হয়েছিল। এটি করার জন্য আমরা নজর দিয়েছিলাম ছোট একটি শহরের একটি ইন্টারনেট পরিষেবা প্রদানকারীর তথ্যের দিকে।আমি দেখতে পাই যে ইন্টারনেটের দ্রুত গতি আর ধীর গতির মধ্যে এক ধরনের ফারাক আছে, যা আইন বহির্ভূত। তাছাড়া ধীর বা দ্রুত গতির ক্ষেত্রে ভোক্তাকে একই পরিমাণ খরচ বহন করতে হচ্ছে। আমরা আদমশুমারির তথ্য যাচাই করে দেখতে পাই যে, বিষয়টি সত্যিই পক্ষপাতদুষ্ট। নিম্ন আয়ের লোকেরা মূলত সম পরিমাণ অর্থ দিয়ে ধীর গতির ইন্টারনেট পরিষেবা পাচ্ছেন।এই দ্রুত পরীক্ষাটি আপনাকে কেবল কার্যকর তথ্যই প্রদান করে না, বরং ভিন্ন গল্পের দিকে অগ্রসর হওয়ার কথা বলে। আর তাই একাডেমিক গবেষণার পরিবর্তে আমরা একটি ভিন্ন গল্প খুঁজতে থাকি। যেখানে নীতি-নির্ধারণী বিষয়গুলো অন্তর্ভুক্ত হবে, এবং যেখানে ভোক্তাদের পক্ষ হয়ে গল্প বলার আছে: আপনি একটি খারাপ চুক্তির নেতিবাচক ফল ভোগ করছেন, যা সারা দেশে ঘটছে।তাই আমরা চেকলিস্টের প্রশ্নগুলোর উত্তর খুঁজতে শুরু করি আর এটাও ভাবতে থাকি যে, কী পদ্ধতিতে দ্রুত বিশ্লেষণের মাধ্যমে আমরা বিষয়টি সুস্পষ্টভাবে তুলে ধরতে পারি। আমরা কী কী করতে পারি, তা আমি আমার সম্পাদককে জানাই এবং নিজেদের মধ্যে আলোচনা করি। আপনার কাছে কোনো গল্প আছে কিনা&mdash; তা কিন্তু পরিষ্কার। এটাও নিশ্চিত যে আপনার গল্পটি ভালো কিনা। আপনি কিছু বিষয় নিয়ে অনিশ্চিত থাকতে পারেন, তবে সেসব প্রশ্নের কোনো উত্তর যদি খুঁজে না পান, তাহলে আপনি কিন্তু এটাও নিশ্চিত যে গল্পটিকে মেরে ফেলা ছাড়া আর কোনো উপায় নেই।ইন ওল্ড নিউজ: সাংবাদিকেরা কীভাবে তাদের কাজগুলো করেছেন&ndash; তা ব্যাখ্যা করা কতটা গুরুত্বপূর্ণ?<aside>"আমার এটি দেখতে খুবই ভালো লাগবে যে, আরও বেশি নিউজরুম প্রমাণাদি তৈরির জন্য এবং বিভিন্ন প্রশ্নের উত্তর খোঁজার জন্য নিজেদের ডেটাসেট তৈরি করার পেছনে বিনিয়োগ করতে শুরু করেছে।" &mdash; লিওন ইয়িন</aside>লিওন ইয়িন: আমি মনে করি, ঠিক এই কারণেই [মার্কআপ প্রতিষ্ঠাতা]<a href="https://twitter.com/juliaangwin?lang=en"> জুলিয়া অ্যাংউইন</a> বিশ্বাস তৈরির প্রয়োজনীয়তার ওপর জোর দিয়েছিলেন। এটা বলার জন্য যে, আমরা পি-হ্যাকিং করছি না। নিজেদের মতো করে কোনো জিনিস তৈরি করছি না। এই যে তার প্রমাণ। এবং আপনি দেখতে পাচ্ছেন যে আমরা কীভাবে আমাদের সিদ্ধান্তে পৌঁছাচ্ছি। এগুলো দেখে আপনি নিজের মতো করে সিদ্ধান্ত নিতে পারবেন।আমি মনে করি এর মধ্যে অনেক শক্তি আছে। আমি ঐতিহ্যগত সাংবাদিকতায় ফিরে যাচ্ছি। আপনার যদি নথি বা সাক্ষাৎকার থাকে তবে আপনি সেগুলো মাকরক বা ডকুমেন্টক্লাউডের মতো কোথাও দিবেন, তাই না? বলতে গেলে, এটা আমার ফোয়া [তথ্যের স্বাধীনতা আইন] অনুরোধের মতো। আমি সেই অনুরোধ থেকে যে তথ্য পেয়েছি তা এখানে রয়েছে।মৌলিকভাবে, কাজগুলো একই রকম, যেখানে কোনো সরকারি সংস্থার কাছে তথ্যের অনুরোধ না করে আমি সেটি করছি একটি ওয়েবসাইটের কাছে। আমি ওয়েবসাইটগুলো থেকে যা জানতে চেয়েছি তা এখানে রয়েছে, তারা আমাকে যে তথ্যগুলো দিয়েছে তা এবং ওই তথ্যগুলো দিয়ে আমি কী করেছি তাও এখানে আপনি পাবেন। তাই গোটা প্রক্রিয়াটিকেই আমি প্রথাগত সাংবাদিকতার ওপর গড়ে উঠতে দেখি। শুধু খানিকটা ভিন্ন মাত্রা আর ভিন্ন ভাষা ব্যবহার করা হয়।তাই গোটা বিষয়টাই অনেকটা মৌলিকতার কাছে ফিরে যাওয়া। আমার এটি দেখতে খুবই ভালো লাগবে যে, আরও বেশি নিউজরুম প্রমাণাদি তৈরির জন্য এবং বিভিন্ন প্রশ্নের উত্তর খোঁজার জন্য নিজেদের ডেটাসেট তৈরি করার পেছনে বিনিয়োগ করতে শুরু করেছে। আমি দেখতে পাচ্ছি, বড় নিবন্ধ আর সেটি তৈরির প্রক্রিয়া প্রকাশ করার চর্চা জনপ্রিয় হয়ে উঠেছে। কনজিউমার রিপোর্টের অনুসন্ধানী দলটি সেটাই করে। ওয়াশিংটন পোস্টও তাই করে।আমি অনেক পরিবর্তন দেখতে শুরু করছি, কিন্তু এগুলোর মাত্রা এখনো কম। তবে আমি যে গল্পগুলো নিয়ে কাজ করি, সেখানে এটার প্রয়োজন আছে। কারণ আমরা চাই, আমার কাছে, আমার প্রতিবেদকের কাছে, আমার সম্পাদক এবং যাদের ঘিরে অনুসন্ধানগুলো করি, সবাই যেন বুঝতে পারি যে আমাদের কাছে অনেক তথ্য রয়েছে। আমরা সবাই জানি, কী পরিমাপ করা হচ্ছে, তথ্যগুলো কোথা থেকে আসে, আমরা কী অনুমান করছি আর আমাদের সীমাবদ্ধতাই বা কতটুকু।অপ্রমানিত তথ্য দিয়ে নয়, জোরালো অভিযোগ করার জন্য আপনার তথ্যগুলোকে গুরুত্বপূর্ণ ও নির্ভুল হতে হবে। আপনি কোথা থেকে তথ্যগুলো সংগ্রহ করেছেন কিংবা কীভাবে যাচাই করেছেন&mdash; এ ধরনের তথ্যগত বিবরণগুলো পরিচ্ছন্ন ও নির্ভুল হওয়া জরুরী।গুরুত্বপূর্ণ সব কিছুই নির্ভুল ও নির্ভরযোগ্য হওয়া চাই। আপনি যা দেখছেন তা অতিরঞ্জন করে উপস্থাপনের কোনো চেষ্টাই আমরা করিনি। বৈষম্য আর পদ্ধতিগত পার্থক্যের উদাহরণগুলো স্পষ্টভাবে দেখানো হয়েছে। আমি মনে করি আমাদের কাজ শুধু ডেটাগুলোকে একত্রিত করা, প্যাটার্ন অনুসরণ করা, এর মাধ্যমে যে কেউ একই উপসংহারে পৌঁছাতে পারবেন। এটি এমন একটি দক্ষতা যা আমি অন্যদেরকেও শেখানোর আশা রাখি।আমার কাছে একটি টিউটোরিয়াল আছে, যেটি আমি প্রায়ই ব্যবহার করি। কৌশলটি হচ্ছে অনথিভুক্ত এপিআই (অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস) খুঁজে বের করা। এপিআই হচ্ছে সার্ভার ও ওয়েবসাইটের পরস্পরের সঙ্গে যোগাযোগ পদ্ধতি এবং এর মধ্যে অনেকগুলোই অফিসিয়াল এপিআই নয়, তবে এগুলো এখনও ওয়েবসাইটে কাজ করে। এটি ওয়েব স্ক্র্যাপিংয়ের একটি উপসেট । আমার প্রায় প্রতিটি অনুসন্ধানে আমি এগুলো ব্যবহার করি এবং এ পদ্ধতিটি খুঁজে পাওয়ার জন্য কৃতজ্ঞবোধ করি। আমার কাছে, ডেটা এমন একটা বিষয়, যেখানে আপনাকে সত্যতা যাচাই করতে হবে। কিন্তু কেউ তা করতে সক্ষম নয়। সবকিছুই&nbsp; নির্ভুল, পুনরুৎপাদনযোগ্য ও ব্যাখ্যাযোগ্য&mdash; আর তা নিশ্চিত করার জন্য আমি মনে করি যে পর্যালোচনা করাটা ভীষণ গুরুত্বপূর্ণ।এভাবে অগ্রসর হওয়ার মাধ্যমে আপনি আমার প্রশ্নগুলো ব্যবহার করেও একই ধরনের উত্তর পাবেন। যা নিশ্চিত করে আপনি আপনার পছন্দ মতো উত্তর বাছাই করছেন না। এটি আরো নিশ্চিত করে যে আপনি একটি যুক্তিসঙ্গত পদ্ধতি বেছে নিয়েছেন। আমাদের আরো দীর্ঘ পদ্ধতি রয়েছে, আমরা তা তুলে ধরতে পারি। দেখানোর জন্য যে আমরা অন্য শ্রেণীকরণ স্কিমগুলো চেষ্টা করেছি বা আমরা অন্য মডেল চেষ্টা করেছি এবং প্রাপ্ত ফলাফল একই হয়েছে। যেহেতু আমাদের ডেটাগুলো সবার জন্য উন্মুক্ত, অন্যরাও তা ব্যবহার করে দেখতে পারেন। সুতরাং এটি আমাদের কাজের বড় শক্তি।লেখাটি<a href="https://inoldnews.substack.com/p/unlocking-the-secrets-of-the-algorithm"> ইন ওল্ড নিউজ</a>-এর সাবস্ট্যাক সাইটে<a href="https://inoldnews.substack.com/p/unlocking-the-secrets-of-the-algorithm"> প্রকাশিত</a> হয়েছিল। লেখাটি আরো বেশি সুস্পষ্টভাবে তুলে ধরার জন্য সামান্য সম্পাদনা করা হয়েছে এবং অনুমতি নিয়ে পুনরায় প্রকাশ করা হলো। সাক্ষাৎকারটি আপনি নিচের এই ইউটিউব ভিডিওতে দেখতে পারেন।<hr><a href="https://inoldnews.com/about"><img class="size-full wp-image-1327679 alignleft image--small" src="https://gijn.org/wp-content/uploads/2024/02/In-Old-News-Substack-newsletter-logo-e1707857508717.png" alt="In Old News Substack newsletter logo" width="145" height="139">ইন ওল্ড নিউজের</a> লক্ষ্য গল্প এবং প্রশিক্ষণের মাধ্যমে বৈচিত্র্যময় সাংবাদিকতার ইকোসিস্টেমকে সমর্থন করা। কীভাবে নিজস্ব ফোন ব্যবহার করে মাল্টিমিডিয়া সাংবাদিকতার মাধ্যমে সাংবাদিকতার বৈচিত্র্যময় ইকোসিস্টেমকে সমর্থন করা যায় সে লক্ষ্যে সংগঠনটি ৬৫টিরও বেশি নিউজরুমের হাজার হাজার সাংবাদিককে প্রশিক্ষণ প্রদান করেছে। এখানে "<a href="https://inoldnews.substack.com/p/unlocking-the-secrets-of-the-algorithm">সাংবাদিকদের সাংবাদিকতার গল্প</a>" প্রকাশিত হয়।
	This <a target="_blank" href="https://gijn.org/bn/%e0%a6%97%e0%a6%b2%e0%a7%8d%e0%a6%aa%e0%a6%b8%e0%a6%ae%e0%a7%82%e0%a6%b9/%e0%a6%85%e0%a7%8d%e0%a6%af%e0%a6%be%e0%a6%b2%e0%a6%97%e0%a6%b0%e0%a6%bf%e0%a6%a6%e0%a6%ae%e0%a7%87%e0%a6%b0-%e0%a6%97%e0%a7%8b%e0%a6%aa%e0%a6%a8-%e0%a6%b0%e0%a6%b9%e0%a6%b8%e0%a7%8d%e0%a6%af/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

পরবর্তী

ডেটা সাংবাদিকতা

রাষ্ট্র যদি তথ্য লুকায়, অনুসন্ধান করবেন কি করে: বেলারুশ যা শেখাল

লিখেছেন এমিলি ও’সুলিভান • 25 জুন 2024

নিষেধাজ্ঞা সত্ত্বেও কী করে বেলারুশের উৎপাদিত সার বিশেষ করে ইউরিয়া ইউরোপিয় ক্রেতাদের হাতে পৌঁছাচ্ছে এবং কীভাবে বেলারুশের বৃহত্তম রাষ্ট্রীয় সার উৎপাদনকারী প্রতিষ্ঠান উৎপাদনকারী দেশের নাম গোপন করছে ২০২৩ সালে তা উদ্ঘাটন করেছেন বেলারুশের সাংবাদিকেরা। গোপন তথ্যের খোঁজে তাঁরা ব্যবহার করেছেন নানা সূত্র।

ডেটা সাংবাদিকতা পরামর্শ ও টুল

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

লিখেছেন মার্ক হরভিট, টমি কাস and অ্যান্ড্রু ডব্লিউ লেহরেন • 30 মে 2024

স্প্রেডশিট থেকে ডেটা বাছাই কিংবা প্রয়োজনীয় তথ্য দ্রুত কীভাবে খুঁজতে হয়, তা জানা প্রয়োজন। আর এ জন্য স্প্রেডশিট ব্যবহারে দক্ষতা থাকাটা খুবই গুরুত্বপূর্ণ। কারণ এতে করে আপনি তুলে আনতে পারবেন দারুন সব গল্প।

ডেটা সাংবাদিকতা সংবাদ ও বিশ্লেষণ

ডেটা সাংবাদিকতার ১০ সাধারণ ভুল

লিখেছেন রোয়ান ফিলিপ • 5 মে 2024

যে কোনো বিষয়ে জোরালো তথ্য-উপাত্ত উপস্থাপন করে ডেটা সাংবাদিকতা পুরো সংবাদের জগতে সাড়া ফেলে দিয়েছে। কিন্তু ডেটা সাংবাদিকতা কি সীমাবদ্ধতার ঊর্ধ্বে? জানতে পড়ুন রোয়ান ফিলিপের বিশ্লেষণ।

টিপশীট ডেটা সাংবাদিকতা পরামর্শ ও টুল

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

লিখেছেন মিরিয়াম ফরেরো আরিজা • 3 এপ্রিল 2024

সমুদ্র সংক্রান্ত ডেটার ধরন হতে পারে বহুবিচিত্র। সমুদ্রে দূষণ, জীববৈচিত্র্য পরিস্থিতি অথবা অর্থবাণিজ্য— এমন বিভিন্ন ধরনের ডেটা, সাংবাদিকেরা ব্যবহার করতে পারেন তাদের রিপোর্টিংয়ে। এই টিপশিটে পাবেন অনুসন্ধানে সামুদ্রিক ডেটা ব্যবহারের পরামর্শ ও রিসোর্সের খোঁজ।

প্রবেশগম্যতা সেটিংস

টেক্সটের আকার

কোন রং বাছাই করবেন

পঠন-টুল

অন্যান্য

লেখাপত্র

বিষয়

অ্যালগরিদমের গোপন রহস্য: অনুসন্ধানী ডেটা সাংবাদিক লিওন ইয়িনের সঙ্গে কথোপকথন

আর্টিকেলটি পড়ুন এই ভাষায়:

(Tag): ট্যাগ করা অন্যান্য স্টোরি

লেখাটি পুনঃপ্রকাশ করুন

পরবর্তী

ডেটা সাংবাদিকতা

রাষ্ট্র যদি তথ্য লুকায়, অনুসন্ধান করবেন কি করে: বেলারুশ যা শেখাল

ডেটা সাংবাদিকতা পরামর্শ ও টুল

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

ডেটা সাংবাদিকতা সংবাদ ও বিশ্লেষণ

ডেটা সাংবাদিকতার ১০ সাধারণ ভুল

টিপশীট ডেটা সাংবাদিকতা পরামর্শ ও টুল

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

লেখাপত্র

বিষয়

অ্যালগরিদমের গোপন রহস্য: অনুসন্ধানী ডেটা সাংবাদিক লিওন ইয়িনের সঙ্গে কথোপকথন

আর্টিকেলটি পড়ুন এই ভাষায়:

প্রাসঙ্গিক রিসোর্স

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

কোডিংয়ের প্রয়োজন নেই: ডেটা মাইনার দিয়ে ধাপে ধাপে ওয়েবসাইট স্ক্র্যাপিংয়ের পদ্ধতি

কোডিং দক্ষতা ছাড়াই বিনামূল্যে ব্যবহারযোগ্য ডেটা এক্সট্রাকশন টুল

শেয়ার

প্রাসঙ্গিক রিসোর্স

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

কোডিংয়ের প্রয়োজন নেই: ডেটা মাইনার দিয়ে ধাপে ধাপে ওয়েবসাইট স্ক্র্যাপিংয়ের পদ্ধতি

কোডিং দক্ষতা ছাড়াই বিনামূল্যে ব্যবহারযোগ্য ডেটা এক্সট্রাকশন টুল

প্রাসঙ্গিক প্রতিবেদন

রাষ্ট্র যদি তথ্য লুকায়, অনুসন্ধান করবেন কি করে: বেলারুশ যা শেখাল

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

ডেটা সাংবাদিকতার ১০ সাধারণ ভুল

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

(Tag): ট্যাগ করা অন্যান্য স্টোরি

লেখাটি পুনঃপ্রকাশ করুন

পরবর্তী

ডেটা সাংবাদিকতা

রাষ্ট্র যদি তথ্য লুকায়, অনুসন্ধান করবেন কি করে: বেলারুশ যা শেখাল

ডেটা সাংবাদিকতা পরামর্শ ও টুল

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

ডেটা সাংবাদিকতা সংবাদ ও বিশ্লেষণ

ডেটা সাংবাদিকতার ১০ সাধারণ ভুল

টিপশীট ডেটা সাংবাদিকতা পরামর্শ ও টুল

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন