প্রবেশগম্যতা সেটিংস

data journalism extract DocumentCloud redaction
data journalism extract DocumentCloud redaction

Image: Shutterstock

লেখাপত্র

বিষয়

ঢেকে দেওয়া টেক্সট, ব্যক্তিগত তথ্য, এবং আরও অনেক কিছু উন্মোচনের নতুন ডকুমেন্ট টুল

আর্টিকেলটি পড়ুন এই ভাষায়:

English

data journalism extract DocumentCloud redaction

দূর্বলভাবে ঢেকে দেওয়া টেক্সট উন্মোচন বা সুরক্ষার পাশাপাশি দ্রুততার সঙ্গে বড় ফাইলে থাকা ব্যক্তিগত তথ্য স্ক্র্যাপ করতে ডকুমেন্টক্লাউডের নতুন ফিচার অনুসন্ধানী সাংবাদিকদের বেশ কাজে আসে। ছবি: শাটারস্টক

বড় বড় নথিগুলোকে ছোট প্রতিষ্ঠানগুলোর জন্য সার্চযোগ্য করা ও কাজে লাগাতে বিনামূল্যে ব্যবহারযোগ্য টুলগুলোর বিকাশ সাম্প্রতিক বছরগুলোতে অনুসন্ধানী সাংবাদিকদের সবচেয়ে বড় প্রযুক্তিগত অগ্রগতির একটি৷

আগে রিপোর্টারদের হরেক রঙের স্টিকি নোটের স্তুপ ও ডেটা ইনপুটের জন্য স্বেচ্ছাসেবী প্রয়োজন হতো; আর হাতে লেখা সাধারণ পাণ্ডুলিপি, অগোছালো ডেটা টেবিল ও কালো কালিতে আংশিকভাবে ঢেকে দেওয়া রিপোর্ট পর্যন্ত আলাদা আলাদা ফরম্যাটে আসা পাবলিক রেকর্ডের বাক্সগুলো সামলাতে প্রচুর সময় লেগে যেত।

এখন মেশিন লার্নিং চালিত টুল ও ওপেন সোর্স প্রোগ্রাম প্রস্তুতকারকদের উদ্ভাবনী ক্ষমতা যে কেবল বড় বড় ফাঁসকাণ্ড ঘটাতে পারে তা নয়, বরং ফাঁসকৃত সেই নথির বান্ডিলে লুকিয়ে থাকা ডেটাও উন্মোচন করতে পারে। এতে করে অসাবধানতাবশত সংবেদনশীল তথ্য প্রকাশের ঝুঁকিও কমতে পারে।

যেমন, ২০২২ ইনভেস্টিগেটিভ রিপোর্টার অ্যান্ড এডিটর্স কনফারেন্সে অংশগ্রহণকারীরা জেনে অবাক হন যে, কৃত্রিম বুদ্ধিমত্তা-চালিত গুগল ‍পিনপয়েন্ট টুলের অনেক সময় সাশ্রয়কারী বিশ্লেষণী ফাংশন রয়েছে এবং এটি আলোকচিত্রে থাকা দূরের কোনো পটভূমিতে পিতলের ফলকের ওপর ছোট ছোট লেখাও ট্রান্সক্রাইব ও সার্চ করতে পারে। সত্যি কথা বলতে কী, গণমাধ্যমের একটি দুর্নীতি কেলেঙ্কারির পেছনে অভিযুক্ত ব্যক্তিদের চিহ্নিত করতে ফাঁস হওয়া হাজার হাজার পৃষ্ঠার নথিপত্র স্বয়ংক্রিয় বিশ্লেষণে পরিবেশ বিষয়ক সংবাদমাধ্যম ফ্লাডলাইটের সাংবাদিকেরা পিনপয়েন্ট ব্যবহার করেছেন। আর এই অনুসন্ধান সম্প্রতি তাঁদেরকে গোল্ডস্মিথ ইনভেস্টিগেটিভ রিপোর্টিং পুরস্কারের চূড়ান্ত মনোনয়নের সম্মান এনে দিয়েছে।

টেনেসিতে সম্প্রতি নিকার২৩ ডেটা সাংবাদিকতা সম্মেলনে ওপেন সোর্স ডকুমেন্টক্লাউড প্ল্যাটফর্মের শক্তিশালী নতুন অনুসন্ধানী ফিচার সম্পর্কে জানতে পেরে সাংবাদিকদের মধ্যেও একইরকম প্রাণবন্ত সাড়া লক্ষ্য করা গিয়েছে।

ডকুমেন্টক্লাউড হলো অলাভজনক সংস্থা মাকরক ফাউন্ডেশনের একটি বিনামূল্যে ব্যবহারযোগ্য সেবা। বেস ডকুমেন্ট ম্যানেজমেন্ট ফিচারগুলোর জন্য এটি ইতিমধ্যেই জনপ্রিয়তা পেয়েছে। এর মধ্যে রয়েছে পিডিএফ থেকে স্প্রেডশিট ও গ্রাফিক্স পর্যন্ত ৭০টি ফরম্যাটে সহজ আপলোড; প্রতিবেদনে টীকা যোগ করা; এবং তাদের সবচেয়ে পরিচিত ফিচার হলো গোছানো নথিগুলো সরাসরি আপনার স্টোরিতে জুড়ে দেয়ার সক্ষমতা। আপনি “অ্যান্ড” ও “অর” এর মতো পরিচিত গুগল-টাইপ কাঠামো কাজে লাগিয়ে গবেষক ও রিপোর্টারেরা প্রায় অর্ধ কোটি নথির পাবলিক ডেটাবেসে কীওয়ার্ড সার্চ করতে পারেন। আর গণমাধ্যমে আস্থা সংকটের বর্তমান সময়ে এর সংযুক্ত করার ফাংশনটি বিশেষভাবে গুরুত্বপূর্ণ, কারণ নথিগুলোকে কার্যকরভাবে অন-দ্য-রেকর্ড সোর্সে পরিণত করে দর্শকশ্রোতারা সরাসরি আপনার প্রতিবেদনে ক বা খ খুঁজে পাওয়ার দাবিটি যাচাই করতে পারেন৷

তবে ডকুমেন্টক্লাউড এখন আরও অনেক অত্যাধুনিক ফাংশন যুক্ত করেছে। যেমন, গুগল ড্রাইভের মতো প্রোগ্রামগুলো থেকে ইম্পোর্ট করে ইউটিউব অডিও ট্রান্সক্রাইব করা এবং এমনকি দুর্বলভাবে কালো কালিতে ঢেকে দেওয়া লেখা থেকে তথ্য বের করে আনা (নিচের তালিকাটি দেখুন)।

বাস্তব দুনিয়ায় ডেটা চ্যালেঞ্জ মোকাবিলার টুল

নিকার২৩-এ দেয়া বক্তব্যে মাকরক ফাউন্ডেশনের ওপেন সোর্স ফেলো সানজিন ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারী, ফেলো, ডেটা সায়েন্স অনুদান গ্রহণকারী ও সাংবাদিকদের সমন্বয়ে গড়ে উঠা ডকুমেন্টক্লাউড কমিউনিটি, লাইভ প্রকল্প চলাকালে যেসব সমস্যা ও সম্ভাবনার মুখোমুখি হয়েছে, সেগুলোর সমাধানে মূল ফাংশনগুলোর সঙ্গে কিছু অ্যাড-অন যুক্ত করেছে।

Document Cloud personal identifying information detector add-on data journalism

ডকুমেন্টক্লাউডের পিআইআই ডিটেক্টর অ্যাড-অন ফিচারটি বিশাল ডেটা ফাইলগুলোতে আগে থেকে লুকিয়ে থাকা মূল তথ্য এক্সট্রাক্ট করতে পারে। ছবি: স্ক্রিনশট, ডকুমেন্টক্লাউড

যেমন, ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারীরা লক্ষ্য করেছেন, মোটা মোটা নথি জুড়ে ছড়িয়ে ছিটিয়ে থাকা ব্যক্তিগত শনাক্তকরণ তথ্য (পিআইআই) বাছাই করতে অনেক সময় লাগে, আর ছোট অক্ষরে ছাপানো ইমেইল অ্যাড্রেস, সামাজিক সুরক্ষা নম্বর, জিপ কোড, ক্রেডিট কার্ড নম্বর ও বাসা বা অফিসের ঠিকানার মতো তথ্য কখনো কখনো পাওয়াই যায় না।

তাই ডকুমেন্টক্লাউড এমন একটি ফিচার যুক্ত করেছে যা স্বয়ংক্রিয়ভাবে ব্যক্তিগত শনাক্তকরণ তথ্য খুঁজে বের করে এবং সেগুলো হাইলাইট করে।

এদিকে, ইব্রাহিমোভিচ বলেছেন, সংবেদনশীল বা গোপন তথ্য ঢেকে দিতে কর্মকর্তারা প্রায়ই কালো হাইলাইটার কলম বা দুর্বল সংশোধনী সফ্টওয়্যার ব্যবহার করেন, যা সরকারি নথির রিড্যাকশনকে দুর্বল ও ত্রুটিপূর্ণ করে তোলে। এ কারণে ব্যবহারকারীরাও সমস্যায় পড়েন। ভুক্তভোগীদের সম্পর্কে সংবেদনশীল তথ্য হিসেবে নথি সংযুক্ত করতে চাচ্ছে, এমন সংবাদমাধ্যমের জন্য এটি একটি ঝুঁকি। কারণ, দুর্বল রিড্যাকশন থেকে দুষ্ট লোকেরা চাইলে ডিজিটাল উপায়ে তথ্য এক্সট্রাক্ট করতে পারে।

তাই ডকুমেন্টক্লাউড একটি “ব্যাড রিড্যাকশন” অ্যাড-অন ফিচার ব্যবহার করেছে, যা দু’ভাবে সাংবাদিকদের কাজে আসে:

  • এজেন্সি যা গোপন করতে চেয়েছিল, অনেক সময় তা প্রকাশ্যে আনতে এটি স্বয়ংক্রিয়ভাবে একটি স্প্রেডশিটে অনুমিত সংশোধিত অনুচ্ছেদগুলো বিশ্লেষণ করে ও সামনে আনে ৷
  • এটি আপনাকে ঢেকে দেওয়ার কাজটি সম্পন্ন করার বিকল্প পথ দেখায়: ব্ল্যাক আউট অংশের আড়ালে থাকা সব ডিজিটাল তথ্য স্থায়ীভাবে মুছে ফেলা এবং জনসাধারণের জন্য উন্মুক্ত নথি বা সংযুক্ত পৃষ্ঠাগুলোর জন্য সেগুলো পুরোপুরি ঢেকে দেওয়া। ইব্রাহিমোভিচ সতর্ক করে বলেছেন, নির্বাচিত অনুচ্ছেদগুলোর জন্য “রিড্যাকশন নিশ্চিত করুন” বোতামে ক্লিক করার আগে সাংবাদিকদের ভালোভাবে চিন্তা করা উচিত – “কারণ এটি একটি স্থায়ী পদ্ধতি – যা বদলানো যায় না।”

বিপন্ন ব্রাজিলউড পাচার নিয়ে অর্গানাইজড ক্রাইম অ্যান্ড করাপশন রিপোর্টিং প্রজেক্টের (ওসিসিআরপি) হয়ে তাঁর সাম্প্রতিক অনুসন্ধানে লুইজ ফার্নান্দো টলেডো চোরাচালানের জন্য অর্থদণ্ডের শিকার ছোট ব্রাজিলিয় কোম্পানিগুলোর নাম জানতে ব্যাড রিড্যাকশন ব্যবহার করেছেন।

পরিবেশগত অপরাধ বিষয়ক অলাভজনক সংস্থা ডেটা ফিক্সারের প্রকল্প সমন্বয়ক টলেডো ব্যাখ্যা করে বলেন, তিনি স্টোরি করতে গিয়ে সরকারি সংস্থার করা পরিবেশগত জরিমানা নিয়ে শত শত প্রতিবেদন জোগাড় করেছেন এবং তারপর সেই নথিগুলো গুছিয়েছেন। “ব্যাড রিড্যাকশন অ্যাড-অন আমাকে কয়েকজন অভিযুক্ত ব্যক্তি ও বেশ কয়েকটি কোম্পানির নাম খুঁজে পেতে সাহায্য করেছে। ইম্পোর্ট ডকুমেন্ট ফাংশনটিও খুব গুরুত্বপূর্ণ। এটি ব্যবহারে অনেক নথি খুঁটিয়ে দেখা এবং আমার প্রয়োজনীয় মূল বিষয় খুঁজে পাওয়ার কাজটি সহজ হয়েছিল। আমি পুরো প্রকল্পে পরীক্ষা নিরীক্ষার কাজে ডকুমেন্টক্লাউড ব্যবহার করেছি।”

ব্যবহারকারী-বান্ধব অনুসন্ধানী বৈশিষ্ট্য

ইব্রাহিমোভিচ স্বীকার করে বলেছেন, অ্যাড-অনগুলো স্বচ্ছ ও ওপেন সোর্স হলেও এগুলো তৈরি করতে কোডিং দক্ষতা থাকতে হয়। ডকুমেন্টক্লাউড অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (এপিআই) ও গিটহাব অ্যাকশনের মতো প্ল্যাটফর্মগুলোতে এগুলো তৈরি করা হয়। তবে তিনি বলেছেন, অ্যাড-অনগুলোর ব্যবহার সহজ হলেই কেবল পরিষেবার জন্য গৃহীত হয়।

Document Cloud Bad Redactions add-on data journalism

ডকুমেন্টক্লাউড ব্যাড রিড্যাকশন অ্যাড-অন একই সঙ্গে দূর্বলভাবে সংশোধিত তথ্য প্রকাশ করতে পারে এবং সাংবাদিকদের গোপন তথ্য সুরক্ষায় সহায়ক ভূমিকা রাখতে পারে। ছবি: স্ক্রিনশট, ডকুমেন্টক্লাউড

তিনি সুনির্দিষ্টভাবে বলেছেন, “কোনো অ্যাড-অন চালাতে ব্যবহারকারীদের প্রোগ্রাম সংশ্লিষ্ট জ্ঞানের প্রয়োজন পড়ে না। তাই ছোট নিউজরুমও প্রোগ্রামিং দক্ষতা ছাড়াই ডেটা এক্সট্রাকশন ও বিশ্লেষণ পদ্ধতির ধারণাটি ব্যবহার করতে পারে।”

তবুও, ডেটা নিয়ে কাজ করেন না, এমন রিপোর্টাররা অ্যাড-অন চালাতে গিয়ে বেশ কিছু প্রযুক্তিগত সমস্যার সম্মুখীন হন। তাই ব্যবহারকারীদের উচিতি উক্ত বিষয়ে মাকরকের ইউটিউব টিউটোরিয়াল চ্যানেলটি দেখা।

ডকুমেন্টক্লাউডে অ্যাক্সেস করতে হলে সাধারণত দ্রুত ভেরিফিকেশন সুবিধাসম্পন্ন প্রাতিষ্ঠানিক ইমেইল অ্যাড্রেস ব্যবহার করে একটি অ্যাকাউন্ট খুলতে হবে। নতুন ফিচারের ক্রমবর্ধমান লাইব্রেরিতে অ্যাক্সেস করতে হলে “অ্যাড-অনস” আর তারপর “ব্রাউজ অল অ্যাড-অনস” এ ক্লিক করতে হবে।

ইব্রাহিমোভিচ বলেছেন, নতুন অ্যাড-অন টুলগুলোর কয়েকটি নিম্নোক্ত কাজগুলো করতে পারে:

  • গুগল ড্রাইভ, ড্রপবক্স, উইট্রান্সফার ও মিডিয়াফায়ার থেকে ডকুমেন্ট ইম্পোর্ট করা।
  • ইমেইল ফাইলগুলোকে (ইএমএল ও এমএসজি ফরম্যাট) পিডিএফ-এ রূপান্তর করা।
  • ওয়েবসাইটের স্ক্র্যাপার ফাংশন ব্যবহার করে সেখান থেকে ডেটা সংগ্রহ করা। এই ফাংশনটি আপনার কাঙ্ক্ষিত সাইট থেকে আপলোড করা নতুন নথিগুলো স্বয়ংক্রিয়ভাবে ডাউনলোড ও সেগুলোর তালিকা তৈরি করতে পারা।
  • দূর্বলভাবে সংশোধিত টেক্সট শনাক্ত করা ও সামনে আনা।
  • দ্য ইন্টারনেট আর্কাইভে প্রজেক্টের ব্যাক আপ রাখা।
  • অনেকগুলো নথি একসঙ্গে সম্পাদনা করা।
  • ইউটিউবসহ অডিও ফাইল ট্রান্সক্রাইব করা এবং স্বয়ংক্রিয়ভাবে আপনার অ্যাকাউন্টে ট্রান্সক্রিপশন আপলোড করা।
  • ট্যাবুলা-ভিত্তিক একটি টুল ব্যবহার করে পিডিএফগুলো থেকে টেবিল এক্সট্রাক্ট করা।
  • ফোন নম্বর, সামাজিক সুরক্ষা তথ্য, ও বাসা বা অফিসের ঠিকানার মত ব্যক্তিগত শনাক্তকরণ তথ্যাবলী (পিআইআই) চিহ্নিত করা ও সামনে আনা।
  • অনেক অংশগ্রহণকারীদের জন্য ‘পিআইআই ডিটেক্টর’ নামের এই শেষোক্ত ফাংশনটি সবচেয়ে রোমাঞ্চকর ছিল। এর অন্যতম একটি কারণ হলো, এটি তাৎক্ষণিকভাবে আদালতের ফাইলিং বা অডিট রিপোর্টের বিশাল সংকলন থেকে সম্ভাব্য সোর্সগুলোর যোগাযোগের ঠিকানার ডেটাবেস সরবরাহ করতে পারে।

যুক্তরাষ্ট্রের জর্জিয়া রাজ্যের অলাভজনক প্রতিষ্ঠান দ্য ম্যাকন নিউজরুমের অনুসন্ধানী প্রতিবেদক লরা কোরলে বলেছেন, অনুদাননির্ভর দুটি স্থানীয় স্কুলে জাতিগত ও অর্থনৈতিক সাম্যতার বিষয়ে তাঁর গবেষণায় ইতিমধ্যেই নতুন অ্যাড-অনের কার্যকারিতা প্রমাণিত হয়েছে। তিনি আরও বলেছেন, স্কুল পরিচালনা পর্ষদের পোস্ট করা মিটিং মিনিটগুলো শত শত পৃষ্ঠা ছাড়িয়ে গেছে এবং খুব কমই শিরোনামভিত্তিক আলোচনার বিষয়গুলো তালিকাভুক্ত করেছে।

তিনি খোলাসা করে বলেন, “কোন ব্যবসায়িক প্রসঙ্গে কখন আলোচনা হয়েছিল, তা সুনির্দিষ্টভাবে না জানলে সঠিক নথিগুলো খুঁজে পেতে ঘন্টা বা এমনকি কয়েক দিনও লেগে যেতে পারে। ডকুমেন্টক্লাউড স্ক্র্যাপার অ্যাড-অন ব্যবহার করে আমি কয়েক মিনিটের মধ্যে দুটি ওয়েবসাইট থেকে সব মিটিংয়ের অফিসিয়াল রেকর্ড সংগ্রহ করতে পেরেছি। তথ্যটি খুঁজে পেতে আমি এক দশকের মিটিং নোটগুলো কীওয়ার্ড দিয়ে সার্চ করতে পেরেছি।

তিনি আরও বলেছেন, “এটি প্রত্যাশার চেয়েও বেশি কিছু দিয়েছে, আর আমার সামনে আরও প্রেক্ষাপট হাজির করেছে।”

ইব্রাহিমোভিচ সার-সংক্ষেপ করে বলেছেন: “সর্বোপরি আমরা মনে করি, এই ফিচারগুলো সীমিত রিসোর্সসম্পন্ন সাংবাদিক ও গবেষকদের জন্য নথিপত্রের গভীর বিশ্লেষণ শুরু করার বাধা সত্যিই কমিয়ে আনে।”

আরও পড়ুন

কোডিং দক্ষতা ছাড়াই বিনামূল্যে ব্যবহারযোগ্য ডেটা এক্সট্রাকশন টুল

সোশ্যাল মিডিয়া প্ল্যাটফর্ম মনিটরিংয়ের নতুন অনুসন্ধানী টুল

টেস্টিং দ্য পোটেনশিয়াল অব ইউজিং চ্যাটজিপিটি টু এক্সট্র্যাক্ট ডেটা ফ্রম পিডিএফস


Rowan Philp, senior reporter, GIJNরোয়ান ফিলিপ জিআইজেএনের প্রতিবেদক। তিনি দক্ষিণ আফ্রিকার সানডে টাইমস পত্রিকার প্রধান প্রতিবেদক ছিলেন। বিদেশ প্রতিনিধি হিসেবে বিশ্বের ২৪টির বেশি দেশে সংবাদ, রাজনীতি, দুর্নীতি ও সংঘাত নিয়ে রিপোর্ট করেছেন।

ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে আমাদের লেখা বিনামূল্যে অনলাইন বা প্রিন্টে প্রকাশযোগ্য

লেখাটি পুনঃপ্রকাশ করুন


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

পরবর্তী

ডেটা সাংবাদিকতা পরামর্শ ও টুল

গুগলশিট ব্যবহার করে কীভাবে দরকারি ডেটা খুঁজবেন

স্প্রেডশিট থেকে ডেটা বাছাই কিংবা প্রয়োজনীয় তথ্য দ্রুত কীভাবে খুঁজতে হয়, তা জানা প্রয়োজন। আর এ জন্য স্প্রেডশিট ব্যবহারে দক্ষতা থাকাটা খুবই গুরুত্বপূর্ণ। কারণ এতে করে আপনি তুলে আনতে পারবেন দারুন সব গল্প।

টিপশীট ডেটা সাংবাদিকতা পরামর্শ ও টুল

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

সমুদ্র সংক্রান্ত ডেটার ধরন হতে পারে বহুবিচিত্র। সমুদ্রে দূষণ, জীববৈচিত্র্য পরিস্থিতি অথবা অর্থবাণিজ্য— এমন বিভিন্ন ধরনের ডেটা, সাংবাদিকেরা ব্যবহার করতে পারেন তাদের রিপোর্টিংয়ে। এই টিপশিটে পাবেন অনুসন্ধানে সামুদ্রিক ডেটা ব্যবহারের পরামর্শ ও রিসোর্সের খোঁজ।

পরামর্শ ও টুল

ত্রুটিপূর্ণ ও ভুয়া একাডেমিক গবেষণা নিয়ে কীভাবে কাজ করবেন

একাডেমিক গবেষণাপত্রের ওপর ভিত্তি করে শিক্ষা, স্বাস্থ্য, জলবায়ু পরিবর্তন ইত্যাদি বিষয়ে নেওয়া হয় গুরুত্বপূর্ণ সব সিদ্ধান্ত। ফলে ত্রুটিপূর্ণ ও ভুয়া গবেষণা অনেক সময় তৈরি করতে পারে নেতিবাচক প্রভাব। পড়ুন, কীভাবে এমন ত্রুটিপূর্ণ গবেষণা নিয়ে অনুসন্ধান করতে পারেন।

গাইড পরামর্শ ও টুল

প্রতিবন্ধীদের নিয়ে অনুসন্ধানের রিপোর্টিং গাইড: সংক্ষিপ্ত সংস্করণ

জাতিসংঘের মতে, প্রতিবন্ধী ব্যক্তিরা হচ্ছেন বৃহত্তম বিভক্ত সংখ্যালঘু জনগোষ্ঠী। কার্যত প্রতিটি রিপোর্টিং বীটেই প্রতিবন্ধী বিষয়ক দৃষ্টিকোণ থেকে আলোচনা বা কাজ করার সুযোগ রয়েছে।