Image: Shutterstock
ঢেকে দেওয়া টেক্সট, ব্যক্তিগত তথ্য, এবং আরও অনেক কিছু উন্মোচনের নতুন ডকুমেন্ট টুল
বড় বড় নথিগুলোকে ছোট প্রতিষ্ঠানগুলোর জন্য সার্চযোগ্য করা ও কাজে লাগাতে বিনামূল্যে ব্যবহারযোগ্য টুলগুলোর বিকাশ সাম্প্রতিক বছরগুলোতে অনুসন্ধানী সাংবাদিকদের সবচেয়ে বড় প্রযুক্তিগত অগ্রগতির একটি৷
আগে রিপোর্টারদের হরেক রঙের স্টিকি নোটের স্তুপ ও ডেটা ইনপুটের জন্য স্বেচ্ছাসেবী প্রয়োজন হতো; আর হাতে লেখা সাধারণ পাণ্ডুলিপি, অগোছালো ডেটা টেবিল ও কালো কালিতে আংশিকভাবে ঢেকে দেওয়া রিপোর্ট পর্যন্ত আলাদা আলাদা ফরম্যাটে আসা পাবলিক রেকর্ডের বাক্সগুলো সামলাতে প্রচুর সময় লেগে যেত।
এখন মেশিন লার্নিং চালিত টুল ও ওপেন সোর্স প্রোগ্রাম প্রস্তুতকারকদের উদ্ভাবনী ক্ষমতা যে কেবল বড় বড় ফাঁসকাণ্ড ঘটাতে পারে তা নয়, বরং ফাঁসকৃত সেই নথির বান্ডিলে লুকিয়ে থাকা ডেটাও উন্মোচন করতে পারে। এতে করে অসাবধানতাবশত সংবেদনশীল তথ্য প্রকাশের ঝুঁকিও কমতে পারে।
যেমন, ২০২২ ইনভেস্টিগেটিভ রিপোর্টার অ্যান্ড এডিটর্স কনফারেন্সে অংশগ্রহণকারীরা জেনে অবাক হন যে, কৃত্রিম বুদ্ধিমত্তা-চালিত গুগল পিনপয়েন্ট টুলের অনেক সময় সাশ্রয়কারী বিশ্লেষণী ফাংশন রয়েছে এবং এটি আলোকচিত্রে থাকা দূরের কোনো পটভূমিতে পিতলের ফলকের ওপর ছোট ছোট লেখাও ট্রান্সক্রাইব ও সার্চ করতে পারে। সত্যি কথা বলতে কী, গণমাধ্যমের একটি দুর্নীতি কেলেঙ্কারির পেছনে অভিযুক্ত ব্যক্তিদের চিহ্নিত করতে ফাঁস হওয়া হাজার হাজার পৃষ্ঠার নথিপত্র স্বয়ংক্রিয় বিশ্লেষণে পরিবেশ বিষয়ক সংবাদমাধ্যম ফ্লাডলাইটের সাংবাদিকেরা পিনপয়েন্ট ব্যবহার করেছেন। আর এই অনুসন্ধান সম্প্রতি তাঁদেরকে গোল্ডস্মিথ ইনভেস্টিগেটিভ রিপোর্টিং পুরস্কারের চূড়ান্ত মনোনয়নের সম্মান এনে দিয়েছে।
টেনেসিতে সম্প্রতি নিকার২৩ ডেটা সাংবাদিকতা সম্মেলনে ওপেন সোর্স ডকুমেন্টক্লাউড প্ল্যাটফর্মের শক্তিশালী নতুন অনুসন্ধানী ফিচার সম্পর্কে জানতে পেরে সাংবাদিকদের মধ্যেও একইরকম প্রাণবন্ত সাড়া লক্ষ্য করা গিয়েছে।
ডকুমেন্টক্লাউড হলো অলাভজনক সংস্থা মাকরক ফাউন্ডেশনের একটি বিনামূল্যে ব্যবহারযোগ্য সেবা। বেস ডকুমেন্ট ম্যানেজমেন্ট ফিচারগুলোর জন্য এটি ইতিমধ্যেই জনপ্রিয়তা পেয়েছে। এর মধ্যে রয়েছে পিডিএফ থেকে স্প্রেডশিট ও গ্রাফিক্স পর্যন্ত ৭০টি ফরম্যাটে সহজ আপলোড; প্রতিবেদনে টীকা যোগ করা; এবং তাদের সবচেয়ে পরিচিত ফিচার হলো গোছানো নথিগুলো সরাসরি আপনার স্টোরিতে জুড়ে দেয়ার সক্ষমতা। আপনি “অ্যান্ড” ও “অর” এর মতো পরিচিত গুগল-টাইপ কাঠামো কাজে লাগিয়ে গবেষক ও রিপোর্টারেরা প্রায় অর্ধ কোটি নথির পাবলিক ডেটাবেসে কীওয়ার্ড সার্চ করতে পারেন। আর গণমাধ্যমে আস্থা সংকটের বর্তমান সময়ে এর সংযুক্ত করার ফাংশনটি বিশেষভাবে গুরুত্বপূর্ণ, কারণ নথিগুলোকে কার্যকরভাবে অন-দ্য-রেকর্ড সোর্সে পরিণত করে দর্শকশ্রোতারা সরাসরি আপনার প্রতিবেদনে ক বা খ খুঁজে পাওয়ার দাবিটি যাচাই করতে পারেন৷
তবে ডকুমেন্টক্লাউড এখন আরও অনেক অত্যাধুনিক ফাংশন যুক্ত করেছে। যেমন, গুগল ড্রাইভের মতো প্রোগ্রামগুলো থেকে ইম্পোর্ট করে ইউটিউব অডিও ট্রান্সক্রাইব করা এবং এমনকি দুর্বলভাবে কালো কালিতে ঢেকে দেওয়া লেখা থেকে তথ্য বের করে আনা (নিচের তালিকাটি দেখুন)।
বাস্তব দুনিয়ায় ডেটা চ্যালেঞ্জ মোকাবিলার টুল
নিকার২৩-এ দেয়া বক্তব্যে মাকরক ফাউন্ডেশনের ওপেন সোর্স ফেলো সানজিন ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারী, ফেলো, ডেটা সায়েন্স অনুদান গ্রহণকারী ও সাংবাদিকদের সমন্বয়ে গড়ে উঠা ডকুমেন্টক্লাউড কমিউনিটি, লাইভ প্রকল্প চলাকালে যেসব সমস্যা ও সম্ভাবনার মুখোমুখি হয়েছে, সেগুলোর সমাধানে মূল ফাংশনগুলোর সঙ্গে কিছু অ্যাড-অন যুক্ত করেছে।
যেমন, ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারীরা লক্ষ্য করেছেন, মোটা মোটা নথি জুড়ে ছড়িয়ে ছিটিয়ে থাকা ব্যক্তিগত শনাক্তকরণ তথ্য (পিআইআই) বাছাই করতে অনেক সময় লাগে, আর ছোট অক্ষরে ছাপানো ইমেইল অ্যাড্রেস, সামাজিক সুরক্ষা নম্বর, জিপ কোড, ক্রেডিট কার্ড নম্বর ও বাসা বা অফিসের ঠিকানার মতো তথ্য কখনো কখনো পাওয়াই যায় না।
তাই ডকুমেন্টক্লাউড এমন একটি ফিচার যুক্ত করেছে যা স্বয়ংক্রিয়ভাবে ব্যক্তিগত শনাক্তকরণ তথ্য খুঁজে বের করে এবং সেগুলো হাইলাইট করে।
এদিকে, ইব্রাহিমোভিচ বলেছেন, সংবেদনশীল বা গোপন তথ্য ঢেকে দিতে কর্মকর্তারা প্রায়ই কালো হাইলাইটার কলম বা দুর্বল সংশোধনী সফ্টওয়্যার ব্যবহার করেন, যা সরকারি নথির রিড্যাকশনকে দুর্বল ও ত্রুটিপূর্ণ করে তোলে। এ কারণে ব্যবহারকারীরাও সমস্যায় পড়েন। ভুক্তভোগীদের সম্পর্কে সংবেদনশীল তথ্য হিসেবে নথি সংযুক্ত করতে চাচ্ছে, এমন সংবাদমাধ্যমের জন্য এটি একটি ঝুঁকি। কারণ, দুর্বল রিড্যাকশন থেকে দুষ্ট লোকেরা চাইলে ডিজিটাল উপায়ে তথ্য এক্সট্রাক্ট করতে পারে।
তাই ডকুমেন্টক্লাউড একটি “ব্যাড রিড্যাকশন” অ্যাড-অন ফিচার ব্যবহার করেছে, যা দু’ভাবে সাংবাদিকদের কাজে আসে:
- এজেন্সি যা গোপন করতে চেয়েছিল, অনেক সময় তা প্রকাশ্যে আনতে এটি স্বয়ংক্রিয়ভাবে একটি স্প্রেডশিটে অনুমিত সংশোধিত অনুচ্ছেদগুলো বিশ্লেষণ করে ও সামনে আনে ৷
- এটি আপনাকে ঢেকে দেওয়ার কাজটি সম্পন্ন করার বিকল্প পথ দেখায়: ব্ল্যাক আউট অংশের আড়ালে থাকা সব ডিজিটাল তথ্য স্থায়ীভাবে মুছে ফেলা এবং জনসাধারণের জন্য উন্মুক্ত নথি বা সংযুক্ত পৃষ্ঠাগুলোর জন্য সেগুলো পুরোপুরি ঢেকে দেওয়া। ইব্রাহিমোভিচ সতর্ক করে বলেছেন, নির্বাচিত অনুচ্ছেদগুলোর জন্য “রিড্যাকশন নিশ্চিত করুন” বোতামে ক্লিক করার আগে সাংবাদিকদের ভালোভাবে চিন্তা করা উচিত – “কারণ এটি একটি স্থায়ী পদ্ধতি – যা বদলানো যায় না।”
বিপন্ন ব্রাজিলউড পাচার নিয়ে অর্গানাইজড ক্রাইম অ্যান্ড করাপশন রিপোর্টিং প্রজেক্টের (ওসিসিআরপি) হয়ে তাঁর সাম্প্রতিক অনুসন্ধানে লুইজ ফার্নান্দো টলেডো চোরাচালানের জন্য অর্থদণ্ডের শিকার ছোট ব্রাজিলিয় কোম্পানিগুলোর নাম জানতে ব্যাড রিড্যাকশন ব্যবহার করেছেন।
পরিবেশগত অপরাধ বিষয়ক অলাভজনক সংস্থা ডেটা ফিক্সারের প্রকল্প সমন্বয়ক টলেডো ব্যাখ্যা করে বলেন, তিনি স্টোরি করতে গিয়ে সরকারি সংস্থার করা পরিবেশগত জরিমানা নিয়ে শত শত প্রতিবেদন জোগাড় করেছেন এবং তারপর সেই নথিগুলো গুছিয়েছেন। “ব্যাড রিড্যাকশন অ্যাড-অন আমাকে কয়েকজন অভিযুক্ত ব্যক্তি ও বেশ কয়েকটি কোম্পানির নাম খুঁজে পেতে সাহায্য করেছে। ইম্পোর্ট ডকুমেন্ট ফাংশনটিও খুব গুরুত্বপূর্ণ। এটি ব্যবহারে অনেক নথি খুঁটিয়ে দেখা এবং আমার প্রয়োজনীয় মূল বিষয় খুঁজে পাওয়ার কাজটি সহজ হয়েছিল। আমি পুরো প্রকল্পে পরীক্ষা নিরীক্ষার কাজে ডকুমেন্টক্লাউড ব্যবহার করেছি।”
ব্যবহারকারী-বান্ধব অনুসন্ধানী বৈশিষ্ট্য
ইব্রাহিমোভিচ স্বীকার করে বলেছেন, অ্যাড-অনগুলো স্বচ্ছ ও ওপেন সোর্স হলেও এগুলো তৈরি করতে কোডিং দক্ষতা থাকতে হয়। ডকুমেন্টক্লাউড অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (এপিআই) ও গিটহাব অ্যাকশনের মতো প্ল্যাটফর্মগুলোতে এগুলো তৈরি করা হয়। তবে তিনি বলেছেন, অ্যাড-অনগুলোর ব্যবহার সহজ হলেই কেবল পরিষেবার জন্য গৃহীত হয়।
তিনি সুনির্দিষ্টভাবে বলেছেন, “কোনো অ্যাড-অন চালাতে ব্যবহারকারীদের প্রোগ্রাম সংশ্লিষ্ট জ্ঞানের প্রয়োজন পড়ে না। তাই ছোট নিউজরুমও প্রোগ্রামিং দক্ষতা ছাড়াই ডেটা এক্সট্রাকশন ও বিশ্লেষণ পদ্ধতির ধারণাটি ব্যবহার করতে পারে।”
তবুও, ডেটা নিয়ে কাজ করেন না, এমন রিপোর্টাররা অ্যাড-অন চালাতে গিয়ে বেশ কিছু প্রযুক্তিগত সমস্যার সম্মুখীন হন। তাই ব্যবহারকারীদের উচিতি উক্ত বিষয়ে মাকরকের ইউটিউব টিউটোরিয়াল চ্যানেলটি দেখা।
ডকুমেন্টক্লাউডে অ্যাক্সেস করতে হলে সাধারণত দ্রুত ভেরিফিকেশন সুবিধাসম্পন্ন প্রাতিষ্ঠানিক ইমেইল অ্যাড্রেস ব্যবহার করে একটি অ্যাকাউন্ট খুলতে হবে। নতুন ফিচারের ক্রমবর্ধমান লাইব্রেরিতে অ্যাক্সেস করতে হলে “অ্যাড-অনস” আর তারপর “ব্রাউজ অল অ্যাড-অনস” এ ক্লিক করতে হবে।
ইব্রাহিমোভিচ বলেছেন, নতুন অ্যাড-অন টুলগুলোর কয়েকটি নিম্নোক্ত কাজগুলো করতে পারে:
- গুগল ড্রাইভ, ড্রপবক্স, উইট্রান্সফার ও মিডিয়াফায়ার থেকে ডকুমেন্ট ইম্পোর্ট করা।
- ইমেইল ফাইলগুলোকে (ইএমএল ও এমএসজি ফরম্যাট) পিডিএফ-এ রূপান্তর করা।
- ওয়েবসাইটের স্ক্র্যাপার ফাংশন ব্যবহার করে সেখান থেকে ডেটা সংগ্রহ করা। এই ফাংশনটি আপনার কাঙ্ক্ষিত সাইট থেকে আপলোড করা নতুন নথিগুলো স্বয়ংক্রিয়ভাবে ডাউনলোড ও সেগুলোর তালিকা তৈরি করতে পারা।
- দূর্বলভাবে সংশোধিত টেক্সট শনাক্ত করা ও সামনে আনা।
- দ্য ইন্টারনেট আর্কাইভে প্রজেক্টের ব্যাক আপ রাখা।
- অনেকগুলো নথি একসঙ্গে সম্পাদনা করা।
- ইউটিউবসহ অডিও ফাইল ট্রান্সক্রাইব করা এবং স্বয়ংক্রিয়ভাবে আপনার অ্যাকাউন্টে ট্রান্সক্রিপশন আপলোড করা।
- ট্যাবুলা-ভিত্তিক একটি টুল ব্যবহার করে পিডিএফগুলো থেকে টেবিল এক্সট্রাক্ট করা।
- ফোন নম্বর, সামাজিক সুরক্ষা তথ্য, ও বাসা বা অফিসের ঠিকানার মত ব্যক্তিগত শনাক্তকরণ তথ্যাবলী (পিআইআই) চিহ্নিত করা ও সামনে আনা।
- অনেক অংশগ্রহণকারীদের জন্য ‘পিআইআই ডিটেক্টর’ নামের এই শেষোক্ত ফাংশনটি সবচেয়ে রোমাঞ্চকর ছিল। এর অন্যতম একটি কারণ হলো, এটি তাৎক্ষণিকভাবে আদালতের ফাইলিং বা অডিট রিপোর্টের বিশাল সংকলন থেকে সম্ভাব্য সোর্সগুলোর যোগাযোগের ঠিকানার ডেটাবেস সরবরাহ করতে পারে।
যুক্তরাষ্ট্রের জর্জিয়া রাজ্যের অলাভজনক প্রতিষ্ঠান দ্য ম্যাকন নিউজরুমের অনুসন্ধানী প্রতিবেদক লরা কোরলে বলেছেন, অনুদাননির্ভর দুটি স্থানীয় স্কুলে জাতিগত ও অর্থনৈতিক সাম্যতার বিষয়ে তাঁর গবেষণায় ইতিমধ্যেই নতুন অ্যাড-অনের কার্যকারিতা প্রমাণিত হয়েছে। তিনি আরও বলেছেন, স্কুল পরিচালনা পর্ষদের পোস্ট করা মিটিং মিনিটগুলো শত শত পৃষ্ঠা ছাড়িয়ে গেছে এবং খুব কমই শিরোনামভিত্তিক আলোচনার বিষয়গুলো তালিকাভুক্ত করেছে।
তিনি খোলাসা করে বলেন, “কোন ব্যবসায়িক প্রসঙ্গে কখন আলোচনা হয়েছিল, তা সুনির্দিষ্টভাবে না জানলে সঠিক নথিগুলো খুঁজে পেতে ঘন্টা বা এমনকি কয়েক দিনও লেগে যেতে পারে। ডকুমেন্টক্লাউড স্ক্র্যাপার অ্যাড-অন ব্যবহার করে আমি কয়েক মিনিটের মধ্যে দুটি ওয়েবসাইট থেকে সব মিটিংয়ের অফিসিয়াল রেকর্ড সংগ্রহ করতে পেরেছি। তথ্যটি খুঁজে পেতে আমি এক দশকের মিটিং নোটগুলো কীওয়ার্ড দিয়ে সার্চ করতে পেরেছি।”
তিনি আরও বলেছেন, “এটি প্রত্যাশার চেয়েও বেশি কিছু দিয়েছে, আর আমার সামনে আরও প্রেক্ষাপট হাজির করেছে।”
ইব্রাহিমোভিচ সার-সংক্ষেপ করে বলেছেন: “সর্বোপরি আমরা মনে করি, এই ফিচারগুলো সীমিত রিসোর্সসম্পন্ন সাংবাদিক ও গবেষকদের জন্য নথিপত্রের গভীর বিশ্লেষণ শুরু করার বাধা সত্যিই কমিয়ে আনে।”
আরও পড়ুন
কোডিং দক্ষতা ছাড়াই বিনামূল্যে ব্যবহারযোগ্য ডেটা এক্সট্রাকশন টুল
সোশ্যাল মিডিয়া প্ল্যাটফর্ম মনিটরিংয়ের নতুন অনুসন্ধানী টুল
টেস্টিং দ্য পোটেনশিয়াল অব ইউজিং চ্যাটজিপিটি টু এক্সট্র্যাক্ট ডেটা ফ্রম পিডিএফস
রোয়ান ফিলিপ জিআইজেএনের প্রতিবেদক। তিনি দক্ষিণ আফ্রিকার সানডে টাইমস পত্রিকার প্রধান প্রতিবেদক ছিলেন। বিদেশ প্রতিনিধি হিসেবে বিশ্বের ২৪টির বেশি দেশে সংবাদ, রাজনীতি, দুর্নীতি ও সংঘাত নিয়ে রিপোর্ট করেছেন।