ভারতের ‘দ্য হিন্দু’ পত্রিকা ডেটা সাংবাদিকতায় যেভাবে এআই যুক্ত করছে
আর্টিকেলটি পড়ুন এই ভাষায়:
গত কয়েক মাসে দৈনিক সংবাদপত্র দ্য হিন্দু’র সাংবাদিকরা ভারতের তিনটি রাজ্যের প্রায় ২ কোটি ২০ লাখ ভোটারের তথ্য বিশ্লেষণ করেছেন। কিন্তু নিজ হাতে তারা কোনো ধরনের কোড না লিখেই নির্বাচনের ফলাফল তুলে ধরার একটি পদ্ধতি বের করেছেন। এমনকি সাধারণ মানুষের ওপর তীব্র গরমের প্রভাব মাপতে স্বল্পমূল্যের একটি যন্ত্রও বানিয়েছেন।
দ্য হিন্দু’র ডেপুটি ন্যাশনাল এডিটর এবং সিনিয়র অ্যাসোসিয়েট এডিটর শ্রীনিবাসন রামানি বলেন, এই কাজের অনেকটা অংশই দ্রুত সম্ভব হয়েছে লার্জ ল্যাঙ্গুয়েজ মডেল বা এলএলএম-এর মাধ্যমে। এগুলো কেবল লেখা তৈরির জন্য নয়, বরং নথিপত্র বিশ্লেষণ করা, কোড লেখা এবং অনুসন্ধানের কাজগুলোকে গুছিয়ে করার জন্য ব্যবহার করা হয়েছে।
সম্প্রতি অনুষ্ঠিত এআই ইন মিডিয়া ফোরাম বেঙ্গালুরু ২০২৬ সম্মেলনে শ্রীনিবাসন রামানি তাদের কাজের এই ধরনগুলো তুলে ধরেন।
তিনি লেখালেখির অটোমেশনের ওপর জোর না দিয়ে বরং দেখিয়েছেন, কীভাবে ‘লো-কোড’ (সহজ কোডিং) এবং কৃত্রিম বুদ্ধিমত্তার (এআই) সহায়তা নিয়ে প্রচলিত একটি সংবাদমাধ্যমে ডেটাভিত্তিক সাংবাদিকতার কাজের ধারা বদলে যাচ্ছে।
তিনি বলেন, “এআই হচ্ছে অত্যন্ত পারদর্শী একজন ইন্টার্ন বা শিক্ষানবিশ। আপনি একে ঠিক যা করতে বলবেন, সে নিখুঁতভাবে তাই করে দেবে। কিন্তু মূল নিয়ন্ত্রণ বা কর্তৃত্ব থাকবে আপনার হাতেই।”
২ কোটি ২০ লক্ষ ভোটারের রেকর্ড বিশ্লেষণ
অন্যতম বৃহৎ প্রকল্পের অংশ হিসেবে ভারতের নির্বাচন কমিশনের পক্ষ থেকে পরিচালিত ভোটার তালিকার পর্যায়ক্রমিক হালনাগাদ বা ‘স্পেশাল ইনটেনসিভ রিভিশন’ (এসআইআর) পরীক্ষা করা হয়েছে। সর্বশেষ ধাপে, কর্তৃপক্ষ তালিকা থেকে বাদ পড়া ভোটারদের রেকর্ড এবং এর কারণগুলো প্রকাশ করেছে।
প্রাপ্ত তথ্যগুলো সরাসরি বিশ্লেষণের যোগ্য ছিল না। সেগুলো ছিল হিন্দি ভাষায় পূরণ করা কিছু ফরমের ছবি, যা পিডিএফ আকারে ছিল।
শুধুমাত্র বিহারেই দলটি প্রায় ৯০ হাজার ফাইল থেকে ৬৫ লক্ষ তথ্য সংগ্রহ করেছে। তামিলনাড়ুর ক্ষেত্রে ফাইলের সংখ্যা ছিল প্রায় ৭৮ হাজার এবং তথ্যের সংখ্যা ৯৭ লক্ষ। আর পশ্চিমবঙ্গে ছিল প্রায় ৮০ হাজার ফাইল এবং ৫৮ লক্ষ তথ্য। সব মিলিয়ে এই তিনটি রাজ্যে প্রায় ২ কোটি ২০ লক্ষ (২২ মিলিয়ন) ভোটারের তথ্য ছিল।
নিউজরুমটি অপটিক্যাল ক্যারেক্টার রিকগনিশন (ওসিআর) ব্যবহার করে ইমেজ আকারে থাকা ফাইলগুলোকে মেশিনে পড়ার মতো টেক্সটে রূপান্তর করে। সেগুলো ইংরেজিতে অনুবাদ করে এবং ফলাফলগুলো ডেটাবেসে সংরক্ষণ করে। রামানি ডেটাবেসের কমান্ড হাতে না লিখে, সাধারণ ভাষায় দেওয়া নির্দেশনা ব্যবহার করে এলএলএম দিয়ে এসকিউএল কুয়েরি তৈরি করেছেন।
এই বিশ্লেষণে কিছু গুরুত্বপূর্ণ ধরন সামনে আসে, যা আরও খতিয়ে দেখার প্রয়োজন রয়েছে। যেমন, বিহারের ক্ষেত্রে দেখা যায়—পুরুষদের তুলনায় বেশি সংখ্যক নারীর নাম ভোটার তালিকা থেকে বাদ পড়েছে। যদিও কাজের জন্য বাইরে যাওয়ার প্রবণতা বেশি পুরুষদেরই। এছাড়া, কিছু ভোটকেন্দ্রে দেখা গেছে, যাদের নাম বাদ দেওয়া হয়েছে তাদের বড় একটি অংশকে মৃত হিসেবে দেখানো হয়েছে, অথচ তাদের অনেকের বয়সই ৫০ বছরের নিচে।
ভারতের সুপ্রিম কোর্ট নির্বাচন কমিশনকে সম্পূর্ণ নাম বাদ দেওয়ার রেকর্ড প্রকাশের নির্দেশ দেওয়ার পর অনুসন্ধান আরও বিস্তৃত হয়। দ্য হিন্দু বাদ দেওয়া নাম ও তার কারণগুলো নিয়ে একটি অনুসন্ধানযোগ্য ডেটাবেস তৈরি করে এবং রাজ্যভিত্তিক আলাদা আলাদা অনুসন্ধানী প্রতিবেদন প্রকাশ করে।
রামানি বলেন, “এসব কোনো কৃত্রিম বুদ্ধিমত্তার সিদ্ধান্ত নয়।মূল আইডিয়াটা আমাদের। এর পেছনে রাজনীতি আর সমাজের ভূমিকা কী—সেটাও আমরাই ভালো বুঝতাম। কৃত্রিম বুদ্ধিমত্তা শুধু আমাদের বড় পরিসরের ডেটা প্রক্রিয়াকরণে সাহায্য করেছে।”
এই ফলাফলগুলো সংসদে ও আদালতেও আলোচিত হয়েছিল এবং বিহারে জনসমীক্ষা ও মাঠপর্যায়ের প্রতিবেদনের পর ভোটার তালিকায় কিছু সংশোধনও করা হয়েছিল।
কোড না লিখেই নির্বাচনী ইন্টারঅ্যাকটিভ মানচিত্র তৈরি
কৃত্রিম বুদ্ধিমত্তার ব্যবহার কেবল নথিপত্র প্রক্রিয়াকরণের মধ্যেই সীমাবদ্ধ ছিল না। ভারতের ২০১৯ এবং ২০২৪ সালের সাধারণ নির্বাচন—অর্থাৎ জাতীয় সংসদ নির্বাচনের জন্য—তাদের দলটি এমন কিছু ইন্টারঅ্যাক্টিভ ম্যাপ তৈরি করেছিল, যেখানে কোড লেখার প্রয়োজন হয়নি। এই ম্যাপের মাধ্যমে ব্যবহারকারীরা অঞ্চল, রাজ্য, গ্রাম ও শহরের শ্রেণিবিভাগ এবং ভৌগলিক বিন্যাস অনুযায়ী নির্বাচনের ফলাফল বাছাই করে দেখার সুযোগ পেয়েছিলেন।
এই অ্যাপ্লিকেশনটি তৈরিতে জাভাস্ক্রিপ্ট, এইচটিএমএল এবং ডি৩ (D3) ব্যবহার করা হয়, তবে রামানি নিজে কোনো কোড লেখেননি। তিনি বলেছেন, “আমি নিজে একটি লাইনও লিখিনি। চ্যাটজিপিটি, জেমিনি এবং ক্লডকে প্রম্পট দেওয়ার মাধ্যমে মাত্র দুই সপ্তাহে পুরো অ্যাপ্লিকেশনটি তৈরি করা হয়েছে।”
দলটি জনসমক্ষে উন্মুক্ত নির্বাচনের তথ্য সংগ্রহ করেছে এবং পুরো ইন্টারফেসটিকে কয়েকটি অংশে—যেমন ফিল্টার, ম্যাপ এবং লিস্ট ভিউ—ভাগ করেছে। এরপর প্রতিটি অংশের জন্য ব্যাখ্যামূলক কোড তৈরি করতে এআই মডেল ব্যবহার করেছে, যাতে পরবর্তীতে সেগুলো সহজেই যাচাই করা সম্ভব হয়।
ভারতের সাধারণ নির্বাচনে প্রায় ১০০ কোটি (এক বিলিয়ন) যোগ্য ভোটার অংশ নেন। এত বড় পরিসরে আসনভিত্তিক ফিল্টার করার মতো টুল তৈরি করা প্রযুক্তিগতভাবে বেশ কঠিন, বিশেষ করে নির্ধারিত সময়সীমার মধ্যে।
আগে এই ধরনের প্রকল্পের জন্য নিজস্ব ইঞ্জিনিয়ার বা বাইরের স্বেচ্ছাসেবকদের ওপর নির্ভর করতে হতো। এআই সময়কে কমিয়ে এনেছে। তিনি বলেন, ” সাংবাদিকতায় ডেডলাইন অত্যন্ত গুরুত্বপূর্ণ। এখন প্রযুক্তিগত সহায়তার জন্য অপেক্ষা করতে গিয়ে আমাদের আর সময়সীমা বাড়াতে হয় না।”
রাস্তাঘাটে গরমের মাত্রা পরিমাপ
সবগুলো প্রকল্পই যে কেবল ডিজিটাল ছিল, তা নয়। গ্রীষ্মকালে চেন্নাইয়ের তাপমাত্রা চরম আকার ধারন করে, সেখানে তাদের দলটি পরীক্ষা করে দেখেছিল বিভিন্ন শ্রমজীবী পেশার মানুষের ওপর এই তাপজনিত চাপের প্রভাবগুলো কীভাবে ভিন্ন ভিন্ন হয়।
এআই থেকে পাওয়া দিকনির্দেশনা ব্যবহার করে নিউজরুমটি কম খরচে আর্ডুইনো-ভিত্তিক ডিভাইস তৈরি করে, যা প্রতি ১০ সেকেন্ড অন্তর তাপমাত্রা ও আর্দ্রতা রেকর্ড করত। যন্ত্রাংশগুলো স্থানীয়ভাবে সংগ্রহ করা হয়, এবং পুরো প্রকল্পের খরচ ছিল ১৫০০ থেকে ২০০০ রুপি (প্রায় ১৮০ থেকে ২৪০ ডলার)।
রামানি বলেন, একজন বাবুর্চি, একজন জেলে, একজন শিল্প কারখানার শ্রমিক এবং একজন অটো-রিকশা চালকের কাছে আলাদা আলাদ চারটি ডিভাইস দেওয়া হয়। তারা ২৪ ঘণ্টা সময়জুড়ে এই ডেটা রেকর্ড করেন।

ছবি: স্ক্রিনশট, দ্য হিন্দু
হিট ইনডেক্স—যা তাপমাত্রা ও আর্দ্রতা মিলিয়ে নির্ধারণ করা হয়। এটি ছিল উল্লেখযোগ্যভাবে ভিন্ন এবং এক পর্যায়ে সর্বোচ্চ ৬৯ ডিগ্রি সেলসিয়াস (১৫৬.২ ফারেনহাইট) পর্যন্ত পৌঁছায়। সময়ের সঙ্গে এই ফলাফলগুলো ভিজ্যুয়াল আকারে উপস্থাপন করা হয়, যাতে ভিন্ন ভিন্ন অবস্থায় তাপের প্রভাবের পার্থক্য স্পষ্টভাবে দেখা যায়।
প্রতিবেদন প্রকাশের পর তামিলনাড়ু সরকার একটি তাপ ব্যবস্থাপনা পরিকল্পনা ঘোষণা করেন এবং এ ধরনের ডিভাইস ব্যবহার করে আরও গবেষণার উদ্যোগ নেন।
রামানি এই প্রকল্পটিকে হার্ডওয়্যারভিত্তিক পরীক্ষা-নিরীক্ষা ও ডেটা স্টোরিটেলিংয়ের সমন্বয়ের একটি উদাহরণ হিসেবে উল্লেখ করেন, যেখানে নকশা তৈরি ও সমস্যা সমাধানে এআই সহায়তা করেছে।
কাজের ধারাবাহিকতায় এআই, নিয়ন্ত্রণে মানুষ
রামানি জোর দিয়ে বলেন, এআই টুলগুলো ডেটা জার্নালিজমের একটি সুপ্রতিষ্ঠিত কার্যপ্রণালীর সঙ্গেই খাপ খাইয়ে নেওয়া হয়েছে। এই ধাপগুলো হলো: হাইপোথিসিস বা ধারণা তৈরি করা, তথ্য সংগ্রহ (স্ক্র্যাপিং, সরকারি নথির আবেদন বা কাঠামোগত উৎস থেকে তথ্য নেওয়া), তথ্য পরিমার্জন ও বিন্যাস, বিশ্লেষণ, ভিজ্যুয়ালাইজেশন বা চিত্রায়ন এবং শেষমেশ প্রকাশনা।
তিনি তার দলের কাজকে পাঁচ ভাগে ভাগ করেছেন: সাধারণ প্রবণতা বিশ্লেষণ, পারস্পরিক সম্পর্ক বিষয়ক গবেষণা, ফ্যাক্টর অ্যানালাইসিস বা প্রভাবক বিশ্লেষণ, কারণ অনুসন্ধান এবং গভীর অনুসন্ধানী জবাবদিহিমূলক প্রতিবেদন।
কৃত্রিম বুদ্ধিমত্তা এখন একাধিক ধাপে সহায়তা করছে: ওয়েব-স্ক্র্যাপিং স্ক্রিপ্ট তৈরি, অসংগঠিত নথিপত্র প্রক্রিয়াকরণ, ডেটাবেস কুয়েরি বা অনুসন্ধানের পরামর্শ দেওয়া এবং ফ্রন্ট-এন্ড ইন্টারফেস তৈরি করা।
তবে তার মতে, মানুষের তদারকি বা নিয়ন্ত্রণ এখনো এই পুরো প্রক্রিয়ার মূলে রয়েছে।
একটি ক্ষেত্রে যেমন দেখা যায়, এআই ব্যবহার করে কাজের যে নির্দেশনা দেওয়া হয়েছিল, সে অনুসারে নথিগুলোকে ধাপে ধাপে একটি একটি করে প্রক্রিয়া করা হচ্ছে। ফলে পুরো বিশ্লেষণ ধীর হয়ে যায়। পরে একজন প্রযুক্তিবিদ একসঙ্গে একাধিক ডকুমেন্ট প্রক্রিয়া করার পদ্ধতি ব্যবহারের পরামর্শ দেন—যাকে মাল্টি-থ্রেডিং বা সমান্তরাল প্রক্রিয়াকরণ বলা হয়। এরপর সেইভাবে প্রম্পট দেওয়ার পর মডেলটি আরও দ্রুত ও কার্যকর একটি নতুন সংস্করণ তৈরি করে।
রামানি বলেন, “কোন বিষয়টিকে আরও উন্নত বা অপ্টিমাইজ করতে হবে, সেটি এআই-কে বলে দেওয়ার জন্য মানুষের অন্তর্দৃষ্টি বা বুদ্ধিবৃত্তিক অভিজ্ঞতার প্রয়োজন।”
তিনি সতর্ক করে বলেন, সম্পাদকীয় সিদ্ধান্তে পৌঁছানোর জন্য এআই ব্যবহার করা উচিত নয়। তবে তার মতে, কাঠামোবদ্ধ কাজগুলো যেমন ডেটা বের করা বা কোড তৈরি করার ক্ষেত্রে ভুল তথ্য (হ্যালুসিনেশন) দেওয়ার ঝুঁকি তুলনামূলকভাবে কম, কারণ এসব আউটপুট সরাসরি পরীক্ষা করে যাচাই করা যায়।
গ্রাফিক্স থেকে অনুসন্ধানী সাংবাদিকতায়
রামানি দ্য হিন্দুর ডেটা সাংবাদিকতার গত এক দশকের বিবর্তন তুলে ধরেন। শুরুতে এটি ছিল মূলধারার প্রতিবেদনের সঙ্গে যুক্ত একটি ভিজ্যুয়াল সংযোজন মাত্র। পরে ধীরে ধীরে এটি একটি আলাদা কার্যক্রমে পরিণত হয়, যেখানে ডেটা সাংবাদিক, ডিজাইনার এবং সম্পাদকীয় কোডাররা একসঙ্গে কাজ করে অ্যাপ্লিকেশন ও অনুসন্ধানী প্রতিবেদন তৈরি করছেন।
রামানি গত এক দশকে দ্য হিন্দুর ডেটা সাংবাদিকতার পরিবর্তন বা ক্রমবিকাশের চিত্র তুলে ধরেছেন। শুরুতে এটি ছিল প্রথাগত সাংবাদিকতার সঙ্গে যুক্ত কেবল কিছু ভিজ্যুয়াল সংযোজন (যেমন গ্রাফ বা চার্ট), যা এখন একটি পূর্ণাঙ্গ ও স্বতন্ত্র বিভাগে পরিণত হয়েছে। বর্তমানে ডেটা সাংবাদিক, ডিজাইনার এবং এডিটোরিয়াল কোডাররা (যারা কোডিং বা প্রোগ্রামিং ভাষা ব্যবহার করতে পারদর্শী) মিলে বিভিন্ন অ্যাপ্লিকেশন তৈরি করছেন এবং গভীর অনুসন্ধানী প্রতিবেদন পরিচালনা করছেন।
তাদের প্রধান প্রকল্পগুলোর মধ্যে অন্যতম ছিল কোভিড-১৯ মহামারির সময় অতিরিক্ত মৃত্যুর সংখ্যা বিশ্লেষণ। সিভিল রেজিস্ট্রেশন ডেটা বা জন্ম-মৃত্যু নিবন্ধনের তথ্য ব্যবহার করে নিউজরুমটি আনুমানিক হিসাব করে দেখেছে, কোভিডে মৃত্যুর সরকারি হিসাব প্রকৃত সংখ্যার চেয়ে প্রায় পাঁচ থেকে ছয় গুণ কম দেখানো হয়েছে।
এই ফলাফল তখন বিতর্কিত ছিল। পরবর্তীতে বিশ্ব স্বাস্থ্য সংস্থা (ডব্লিউএইচও)–এর বিশ্লেষণ এবং সরকারি তথ্য সংশোধন মূলত উল্লেখযোগ্যভাবে কম গণনার ইঙ্গিত দেয়।
“ডেটা-চালিত রিপোর্টিং বর্তমানে কেবল একটি বিশেষায়িত ইউনিটের মধ্যে সীমাবদ্ধ না থেকে বরং প্রিন্ট এবং ডিজিটাল—উভয় মাধ্যমের কাজের ধারায় একীভূত হয়ে গেছে। এসব অনুসন্ধানী প্রতিবেদন অনেক সময় প্রিমিয়াম স্টোরি হিসেবে প্রকাশ করা হয়,” বলেন রামানি। তিনি আরও যোগ করেন, এই ধরনের কাজের ফলে নিউজরুমে সাবস্ক্রিপশন এবং পাঠক সম্পৃক্ততা—দুটিই বেড়েছে।
“আমরা চাই আরও তথ্যসমৃদ্ধ পাঠকগোষ্ঠী। এ ধরনের কাজ আমাদের সেই দিকেই এগিয়ে নিতে সাহায্য করে। বিভিন্ন প্রকল্পে এআই সাংবাদিকসুলভ বিচার-বিবেচনার বিকল্প হয়ে দাঁড়ায়নি; বরং এটি কাজ করার পরিধিকে বহুগুণ বাড়িয়ে দিয়েছে।” — শ্রীনিবাসন রামানি।
নিবন্ধটি ওয়ার্ল্ড অ্যাসোসিয়েশন অব নিউজ পাবলিশার্সে (ডব্লিউএএন-আইএফআরএ) প্রকাশিত হয়। তাদের অনুমতি নিয়ে এখানে পুনর্মুদ্রিত হয়েছে।
নেহা গুপ্তা ডব্লিউএএন-আইএফআরএ’র গবেষণা সম্পাদক। এখানে তিনি সাংবাদিকতার ধারাগুলো বিশ্লেষণ করেন এবং সাংবাদিকতার ব্যবসায়িক ও প্রযুক্তিগত উন্নয়ন সম্পর্কে প্রতিবেদন তৈরি করেন।