প্রবেশগম্যতা সেটিংস

AI deepfake detection tools
AI deepfake detection tools

Image: Shutterstock

লেখাপত্র

বিষয়

ডিপফেক: কখন এআই টুল দিয়ে চেনা যায় — কখন যায় না

আর্টিকেলটি পড়ুন এই ভাষায়:

জেনারেটিভ এআই প্রযুক্তিতে যত অগ্রগতি হচ্ছে সিন্থেটিক মিডিয়াও ততটাই দেখতে বাস্তবের মতো হয়ে উঠছে। এ ধরনের কনটেন্টগুলোর মধ্যে কিছু কিছু দেখেই বোঝা যায় যে সেগুলো কৃত্রিম বুদ্ধিমত্তার সাহায্যে তৈরি বা বিকৃত করা হয়েছে। তবে এখন আমরা যাদেরকে বাস্তবের কাছাকাছি মনে করছি, সেগুলো আসলে নিম্নমানের। প্রযুক্তির উৎকর্ষতার জের ধরে পরবর্তীতে এগুলো আরো নিখুঁত ও বাস্তবসম্মত মনে হবে বলে আমরা ধরে নিতে পারি।

আমরা উইটনেসে কাজ করি, যা এআই ভিত্তিক নির্মাণে স্বচ্ছতা আনার মাধ্যমে তথ্য ব্যবস্থায় ক্রমবর্ধমান বিভ্রান্তি ও আস্থার অভাবকে কমাতে চেষ্টা করছে। তবে কৃত্রিম বুদ্ধিমত্তার ব্যবহার, সহনশীলতা, আন্তঃপরিচালন (ইন্টার অপারেবিলিটি) সক্ষমতার মত বিষয় নিয়ে যেসব সমস্যা আছে, তার সমাধানে দৃশ্যমান ও অদৃশ্য ওয়াটারমার্কিং, ডিজিটাল ফিঙ্গারপ্রিন্টিং, লেবেলিং এবং এমবেডেড মেটাডেটার মতো উন্মুক্ত কৌশলগুলোর আরও পরিমার্জন প্রয়োজন। উৎস ও যথার্থতা যাচাইয়ের যেসব পদ্ধতি আছে, তাদের সামাজিক-প্রযুক্তিগত দিকগুলো নিয়েও অনেক কাজ করেছে উইটনেস, যা আসল কনটেন্ট শনাক্ত করতে সাহায্য করতে পারে। আরো জানতে, এই প্রতিবেদন বা নিবন্ধগুলো এখানে এবং এখানে দেখুন।

কোনটি আসল তা নির্ধারণের একটি সম্পূরক পদ্ধতি হলো কোনটি নকল তা চিহ্নিত করা। সহজ দৃশ্যমান সংকেত, যেমন অস্বাভাবিক হাতের বৈশিষ্ট্য বা ডিপফেক ভিডিওতে অস্বাভাবিক ব্লিঙ্কিং (চোখ পিট পিট করা) প্যাটার্নগুলো চোখ ধাঁধানো উন্নত প্রযুক্তির বিপরীতে দ্রুতই অকার্যকর বলে গণ্য হচ্ছে। এর ফলে এমন এআই শনাক্তকরণ টুলের চাহিদা বাড়ছে, যা বাইরের কারো বা কোনো তথ্যের সাহায্য ছাড়াই এআই দিয়ে নির্মিত বা পরিবর্তিত যে কোনো অডিও বা ভিজ্যুয়াল কনটেন্ট চিনতে পারে।

এআইয়ের সাহায্যে তৈরি বা সম্পাদনা করা হয়নি এমন কনটেন্টকে বোঝাতে এ নিবন্ধে আমরা “বাস্তব” শব্দটি ব্যবহার করেছি, যদিও পরিভাষা হিসেবে এটি শতভাগ নিখুঁত নয়। তবে লক্ষ্য করা গুরুত্বপূর্ণ যে, বাস্তব এবং সিন্থেটিক (কৃত্রিম) এর মধ্যকার পার্থক্যগুলো ক্রমশ অস্পষ্ট হয়ে উঠেছে। কারণ অত্যাধুনিক অনেক ক্যামেরাতে এখন স্বয়ংক্রিয়ভাবে এআই ব্যবহার করা হয়, যা আলো ও ফ্রেমের মধ্যে সমন্বয় করতে সক্ষম। আইফোনে যেমন পোর্ট্রেট মোড, স্মার্ট এইচডিআর, ডিপ ফিউশন এবং নাইট মোড ফিচারে ছবির গুণগতমান উন্নত করতে এআই ব্যবহার করা হয়। অ্যান্ড্রয়েডে, এর পাশাপাশি, বিকল্প অনেক ফিচার ব্যবহার করা হয় যা আলাদা এডিটিং সফ্টওয়্যার ছাড়াই ক্যামেরার এআই অ্যালগরিদম ব্যবহার করে সরাসরি ছবি বা ভিডিও সম্পাদনার সুযোগ করে দেয়।

বিনামূল্যে বা কম খরচে যেসব শনাক্তকরণ টুল পাওয়া যায়, সেগুলো দিয়ে একটি কনটেন্টকে কীভাবে যাচাই ও চিহ্নিত করা যায় সে সম্পর্কিত প্রাথমিক ধারণা দেওয়াই এ লেখার উদ্দেশ্য। অপটিক, হাইভ মডারেশন, ভি সেভেন, ইনভিড, ডিপওয়্যার স্ক্যানার, ইলুমিনার্টি, ডিপআইডি এবং ওপেন-সোর্স এআই ইমেজ ডিটেক্টরের মতো অনলাইন শনাক্তকরণ টুল ঠিক কোথায় কোথায় সীমাবদ্ধতার মুখোমুখি হতে পারে, এবং এগুলো ব্যবহারের সিদ্ধান্ত নেওয়ার সময় কোন বিষয়গুলো বিবেচনা করা উচিত, তা-ই আমরা এখানে আলোচনা করেছি। ২০২৪ সালের ফেব্রুয়ারিতে এসব টুল নিয়ে আমাদের করা গবেষণার ফলাফলই এই আলোচনার ভিত্তি।

জেনে রাখা ভালো, জেনারেটিভ প্রযুক্তির মতো শনাক্তকরণ মডেলগুলোও ক্রমেই উন্নত হচ্ছে। তাই, একটি টুলের কর্মক্ষমতা সময়ের সঙ্গে সঙ্গে পরিবর্তিত হতে পারে: কোনো পর্যায়ে হয়তো একটি নির্দিষ্ট ধরনের বিকৃতি সঠিকভাবে চিনতে হিমশিম খেতে পারে, তবে উন্নত হওয়ার সঙ্গে সঙ্গে টুলগুলো হয়তো অন্য ধরনের বিকৃতি শনাক্তকরণে আরো পারদর্শী হয়ে উঠতে পারে। এই পরিবর্তনশীলতাই বলে দেয়, সিন্থেটিক মিডিয়া শনাক্তকরণের টুল নিয়ে যত চ্যালেঞ্জ আছে এবং সর্বশেষ যে অগ্রগতি হয়েছে, তা জানা কতটা জরুরী।

ফলাফলগুলো কতটা বোধগম্য?

এআই শনাক্তকরণ টুলগুলো যে তথ্যের ওপর নির্ভর করে, তার ভিত্তিতেই ফলাফল দেখায়। অবশ্য এটি সহজেই ব্যবহারকারীদের বিভ্রান্ত করতে পারে। যাচাই প্রক্রিয়ার শুরু হিসেবে কম্পিউটেশনাল শনাক্তকরণ টুলগুলো দারুন। তবে এর সঙ্গে অন্যান্য ওপেন সোর্স কৌশল বা ওসিন্টেরও ব্যবহার থাকতে হবে। এই প্রক্রিয়ায় রিভার্স ইমেজ সার্চ, ভৌগলিক অবস্থান বা ছায়া বিশ্লেষণসহ আরো অনেক টুল অন্তর্ভুক্ত হতে পারে।

যাই হোক, মনে রাখবেন, শনাক্তকরণ টুলগুলোকে ওয়ান স্টপ সলিউশন হিসেবে বিবেচনা করা উচিত নয় এবং অবশ্যই সতর্কতার সঙ্গে ব্যবহার করা উচিত। আমরা দেখেছি যে, সবার জন্য উন্মুক্ত সফ্টওয়্যারগুলো কীভাবে বিভ্রান্তির দিকে নিয়ে যায়, বিশেষ করে যখন ফলাফল ব্যাখ্যার যথাযথ দক্ষতা ছাড়াই এগুলো ব্যবহার করা হয়। তারপরও এআই শনাক্তকরণ টুলগুলো যখন এআইয়ের সাহায্যে তৈরি নকল আধেয় শনাক্ত করতে সক্ষম হয় না তখন এর অর্থ এই নয় যে আধেয়টি সিন্থেটিক নয়। এমনকি ভিডিওর কোনো অংশ যদি সিন্থেটিক নাও হয়, ফ্রেমের বিষয়বস্তুটি সেক্ষেত্রে বাস্তবে ধারণকৃত কোনো দৃশ্য বা মঞ্চস্থও করা হতে পারে।

এআই শনাক্তকরণ টুল প্রদত্ত বেশিরভাগ ফলাফলগুলোই কনফিডেন্স ইন্টারভেল বা আস্থা ব্যবধান পদ্ধতি (এ নমুনা পদ্ধতিতে ফলাফলের অনিশ্চয়তা বা নিশ্চিততার মাত্রা পরিমাপ করে) এবং সম্ভাব্যতা নির্ধারণ পদ্ধতি (যেমন ৮৫ শতাংশ মানবীয়), যেখানে অন্যরা শুধুমাত্র একটি বাইনারি “হ্যাঁ/না” ফলাফল প্রদান করে। শনাক্তকরণ মডেল সম্পর্কে পুরোপুরি না জেনে এ ফলাফলগুলো ব্যাখ্যা করাটা চ্যালেঞ্জিং হতে পারে। যেমন এটি কী ধরনের বিষয়বস্তু শনাক্তকরণে প্রশিক্ষিত, প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটে কী ছিল এবং এটি কখন আপডেট করা হয়েছে – ফলাফল ব্যাখ্যার জন্য এসব তথ্য জানা জরুরী। দুর্ভাগ্যবশত, বেশিরভাগ অনলাইন শনাক্তকরণ টুলে, এর বিবর্তন সম্পর্কে পর্যাপ্ত তথ্য থাকে না, যা টুলগুলোর ফলাফল মূল্যায়ন এবং প্রাপ্ত ফলাফলগুলোকে বিশ্বাস করা কঠিন করে তোলে।

টুলগুলো কতটা নির্ভুল?

এআই শনাক্তকরণ টুলগুলো কম্পিউটেশনাল এবং ডেটা-চালিত প্রক্রিয়া। এ টুলগুলোকে নির্দিষ্ট ডেটাসেট ব্যবহার করার জন্য দিকনির্দেশনা দেওয়া হয়, যার মধ্যে রয়েছে যাচাইকৃত ও সিন্থেটিক কনটেন্টের তুলনা এবং কনটেন্টটি বাস্তব নাকি এআইয়ের বিভিন্ন পদ্ধতি ব্যবহার করে তৈরি তা নির্ধারণ করা। একটি টুলের নির্ভুলতা নির্ভর করে গুণগতমান, পরিমাণ এবং কী ধরনের ডেটা দেওয়া হয়েছে এবং অ্যালগরিদমিক ফাংশনগুলোর কীভাবে নকশা করা হয়েছে তার ওপর। উদাহরণস্বরূপ, কোনো শনাক্তকরণ মডেল এআই ব্যবহার করে তৈরি স্থির চিত্র চিহ্নিত করতে সক্ষম হতে পারে, আবার মানুষের মুখ অদলবদল করে তৈরি ডিপফেক ভিডিও শনাক্ত করতে সক্ষম নাও হতে পারে।

একইভাবে, পাবলিক ফিগার এবং রাজনীতিবিদদের ডেটাসেট ব্যবহার করে তৈরি একটি মডেল ইউক্রেনের রাষ্ট্রপতি ভলোদিমির জেলেনস্কির ডিপফেক শনাক্ত করতে সক্ষম হতে পারে, তবে একজন সাংবাদিক— যিনি পাবলিক ফিগারদের মতো অনলাইনে খুব বেশি পরিচিত নন, তার ক্ষেত্রে খুব বেশি কার্যকর ফলাফল প্রদানে সক্ষম নাও হতে পারে।

তবে ব্যাকগ্রাউন্ডের শব্দ বা ওভারল্যাপিং কথোপকথনের কারণে অডিও কনটেন্ট শনাক্তকরণ খুব একটা নির্ভুল নাও হতে পারে, বিশেষ করে টুলটিকে যদি শুধুমাত্র পরিচ্ছন্ন ও স্বচ্ছ অডিও নমুনা দিয়ে দিকনির্দেশনা প্রদান করা হয়ে থাকে।

A screenshot of Putin’s deepfake was detected as likely to be real, using a detection tool trained for detecting AI images but not for spotting deepfake videos created by swapping people’s faces.

পুতিনের ডিপফেকের একটি স্ক্রিনশট “সম্ভবত আসল” বলে শনাক্ত করা হয়েছিল। এখানে যে শনাক্তকরণ টুলটি ব্যবহার করা হয় তা এআই দিয়ে তৈরি স্থিরচিত্র শনাক্ত করার জন্য প্রশিক্ষিত ছিল, কিন্তু মানুষের মুখ অদলবদল করে তৈরি ডিপফেক ভিডিও চিনতে সক্ষম ছিল না। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

আমরা একটি শনাক্তকরণ প্লাগইন পরীক্ষা করে দেখেছি, যেটি জেনারেটিভ অ্যাডভার্সারিয়াল নেটওয়ার্কের (জিএএন) নকল প্রোফাইল ছবি শনাক্ত করার জন্য নকশা করা, যেমনটা দেখা যায় দিস পারসন ডাজ নট এক্সিট প্রকল্পে। জিএএন উচ্চ-মানসম্পন্ন, ডোমেইন-নির্ভর আউটপুট, বাস্তবের মতো দেখতে মুখমন্ডল তৈরি, ডিফিউশন মডেল (প্রদত্ত ডেটার ওপর ভিত্তি করে তৈরি মডেল) তৈরিতে বিশেষভাবে সক্ষম। যেমন প্রাণবন্ত মুখমন্ডল, যা জটিল গঠনবিন্যাস এবং দৃশ্য তৈরিতে পারদর্শী। ডিফিউশন মডেলগুলো বর্তমানে আলোচিত টুল যেমন, ডাল-ই, মিডজার্নি এবং স্টেবল ডিফিউশনে সংযুক্ত করা হয়েছে।

জিএএন প্রযুক্তির সাহায্যে তৈরি সিন্থেটিক মিডিয়া চিহ্নিত করার জন্য যেসব শনাক্তকরণ টুল বানানো হয়েছে, সেগুলো ডিফিউশন মডেল দিয়ে তৈরি বা পরিবর্তিত কনটেন্টের ক্ষেত্রে তেমন ভাল কাজ করে না। পরীক্ষা করে মনে হয়েছে, প্লাগইনটি জিএএন দিয়ে তৈরি কনটেন্ট শনাক্তের ক্ষেত্রে বেশ ভাল কাজ করেছে, সম্ভবত ছবির কেন্দ্রে চোখের উপস্থিতির মতো ফেসিয়াল বৈশিষ্ট্যের কারণে।

An AI image made with Midjourney was detected to “likely be a real person”.

মিডজার্নি দিয়ে তৈরি একটি এআই চিত্র “সম্ভবত আসল ব্যক্তি” বলে শনাক্ত করা হয়। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

এআই ব্যবহার করে তৈরি করা হয়েছে কিনা তা নির্ধারণের একটি বিকল্প পদ্ধতি হলো ক্লাসিফায়ার দিয়ে দেখা। ইলেভেনল্যাবস-এর মতো কিছু কোম্পানি এটি সবার জন্য উন্মুক্ত করে রেখেছে। এদের ক্লাসিফায়ার শনাক্ত করে দেয় যে তাদের টুলগুলো ব্যবহার করে নির্দিষ্ট কনটেন্টটি তৈরি করা হয়েছে কিনা। এর মানে হলো ক্লাসিফায়ারগুলো নির্দিষ্ট কোম্পানির, এবং কনটেন্ট তৈরিতে ওই কোম্পানির টুল ব্যবহার করা হয়েছিল কিনা তা সংকেত দেওয়ার উপযোগী। এটি গুরুত্বপূর্ণ, কারণ নেতিবাচক ফলাফল থেকে আমরা বুঝতে পারি যে, কনটেন্ট তৈরিতে নির্দিষ্ট টুল ব্যবহার করা হয়নি, তবে এটি অন্য এআই টুল দ্বারা তৈরি বা সম্পাদনা করা হতে পারে।

এই ক্লাসিফায়ারেরও সমস্যা আছে। যেমন, একটি অডিও ক্লিপে সঙ্গীত যোগ করা হলে তা ক্লাসিফারায়কে বিভ্রান্ত করতে পারে এবং এআই টুল থেকে তৈরি কনটেন্ট চিহ্নিত করার সম্ভাবনা কমিয়ে দিতে পারে। যদিও এই মুহুর্তে কোনো কোম্পানি স্থিরচিত্র শনাক্তের জন্য উন্মুক্ত ক্লাসিফায়ার ব্যবহারের সুবিধা দিচ্ছে না।

একটি শনাক্তকরণ টুলকে কিভাবে বোকা বানাবেন?

একটি বিষয় মনে রাখা গুরুত্বপূর্ণ যে এআই ব্যবহার করে তৈরি বা সম্পাদিত কনটেন্ট শনাক্ত করার জন্য নির্মিত টুলগুলো সব এআই ম্যানিপুলেশন বা বিকৃতিকে শনাক্ত করতে পারে না।

কনটেন্ট সম্পাদনা: ২০২৩ সালের মে মাসে, পেন্টাগনে বিস্ফোরণের একটি চিত্র ভাইরাল হয়েছিল। যদিও দ্রুত বিষয়টি চিহ্নিত করা হয়, তবে ছবিটি সংক্ষিপ্ত পরিসরে আতঙ্ক ছড়ানোর পাশাপাশি শেয়ার বাজারকে প্রভাবিত করতে সক্ষম হয়েছিল। নিউজ চ্যানেলগুলোও ঘটনাটি তুলে ধরে, এটিকে বাস্তব ঘটনা হিসেবে প্রতিবেদন করে।

ছবির ডানদিকে ক্রপিং এবং স্কেল করার পরে শনাক্তকরণ টুলগুলো কনটেন্টটিকে বাস্তব বলে চিহ্নিত করে, তবে এআই ইমেজ ডিটেকশন টুল ছবিটিকে এআই-জেনারেটেড হিসেবে শনাক্ত করতে সক্ষম হয়। প্রেসিডেন্ট ওবামার বিখ্যাত ডিপফেকগুলোর মধ্যে একটি নিয়ে একই রকম পরীক্ষা করা হয়েছে। ছবির রেজ্যুলুশন কমানো এবং ক্লিপটির কিছু অংশ সম্পাদনা করার পরে, ফলাফলে আসে যে ছবিতে “কোন ডিপফেক শনাক্ত হয়নি”।

 At the top: the image that was shared on social media. At the bottom: a cut out of the same image, with the bottom right of the original image cropped and scaled.

উপরে: ছবিটি সোশ্যাল মিডিয়াতে শেয়ার করা হয়েছে — এবং এআই ব্যবহার করে তৈরি বলে চিহ্নিত করা হয়েছে। নীচে: একই চিত্রের একটি কাট-আউট, মূল চিত্রের নীচের ডানদিকে ক্রপ করা এবং স্কেল করা, যা ক্লাসিফায়ার টুলকে বোকা বানিয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

 When we lowered the resolution and edited out the end of the video clip of President Obama’s deepfake, it was detected as “not a deepfake”.

আমরা রেজ্যুলুশনটি কমানো এবং সম্পাদনার মধ্যেমে প্রেসিডেন্ট ওবামার ডিপফেক ভিডিওটির শেষ অংশ ছাঁটাই করার পর এটিকে “ডিপফেক নয়” হিসেবে চিহ্নিত করা হয়েছিল। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

অনলাইন শনাক্তকরণ টুলগুলো একটি ফাইলের সংকুচিত সংস্করণের ক্ষেত্রে ভুল ফলাফল দিতে পারে। এটি ইচ্ছাকৃত নাও হতে পারে। যেমন, সামাজিক মাধ্যম প্ল্যাটফর্মগুলো একটি ফাইলকে সংকুচিত করতে পারে এবং আপলোডের সময় নির্দিষ্ট মেটাডেটা মুছে ফেলতে পারে।

এমনকি ট্রেনিং সেটে (মেশিন লার্নিং মডেলের প্রশিক্ষণ প্রক্রিয়ায় ব্যবহার করা হয়) ক্রপ করা, ঝাপসা বা সংকুচিত উপাদান অন্তর্ভুক্ত থাকলেও সঙ্কোচন, কর্তন বা আকার পরিবর্তনের মাধ্যমে একটি ফাইলের গুণগতমান ও রেজ্যুলুশন বদলে ফেলা যায়, যা শনাক্তকরণ টুলগুলোকেও প্রভাবিত করতে পারে। এর আংশিক কারণ হিসেবে বলা যেতে পারে যে মেটাডেটার স্ট্রিপিং করা সবগুলো বিকল্পকে ট্রেনিং সেট ধারণ নাও করতে পারে।

ফলে, এ ধরনের অনুলিপিগুলো বিশ্লেষণ করার সময় শনাক্তকরণ টুলগুলো ভুল ফলাফলও দিতে পারে। একইভাবে, এআই ব্যবহার করে তৈরি অডিও ক্লিপের রেকর্ডিং ব্যবহার করার সময়, অডিওর গুণগতমান হ্রাস পায় এবং মূল এনকোড করা তথ্য হারিয়ে যায়। উদাহরণস্বরূপ, আমরা প্রেসিডেন্ট বাইডেনের এআই রোবোকল রেকর্ড ব্যবহার করেছি, একটি অডিও শনাক্তকরণ টুলের মাধ্যমে রেকর্ড করা অনুলিপি চালিয়েছি, যা এটিকে বাস্তব হওয়ার সম্ভাবনা বেশি বলে শনাক্ত করেছে।

At the top, a recording of President Biden’s robocall detected as “highly likely real”. By contrast, at the bottom screenshot shows the results with a downloaded version of the file, detected as 74% as “likely to be fake”.

উপরে, প্রেসিডেন্ট বাইডেনের রোবোকলের একটি রেকর্ডিংকে “খুব সম্ভব আসল” হিসেবে শনাক্ত করা হয়েছিল। বিপরীতে, নীচের স্ক্রিনশট ফাইলটির ডাউনলোড করা সংস্করণসহ ফলাফলে ৭৪ শতাংশ “নকল হওয়ার সম্ভাবনা” হিসেবে শনাক্ত করে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

একইভাবে, এআই ব্যবহার করে তৈরি ছবির স্ক্রিনশটে প্রকৃত ছবির মতো দৃশ্যমান এবং অদৃশ্য তথ্য থাকবে না। আমরা একটি পরিচিত ঘটনা থেকে স্ক্রিনশট নিয়েছি যেখানে পশ্চিম আফ্রিকায় সামরিক অভ্যুত্থানের কনটেন্টে এআই-অ্যাভাটার ব্যবহার করা হয়েছিল। এ স্ক্রিনশটগুলোর অর্ধেকেরও বেশি এআই দিয়ে তৈরি নয় হিসেবে চিহ্নিত করা হয়।

A screenshot with an AI avatar from one of the clips was detected as 70% human.

এর মধ্যে একটি ক্লিপ থেকে নেওয়া এআই অ্যাভাটারকে ৭০ শতাংশ মানবীয় ছবি হিসেবে শনাক্ত করা হয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

A screenshot with an AI avatar from one of the clips was marked with a 8.5% probability of being AI-generated.

আবার এর মধ্যে একটি ক্লিপ থেকে নেওয়া এআই অ্যাভাটারকে ৮ দশমিক ৫ শতাংশ মানবীয় ছবি হতে পারে বলে শনাক্ত করা হয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

এ টুলগুলো কী সব ধরনের এআই জেনারেশন এবং ম্যানিপুলেশন শনাক্ত করতে পারে?

সবার জন্য উন্মুক্ত এআই শনাক্তকরণ সফ্টওয়্যারগুলোকে এআই কৌশল ব্যবহার করে বোকা বানানো যেতে পারে। জেনে নিন, কীভাবে করবেন।

স্টাইল প্রম্পটিং: শনাক্তকরণ টুলগুলোতে প্রায়ই এমন ডেটাসেট ব্যবহার করা হয়, যা একটি নিয়ন্ত্রিত পরিবেশে তৈরি এবং এর কনটেন্টগুলো পরিচ্ছন্ন ও সংগঠিত। এটি শনাক্তকরণ মডেলকে প্রয়োজনীয় বৈশিষ্ট্যগুলো সঠিকভাবে চিহ্নিত এবং শনাক্ত করতে সাহায্য করে। তবে বাস্তবের ছবিগুলো ঝাপসা হতে পারে, ফোকাসের বাইরে থাকতে পারে, ভিডিওগুলো কাঁপাকাঁপা বা কাত হতে পারে এবং অডিওর মধ্যে অনেক শোরগোল থাকতে পারে। এটি শনাক্তকরণ টুলগুলোর জন্য বাস্তব জীবনের কনটেন্টকে নির্ভুলভাবে শনাক্ত এবং শ্রেণিবদ্ধ করাকে চ্যালেঞ্জিং করে তুলতে পারে।

ডিটেকশন টুলগুলোকে যদি উন্মুক্ত কনটেন্টের নকল সংস্করণ দিয়ে প্রশিক্ষণ দেওয়া হয়, তা ডিটেক্টরকে সহজেই বিভ্রান্ত করতে পারে।

উদাহরণস্বরূপ, আমরা এ ধরনের একটি টুলের চোখ এড়াতে পারি কিনা তা পরীক্ষা করার জন্য একটি কনটেন্টকে ঝাপসা ও সঙ্কুচিত করি। আমরা ওপেন এআইয়ে ডাল-ই টুর ভায়োলেন্ট সেটিং ব্যবহার করে একটি বাস্তব সহিংস চিত্র তৈরি করি। ছবিটি দেখে মনে হয় যে ঘটনা ঘটার সময় রাস্তার পাশে দাঁড়ানো কোনো একজন ব্যক্তি এটিকে ধারণ করেছে। আমরা ছবিটির রেজ্যুলুশন কমানো, ছবিটিকে অস্পষ্ট করা এবং মোশন ইফেক্ট যোগ করার জন্য ডাল-ই টুকে সুনির্দিষ্ট নির্দেশনা দেই। আমাদের মনে হয়েছে এ ধরনের সম্পাদনাগুলো শনাক্তকরণ টুলকে বিভ্রান্ত করে এবং ছবিটি এআই ব্যবহার করে তৈরি হয়েছে এমন সম্ভাবনা শনাক্তের মাত্রা কমিয়ে দেয়।

AI-generated image of a speculated attack in a subway station, generated by DALL-E 2, and detected as not likely to be AI-generated.

ডাল-ই টু দিয়ে তৈরি পাতাল রেল স্টেশনে সম্ভাব্য আক্রমণের এ ছবিটিকে এআই ব্যবহার করে তৈরি করা হয়নি বলে শনাক্ত করা হয়। রয়টার্স ইনস্টিটিউটের সৌজন্যে

AI-generated image of a fake explosion at the White House, generated by DALL-E 2, and detected with low confidence to be AI-generated.

ডাল-ই টু দিয়ে তৈরি করা ইউএস হোয়াইট হাউসে একটি নকল বিস্ফোরণের চিত্র। শনাক্তকরণ টুল যেটিকে এআই ব্যবহার করে তৈরি হওয়ার সম্ভাবনা কম বলে নির্দেশ করেছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

উন্নত সম্পাদনা: টেক্সট-টু-ইমেজ টুলগুলো সহজ সম্পাদনা কৌশলগুলোকে উন্মুক্ত করেছে। ছবিটি বাস্তব কিংবা এআই ব্যবহার করে তৈরি হলেও টুলগুলো ব্যবহারকারীদের ছবির ফ্রেমের মধ্যে বিষয়বস্তু সম্পাদনা বা ফ্রেমের বাইরে নতুন বিবরণ যোগ করতে দেয়। এগুলো যথাক্রমে “ইন-পেইন্টিং” এবং “আউট-পেইন্টিং” কৌশল হিসেবেও পরিচিত। এটি যখন বাস্তব চিত্রে প্রয়োগ করা হয়, তখন অনলাইন টুলগুলো এ ধরনের বিকৃতি শনাক্তে ব্যর্থ হয় বলে মনে হয়। এই ইন-পেইন্ট উদাহরণে, আমরা ডাল-ই টু টেক্সট-টু-ইমেজ এডিটিং ব্যবহার করে ইউক্রেনীয় উদ্বাস্তুদের একটি বাস্তব ছবিতে গাড়ির জায়গায় ট্যাঙ্ক বসিয়ে দেই। ট্যাঙ্ক সংযুক্ত নতুন ছবিটি “এআই-ব্যবহার করে তৈরি হওয়ার সম্ভাবনা নেই” বলে ফলাফলে বলা হয়।

In-painting example using a real image showing Ukrainian refugees, adding a tank with DALL-E 2. Original photograph by Peter Lazar/AFP/Getty Images.

ইউক্রেনীয় শরণার্থীদের দেখানো একটি বাস্তব চিত্র ব্যবহার করে ইন-পেইন্টিং উদাহরণ, ড্যাল-ই টু দিয়ে একটি ট্যাঙ্ক যোগ করা হয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে, পিটার লাজার/এএফপি/গেটি ইমেজেসের আসল ছবি।

The image with the in-painted tank was detected as “likely not to be AI-generated”.

ইন-পেইন্টেড ট্যাঙ্কের চিত্রটি “সম্ভবত এআই ব্যবহার করে তৈরি নয়” হিসেবে শনাক্ত করা হয়। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে। মূল ছবি পিটার লাজার/এএফপি/গেটি ইমেজ।

আউট-পেইন্টিংয়ের উদাহরণ হিসেবে, আমরা ইসরায়েল-হামাস যুদ্ধ থেকে একটি বাস্তব চিত্র বাছাই করি এবং ডাল-ই টু ব্যবহার করে অতিরিক্ত “ধোঁয়া” যোগ করি। ডাল-ই টুর ছবিতে ভবনগুলোকেও প্রসারিত করা হয়। ছবিটি বাস্তব চিত্র হিসেবে হিসেবে শনাক্ত করা হয়।

Outpaint example using a real image showing soldiers in the Gaza-Israel war. Original photograph by Reuters.

গাজা-ইসরায়েল যুদ্ধের সৈন্যদের বাস্তব চিত্র ব্যবহার করে তৈরি একটি আউটপেইন্ট উদাহরণ। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে, মূল ছবি রয়টার্স

Optic tool detecting the out-painted output as “likely human”.

এই টুলটি আউট-পেইন্ট করা ছবিটিকে “সম্ভবত মানুষের” বলে শনাক্ত করেছে।

এ অবস্থায় সাংবাদিক, ফ্যাক্টচেকার এবং গবেষকদের করণীয় কী?

উল্লিখিত বিষয়গুলো যদিও অনলাইন এআই শনাক্তকরণ টুলের কিছু সীমাবদ্ধতা চিহ্নিত করে, তবুও যাচাইকরণ প্রক্রিয়া বা একটি অনুসন্ধানী পদ্ধতির অংশ হিসেবে এগুলো একটি মূল্যবান সম্পদ হতে পারে, যতক্ষণ পর্যন্ত ভেবেচিন্তে এর ব্যবহার করা হয়।

এগুলোকে তাই সমালোচনামূলক দৃষ্টিকোণ থেকে দেখাটা অপরিহার্য। আমাদের বুঝতে হবে যে টুলগুলোর কার্যকরিতা মূলত ডেটা ও অ্যালগরিদমের ওপর নির্ভরশীল। তাছাড়া এটি মনে রাখা গুরুত্বপূর্ণ যে, অডিও কনটেন্ট বাদ দিয়ে, আমরা অনলাইনে যে ফুটেজগুলো দেখি তার বেশিরভাগই ভুল-প্রসঙ্গিক উপাদান (ভুল তারিখ, সময় বা অবস্থান) ব্যবহার করে অথবা কয়েক বছর ধরে চলে আসা ভিডিওকে সফ্টওয়্যার দিয়ে সম্পাদনার মাধ্যমে তৈরি করা হয়েছে।

অডিওভিজ্যুয়াল জেনারেটিভ এআইয়ের সবচেয়ে বড় হুমকিটি হচ্ছে এটি এমন পরিস্থিতি তৈরি করেছে যেখানে যুক্তিসঙ্গতভাবে বিশ্বাসযোগ্য কনটেন্টকেও অস্বীকার করা এবং ডিপফেক বলে দাবি করা যায়।

শনাক্তকরণ টুলগুলো অবশ্যই সতর্কতা এবং সন্দেহ নিয়ে ব্যবহার করা উচিত। কীভাবে একটি টুল তৈরি করা হয়েছিল তা গবেষণা করা এবং বোঝার জন্য যা সবসময় গুরুত্বপূর্ণ, যদিও এই তথ্যগুলো পাওয়া কঠিন হতে পারে।

প্রযুক্তির অগ্রগতির সঙ্গে পুরানো কার্যকর অ্যালগরিদমগুলো তাদের কার্যকরিতা হারাতে শুরু করে। তাই এগিয়ে থাকার জন্য ক্রমাগত উদ্ভাবন এবং অভিযোজন প্রয়োজন। কোনো একটি শনাক্তকরণ পদ্ধতি পুরানো হওয়ায় সঙ্গে সঙ্গেই, সিন্থেটিক মিডিয়ার সাম্প্রতিক অগ্রগতিগুলোকে প্রতিরোধ করার জন্য নতুন, আরও পরিশীলিত কৌশলের বিকাশ ঘটানো জরুরি। সিন্থেটিক মিডিয়ার সৃষ্ট হুমকির বিরুদ্ধে লড়াই ক্রমশ ব্যাপক ও ঘনীভূত হয়ে উঠছে, তাই যারা যাচাই করেন তাদের অবশ্যই সিন্থেটিক মিডিয়া তৈরিতে ব্যবহৃত কৌশল এবং তা শনাক্তকরণ পদ্ধতি সম্পর্কেই অবগত থাকতে হবে।

এটাও বিবেচনা করা গুরুত্বপূর্ণ যে ফোন ক্যামেরা থেকে সোশ্যাল মিডিয়া অ্যাপস পর্যন্ত সব ধরনের সফটওয়্যার জুড়ে এআই প্রযুক্তির ব্যবহার বাড়ছে। স্থিতিশীল ক্যামেরা ও ফিল্টার থেকে শুরু করে ফ্রেম থেকে অবাঞ্ছিত বস্তু ও বিষয় মুছে ফেলা পর্যন্ত নানা বিষয় এর মধ্যে রয়েছে।

এআই হয়তো নতুন কনটেন্ট তৈরি নাও করতে পারে, তবে কোনো নির্দিষ্ট অঞ্চল কিংবা সময়কে প্রভাবিত করতে এটি প্রয়োগ করা যেতে পারে। জটিল ও বড় ধরনের বিকৃতিগুলো শনাক্তকরণের চ্যালেঞ্জকে বাড়িয়ে তোলে। নতুন টুল, সংস্করণ এবং ফিচারগুলো ক্রমাগত উন্নত হচ্ছে। ফলে শনাক্তকরণ টুলগুলো কতটা কার্যকর এবং কতটা দ্রুত এগুলোকে হালনাগাদ ও রক্ষণাবেক্ষণ করা হয় তা নিয়ে প্রশ্ন উঠছে।

এক্ষেত্রে নিরাপত্তা এবং নৈতিক বিবেচনাও গুরুত্বপূর্ণ। অনলাইন প্ল্যাটফর্মগুলোর বিশ্লেষণ করা কনটেন্ট সংরক্ষণ, ব্যবহার সম্পর্কিত গোপনীয়তা এবং সুরক্ষা ঝুঁকি বিষয়ক অনিশ্চয়তা বিবেচনা করা অত্যাবশ্যক। বিশেষ করে প্রকৃত ব্যক্তিদের গোপনীয়তা এবং সুরক্ষাকে প্রভাবিত করতে পারে এ ধরনের ছবি, অডিও বা ভিডিও নিয়ে কাজ করার সময়।

এই বিবেচনার আলোকে, ফলাফল তুলে ধরার সময় ব্যবহৃত টুল, এর সীমাবদ্ধতা এবং আস্থার স্তরের ব্যাখ্যাসহ যাচাইকরণ প্রক্রিয়াটি স্পষ্টভাবে বর্ণনা করা অপরিহার্য। এ ধরনের উন্মুক্ত তথ্য শুধুমাত্র যাচাইকরণের বিশ্বাসযোগ্যতাই বাড়ায় না বরং সিন্থেটিক মিডিয়া শনাক্ত করার জটিলতা সম্পর্কেও দর্শকদের প্রশিক্ষিত করে।

যেমন কোনো একটি কনটেন্টের মধ্যে ওয়াটারমার্ক ব্যবহার করে উল্লেখ করা যেতে পারে কী ধরনের টুল ব্যবহার করে এটি তৈরি করা হয়েছে। এছাড়া টুলটি কোন বিষয়বস্তু শনাক্তকরণে বিশেষায়িত সে বিষয়ক তথ্যও মূল্যবান অন্তর্দৃষ্টি প্রদান করতে পারে। যাইহোক, মনে রাখবেন একটি ক্লাসিফায়ার শুধুমাত্র তার নিজস্ব টুল ব্যবহার করে কনটেন্টটি তৈরি হয়েছে কিনা তা যাচাই করে, অন্যান্য এআই প্রযুক্তির ব্যবহার করে কনটেন্টকে বিকৃত করা হয়েছে কিনা সে সম্পর্কে নিশ্চিত তথ্য দেয় না।

সম্পাদকের দ্রষ্টব্য: মূল নিবন্ধটি রয়টার্স ইনস্টিটিউট থেকে প্রকাশিত হয়েছিল এবং তাদের অনুমতি নিয়ে এখানে পুনরায় প্রকাশ করা হয়েছে।


shirin anlen, Witnessশিরিন আনলেন নিউইয়র্ক ভিত্তিক পুরস্কারজয়ী সৃজনশীল প্রযুক্তিবিদ, গবেষক এবং শিল্পী। তার কাজ ইন্টারনেট প্ল্যাটফর্ম এবং কৃত্রিম বুদ্ধিমত্তার ওপর আলোকপাতের পাশাপাশি উদীয়মান প্রযুক্তির সামাজিক প্রভাব অন্বেষণ করে। উইটনেসে, তিনি প্রযুক্তি, হুমকি এবং সুযোগ-সুবিধা কর্মসূচী, ডিপফেক, মিডিয়া ম্যানিপুলেশন, বিষয়বস্তুর সত্যতা, এবং মানবাধিকার লঙ্ঘনের ক্ষেত্রে ক্রিপ্টোগ্রাফির ব্যবহার নিয়ে অনুসন্ধান করছেন। তিনি এমআইটি ওপেন ডকুমেন্টারি ল্যাবের রিসার্চ ফেলো, উইমেনপ্লাস আর্ট এআই-এর সদস্য এবং তেল আভিভ ইউনিভার্সিটি থেকে চলচ্চিত্র ও টেলিভিশন নিয়ে এমএফএ করার সময় ইন্টারেক্টিভ ডকুমেন্টারি তৈরিতে মেজর করেছেন। 

Rachel Vazquez Llorente, Witnessরাকেল ভাজকুয়েজ লরেন্টে একজন আইনজীবী, যিনি সংঘাত ও মানবাধিকার সংকটের ওপর অডিওভিজ্যুয়াল মিডিয়া বিশেষজ্ঞ। উইটনেসে, তিনি এমন একটি দলের নেতৃত্ব দেন যা অডিওভিজ্যুয়াল মিডিয়ার ওপর আমাদের আস্থা, উদীয়মান প্রযুক্তি, বিশেষ করে জেনারেটিভ এআই এবং ডিপফেকের প্রভাবগুলো নিয়ে সমালোচনামূলক দৃষ্টিভঙ্গিতে পরীক্ষা করে। তিনি আন্তর্জাতিক অপরাধের উপকরণ হতে পারে এমন সোশ্যাল মিডিয়া কনটেন্ট, এবং তা প্রকাশের সঙ্গে সম্পর্কিত চ্যালেঞ্জগুলোর দিকে নজর রাখেন। তিনি দ্য গার্ডিয়ান ফাউন্ডেশন বোর্ড এবং ট্র-এর উপদেষ্টা বোর্ডের হয়ে কাজ করেন। তিনি পাই (এআইয়ের অংশীদারিত্ব) পলিসি স্টিয়ারিং কমিটিরও একজন সদস্য। যারা এআই গভর্নেন্স নিয়ে প্রশ্ন করে। তিনি লন্ডন স্কুল অব ইকোনমিক্স অ্যান্ড পলিটিক্যাল সায়েন্স (এলএসই) থেকে আন্তর্জাতিক কৌশল এবং কূটনীতিতে এমএসসি এবং ইউনিভার্সিড কার্লোস III ডি মাদ্রিদ থেকে আইন ও ব্যবসায় প্রশাসনে অ্যাডভান্সড ডিগ্রি লাভ করেছেন।

ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে আমাদের লেখা বিনামূল্যে অনলাইন বা প্রিন্টে প্রকাশযোগ্য

লেখাটি পুনঃপ্রকাশ করুন


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

পরবর্তী

স্বাস্থ্য নিয়ে ভুয়া তথ্য – অপতথ্য, অনুসন্ধানী সাংবাদিকেরা কীভাবে লড়তে পারেন

প্রতি বছর বিশ্বের এক-তৃতীয়াংশ মানুষের মৃত্যুর জন্য দায়ী কেবল চারটি শিল্প প্রতিষ্ঠান। অথচ তাদের ব্যাপারে প্রতিবেদন নেই বললেই চলে। আপনি যদি কিছু খুঁজে পান, আর তা ভুক্তভোগী সম্প্রদায়, নীতিনির্ধারক, কর্মকর্তা কিংবা মন্ত্রীদের সামনে তুলে না ধরেন, তাহলে কাজটি আপনি কেন করছেন?

Recorder panel at IJF24

তহবিল সংগ্রহ পদ্ধতি পরামর্শ ও টুল

স্বাধীন নিউজরুমের আয়ের মডেল কী হতে পারে? 

অল্প বয়সী দর্শকদের কাছে যেন গ্রহণযোগ্য হয়— রেকর্ডারের তরুণ কর্মীরা ঠিক তেমনভাবে তাদের প্রতিবেদন তৈরি করে। পাঠকের পয়সা দিয়েই আয়ের দৃষ্টান্ত স্থাপন করেছে তারা।

IJF24 Reframing Visual Journalism AI Deepfake

পদ্ধতি পরামর্শ ও টুল

ডিপফেকের যুগে ভিজ্যুয়াল সাংবাদিকতা: সত্য যাচাই ও আস্থা অর্জন

ভিজ্যুয়াল সাংবাদিকতা এখন তিনটি প্রধান চ্যালেঞ্জের মুখোমুখি। এগুলো হলো সিন্থেটিক কনটেন্টের “উত্তাল সমুদ্রে” মৌলিক বিষয়বস্তু শনাক্ত; জনগণের আস্থা ধরে রাখা; এবং “প্রকৃত ছবি” দিয়ে মানুষের দৃষ্টি আকর্ষণ করা।

environmental spill ocean liquid natural gas terminal

পরামর্শ ও টুল সংবাদ ও বিশ্লেষণ

কীভাবে খুঁজবেন, পরিবেশের ক্ষতির পেছনে কে বা কারা জড়িত?

পরিবেশ সম্পর্কিত যে কোন অবৈধ কাজের সঙ্গে অনেক বেশি আর্থিক সংশ্লেষ থাকে। আর তা উন্মোচনের জন্য নিবিড়ভাবে জানতে হয় বিভিন্ন অঞ্চল, আর সেখানকার আইন কানুন, গতিবিধি পর্যবেক্ষণ করতে হয় বিভিন্ন প্রতিষ্ঠানের। এ ধরনের প্রতিবেদন তৈরিতে কিছু কৌশল সাংবাদিকদের সাহায্য করতে পারে।