

Image: Shutterstock
ডিপফেক: কখন এআই টুল দিয়ে চেনা যায় — কখন যায় না
জেনারেটিভ এআই প্রযুক্তিতে যত অগ্রগতি হচ্ছে সিন্থেটিক মিডিয়াও ততটাই দেখতে বাস্তবের মতো হয়ে উঠছে। এ ধরনের কনটেন্টগুলোর মধ্যে কিছু কিছু দেখেই বোঝা যায় যে সেগুলো কৃত্রিম বুদ্ধিমত্তার সাহায্যে তৈরি বা বিকৃত করা হয়েছে। তবে এখন আমরা যাদেরকে বাস্তবের কাছাকাছি মনে করছি, সেগুলো আসলে নিম্নমানের। প্রযুক্তির উৎকর্ষতার জের ধরে পরবর্তীতে এগুলো আরো নিখুঁত ও বাস্তবসম্মত মনে হবে বলে আমরা ধরে নিতে পারি।
আমরা উইটনেসে কাজ করি, যা এআই ভিত্তিক নির্মাণে স্বচ্ছতা আনার মাধ্যমে তথ্য ব্যবস্থায় ক্রমবর্ধমান বিভ্রান্তি ও আস্থার অভাবকে কমাতে চেষ্টা করছে। তবে কৃত্রিম বুদ্ধিমত্তার ব্যবহার, সহনশীলতা, আন্তঃপরিচালন (ইন্টার অপারেবিলিটি) সক্ষমতার মত বিষয় নিয়ে যেসব সমস্যা আছে, তার সমাধানে দৃশ্যমান ও অদৃশ্য ওয়াটারমার্কিং, ডিজিটাল ফিঙ্গারপ্রিন্টিং, লেবেলিং এবং এমবেডেড মেটাডেটার মতো উন্মুক্ত কৌশলগুলোর আরও পরিমার্জন প্রয়োজন। উৎস ও যথার্থতা যাচাইয়ের যেসব পদ্ধতি আছে, তাদের সামাজিক-প্রযুক্তিগত দিকগুলো নিয়েও অনেক কাজ করেছে উইটনেস, যা আসল কনটেন্ট শনাক্ত করতে সাহায্য করতে পারে। আরো জানতে, এই প্রতিবেদন বা নিবন্ধগুলো এখানে এবং এখানে দেখুন।
কোনটি আসল তা নির্ধারণের একটি সম্পূরক পদ্ধতি হলো কোনটি নকল তা চিহ্নিত করা। সহজ দৃশ্যমান সংকেত, যেমন অস্বাভাবিক হাতের বৈশিষ্ট্য বা ডিপফেক ভিডিওতে অস্বাভাবিক ব্লিঙ্কিং (চোখ পিট পিট করা) প্যাটার্নগুলো চোখ ধাঁধানো উন্নত প্রযুক্তির বিপরীতে দ্রুতই অকার্যকর বলে গণ্য হচ্ছে। এর ফলে এমন এআই শনাক্তকরণ টুলের চাহিদা বাড়ছে, যা বাইরের কারো বা কোনো তথ্যের সাহায্য ছাড়াই এআই দিয়ে নির্মিত বা পরিবর্তিত যে কোনো অডিও বা ভিজ্যুয়াল কনটেন্ট চিনতে পারে।
এআইয়ের সাহায্যে তৈরি বা সম্পাদনা করা হয়নি এমন কনটেন্টকে বোঝাতে এ নিবন্ধে আমরা “বাস্তব” শব্দটি ব্যবহার করেছি, যদিও পরিভাষা হিসেবে এটি শতভাগ নিখুঁত নয়। তবে লক্ষ্য করা গুরুত্বপূর্ণ যে, বাস্তব এবং সিন্থেটিক (কৃত্রিম) এর মধ্যকার পার্থক্যগুলো ক্রমশ অস্পষ্ট হয়ে উঠেছে। কারণ অত্যাধুনিক অনেক ক্যামেরাতে এখন স্বয়ংক্রিয়ভাবে এআই ব্যবহার করা হয়, যা আলো ও ফ্রেমের মধ্যে সমন্বয় করতে সক্ষম। আইফোনে যেমন পোর্ট্রেট মোড, স্মার্ট এইচডিআর, ডিপ ফিউশন এবং নাইট মোড ফিচারে ছবির গুণগতমান উন্নত করতে এআই ব্যবহার করা হয়। অ্যান্ড্রয়েডে, এর পাশাপাশি, বিকল্প অনেক ফিচার ব্যবহার করা হয় যা আলাদা এডিটিং সফ্টওয়্যার ছাড়াই ক্যামেরার এআই অ্যালগরিদম ব্যবহার করে সরাসরি ছবি বা ভিডিও সম্পাদনার সুযোগ করে দেয়।
বিনামূল্যে বা কম খরচে যেসব শনাক্তকরণ টুল পাওয়া যায়, সেগুলো দিয়ে একটি কনটেন্টকে কীভাবে যাচাই ও চিহ্নিত করা যায় সে সম্পর্কিত প্রাথমিক ধারণা দেওয়াই এ লেখার উদ্দেশ্য। অপটিক, হাইভ মডারেশন, ভি সেভেন, ইনভিড, ডিপওয়্যার স্ক্যানার, ইলুমিনার্টি, ডিপআইডি এবং ওপেন-সোর্স এআই ইমেজ ডিটেক্টরের মতো অনলাইন শনাক্তকরণ টুল ঠিক কোথায় কোথায় সীমাবদ্ধতার মুখোমুখি হতে পারে, এবং এগুলো ব্যবহারের সিদ্ধান্ত নেওয়ার সময় কোন বিষয়গুলো বিবেচনা করা উচিত, তা-ই আমরা এখানে আলোচনা করেছি। ২০২৪ সালের ফেব্রুয়ারিতে এসব টুল নিয়ে আমাদের করা গবেষণার ফলাফলই এই আলোচনার ভিত্তি।
জেনে রাখা ভালো, জেনারেটিভ প্রযুক্তির মতো শনাক্তকরণ মডেলগুলোও ক্রমেই উন্নত হচ্ছে। তাই, একটি টুলের কর্মক্ষমতা সময়ের সঙ্গে সঙ্গে পরিবর্তিত হতে পারে: কোনো পর্যায়ে হয়তো একটি নির্দিষ্ট ধরনের বিকৃতি সঠিকভাবে চিনতে হিমশিম খেতে পারে, তবে উন্নত হওয়ার সঙ্গে সঙ্গে টুলগুলো হয়তো অন্য ধরনের বিকৃতি শনাক্তকরণে আরো পারদর্শী হয়ে উঠতে পারে। এই পরিবর্তনশীলতাই বলে দেয়, সিন্থেটিক মিডিয়া শনাক্তকরণের টুল নিয়ে যত চ্যালেঞ্জ আছে এবং সর্বশেষ যে অগ্রগতি হয়েছে, তা জানা কতটা জরুরী।
ফলাফলগুলো কতটা বোধগম্য?
এআই শনাক্তকরণ টুলগুলো যে তথ্যের ওপর নির্ভর করে, তার ভিত্তিতেই ফলাফল দেখায়। অবশ্য এটি সহজেই ব্যবহারকারীদের বিভ্রান্ত করতে পারে। যাচাই প্রক্রিয়ার শুরু হিসেবে কম্পিউটেশনাল শনাক্তকরণ টুলগুলো দারুন। তবে এর সঙ্গে অন্যান্য ওপেন সোর্স কৌশল বা ওসিন্টেরও ব্যবহার থাকতে হবে। এই প্রক্রিয়ায় রিভার্স ইমেজ সার্চ, ভৌগলিক অবস্থান বা ছায়া বিশ্লেষণসহ আরো অনেক টুল অন্তর্ভুক্ত হতে পারে।
যাই হোক, মনে রাখবেন, শনাক্তকরণ টুলগুলোকে ওয়ান স্টপ সলিউশন হিসেবে বিবেচনা করা উচিত নয় এবং অবশ্যই সতর্কতার সঙ্গে ব্যবহার করা উচিত। আমরা দেখেছি যে, সবার জন্য উন্মুক্ত সফ্টওয়্যারগুলো কীভাবে বিভ্রান্তির দিকে নিয়ে যায়, বিশেষ করে যখন ফলাফল ব্যাখ্যার যথাযথ দক্ষতা ছাড়াই এগুলো ব্যবহার করা হয়। তারপরও এআই শনাক্তকরণ টুলগুলো যখন এআইয়ের সাহায্যে তৈরি নকল আধেয় শনাক্ত করতে সক্ষম হয় না তখন এর অর্থ এই নয় যে আধেয়টি সিন্থেটিক নয়। এমনকি ভিডিওর কোনো অংশ যদি সিন্থেটিক নাও হয়, ফ্রেমের বিষয়বস্তুটি সেক্ষেত্রে বাস্তবে ধারণকৃত কোনো দৃশ্য বা মঞ্চস্থও করা হতে পারে।
এআই শনাক্তকরণ টুল প্রদত্ত বেশিরভাগ ফলাফলগুলোই কনফিডেন্স ইন্টারভেল বা আস্থা ব্যবধান পদ্ধতি (এ নমুনা পদ্ধতিতে ফলাফলের অনিশ্চয়তা বা নিশ্চিততার মাত্রা পরিমাপ করে) এবং সম্ভাব্যতা নির্ধারণ পদ্ধতি (যেমন ৮৫ শতাংশ মানবীয়), যেখানে অন্যরা শুধুমাত্র একটি বাইনারি “হ্যাঁ/না” ফলাফল প্রদান করে। শনাক্তকরণ মডেল সম্পর্কে পুরোপুরি না জেনে এ ফলাফলগুলো ব্যাখ্যা করাটা চ্যালেঞ্জিং হতে পারে। যেমন এটি কী ধরনের বিষয়বস্তু শনাক্তকরণে প্রশিক্ষিত, প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটে কী ছিল এবং এটি কখন আপডেট করা হয়েছে – ফলাফল ব্যাখ্যার জন্য এসব তথ্য জানা জরুরী। দুর্ভাগ্যবশত, বেশিরভাগ অনলাইন শনাক্তকরণ টুলে, এর বিবর্তন সম্পর্কে পর্যাপ্ত তথ্য থাকে না, যা টুলগুলোর ফলাফল মূল্যায়ন এবং প্রাপ্ত ফলাফলগুলোকে বিশ্বাস করা কঠিন করে তোলে।
টুলগুলো কতটা নির্ভুল?
এআই শনাক্তকরণ টুলগুলো কম্পিউটেশনাল এবং ডেটা-চালিত প্রক্রিয়া। এ টুলগুলোকে নির্দিষ্ট ডেটাসেট ব্যবহার করার জন্য দিকনির্দেশনা দেওয়া হয়, যার মধ্যে রয়েছে যাচাইকৃত ও সিন্থেটিক কনটেন্টের তুলনা এবং কনটেন্টটি বাস্তব নাকি এআইয়ের বিভিন্ন পদ্ধতি ব্যবহার করে তৈরি তা নির্ধারণ করা। একটি টুলের নির্ভুলতা নির্ভর করে গুণগতমান, পরিমাণ এবং কী ধরনের ডেটা দেওয়া হয়েছে এবং অ্যালগরিদমিক ফাংশনগুলোর কীভাবে নকশা করা হয়েছে তার ওপর। উদাহরণস্বরূপ, কোনো শনাক্তকরণ মডেল এআই ব্যবহার করে তৈরি স্থির চিত্র চিহ্নিত করতে সক্ষম হতে পারে, আবার মানুষের মুখ অদলবদল করে তৈরি ডিপফেক ভিডিও শনাক্ত করতে সক্ষম নাও হতে পারে।
একইভাবে, পাবলিক ফিগার এবং রাজনীতিবিদদের ডেটাসেট ব্যবহার করে তৈরি একটি মডেল ইউক্রেনের রাষ্ট্রপতি ভলোদিমির জেলেনস্কির ডিপফেক শনাক্ত করতে সক্ষম হতে পারে, তবে একজন সাংবাদিক— যিনি পাবলিক ফিগারদের মতো অনলাইনে খুব বেশি পরিচিত নন, তার ক্ষেত্রে খুব বেশি কার্যকর ফলাফল প্রদানে সক্ষম নাও হতে পারে।
তবে ব্যাকগ্রাউন্ডের শব্দ বা ওভারল্যাপিং কথোপকথনের কারণে অডিও কনটেন্ট শনাক্তকরণ খুব একটা নির্ভুল নাও হতে পারে, বিশেষ করে টুলটিকে যদি শুধুমাত্র পরিচ্ছন্ন ও স্বচ্ছ অডিও নমুনা দিয়ে দিকনির্দেশনা প্রদান করা হয়ে থাকে।

পুতিনের ডিপফেকের একটি স্ক্রিনশট “সম্ভবত আসল” বলে শনাক্ত করা হয়েছিল। এখানে যে শনাক্তকরণ টুলটি ব্যবহার করা হয় তা এআই দিয়ে তৈরি স্থিরচিত্র শনাক্ত করার জন্য প্রশিক্ষিত ছিল, কিন্তু মানুষের মুখ অদলবদল করে তৈরি ডিপফেক ভিডিও চিনতে সক্ষম ছিল না। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে
আমরা একটি শনাক্তকরণ প্লাগইন পরীক্ষা করে দেখেছি, যেটি জেনারেটিভ অ্যাডভার্সারিয়াল নেটওয়ার্কের (জিএএন) নকল প্রোফাইল ছবি শনাক্ত করার জন্য নকশা করা, যেমনটা দেখা যায় দিস পারসন ডাজ নট এক্সিট প্রকল্পে। জিএএন উচ্চ-মানসম্পন্ন, ডোমেইন-নির্ভর আউটপুট, বাস্তবের মতো দেখতে মুখমন্ডল তৈরি, ডিফিউশন মডেল (প্রদত্ত ডেটার ওপর ভিত্তি করে তৈরি মডেল) তৈরিতে বিশেষভাবে সক্ষম। যেমন প্রাণবন্ত মুখমন্ডল, যা জটিল গঠনবিন্যাস এবং দৃশ্য তৈরিতে পারদর্শী। ডিফিউশন মডেলগুলো বর্তমানে আলোচিত টুল যেমন, ডাল-ই, মিডজার্নি এবং স্টেবল ডিফিউশনে সংযুক্ত করা হয়েছে।
জিএএন প্রযুক্তির সাহায্যে তৈরি সিন্থেটিক মিডিয়া চিহ্নিত করার জন্য যেসব শনাক্তকরণ টুল বানানো হয়েছে, সেগুলো ডিফিউশন মডেল দিয়ে তৈরি বা পরিবর্তিত কনটেন্টের ক্ষেত্রে তেমন ভাল কাজ করে না। পরীক্ষা করে মনে হয়েছে, প্লাগইনটি জিএএন দিয়ে তৈরি কনটেন্ট শনাক্তের ক্ষেত্রে বেশ ভাল কাজ করেছে, সম্ভবত ছবির কেন্দ্রে চোখের উপস্থিতির মতো ফেসিয়াল বৈশিষ্ট্যের কারণে।

মিডজার্নি দিয়ে তৈরি একটি এআই চিত্র “সম্ভবত আসল ব্যক্তি” বলে শনাক্ত করা হয়। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে
এআই ব্যবহার করে তৈরি করা হয়েছে কিনা তা নির্ধারণের একটি বিকল্প পদ্ধতি হলো ক্লাসিফায়ার দিয়ে দেখা। ইলেভেনল্যাবস-এর মতো কিছু কোম্পানি এটি সবার জন্য উন্মুক্ত করে রেখেছে। এদের ক্লাসিফায়ার শনাক্ত করে দেয় যে তাদের টুলগুলো ব্যবহার করে নির্দিষ্ট কনটেন্টটি তৈরি করা হয়েছে কিনা। এর মানে হলো ক্লাসিফায়ারগুলো নির্দিষ্ট কোম্পানির, এবং কনটেন্ট তৈরিতে ওই কোম্পানির টুল ব্যবহার করা হয়েছিল কিনা তা সংকেত দেওয়ার উপযোগী। এটি গুরুত্বপূর্ণ, কারণ নেতিবাচক ফলাফল থেকে আমরা বুঝতে পারি যে, কনটেন্ট তৈরিতে নির্দিষ্ট টুল ব্যবহার করা হয়নি, তবে এটি অন্য এআই টুল দ্বারা তৈরি বা সম্পাদনা করা হতে পারে।
এই ক্লাসিফায়ারেরও সমস্যা আছে। যেমন, একটি অডিও ক্লিপে সঙ্গীত যোগ করা হলে তা ক্লাসিফারায়কে বিভ্রান্ত করতে পারে এবং এআই টুল থেকে তৈরি কনটেন্ট চিহ্নিত করার সম্ভাবনা কমিয়ে দিতে পারে। যদিও এই মুহুর্তে কোনো কোম্পানি স্থিরচিত্র শনাক্তের জন্য উন্মুক্ত ক্লাসিফায়ার ব্যবহারের সুবিধা দিচ্ছে না।
একটি শনাক্তকরণ টুলকে কিভাবে বোকা বানাবেন?
একটি বিষয় মনে রাখা গুরুত্বপূর্ণ যে এআই ব্যবহার করে তৈরি বা সম্পাদিত কনটেন্ট শনাক্ত করার জন্য নির্মিত টুলগুলো সব এআই ম্যানিপুলেশন বা বিকৃতিকে শনাক্ত করতে পারে না।
কনটেন্ট সম্পাদনা: ২০২৩ সালের মে মাসে, পেন্টাগনে বিস্ফোরণের একটি চিত্র ভাইরাল হয়েছিল। যদিও দ্রুত বিষয়টি চিহ্নিত করা হয়, তবে ছবিটি সংক্ষিপ্ত পরিসরে আতঙ্ক ছড়ানোর পাশাপাশি শেয়ার বাজারকে প্রভাবিত করতে সক্ষম হয়েছিল। নিউজ চ্যানেলগুলোও ঘটনাটি তুলে ধরে, এটিকে বাস্তব ঘটনা হিসেবে প্রতিবেদন করে।
ছবির ডানদিকে ক্রপিং এবং স্কেল করার পরে শনাক্তকরণ টুলগুলো কনটেন্টটিকে বাস্তব বলে চিহ্নিত করে, তবে এআই ইমেজ ডিটেকশন টুল ছবিটিকে এআই-জেনারেটেড হিসেবে শনাক্ত করতে সক্ষম হয়। প্রেসিডেন্ট ওবামার বিখ্যাত ডিপফেকগুলোর মধ্যে একটি নিয়ে একই রকম পরীক্ষা করা হয়েছে। ছবির রেজ্যুলুশন কমানো এবং ক্লিপটির কিছু অংশ সম্পাদনা করার পরে, ফলাফলে আসে যে ছবিতে “কোন ডিপফেক শনাক্ত হয়নি”।

উপরে: ছবিটি সোশ্যাল মিডিয়াতে শেয়ার করা হয়েছে — এবং এআই ব্যবহার করে তৈরি বলে চিহ্নিত করা হয়েছে। নীচে: একই চিত্রের একটি কাট-আউট, মূল চিত্রের নীচের ডানদিকে ক্রপ করা এবং স্কেল করা, যা ক্লাসিফায়ার টুলকে বোকা বানিয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

আমরা রেজ্যুলুশনটি কমানো এবং সম্পাদনার মধ্যেমে প্রেসিডেন্ট ওবামার ডিপফেক ভিডিওটির শেষ অংশ ছাঁটাই করার পর এটিকে “ডিপফেক নয়” হিসেবে চিহ্নিত করা হয়েছিল। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে
অনলাইন শনাক্তকরণ টুলগুলো একটি ফাইলের সংকুচিত সংস্করণের ক্ষেত্রে ভুল ফলাফল দিতে পারে। এটি ইচ্ছাকৃত নাও হতে পারে। যেমন, সামাজিক মাধ্যম প্ল্যাটফর্মগুলো একটি ফাইলকে সংকুচিত করতে পারে এবং আপলোডের সময় নির্দিষ্ট মেটাডেটা মুছে ফেলতে পারে।
এমনকি ট্রেনিং সেটে (মেশিন লার্নিং মডেলের প্রশিক্ষণ প্রক্রিয়ায় ব্যবহার করা হয়) ক্রপ করা, ঝাপসা বা সংকুচিত উপাদান অন্তর্ভুক্ত থাকলেও সঙ্কোচন, কর্তন বা আকার পরিবর্তনের মাধ্যমে একটি ফাইলের গুণগতমান ও রেজ্যুলুশন বদলে ফেলা যায়, যা শনাক্তকরণ টুলগুলোকেও প্রভাবিত করতে পারে। এর আংশিক কারণ হিসেবে বলা যেতে পারে যে মেটাডেটার স্ট্রিপিং করা সবগুলো বিকল্পকে ট্রেনিং সেট ধারণ নাও করতে পারে।
ফলে, এ ধরনের অনুলিপিগুলো বিশ্লেষণ করার সময় শনাক্তকরণ টুলগুলো ভুল ফলাফলও দিতে পারে। একইভাবে, এআই ব্যবহার করে তৈরি অডিও ক্লিপের রেকর্ডিং ব্যবহার করার সময়, অডিওর গুণগতমান হ্রাস পায় এবং মূল এনকোড করা তথ্য হারিয়ে যায়। উদাহরণস্বরূপ, আমরা প্রেসিডেন্ট বাইডেনের এআই রোবোকল রেকর্ড ব্যবহার করেছি, একটি অডিও শনাক্তকরণ টুলের মাধ্যমে রেকর্ড করা অনুলিপি চালিয়েছি, যা এটিকে বাস্তব হওয়ার সম্ভাবনা বেশি বলে শনাক্ত করেছে।

উপরে, প্রেসিডেন্ট বাইডেনের রোবোকলের একটি রেকর্ডিংকে “খুব সম্ভব আসল” হিসেবে শনাক্ত করা হয়েছিল। বিপরীতে, নীচের স্ক্রিনশট ফাইলটির ডাউনলোড করা সংস্করণসহ ফলাফলে ৭৪ শতাংশ “নকল হওয়ার সম্ভাবনা” হিসেবে শনাক্ত করে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে
একইভাবে, এআই ব্যবহার করে তৈরি ছবির স্ক্রিনশটে প্রকৃত ছবির মতো দৃশ্যমান এবং অদৃশ্য তথ্য থাকবে না। আমরা একটি পরিচিত ঘটনা থেকে স্ক্রিনশট নিয়েছি যেখানে পশ্চিম আফ্রিকায় সামরিক অভ্যুত্থানের কনটেন্টে এআই-অ্যাভাটার ব্যবহার করা হয়েছিল। এ স্ক্রিনশটগুলোর অর্ধেকেরও বেশি এআই দিয়ে তৈরি নয় হিসেবে চিহ্নিত করা হয়।

এর মধ্যে একটি ক্লিপ থেকে নেওয়া এআই অ্যাভাটারকে ৭০ শতাংশ মানবীয় ছবি হিসেবে শনাক্ত করা হয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে

আবার এর মধ্যে একটি ক্লিপ থেকে নেওয়া এআই অ্যাভাটারকে ৮ দশমিক ৫ শতাংশ মানবীয় ছবি হতে পারে বলে শনাক্ত করা হয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে
এ টুলগুলো কী সব ধরনের এআই জেনারেশন এবং ম্যানিপুলেশন শনাক্ত করতে পারে?
সবার জন্য উন্মুক্ত এআই শনাক্তকরণ সফ্টওয়্যারগুলোকে এআই কৌশল ব্যবহার করে বোকা বানানো যেতে পারে। জেনে নিন, কীভাবে করবেন।
স্টাইল প্রম্পটিং: শনাক্তকরণ টুলগুলোতে প্রায়ই এমন ডেটাসেট ব্যবহার করা হয়, যা একটি নিয়ন্ত্রিত পরিবেশে তৈরি এবং এর কনটেন্টগুলো পরিচ্ছন্ন ও সংগঠিত। এটি শনাক্তকরণ মডেলকে প্রয়োজনীয় বৈশিষ্ট্যগুলো সঠিকভাবে চিহ্নিত এবং শনাক্ত করতে সাহায্য করে। তবে বাস্তবের ছবিগুলো ঝাপসা হতে পারে, ফোকাসের বাইরে থাকতে পারে, ভিডিওগুলো কাঁপাকাঁপা বা কাত হতে পারে এবং অডিওর মধ্যে অনেক শোরগোল থাকতে পারে। এটি শনাক্তকরণ টুলগুলোর জন্য বাস্তব জীবনের কনটেন্টকে নির্ভুলভাবে শনাক্ত এবং শ্রেণিবদ্ধ করাকে চ্যালেঞ্জিং করে তুলতে পারে।
ডিটেকশন টুলগুলোকে যদি উন্মুক্ত কনটেন্টের নকল সংস্করণ দিয়ে প্রশিক্ষণ দেওয়া হয়, তা ডিটেক্টরকে সহজেই বিভ্রান্ত করতে পারে।
উদাহরণস্বরূপ, আমরা এ ধরনের একটি টুলের চোখ এড়াতে পারি কিনা তা পরীক্ষা করার জন্য একটি কনটেন্টকে ঝাপসা ও সঙ্কুচিত করি। আমরা ওপেন এআইয়ে ডাল-ই টুর ভায়োলেন্ট সেটিং ব্যবহার করে একটি বাস্তব সহিংস চিত্র তৈরি করি। ছবিটি দেখে মনে হয় যে ঘটনা ঘটার সময় রাস্তার পাশে দাঁড়ানো কোনো একজন ব্যক্তি এটিকে ধারণ করেছে। আমরা ছবিটির রেজ্যুলুশন কমানো, ছবিটিকে অস্পষ্ট করা এবং মোশন ইফেক্ট যোগ করার জন্য ডাল-ই টুকে সুনির্দিষ্ট নির্দেশনা দেই। আমাদের মনে হয়েছে এ ধরনের সম্পাদনাগুলো শনাক্তকরণ টুলকে বিভ্রান্ত করে এবং ছবিটি এআই ব্যবহার করে তৈরি হয়েছে এমন সম্ভাবনা শনাক্তের মাত্রা কমিয়ে দেয়।

ডাল-ই টু দিয়ে তৈরি পাতাল রেল স্টেশনে সম্ভাব্য আক্রমণের এ ছবিটিকে এআই ব্যবহার করে তৈরি করা হয়নি বলে শনাক্ত করা হয়। রয়টার্স ইনস্টিটিউটের সৌজন্যে

ডাল-ই টু দিয়ে তৈরি করা ইউএস হোয়াইট হাউসে একটি নকল বিস্ফোরণের চিত্র। শনাক্তকরণ টুল যেটিকে এআই ব্যবহার করে তৈরি হওয়ার সম্ভাবনা কম বলে নির্দেশ করেছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে
উন্নত সম্পাদনা: টেক্সট-টু-ইমেজ টুলগুলো সহজ সম্পাদনা কৌশলগুলোকে উন্মুক্ত করেছে। ছবিটি বাস্তব কিংবা এআই ব্যবহার করে তৈরি হলেও টুলগুলো ব্যবহারকারীদের ছবির ফ্রেমের মধ্যে বিষয়বস্তু সম্পাদনা বা ফ্রেমের বাইরে নতুন বিবরণ যোগ করতে দেয়। এগুলো যথাক্রমে “ইন-পেইন্টিং” এবং “আউট-পেইন্টিং” কৌশল হিসেবেও পরিচিত। এটি যখন বাস্তব চিত্রে প্রয়োগ করা হয়, তখন অনলাইন টুলগুলো এ ধরনের বিকৃতি শনাক্তে ব্যর্থ হয় বলে মনে হয়। এই ইন-পেইন্ট উদাহরণে, আমরা ডাল-ই টু টেক্সট-টু-ইমেজ এডিটিং ব্যবহার করে ইউক্রেনীয় উদ্বাস্তুদের একটি বাস্তব ছবিতে গাড়ির জায়গায় ট্যাঙ্ক বসিয়ে দেই। ট্যাঙ্ক সংযুক্ত নতুন ছবিটি “এআই-ব্যবহার করে তৈরি হওয়ার সম্ভাবনা নেই” বলে ফলাফলে বলা হয়।

ইউক্রেনীয় শরণার্থীদের দেখানো একটি বাস্তব চিত্র ব্যবহার করে ইন-পেইন্টিং উদাহরণ, ড্যাল-ই টু দিয়ে একটি ট্যাঙ্ক যোগ করা হয়েছে। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে, পিটার লাজার/এএফপি/গেটি ইমেজেসের আসল ছবি।

ইন-পেইন্টেড ট্যাঙ্কের চিত্রটি “সম্ভবত এআই ব্যবহার করে তৈরি নয়” হিসেবে শনাক্ত করা হয়। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে। মূল ছবি পিটার লাজার/এএফপি/গেটি ইমেজ।
আউট-পেইন্টিংয়ের উদাহরণ হিসেবে, আমরা ইসরায়েল-হামাস যুদ্ধ থেকে একটি বাস্তব চিত্র বাছাই করি এবং ডাল-ই টু ব্যবহার করে অতিরিক্ত “ধোঁয়া” যোগ করি। ডাল-ই টুর ছবিতে ভবনগুলোকেও প্রসারিত করা হয়। ছবিটি বাস্তব চিত্র হিসেবে হিসেবে শনাক্ত করা হয়।
গাজা-ইসরায়েল যুদ্ধের সৈন্যদের বাস্তব চিত্র ব্যবহার করে তৈরি একটি আউটপেইন্ট উদাহরণ। ছবি: রয়টার্স ইনস্টিটিউটের সৌজন্যে, মূল ছবি রয়টার্স

এই টুলটি আউট-পেইন্ট করা ছবিটিকে “সম্ভবত মানুষের” বলে শনাক্ত করেছে।
এ অবস্থায় সাংবাদিক, ফ্যাক্ট–চেকার এবং গবেষকদের করণীয় কী?
উল্লিখিত বিষয়গুলো যদিও অনলাইন এআই শনাক্তকরণ টুলের কিছু সীমাবদ্ধতা চিহ্নিত করে, তবুও যাচাইকরণ প্রক্রিয়া বা একটি অনুসন্ধানী পদ্ধতির অংশ হিসেবে এগুলো একটি মূল্যবান সম্পদ হতে পারে, যতক্ষণ পর্যন্ত ভেবেচিন্তে এর ব্যবহার করা হয়।
এগুলোকে তাই সমালোচনামূলক দৃষ্টিকোণ থেকে দেখাটা অপরিহার্য। আমাদের বুঝতে হবে যে টুলগুলোর কার্যকরিতা মূলত ডেটা ও অ্যালগরিদমের ওপর নির্ভরশীল। তাছাড়া এটি মনে রাখা গুরুত্বপূর্ণ যে, অডিও কনটেন্ট বাদ দিয়ে, আমরা অনলাইনে যে ফুটেজগুলো দেখি তার বেশিরভাগই ভুল-প্রসঙ্গিক উপাদান (ভুল তারিখ, সময় বা অবস্থান) ব্যবহার করে অথবা কয়েক বছর ধরে চলে আসা ভিডিওকে সফ্টওয়্যার দিয়ে সম্পাদনার মাধ্যমে তৈরি করা হয়েছে।
অডিওভিজ্যুয়াল জেনারেটিভ এআইয়ের সবচেয়ে বড় হুমকিটি হচ্ছে এটি এমন পরিস্থিতি তৈরি করেছে যেখানে যুক্তিসঙ্গতভাবে বিশ্বাসযোগ্য কনটেন্টকেও অস্বীকার করা এবং ডিপফেক বলে দাবি করা যায়।
শনাক্তকরণ টুলগুলো অবশ্যই সতর্কতা এবং সন্দেহ নিয়ে ব্যবহার করা উচিত। কীভাবে একটি টুল তৈরি করা হয়েছিল তা গবেষণা করা এবং বোঝার জন্য যা সবসময় গুরুত্বপূর্ণ, যদিও এই তথ্যগুলো পাওয়া কঠিন হতে পারে।
প্রযুক্তির অগ্রগতির সঙ্গে পুরানো কার্যকর অ্যালগরিদমগুলো তাদের কার্যকরিতা হারাতে শুরু করে। তাই এগিয়ে থাকার জন্য ক্রমাগত উদ্ভাবন এবং অভিযোজন প্রয়োজন। কোনো একটি শনাক্তকরণ পদ্ধতি পুরানো হওয়ায় সঙ্গে সঙ্গেই, সিন্থেটিক মিডিয়ার সাম্প্রতিক অগ্রগতিগুলোকে প্রতিরোধ করার জন্য নতুন, আরও পরিশীলিত কৌশলের বিকাশ ঘটানো জরুরি। সিন্থেটিক মিডিয়ার সৃষ্ট হুমকির বিরুদ্ধে লড়াই ক্রমশ ব্যাপক ও ঘনীভূত হয়ে উঠছে, তাই যারা যাচাই করেন তাদের অবশ্যই সিন্থেটিক মিডিয়া তৈরিতে ব্যবহৃত কৌশল এবং তা শনাক্তকরণ পদ্ধতি সম্পর্কেই অবগত থাকতে হবে।
এটাও বিবেচনা করা গুরুত্বপূর্ণ যে ফোন ক্যামেরা থেকে সোশ্যাল মিডিয়া অ্যাপস পর্যন্ত সব ধরনের সফটওয়্যার জুড়ে এআই প্রযুক্তির ব্যবহার বাড়ছে। স্থিতিশীল ক্যামেরা ও ফিল্টার থেকে শুরু করে ফ্রেম থেকে অবাঞ্ছিত বস্তু ও বিষয় মুছে ফেলা পর্যন্ত নানা বিষয় এর মধ্যে রয়েছে।
এআই হয়তো নতুন কনটেন্ট তৈরি নাও করতে পারে, তবে কোনো নির্দিষ্ট অঞ্চল কিংবা সময়কে প্রভাবিত করতে এটি প্রয়োগ করা যেতে পারে। জটিল ও বড় ধরনের বিকৃতিগুলো শনাক্তকরণের চ্যালেঞ্জকে বাড়িয়ে তোলে। নতুন টুল, সংস্করণ এবং ফিচারগুলো ক্রমাগত উন্নত হচ্ছে। ফলে শনাক্তকরণ টুলগুলো কতটা কার্যকর এবং কতটা দ্রুত এগুলোকে হালনাগাদ ও রক্ষণাবেক্ষণ করা হয় তা নিয়ে প্রশ্ন উঠছে।
এক্ষেত্রে নিরাপত্তা এবং নৈতিক বিবেচনাও গুরুত্বপূর্ণ। অনলাইন প্ল্যাটফর্মগুলোর বিশ্লেষণ করা কনটেন্ট সংরক্ষণ, ব্যবহার সম্পর্কিত গোপনীয়তা এবং সুরক্ষা ঝুঁকি বিষয়ক অনিশ্চয়তা বিবেচনা করা অত্যাবশ্যক। বিশেষ করে প্রকৃত ব্যক্তিদের গোপনীয়তা এবং সুরক্ষাকে প্রভাবিত করতে পারে এ ধরনের ছবি, অডিও বা ভিডিও নিয়ে কাজ করার সময়।
এই বিবেচনার আলোকে, ফলাফল তুলে ধরার সময় ব্যবহৃত টুল, এর সীমাবদ্ধতা এবং আস্থার স্তরের ব্যাখ্যাসহ যাচাইকরণ প্রক্রিয়াটি স্পষ্টভাবে বর্ণনা করা অপরিহার্য। এ ধরনের উন্মুক্ত তথ্য শুধুমাত্র যাচাইকরণের বিশ্বাসযোগ্যতাই বাড়ায় না বরং সিন্থেটিক মিডিয়া শনাক্ত করার জটিলতা সম্পর্কেও দর্শকদের প্রশিক্ষিত করে।
যেমন কোনো একটি কনটেন্টের মধ্যে ওয়াটারমার্ক ব্যবহার করে উল্লেখ করা যেতে পারে কী ধরনের টুল ব্যবহার করে এটি তৈরি করা হয়েছে। এছাড়া টুলটি কোন বিষয়বস্তু শনাক্তকরণে বিশেষায়িত সে বিষয়ক তথ্যও মূল্যবান অন্তর্দৃষ্টি প্রদান করতে পারে। যাইহোক, মনে রাখবেন একটি ক্লাসিফায়ার শুধুমাত্র তার নিজস্ব টুল ব্যবহার করে কনটেন্টটি তৈরি হয়েছে কিনা তা যাচাই করে, অন্যান্য এআই প্রযুক্তির ব্যবহার করে কনটেন্টকে বিকৃত করা হয়েছে কিনা সে সম্পর্কে নিশ্চিত তথ্য দেয় না।
সম্পাদকের দ্রষ্টব্য: মূল নিবন্ধটি রয়টার্স ইনস্টিটিউট থেকে প্রকাশিত হয়েছিল এবং তাদের অনুমতি নিয়ে এখানে পুনরায় প্রকাশ করা হয়েছে।
শিরিন আনলেন নিউইয়র্ক ভিত্তিক পুরস্কারজয়ী সৃজনশীল প্রযুক্তিবিদ, গবেষক এবং শিল্পী। তার কাজ ইন্টারনেট প্ল্যাটফর্ম এবং কৃত্রিম বুদ্ধিমত্তার ওপর আলোকপাতের পাশাপাশি উদীয়মান প্রযুক্তির সামাজিক প্রভাব অন্বেষণ করে। উইটনেসে, তিনি প্রযুক্তি, হুমকি এবং সুযোগ-সুবিধা কর্মসূচী, ডিপফেক, মিডিয়া ম্যানিপুলেশন, বিষয়বস্তুর সত্যতা, এবং মানবাধিকার লঙ্ঘনের ক্ষেত্রে ক্রিপ্টোগ্রাফির ব্যবহার নিয়ে অনুসন্ধান করছেন। তিনি এমআইটি ওপেন ডকুমেন্টারি ল্যাবের রিসার্চ ফেলো, উইমেনপ্লাস আর্ট এআই-এর সদস্য এবং তেল আভিভ ইউনিভার্সিটি থেকে চলচ্চিত্র ও টেলিভিশন নিয়ে এমএফএ করার সময় ইন্টারেক্টিভ ডকুমেন্টারি তৈরিতে মেজর করেছেন।
রাকেল ভাজকুয়েজ লরেন্টে একজন আইনজীবী, যিনি সংঘাত ও মানবাধিকার সংকটের ওপর অডিওভিজ্যুয়াল মিডিয়া বিশেষজ্ঞ। উইটনেসে, তিনি এমন একটি দলের নেতৃত্ব দেন যা অডিওভিজ্যুয়াল মিডিয়ার ওপর আমাদের আস্থা, উদীয়মান প্রযুক্তি, বিশেষ করে জেনারেটিভ এআই এবং ডিপফেকের প্রভাবগুলো নিয়ে সমালোচনামূলক দৃষ্টিভঙ্গিতে পরীক্ষা করে। তিনি আন্তর্জাতিক অপরাধের উপকরণ হতে পারে এমন সোশ্যাল মিডিয়া কনটেন্ট, এবং তা প্রকাশের সঙ্গে সম্পর্কিত চ্যালেঞ্জগুলোর দিকে নজর রাখেন। তিনি দ্য গার্ডিয়ান ফাউন্ডেশন বোর্ড এবং ট্র-এর উপদেষ্টা বোর্ডের হয়ে কাজ করেন। তিনি পাই (এআইয়ের অংশীদারিত্ব) পলিসি স্টিয়ারিং কমিটিরও একজন সদস্য। যারা এআই গভর্নেন্স নিয়ে প্রশ্ন করে। তিনি লন্ডন স্কুল অব ইকোনমিক্স অ্যান্ড পলিটিক্যাল সায়েন্স (এলএসই) থেকে আন্তর্জাতিক কৌশল এবং কূটনীতিতে এমএসসি এবং ইউনিভার্সিড কার্লোস III ডি মাদ্রিদ থেকে আইন ও ব্যবসায় প্রশাসনে অ্যাডভান্সড ডিগ্রি লাভ করেছেন।