

টিকটকে ভুল তথ্য: ডকুমেন্টেড কীভাবে বিভিন্ন ভাষার শত শত ভিডিও যাচাই করেছে
আর্টিকেলটি পড়ুন এই ভাষায়:
সম্পাদকের নোট: প্রতিবেদনটি পুলিৎজার সেন্টারের সাথে যৌথভাবে এখানে প্রকাশ হয়েছে। মূল অনুসন্ধানী প্রতিবেদনটি প্রকাশিত হয় ডকুমেন্টেডের ওয়েবসাইটে।
এমন অসংখ্য লোক আছেন, যাঁরা স্রেফ টিকটকে পাওয়া তথ্যের ওপর ভিত্তি করে নিউইয়র্কের পথে পাড়ি জমিয়েছেন। স্বাধীন ও অলাভজনক সংবাদমাধ্যম ডকুমেন্টেড গত এক বছরে বিভিন্ন প্রতিবেদনের মাধ্যমে এ ধরনের অভিবাসীদের ওপর টিকটকের প্রভাবগুলো তুলে ধরেছে। নিউইয়র্কভিত্তিক স্বাধীন সংবাদমাধ্যম ডকুমেন্টেডের রিপোর্টারদের প্রতিবেদনের কেন্দ্রে আছেন নিউইয়র্কের অভিবাসীরা। তাঁরা চেয়েছেন গভীরে গিয়ে টিকটকের তথ্যের উৎসগুলো খুঁজতে চেয়েছেন।
সাধারণত, বিভিন্ন ভাষার ভুল ও বিভ্রান্তিকর তথ্য নিয়ে কাজ করাটা বেশ ঝক্কির। যারা ভুল তথ্য ছড়ায়, তারা প্রায়ই তাদের অ্যাকাউন্ট মুছে ফেলে। সাংবাদিকদের তাই ওই অ্যাকাউন্টগুলো নিষ্ক্রিয় (ডিঅ্যাকটিভ) হওয়ার আগেই তথ্য সংরক্ষণ করতে হয়। এ ধরনের অনুসন্ধানের জন্য আমাদের যে সব তথ্য প্রয়োজন তা প্রায়ই অডিও-ভিজ্যুয়াল ফরম্যাটে থাকে। ফলে সহজ বিশ্লেষণও জটিল হয়ে দাঁড়ায়। আবার কন্টেটগুলো পরিমাণে অনেক বেশি হওয়ায় কাগজে-কলমে (ম্যানুয়ালি) কাজ চালানোটাও অত্যন্ত কঠিন হয়ে পড়ে।
ডকুমেন্টেড এ জন্য বিভিন্ন সম্প্রদায়ের সাংবাদিক প্রতিনিধিদের সাথে কয়েক মাস কাজ করে টিকটকের ভুল তথ্য শনাক্তের জন্য প্রযুক্তি ও পদ্ধতিগত কিছু কৌশল আবিষ্কার করেছে।
এ লেখার মাধ্যমে আমরা আমাদের আবিষ্কারগুলো বিশ্বের নানা প্রান্তের সাংবাদিক সম্প্রদায়ের সঙ্গে ভাগাভাগি করে নিতে চাই। আমাদের প্রত্যাশা যাঁরা আগ্রহী এই প্রতিবেদন তাঁদের কাজে আসবে।
কনটেন্ট সংরক্ষণ
ভুল তথ্য এবং বিভ্রান্তিকর প্রচারণাগুলো সাধারণত আচমকা শুরু হয়ে দ্রুতই মিলিয়ে যায়। তাই মিথ্যা তথ্য নিয়ে অনুসন্ধানের সময় গুরুত্বপূর্ণ অ্যাকাউন্টগুলো খুঁজে বের করে তা সংরক্ষণ করা জরুরি।
অ্যাকাউন্টগুলো বাছাই করা মূলত একটি সম্পাদনাগত সিদ্ধান্ত। আমাদের বেলায় আমরা যেমন অভিবাসীদের সঙ্গে কথা বলে তাদের টিকটক ব্যবহারের কারণগুলো ভালোভাবে বুঝতে চেষ্টা করেছি। আমরা দেখেছি, অনেক অভিবাসী অনলাইনে মার্কিন অভিবাসন ব্যবস্থা নিয়ে বিভ্রান্তিকর সব তথ্য পান। এরপর বিশেষজ্ঞদের সহায়তায় আমরা সাধারণ সমস্যাগুলো (যেমন প্রতারণামূলক স্ক্যামার) শনাক্ত করি এবং নির্দিষ্ট শব্দ ব্যবহার করে কীভাবে এসব অ্যাকাউন্ট খুঁজে বের করা যায় তা শিখি।
আমরা যেসব অ্যাকাউন্ট বিশ্লেষণ করতে চেয়েছি, তা খুঁজে পাওয়ার পর ওই ব্যক্তিদের প্রোফাইল ওয়েব ব্রাউজারে খুলি, পৃষ্ঠাটি স্ক্রোল করি যতক্ষণ না নতুন কোনো ভিডিও লোড হয়। এরপর পুরো এইচটিএমএল (HTML) পেজ ডাউনলোড করি। পরে পাইথন স্ক্র্যাপার (এটি ব্যবহার করে ওয়েবসাইট থেকে স্বয়ংক্রিয়ভাবে ডেটা সংগ্রহ করা যায়) ব্যবহার করে প্রতিটি অ্যাকাউন্টের ভিডিও লিঙ্ক বের করি।
এরপর আমরা ওয়াইটি-ডিএলপি (yt-dlp) টুল (এটি দিয়ে বিভিন্ন সাইট থেকে অডিও/ভিডিও নামানো যায়) ব্যবহার করে প্রতিটি ভিডিও, এর মেটাডেটা ডাউনলোড করি এবং তা লোকাল ড্রাইভে সংরক্ষণ করি। (বিশেষ কৃতজ্ঞতা ওয়াশিংটন পোস্টের ক্যাটলিন গিলবার্ট এবং বেলিংক্যাট দলকে, যাঁরা আমাদের এই লাইব্রেরিটির কথা জানিয়েছিলেন)।
স্বয়ংক্রিয় প্রতিলিপি তৈরি
ভিডিও নিয়ে কাজ করা অনেক কঠিন। কারণ এক এক করে প্রতিটি ভিডিও দেখতে বসলে আপনার অনেক সময় চলে যাবে। কাজের পরিমাণ কমাতে এবং ডাউনলোড করা ভিডিওগুলো সম্পর্কে প্রাথমিক ধারণা পেতে, আমরা হুইসপার (Whisper)-এর ওপেন-সোর্স সংস্করণ ব্যবহার করে ভিডিওগুলো স্বয়ংক্রিয়ভাবে ট্রান্সক্রাইব (প্রতিলিপি) করার সিদ্ধান্ত নিই। ওপেনএআইয়ের ট্রান্সক্রিপশন স্পিচ রিকগনিশন মডেলটি বিভিন্ন ভাষায় কাজ করতে সক্ষম। তবে মডেলটির কার্যকারিতা ভাষাভেদে ভিন্ন হতে পারে। আমরা ভিয়েতনামিজ এবং স্প্যানিশ ভাষা পরীক্ষা করেছি। দেখা যায়, ভিয়েতনামিজ প্রতিলিপিগুলো পুরোপুরি অকাজের। আর স্প্যানিশ সংস্করণে কিছু সমস্যা থাকলেও বেশ নির্ভুল ছিল, যা আমাদের কাজ চালিয়ে যাওয়ার জন্য যথেষ্ট।
মেশিন লার্নিং মডেল, যেমন হুইসপার (একটি বিশেষ ধরনের মেশিন লার্নিং মডেল, যাকে ট্রান্সফর্মার বলা হয়), কতটা কার্যকর হবে তা পুরোপুরি নির্ভর করে মডেলটিকে কোন ধরনের ডেটা দিয়ে প্রশিক্ষিত করা হয়েছে এবং কোন ভাষাগুলোকে অগ্রাধিকার দেয়া হয়েছে তার ওপর।
এমআইটির টেক রিভিউয়ের প্রতিবেদন অনুসারে ডেটা প্রোভেনেন্স ইনিশিয়েটিভের নতুন গবেষণায় উঠে এসেছে, এআই (কৃত্রিম বুদ্ধিমত্তা) প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের ৯০ শতাংশেরও বেশি হচ্ছে ইউরোপ ও উত্তর আমেরিকার। আর আফ্রিকার ডেটা রয়েছে ৪ শতাংশেরও কম। এ গবেষণায় প্রযুক্তি খাত ও বিশ্ববিদ্যালয়ের ৫০ জনেরও বেশি গবেষক অংশ নেন।
সাধারণভাবে কৃত্রিম বুদ্ধিমত্তা নামে পরিচিত মেশিন লার্নিং মডেল এবং অন্যান্য প্রযুক্তি ব্যবহারের ক্ষেত্রে বড় ধরনের সতর্কবার্তা হচ্ছে: এই মডেলগুলো ব্যবহার করে করা কাজগুলো সবসময় শতভাগ সঠিক নাও হতে পারে।

গ্রাফিক্সের মাধ্যমে কৃত্রিম বুদ্ধিমত্তার বিভিন্ন সংস্করণের চিত্র এখানে তুলে ধরা হয়েছে। মেশিন লার্নিং হচ্ছে কৃত্রিম বুদ্ধিমত্তার একটি উপশ্রেণি। ডিপ লার্নিং ও জেনারেটিভ এআই হলো মেশিন লার্নিংয়ের সুনির্দিষ্ট ধরন। ছবি: কারেন হাও, পুলিৎজার সেন্টার
সাংবাদিক কারেন হাও, গ্যাব্রিয়েল গিগার এবং আমি পুলিৎজার সেন্টারের সাথে এআই নিয়ে একাধিক কর্মশালা করেছি। মূলত এ সময়টাতেই আমরা ভাবতে শুরু করি যে, সাংবাদিকতার ক্ষেত্রগুলোতে মেশিন লার্নিং এবং এর জনপ্রিয় উপশ্রেণি জেনারেটিভ এআই কতটা কাজে আসতে পারে। আমরা একটি নির্দেশিকা তৈরি করি, যা সাংবাদিকদের কৃত্রিম বুদ্ধিমত্তা ব্যবহারের সম্ভাবনা নিয়ে চিন্তা করতে সাহায্য করতে পারে। এটি তৈরির সময় আমরা জেনারেটিভ এআইয়ের ভুল তথ্য দেয়ার প্রবণতা (হ্যালুসিনেশন) এবং অন্যান্য মেশিন লার্নিং মডেলের ভুল করার সম্ভাবনাগুলোও বিবেচনায় আনি।
নিচে গ্রাফ আকারে আমরা আমাদের ভাবনাগুলো তুলে ধরেছি: একমাত্র তখনই আপনার রিপোর্টিংয়ে এআই ব্যবহার করাটা “নিরাপদ” হতে পারে, যখন এআইয়ের সাহায্যে করা কাজটি শতভাগ নির্ভুল না হলেও চলবে কিংবা ওই কাজটি কখনও প্রকাশের কোনো সম্ভবনা নেই। যেমন আপনি জেনারেটিভ এআই বা অন্যান্য মেশিন লার্নিং মডেল ব্যবহার করে বিশাল সব নথিপত্রকে বিভিন্ন ভাগে সাজাতে চান এবং পরবর্তীতে আরও বিস্তারিত পরীক্ষা করতে চান। এই শ্রেণিবিন্যাস হয়তো শতভাগ সঠিক নাও হতে পারে। কিংবা আপনার কাজে লাগবে এমন অনেক গুরুত্বপূর্ণ তথ্য বা নথি বাদ পড়তে পারে। এরপরও তা আপনার কাজে লাগতে পারে, বা এগুলো আপনাকে আরও গভীর অনুসন্ধানের সিদ্ধান্ত নিতে সাহায্য করতে পারে।
অন্যদিকে, ভবিষ্যতে প্রকাশ হবে এবং শতভাগ নির্ভুল হওয়া জরুরী—এমন কাজের বেলায় কখনও জেনারেটিভ এআই ব্যবহার করা উচিত নয়। যেমন, জেনারেটিভ এআই ব্যবহার করে গোটা একটি নিবন্ধ লেখা এবং হুবহু তা ছাপিয়ে দেয়া—ভুলেও এমনটি করবেন না। কারণ বৃহৎ ভাষার মডেলগুলোর মধ্যে “হ্যালুসিনেশন” প্রবণতা রয়েছে, অর্থাৎ এগুলো ভুল কিংবা বানোয়াট তথ্য তৈরি করতে পারে।

সংবাদ তৈরিতে জেনারেটিভ এআই ব্যবহারের ঝুঁকি মূল্যায়ন। ছবি: পুলিৎজার সেন্টার
আমাদের এই কাজের ক্ষেত্রে হুইসপার ব্যবহার করাটা ছিল পুরোপুরি যুক্তিযুক্ত। যদিও প্রতিলিপিগুলো (ট্রান্সক্রিপশন) পুরোপুরি সঠিক ছিল না, তবুও আমাদের বেশ কাজে আসে। কারণ এগুলো আমাদের বেশিরভাগ ভিডিওর মূল ভাব বুঝতে সাহায্য করেছিল। পাশাপাশি এমন সব ভিডিও চিহ্নিত করতে সাহায্য করে, যেগুলো আমরা আরও বিস্তারিতভাবে পরীক্ষা করতে চেয়েছিলাম। আর আমরা যেহেতু ট্রান্সক্রাইব করা এই লেখাগুলো কোথাও প্রকাশ করতে যাচ্ছি না, তাই আমাদের কাজের জন্য এই ধরনের মেশিন লার্নিং ব্যবহার করতেও নিরাপদ বোধ করেছি।
কনটেন্টের পরিমাণ কমানো
এ ট্রান্সক্রিপশনগুলো আমাদের আরও দুটি মেশিন লার্নিং প্রক্রিয়া ব্যবহার করে কনটেন্ট বিশ্লেষণের একটি ভালো উপায় খুঁজে পেতে সহায়তা করে। আর তা হচ্ছে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এবং টপিক মডেলিং।
ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) হলো এক ধরনের মেশিন লার্নিং। এটি বেশ বড় পরিমাণ টেক্সটকে ডেটায় রূপান্তর করতে দেয়, যেন আমরা তা বিশ্লেষণ করতে পারি। এনএলপি ব্যবহার করে সহজ কিছু বিশ্লেষণ করা সম্ভব। যেমন একটি শব্দের তালিকা তৈরি এবং শব্দগুলো কতবার ওই লেখায় এসেছে তা বের করা। বড় বড় প্রযুক্তি কোম্পানি, যেমন গুগল, এটি ব্যবহার করে শব্দ সংক্রান্ত অনুমান বা পূর্বাভাস ঠিক করে, যেমনটা প্রেডিক্টিভ সার্চ-এ ব্যবহৃত হয়।
এনএলপির আরো উন্নত সংস্করণ টপিক মডেলিং। যা এক ধরনের আনসুপারভাইজড মেশিন লার্নিং। এ টুলটি শব্দ বিশ্লেষণ করে দেখায় যে, কোন শব্দগুলো একসাথে বারবার ব্যবহৃত হচ্ছে বা পরস্পরের কাছাকাছি থাকছে। শব্দের মধ্যে থাকা সম্পর্ক বা মিল খুঁজে বের করে ওই শব্দগুলোকে একত্রিত করে। এভাবে বিশাল পরিমাণ লিখিত ডেটার মধ্যে লুকানো থিম বা বিষয়বস্তু খুঁজে বের করা সম্ভব হয়। পরবর্তীতে যা বিশ্লেষণ করে গবেষকরা অর্থ উদ্ধার করতে পারেন।

টপিক মডেলিং ব্যবহার করে প্রাপ্ত ফলাফল। ছবি: পিউ রিসার্চ সেন্টার
ট্রান্সক্রিপশন টুলগুলোকে ধন্যবাদ। এগুলো ব্যবহার করে আমরা আমাদের কাজের কিছু মৌলিক টপিক মডেলিং করতে সক্ষম হই, যা আমাদের থিম চিহ্নিত করতে সাহায্য করে। এভাবে আমরা আরও বেশি ভিডিও বিশ্লেষণের মাধ্যমে গভীর অনুসন্ধান চালাই [যেমন ঈশ্বর, অভিবাসনের মতো শব্দগুলো বের করা এবং সিবিপি ওয়ান (CBP One) অ্যাপ সম্পর্কে জানা। মার্কিন যুক্তরাষ্ট্রে প্রবেশের জন্য অভিবাসীরা এ অ্যাপটি ব্যবহার করে]।
সব কথার শেষ কথা, সুনির্দিষ্ট কিছু ভিডিও দেখা বা পর্যালোচনা কিংবা সংখ্যা কমাতে যে কোনো একটি পদ্ধতি ধরে অগ্রসর হওয়াটা আপনার কাজের জন্য সহায়ক হতে পারে। সবচেয়ে বেশি ভিউ পাওয়া ভিডিওগুলো নিয়ে বিস্তারিত তথ্য দেয়াটাও উপকারে আসতে পারে আপনার দর্শকদের। তবে যখন বিশাল সংখ্যক ভিডিও সামলাতে হয়— যেমন, দশ হাজারেরও বেশি ভিডিও, তখন র্যান্ডম স্যাম্পল হিসেবে ১ হাজার ভিডিও নিয়ে গভীর পর্যালোচনা করতে পারেন, যা ভালো কাজে আসে।
ভুল তথ্য নিয়ে লেখার সময়, বড় পরিমাণ কন্টেন্ট বিশ্লেষণ করে সামগ্রিক চিত্র তুলে ধরা (ম্যাক্রো-লেভেল অ্যানালাইসিস) এবং নির্দিষ্ট ভিডিওর উদাহরণ দিয়ে বিস্তারিতভাবে বিষয়টি বোঝানো (মাইক্রো-লেভেল ডিসক্রিপশন)—এ দুইটি পদ্ধতি একত্রিত করলে লেখাটি শক্তিশালী হয়।
প্রযুক্তি
গোটা প্রক্রিয়া জুড়ে, আমরা একটি পাইথন-ভিত্তিক কোড পাইপলাইন তৈরি করি। যা নীচের লেখাগুলোর সমন্বয়ে গঠিত:
- টিকটকের একটি ভিডিও থেকে লিঙ্ক বের করা।
- ভিডিওগুলো লোকাল ড্রাইভে ডাউনলোড করা।
- বিভিন্ন ভাষায় ভিডিওগুলোর স্বয়ংক্রিয় ট্রান্সক্রিপশন করা।
- ট্রান্সক্রিপশনগুলো দিয়ে মৌলিক টপিক মডেলিং করা।
এ লিংক থেকে আপনি এই স্ক্রিপ্টগুলো ডাউনলোড করতে পারেন: https://github.com/lamthuyvo/tiktok-analysis-pipeline
লাম থুই ভো একজন সাংবাদিক। বিভিন্ন নীতি ও পদ্ধতি ব্যক্তিকে কীভাবে প্রভাবিত করে—তথ্য বিশ্লেষণের সাথে মাঠ পর্যায়ের রিপোর্টিংয়ের মিশেলে তিনি তা তুলে ধরেন। বর্তমানে অনুসন্ধানী প্রতিবেদক হিসেবে অভিবাসী সম্প্রদায়ের জন্য নিবেদিত স্বাধীন ও অলাভজনক বার্তাকক্ষ ডকুমেন্টেডের জন্য কাজ করছেন। পাশাপাশি তিনি ক্রেগ নিউমার্ক গ্র্যাজুয়েট স্কুল অব জার্নালিজমে ডেটা সাংবাদিকতার সহযোগী অধ্যাপক। দ্য মার্কআপ, বাজফিড নিউজ, দ্য ওয়াল স্ট্রিট জার্নাল, আল জাজিরা আমেরিকা, এবং এনপিআর-এর প্ল্যানেট মানিতে সাংবাদিক হিসেবে তাঁর কাজের অভিজ্ঞতা রয়েছে।