প্রবেশগম্যতা সেটিংস

লেখাপত্র

বিষয়

টিকটকে ভুল তথ্য: ডকুমেন্টেড কীভাবে বিভিন্ন ভাষার শত শত ভিডিও যাচাই করেছে 

আর্টিকেলটি পড়ুন এই ভাষায়:

সম্পাদকের নোট: প্রতিবেদনটি পুলিৎজার সেন্টারের সাথে যৌথভাবে এখানে প্রকাশ হয়েছে। মূল অনুসন্ধানী প্রতিবেদনটি প্রকাশিত হয় ডকুমেন্টেডের ওয়েবসাইটে।   

এমন অসংখ্য লোক আছেন, যাঁরা স্রেফ টিকটকে পাওয়া তথ্যের ওপর ভিত্তি করে নিউইয়র্কের পথে পাড়ি জমিয়েছেন। স্বাধীন ও অলাভজনক সংবাদমাধ্যম ডকুমেন্টেড গত এক বছরে বিভিন্ন প্রতিবেদনের মাধ্যমে এ ধরনের অভিবাসীদের ওপর টিকটকের প্রভাবগুলো তুলে ধরেছে। নিউইয়র্কভিত্তিক স্বাধীন সংবাদমাধ্যম ডকুমেন্টেডের রিপোর্টারদের প্রতিবেদনের কেন্দ্রে আছেন নিউইয়র্কের অভিবাসীরা। তাঁরা চেয়েছেন গভীরে গিয়ে টিকটকের তথ্যের উৎসগুলো খুঁজতে চেয়েছেন।

সাধারণত, বিভিন্ন ভাষার ভুল ও বিভ্রান্তিকর তথ্য নিয়ে কাজ করাটা বেশ ঝক্কির। যারা ভুল তথ্য ছড়ায়, তারা প্রায়ই তাদের অ্যাকাউন্ট মুছে ফেলে। সাংবাদিকদের তাই ওই অ্যাকাউন্টগুলো নিষ্ক্রিয় (ডিঅ্যাকটিভ) হওয়ার আগেই তথ্য সংরক্ষণ করতে হয়। এ ধরনের অনুসন্ধানের জন্য আমাদের যে সব তথ্য প্রয়োজন তা প্রায়ই অডিও-ভিজ্যুয়াল ফরম্যাটে থাকে। ফলে সহজ বিশ্লেষণও জটিল হয়ে দাঁড়ায়। আবার কন্টেটগুলো পরিমাণে অনেক বেশি হওয়ায় কাগজে-কলমে (ম্যানুয়ালি) কাজ চালানোটাও অত্যন্ত কঠিন হয়ে পড়ে।

ডকুমেন্টেড এ জন্য বিভিন্ন সম্প্রদায়ের সাংবাদিক প্রতিনিধিদের সাথে কয়েক মাস কাজ করে টিকটকের ভুল তথ্য শনাক্তের জন্য প্রযুক্তি ও পদ্ধতিগত কিছু কৌশল আবিষ্কার করেছে।

এ লেখার মাধ্যমে আমরা আমাদের আবিষ্কারগুলো  বিশ্বের নানা প্রান্তের সাংবাদিক সম্প্রদায়ের সঙ্গে ভাগাভাগি করে নিতে চাই। আমাদের প্রত্যাশা যাঁরা আগ্রহী এই প্রতিবেদন তাঁদের কাজে আসবে।

কনটেন্ট সংরক্ষণ

ভুল তথ্য এবং বিভ্রান্তিকর প্রচারণাগুলো সাধারণত আচমকা শুরু হয়ে দ্রুতই মিলিয়ে যায়। তাই মিথ্যা তথ্য নিয়ে অনুসন্ধানের সময় গুরুত্বপূর্ণ অ্যাকাউন্টগুলো খুঁজে বের করে তা সংরক্ষণ করা জরুরি।

অ্যাকাউন্টগুলো বাছাই করা মূলত একটি সম্পাদনাগত সিদ্ধান্ত। আমাদের বেলায় আমরা যেমন অভিবাসীদের সঙ্গে কথা বলে তাদের টিকটক ব্যবহারের কারণগুলো ভালোভাবে বুঝতে চেষ্টা করেছি। আমরা দেখেছি, অনেক অভিবাসী অনলাইনে মার্কিন অভিবাসন ব্যবস্থা নিয়ে বিভ্রান্তিকর সব তথ্য পান। এরপর বিশেষজ্ঞদের সহায়তায় আমরা সাধারণ সমস্যাগুলো (যেমন প্রতারণামূলক স্ক্যামার) শনাক্ত করি এবং নির্দিষ্ট শব্দ ব্যবহার করে কীভাবে এসব অ্যাকাউন্ট খুঁজে বের করা যায় তা শিখি।

আমরা যেসব অ্যাকাউন্ট বিশ্লেষণ করতে চেয়েছি, তা খুঁজে পাওয়ার পর ওই ব্যক্তিদের প্রোফাইল ওয়েব ব্রাউজারে খুলি, পৃষ্ঠাটি স্ক্রোল করি যতক্ষণ না নতুন  কোনো ভিডিও লোড হয়। এরপর পুরো এইচটিএমএল (HTML) পেজ ডাউনলোড করি। পরে পাইথন স্ক্র্যাপার (এটি ব্যবহার করে ওয়েবসাইট থেকে স্বয়ংক্রিয়ভাবে ডেটা সংগ্রহ করা যায়) ব্যবহার করে প্রতিটি অ্যাকাউন্টের ভিডিও লিঙ্ক বের করি।

এরপর আমরা ওয়াইটি-ডিএলপি (yt-dlp) টুল (এটি দিয়ে বিভিন্ন সাইট থেকে অডিও/ভিডিও নামানো যায়) ব্যবহার করে প্রতিটি ভিডিও, এর মেটাডেটা ডাউনলোড করি এবং তা লোকাল ড্রাইভে সংরক্ষণ করি। (বিশেষ কৃতজ্ঞতা ওয়াশিংটন পোস্টের ক্যাটলিন গিলবার্ট এবং বেলিংক্যাট দলকে, যাঁরা আমাদের এই লাইব্রেরিটির কথা জানিয়েছিলেন)।

স্বয়ংক্রিয় প্রতিলিপি তৈরি

ভিডিও নিয়ে কাজ করা অনেক কঠিন। কারণ এক এক করে প্রতিটি ভিডিও দেখতে বসলে আপনার অনেক সময় চলে যাবে। কাজের পরিমাণ কমাতে এবং ডাউনলোড করা ভিডিওগুলো সম্পর্কে প্রাথমিক ধারণা পেতে, আমরা  হুইসপার (Whisper)-এর ওপেন-সোর্স সংস্করণ ব্যবহার করে ভিডিওগুলো স্বয়ংক্রিয়ভাবে ট্রান্সক্রাইব (প্রতিলিপি) করার সিদ্ধান্ত নিই। ওপেনএআইয়ের ট্রান্সক্রিপশন স্পিচ রিকগনিশন মডেলটি বিভিন্ন ভাষায় কাজ করতে সক্ষম। তবে মডেলটির কার্যকারিতা ভাষাভেদে ভিন্ন হতে পারে। আমরা ভিয়েতনামিজ এবং স্প্যানিশ ভাষা পরীক্ষা করেছি। দেখা যায়, ভিয়েতনামিজ প্রতিলিপিগুলো পুরোপুরি অকাজের। আর স্প্যানিশ সংস্করণে কিছু সমস্যা থাকলেও বেশ নির্ভুল ছিল, যা আমাদের কাজ চালিয়ে যাওয়ার জন্য যথেষ্ট।

মেশিন লার্নিং মডেল, যেমন হুইসপার (একটি বিশেষ ধরনের মেশিন লার্নিং মডেল, যাকে ট্রান্সফর্মার বলা হয়), কতটা কার্যকর হবে তা পুরোপুরি নির্ভর করে মডেলটিকে কোন ধরনের ডেটা দিয়ে প্রশিক্ষিত করা হয়েছে এবং কোন ভাষাগুলোকে অগ্রাধিকার দেয়া হয়েছে তার ওপর।

এমআইটির টেক রিভিউয়ের প্রতিবেদন অনুসারে ডেটা প্রোভেনেন্স ইনিশিয়েটিভের নতুন গবেষণায় উঠে এসেছে, এআই (কৃত্রিম বুদ্ধিমত্তা) প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের ৯০ শতাংশেরও বেশি হচ্ছে ইউরোপ ও উত্তর আমেরিকার। আর আফ্রিকার ডেটা রয়েছে ৪ শতাংশেরও কম। এ গবেষণায় প্রযুক্তি খাত ও বিশ্ববিদ্যালয়ের ৫০ জনেরও বেশি গবেষক অংশ নেন।

সাধারণভাবে কৃত্রিম বুদ্ধিমত্তা নামে পরিচিত মেশিন লার্নিং মডেল এবং অন্যান্য প্রযুক্তি ব্যবহারের ক্ষেত্রে বড় ধরনের সতর্কবার্তা হচ্ছে: এই মডেলগুলো ব্যবহার করে করা কাজগুলো সবসময় শতভাগ সঠিক নাও হতে পারে।

A graphic representation of the many technologies comprising the term artificial intelligence. Machine learning is a subcategory of artificial intelligence and deep learning and generative AI are specific types of machine learning.

গ্রাফিক্সের মাধ্যমে কৃত্রিম বুদ্ধিমত্তার বিভিন্ন সংস্করণের চিত্র এখানে তুলে ধরা হয়েছে। মেশিন লার্নিং হচ্ছে কৃত্রিম বুদ্ধিমত্তার একটি উপশ্রেণি। ডিপ লার্নিং ও জেনারেটিভ এআই হলো মেশিন লার্নিংয়ের সুনির্দিষ্ট ধরন। ছবি: কারেন হাও, পুলিৎজার সেন্টার

সাংবাদিক কারেন হাও, গ্যাব্রিয়েল গিগার এবং আমি পুলিৎজার সেন্টারের সাথে এআই নিয়ে একাধিক কর্মশালা করেছি। মূলত এ সময়টাতেই আমরা ভাবতে শুরু করি যে, সাংবাদিকতার ক্ষেত্রগুলোতে মেশিন লার্নিং এবং এর জনপ্রিয় উপশ্রেণি জেনারেটিভ এআই কতটা কাজে আসতে পারে। আমরা একটি নির্দেশিকা তৈরি করি, যা সাংবাদিকদের কৃত্রিম বুদ্ধিমত্তা ব্যবহারের সম্ভাবনা নিয়ে চিন্তা করতে সাহায্য করতে পারে। এটি তৈরির সময় আমরা জেনারেটিভ এআইয়ের ভুল তথ্য দেয়ার প্রবণতা (হ্যালুসিনেশন) এবং অন্যান্য মেশিন লার্নিং মডেলের ভুল করার সম্ভাবনাগুলোও বিবেচনায় আনি।

নিচে গ্রাফ আকারে আমরা আমাদের ভাবনাগুলো তুলে ধরেছি: একমাত্র তখনই আপনার রিপোর্টিংয়ে এআই ব্যবহার করাটা “নিরাপদ” হতে পারে, যখন এআইয়ের সাহায্যে করা কাজটি শতভাগ নির্ভুল না হলেও চলবে কিংবা ওই কাজটি কখনও প্রকাশের কোনো সম্ভবনা নেই। যেমন আপনি জেনারেটিভ এআই বা অন্যান্য মেশিন লার্নিং মডেল ব্যবহার করে বিশাল সব নথিপত্রকে বিভিন্ন ভাগে সাজাতে চান এবং পরবর্তীতে আরও বিস্তারিত পরীক্ষা করতে চান। এই শ্রেণিবিন্যাস হয়তো শতভাগ সঠিক নাও হতে পারে। কিংবা আপনার কাজে লাগবে এমন অনেক গুরুত্বপূর্ণ তথ্য বা নথি বাদ পড়তে পারে। এরপরও তা আপনার কাজে লাগতে পারে, বা এগুলো আপনাকে আরও গভীর অনুসন্ধানের সিদ্ধান্ত নিতে সাহায্য করতে পারে।

অন্যদিকে, ভবিষ্যতে প্রকাশ হবে এবং শতভাগ নির্ভুল হওয়া জরুরী—এমন কাজের বেলায় কখনও জেনারেটিভ এআই ব্যবহার করা উচিত নয়। যেমন, জেনারেটিভ এআই ব্যবহার করে গোটা একটি নিবন্ধ লেখা এবং হুবহু তা ছাপিয়ে দেয়া—ভুলেও এমনটি করবেন না। কারণ বৃহৎ ভাষার মডেলগুলোর মধ্যে “হ্যালুসিনেশন” প্রবণতা রয়েছে, অর্থাৎ এগুলো ভুল কিংবা বানোয়াট তথ্য তৈরি করতে পারে।

সংবাদ তৈরিতে জেনারেটিভ এআই ব্যবহারের ঝুঁকি মূল্যায়ন। ছবি: পুলিৎজার সেন্টার

আমাদের এই কাজের ক্ষেত্রে হুইসপার ব্যবহার করাটা ছিল পুরোপুরি যুক্তিযুক্ত। যদিও প্রতিলিপিগুলো (ট্রান্সক্রিপশন) পুরোপুরি সঠিক ছিল না, তবুও আমাদের বেশ কাজে আসে। কারণ এগুলো আমাদের বেশিরভাগ ভিডিওর মূল ভাব বুঝতে সাহায্য করেছিল। পাশাপাশি এমন সব ভিডিও চিহ্নিত করতে সাহায্য করে, যেগুলো আমরা আরও বিস্তারিতভাবে পরীক্ষা করতে চেয়েছিলাম। আর আমরা যেহেতু ট্রান্সক্রাইব করা এই লেখাগুলো কোথাও প্রকাশ করতে যাচ্ছি না, তাই আমাদের কাজের জন্য এই ধরনের মেশিন লার্নিং ব্যবহার করতেও নিরাপদ বোধ করেছি।

কনটেন্টের পরিমাণ কমানো

এ ট্রান্সক্রিপশনগুলো আমাদের আরও দুটি মেশিন লার্নিং প্রক্রিয়া ব্যবহার করে কনটেন্ট বিশ্লেষণের একটি ভালো উপায় খুঁজে পেতে সহায়তা করে। আর তা হচ্ছে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এবং টপিক মডেলিং।

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) হলো এক ধরনের মেশিন লার্নিং। এটি বেশ বড় পরিমাণ টেক্সটকে ডেটায় রূপান্তর করতে দেয়, যেন আমরা তা বিশ্লেষণ করতে পারি। এনএলপি ব্যবহার করে সহজ কিছু বিশ্লেষণ করা সম্ভব। যেমন একটি শব্দের তালিকা তৈরি এবং শব্দগুলো কতবার ওই লেখায় এসেছে তা বের করা। বড় বড় প্রযুক্তি কোম্পানি, যেমন গুগল, এটি ব্যবহার করে শব্দ সংক্রান্ত অনুমান বা পূর্বাভাস ঠিক করে, যেমনটা প্রেডিক্টিভ সার্চ-এ ব্যবহৃত হয়।

এনএলপির আরো উন্নত সংস্করণ টপিক মডেলিং। যা এক ধরনের আনসুপারভাইজড মেশিন লার্নিং। এ টুলটি শব্দ বিশ্লেষণ করে দেখায় যে, কোন শব্দগুলো একসাথে বারবার ব্যবহৃত হচ্ছে বা পরস্পরের কাছাকাছি থাকছে। শব্দের মধ্যে থাকা সম্পর্ক বা মিল খুঁজে বের করে ওই শব্দগুলোকে একত্রিত করে। এভাবে বিশাল পরিমাণ লিখিত ডেটার মধ্যে লুকানো থিম বা বিষয়বস্তু খুঁজে বের করা সম্ভব হয়। পরবর্তীতে যা বিশ্লেষণ করে গবেষকরা অর্থ উদ্ধার করতে পারেন।

Sample topic modeling outcome

টপিক মডেলিং ব্যবহার করে প্রাপ্ত ফলাফল। ছবি: পিউ রিসার্চ সেন্টার

ট্রান্সক্রিপশন টুলগুলোকে ধন্যবাদ। এগুলো ব্যবহার করে আমরা আমাদের কাজের কিছু মৌলিক টপিক মডেলিং করতে সক্ষম হই, যা আমাদের থিম চিহ্নিত করতে সাহায্য করে। এভাবে আমরা আরও বেশি ভিডিও বিশ্লেষণের মাধ্যমে গভীর অনুসন্ধান চালাই [যেমন ঈশ্বর, অভিবাসনের মতো শব্দগুলো বের করা  এবং সিবিপি ওয়ান (CBP One) অ্যাপ সম্পর্কে জানা। মার্কিন যুক্তরাষ্ট্রে প্রবেশের জন্য অভিবাসীরা এ অ্যাপটি ব্যবহার করে]।

সব কথার শেষ কথা, সুনির্দিষ্ট কিছু ভিডিও দেখা বা পর্যালোচনা কিংবা সংখ্যা কমাতে যে কোনো একটি পদ্ধতি ধরে অগ্রসর হওয়াটা আপনার কাজের জন্য সহায়ক হতে পারে। সবচেয়ে বেশি ভিউ পাওয়া ভিডিওগুলো নিয়ে বিস্তারিত তথ্য দেয়াটাও উপকারে আসতে পারে আপনার দর্শকদের। তবে যখন বিশাল সংখ্যক ভিডিও সামলাতে হয়— যেমন, দশ হাজারেরও বেশি ভিডিও, তখন র‍্যান্ডম স্যাম্পল হিসেবে ১ হাজার ভিডিও নিয়ে গভীর পর্যালোচনা করতে পারেন, যা ভালো কাজে আসে।

ভুল তথ্য নিয়ে লেখার সময়, বড় পরিমাণ কন্টেন্ট বিশ্লেষণ করে সামগ্রিক চিত্র তুলে ধরা (ম্যাক্রো-লেভেল অ্যানালাইসিস) এবং নির্দিষ্ট ভিডিওর উদাহরণ দিয়ে বিস্তারিতভাবে বিষয়টি বোঝানো (মাইক্রো-লেভেল ডিসক্রিপশন)—এ দুইটি পদ্ধতি একত্রিত করলে লেখাটি শক্তিশালী হয়।

প্রযুক্তি

গোটা প্রক্রিয়া জুড়ে, আমরা একটি পাইথন-ভিত্তিক কোড পাইপলাইন তৈরি করি। যা নীচের লেখাগুলোর সমন্বয়ে গঠিত:

  • টিকটকের একটি ভিডিও থেকে লিঙ্ক বের করা।
  • ভিডিওগুলো লোকাল ড্রাইভে ডাউনলোড করা।
  • বিভিন্ন ভাষায় ভিডিওগুলোর স্বয়ংক্রিয় ট্রান্সক্রিপশন করা।
  • ট্রান্সক্রিপশনগুলো দিয়ে মৌলিক টপিক মডেলিং করা।

এ লিংক থেকে আপনি এই স্ক্রিপ্টগুলো ডাউনলোড করতে পারেন: https://github.com/lamthuyvo/tiktok-analysis-pipeline


Lam Thuy No Undocumentedলাম থুই ভো একজন সাংবাদিক। বিভিন্ন নীতি ও পদ্ধতি ব্যক্তিকে কীভাবে প্রভাবিত করে—তথ্য বিশ্লেষণের সাথে মাঠ পর্যায়ের রিপোর্টিংয়ের মিশেলে তিনি তা তুলে ধরেন। বর্তমানে অনুসন্ধানী প্রতিবেদক হিসেবে অভিবাসী সম্প্রদায়ের জন্য নিবেদিত স্বাধীন ও অলাভজনক বার্তাকক্ষ ডকুমেন্টেডের জন্য কাজ করছেন। পাশাপাশি তিনি ক্রেগ নিউমার্ক গ্র্যাজুয়েট স্কুল অব জার্নালিজমে ডেটা সাংবাদিকতার সহযোগী অধ্যাপক। দ্য মার্কআপ, বাজফিড নিউজ, দ্য ওয়াল স্ট্রিট জার্নাল, আল জাজিরা আমেরিকা, এবং এনপিআর-এর প্ল্যানেট মানিতে সাংবাদিক হিসেবে তাঁর কাজের অভিজ্ঞতা রয়েছে।

 

ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে আমাদের লেখা বিনামূল্যে অনলাইন বা প্রিন্টে প্রকাশযোগ্য

লেখাটি পুনঃপ্রকাশ করুন


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

পরবর্তী

পরামর্শ ও টুল

কীভাবে যেকোনো রিপোর্টারই এখন পৃথিবীর যেকোনো জায়গার মানসম্পন্ন ও বিনামূল্যের স্যাটেলাইট ছবি সংগ্রহ করতে পারেন

অনুসন্ধানী সাংবাদিকতায় স্যাটেলাইট ইমেজ বিশ্লেষণ এখন গুরুত্বপূর্ণ অনুষঙ্গ। মজার ব্যাপার হলো এই ইমেজ বেশিরভাগক্ষেত্রে পাওয়া যায় বিনামূল্যে। স্যাটেলাইট ইমেজের উৎসগুলো কি, কীভাবে ব্যবহার করবেন দেখে নিন এই প্রতিবেদনে।

অনুসন্ধান পদ্ধতি ডেটা সাংবাদিকতা

ইউরোপীয় সীমান্তে অজ্ঞাতনামা অভিবাসীদের গণকবর নথিভুক্ত করা 

ভ-মধ্যসাগর পাড়ি দিয়ে ইউরোপে পৌঁছানোর আশায় কত তরুণই না দেশ ছাড়েন প্রতিনিয়ত। তাঁদের অনেকেই শেষ পর্যন্ত গন্তব্যে পৌঁছাতে পারেন না। প্রাণ হারিয়ে অজ্ঞাতনামা হিসেবে কবরস্ত হন। দেখুন সাংবাদিকদের একটি দল ১০ বছর ধরে কীভাবে খুঁজে বের করেছেন সহস্রাধিক বেনামী কবর।

পরামর্শ ও টুল সুরক্ষা ও নিরাপত্তা

কেউ কি আপনাকে অনুসরণ করছে? নজরদারির শিকার সাংবাদিকদের জন্য পরামর্শ 

আপনাকে কি কেউ অনুসরণ করছে? মনে করে দেখুন তো সাম্প্রতিক কোনো প্রতিবেদনের কারণে কারও চক্ষুশূল হয়েছেন কি না? শুধু ফোনে আড়ি পেতেই কিন্তু ওরা ক্ষান্ত হয়না। আপনার পিছু নেয়। নজরদারিতে পড়েছেন কিনা জানতে পড়ুন এই প্রতিবেদনটি।

অনুসন্ধান পদ্ধতি জেন্ডার

ডেটা ব্যবহার করে কাঠামোগত লিঙ্গভিত্তিক সহিংসতা উন্মোচন—১০টি ধাপ

জেন্ডার সহিংসতা নিয়ে অনুসন্ধানে ডেটার ব্যবহার কীভাবে করবেন? জেনে নিন এই প্রতিবেদনে।