প্রবেশগম্যতা সেটিংস

জিআইজেসি২৩-তে ডেটা স্ক্র্যাপিং কর্মশালা। ছবি: জিআইজেএনের জন্য স্মারন্দা তোলোসানো

লেখাপত্র

রিসোর্স

» টিপশীট

বিষয়

কোডিংয়ের প্রয়োজন নেই: ডেটা মাইনার দিয়ে ধাপে ধাপে ওয়েবসাইট স্ক্র্যাপিংয়ের পদ্ধতি

আর্টিকেলটি পড়ুন এই ভাষায়:

ডেটা কোথায় খুঁজতে এবং কীভাবে অ্যাক্সেস করতে হবে, তা জানা অনুসন্ধানী সাংবাদিকদের অগ্রাধিকার হওয়া উচিৎ। ডেটার কার্যকর ব্যবহার শুধুমাত্র অনুসন্ধানের সামগ্রিক গুণমানকে উন্নত করে না, জনসেবার ক্ষেত্রে তার মূল্যও বাড়িয়ে দেয়। 

গত ২০ বছরে, সঞ্চিত ডেটার পরিমাণ অভূতপূর্ব হারে বৃদ্ধি পেয়েছে। ইন্টারন্যাশনাল ডেটা কর্পোরেশন (আইডিসি) বলছে, ২০২৫ সালের মধ্যে বিশ্বে মোট ডেটার পরিমাণ ১৭৫ জেটাবাইটে পৌঁছবে (এক জেটাবাইট সমান এক ট্রিলিয়ন গিগাবাইট; বিষয়টিকে ব্যাখ্যা করতে আইডিসি এভাবে বলে যে, কেউ যদি ডিভিডিতে ২০২৫ পরিমাণ ডেটাস্ফিয়ার সংরক্ষণ করতে সক্ষম হয়, তাহলে সারিবদ্ধভাবে রাখা ডিভিডিগুলো দিয়ে ২২২ বার পৃথিবীকে ঘিরে ফেলা সম্ভব হতে পারে।)

কোনো কোনো হিসাবে দাবি করা হয় যে শুধু গুগল, ফেসবুক, মাইক্রোসফট ও অ্যামাজনেরই অন্তত ১২০০ পেটাবাইট (এক পেটাবাইট = এক মিলিয়ন গিগাবাইট) ডেটা আছে। আগের তুলনায় অনুসন্ধানী ও ডেটা সাংবাদিকেরা এখন অনেক বেশি পরিমাণগত, গুণগত ও শ্রেণীবদ্ধ ডেটা ব্যবহার করছেন — যদিও কার্যকর ডেটা প্রাপ্তি এখনও একটি চ্যালেঞ্জ।

অসম্পূর্ণ বা ভুয়া ডেটার সমুদ্র থেকে (মিথ্যা, কুরুচিপূর্ণ, ত্রুটিযুক্ত, বা “দুষ্ট ডেটা“, জাল ডেটা, বিক্ষিপ্ত ডেটা, এবং অস্পষ্ট ডেটা) পরিষ্কারভাবে সংজ্ঞায়িত, মানসম্মত ও বিশ্লেষণের জন্য সুবিন্যস্ত ডেটা খোঁজা এবং পাওয়া এখনো কঠিনই রয়ে গেছে, তা সে যে বিষয়েরই হোক। আর এই সমস্যা সমাধানের উপায় হলো ডেটা সাক্ষরতা বৃদ্ধি: আমাদের বুঝতে হবে কীভাবে ডেটা সংগ্রহ, সংশোধন, যাচাই, বিশ্লেষণ এবং চিত্রায়ন করা হয়, কারণ এটি একটি আন্তঃসংযুক্ত প্রক্রিয়া। সাংবাদিকদের জন্য, ডেটা সাক্ষরতা ভীষণ জরুরী।

সাংবাদিকতার যে কোনো ধারা চর্চার মতোই ডেটা সাংবাদিকতার ক্ষেত্রেও আমরা ডেটা অ্যাক্সেস করার বিভিন্ন উপায় খুঁজি। যেমন: ফাঁস হওয়া তথ্য, হাজার হাজার পিডিএফ ফাইল, বা ওয়েবসাইটে সংরক্ষিত তালিকা— হয়তো সেগুলো বিন্যস্ত বা সুসংগঠিত নয়। তবে এর মধ্যেও কিছু ডেটা আছে, যেখানে প্রবেশ করা সহজ। বাকি ডেটাতে প্রবেশের জন্য প্রযুক্তির প্রয়োজন পড়ে, যা সময়সাপেক্ষও।

যাইহোক, কিছু টুল ও পদ্ধতি রয়েছে যা এটিকে সুলভ ও সহজ করে তোলে— যেমন ওয়েবসাইট থেকে ডেটা স্ক্র্যাপ করা। স্ক্র্যাপ করার অর্থ হলো ওয়েবসাইট থেকে নির্দিষ্ট ডেটা সংগ্রহ কিংবা অনুলিপির জন্য কম্পিউটার প্রোগ্রাম বা সফটওয়্যার ব্যবহার করা। এ পদ্ধতিটি ডেটা সংগ্রহ বা বিশ্লেষণে কাজে আসে। এটি হাতেকলমে ডেটা সংগ্রহের তুলনায় দ্রুত ও বেশি কার্যকর।

ডেটা স্ক্র্যাপিং থেকে সাংবাদিকেরা যে সুবিধাগুলো পেতে পারেন:

১. গতিশীলতা সুযোগ: ডেটা স্ক্র্যাপিং, সাংবাদিকদের দ্রুত ও কার্যকরভাবে তথ্য সংগ্রহের সুযোগ করে দেয়। ইন্টারনেট জুড়ে বিভিন্ন উৎস থেকে ডেটা সংগ্রহ আপনাকে একটি প্রশস্ত দৃষ্টিকোণ দেওয়ার পাশাপাশি আপনার গল্পগুলোকে আরও শক্ত ভিত্তির উপর দাঁড় করাতে সহায়তা করে।

২. যাচাই: ডেটা স্ক্র্যাপিং সাংবাদিকদের যাচাইকরণ প্রক্রিয়ায় সহায়তা করতে পারে। আপনি ওয়েবে তথ্য ও তথ্যগত দ্বন্দ্বগুলো পরীক্ষা করতে বিভিন্ন ডেটার মধ্যে তুলনা করতে পারেন, যা তথ্য যাচাই এবং বিশ্বাসযোগ্যতা বাড়াতে সহায়তা করে।

৩. প্রবণতা উন্মোচন: ডেটা স্ক্র্যাপিং একটি নির্দিষ্ট বিষয় বা ঘটনার প্যাটার্ন উন্মোচন করতে পারে। যেমন, বৃহৎ ডেটাসেট বিশ্লেষণ করে আপনি সোশ্যাল মিডিয়ায় বা জনমতের প্রবণতা বুঝতে পারেন এবং এ তথ্যগুলোকে আপনার সংবাদে তুলে ধরতে পারেন।

৪. ডেটা ভিজ্যুয়ালাইজেশন: ডেটা স্ক্র্যাপিংয়ের মাধ্যমে সংগৃহীত তথ্যগুলো চিত্রের সাহায্যে তুলে ধরা আপনার গল্পকে আরও সহজভাবে উপস্থাপনে সহায়তা করে। গ্রাফ, চার্ট ও ইন্টারঅ্যাক্টিভ ভিজ্যুয়াল ব্যবহার করে আপনি ডেটাকে আরও বোধগম্যভাবে তুলে ধরতে পারেন এবং পাঠকদের বিষয়টি সম্পর্কে আরও ভালোভাবে বোঝার সুযোগ করে দিতে পারেন।

৫.গভীর অনুসন্ধানে সক্ষম করা: ডেটা স্ক্র্যাপিং সাংবাদিকদের আরও গভীর গবেষণায় নিয়োজিত হতে সহায়তা করে। বৃহৎ ডেটাসেট বিশ্লেষণ করে, বিশেষ করে আর্থিক ডেটার ক্ষেত্রে আপনি কোম্পানির কর্মকাণ্ড বা সরকারী নীতিগুলো সম্পর্কে বিশদ জ্ঞান অর্জন করতে পারেন।

৬. সংবাদের মান বৃদ্ধি: ডেটা স্ক্র্যাপিং খবরের উপযোগী প্রতিবেদন তৈরিতে নেতৃত্ব দিতে পারে। পরিসংখ্যান, প্রবণতা, জনসংখ্যা বা অন্যান্য ডেটা আপনার গল্পগুলোকে অনেক বেশি জোরালো ও আকর্ষণীয় করে তুলতে পারে।

ডেটা মাইনার হচ্ছে তথ্য সংগ্রহের একটি টুল ও ব্রাউজার এক্সটেনশন, যা ওয়েবপেজগুলোকে স্ক্র্যাপ করে ব্যবহারকারীকে দ্রুত নির্ভরযোগ্য তথ্য সংগ্রহ করতে সাহায্য করে। এটি স্বয়ংক্রিয়ভাবে ওয়েবপেজ থেকে ডেটা সংগ্রহ করে এবং এক্সেল, সিএসভি বা জেসন (JSON) ফরম্যাটে সংরক্ষণ করার সুযোগ করে দেয়।

যাই হোক, মনে রাখবেন, কোনো ওয়েবসাইট থেকে ব্যাপকভাবে ডেটা সংগ্রহের কাজটি সাইটের শর্ত বা আইনের পরিপন্থী হতে পারে। তাই কোনো ব্রাউজার এক্সটেনশন বা প্লাগইন ব্যবহার করার আগে ওয়েবসাইটের ডেটা ব্যবহারের শর্তাবলী সাবধানে পড়ুন এবং সমস্ত আইনি নিয়ম ও প্রবিধান মেনে কাজ করুন। তাছাড়া আপনি যে এক্সটেনশনটি ব্যবহার করছেন, তার পরিষেবার শর্তও পর্যালোচনা করুন।

এ নিবন্ধটির লেখক ও জিআইজেএনের তুর্কি সম্পাদক পিনার দা গোথেনবার্গের জিআইজেসি২৩ সম্মেলনে ডেটা মাইনার ব্যবহার সম্পর্কে বলছেন । ছবি: স্মারন্দা তোলোসানো, জিআইজেএন

সাংবাদিকেরা যেভাবে ডেটা মাইনার ব্যবহার করতে পারেন

ডেটা মাইনারের মাধ্যমে ব্রাউজার এক্সটেনশনসহ ওয়েবসাইট স্ক্র্যাপ করার বিভিন্ন পদক্ষেপ এখানে উল্লেখ করা হলো—

১.আপনার ব্রাউজারে ডেটা মাইনার অ্যাডঅন ইনস্টল করুন। সাধারণত ক্রোম বা ফায়ারফক্সের মতো ব্রাউজারের জন্য অ্যাড-অনটি পাওয়া যায়। আপনার ব্রাউজারের অ্যাড-অন স্টোর থেকে ডেটা মাইনার অ্যাড-অন খুঁজুন এবং ইনস্টল করুন।

ছবি: স্ক্রিনশট

২. আপনার টার্গেট করা ওয়েবসাইটে যান। যে ওয়েবসাইটটি থেকে আপনি ডেটা স্ক্র্যাপ করতে চান সেটি ব্রাউজারে ওপেন করুন এবং এর এক্সটেনশন চালু করুন। অন্য কথায়, আপনার ব্রাউজারে এক্সটেনশন/প্লাগইন মেনুতে ডেটা মাইনার খুঁজুন ও ওপেন করুন। এক্সটেনশনটি সাধারণত আপনার ব্রাউজারের ওপরের ডানদিকে থাকবে।

ছবি: স্ক্রিনশট

ছবি: স্ক্রিনশট

. ওয়েব স্ক্র্যাপিংয়ের জন্য একটি নতুন টাস্ক তৈরি করুন। ডেটা মাইনার এক্সটেনশনে একটি “মাই রেসিপি” বিকল্প অপশন রয়েছে। নতুন ওয়েব স্ক্র্যাপিং টাস্ক তৈরি করতে এ বিকল্পটিতে ক্লিক করুন। কাজ চালিয়ে যাওয়ার জন্য আপনাকে একটি কমান্ড স্ক্রিন দেওয়া হবে।

ছবি: স্ক্রিনশট

৪. ওয়েবসাইট স্ক্র্যাপ করার জন্য বিকল্প সেট করুন: ডেটা মাইনারে একটি ওয়েবসাইট স্ক্র্যাপ করার জন্য বিভিন্ন বিকল্প সেটিংস রয়েছে। যেমন, আপনি কোন ধরনের ডেটা স্ক্র্যাপ করতে চান তা ঠিক করতে পারেন। স্বয়ংক্রিয়ভাবেও ডেটা সংগ্রহ করার বিষয়গুলোও সেট করতে পারেন; যেমন, পেজ নেভিগেশন বা ফর্ম পূরণ।

ছবি: স্ক্রিনশট

৫. ওয়েবসাইট স্ক্র্যাপ করা শুরু করুন। সেটিংস চূড়ান্ত করার পর আপনি ডেটা মাইনার এক্সটেনশন ড্যাশবোর্ডে “স্ক্র্যাপ” অপশনে ক্লিক করে ডেটা স্ক্র্যাপিং শুরু করতে পারেন। এক্সটেনশনটি ওয়েবসাইটটি ক্রল করবে এবং আপনার হয়ে নির্দিষ্ট ডেটা সংগ্রহ করবে। ( সংক্ষিপ্ত এ ভিডিওতে সম্পূর্ণ প্রক্রিয়াটি দেখতে পারেন।)

৬. ডেটা সংরক্ষণ বা এক্সপোর্ট করুন। আপনার স্ক্র্যাপ করা ডেটাগুলোকে আপনি একটি সিএসভি ফাইল বা এক্সেল স্প্রেডশিট হিসাবে সংরক্ষণ করতে পারেন। ক্লিপবোর্ড ফিচার ব্যবহার করে স্ক্র্যাপিং স্ক্রিনটির অনুলিপি তৈরি করতে পারেন— এ ফিচারটি বেশ সুবিধাজনক এবং সময়ও বাঁচায়। যদি আপনার স্ক্র্যাপ করা ডেটা ১০ হাজার সারির বেশি হয় তবে তা দুটি পৃথক ফাইল হিসাবে ডাউনলোড হবে।

ছবি: স্ক্রিনশট

উল্লিখিত পদক্ষেপগুলো অনুসরণের মাধ্যমে আপনি ডেটা মাইনার ব্যবহার করে এক বা একাধিক ওয়েবসাইট স্ক্র্যাপ করতে পারেন। এছাড়া আপনি ডেটা স্ক্র্যাপিংয়ের ৬০ হাজারের বেশি নিয়মের মধ্যে থেকে যে কোনও একটি ব্যবহার করতে পারেন, বা ওয়েবপেজ থেকে প্রয়োজনীয় ডেটা পেতে আপনার নিজস্ব কাস্টমাইজড ডেটা স্ক্র্যাপিং পদ্ধতি তৈরি করে নিতে পারেন, কারণ একক পেজ বা বহু-পেজের জন্য স্বয়ংক্রিয় স্ক্র্যাপিং তৈরি করা সম্ভব।

আপনি স্বয়ংক্রিয় স্ক্র্যাপিং ব্যবহার করতে পারেন এবং ওয়েবসাইট ইউআরএলের তালিকার ওপর ভিত্তি করে ক্রমানুসারে স্ক্র্যাপিং চালাতে পারেন। এছাড়াও, ১৫ হাজারের বেশি জনপ্রিয় ওয়েবসাইটের জন্য আগে থেকে তৈরি ৫০ হাজারের বেশি প্রশ্ন কোনো ধরনের অর্থ খরচ ছাড়াই ব্যবহার করতে পারেন। ইউআরএলগুলো ক্রল করতে পারেন, তা পেজ অনুসারে সাজাতে পারেন এবং একটি একক লোকেশন থেকে একটি একক পৃষ্ঠা স্ক্র্যাপ করতে পারেন — আর এ কাজটি করতে কোনো কোডিংয়ের প্রয়োজন নেই৷

এক্সটেনশন ব্যবহারের আরও কিছু সুবিধা রয়েছে।

  • এটি আপনাকে নিরাপদ ও সুরক্ষিতভাবে ডেটা ব্যবহারে সহায়তা করে: এটি এমনভাবে কাজ করে আপনার মনে হবে, আপনি নিজের ব্রাউজারে নিজেই পেজটিতে ক্লিক করছেন।
  • কোন ধরনের উদ্বেগ ছাড়াই এটি আপনাকে স্ক্র্যাপ করতে সহায়তা করে: এটি কোনো বট নয়, তাই আপনি যখন কোনো কোয়েরি করবেন তখন আপনাকে ব্লক করবে না।
  • এটি আপনার তথ্য গোপন রাখে: অ্যাড-অন আপনার ডেটা বিক্রি বা শেয়ার করে না।

পিনার দাগ জিআইজেএন তুর্কি সম্পাদক ও কাদির হাস বিশ্ববিদ্যালয়ের একজন প্রভাষক। তিনি ডেটা লিটারেসি অ্যাসোসিয়েশন, ডেটা জার্নালিজম প্ল্যাটফর্ম তুরস্ক এবং দাগমিডিয়ার সহ-প্রতিষ্ঠাতা। ডেটা সাক্ষরতা, ওপেন ডেটা, ডেটা ভিজ্যুয়ালাইজেশন এবং ডেটা সাংবাদিকতা নিয়ে কাজ করেন। এছাড়া তিনি সিগমা ডেটা জার্নালিজম অ্যাওয়ার্ডের জুরি বোর্ডের সদস্য।

ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে আমাদের লেখা বিনামূল্যে অনলাইন বা প্রিন্টে প্রকাশযোগ্য

লেখাটি পুনঃপ্রকাশ করুন


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

পরবর্তী

টিপশীট ডেটা সাংবাদিকতা পরামর্শ ও টুল

টিপশিট: আপনার অনুসন্ধানে কীভাবে সামুদ্রিক ডেটা ব্যবহার করবেন

সমুদ্র সংক্রান্ত ডেটার ধরন হতে পারে বহুবিচিত্র। সমুদ্রে দূষণ, জীববৈচিত্র্য পরিস্থিতি অথবা অর্থবাণিজ্য— এমন বিভিন্ন ধরনের ডেটা, সাংবাদিকেরা ব্যবহার করতে পারেন তাদের রিপোর্টিংয়ে। এই টিপশিটে পাবেন অনুসন্ধানে সামুদ্রিক ডেটা ব্যবহারের পরামর্শ ও রিসোর্সের খোঁজ।

ডেটা সাংবাদিকতা

ডেটা সাংবাদিকতার উল্টো পিরামিড কাঠামোর হালনাগাদ সংস্করণ

এক দশক আগে ডেটা সাংবাদিকতার উল্টো পিরামিড কাঠামো প্রকাশ করেছিলেন পল ব্রাডশ। তারপর থেকে এটি বেশ কিছু ভাষায় অনুবাদ হয়েছে, বিশ্ববিদ্যালয়ে পড়ানো হয়েছে। সম্প্রতি তিনি সেখানে যোগ করেছেন নতুন একটি উপাদান: প্রতিবেদনের ধারণা তৈরি।

Leon Yin on Investigating Algorithms YouTube

ডেটা সাংবাদিকতা পদ্ধতি

অ্যালগরিদমের গোপন রহস্য: অনুসন্ধানী ডেটা সাংবাদিক লিওন ইয়িনের সঙ্গে কথোপকথন

সোশ্যাল মিডিয়া বা সার্চ ইঞ্জিনের অ্যালগরিদম নিয়ে অনুসন্ধানের জন্য খ্যাতি কুড়িয়েছেন ডেটা সাংবাদিক লিওন ইয়িন। ২০২০ সালে তাঁর একটি কাজের কথা উল্লেখ করা হয়েছিল মার্কিন কংগ্রেসের একটি উপকমিটির শুনানিতে। পড়ুন, তিনি এসব কাজ কীভাবে করেন।

ডেটা সাংবাদিকতা

সাংবাদিক হিসেবে নিজেই নিজের ডেটাসেট তৈরি করবেন যেভাবে

কোনো বিষয়ে অনুসন্ধান করতে গিয়ে কর্তৃপক্ষের কাছ থেকে যদি কাঙ্ক্ষিত ডেটা না পান, বা তেমন কোনো ডেটা যদি আদৌ না থাকে— তাহলে কী করবেন? পড়ুন, কীভাবে এসব ক্ষেত্রে তৈরি করে নিতে পারেন নিজস্ব ডেটাসেট।