জিআইজেসি২৩-তে ডেটা স্ক্র্যাপিং কর্মশালা। ছবি: জিআইজেএনের জন্য স্মারন্দা তোলোসানো
কোডিংয়ের প্রয়োজন নেই: ডেটা মাইনার দিয়ে ধাপে ধাপে ওয়েবসাইট স্ক্র্যাপিংয়ের পদ্ধতি
আর্টিকেলটি পড়ুন এই ভাষায়:
ডেটা কোথায় খুঁজতে এবং কীভাবে অ্যাক্সেস করতে হবে, তা জানা অনুসন্ধানী সাংবাদিকদের অগ্রাধিকার হওয়া উচিৎ। ডেটার কার্যকর ব্যবহার শুধুমাত্র অনুসন্ধানের সামগ্রিক গুণমানকে উন্নত করে না, জনসেবার ক্ষেত্রে তার মূল্যও বাড়িয়ে দেয়।
গত ২০ বছরে, সঞ্চিত ডেটার পরিমাণ অভূতপূর্ব হারে বৃদ্ধি পেয়েছে। ইন্টারন্যাশনাল ডেটা কর্পোরেশন (আইডিসি) বলছে, ২০২৫ সালের মধ্যে বিশ্বে মোট ডেটার পরিমাণ ১৭৫ জেটাবাইটে পৌঁছবে (এক জেটাবাইট সমান এক ট্রিলিয়ন গিগাবাইট; বিষয়টিকে ব্যাখ্যা করতে আইডিসি এভাবে বলে যে, কেউ যদি ডিভিডিতে ২০২৫ পরিমাণ ডেটাস্ফিয়ার সংরক্ষণ করতে সক্ষম হয়, তাহলে সারিবদ্ধভাবে রাখা ডিভিডিগুলো দিয়ে ২২২ বার পৃথিবীকে ঘিরে ফেলা সম্ভব হতে পারে।)
কোনো কোনো হিসাবে দাবি করা হয় যে শুধু গুগল, ফেসবুক, মাইক্রোসফট ও অ্যামাজনেরই অন্তত ১২০০ পেটাবাইট (এক পেটাবাইট = এক মিলিয়ন গিগাবাইট) ডেটা আছে। আগের তুলনায় অনুসন্ধানী ও ডেটা সাংবাদিকেরা এখন অনেক বেশি পরিমাণগত, গুণগত ও শ্রেণীবদ্ধ ডেটা ব্যবহার করছেন — যদিও কার্যকর ডেটা প্রাপ্তি এখনও একটি চ্যালেঞ্জ।
অসম্পূর্ণ বা ভুয়া ডেটার সমুদ্র থেকে (মিথ্যা, কুরুচিপূর্ণ, ত্রুটিযুক্ত, বা “দুষ্ট ডেটা“, জাল ডেটা, বিক্ষিপ্ত ডেটা, এবং অস্পষ্ট ডেটা) পরিষ্কারভাবে সংজ্ঞায়িত, মানসম্মত ও বিশ্লেষণের জন্য সুবিন্যস্ত ডেটা খোঁজা এবং পাওয়া এখনো কঠিনই রয়ে গেছে, তা সে যে বিষয়েরই হোক। আর এই সমস্যা সমাধানের উপায় হলো ডেটা সাক্ষরতা বৃদ্ধি: আমাদের বুঝতে হবে কীভাবে ডেটা সংগ্রহ, সংশোধন, যাচাই, বিশ্লেষণ এবং চিত্রায়ন করা হয়, কারণ এটি একটি আন্তঃসংযুক্ত প্রক্রিয়া। সাংবাদিকদের জন্য, ডেটা সাক্ষরতা ভীষণ জরুরী।
সাংবাদিকতার যে কোনো ধারা চর্চার মতোই ডেটা সাংবাদিকতার ক্ষেত্রেও আমরা ডেটা অ্যাক্সেস করার বিভিন্ন উপায় খুঁজি। যেমন: ফাঁস হওয়া তথ্য, হাজার হাজার পিডিএফ ফাইল, বা ওয়েবসাইটে সংরক্ষিত তালিকা— হয়তো সেগুলো বিন্যস্ত বা সুসংগঠিত নয়। তবে এর মধ্যেও কিছু ডেটা আছে, যেখানে প্রবেশ করা সহজ। বাকি ডেটাতে প্রবেশের জন্য প্রযুক্তির প্রয়োজন পড়ে, যা সময়সাপেক্ষও।
যাইহোক, কিছু টুল ও পদ্ধতি রয়েছে যা এটিকে সুলভ ও সহজ করে তোলে— যেমন ওয়েবসাইট থেকে ডেটা স্ক্র্যাপ করা। স্ক্র্যাপ করার অর্থ হলো ওয়েবসাইট থেকে নির্দিষ্ট ডেটা সংগ্রহ কিংবা অনুলিপির জন্য কম্পিউটার প্রোগ্রাম বা সফটওয়্যার ব্যবহার করা। এ পদ্ধতিটি ডেটা সংগ্রহ বা বিশ্লেষণে কাজে আসে। এটি হাতেকলমে ডেটা সংগ্রহের তুলনায় দ্রুত ও বেশি কার্যকর।
ডেটা স্ক্র্যাপিং থেকে সাংবাদিকেরা যে সুবিধাগুলো পেতে পারেন:
১. গতিশীলতা ও সুযোগ: ডেটা স্ক্র্যাপিং, সাংবাদিকদের দ্রুত ও কার্যকরভাবে তথ্য সংগ্রহের সুযোগ করে দেয়। ইন্টারনেট জুড়ে বিভিন্ন উৎস থেকে ডেটা সংগ্রহ আপনাকে একটি প্রশস্ত দৃষ্টিকোণ দেওয়ার পাশাপাশি আপনার গল্পগুলোকে আরও শক্ত ভিত্তির উপর দাঁড় করাতে সহায়তা করে।
২. যাচাই: ডেটা স্ক্র্যাপিং সাংবাদিকদের যাচাইকরণ প্রক্রিয়ায় সহায়তা করতে পারে। আপনি ওয়েবে তথ্য ও তথ্যগত দ্বন্দ্বগুলো পরীক্ষা করতে বিভিন্ন ডেটার মধ্যে তুলনা করতে পারেন, যা তথ্য যাচাই এবং বিশ্বাসযোগ্যতা বাড়াতে সহায়তা করে।
৩. প্রবণতা উন্মোচন: ডেটা স্ক্র্যাপিং একটি নির্দিষ্ট বিষয় বা ঘটনার প্যাটার্ন উন্মোচন করতে পারে। যেমন, বৃহৎ ডেটাসেট বিশ্লেষণ করে আপনি সোশ্যাল মিডিয়ায় বা জনমতের প্রবণতা বুঝতে পারেন এবং এ তথ্যগুলোকে আপনার সংবাদে তুলে ধরতে পারেন।
৪. ডেটা ভিজ্যুয়ালাইজেশন: ডেটা স্ক্র্যাপিংয়ের মাধ্যমে সংগৃহীত তথ্যগুলো চিত্রের সাহায্যে তুলে ধরা আপনার গল্পকে আরও সহজভাবে উপস্থাপনে সহায়তা করে। গ্রাফ, চার্ট ও ইন্টারঅ্যাক্টিভ ভিজ্যুয়াল ব্যবহার করে আপনি ডেটাকে আরও বোধগম্যভাবে তুলে ধরতে পারেন এবং পাঠকদের বিষয়টি সম্পর্কে আরও ভালোভাবে বোঝার সুযোগ করে দিতে পারেন।
৫.গভীর অনুসন্ধানে সক্ষম করা: ডেটা স্ক্র্যাপিং সাংবাদিকদের আরও গভীর গবেষণায় নিয়োজিত হতে সহায়তা করে। বৃহৎ ডেটাসেট বিশ্লেষণ করে, বিশেষ করে আর্থিক ডেটার ক্ষেত্রে আপনি কোম্পানির কর্মকাণ্ড বা সরকারী নীতিগুলো সম্পর্কে বিশদ জ্ঞান অর্জন করতে পারেন।
৬. সংবাদের মান বৃদ্ধি: ডেটা স্ক্র্যাপিং খবরের উপযোগী প্রতিবেদন তৈরিতে নেতৃত্ব দিতে পারে। পরিসংখ্যান, প্রবণতা, জনসংখ্যা বা অন্যান্য ডেটা আপনার গল্পগুলোকে অনেক বেশি জোরালো ও আকর্ষণীয় করে তুলতে পারে।
ডেটা মাইনার হচ্ছে তথ্য সংগ্রহের একটি টুল ও ব্রাউজার এক্সটেনশন, যা ওয়েবপেজগুলোকে স্ক্র্যাপ করে ব্যবহারকারীকে দ্রুত নির্ভরযোগ্য তথ্য সংগ্রহ করতে সাহায্য করে। এটি স্বয়ংক্রিয়ভাবে ওয়েবপেজ থেকে ডেটা সংগ্রহ করে এবং এক্সেল, সিএসভি বা জেসন (JSON) ফরম্যাটে সংরক্ষণ করার সুযোগ করে দেয়।
যাই হোক, মনে রাখবেন, কোনো ওয়েবসাইট থেকে ব্যাপকভাবে ডেটা সংগ্রহের কাজটি সাইটের শর্ত বা আইনের পরিপন্থী হতে পারে। তাই কোনো ব্রাউজার এক্সটেনশন বা প্লাগইন ব্যবহার করার আগে ওয়েবসাইটের ডেটা ব্যবহারের শর্তাবলী সাবধানে পড়ুন এবং সমস্ত আইনি নিয়ম ও প্রবিধান মেনে কাজ করুন। তাছাড়া আপনি যে এক্সটেনশনটি ব্যবহার করছেন, তার পরিষেবার শর্তও পর্যালোচনা করুন।
সাংবাদিকেরা যেভাবে ডেটা মাইনার ব্যবহার করতে পারেন
ডেটা মাইনারের মাধ্যমে ব্রাউজার এক্সটেনশনসহ ওয়েবসাইট স্ক্র্যাপ করার বিভিন্ন পদক্ষেপ এখানে উল্লেখ করা হলো—
১.আপনার ব্রাউজারে ডেটা মাইনার অ্যাড–অন ইনস্টল করুন। সাধারণত ক্রোম বা ফায়ারফক্সের মতো ব্রাউজারের জন্য অ্যাড-অনটি পাওয়া যায়। আপনার ব্রাউজারের অ্যাড-অন স্টোর থেকে ডেটা মাইনার অ্যাড-অন খুঁজুন এবং ইনস্টল করুন।
২. আপনার টার্গেট করা ওয়েবসাইটে যান। যে ওয়েবসাইটটি থেকে আপনি ডেটা স্ক্র্যাপ করতে চান সেটি ব্রাউজারে ওপেন করুন এবং এর এক্সটেনশন চালু করুন। অন্য কথায়, আপনার ব্রাউজারে এক্সটেনশন/প্লাগইন মেনুতে ডেটা মাইনার খুঁজুন ও ওপেন করুন। এক্সটেনশনটি সাধারণত আপনার ব্রাউজারের ওপরের ডানদিকে থাকবে।
৩. ওয়েব স্ক্র্যাপিংয়ের জন্য একটি নতুন টাস্ক তৈরি করুন। ডেটা মাইনার এক্সটেনশনে একটি “মাই রেসিপি” বিকল্প অপশন রয়েছে। নতুন ওয়েব স্ক্র্যাপিং টাস্ক তৈরি করতে এ বিকল্পটিতে ক্লিক করুন। কাজ চালিয়ে যাওয়ার জন্য আপনাকে একটি কমান্ড স্ক্রিন দেওয়া হবে।
৪. ওয়েবসাইট স্ক্র্যাপ করার জন্য বিকল্প সেট করুন: ডেটা মাইনারে একটি ওয়েবসাইট স্ক্র্যাপ করার জন্য বিভিন্ন বিকল্প সেটিংস রয়েছে। যেমন, আপনি কোন ধরনের ডেটা স্ক্র্যাপ করতে চান তা ঠিক করতে পারেন। স্বয়ংক্রিয়ভাবেও ডেটা সংগ্রহ করার বিষয়গুলোও সেট করতে পারেন; যেমন, পেজ নেভিগেশন বা ফর্ম পূরণ।
৫. ওয়েবসাইট স্ক্র্যাপ করা শুরু করুন। সেটিংস চূড়ান্ত করার পর আপনি ডেটা মাইনার এক্সটেনশন ড্যাশবোর্ডে “স্ক্র্যাপ” অপশনে ক্লিক করে ডেটা স্ক্র্যাপিং শুরু করতে পারেন। এক্সটেনশনটি ওয়েবসাইটটি ক্রল করবে এবং আপনার হয়ে নির্দিষ্ট ডেটা সংগ্রহ করবে। ( সংক্ষিপ্ত এ ভিডিওতে সম্পূর্ণ প্রক্রিয়াটি দেখতে পারেন।)
৬. ডেটা সংরক্ষণ বা এক্সপোর্ট করুন। আপনার স্ক্র্যাপ করা ডেটাগুলোকে আপনি একটি সিএসভি ফাইল বা এক্সেল স্প্রেডশিট হিসাবে সংরক্ষণ করতে পারেন। ক্লিপবোর্ড ফিচার ব্যবহার করে স্ক্র্যাপিং স্ক্রিনটির অনুলিপি তৈরি করতে পারেন— এ ফিচারটি বেশ সুবিধাজনক এবং সময়ও বাঁচায়। যদি আপনার স্ক্র্যাপ করা ডেটা ১০ হাজার সারির বেশি হয় তবে তা দুটি পৃথক ফাইল হিসাবে ডাউনলোড হবে।
উল্লিখিত পদক্ষেপগুলো অনুসরণের মাধ্যমে আপনি ডেটা মাইনার ব্যবহার করে এক বা একাধিক ওয়েবসাইট স্ক্র্যাপ করতে পারেন। এছাড়া আপনি ডেটা স্ক্র্যাপিংয়ের ৬০ হাজারের বেশি নিয়মের মধ্যে থেকে যে কোনও একটি ব্যবহার করতে পারেন, বা ওয়েবপেজ থেকে প্রয়োজনীয় ডেটা পেতে আপনার নিজস্ব কাস্টমাইজড ডেটা স্ক্র্যাপিং পদ্ধতি তৈরি করে নিতে পারেন, কারণ একক পেজ বা বহু-পেজের জন্য স্বয়ংক্রিয় স্ক্র্যাপিং তৈরি করা সম্ভব।
আপনি স্বয়ংক্রিয় স্ক্র্যাপিং ব্যবহার করতে পারেন এবং ওয়েবসাইট ইউআরএলের তালিকার ওপর ভিত্তি করে ক্রমানুসারে স্ক্র্যাপিং চালাতে পারেন। এছাড়াও, ১৫ হাজারের বেশি জনপ্রিয় ওয়েবসাইটের জন্য আগে থেকে তৈরি ৫০ হাজারের বেশি প্রশ্ন কোনো ধরনের অর্থ খরচ ছাড়াই ব্যবহার করতে পারেন। ইউআরএলগুলো ক্রল করতে পারেন, তা পেজ অনুসারে সাজাতে পারেন এবং একটি একক লোকেশন থেকে একটি একক পৃষ্ঠা স্ক্র্যাপ করতে পারেন — আর এ কাজটি করতে কোনো কোডিংয়ের প্রয়োজন নেই৷
এক্সটেনশন ব্যবহারের আরও কিছু সুবিধা রয়েছে।
- এটি আপনাকে নিরাপদ ও সুরক্ষিতভাবে ডেটা ব্যবহারে সহায়তা করে: এটি এমনভাবে কাজ করে আপনার মনে হবে, আপনি নিজের ব্রাউজারে নিজেই পেজটিতে ক্লিক করছেন।
- কোন ধরনের উদ্বেগ ছাড়াই এটি আপনাকে স্ক্র্যাপ করতে সহায়তা করে: এটি কোনো বট নয়, তাই আপনি যখন কোনো কোয়েরি করবেন তখন আপনাকে ব্লক করবে না।
- এটি আপনার তথ্য গোপন রাখে: অ্যাড-অন আপনার ডেটা বিক্রি বা শেয়ার করে না।
পিনার দাগ জিআইজেএন তুর্কি সম্পাদক ও কাদির হাস বিশ্ববিদ্যালয়ের একজন প্রভাষক। তিনি ডেটা লিটারেসি অ্যাসোসিয়েশন, ডেটা জার্নালিজম প্ল্যাটফর্ম তুরস্ক এবং দাগমিডিয়ার সহ-প্রতিষ্ঠাতা। ডেটা সাক্ষরতা, ওপেন ডেটা, ডেটা ভিজ্যুয়ালাইজেশন এবং ডেটা সাংবাদিকতা নিয়ে কাজ করেন। এছাড়া তিনি সিগমা ডেটা জার্নালিজম অ্যাওয়ার্ডের জুরি বোর্ডের সদস্য।