رسائی

ٹیکسٹ سائیز

رنگوں کے اختایارات

مونوکروم مدھم رنگ گہرا

پڑھنے کے ٹولز

علیحدگی پیمائش
Data mining workshop scraping website GIJC23
Data mining workshop scraping website GIJC23

Image: Smaranda Tolosano for GIJN

رپورٹنگ

کوڈنگ جانے بغیر ویب سائٹس سے ڈیٹا نکالنے کا طریقہ

یہ مضمون ان زبانوں میں بھی دستیاب ہے

یہ جاننا کہ ڈیٹا کہاں تلاش کرنا ہے — اور اس تک رسائی کیسے حاصل کی جائے — تحقیقاتی صحافیوں کے کی ترجیح ہونی چاہیے۔  ڈیٹا کا مؤثر استعمال نہ صرف تفتیش کے مجموعی معیار کو بہتر بنا سکتا ہے بلکہ عوامی خدمت بھی ہے۔

پچھلے 20 سالوں میں، ذخیرہ شدہ ڈیٹا کی مقدار میں بے مثال شرح سے اضافہ ہوا ہے۔  انٹرنیشنل ڈیٹا کارپوریشن (IDC) کا کہنا ہے کہ 2025 تک، دنیا میں ڈیٹا کی کل مقدار 175 زیٹا بائٹس تک پہنچ جائے گی (ایک زیٹا بائٹ ایک ٹریلین گیگا بائٹس کے برابر ہے؛ اس نکتے کو واضح کرنے کے لیے، IDC کا کہنا ہے کہ اگر کوئی 2025 ڈیٹا اسفیئرز ذخیرہ کرنے کے قابل ہو جائے ڈی وی ڈی، ڈی وی ڈیز قطار میں لگی ہوئی ہیں (زمین کے گرد 222 بار چکر لگانا ممکن ہے۔)

کچھ کا دعویٰ ہے کہ صرف گوگل، فیس بک، مائیکروسافٹ اور ایمیزون کے پاس کم از کم 1200 پیٹا بائٹس (ایک پیٹا بائٹ = ایک ملین گیگا بائٹس) ڈیٹا ہے۔  تحقیقاتی اور ڈیٹا صحافی اب پہلے سے کہیں زیادہ مقداری، کوالٹیٹیو اور واضح ڈیٹا استعمال کر رہے ہیں – حالانکہ استعمال کے قابل ڈیٹا حاصل کرنا اب بھی مشکل ہے۔

منظم ڈیٹا تک رسائی، یا  اس کی تلاش کرنا — جو کہ تجزیہ کے لیے تیار ایک واضح طور پر بیان کردہ، معیاری شکل میں موجوچ ڈیٹا ہے — خراب یا نامکمل ڈیٹا کے سمندروں سے (بشمول غلط ڈیٹا، گندا، ناقص، یا "بدمعاش” ڈیٹا، جعلی ڈیٹا، بکھرا ہوا ڈیٹا، اور غیر واضح ڈیٹا) اب بھی مشکل ہے۔ اس مسئلے کے حل کا ایک حصہ ڈیٹا کی خواندگی میں اضافہ ہے: ہمیں یہ سمجھنے کی ضرورت ہے کہ ڈیٹا کو کس طرح اکٹھا کیا جاتا ہے، صاف کیا جاتا ہے، تصدیق کی جاتی ہے، تجزیہ کیا جاتا ہے اور تصور کیا جاتا ہے، کیونکہ یہ ایک دوسرے سے جڑا ہوا عمل ہے۔ صحافیوں کے لیے ڈیٹا کو سمجھنا بہت ضروری ہے۔

کسی بھی صحافتی کام کی طرح، ڈیٹا جرنلزم میں ہم منظم ڈیٹا تک رسائی کے مختلف طریقے تلاش کرتے ہیں۔  مثال کے طور پر: لیک ہونے والی معلومات، ہزاروں پی ڈی ایف فائلیں، یا ویب سائٹس پر محفوظ فہرستیں—شاید انہیں اچھی طرح سے منظم نہ کیا ہو گا اور ان کا معیار ٹھیکہ نہ ہو۔  لیکن اس میں کچھ ڈیٹا بھی ہے، جس تک رسائی آسان ہے۔  باقی ڈیٹا تک رسائی کے لیے ٹیکنالوجی کی ضرورت ہوتی ہے، جو کہ وقت طلب بھی ہے۔

تاہم، کچھ ٹولز اور طریقے ہیں جو اسے آسان بناتے ہیں—جیسے ویب سائٹس سے ڈیٹا کو سکریپ کرنا۔  سکریپنگ کا مطلب ہے کسی ویب سائٹ سے مخصوص ڈیٹا اکٹھا کرنے یا کاپی کرنے کے لیے کمپیوٹر پروگرام یا سافٹ ویئر کا استعمال۔  یہ طریقہ ڈیٹا اکٹھا کرنے یا تجزیہ کرنے میں مفید ہے۔  یہ دستی ڈیٹا اکٹھا کرنے کے مقابلے میں تیز اور زیادہ موثر ہے۔

 ڈیٹا سکریپنگ سے صحافیوں کو حاصل ہونے والے فوائد:

  1.  نقل و حرکت کا دائرہ کار: ڈیٹا سکریپنگ صحافیوں کو جلدی اور مؤثر طریقے سے معلومات جمع کرنے کی اجازت دیتی ہے۔  انٹرنیٹ پر مختلف ذرائع سے ڈیٹا اکٹھا کرنا آپ کو ایک وسیع تناظر فراہم کرتا ہے اور آپ کو اپنی کہانیوں کو مضبوط بنیادوں پر بنانے میں مدد کرتا ہے۔
  2. تصدیق: ڈیٹا سکریپنگ سے صحافیوں کو تصدیق کے عمل میں مدد مل سکتی ہے۔  آپ ویب پر معلومات اور معلوماتی تنازعات کو چیک کرنے کے لیے مختلف ڈیٹا کا موازنہ کر سکتے ہیں، جس سے معلومات کی تصدیق ہوتی ہے اور اس پراعتبار بڑھانے میں مدد ملتی ہے۔
  3. رجحانات کو بے نقاب کرنا: ڈیٹا سکریپنگ کسی خاص موضوع یا واقعات کے پیٹرن کو واضح کر سکتی ہے۔  مثال کے طور پر، بڑے ڈیٹا سیٹس کا تجزیہ کرکے، آپ سوشل میڈیا یا عوامی رائے کے رجحانات کو سمجھ سکتے ہیں اور اس معلومات کو اپنی خبروں میں شامل کر سکتے ہیں۔
  4. ڈیٹا ویژولائزیشن: ڈیٹا سکریپنگ کے ذریعے جمع کی گئی معلومات کا تصور آپ کو اپنی کہانی کو زیادہ آسانی سے پیش کرنے میں مدد کرتا ہے۔  گرافس، چارٹس اور انٹرایکٹو ویژول کا استعمال کرکے، آپ ڈیٹا کو زیادہ قابل فہم انداز میں پیش کر سکتے ہیں اور قارئین کو موضوع کی بہتر تفہیم فراہم کر سکتے ہیں۔
  5. گہری تحقیق کو فعال کرنا: ڈیٹا سکریپنگ سے صحافیوں کو مزید گہرائی سے تحقیق میں مشغول ہونے میں مدد ملتی ہے۔  بڑے ڈیٹا سیٹس، خاص طور پر مالیاتی ڈیٹا کا تجزیہ کرکے، آپ کمپنی کے آپریشنز یا حکومتی پالیسیوں کے بارے میں تفصیلی معلومات حاصل کر سکتے ہیں۔
  6. خبروں کے معیار کو بڑھانا: ڈیٹا سکریپنگ اچھی رپورٹنگ کا باعث بن سکتی ہے۔  اعداد و شمار، رجحانات، آبادیات آپ کی کہانیوں کو اور دلچسپ بنا سکتے ہیں۔

ڈیٹا مائنر ایک ڈیٹا اکٹھا کرنے کا ٹول اور براؤزر ایکسٹینشن ہے جو ویب صفحات کو سکریپ کرتا ہے تاکہ صارفین کو تیزی سے قابل اعتماد ڈیٹا اکٹھا کرنے میں مدد مل سکے۔  یہ ویب صفحات سے خود بخود ڈیٹا اکٹھا کرتا ہے اور  جس کو ایکسل، سی ایس وی یا جے سون فارمیٹ میں محفوظ کیا جا سکتا ہے۔

تاہم، ذہن میں رکھیں کہ کسی ویب سائٹ سے بڑی تعداد میں ڈیٹا اکٹھا کرنا سائٹ کی شرائط یا قوانین کے خلاف ہو سکتا ہے۔  لہذا، کسی بھی براؤزر کی توسیع یا پلگ ان کو استعمال کرنے سے پہلے، ویب سائٹ کے ڈیٹا کے استعمال کی شرائط کو بغور پڑھیں اور تمام قانونی قواعد و ضوابط کی تعمیل کریں۔  اس کے علاوہ، آپ جس ایکسٹینشن کا استعمال کر رہے ہیں اس کی سروس کی شرائط کا جائزہ لیں۔

اس مضمون کے مصنف اور جی آئی جے این ترک ایڈیٹر پنار دا گوتھنبرگ میں جی آئی جے سی 23 کانفرنس میں ڈیٹا مائنرز کے استعمال کے بارے میں بات کر رہے ہیں۔  تصویر: سمرندا تولوسانو، جی آئی جے این

اس مضمون کے مصنف اور جی آئی جے این ترک ایڈیٹر پنار دا گوتھنبرگ میں جی ئی جے سی23 کانفرنس میں ڈیٹا مائنرز کے استعمال کے بارے میں بات کر رہے ہیں۔ تصویر: سمرندا تولوسانو، جی آئی جے این

صحافی ڈیٹا مائنر کیسے استعمال کر سکتے ہیں۔

ڈیٹا مائنر کے ذریعے براؤزر ایکسٹینشن کے ساتھ ویب سائٹس کو سکریپ کرنے کے مختلف اقدامات کا یہاں ذکر کیا گیا ہے۔

اپنے براؤزر پر ڈیٹا مائنر ایڈ آن انسٹال کریں۔  ایڈ اونز عام طور پر کروم یا فائیر فاکس جیسے براؤزرز کے لیے دستیاب ہوتے ہیں۔  اپنے براؤزر کے ایڈ آن اسٹور سے ڈیٹا مائنر ایڈ آن تلاش کریں اور انسٹال کریں

اپنی ھدف شدہ ویب سائٹ پر جائیں۔  وہ ویب سائٹ کھولیں جس سے آپ براؤزر میں ڈیٹا کھرچنا چاہتے ہیں اور اس کی توسیع کو فعال کریں۔  دوسرے الفاظ میں، اپنے براؤزر کے ایکسٹینشنز/پلگ انز مینو میں ڈیٹا مائنر تلاش کریں اور کھولیں۔  توسیع عام طور پر آپ کے براؤزر کے اوپری دائیں کونے میں ہوگی۔

ویب سکریپنگ کے لیے ایک نیا ٹاسک بنائیں۔  ڈیٹا مائنر ایکسٹینشن میں "مئی ریسپی” کا اختیار ہے۔  نیا ویب سکریپنگ ٹاسک بنانے کے لیے اس آپشن پر کلک کریں۔  کام جاری رکھنے کے لیے آپ کو ایک کمانڈ اسکرین پیش کی جائے گی۔

ویب سائٹس کو سکریپ کرنے کے لیے آپشنز سیٹ کریں۔ ڈیٹا مائنر کے پاس ویب سائٹ کو سکریپ کرنے کے لیے مختلف آپشن سیٹنگز ہیں۔  اس طرح، آپ فیصلہ کر سکتے ہیں کہ آپ کس قسم کے ڈیٹا کو کھرچنا چاہتے ہیں۔  آپ خودکار ڈیٹا اکٹھا کرنے کی سیٹنگ بھی کر سکتے ہیں۔  مثال کے طور پر، صفحہ نیویگیشن یا فارم بھرنا۔

ویب سائٹس کو سکریپ کرنا شروع کریں۔  سیٹنگز کو حتمی شکل دینے کے بعد آپ ڈیٹا مائنر ایکسٹینشن ڈیش بورڈ میں "سکریپ” آپشن پر کلک کرکے ڈیٹا سکریپنگ شروع کر سکتے ہیں۔  ایکسٹینشن ویب سائٹ کو کرال کرے گی اور آپ کی جانب سے کچھ ڈیٹا اکٹھا کرے گی۔  (آپ اس مختصر ویڈیو میں پورا عمل دیکھ سکتے ہیں۔)

ڈیٹا کو محفوظ کریں یا برآمد کریں۔  آپ اپنے سکریپ شدہ ڈیٹا کو سی ایس وی فائل یا ایکسل اسپریڈشیٹ میں محفوظ کر سکتے ہیں۔  آپ کلپ بورڈ کی خصوصیت کا استعمال کرتے ہوئے سکریپنگ اسکرین کی ایک کاپی بنا سکتے ہیں – یہ خصوصیت بہت آسان ہے اور وقت بچاتا ہے۔  اگر آپ کا سکریپ شدہ ڈیٹا 10000 قطاروں سے زیادہ ہے، تو اسے دو الگ الگ فائلوں کے طور پر ڈاؤن لوڈ کیا جائے گا۔

مذکورہ اقدامات پر عمل کرکے آپ ڈیٹا مائنر کا استعمال کرتے ہوئے ایک یا زیادہ ویب سائٹس کو کھرچ سکتے ہیں۔  آپ 60,000 سے زیادہ ڈیٹا سکریپنگ قواعد میں سے کوئی بھی استعمال کر سکتے ہیں، یا ویب صفحات سے مطلوبہ ڈیٹا حاصل کرنے کے لیے اپنی مرضی کے مطابق ڈیٹا سکریپنگ کا طریقہ بنا سکتے ہیں، کیونکہ یہ ممکن ہے کہ واحد صفحات یا ملٹی پیجز کے لیے خودکار سکریپنگ بنائی جائے۔

آپ خودکار سکریپنگ استعمال کرسکتے ہیں اور ویب سائٹ یو آر ایل کی فہرست کی بنیاد پر ترتیب وار سکریپنگ انجام دے سکتے ہیں۔  اس کے علاوہ، آپ 15,000 سے زیادہ مقبول ویب سائٹس کے لیے بغیر کسی قیمت کے 50,000 سے زیادہ پہلے سے تیار کردہ سوالات استعمال کر سکتے ہیں۔  یو آر ایل کو کرال کر سکتے ہیں، انہیں صفحہ کے لحاظ سے ترتیب دے سکتے ہیں، اور ایک ہی مقام سے ایک صفحے کو کھرچ سکتے ہیں — کوڈنگ کی ضرورت نہیں ہے۔

 ایکسٹینشن استعمال کرنے کے دیگر فوائد ہیں۔

 یہ آپ کو ڈیٹا کو محفوظ  رکھنے اور محفوظ طریقے سے استعمال کرنے میں مدد کرتا ہے: یہ اس طرح کام کرتا ہے کہ آپ کو لگتا ہے کہ آپ اپنے براؤزر میں صفحہ پر خود کلک کر رہے ہیں۔

 یہ آپ کو بغیر کسی پریشانی کے سکریپ کرنے میں مدد کرتا ہے: یہ بوٹ نہیں ہے، لہذا جب آپ استفسار کریں گے تو یہ آپ کو بلاک نہیں کرے گا۔

 یہ آپ کی معلومات کو نجی رکھتا ہے: ایڈ آن آپ کے ڈیٹا کو فروخت یا شیئر نہیں کرتا ہے۔


پنار داگ جی آئی جے این ترکی کی ایڈیٹر اور قادر ہاس یونیورسٹی میں لیکچرار ہیں۔ وہ ڈیٹا لٹریسی ایسوسی ایشن، ڈیٹا جرنلزم پلیٹ فارم ترکی اور ڈیگ میڈیا کے شریک بانی ہیں۔ ڈیٹا لٹریسی، اوپن ڈیٹا، ڈیٹا ویژولائزیشن اور ڈیٹا جرنلزم پر کام کرتا ہے۔ وہ سگما ڈیٹا جرنلزم ایوارڈز کے جیوری بورڈ کے رکن بھی ہیں۔

ہمارے مضامین کو تخلیقی العام لائسنس کے تحت مفت، آن لائن یا پرنٹ میں دوبارہ شائع کریں۔

اس آرٹیکل کو دوبارہ شائع کریں


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.