संसाधन

विषय

पत्रकार कैसे बनाएं अपना डेटाबेस

इस लेख को पढ़ें

फोटो: जूलिया जोपियन (अनस्प्लैश)

पत्रकारों के लिए अपना डेटाबेस बनाना बहुत उपयोगी होता है। इसका महत्व क्या है, यह जानने के लिए कुछ उदाहरणों से समझा जा सकता है। डेटाबेस कैसे तैयार किया जा सकता है, इससे संबंधित उपयोगी जानकारी आपको इस आलेख में मिलेगी।

मई, 2021 की बात है। कोलंबिया में सरकार द्वारा टैक्स बढ़ाए जाने के खिलाफ व्यापक जनप्रदर्शन और हिंसक टकराव की अप्रिय घटनाएं सामने आईं। पुलिस पर सत्ता के दुरुपयोग के आरोप भी लगे। इस दौरान पत्रकारों को पूरे घटनाक्रम पर नजर रखने के लिए काफी माथापच्ची करनी पड़ी।

यह संकट लगातार बढ़ता गया। इस दौरान कई स्वतंत्र मीडिया और मानवाधिकार संगठनों ने विरोध प्रदर्शनों से जुड़ी मौतों का डेटाबेस बनाना शुरू किया। जुलाई की शुरुआत तक ऐसी मौतों का आंकड़ा 70 से भी अधिक हो गया।  इस दौरान सत्ता के दुरुपयोग, हिंसा और प्रदर्शनकारियों को हिरासत में लेने से संबंधी आरोपों का भी डेटाबेस बनाया गया।

Database to register deaths during the protests: ‘रूट्स ऑफ कॉन्फ्लिक्ट‘ नामक एक डिजिटल मीडिया संगठन ने यह शानदार डेटाबेस बनाया। यह संगठन कोलंबिया के 50 साल के सशस्त्र संघर्ष को कवर करने के लिए खोजी और डेटा पत्रकारिता की तकनीकों का उपयोग करता है। वर्ष 2021 की शुरुआत में इसने जनांदोलन से संबंधित हिंसा को कवर करना शुरू किया। एक प्रस्तावित कर-सुधार के खिलाफ शुरू हुआ यह आंदोलन धीरे-धीरे सरकार विरोधी होता गया।

पत्रकार ऑस्कर पारा के नेतृत्व में यह डेटाबेस बनाया गया। इसमें पत्रकारों एवं पत्रकारिता के छात्रों के साथ ही एक डेवलपर और एक ग्राफिक डिजाइनर ने मदद की। इस टीम ने कोलंबिया के विभिन्न शहरों में विरोध प्रदर्शनों के दौरान हुई मौतों को रिकॉर्ड किया।

इस टीम ने प्रतिदिन की घटनाओं के साथ ही मीडिया की खबरों तथा विभिन्न एनजीओ से मिली जानकारियों को एकत्र किया। साथ ही, पीड़ितों के गवाहों और रिश्तेदारों के साथ साक्षात्कार करके जानकारी जुटाई और हर मामले की पुष्टि का समुचित आधार भी तैयार किया। इस तरह यह टीम एक सत्यापित डेटाबेस बनाने में सक्षम हुई। इसके कारण टीम को हरेक घटना का विवरण तैयार करने और पीड़ितों का पता लगाने में सफलता मिली। हरेक मामले में मृतक की मृत्यु के आसपास की परिस्थितियों का विश्लेषण किया गया। कई घटनाओं में पुलिस बर्बरता भी उजागर हुई।

ऑस्कर पारा ने जो पहले डेटाबेस बनाया था वह पत्रकारों के लिए काफी उपयोगी साबित हुआ। उन्होंने वर्ष 2012 में ‘रूट्स ऑफ कॉन्फ्लिक्ट‘ लॉन्च किया था। उस वक्त कोलंबिया के सशस्त्र विद्रोहियों के खिलाफ युद्ध की न्यायिक जांच चल रही थी। इसमें कोलंबिया के पूर्व-अर्द्धसैनिकों ने अपनी भूमिका का खुलासा किया था।

ऑस्कर पारा ने पाया कि न्यायिक सुनवाई में कई नरसंहारों के विवरण सामने आते हैं जिनमें नागरिकों तथा दुश्मन के सैनिकों की मौत हुई हो। इसके कारण ऑस्कर पारा ने मैपिंग टूल (Mapping Tools) और टाइमलाइन बनाकर एक डेटाबेस में सभी सूचनाओं को संकलित किया। विभिन्न अदालतों की सुनवाई से संबंधित व्यक्तिगत कहानियों से पूरी तस्वीर की जानकारी नहीं मिल पाती। लेकिन एक जगह संकलित करने से पूरी तस्वीर को समझना संभव और आसान होता है।

ऑस्कर पारा में खोजी पत्रकारिता के लिए जुनून था। पहले उन्होंने सिस्टम इंजीनियर के बतौर काम भी किया है। अपने इस जुनून और ज्ञान का इस्तेमाल करते हुए उन्होंने छात्रों के एक समूह को प्रशिक्षित किया। ‘रुट्स डेल कॉन्फ्लिक्टो‘ के पहले चरण के लिए उन्होंने जनसहयोग जुटाकर यह प्रयोग किया। इसके कारण उन्हें वर्ष 2017 की सर्वश्रेष्ठ डेटा पत्रकारिता वेबसाइट का पुरस्कार भी मिला।

‘पीस ऑन द ग्राउंड‘ – यह एक डेटा प्रोजेक्ट है, जिसने शांति समझौते पर हस्ताक्षर के बाद कोलंबिया में हिंसा की जांच की। फोटो सौजन्य – ‘रूट्स डेल कॉन्फ्लिक्टो‘

ऑस्कर पारा की टीम ने विभिन्न डेटा को एकत्र करके व्यवस्थित और संसाधित करने के लिए विशेष तरीकों का पालन किया। इसमें देश भर में संघर्ष के पीड़ितों को नदियों में जबरन गायब करने और कोलंबिया में हिंसा के साथ भूमि संपत्ति विवादों के बीच संबंध जैसे डेटा शामिल हैं।

आधिकारिक डेटा नहीं मिल पाने तथा उपलब्ध डेटा विश्वसनीय नहीं होने के कारण दुनिया भर के न्यूजरूम अपना डेटाबेस बना रहे हैं। विभिन्न मीडिया संगठनों द्वारा एक रिपोर्टिंग या खोजी संसाधन के रूप में डेटोबेस बना जा रहा है। जब घटनाएं हो रही हों, और जब सूचना के विभिन्न स्रोतों को क्रॉस-चेक करना जरूरी हो, तब ऐसे डेटा-बेस काफी उपयोगी होते हैं।

अर्जेंटीनी डेटा पत्रकारिता विशेषज्ञ रोमिना कोलमैन और ऑर्गनाइज्ड क्राइम एंड करप्शन रिपोर्टिंग परियोजना (ओसीसीआरपी) में लैटिन अमेरिका डेटा एडिटर रोमिना कॉलमैन कहती हैं- “अगर जनता के लिए उपयोगी स्टोरी के लिए आपके पास आवश्यक डेटा नहीं है, तो वैसी स्टोरी से पाठकों को वंचित करने का यह कारण पर्याप्त नहीं।“

खोजी पत्रकारों को उपयोगी जानकारी विभिन्न प्रारूपों में मिल सकती है। जैसे– पीडीएफ रिपोर्ट, पेपर रिकॉर्ड, साक्षात्कार और अवलोकन, स्कैन की गई फाइलें, हस्तलिखित दस्तावेज, पुराने अभिलेखागार इत्यादि। इन जानकारियों को सही विशेषज्ञता के साथ ऐसे डेटाबेस में परिवर्तित किया जा सकता है, उनकी आसानी से प्रोसेसिंग की जा सके।

वर्ष यह 2009 में जीआइजेएन के सदस्य ‘कोलंबिया एसोसिएशन ऑफ इन्वेस्टिगेटिव जर्नलिस्ट्स‘  (Consejo de Redacción) के साथ एक डेटाबेस बनाने संबंधी काम के दौरान मुझे यह सीखने का अवसर मिला। हम पत्रकारों के लिए एक ऐसा  डेटाबेस बनाना चाहते थे, जिससे सरकारी अधिकारियों की जांच करने और भ्रष्टाचार उजागर करने में मदद मिले। उन दिनों दस्तावेजों से डेटा निकालने के लिए उपकरण दुर्लभ थे। कोलंबिया में डेटा पत्रकारिता की शुरूआत ही हुई थी और हमें सरकार से प्रबंधन योग्य डिजिटल स्वरूपों में जानकारी बेहद सीमित मिल पाती थी।

डेटाबेस बनाने के लिए हमने बड़ी संख्या में दस्तावेजों को ट्रांसक्रिप्ट करना शुरू किया। इनमें काफी दस्तावेज हस्तलिखित थे, जिसमें सार्वजनिक अधिकारियों ने अपने हितों के टकराव और उनके अभियान दाताओं की घोषणा की थी। बीस से अधिक आधिकारिक स्रोतों से अन्य संबंधित डेटा जोड़ने के बाद हमने कुछ वर्षों के भीतर बीस लाख से भी अधिक रिकॉर्ड का संग्रह कर लिया। इसके कारण कई राजनीतिक कदाचार का खुलासा भी हुआ। जैसे, भूमि पुनर्वितरण  के संबंध में प्रमुख खोजी पत्रिका सेमाना की रिपोर्ट एक अच्छा  उदाहरण है।

डेटा प्रबंधन और विश्लेषण पत्रकारिता तकनीक विकसित होने के दौरान वर्ष 2011 में ‘ओपन गवर्नमेंट पार्टनरशिप‘ में कोलंबिया भी शामिल हो गया। यह पारदर्शिता में सुधार के लिए 78 देशों द्वारा हस्ताक्षरित एक वैश्विक पहल है। इसके कारण हमारी टीम को महत्वपूर्ण खबरों के लिए डेटाबेस बनाने का काम जारी रखने का अवसर मिला। इस दौरान सामने आई महत्वपूर्ण खबरों के दो उदाहरण देखना उपयोगी होगा। एक जिसमें स्थानीय ऑडिट के अधिकारी नेताओं के साथ मिलकर गड़बड़ करते रहे। दूसरे में उन के साथ मिलीभगत की जिन्होंने 2018 में राष्ट्रपति और संसद के चुनावों की फ़ंडिंग की। 

हालांकि पत्रकार 1980 के दशक से ही डेटाबेस का निर्माण कर रहे हैं। लेकिन हाल के वर्षों में वेब पेजों से डेटा निकालने, पीडीएफ या स्कैन की गई फाइलों को संपादन योग्य प्रारूपों में परिवर्तित करने और बड़ी मात्रा में डेटा के संयोजन की तकनीक ने विकास ने काफी सुविधा प्रदान की है। बड़ी संख्या में पत्रकारों ने प्रशिक्षण लेकर कंप्यूटर से सहायता प्राप्त रिपोर्टिंग शुरू कर दी है। इसे ‘डेटा पत्रकारिता‘ के रूप में जाना जाता है। इसके अलावा, पत्रकारों और डेवलपर्स या कंप्यूटर इंजीनियरों के बीच आपसी सहयोग में भी वृद्धि हुई है। इसके कारण पत्रकारिता के उद्देश्यों के तहत डेटाबेस बनाना आसान और अधिक संभव हो गया है।

विश्व स्तर पर ऐसे अनगिनत उदाहरण सामने आए हैं, जहां पत्रकारों ने डेटाबेस बनाकर महत्वपूर्ण खबरें निकाली हैं। जैसे, इटली में अपराधियों से जब्त की गई संपत्ति की जांच करने के लिए डेटाबेस बनाया गया। इसी तरह, संयुक्त राज्य अमेरिका में पुलिस द्वारा बल प्रयोग और टेसर से मृत्यु संबंधी डेटाबेस काफी उपयोगी साबित हुए।

बारह देशों के पत्रकारों के एक समूह ने ऐसी जानकारी का एक डेटाबेस बनाया, जिसे पहले कभी व्यवस्थित नहीं किया गया था। इसमें लैटिन अमेरिका में पर्यावरण संबंधी अधिकारों की रक्षा के लिए आवाज उठाने वालों के खिलाफ हिंसा के 2,460 मामले शामिल थे। लैंड ऑफ रेसिस्टेंस Land of Resistance (Tierra de Resistentes) नामक एक विशेष परियोजना के तहत इस समूह ने इस डेटाबेस के आधार पर 36 खोजी रिपोर्ट प्रकाशित की।

‘लैंड ऑफ रेसिस्टेंस‘ प्रोजेक्ट के कुछ पत्रकार छाया: स्क्रीनशाट

डेटा पत्रकारिता का एक और शानदार उदाहरण देखें। ओसीसीआरपी को ट्रोइका लॉन्ड्रोमैट  जांच के लिए वर्ष 2020 का सिग्मा अवार्ड मिला। इसमें पत्रकारों की टीम ने सैकड़ों बैंक रिकॉर्ड से 1.3 मिलियन से अधिक लेनदेन के डेटा निकालने के लिए अत्याधुनिक तकनीक का उपयोग किया। इसके जरिए खुलाया हुआ कि किस तरह रूसी कुलीन वर्ग और राजनेता अवैध कमाई करके टैक्स की चोरी करते हैं और गुप्त रूप से विदेशों में अपनी अकूत संपत्ति का निवेश करते हैं।

यहां जिन परियोजनाओं का उदाहरण दिया गया है, उनके डेटा सार्वजनिक रूप से उपलब्ध नहीं थे। इसलिए ऐसा डेटाबेस नहीं बनाया गया होता, तो ऐसी खबरें सामने नहीं आ पातीं। ऐसा डेटा केंद्रीय रूप से एकत्रित नहीं था, जिनका बहुत बड़ा प्रभाव पड़े। ऐसे डेटाबेस के बिना पत्रकारों को ऐसी खबरों की तलाश करना संभव नहीं होता। लेकिन हर डेटाबेस सिर्फ बड़ी खबरों के लिए होना जरूरी नहीं। खोजी पत्रकार छोटे पैमाने पर भी डेटाबेस बना सकते हैं। उनका भी प्रभाव बहुत अधिक होता है। यहां पत्रकारों के लिए डेटाबेस बनाने के तरीकों की चरण-दर-चरण मार्गदर्शिका दी गई है। इसके आधार पर आप अपने डेटाबेस को व्यवस्थित करके बेहतर पत्रकारिता कर सकते हैं।

1. डेटोबेस बनाने की तैयारी
  • सबसे पहले आप यह विचार करें कि आप किस प्रकार के दस्तावेजों से डेटा निकालेंगे। क्या आप किसी पैटर्न की पहचान कर सकते हैं? आप अगर किसी पैटर्न पर काम करेंगे तो उसमें दोहराए जाने वाले तत्व आपको अपने डेटाबेस की संरचना में मदद करेंगे। यदि आप बिल्कुल नए सिरे से शुरू कर रहे हैं और साक्षात्कार और पारंपरिक रिपोर्टिंग से रिकॉर्ड प्राप्त करना चाहते हैं, तो संबंधित मामलों या स्टोरीज का विश्लेषण करें। जिन विषयों पर डेटाबेस बनाना चाहते हों, उससे संबंधित विशेषज्ञों से बात करना भी उपयोगी होगा।
  • आप अपने डेटाबेस के दायरे और प्रकृति को भी परिभाषित करें। आप किस प्रकार का डेटा एकत्र करना चाहते हैं। आप किस अवधि को कवर करेंगे? इसमें कौन से मामले शामिल किए जाएंगे, और किन मामलों को बाहर करेंगे? इसके लिए स्पष्ट और अत्यंत विशिष्ट मानदंड की आवश्यकता है। क्या आपके रिकॉर्ड की संख्या की कोई सीमा होगी? आपकी परियोजना के संसाधन कहां से आएंगे? समय, टीम, धन, प्रौद्योगिकी आदि सभी सवालों पर विचार करें। ऐसा करके हर आप एक उपयोगी और व्यावहारिक डेटाबेस बना सकेंगे।
  • अपनी जांच के दौरान आप किन सवालों का जवाब देना चाहते हैं? उन सवालों की सूची बनाएं। इससे आपको अपने डेटाबेस का डिजाइन बनाना आसान होगा।
  • इस प्रारंभिक चरण में टीम वर्क को प्रोत्साहित करें। अपने सहयोगियों के बीच चर्चा आपके काम को मजबूत बनाती है। ‘लैंड ऑफ रेसिस्टेंस‘ परियोजना भी इसी तरह शुरू हुई थी। उसकी टीम ने खोजी पत्रकारिता पर कार्यशालाओं के दौरान डेटाबेस और जांच के बिंदुओं को निर्धारित किया था।
2. डेटाबेस की डिजाइन और विकास
  • आप सबसे पहले यह निर्धारित करें कि आपके डेटाबेस में किस प्रकार के रिकॉर्ड (कॉलम) होंगे, इसे परिभाषित करें। जैसे- मामले, व्यक्ति, स्थान, उत्पाद, ईवेंट, देश, लेन-देन, आदि विभिन्न क्षेत्रों की कैटेगरी बना लें।
  • इसके बाद उन तत्वों की सूची बनाएं जो प्रत्येक रिकॉर्ड को पहचानने में मदद करेंगे। ये आपके क्षेत्र (कॉलम) होंगे। उदाहरण के लिए, यदि प्रत्येक पंक्ति एक व्यक्ति है, तो फील्ड नाम, आईडी संख्या, आयु, स्थान, पेशा आदि।
  • प्रत्येक रिकॉर्ड के लिए एक की-वर्ड निर्धारित करें। नाम या पहचान संख्या के जरिए ऐसा कर सकते हैं। दो या तीन पहलुओं को मिलाकर कोड का आविष्कार भी संभव है, जो प्रत्येक रिकॉर्ड को विशिष्ट बना सके। यदि आपको दो या अधिक डेटासेट के बीच क्रॉस-चेक करना हो, तो यह की-वर्ड उपयोगी होगा।
  • डेटा के विषय की पहचान बताने वाले क्षेत्रों के अलावा, संक्षेप में कुछ विवरण लिखना भी उपयोगी होगा। आपका वह डेटाबेस किस विषय पर केंद्रित है, इस पर एक-दो पैराग्राफ लिख दें। विभिन्न वर्गीकरण के जरिए सामान्य विशेषताओं का संदर्भ देकर आप अलग-अलग श्रेणियां स्थापित कर सकते हैं। यह सोचना उपयोगी है कि इन श्रेणी क्षेत्रों से कैसी खबर निकल सकती है। उदाहरण के लिए, आप ‘धर्म‘ या ‘जाति‘ के लिए एक कॉलम कर सकते हैं ताकि यह विश्लेषण कर सकें कि किसी विशेष डेटासेट में धर्म या जाति का कोई पैटर्न शामिल है या नहीं।
  • डेटा में एकरूपता सबसे है। इसे सुनिश्चित करने के लिए सत्यापन के तरीके का उपयोग करें। सभी संख्याओं को एक समान संख्या के प्रारूप में टाइप किया जाना चाहिए। सभी तिथियां भी सही प्रारूप में हों। सभी श्रेणियां हमेशा उसी तरह लिखी जानी चाहिए। जहां तक संभव हो, ओपन-एंडेड प्रश्नों के बजाय अधिकांश क्षेत्रों को बहु-चयनात्मक उत्तरों का विकल्प दें।
  • प्रत्येक जानकारी को कौन इनपुट कर रहा है, यह पहचानने के लिए भी फील्ड शामिल करें। प्रत्येक जानकारी के मूल स्रोत और उसके लिंक की भी श्रेणी बना लें। बाद में यदि आपको किसी भी डेटा की जांच करने की आवश्यकता पड़ेगी, तो ऐसी सूचनाएं काफी उपयोगी होंगी।
  • कोशिश करें कि डेटा-फील्ड की संख्या अधिक न हो। केवल वही फील्ड बनाएं, जो आपकी जांच और डेटा विश्लेषण के लिए प्रासंगिक हों, और जिसे आपकी टीम भर पाए।
  • हरेक डेटाबेस में कई टेबल हो सकते हैं। विषय की जटिलता और उसमें शामिल तत्वों के बीच संबंधों के आधार पर यह तय करना होगा कि आपके डेटाबेस में कितने टेबल होंगे।
  • डेटाबेस की डिजाइन ऐसी होनी चाहिए, जिसका उपयोग करना उस परियोजना में शामिल सभी लोगों के लिए आसान हो, चाहे उनका तकनीकी स्तर कुछ भी हो। ओसीसीआरपी के सह-संस्थापक और इनोवेशन प्रमुख पॉल राडू कहते हैं-  “यह खास तौर पर पत्रकारों के लिए बनाया गया एक उपकरण होना चाहिए, जिसे पत्रकारों की मदद से बनाया गया हो।“
  • डेटाबेस स्केलेबल होना चाहिए, जिसमें किसी चीज को जोड़ना या हटाना संभव हो। इसकी डिजाइन भविष्य की बड़ी परियोजना का पहला चरण है। इसलिए भविष्य की जरूरत के अनुरूप इसमें परिवर्तन की गुंजाइश हो।
3. टेस्ट, टेस्ट, टेस्ट
  • जब आप डेटाबेस बनाना शुरू करें, तो प्रारंभिक चरण में ही ‘पायलट परीक्षण‘ जरूर करें। इसमें यह देखने के लिए कुछ रिकॉर्ड भरें कि क्या आपकी जरूरत के अनुरूप इसकी डिजाइन काम कर रही है या नहीं। यह आकलन भी करें कि क्या यह वैसी खबरों के लिए उपयोगी होगा, जिन पर आप काम करना चाहते हैं। परियोजना में कितना समय लग सकता है, इसका भी अनुमान लगाएं। इसका एक अच्छा तरीका यह है कि प्रत्येक नया रिकॉर्ड जोड़ने, ऑडिट करने और फिर जानकारी की पुष्टि करने में कितना औसत समय लग रहा है, इसकी माप करें।
  • संभावित बाधाओं या त्रुटियों का विश्लेषण करने के लिए ‘ऐसा हो तो क्या होगा‘ की एक सूची बनाएं। इसके जरिए यह विचार करें कि आप इन स्थितियों का क्या रास्ता निकालेंगे।
  • डेटाबेस के महत्वपूर्ण क्षेत्रों की विश्वसनीयता और निरंतरता का मूल्यांकन करें। यदि एक ही विषय पर अलग-अलग स्रोत से अलग-अलग बात आ रही हो, तो आप ऐसी ही जानकारी को एक विवरण कॉलम में रख सकते हैं। ऐसा करके आप यह बता सकते हैं कि इस मामले पर दो या अधिक किस्म की राय है। इस तरह आप उनमें से किसी एक को ‘सत्य‘ मानने की अनावश्यक कोशिश से बच सकते हैं। आप अपना कोई निर्णय सुनाने के बजाय उस विषय में विभिन्न पक्ष प्रस्तुत करके उनकी ‘असहमति‘ का वर्णन कर सकते हैं।
4. डेटाबेस भरें
  • डेटाबेस के लिए जानकारी एकत्र करने, इनपुट करने और विश्लेषण करने वाले पत्रकारों को व्यावहारिक प्रशिक्षण देना भी जरूरी है। इसलिए इस ‘पायलट परीक्षण‘ के दौरान आपने जो सीखा, उसके आधार पर यह प्रशिक्षण प्रदान करें। यह सुनिश्चित करें कि सभी अवधारणाओं और श्रेणियों को आपकी टीम के सभी लोग सही तरीके से समझ रहे हों।
  • टीम के सभी सदस्यों के माध्यम से डेटा का सामूहिक भंडारण करें, ताकि किसी एक व्यक्ति पर निर्भरता न हो।
  • डेटाबेस की डिजाइन बनाने के दौरान विभिन्न श्रेणियों का उपयोग करके डेटा को अलग-अलग हिस्सों में विभाजित कर दें। टीम के सदस्यों की अलग-अलग श्रेणी के अनुरूप जिम्मेवारी हो। इस बात के नियम स्पष्ट हों कि कौन सदस्य किस प्रकार की जानकारी एकत्र करेगा। इस तरह आप दोहराव से बच सकते हैं।
  • यदि वेब अथवा दस्तावेजों से डेटा निकालने (स्क्रैप) करने की आवश्यकता हो, तो उन चीजों पर फोकस करें, जो आपकी जांच के लिए सबसे अधिक प्रासंगिक हो। उदाहरण के लिए, ट्रोइका परियोजना में रूपयों के लेन-देन को फोकस में रखा गया था।
  • यदि आपके पास डेटा की मात्रा इतनी अधिक हो जाए जिसका प्रबंध करना मुश्किल हो, तो किसी पेशेवर कंपनी की मदद लें। उसे अपने न्यूजरूम द्वारा डिजाइन किए गए डेटाबेस में दस्तावेजों को ट्रांसक्राइब करने का जिम्मा दें।
5. ऑडिट और फैक्ट-चेक
  • आपकी जांच का पहला चरण है- डेटाबेस बनाना। इस डेटा का विश्लेषण करने और निष्कर्ष निकालने से पहले आपको मूल स्रोतों से इसकी पुष्टि करनी होगी। इसमें दस्तावेजों और मुख्य लोगों से जुड़े तथ्यों की जांच आवश्यक है। ऑस्कर पारा कहते हैं- “हम अपना डेटा लेकर उन नगरपालिकाओं में गए, जहां नरसंहार हुए थे। हमने पीड़ितों के परिजनों तथा अन्य लोगों से मिलकर हरेक डेटा की जांच करके उन तथ्यों की जांच की, जो अब तक मीडिया द्वारा बताई जा रही थी।“
  •  डेटाबेस के तथ्य सही हैं, इसकी जांच के लिए ऑडिट करना जरूरी है। आप किस तरह ऑडिट करेंगे, यह आपके प्रोजेक्ट के अनुरूप अलग-अलग होगा। आप चाहें तो हरेक रिकॉर्ड को मूल दस्तावेजों के साथ मिलान करके देख सकते हैं। ऐसा करना संभव न हो, आप यादृच्छिक (रेंडम) तरीके से कुछ डेटा की जांच कर सकते हैं। लेकिन इसके लिए रिकॉर्ड की एक महत्वपूर्ण संख्या को कवर करना चाहिए। जिस व्यक्ति ने डेटाबेस में जानकारी दर्ज की है, उसी व्यक्ति से ऑडिट न कराएं। यह काम अलग टीम करे ताकि त्रुटियों का पता चल सके।
  • ऑडिट में आपको क्या देखेंगे? टाइपिंग संबंधी अशुद्धि, संख्याएं, तिथियां, दोहराव, और ऐसे रिकॉर्ड जो मानदंडों को पूरा नहीं करते हैं, ऐसी चीजों की जांच की जा सकती है।
  • संख्याओं की समीक्षा करने के दो उपाय हैं। सिस्टम द्वारा स्वचालित रूप से जोड़ का योग बनाएं और मूल दस्तावेजों के साथ उनकी तुलना करें। इसके अलावा, अपेक्षाकृत बहुत बड़े या बहुत छोटे आंकड़ों पर खास ध्यान दें क्योंकि ऐसा किसी गलती के कारण होना संभव है।
  • डेटाबेस को उपयोग के लायक तभी समझा जाए, जब निम्नलिखित चारों प्रक्रिया पूरी हो जाए- 1. तथ्य-जांच, 2. डेटा ऑडिटिंग, 3. व्यक्तिगत स्रोत से मिलान और 4. कानूनी समीक्षा।

दक्षिण और मध्य अमेरिका में पर्यावरण रक्षकों पर हमलों का विवरण देने के लिए ‘टिएरा डी रेसिस्टेंटेस‘ द्वारा बनाया गया मैप। छाया: स्क्रीनशाट

 सॉफ्टवेयर

आप एक पत्रकार हैं। डेटाबेस प्रोजेक्ट पर काम करने के लिए आपको सिस्टम डेवलपर बनने की आवश्यकता नहीं है। इसके लिए किसी पेशेवर को अपनी टीम में शामिल कर लें। उसकी मदद से आपका काम आसान होगा। यहां कुछ अच्छे उपकरणों की सूची दी गई है-

  • वेब फॉर्म बनाने के लिए ऐप्प, जिनसे डेटाबेस भरने में मदद मिलेगी:  गूगल फॉर्म,  Node.jsDjango ,  Flask
  • डेटाबेस स्टोरेज:  MongoDB Atlas  , Google’s Firebase.
  • डेटा की संरचना और प्रसंस्करण के लिए:  पायथन (जिसे ऊपर वर्णित भंडारण विकल्पों से जोड़ा जा सकता है)  PostgreSQL , ELK Stack , Filemaker
  • डेटा निकालने और पीडीएफ रूपांतरण के लिए:   Wondershare Pdf Converter Pro , Google Documents basic converter, iLovePDF , Smallpdf , Tabula , Import.io
  • आप किसी भी समय अपने डेटाबेस सिस्टम से डेटा डाउनलोड कर सकते हैं और एक्सेल या गूगल स्प्रेडशीट में काम कर सकते हैं। इनमें से किसी एक से शुरु करना छोटी परियोजनाओं के लिए भी बेहतर है।
निष्कर्ष और सुझाव

ऐसी परियोजनाओं में डेटा की सुरक्षा एक प्रमुख मुद्दा है। इसलिए एन्क्रिप्टेड संचार का उपयोग करें। डेटा के बैकअप का इंतजाम करें। अपनी व्यक्तिगत सुरक्षा का भी ध्यान रखें।

एक्सेल का उपयोग करना सीखें। डेटा वैज्ञानिकों और डेवलपर्स के साथ भी सहयोग करें।

ऐसे उपकरणों का उपयोग सीख लें, जो आपके काम को आसान बनाते हों। जैसे- स्क्रैपिंग के लिए उपकरण, डेटाबेस भरने के लिए ऑनलाइन फॉर्म, पीडीएफ कन्वर्टर्स, ओसीआर के साथ स्कैनिंग (ऑप्टिकल कैरेक्टर रिकग्निशन), और बड़े पैमाने पर टेक्स्ट प्रोसेसिंग। ओसीसीआरपी में एक ऐसा मंच बनाया गया, जो इन सभी कार्यों में मदद करता है- विभिन्न प्रारूप के दस्तावेज रिकॉर्ड तक पहुँच, खोज, लिप्यंतरण और ब्राउजिंग।

डेटाबेस जैसे बड़े काम में बड़ी टीम की आवश्यकता होती है। इसलिए यह तय हो कि परियोजना का नेता कौन होगा। ऐसी खोजी परियोजना में सहयोग के लिए अन्य भागीदारों की भी तलाश करें।

जो लोग आपके डेटाबेस का उपयोग करेंगे, उनके लिए कार्यप्रणाली और स्रोतों को पारदर्शी बनाएं। आपके सिस्टम सुरक्षा प्रोटोकॉल उन्हें इसकी अनुमति देते हों। कुछ मूल दस्तावेजों का नमूना भी दिखाएं ताकि आपके डेटाबेस की विश्वसनीयता कायम हो।

कोई पाठक आये किस तरह संपर्क करे, यह जानकारी भी प्रकाशित करें, ताकि कोई प्रश्न हो, या डेटाबेस में कोई गलती दिखाई दे, तो पाठक आपको बता सकें।

अतिरिक्त संसाधन

How Journalists Tracked Down Missing Data to Change the Conversation on Homelessness

How To Create a Data Journalism Team

How to Use Data Journalism to Cover War and Conflict


मिरियम फोरो एरिजा एक कोलंबियाई स्वतंत्र खोजी और डेटा पत्रकार हैं। उनकी रिपोर्ट्स ‘वाइस‘, ‘कोलम्बियाचेक‘ और ‘एल एस्पेक्टाडोर‘ में प्रकाशित होती हैं। उनके पास सहयोगी जांच, डेटा विश्लेषण और विजुअलाइजेशन में एक दशक से अधिक का अनुभव है। वह ‘इबेरोअमेरिकन डेटा जर्नलिज्म हैंडबुक‘ की सह-लेखिका हैं।

 

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

Investigating AI Audio Deepfakes

टिपशीट

फर्जी एआई ऑडियो की जांच कैसे करें

एडवांस्ड स्पीच डीपफेक के द्वारा बिल्कुल असली लगने वाले नकली ऑडियो बनाए जा सकते हैं। उसकी सच्चाई को उस व्यक्ति के नजदीकी दोस्त भी नहीं पहचान सकेंगे। ऐसे ऑडियो क्लिप की जांच के लिए विशेषज्ञ और नए उपकरणों की आवश्यकता होती है। अक्सर पत्रकार किसी नेता के बारे में अपने ज्ञान, रिकॉर्डिंग की खराब गुणवत्ता, संदर्भ या सामान्य सामान्य ज्ञान के आधार पर किसी ऑडियो क्लिप में किए गए फर्जीवाड़े को तुरंत पहचान लेते हैं।

ऐप्स की ‘प्राइवेसी पॉलिसी’ को कैसे समझें?

आम तौर पर अधिकांश प्राइवेसी पॉलिसी में एक पूर्व-अनुमानित संरचना का पालन किया जाता है। इसलिए आप उनकी तह तक जाने की कला सीख सकते हैं। उसके मुख्य हिस्सों का पता लगा सकते हैं। लंबा दस्तावेज होने के बावजूद केवल महत्वपूर्ण जानकारी को निकालने के लिए झपट्टा मार सकते हैं। आप कुछ सूचनाओं के संग्रह के आधार पर उससे बाहर निकलने या विकल्प चुनने के अवसर का लाभ उठा सकते हैं। अधिक गहराई तक जाने और अधिक व्यक्तिगत प्रकटीकरण से जुड़े बिंदुओं को भी बेहद कम समय में आसानी से समझ सकते हैं।

दीर्घकालिक खोजी रिपोर्टिंग को जारी रखने या रोकने का निर्णय कैसे लें?

संपादकों के अनुसार न्यूनतम स्टोरीज प्रकाशित करने का भी काफी महत्व है। ऐसी स्टोरी आने के बाद विस्सल-ब्लोअर सामने आते हैं। किसी संगठन के भीतर के लोग आकर कोई बड़ी जानकारी देते हैं। संपादकों के अनुसार ऐसी खबरें प्रकाशित करने के दौरान पारदर्शिता महत्वपूर्ण है। पाठकों को स्पष्ट रूप से बताना सुनिश्चित करें कि क्या साबित किया जा सकता है और क्या नहीं।

Data mining workshop scraping website GIJC23

टिपशीट

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

Data Miner डाटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।