आलेख

विषय

डेटा को समझने और प्रस्तुतीकरण के कुछ ज़रूरी टिप्स

इस लेख को पढ़ें

यदि आप अंकीय गणना को सही ढंग से करते हैं, लेकिन उत्तरों की सही व्याख्या में असफल होते हैं, तो आप अंत में अपने दर्शकों को गुमराह कर सकते हैं।फोटो: शटरस्टॉक

खोजी पत्रकारिता में डेटा का उपयोग बहुत महत्वपूर्ण होता है। एक रिपोर्टर के लिए डेटा का उपयोग करते समय, यह महत्वपूर्ण है कि डेटा कैसे प्राप्त करें और उसे कैसे सफाई के साथ पेश करें। साथ ही यह भी महत्वपूर्ण है कि आप अपने निष्कर्षों की सही व्याख्या करें और संख्याओं, फ़िल्टरों और स्प्रेडशीट से सही निष्कर्ष तक पहुंचें। यह इसलिए भी ज़रूरी है कि अगर आप ने डेटा को सही ढंग से समझ लिया, लेकिन डेटा से जुड़ी जानकारी समझाने में असफल हुए, तो आप अपने दर्शकों को गुमराह कर सकते हैं।

ऐसा क्यों होता है? दरअसल, कभी-कभी, जिस डेटा पर हम काम करते हैं, वह वास्तव में हमारे द्वारा पूछे जाने वाले प्रश्नों का सही संदर्भों में उत्तर नहीं होता है। ऐसा इसलिए होता है क्योंकि हम खोजी रिपोर्टिंग से जुड़े डेटा संग्रह और विश्लेषण चरणों के दौरान पारंपरिक पत्रकारिता की नैतिकता को लागू नहीं कर पाते हैं। ऐसे में हमें सावधान रहना चाहिए कि हम उन आँकड़ों का ही चयन न करें जो हमारे दृष्टिकोण का समर्थन करते हों। कई बार हम संदर्भ को छोड़ देते हैं या अपने प्रश्न को इतना महत्वपूर्ण मान लेते हैं कि यह समझ ही नहीं पाते कि डेटा वास्तव में क्या कहना चाह रहा है। याद रखें, डेटा पत्रकारिता में डेटा हमारा स्रोत है और हमें इसका सम्मान करना चाहिए।

सामान्य तौर पर होने वाली गलतियां

सबसे पहले इस बात का ध्यान रखें कि आप अलग-अलग देशों या अन्य विश्लेषणों द्वारा एकत्रित डेटा के आधार पर व्यक्तियों के बारे में अपना दृष्टिकोण प्रस्तुत न करें। क्योंकि आप जिस देश या स्थान के बारे में बात कर रहे हैं, वहां के लोगों की वास्तविकता ऐसे व्यापक डेटा द्वारा प्रदान किए गए विचारों (इम्प्रेशन) से बहुत भिन्न भी हो सकती है।

डेटा वैज्ञानिक हीथर क्रॉस, कनाडा की कंपनी डेटासिस्ट के संस्थापक है। इसके अलावा उन्होंने डेटा विज्ञान  We All Count में निष्पक्षता के लिए परियोजना पर काम किया है, उन्होंने इस समस्या की व्याख्या करते हुए सिगरेट के एक उदाहरण के साथ इस बात को समझाने की कोशिश की है, जिसे पारिस्थितिक भ्रांति के रूप में जाना जाता है।

उदाहरण कुछ इस तरह हैं:  कई देशों में सिगरेट पी जाती है, ऐसे में जब वहां के लोगों की आयु संभाविता (जन्म के समय आयु की संभावना) के बारे में जांच की गई तो सामने आया कि धूम्रपान और आयु के बीच एक सकारात्मक पारस्परिक संबंध है। कुछ देशों में जहां सिगरेट की खपत अधिक थी वहां लोगों की सामान्य आयु भी अधिक पाई गई। यानी जिन देशों में सिगरेट की खपत अधिक होती है, वहां लोगों की आयु भी लंबी होती है। हालांकि, ऐसी स्थिति में यह निष्कर्ष निकालना गलत होगा कि धूम्रपान आपको लंबे समय तक जीवित रखता है, न केवल इसलिए कि तर्क और कई वैज्ञानिक अध्ययन इसके विपरीत हैं, बल्कि इसलिए भी कि इस उदाहरण में जांचे गए डेटा ने यह मूल्यांकन नहीं किया कि सिगरेट व्यक्तियों के लिए क्या करती है, यह केवल दो एकत्रित डेटा के राष्ट्रीय संकेतकों की तुलना करता है।

यह भ्रम एक और समस्या खड़ा करता है, जिससे गलत व्याख्या (अनुमान) हो सकती है, जिस डेटा की तुलना की जा रही है वह कारण व प्रभाव से संबंधित नहीं है। दूसरे शब्दों में दोनों निष्कर्षों का सहसम्बन्ध नहीं है।  क्योंकि डेटा मूल रूप से यह देखने के उद्देश्य से एकत्र नहीं किया गया था कि क्या अधिक सिगरेट पीने से आयु पर प्रभाव पड़ता है, ऐसे में सांख्यिकीय (डेटा) विश्लेषण परिणाम के बजाय भविष्यवाणी करता हुआ प्रतीत होता है।

डेटा के इन दो सेटों को देखने वाले रिपोर्टर को पारस्परिक संबंध के लिए एक संभावित स्पष्टीकरण खोजने के लिए अन्य प्रभावी कारकों को भी ध्यान में रखना चाहिए, जैसे उस देश के लोगों की किसी भी वस्तु को क्रय करने की शक्ति कैसी है? जैसे अमीर देशों में लोगों को सिगरेट खरीदने की क्षमता अधिक होती है, वहीं, दूसरी तरफ ऐसे देश में बेहतर स्वास्थ्य सेवा भी मौजूद होती है।

अर्जेंटीना की एक समाचार साइट इन्फोबे (Infobae) में डेटा इंटेलिजेंस यूनिट की निदेशक सैंड्रा क्रूसियानेली ने चेतावनी देते हुए कहा कि, यह सुनिश्चित करने से पहले कि हमारी गणना सटीक है, पत्रकारों के रूप में हमें यह आकलन करने की आवश्यकता है कि क्या आंकड़े उस वास्तविकता को प्रकट करते हैं, जिसे हम रिपोर्ट करने का प्रयास कर रहे हैं। औसत किस्म के डाटा के साथ बहुत सावधान रहें: डेटा के बीच मूल्यों के बहुत बड़े अंतराल होने पर वे भ्रामक हो सकते हैं।

वेतन या असमानता से संबंधित अन्य मुद्दों के बारे में रिपोर्ट करते समय अक्सर ऐसा होता है। जिन देशों में अमीर-गरीब के बीच गहरी खाई होती है, ऐसे देशों में औसत वेतन के आंकड़े वास्तविकता का प्रतिनिधित्व नहीं करते हैं, क्योंकि यह डेटा अमीर और गरीब के बीच की खाई को प्रकट करने में विफल रहता है।

मिगुएल पाज़, नीमन फ़ाउंडेशन के पूर्व फैलो और डिजिटल सब्सक्रिप्शन एजेंसी रेवेन्यू के संस्थापक हैं, उन्होंने पत्रकारों को बीच का रास्ता उपयोग करने की सलाह दी, वह मूल्य जो डेटा की एक संगठित सूची की केंद्रीय स्थिति में निहित होता है। क्योंकि यह उस चीज के करीब पहुंच जाता है जिस पर अधिकांश व्यक्ति निर्भर होते हैं। “हमें औसत दर्जें की पत्रकारिता बंद कर देना चाहिए!” उन लोगों का शुक्रगुजार हूं, जिन्होंने विभिन्न प्रकार की डेटा पत्रकारिता परियोजनाओं को विकसित किया है और इस पर कार्यशालाओं का आयोजन किया है कि कैसे डेटा पत्रकार गणित को सही तरीका इस्तेमाल करते हुए भी गलतियां कर सकते हैं।

सामाजिक-जनसांख्यिकी स्थितियों का वर्णन करते समय प्रतिशत और दरों का उपयोग भी सहायक है। जैसे, हर साल पुलिस मेरे देश – कोलंबिया में अपराध के आंकड़े जारी करती है। इसके बाद मैं दर्जनों ऐसी मीडिया रिपोर्ट्स को देखता हूं, जिनकी हैडिंग बहुत ही हैरान करने वाली होती हैं, जैसे “मेडेलिन सबसे खतरनाक शहर है” या “बोगोटा (Bogotá) में सेलफोन रखना भी सुरक्षित नहीं है”।  लेकिन ये रिपोर्ट केवल निरपेक्ष मूल्यों का उपयोग करती हैं और इसलिए, वास्तविक सुरक्षा स्थिति को प्रस्तुत करने में विफल रहती हैं। जबकि, हकीकत यह है कि अगर इन खबरों पर काम कर रहे पत्रकारों ने इन शहरों की जनसंख्या और कितने लोग सेलफोन का उपयोग कर रहे हैं जैसे डेटा पर ध्यान दिया होता तो वह पाएंगे कि महानगर बोगाटा शहर की जनसंख्या 8 मिलियन और मेडेलिन शहर की जनसंख्या मात्र 2.5 मिलियन है, ऐसे में अपराध के आंकड़े इतने बुरे नहीं है जितना कि उन्हें पेश किया जा रहा है और वास्तव में, प्रति व्यक्ति अपराध दर उच्च स्तर पर होने वाले अन्य शहरों में असुरक्षा पर अधिक ध्यान देने की आवश्यकता है ।

ऐसी हैडिंग यह भी दिखाती हैं कि सनसनी कैसे समस्याएं पैदा कर सकती है। ठीक से पता लगाने के लिए कि कौन सा शहर सबसे खतरनाक है, अधिक सूक्ष्म चित्र को चित्रित करने के लिए व्यापक संख्या में संकेतकों की आवश्यकता होती है।

कोविड-19 और डेटा सीखने की अवस्था

कोविड-19 के बढ़ते मामलों की संख्या को समझने के लिए पत्रकारों को रातों-रात डेटा रिपोर्टर बनना पड़ा है, लेकिन इतने कम समय में कोविड को लेकर अंतरराष्ट्रीय स्तर पर तुलना किसी भी रिपोर्टर के लिए मुश्किल हो सकता है।फोटो : शटरस्टॉक

कोविड-19 के कवरेज के दौरान भी डेटा को लेकर ऐसा ही कुछ हुआ। विभिन्न देशों में संक्रमित लोगों की संख्या या मौतों की तुलना करते हुए कई रिपोर्टें प्रकाशित की गई, लेकिन ये तुलना आमतौर पर सटीक नहीं दिखी। क्योंकि मुख्य रूप से इस तरह की महामारी के मामले में सही माप का तरीका संक्रमण दर है। जनसंख्या के हिसाब से संक्रमित लोगों की संख्या और कई अन्य कारकों ने अंतर्राष्ट्रीय तुलनाओं को कठिन बना दिया है

उदाहरण के लिए, कोविड-19 महामारी की पहली लहर के दौरान, कुछ देशों ने घरों में इलाज करा रहे संक्रमित लोगों की हुई मौतों को शामिल नहीं किया, लेकिन बाद में ऐसा किया गया। कई देशों में ऐसे करने पर कई तरह की भिन्नताएं भी सामने आई आईं। उन देशों ने कोरोनावायरस से हुई मौत को तभी दर्ज किया जब वायरस मृत्यु का मुख्य कारण था या मृत्यु के समय शरीर में वायरस की उपस्थिति की पुष्टि डॉक्टरों द्वारा की गई। कुछ ने इन बातों को नजरअंदाज करते हुए भी मौतों को कोविड मानकर रिकॉर्ड में दर्ज कर लिया। प्रत्येक देश में वायरस कितने समय से मौजूद है, इस पर विचार करना भी महत्वपूर्ण है, क्योंकि ऐसी महामारी मजबूत या कमजोर स्वास्थ्य प्रणाली पर असर डालते हैं, ऐसे में ये जानना बहुत महत्वपूर्ण है कि प्रत्येक सरकार महामारी पर सवालों का  जवाब किस तरह दे रही है।

महामारी की खबरों से जुड़ी ध्यान में रखने के लिए एक और महत्वपूर्ण बात हैः संक्रमण मृत्यु दर या सभी कोरोना संक्रमितों पर मौतों की संख्या। इस आंकड़े के साथ समस्या यह है कि प्रत्येक राष्ट्र ने अपनी निदानकारी व्यवस्था स्थापित की है, कुछ ने दूसरों की तुलना में अधिक परीक्षण किया है, कुछ ने परीक्षण का तरीका ही बदल दिया है क्योंकि महामारी लगातार बढ़ती गई, जिससे तुलना भी असंभव हो जाती है। निश्चित रूप से, कई देशों ने माना है कि पंजीकृत मामलों की संख्या में भारी कमी है, जबकि मौतों की संख्या बहुत अधिक है, ऐसा जांच उपकरणों की कमी के कारण भी हुआ है और इसका एक कारण यह भी है कि सभी मौतों को पंजीकृत या कोविड-19 से लिंक नहीं किया। ऐसी स्थिति में ब्रिटेन, अमेरिका और भारत जैसे देशों की अंतरराष्ट्रीय स्तर पर तुलना करना मुश्किल है। उदाहरण के लिए, यूके में, महामारी की शुरुआत में, केवल उन लोगों का परीक्षण किया गया, जिन्हें अस्पतालों में भर्ती कराया गया था। जिसने मृत्यु दर को वास्तव में उससे अधिक बना दिया, क्योंकि परीक्षण व्यवस्था ने केवल सबसे गंभीर मरीजों के मामलों को गंभीरता से लिया था।

महामारी ने साबित कर दिया है कि हर क्षेत्र में पत्रकारों के लिए डेटा से जुड़ी शिक्षा महत्वपूर्ण है ताकि एकत्रित डेटा के साथ सही ढंग से निपटा जा सके और हमें अनावश्यक तुलनाओं से बचकर रहना चाहिए, डेटा का दुरुपयोग न करें। कई सरकारी अधिकारी इस तरह की गलती करते हैं और पत्रकारों के रूप में हमें इन गलतियों को पहचानना और उनसे बचना सीखना चाहिए।

एक और उदाहरण है, लेकिन इस बार हम महामारी से पहले की दुनिया के बारें में बात करेंगेः कोलंबिया में तथ्य की जांच (fact-check) करने वाला पहला मीडिया संगठन, कोलम्बियाचेक ( colombiacheck.com) है। कोलम्बियाचेक ने एक कांग्रेसी महिला के उस दावे की जांच की, जिसमें उसने आरोप लगाया कि देश में ग्रामीण भूमि, अश्वेत और स्वदेशी समुदायों के हाथों में केंद्रित थी। जिसने एक बड़ा विवाद खड़ा कर दिया, क्योंकि यह समुदाय देश में लंबे समय से चल रहे संघर्ष के परिणामस्वरूप भूमि अधिग्रहण के लगातार शिकार हैं। उनके बयान की जांच करते हुए पत्रकारों ने पाया कि, भले ही आधिकारिक संख्या से पता चलता है कि उन दो समूहों के पास अन्य जातीय समूहों के कोलम्बियाई लोगों की तुलना में अधिक भूमि है, लेकिन उन समुदायों के सामूहिक स्वामित्व कार्यों का सुझाव देना एक गलती थी, जिसका अर्थ था कि उन समुदायों के भीतर के व्यक्तियों ने अधिक जमींदार शक्ति का प्रयोग किया।

डेटा से जुड़ी जानकारी की विवेचना के लिए टिप्स

प्रकाशन से पहले डेटा की सही व्याख्या या पड़ताल लिए जांच सूची:

  • हमेशा अपने आप से पूछें कि क्या डेटा वास्तव में आपके खोजी प्रश्न से संबंधित है। क्या पर्याप्त जानकारी है?  क्या मैं इसे सही नजरिये से देख रहा हूं? क्या मैं डेटा के लिए पर्याप्त प्रश्न पूछ रहा हूं? क्या मैं इसकी सभी महत्वपूर्ण बारीकियों को देखने के लिए इसे पर्याप्त रूप से ब्रेक कर रहा हूं? क्या डेटा के प्रकार तुलनीय हैं?
  • आपके पास मौजूद डेटा के स्तर के अनुसार खबर को प्रस्तुत या प्रकाशित करें। यदि आपके पास केवल राष्ट्रीय-स्तर की जानकारी है, तो आपके निष्कर्षों को केवल राष्ट्रीय प्रवृत्तियों या पूर्वानुमानों को संबोधित करना चाहिए। यदि आपके पास व्यक्तिगत स्तर पर डेटा है, तो आप लोगों के व्यवहार या प्रवृत्तियों के बारे में निष्कर्ष निकाल सकते हैं।
  • सत्यापित करें कि आप जिन डेटा के प्रकारों का विश्लेषण कर रहे हैं उनका सीधा संबंध है (एक कारण दूसरे का भी कारण है)। यदि मध्यस्थ तत्व हैं, तो इन्हें ध्यान में रखा जाना चाहिए। आप डेटा एकत्र करने और संसाधित करने के तरीके को देखकर ऐसा कर सकते हैं।
  • यदि पारस्परिक संबंध कारण नहीं है, लेकिन भविष्य कहने वाला है, तो कहानी को इस तरह से बताना सुनिश्चित करें, जैसे वाक्यों के साथ: “यदि x बढ़ता है, तो यह अधिक संभावना होगी कि y गिर जाएगा।” यदि पारस्परिक संबंध केवल संयोग है, तो इसे त्यागने पर विचार करें।
  • इस बात से अवगत रहें कि प्रत्येक पंजीकरण क्या दर्शाती है (एक व्यक्ति, एक तथ्य, एक मामला, एक स्थान) और तदनुसार अपने निष्कर्षों का वर्णन करें।
  • जब आपको बाहरी कारकों (अन्य लोगों ) के कारण डेटा मिलते हैं, तो उन्हें प्रकाशित करने में जल्दबाजी न करें। सबसे पहले देखें कि, क्या किसी अत्यंत उच्च या निम्न मूल्यों के लिए स्पष्टीकरण वास्तव में उन्हें समाचार योग्य बनाता है, यदि डेटा त्रुटिपूर्ण है या यदि कोई पराया आदमी है जो इसकी व्याख्या कर रहा है।
  • विचार करें कि आप अपने डेटा विश्लेषण के लिए किस सांख्यिकीय विधि का उपयोग करेंगे:  प्रतिशत के साथ, औसत, दर या अनुपात का उपयोग करते हुए । आपका निर्णय डेटा की विशेषताओं और विषय पर निर्भर करेगा।
  • विशेषज्ञों से बात करें। एक सांख्यिकी विशेषज्ञ आपको उस डेटा के प्रकार की पहचान करने में मदद कर सकता है जिसके साथ आप काम कर रहे हैं: भविष्य बताने वाला, कारण, तुलनीय है या नहीं, आदि। साथ ही, आपकी खबर के विशिष्ट क्षेत्र के विशेषज्ञ आपको अंतराल, गलत व्याख्या, लापता तत्वों और नए पारस्परिक संबंधों को देखने में मदद कर सकते हैं।

अंत में, हमेशा ध्यान रखें कि डेटा में इन बातों का उपयोग करने से परिणामस्वरूप प्रकाशित होने वाली कहानियां लोगों और सरकारों के निर्णय लेने के तरीके को आकार देती हैं। डेटा प्रोसेसिंग और डेटा साक्षरता बहुत जरूरी है। यदि हम सभी आवश्यक कारकों को ध्यान में नहीं रखते हैं और आवश्यक प्रासंगिक विश्लेषण के बिना निष्कर्ष निकालते हैं, तो हम लोगों का ध्यान गलत जगह ले जायेंगे। इससे हम अनजाने में लोगों को उन आदतों को अपनाने के लिए राजी कर सकते हैं जो उन्हें नुक़सान पहुंचा सकती हैं या एक ऐसी कहानी तैयार कर सकती हैं जिसमें जनसंख्या का एक हिस्सा शामिल नहीं है।

और भी पढ़ें

Tips for Building a Database for Investigations

From Relationships to Ranking: Angles for Your Next Data Story

How the COVID-19 Pandemic Has Shaped Data Journalism

मिरियम फ़ोरो एरिज़ा एक कोलंबियाई स्वतंत्र खोजी और डेटा पत्रकार हैं, जिनका काम VICE, Colombiacheck और El Espectador द्वारा प्रकाशित किया गया है। उनके पास सहयोगात्मक जांच, डेटा विश्लेषण और विज़ुअलाइज़ेशन में एक दशक से अधिक का अनुभव है। वह इबेरोअमेरिकन डेटा जर्नलिज्म हैंडबुक  की सह-लेखिका हैं।

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

Investigating AI Audio Deepfakes

टिपशीट

फर्जी एआई ऑडियो की जांच कैसे करें

एडवांस्ड स्पीच डीपफेक के द्वारा बिल्कुल असली लगने वाले नकली ऑडियो बनाए जा सकते हैं। उसकी सच्चाई को उस व्यक्ति के नजदीकी दोस्त भी नहीं पहचान सकेंगे। ऐसे ऑडियो क्लिप की जांच के लिए विशेषज्ञ और नए उपकरणों की आवश्यकता होती है। अक्सर पत्रकार किसी नेता के बारे में अपने ज्ञान, रिकॉर्डिंग की खराब गुणवत्ता, संदर्भ या सामान्य सामान्य ज्ञान के आधार पर किसी ऑडियो क्लिप में किए गए फर्जीवाड़े को तुरंत पहचान लेते हैं।

ऐप्स की ‘प्राइवेसी पॉलिसी’ को कैसे समझें?

आम तौर पर अधिकांश प्राइवेसी पॉलिसी में एक पूर्व-अनुमानित संरचना का पालन किया जाता है। इसलिए आप उनकी तह तक जाने की कला सीख सकते हैं। उसके मुख्य हिस्सों का पता लगा सकते हैं। लंबा दस्तावेज होने के बावजूद केवल महत्वपूर्ण जानकारी को निकालने के लिए झपट्टा मार सकते हैं। आप कुछ सूचनाओं के संग्रह के आधार पर उससे बाहर निकलने या विकल्प चुनने के अवसर का लाभ उठा सकते हैं। अधिक गहराई तक जाने और अधिक व्यक्तिगत प्रकटीकरण से जुड़े बिंदुओं को भी बेहद कम समय में आसानी से समझ सकते हैं।

दीर्घकालिक खोजी रिपोर्टिंग को जारी रखने या रोकने का निर्णय कैसे लें?

संपादकों के अनुसार न्यूनतम स्टोरीज प्रकाशित करने का भी काफी महत्व है। ऐसी स्टोरी आने के बाद विस्सल-ब्लोअर सामने आते हैं। किसी संगठन के भीतर के लोग आकर कोई बड़ी जानकारी देते हैं। संपादकों के अनुसार ऐसी खबरें प्रकाशित करने के दौरान पारदर्शिता महत्वपूर्ण है। पाठकों को स्पष्ट रूप से बताना सुनिश्चित करें कि क्या साबित किया जा सकता है और क्या नहीं।

Data mining workshop scraping website GIJC23

टिपशीट

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

Data Miner डाटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।