Image: Shutterstock

आलेख

विषय

डेटा जर्नलिज़्म: पत्रकारों के लिए ‘मानक विचलन’ से सबंधित 4 जरूरी बातें

इस लेख को पढ़ें

इमेज: शटरस्टॉक

डेटा पत्रकारों को ‘अकादमिक शोध’ से महत्वपूर्ण खबरें मिलती हैं। ऐसे शोध दस्तावेज में ‘मानक विचलन’ शब्द का अक्सर उपयोग होता है। पत्रकारों को इसका अर्थ अच्छी तरह समझना चाहिए। तभी आप अपने पाठकों को इसके बारे में बेहतर जानकारी दे पाएंगे। इस आलेख में  ‘मानक विचलन’ शब्द के बारे में विस्तार से बताया गया है। ‘मानक विचलन’ के संबंध में चार प्रमुख चीजें हैं, जिन्हें आपको जानना आवश्यक है।

1. ‘मानक विचलन’ (Standard Deviation) ऐसी संख्या है, जो बताती है कि डेटा में कितनी भिन्नता है।

संख्यात्मक या मात्रात्मक डेटा में इसका प्रयोग होता है। जैसे, जन्म-दर, तापमान की गणना, या छात्रों की परीक्षा के अंकों का विश्लेषण। ऐसे मामलों में शोधकर्ता आमतौर पर डेटा के ‘मानक विचलन’ की गणना करते हैं। इसमें बताते हैं कि डेटा कितना करीब या दूर है। अगर यह ‘उच्च मानक विचलन’ हो, तो इसका मतलब है कि डेटा अधिक फैला हुआ है। अगर ‘मानक विचलन’ निम्न हो, तो डेटा का औसत मूल्य उस डेटा क्लस्टर से ज्यादा करीब होगा।

‘ओहियो स्टेट यूनिवर्सिटी’ में सांख्यिकी विषय की प्रोफेसर डेबोरा जे. रुम्सी अपनी पुस्तक ‘स्टैटिस्टिक्स फॉर डमीज़’ में लिखती हैं – “मानक विचलन से हमें महत्वपूर्ण संदर्भ मिलता है। इसके बिना, हमें किसी डेटा का केवल एक हिस्सा मिल सकता है। सांख्यिकीविद किसी ऐसे व्यक्ति की कहानी सुनाना पसंद करते हैं, जिसका एक पैर बर्फ के पानी वाली बाल्टी में हो जबकि दूसरा पांव किसी उबलते पानी वाली बाल्टी में हो। वह व्यक्ति ऐसा कह सकता है कि औसतन उसे ठंडे और गर्म दोनों तरह के पानी के एहसास से बहुत अच्छा लगा! लेकिन उसके दोनों पैर के अलग-अलग दो तापमानों के बीच काफी फर्क होगा।”

प्रोफेसर डेबोरा जे. रुम्सी ने कुछ और दिलचस्प उदाहरण दिए। अपनी पुस्तक में वह लिखती हैं- “अगर आपको किसी क्षेत्र में मकानों की औसत कीमत बताई जाए, तब भी आपको उस खास मकान की कीमत का सही पता नहीं चल पाएगा, जो आपको पसंद है। यानी वह औसत मूल्य से कितना सस्ता या कितना महंगा है। इसी तरह, किसी कंपनी में औसत वेतन से कोई अंदाज लगाना मुश्किल होगा, यदि उसके न्यूनतम और अधिकतम वेतन के बीच का फासला बहुत अधिक हो।”

2. भविष्यवाणी करने, प्रवृत्तियों की जांच और शोध प्रश्न का उत्तर देने में ‘मानक विचलन‘ का उपयोग।

डेटासेट का ‘मानक विचलन‘ कई अकादमिक अध्ययनों में सीमित भूमिका निभाता है। वैज्ञानिक केवल उस ‘मानक विचलन’ के मान की तालिका या सूची बना सकते हैं, या अपने लेख के मुख्य भाग में उनका उल्लेख कर सकते हैं।

लेकिन कई बार शोधकर्ता अपने अध्ययन के लिए केंद्रीय प्रश्नों का उत्तर देने में मदद के लिए माप पर काफी भरोसा करते हैं। जैसे:

  • मौसम का अनुमान, मतदाता व्यवहार, टैक्स राजस्व, स्वास्थ्य देखभाल सामग्री का उपयोग इत्यादि मामलों में एकत्र किए गए डेटा के ‘मानक विचलन’ के आधार पर भविष्यवाणियां कर सकते हैं।
  • इक्विटी मार्केट के शोधकर्ता आमतौर पर शेयर बाजार की अस्थिरता को मापने के लिए स्टॉक की कीमतों के ‘मानक विचलन’ का उपयोग करते हैं। इसमें ‘उच्च मानक विचलन’ का मतलब है कि शेयर मार्केट में उच्च अस्थिरता का संकेत है।
  • छात्रों की परीक्षा के अंकों की जांच करने वाले शोधकर्ता ‘मानक विचलन’ का उपयोग करके बता सकते हैं कि अधिकांश छात्रों को औसत या उसके करीब अंक मिले या इसमें काफी भिन्नता है। इसके जरिए उन छात्रों के अनुपात का पता लगा सकते हैं जिन्हें अधिक सहायता की आवश्यकता है।

‘मानक विचलन’ की गणना कैसे करें? इसका संक्षिप्त विवरण यहां दिया गया है।

3. कुछ वैज्ञानिक ‘इंच’ या ‘पाउंड’ जैसी किसी माप इकाई के बजाय ‘मानक विचलन’ के रूप में अपने निष्कर्ष प्रस्तुत करते हैं.

जब डेटासेट में विभिन्न इकाइयों के साथ डेटा बिंदु होते हैं, तो वैज्ञानिकों को अक्सर तुलना करने और संबंधों की तलाश करने से पहले डेटा का मानकीकरण करने की आवश्यकता होती है। जैसे, संतरे के रस की खपत को ‘औंस’ या ‘ग्राम’ में मापा गया हो। इसके साथ ‘फ्लू टीकाकरण’ की दर के बीच संबंधों की जांच करना हो। प्रति एक लाख नागरिकों में हर महीने कितने टीके लगाए गए।

डेटा के मानकीकरण की प्रक्रिया में प्रत्येक संख्यात्मक डेटा बिंदु को डेटासेट के ‘मानक विचलन’ से विभाजित किया जाता है। ऐसा करने से माप की इकाइयों में परिवर्तन होता है। सामान्य इकाइयों जैसे औंस, इंच, पाउंड या किलोग्राम का उपयोग करके निष्कर्ष बताने के बजाय इन्हें ‘मानक विचलन’ के रूप में रिपोर्ट करना चाहिए।

हाइपोथेटिक या परिकल्पना के रूप में देखें। संतरे के रस की खपत और फ्लू टीकाकरण दरों पर शोध करने वाले वैज्ञानिक यह निष्कर्ष निकाल सकते हैं कि संतरे के रस की खपत में एक ‘मानक विचलन’ की वृद्धि होने पर टीकाकरण दरों में एक ‘मानक विचलन’ की कमी होगी।

डेटासेट का मानकीकरण करने से शोधकर्ताओं का काम आसान होता है। ‘हार्वर्ड मेडिकल स्कूल’ में न्यूरोलॉजी के एसोसिएट प्रोफेसर ब्रायन हीली के अनुसार सामान्य पाठकों को शोध के परिणाम समझने में कठिनाई हो सकती है। इसलिए पत्रकारों को ऐसे शोध पत्रों को बारीकी से पढ़ने के बाद आम पाठकों को समझाने लायक भाषा में लिखना चाहिए।

“जब तक आप वास्तव में कागज में बारीकी से नहीं देखते हैं, आपको पता नहीं चलेगा कि एक ‘मानक विचलन‘ का क्या अर्थ है।” ब्रायन हीली कहते हैं। वह ब्रिघम स्थित ‘पार्टनर्स मल्टीपल स्केलेरोसिस सेंटर’ और बोस्टन स्थित महिला अस्पताल में प्रमुख बायो स्टैटिस्टियन भी हैं।

वे कहते हैं- “किसी शोध के परिणाम जिन इकाइयों में दिखाए जा रहे हैं, उन इकाइयों को अच्छी तरह समझें। यदि रिपोर्ट में कोई संख्या दी गई है, तो आपको यह समझना होगा कि उस संख्या की व्याख्या कैसे करें। उन इकाइयों को जाने बिना आप यह नहीं समझ सकते कि संख्या की व्याख्या कैसे करें।”

4. ‘मानक विचलन’ के जरिए यह पुष्टि कर सकते हैं कि कोई डेटा बिंदु ‘बाहरी’ है अथवा नहीं।

बाहरी (आउटलाइअर) परिणाम ऐसे अत्यधिक उच्च या निम्न मान हैं जो सांख्यिकीय विश्लेषणों और विषम परिणामों को जटिल बना सकते हैं। कई शोधकर्ता किसी त्रुटि के कारण होने वाले आउटलाइअर्स को बदल या हटा देते हैं। जैसे, डेटा एकत्र करने या दर्ज करने में त्रुटि।

किसी डेटासेट में सभी डेटा के ग्राफ़ को देखने पर कुछ डेटा बिंदु बाहरी या आउटलाइअर प्रतीत होते हैं क्योंकि वे दूसरों से बहुत भिन्न होते हैं। डेटासेट का ‘मानक विचलन’ इस बात को ध्यान में रखता है कि व्यक्तिगत मान किसी औसत से कितनी दूर है। वैज्ञानिक अक्सर इसका उपयोग यह पता लगाने के लिए करते हैं कि क्या असामान्य डेटा बिंदु एक ‘बाहरी’ है। यह तरीका उन डेटासेट में अच्छी तरह काम करता है, जो एक घंटी के आकार के वक्र के पैटर्न का पालन करते हैं। इसमें अधिकांश डेटा का घंटी के केंद्र के पास अभिसरण होता है, जहां औसत मान स्थित होता है।

उस डेटासेट के लिए ‘मानक विचलन’ की गणना करने के बाद, आउटलाइअर्स को खोजना आसान है। घंटी के आकार के वक्र का अनुसरण करने वाले डेटा के लिए एक सामान्य नियम यह है कि लगभग 99.7 प्रतिशत डेटा औसत के तीन ‘मानक विचलन’ के भीतर होगा। इस सीमा से बाहर के डेटा को आमतौर पर आउटलाइअर माना जाता है।

किसी डेटासेट का ‘मानक विचलन’ आउटलाइअर्स द्वारा प्रभावित होता है। लेकिन पत्रकारों को यह नहीं समझना चाहिए कि कोई बड़ा ‘मानक विचलन’ किसी डेटा की गुणवत्ता की समस्याओं को इंगित करता है। ‘स्टैटिस्टिक्स फॉर डमीज़’ में प्रोफेसर डेबोरा जे. रुम्सी लिखती हैं- “एक बड़ा ‘मानक विचलन’ जरूरी नहीं कि एक बुरी चीज हो। यह सिर्फ अध्ययन किए जा रहे उस समूह में बड़ी मात्रा में भिन्नता को दर्शाता है।”

इस पोस्ट का मूल रूप से प्रकाशन  ‘द जर्नलिस्ट्स रिसोर्स’ द्वारा किया गया। इसे ‘क्रिएटिव कॉमन्स लाइसेंस’ के तहत यहां पुनर्मुद्रित किया गया है। ‘द जर्नलिस्ट्स रिसोर्स’ इस टिपशीट को बनाने में मदद के लिए यूनिवर्सिटी ऑफ साउथ फ्लोरिडा के कॉलेज ऑफ पब्लिक हेल्थ में स्वास्थ्य अर्थशास्त्र के प्रोफेसर ट्रॉय क्वास्ट और हार्वर्ड मेडिकल स्कूल में न्यूरोलॉजी के एसोसिएट प्रोफेसर ब्रायन हीली का आभारी है।

अतिरिक्त संसाधन

5 Things Journalists Need to Know About Statistical Significance

New Data Tools and Tips for Investigating Climate Change

GIJN Resource Center: Data Journalism


डेनिस-मैरी ऑर्डवे ‘द जर्नलिस्ट्स रिसोर्स’ की प्रबंध संपादक हैं। उन्होंने यूएसए और मध्य अमेरिका में समाचार पत्रों और रेडियो स्टेशनों के लिए भी काम किया है। उनका लेखन यूएसए टुडे, द न्यूयॉर्क टाइम्स और द वाशिंगटन पोस्ट में प्रकाशित हुआ है। वह 2014-15 में ‘हार्वर्ड नीमन फैलो भी रह चुकी हैं।

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

Investigating AI Audio Deepfakes

टिपशीट

फर्जी एआई ऑडियो की जांच कैसे करें

एडवांस्ड स्पीच डीपफेक के द्वारा बिल्कुल असली लगने वाले नकली ऑडियो बनाए जा सकते हैं। उसकी सच्चाई को उस व्यक्ति के नजदीकी दोस्त भी नहीं पहचान सकेंगे। ऐसे ऑडियो क्लिप की जांच के लिए विशेषज्ञ और नए उपकरणों की आवश्यकता होती है। अक्सर पत्रकार किसी नेता के बारे में अपने ज्ञान, रिकॉर्डिंग की खराब गुणवत्ता, संदर्भ या सामान्य सामान्य ज्ञान के आधार पर किसी ऑडियो क्लिप में किए गए फर्जीवाड़े को तुरंत पहचान लेते हैं।

ऐप्स की ‘प्राइवेसी पॉलिसी’ को कैसे समझें?

आम तौर पर अधिकांश प्राइवेसी पॉलिसी में एक पूर्व-अनुमानित संरचना का पालन किया जाता है। इसलिए आप उनकी तह तक जाने की कला सीख सकते हैं। उसके मुख्य हिस्सों का पता लगा सकते हैं। लंबा दस्तावेज होने के बावजूद केवल महत्वपूर्ण जानकारी को निकालने के लिए झपट्टा मार सकते हैं। आप कुछ सूचनाओं के संग्रह के आधार पर उससे बाहर निकलने या विकल्प चुनने के अवसर का लाभ उठा सकते हैं। अधिक गहराई तक जाने और अधिक व्यक्तिगत प्रकटीकरण से जुड़े बिंदुओं को भी बेहद कम समय में आसानी से समझ सकते हैं।

दीर्घकालिक खोजी रिपोर्टिंग को जारी रखने या रोकने का निर्णय कैसे लें?

संपादकों के अनुसार न्यूनतम स्टोरीज प्रकाशित करने का भी काफी महत्व है। ऐसी स्टोरी आने के बाद विस्सल-ब्लोअर सामने आते हैं। किसी संगठन के भीतर के लोग आकर कोई बड़ी जानकारी देते हैं। संपादकों के अनुसार ऐसी खबरें प्रकाशित करने के दौरान पारदर्शिता महत्वपूर्ण है। पाठकों को स्पष्ट रूप से बताना सुनिश्चित करें कि क्या साबित किया जा सकता है और क्या नहीं।

Data mining workshop scraping website GIJC23

टिपशीट

‘डेटा माइनर’ के जरिए वेबसाइटों से उपयोगी डेटा कैसे निकालें?

Data Miner डाटा निकालने का एक निःशुल्क उपकरण और ब्राउज़र एक्सटेंशन है। यह आपको वेब पेजों को खंगालने और सुरक्षित डेटा को शीघ्रता से एकत्र करने में सक्षम बनाता है। यह स्वचालित रूप से वेब पेजों से डेटा एकत्र करके एक्सेल, सीएसवी, या जेएसओएन प्रारूपों में सेव करता है।