Image: Shutterstock

आलेख

विषय

डेटा जर्नलिज़्म: पत्रकारों के लिए ‘मानक विचलन’ से सबंधित 4 जरूरी बातें

इस लेख को पढ़ें

इमेज: शटरस्टॉक

डेटा पत्रकारों को ‘अकादमिक शोध’ से महत्वपूर्ण खबरें मिलती हैं। ऐसे शोध दस्तावेज में ‘मानक विचलन’ शब्द का अक्सर उपयोग होता है। पत्रकारों को इसका अर्थ अच्छी तरह समझना चाहिए। तभी आप अपने पाठकों को इसके बारे में बेहतर जानकारी दे पाएंगे। इस आलेख में  ‘मानक विचलन’ शब्द के बारे में विस्तार से बताया गया है। ‘मानक विचलन’ के संबंध में चार प्रमुख चीजें हैं, जिन्हें आपको जानना आवश्यक है।

1. ‘मानक विचलन’ (Standard Deviation) ऐसी संख्या है, जो बताती है कि डेटा में कितनी भिन्नता है।

संख्यात्मक या मात्रात्मक डेटा में इसका प्रयोग होता है। जैसे, जन्म-दर, तापमान की गणना, या छात्रों की परीक्षा के अंकों का विश्लेषण। ऐसे मामलों में शोधकर्ता आमतौर पर डेटा के ‘मानक विचलन’ की गणना करते हैं। इसमें बताते हैं कि डेटा कितना करीब या दूर है। अगर यह ‘उच्च मानक विचलन’ हो, तो इसका मतलब है कि डेटा अधिक फैला हुआ है। अगर ‘मानक विचलन’ निम्न हो, तो डेटा का औसत मूल्य उस डेटा क्लस्टर से ज्यादा करीब होगा।

‘ओहियो स्टेट यूनिवर्सिटी’ में सांख्यिकी विषय की प्रोफेसर डेबोरा जे. रुम्सी अपनी पुस्तक ‘स्टैटिस्टिक्स फॉर डमीज़’ में लिखती हैं – “मानक विचलन से हमें महत्वपूर्ण संदर्भ मिलता है। इसके बिना, हमें किसी डेटा का केवल एक हिस्सा मिल सकता है। सांख्यिकीविद किसी ऐसे व्यक्ति की कहानी सुनाना पसंद करते हैं, जिसका एक पैर बर्फ के पानी वाली बाल्टी में हो जबकि दूसरा पांव किसी उबलते पानी वाली बाल्टी में हो। वह व्यक्ति ऐसा कह सकता है कि औसतन उसे ठंडे और गर्म दोनों तरह के पानी के एहसास से बहुत अच्छा लगा! लेकिन उसके दोनों पैर के अलग-अलग दो तापमानों के बीच काफी फर्क होगा।”

प्रोफेसर डेबोरा जे. रुम्सी ने कुछ और दिलचस्प उदाहरण दिए। अपनी पुस्तक में वह लिखती हैं- “अगर आपको किसी क्षेत्र में मकानों की औसत कीमत बताई जाए, तब भी आपको उस खास मकान की कीमत का सही पता नहीं चल पाएगा, जो आपको पसंद है। यानी वह औसत मूल्य से कितना सस्ता या कितना महंगा है। इसी तरह, किसी कंपनी में औसत वेतन से कोई अंदाज लगाना मुश्किल होगा, यदि उसके न्यूनतम और अधिकतम वेतन के बीच का फासला बहुत अधिक हो।”

2. भविष्यवाणी करने, प्रवृत्तियों की जांच और शोध प्रश्न का उत्तर देने में ‘मानक विचलन‘ का उपयोग।

डेटासेट का ‘मानक विचलन‘ कई अकादमिक अध्ययनों में सीमित भूमिका निभाता है। वैज्ञानिक केवल उस ‘मानक विचलन’ के मान की तालिका या सूची बना सकते हैं, या अपने लेख के मुख्य भाग में उनका उल्लेख कर सकते हैं।

लेकिन कई बार शोधकर्ता अपने अध्ययन के लिए केंद्रीय प्रश्नों का उत्तर देने में मदद के लिए माप पर काफी भरोसा करते हैं। जैसे:

  • मौसम का अनुमान, मतदाता व्यवहार, टैक्स राजस्व, स्वास्थ्य देखभाल सामग्री का उपयोग इत्यादि मामलों में एकत्र किए गए डेटा के ‘मानक विचलन’ के आधार पर भविष्यवाणियां कर सकते हैं।
  • इक्विटी मार्केट के शोधकर्ता आमतौर पर शेयर बाजार की अस्थिरता को मापने के लिए स्टॉक की कीमतों के ‘मानक विचलन’ का उपयोग करते हैं। इसमें ‘उच्च मानक विचलन’ का मतलब है कि शेयर मार्केट में उच्च अस्थिरता का संकेत है।
  • छात्रों की परीक्षा के अंकों की जांच करने वाले शोधकर्ता ‘मानक विचलन’ का उपयोग करके बता सकते हैं कि अधिकांश छात्रों को औसत या उसके करीब अंक मिले या इसमें काफी भिन्नता है। इसके जरिए उन छात्रों के अनुपात का पता लगा सकते हैं जिन्हें अधिक सहायता की आवश्यकता है।

‘मानक विचलन’ की गणना कैसे करें? इसका संक्षिप्त विवरण यहां दिया गया है।

3. कुछ वैज्ञानिक ‘इंच’ या ‘पाउंड’ जैसी किसी माप इकाई के बजाय ‘मानक विचलन’ के रूप में अपने निष्कर्ष प्रस्तुत करते हैं.

जब डेटासेट में विभिन्न इकाइयों के साथ डेटा बिंदु होते हैं, तो वैज्ञानिकों को अक्सर तुलना करने और संबंधों की तलाश करने से पहले डेटा का मानकीकरण करने की आवश्यकता होती है। जैसे, संतरे के रस की खपत को ‘औंस’ या ‘ग्राम’ में मापा गया हो। इसके साथ ‘फ्लू टीकाकरण’ की दर के बीच संबंधों की जांच करना हो। प्रति एक लाख नागरिकों में हर महीने कितने टीके लगाए गए।

डेटा के मानकीकरण की प्रक्रिया में प्रत्येक संख्यात्मक डेटा बिंदु को डेटासेट के ‘मानक विचलन’ से विभाजित किया जाता है। ऐसा करने से माप की इकाइयों में परिवर्तन होता है। सामान्य इकाइयों जैसे औंस, इंच, पाउंड या किलोग्राम का उपयोग करके निष्कर्ष बताने के बजाय इन्हें ‘मानक विचलन’ के रूप में रिपोर्ट करना चाहिए।

हाइपोथेटिक या परिकल्पना के रूप में देखें। संतरे के रस की खपत और फ्लू टीकाकरण दरों पर शोध करने वाले वैज्ञानिक यह निष्कर्ष निकाल सकते हैं कि संतरे के रस की खपत में एक ‘मानक विचलन’ की वृद्धि होने पर टीकाकरण दरों में एक ‘मानक विचलन’ की कमी होगी।

डेटासेट का मानकीकरण करने से शोधकर्ताओं का काम आसान होता है। ‘हार्वर्ड मेडिकल स्कूल’ में न्यूरोलॉजी के एसोसिएट प्रोफेसर ब्रायन हीली के अनुसार सामान्य पाठकों को शोध के परिणाम समझने में कठिनाई हो सकती है। इसलिए पत्रकारों को ऐसे शोध पत्रों को बारीकी से पढ़ने के बाद आम पाठकों को समझाने लायक भाषा में लिखना चाहिए।

“जब तक आप वास्तव में कागज में बारीकी से नहीं देखते हैं, आपको पता नहीं चलेगा कि एक ‘मानक विचलन‘ का क्या अर्थ है।” ब्रायन हीली कहते हैं। वह ब्रिघम स्थित ‘पार्टनर्स मल्टीपल स्केलेरोसिस सेंटर’ और बोस्टन स्थित महिला अस्पताल में प्रमुख बायो स्टैटिस्टियन भी हैं।

वे कहते हैं- “किसी शोध के परिणाम जिन इकाइयों में दिखाए जा रहे हैं, उन इकाइयों को अच्छी तरह समझें। यदि रिपोर्ट में कोई संख्या दी गई है, तो आपको यह समझना होगा कि उस संख्या की व्याख्या कैसे करें। उन इकाइयों को जाने बिना आप यह नहीं समझ सकते कि संख्या की व्याख्या कैसे करें।”

4. ‘मानक विचलन’ के जरिए यह पुष्टि कर सकते हैं कि कोई डेटा बिंदु ‘बाहरी’ है अथवा नहीं।

बाहरी (आउटलाइअर) परिणाम ऐसे अत्यधिक उच्च या निम्न मान हैं जो सांख्यिकीय विश्लेषणों और विषम परिणामों को जटिल बना सकते हैं। कई शोधकर्ता किसी त्रुटि के कारण होने वाले आउटलाइअर्स को बदल या हटा देते हैं। जैसे, डेटा एकत्र करने या दर्ज करने में त्रुटि।

किसी डेटासेट में सभी डेटा के ग्राफ़ को देखने पर कुछ डेटा बिंदु बाहरी या आउटलाइअर प्रतीत होते हैं क्योंकि वे दूसरों से बहुत भिन्न होते हैं। डेटासेट का ‘मानक विचलन’ इस बात को ध्यान में रखता है कि व्यक्तिगत मान किसी औसत से कितनी दूर है। वैज्ञानिक अक्सर इसका उपयोग यह पता लगाने के लिए करते हैं कि क्या असामान्य डेटा बिंदु एक ‘बाहरी’ है। यह तरीका उन डेटासेट में अच्छी तरह काम करता है, जो एक घंटी के आकार के वक्र के पैटर्न का पालन करते हैं। इसमें अधिकांश डेटा का घंटी के केंद्र के पास अभिसरण होता है, जहां औसत मान स्थित होता है।

उस डेटासेट के लिए ‘मानक विचलन’ की गणना करने के बाद, आउटलाइअर्स को खोजना आसान है। घंटी के आकार के वक्र का अनुसरण करने वाले डेटा के लिए एक सामान्य नियम यह है कि लगभग 99.7 प्रतिशत डेटा औसत के तीन ‘मानक विचलन’ के भीतर होगा। इस सीमा से बाहर के डेटा को आमतौर पर आउटलाइअर माना जाता है।

किसी डेटासेट का ‘मानक विचलन’ आउटलाइअर्स द्वारा प्रभावित होता है। लेकिन पत्रकारों को यह नहीं समझना चाहिए कि कोई बड़ा ‘मानक विचलन’ किसी डेटा की गुणवत्ता की समस्याओं को इंगित करता है। ‘स्टैटिस्टिक्स फॉर डमीज़’ में प्रोफेसर डेबोरा जे. रुम्सी लिखती हैं- “एक बड़ा ‘मानक विचलन’ जरूरी नहीं कि एक बुरी चीज हो। यह सिर्फ अध्ययन किए जा रहे उस समूह में बड़ी मात्रा में भिन्नता को दर्शाता है।”

इस पोस्ट का मूल रूप से प्रकाशन  ‘द जर्नलिस्ट्स रिसोर्स’ द्वारा किया गया। इसे ‘क्रिएटिव कॉमन्स लाइसेंस’ के तहत यहां पुनर्मुद्रित किया गया है। ‘द जर्नलिस्ट्स रिसोर्स’ इस टिपशीट को बनाने में मदद के लिए यूनिवर्सिटी ऑफ साउथ फ्लोरिडा के कॉलेज ऑफ पब्लिक हेल्थ में स्वास्थ्य अर्थशास्त्र के प्रोफेसर ट्रॉय क्वास्ट और हार्वर्ड मेडिकल स्कूल में न्यूरोलॉजी के एसोसिएट प्रोफेसर ब्रायन हीली का आभारी है।

अतिरिक्त संसाधन

5 Things Journalists Need to Know About Statistical Significance

New Data Tools and Tips for Investigating Climate Change

GIJN Resource Center: Data Journalism


डेनिस-मैरी ऑर्डवे ‘द जर्नलिस्ट्स रिसोर्स’ की प्रबंध संपादक हैं। उन्होंने यूएसए और मध्य अमेरिका में समाचार पत्रों और रेडियो स्टेशनों के लिए भी काम किया है। उनका लेखन यूएसए टुडे, द न्यूयॉर्क टाइम्स और द वाशिंगटन पोस्ट में प्रकाशित हुआ है। वह 2014-15 में ‘हार्वर्ड नीमन फैलो भी रह चुकी हैं।

क्रिएटिव कॉमन्स लाइसेंस के तहत हमारे लेखों को निःशुल्क, ऑनलाइन या प्रिंट माध्यम में पुनः प्रकाशित किया जा सकता है।

आलेख पुनर्प्रकाशित करें


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

अगला पढ़ें

सरकार डेटा छुपाए तो जांच कैसे करें : बेलारूस से सबक

बेलारूस में विदेशी व्यापार संबंधी आंकड़ों को गोपनीय रखा जा रहा हैं। लेकिन यूरोपीय देशों में ऐसे आंकड़े हासिल करना संभव है। इसलिए अलीना यान्चुर ऐसे आंकड़ों की तलाश के लिए यूरोपीय संघ के सांख्यिकीय कार्यालय Eurostat का उपयोग करती हैं।

Veteran investigative journalist, Martin Tomkinson, and director of the Centre for Investigative Journalism, James Harkin, talk about lessons learned from a 50-year career at CIJ Summer Conference.

50 साल के अनुभवी खोजी पत्रकार ने दिए रिपोर्टिंग टिप्स

आप जिस भी स्तर की पत्रकारिता करते हों, यह सुनिश्चित करें कि वह वैध हो। कानूनी तौर पर मजबूत रहें। ऐसा करने के लिए आपको थोड़ी परेशानी उठानी पड़ सकती है। लेकिन यदि आप ऐसा नहीं करते हैं, तो किसी मुश्किल में पड़ने का जोखिम उठाते हैं।

ChatGPT advanced Google search tool investigations

रिपोर्टिंग टूल्स और टिप्स

त्वरित खोज में उपयोगी है चैट-जीपीटी

एक बड़े भाषा मॉडल के रूप में चैटजीपीटी किसी विषय पर जवाब देने के लिए वेब पेज इंडेक्सिंग के बजाय प्रशिक्षण डेटा के विशाल भंडार का उपयोग करता है। इसलिए सामान्य प्रश्नों के लिए गूगल जैसे सर्च इंजन अब भी अधिक सटीक, व्यापक और अद्यतन हैं।

Kuala Lumpur, Malaysia cityscape

साल 2025 में खोजी पत्रकारिता का वैश्विक सम्मेलन GIJC25 मलेशिया में होगा

ग्लोबल इन्वेस्टिगेटिव जर्नलिज्म नेटवर्क के पिछले वैश्विक खोजी पत्रकारिता सम्मेलन ब्राजील, डेनमार्क, जर्मनी, नॉर्वे, दक्षिण अफ्रीका और यूक्रेन सहित 10 देशों में आयोजित किए गए हैं। यह सम्मेलन हर दो साल में आयोजित किए जाते हैं। हाल ही में जीआईजेसी, स्वीडन में आयोजित किया गया था जहां 2,100 से अधिक प्रतिभागियों की रिकॉर्ड संख्या उपस्थित हुई थी। 130 से अधिक देशों के पत्रकार चार दिनों तक वहाँ इकट्ठे होकर आपस में मिले-जुले।