रेखा - चित्र

From Vigyanwiki
चित्र 1. . मिशेलसन प्रयोग से डेटा का बॉक्स प्लॉट।

वर्णनात्मक आँकड़ों में, बॉक्स प्लॉट या बॉक्सप्लॉट ग्राफिक रूप से स्थानीयता, प्रसार और संख्यात्मक डेटा के तिरछे समूहों को उनके चतुर्थक के माध्यम से प्रदर्शित करने की विधि है।[1] बॉक्स प्लॉट पर बॉक्स के अतिरिक्त, बॉक्स से फैली हुई रेखायें (जिन्हें मूंछ कहा जाता है) हो सकती हैं। जो ऊपरी और निचले चतुर्थक के बाहर परिवर्तनशीलता का संकेत देती हैं। इस प्रकार प्लॉट को 'बॉक्स-एंड-व्हिस्कर प्लॉट' भी कहा जाता है और 'बॉक्स-एंड-व्हिस्कर आरेख' भी कहा जाता है। आउटलेयर जो अन्य डेटासेट से अधिक भिन्न होती हैं।[2] उन्हें बॉक्स-प्लॉट पर मूंछ से बढ़कर भिन्न-भिन्न बिंदुओं के रूप में प्लॉट किया जा सकता है।

सामान्यतः बॉक्स प्लॉट गैर पैरामीट्रिक हैं। वे अंतर्निहित संभाव्यता वितरण की कोई धारणा बनाए बिना सांख्यिकीय जन-संख्या की रचनाओं में भिन्नता प्रदर्शित करते हैं।[3] (चूंकि टकी का बॉक्सप्लॉट मूंछों के लिए समरूपता और उनकी लंबाई के लिए सामान्यता मानता है)। बॉक्स-प्लॉट के प्रत्येक उपखंड में स्पेसिंग डेटा के सांख्यिकीय फैलाव (प्रसार) और डेटा के तिरछापन की डिग्री दर्शाती है। जिसे सामान्यतः पांच-संख्या सारांश का उपयोग करके वर्णित किया जाता है। इसके अतिरिक्त, बॉक्स-प्लॉट व्यक्ति को विभिन्न एल-अनुमानकों, विशेष रूप से अन्तःचतुर्थक श्रेणी, मिडहिंज, श्रेणी (सांख्यिकी), मध्य-श्रेणी और काट-छांट करने का अनुमान लगाने की अनुमति देता है। अतः बॉक्स प्लॉट या तो क्षैतिज या लंबवत रूप से खींचे जा सकते हैं।

इतिहास

श्रेणी-बार पद्धति को प्रथम बार मैरी एलेनोर स्पीयर ने सन् 1952 में अपनी पुस्तक "चार्टिंग स्टैटिस्टिक्स" में प्रस्तुत किया था।[4] इसके पश्चात् सन् 1969 में उनकी पुस्तक "प्रैक्टिकल चार्टिंग टेक्निक्स" में प्रस्तुत किया गया था।[5] चूँकि बॉक्स-एंड-व्हिस्कर प्लॉट प्रथम बार सन् 1970 में जॉन टुकी द्वारा प्रस्तुत किया गया थ। जिन्होंने इसके पश्चात् सन् 1977 में अपनी पुस्तक "एक्सप्लोरेटरी डेटा एनालिसिस" में इस विषय को प्रकाशित किया था।[6]

तत्व

चित्रा 2. न्यूनतम से अधिकतम तक मूंछ के साथ बॉक्स-प्लॉट
चित्रा 3.1.5 आईक्यूआर मान के भीतर मूंछ के साथ समान बॉक्स-प्लॉट।

बॉक्सप्लॉट पाँच अंकों के सारांश के आधार पर डेटासेट प्रदर्शित करने की मानकीकृत विधि है। न्यूनतम, अधिकतम, रचना माध्यिका, और पहला और तीसरा चतुर्थक।

  • रचना न्यूनतम (Q0 या 0 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में सबसे कम डेटा बिंदु।
  • रचना अधिकतम (Q4 या 100 वाँ प्रतिशतक): किसी भी आउटलेयर को छोड़कर डेटा सेट में उच्चतम डेटा बिंदु।
  • माध्यिका (Q2 या 50 वाँ प्रतिशतक): डेटा सेट में मध्य मान।
  • पहला चतुर्थक (Q1 या 25वां प्रतिशतक): जिसे निम्न चतुर्थक qn(0.25) के रूप में भी जाना जाता है। यह डेटासेट के निचले आधे भाग की माध्यिका है।
  • तीसरा चतुर्थक (Q3 या 75 वाँ प्रतिशतक): जिसे ऊपरी चतुर्थक qn(0.75), के रूप में भी जाना जाता है। यह डेटासेट के ऊपरी आधे भाग की माध्यिका है।[7]

बॉक्स-प्लॉट के निर्माण के लिए उपयोग किए जाने वाले न्यूनतम और अधिकतम मानों के अतिरिक्त, अन्य महत्वपूर्ण तत्व जिसे बॉक्स-प्लॉट प्राप्त करने के लिए भी नियोजित किया जा सकता है। जो अन्तःचतुर्थक श्रेणी (आईक्यूआर) है, जैसा कि नीचे दर्शाया गया है।

  • इंटरक्वेरटाइल श्रेणी (आईक्यूआर): ऊपरी और निचले चतुर्थक के मध्य की दूरी,

बॉक्स-प्लॉट में सामान्यतः दो भाग होते हैं। बॉक्स और मूंछ का सेट जैसा कि चित्र 2 में दिखाया गया है। चूँकि बॉक्स Q1 से Q3 के मध्य में खींची गई क्षैतिज रेखा के साथ खींचा जाता है। जो मध्यिका को दर्शाता है। अतः मूंछ को विभिन्न प्रकारों से परिभाषित किया जा सकता है।

सबसे सीधी-आगे की विधि में, निचले मूंछ की सीमा डेटा सेट का न्यूनतम मूल्य है और ऊपरी मूंछ की सीमा डेटा सेट का अधिकतम मूल्य है।

मूंछ की सीमाओं के लिए अन्य लोकप्रिय विकल्प 1.5 आईक्यूआर मान पर आधारित है। ऊपरी चतुर्थक के ऊपर से (Q3), आईक्यूआर से 1.5 गुना की दूरी मापी जाती है और इस दूरी के अंदर आने वाले डेटासेट से सबसे बड़े देखे गए डेटा बिंदु तक मूंछ खींची जाती है। इसी प्रकार, आईक्यूआर की 1.5 गुना की दूरी को निम्न चतुर्थक (Q1) के नीचे मापा जाता है और इस दूरी के अंदर आने वाले डेटासेट से सबसे कम देखे गए डेटा बिंदु के लिए मूंछ खींची जाती है। चूँकि मूंछ देखे गए डेटा बिंदु पर समाप्त होनी चाहिए अतः मूंछ की लंबाई असमान दिख सकती है। यदि 1.5 आईक्यूआर दोनों पक्षों के लिए समान होता है। तब व्हिस्कर्स की सीमा के बाहर देखे गए अन्य सभी डेटा बिंदुओं को 'आउटलेयर' के रूप में प्लॉट किया जाता है।[8] अतः आउटलेयर को बॉक्स-प्लॉट पर डॉट, छोटा वृत्त, स्टार, आदि के रूप में प्लॉट किया जा सकता है।

चूँकि, मूंछें कई अन्य चीजों के लिए खड़ी हो सकती हैं। जैसे:

  • डेटा सेट का न्यूनतम और अधिकतम मान (जैसा चित्र 2 में दिखाया गया है)।
  • डेटा सेट के माध्य से ऊपर और नीचे मानक विचलन
  • डेटा सेट का 9वाँ प्रतिशतक और 91वाँ प्रतिशतक।
  • डेटा सेट का दूसरा प्रतिशतक और 98वां प्रतिशतक।

सामान्यतः विरले ही बॉक्स प्लॉट बिना मूंछ के प्लॉट किए जा सकते हैं। यह संवेदनशील जानकारी के लिए उचित हो सकता है। जिससे कि मूंछ (और बाहरी) से बचने के लिए वास्तविक मूल्यों का व्याख्यान किया जा सकता है।[9]

कुछ बॉक्स प्लॉट में डेटा के माध्यम का प्रतिनिधित्व करने के लिए अतिरिक्त वर्ण सम्मिलित होते है।[10][11]

असामान्य प्रतिशतक 2%, 9%, 91%, 98% का उपयोग कभी-कभी मूंछ क्रॉस-हैच के लिए किया जाता है और सात-संख्या सारांश को दर्शाने के लिए मूंछ समाप्त होती है। यदि डेटा सामान्य वितरण हैं। तब बॉक्स प्लॉट पर सात चिह्नों के स्थान समान रूप से स्थानित होते है। अतः कुछ बॉक्स भूखंडों पर, प्रत्येक मूंछ के अंत से पहले क्रॉस-हैच लगाया जाता है।

इस परिवर्तनशीलता के कारण, बॉक्स-प्लॉट के शीर्षक में व्हिस्कर्स और आउटलेयर के लिए उपयोग किए जा रहे सम्मेलन का वर्णन करना उचित है।

रूपांतर

चित्र 4.चार बॉक्स प्लॉट, नॉच और चर चौड़ाई के साथ और बिना।

चूंकि गणितज्ञ जॉन डब्ल्यू ने तुकी ने प्रथम बार सन् 1969 में इस प्रकार के विज़ुअल डेटा डिस्प्ले को लोकप्रिय बनाया था। क्लासिकल बॉक्स प्लॉट पर कई विविधताएँ विकसित की गई हैं और दो सबसे अधिक पाई जाने वाली विविधताएँ चर चौड़ाई वाले बॉक्स प्लॉट और नॉटेड बॉक्स प्लॉट हैं जो चित्र 4 में दिखाए गए हैं।

परिवर्तनीय चौड़ाई वाले बॉक्स प्लॉट प्रत्येक समूह के आकार का वर्णन करते हैं। जिनके डेटा को समूह के आकार के अनुपात में बॉक्स की चौड़ाई बनाकर प्लॉट किया जा रहा है। समूह के आकार के वर्गमूल के अनुपात में बॉक्स की चौड़ाई को आनुपातिक बनाने की लोकप्रिय परंपरा है।[12]

अधिकाशतः नोकदार बॉक्स प्लॉट माध्यिका के चारों ओर पायदान या बॉक्स की संकीर्णता को प्रयुक्त करते हैं। माध्यिका के अंतर के महत्व की मोटी गाइड की प्रस्तुतीकर करने में पायदान उपयोगी होते हैं। यदि दो बक्सों के पायदान ओवरलैप नहीं होते हैं। तब यह माध्यिका के मध्य सांख्यिकीय रूप से महत्वपूर्ण अंतर का प्रमाण प्रदान करता है।[12] सामान्यतः खांचे की चौड़ाई रचनाओं की अन्तःचतुर्थक श्रेणी (आईक्यूआर) के समानुपाती होती है और रचनाओं के आकार के वर्गमूल के व्युत्क्रमानुपाती होती है। चूंकि, सबसे उपयुक्त गुणक के बारे में अनिश्चितता है (क्योंकि यह रचनाओं के प्रसरणों की समानता के आधार पर भिन्न हो सकता है)।[12]

इन खांचों की सीमाओं को प्राप्त करने के लिए परिपाटी की दूरी का उपयोग करना है। जो मध्य के आसपास होता है।[13]

समायोजित बॉक्स भूखंडों का उद्देश्य तिरछापन का वर्णन करना है और वह तिरछापन के मध्यम आँकड़ों पर समर्थन करते हैं।[14] एमसी के औसत मूल्य के लिए, बॉक्स-प्लॉट पर ऊपरी और निचले मूंछ की लंबाई क्रमशः इस प्रकार परिभाषित की जाती है।

सममित डेटा वितरण के लिए मेडकूपल शून्य होता है और यह समायोजित बॉक्स-प्लॉट को टकी के बॉक्स-प्लॉट में समांतर मूंछ की लंबाई के साथ कम कर देता है दोनों मूंछों के लिए होता है।

अन्य प्रकार के बॉक्स प्लॉट, जैसे वायलिन प्लॉट्स और बीन प्लॉट एकल-मोडल और मल्टीमॉडल वितरण के मध्य अंतर दिखा सकते हैं। जिसे मूल मौलिक बॉक्स-प्लॉट से नहीं देखा जा सकता है।[6]

उदाहरण

बाहरी कारकों के बिना उदाहरण

चित्रा 5. बिना किसी आउटलेयर के बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट चित्र।

सामान्यतः घंटे के तापमान की श्रृंखला को पूरे दिन में डिग्री फ़ारेनहाइट में मापा गया है। जिसका रिकॉर्ड किए गए मान के निम्नानुसार सूचीबद्ध हैं (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81।

डेटा सेट का बॉक्स प्लॉट पहले इस डेटा सेट के पांच प्रासंगिक मानों की गणना करके उत्पन्न किया जा सकता है: न्यूनतम, अधिकतम, माध्यिका (Q2), पहला चतुर्थक (Q1), और तीसरा चतुर्थक (Q3)।

न्यूनतम डेटा सेट की सबसे छोटी संख्या है। इस स्थिति में, न्यूनतम अंकित दिन का तापमान 57 डिग्री फारेनहाइट है।

अधिकतम डेटा सेट की सबसे बड़ी संख्या है। इस स्थिति में, अधिकतम रिकॉर्ड किया गया दिन का तापमान 81 °F है।

माध्यिका आदेशित डेटा सेट की मध्य संख्या है। इसका तात्पर्य यह है कि 50% तत्व माध्यिका से कम हैं और 50% तत्व माध्यिका से अधिक हैं। इस आदेशित डेटा सेट का माध्यिका 70 °F है।

प्रथम चतुर्थक मान (Q1या 25 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के चौथाई को चिह्नित करता है। दूसरे शब्दों में, ठीक 25% ऐसे तत्व हैं। जो प्रथम चतुर्थक से कम हैं और ठीक 75% ऐसे तत्व हैं जो इससे अधिक हैं। न्यूनतम और माध्यिका के मध्य की मध्य संख्या ज्ञात करके प्रथम चतुर्थक मान सरलता से निर्धारित किया जा सकता है। अतः प्रति घंटा तापमान के लिए, 57 °F और 70 °F के मध्य पाई जाने वाली मध्य संख्या 66 °F है।

तीसरा चतुर्थक मान (Q3या 75 वाँ प्रतिशतक) वह संख्या है जो आदेशित डेटा सेट के तीन चौथाई को चिह्नित करती है। दूसरे शब्दों में, ठीक 75% तत्व ऐसे हैं। जो तीसरे चतुर्थक से कम हैं और 25% ऐसे तत्व हैं। जो इससे अधिक हैं। माध्यिका और अधिकतम के मध्य की संख्या ज्ञात करके तीसरा चतुर्थक मान सरलता से प्राप्त किया जा सकता है। प्रति घंटा तापमान के लिए, 70 °F और 81 °F के मध्य की संख्या 75 °F है।

अन्तःचतुर्थक श्रेणी या आईक्यूआर की गणना प्रथम चतुर्थक मान (Q1) को घटाकर की जा सकती है। तीसरे चतुर्थक मान (Q3) से घटाकर की जा सकती है।

इस प्रकार,

1.5 आईक्यूआर तीसरे चतुर्थक से ऊपर है।

प्रथम चतुर्थक के नीचे 1.5 आईक्यूआर है।

बॉक्स-प्लॉट की ऊपरी मूंछ सीमा सबसे बड़ा डेटा मान है। जो तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर के अंदर है। यहाँ तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर 88.5 °F और अधिकतम 81 °F है। इस प्रकार ऊपरी मूंछ अधिकतम के मान पर खींची जाती है, जो कि 81 °F है।

इसी प्रकार, बॉक्स प्लॉट की निचली मूंछ सीमा सबसे छोटा डेटा मान है जो पहले चतुर्थांश के नीचे 1.5 आईक्यूआर के अंदर है। यहां, पहले चतुर्थक के नीचे 1.5 आईक्यूआर 52.5 °F और न्यूनतम 57 °F है। इस प्रकार निचला मूंछ न्यूनतम के मान पर खींचा जाता है, जो कि 57 °F है।

आउटलेर्स के साथ उदाहरण

चित्रा 6. आउटलेयर के साथ बाईं ओर उदाहरण का उत्पन्न बॉक्सप्लॉट।

ऊपर आउटलेयर के बिना उदाहरण है। आउटलेर्स के साथ बॉक्स-प्लॉट बनाने के लिए यहां अनुवर्ती उदाहरण दिया गया है।

रिकॉर्ड किए गए तापमान के लिए निर्धारित सेट है (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75 , 76, 76, 78, 79, 89।

इस उदाहरण में केवल पहली और आखिरी संख्या परिवर्तित की गई है। अतः माध्यिका, तृतीय चतुर्थक और प्रथम चतुर्थक समान रहते हैं।

इस स्थिति में, इस डेटा सेट में अधिकतम मान 89 °F है और तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर 88.5 °F है। अधिकतम 1.5 आईक्यूआर और तीसरे चतुर्थक से अधिक है, इसलिए अधिकतम बाहरी है। जिससे कि ऊपरी मूंछ तीसरे चतुर्थक के ऊपर 1.5 आईक्यूआर से छोटे सबसे बड़े मूल्य पर खींची जाती है, जो कि 79 ° F है।

इसी प्रकार, इस डेटा सेट में न्यूनतम मान 52 °F है और पहली चतुर्थक के नीचे 1.5 आईक्यूआर 52.5 °F है। न्यूनतम 1.5 आईक्यूआर माइनस प्रथम चतुर्थक से छोटा है। इसलिए न्यूनतम भी आउटलायर है। जिससे कि निचली मूंछ पहले चतुर्थक के नीचे 1.5 आईक्यूआर से अधिक के सबसे छोटे मूल्य पर खींची जाती है, जो कि 57 ° F है।

बड़े डेटासेट के स्थिति में,

बड़ी संख्या में डेटा बिंदुओं वाले डेटा सेट से बॉक्स-प्लॉट प्राप्त करने का अतिरिक्त उदाहरण है।

अनुभवजन्य मात्राओं की गणना करने के लिए सामान्य समीकरण

यहाँ डेटा बिंदुओं के सामान्य क्रम के लिए खड़ा है (अर्थात यदि , तब )

उपरोक्त उदाहरण का उपयोग करते हुए जिसमें 24 डेटा बिंदु (n = 24) हैं। अतः कोई भी गणितीय या दृष्टिगत रूप से माध्यिका, प्रथम और तृतीय चतुर्थक की गणना कर सकता है।

'मध्य' :

पहला चतुर्थक :

तीसरा चतुर्थक :

विज़ुअलाइज़ेशन

चित्रा 7. सामान्य एन (0,1σ2) का बॉक्स-प्लॉट और प्रायिकता घनत्व फ़ंक्शन (पीडीएफ) जनसंख्या।

चूंकि बॉक्स प्लॉट हिस्टोग्राम या कर्नेल घनत्व अनुमान से अधिक प्राचीन लग सकते हैं। अतः उनके कई लाभ होते हैं। सबसे पहले, बॉक्स प्लॉट सांख्यिकीविदों को या अधिक डेटा सेटों पर त्वरित ग्राफिकल परीक्षा करने में सक्षम बनाता है। बॉक्स-प्लॉट भी कम जगह लेते हैं और इसलिए समानांतर में कई समूहों या डेटा के सेट के मध्य वितरण की तुलना करने के लिए विशेष रूप से उपयोगी होते हैं। (उदाहरण के लिए चित्र 1 देखें) अंत में, हिस्टोग्राम और कर्नेल घनत्व अनुमान की समग्र संरचना क्रमशः हिस्टोग्राम बॉक्स की संख्या और चौड़ाई तकनीकों और बैंडविड्थ की पसंद से दृढ़ता से प्रभावित हो सकती है।

चूंकि बॉक्स प्लॉट को देखने की तुलना में सांख्यिकीय वितरण को देखना अधिक सामान्य है। यह सामान्य एन (0, σ2) के लिए प्रायिकता घनत्व फ़ंक्शन (सैद्धांतिक हिस्टोग्राम) के विरुद्ध बॉक्स प्लॉट की तुलना करने के लिए उपयोगी हो सकता है। वितरण और सीधे उनकी विशेषताओं का निरीक्षण किया जाता है। (जैसा चित्र 7 में दिखाया गया है)।

चित्र 8. डेटा सेट के तिरछापन को प्रदर्शित करने वाले बॉक्स-प्लॉट

यह भी देखें

संदर्भ

  1. C., Dutoit, S. H. (2012). ग्राफिकल खोजपूर्ण डेटा विश्लेषण।. Springer. ISBN 978-1-4612-9371-2. OCLC 1019645745.{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. Grubbs, Frank E. (February 1969). "नमूनों में बाहरी प्रेक्षणों का पता लगाने की प्रक्रियाएं". Technometrics. 11 (1): 1–21. doi:10.1080/00401706.1969.10490657. ISSN 0040-1706.
  3. Richard., Boddy (2009). Statistical Methods in Practice : for Scientists and Technologists. John Wiley & Sons. ISBN 978-0-470-74664-6. OCLC 940679163.
  4. Spear, Mary Eleanor (1952). चार्टिंग सांख्यिकी. McGraw Hill. p. 166.
  5. Spear, Mary Eleanor. (1969). प्रैक्टिकल चार्टिंग तकनीक. New York: McGraw-Hill. ISBN 0070600104. OCLC 924909765.
  6. Jump up to: 6.0 6.1 Wickham, Hadley; Stryjewski, Lisa. "40 years of boxplots" (PDF). Retrieved December 24, 2020.
  7. Holmes, Alexander; Illowsky, Barbara; Dean, Susan (31 March 2015). "परिचयात्मक व्यापार सांख्यिकी". OpenStax.
  8. Dekking, F.M. (2005). संभाव्यता और सांख्यिकी का एक आधुनिक परिचय. Springer. pp. 234–238. ISBN 1-85233-896-2.
  9. Derrick, Ben; Green, Elizabeth; Ritchie, Felix; White, Paul (September 2022). "आम तौर पर इस्तेमाल किए जाने वाले यूनीवेरिएट स्टैटिस्टिक्स की रिपोर्टिंग करते समय प्रकटीकरण का जोखिम". Privacy in Statistical Databases. 13463: 119–129. doi:10.1007/978-3-031-13945-1_9.
  10. Frigge, Michael; Hoaglin, David C.; Iglewicz, Boris (February 1989). "बॉक्सप्लॉट के कुछ कार्यान्वयन". The American Statistician. 43 (1): 50–54. doi:10.2307/2685173. JSTOR 2685173.
  11. Marmolejo-Ramos, F.; Tian, S. (2010). "शिफ्टिंग बॉक्सप्लॉट। माध्य के आसपास आवश्यक सारांश आँकड़ों पर आधारित एक बॉक्सप्लॉट". International Journal of Psychological Research. 3 (1): 37–46. doi:10.21500/20112084.823.
  12. Jump up to: 12.0 12.1 12.2 McGill, Robert; Tukey, John W.; Larsen, Wayne A. (February 1978). "बॉक्स भूखंडों की विविधताएं". The American Statistician. 32 (1): 12–16. doi:10.2307/2683468. JSTOR 2683468.
  13. "R: Box Plot Statistics". R manual. Retrieved 26 June 2011.
  14. Hubert, M.; Vandervieren, E. (2008). "An adjusted boxplot for skewed distribution". Computational Statistics and Data Analysis. 52 (12): 5186–5201. CiteSeerX 10.1.1.90.9812. doi:10.1016/j.csda.2007.11.008.


अग्रिम पठन


बाहरी संबंध

  • Beeswarm Boxplot - superimposing a frequency-jittered stripchart on top of a box plot