केंद्रीय प्रवृत्ति: Difference between revisions

From Vigyanwiki
No edit summary
 
(9 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Statistical value representing the center or average of a distribution}}
{{Short description|Statistical value representing the center or average of a distribution}}आँकड़ों में, '''केंद्रीय प्रवृत्ति''' (या केंद्रीय प्रवृत्ति का माप) संभाव्यता वितरण के लिए केंद्रीय या विशिष्ट मूल्य है।<ref name=Weisberg>Weisberg H.F (1992) ''Central Tendency and Variability'', Sage University Paper Series on Quantitative Applications in the Social Sciences,  {{ISBN|0-8039-4007-6}} p.2</ref> बोलचाल की भाषा में, केंद्रीय प्रवृत्ति के उपायों को अधिकांशतः [[औसत]] कहा जाता है। केंद्रीय प्रवृत्ति शब्द 1920 के दशक के उत्तरार्ध से आता है।<ref name="Upton" /> केंद्रीय प्रवृत्ति के सबसे सामान्य उपाय अंकगणितीय माध्य, माध्यिका और [[मोड (सांख्यिकी)]] हैं। मध्य प्रवृत्ति की गणना या तो मूल्यों के परिमित सममुच्य के लिए या सैद्धांतिक वितरण के लिए की जा सकती है, जैसे कि [[सामान्य वितरण]] कभी-कभी लेखक कुछ केंद्रीय मूल्य के आसपास क्लस्टर करने के लिए मात्रात्मक डेटा की प्रवृत्ति को निरूपित करने के लिए केंद्रीय प्रवृत्ति का उपयोग करते हैं।<ref name="Upton">Upton, G.; Cook, I. (2008) ''Oxford Dictionary of Statistics'', OUP {{ISBN|978-0-19-954145-4}} (entry for "central tendency")</ref><ref name="Dodge">Dodge, Y. (2003) ''The Oxford Dictionary of Statistical Terms'', OUP for [[International Statistical Institute]]. {{ISBN|0-19-920613-9}} (entry for "central tendency")</ref>
{{for|ग्राफ/नेटवर्क अवधारणा|केन्द्रीयता}}
 
आँकड़ों में, केंद्रीय प्रवृत्ति (या केंद्रीय प्रवृत्ति का माप) संभाव्यता वितरण के लिए केंद्रीय या विशिष्ट मूल्य है।<ref name=Weisberg>Weisberg H.F (1992) ''Central Tendency and Variability'', Sage University Paper Series on Quantitative Applications in the Social Sciences,  {{ISBN|0-8039-4007-6}} p.2</ref> बोलचाल की भाषा में, केंद्रीय प्रवृत्ति के उपायों को अधिकांशतः [[औसत]] कहा जाता है। केंद्रीय प्रवृत्ति शब्द 1920 के दशक के उत्तरार्ध से आता है।<ref name="Upton" /> केंद्रीय प्रवृत्ति के सबसे सामान्य उपाय अंकगणितीय माध्य, माध्यिका और [[मोड (सांख्यिकी)]] हैं। मध्य प्रवृत्ति की गणना या तो मूल्यों के परिमित सममुच्य के लिए या सैद्धांतिक वितरण के लिए की जा सकती है, जैसे कि [[सामान्य वितरण]] कभी-कभी लेखक कुछ केंद्रीय मूल्य के आसपास क्लस्टर करने के लिए मात्रात्मक डेटा की प्रवृत्ति को निरूपित करने के लिए केंद्रीय प्रवृत्ति का उपयोग करते हैं।<ref name="Upton">Upton, G.; Cook, I. (2008) ''Oxford Dictionary of Statistics'', OUP {{ISBN|978-0-19-954145-4}} (entry for "central tendency")</ref><ref name="Dodge">Dodge, Y. (2003) ''The Oxford Dictionary of Statistical Terms'', OUP for [[International Statistical Institute]]. {{ISBN|0-19-920613-9}} (entry for "central tendency")</ref>


वितरण की केंद्रीय प्रवृत्ति सामान्यतः इसके [[सांख्यिकीय फैलाव]] या परिवर्तनशीलता के विपरीत होती है; फैलाव और केंद्रीय प्रवृत्ति वितरण के अधिकांशतः विशेषता गुण होते हैं। विश्लेषण यह निर्धारित कर सकता है कि डेटा के फैलाव के आधार पर मजबूत या कमजोर केंद्रीय प्रवृत्ति है या नहीं।
वितरण की केंद्रीय प्रवृत्ति सामान्यतः इसके [[सांख्यिकीय फैलाव]] या परिवर्तनशीलता के विपरीत होती है; फैलाव और केंद्रीय प्रवृत्ति वितरण के अधिकांशतः विशेषता गुण होते हैं। विश्लेषण यह निर्धारित कर सकता है कि डेटा के फैलाव के आधार पर मजबूत या कमजोर केंद्रीय प्रवृत्ति है या नहीं।
Line 11: Line 8:


; अंकगणितीय माध्य या केवल, माध्य: डेटा सममुच्य में</span> अवलोकनों की संख्या से विभाजित सभी मापों का योग है।
; अंकगणितीय माध्य या केवल, माध्य: डेटा सममुच्य में</span> अवलोकनों की संख्या से विभाजित सभी मापों का योग है।
; माध्यिका: मध्य मान जो डेटा सममुच्य के निचले आधे भागों से उच्च आधे को अलग करता है। मध्यिका और मोड केंद्रीय प्रवृत्ति के एकमात्र उपाय हैं जिनका उपयोग माप के स्तर ऑर्डिनल स्केल के लिए किया जा सकता है, जिसमें मूल्यों को एक दूसरे के सापेक्ष रैंक दिया जाता है लेकिन बिल्कुल नहीं मापा जाता है।
; माध्यिका: मध्य मान जो डेटा सममुच्य के निचले आधे भागों से उच्च आधे को अलग करता है। मध्यिका और मोड केंद्रीय प्रवृत्ति के एकमात्र उपाय हैं जिनका उपयोग माप के स्तर ऑर्डिनल पैमाने के लिए किया जा सकता है, जिसमें मूल्यों को एक दूसरे के सापेक्ष पद दिया जाता है लेकिन बिल्कुल नहीं मापा जाता है।
; मोड : डेटा सममुच्य में सबसे लगातार मूल्य यह एकमात्र केंद्रीय प्रवृत्ति माप है जिसका उपयोग माप के स्तर नाममात्र स्तर के साथ किया जा सकता है, जिसमें विशुद्ध रूप से गुणात्मक श्रेणी असाइनमेंट होते हैं।
; मोड : डेटा सममुच्य में सबसे लगातार मूल्य यह एकमात्र केंद्रीय प्रवृत्ति माप है जिसका उपयोग माप के स्तर नाममात्र स्तर के साथ किया जा सकता है, जिसमें विशुद्ध रूप से गुणात्मक श्रेणी असाइनमेंट होते हैं।
; [[सामान्यीकृत माध्य]]: पायथागॉरियन माध्य का सामान्यीकरण, प्रतिपादक द्वारा निर्दिष्ट होता है।
; [[सामान्यीकृत माध्य]]: पायथागॉरियन माध्य का सामान्यीकरण, प्रतिपादक द्वारा निर्दिष्ट होता है।
Line 21: Line 18:
; [[मध्य स्तर]]: डेटा सममुच्य के अधिकतम और न्यूनतम मूल्यों का अंकगणितीय माध्य है।
; [[मध्य स्तर]]: डेटा सममुच्य के अधिकतम और न्यूनतम मूल्यों का अंकगणितीय माध्य है।
; [[अनुसरण]]: पहले और तीसरे चतुर्थक का अंकगणितीय माध्य है।
; [[अनुसरण]]: पहले और तीसरे चतुर्थक का अंकगणितीय माध्य है।
; [[अर्ध-अंकगणितीय माध्य]]: सामान्यीकृत माध्य का सामान्यीकरण, सतत फलन [[इंजेक्शन समारोह|इंजेक्शन फलन]] (गणित) द्वारा निर्दिष्ट होता है।
; [[अर्ध-अंकगणितीय माध्य]]: सामान्यीकृत माध्य का सामान्यीकरण, सतत फलन [[इंजेक्शन समारोह|इंजेक्टिव फलन]] (गणित) द्वारा निर्दिष्ट होता है।
; [[Trimean|ट्रिमियन]]: माध्यिका और दो चतुर्थक का भारित अंकगणितीय माध्य है।
; [[Trimean|ट्रिमियन]]: माध्यिका और दो चतुर्थक का भारित अंकगणितीय माध्य है।
; [[विनसोराइज्ड माध्य]]: अंकगणितीय माध्य जिसमें [[ग़ैर]] को माध्यिका के निकट के मानों द्वारा प्रतिस्थापित किया जाता है।
; [[विनसोराइज्ड माध्य]]: अंकगणितीय माध्य जिसमें [[ग़ैर]] को माध्यिका के निकट के मानों द्वारा प्रतिस्थापित किया जाता है।


उपरोक्त में से कोई भी बहु-आयामी डेटा के प्रत्येक आयाम पर लागू किया जा सकता है, लेकिन परिणाम बहु-आयामी अंतरिक्ष के घूर्णन के लिए अपरिवर्तनीय नहीं हो सकते हैं।
उपरोक्त में से कोई भी बहु-आयामी डेटा के प्रत्येक आयाम पर प्रयुक्त किया जा सकता है, लेकिन परिणाम बहु-आयामी अंतरिक्ष के घूर्णन के लिए अपरिवर्तनीय नहीं हो सकते हैं।


; [[ज्यामितीय माध्यिका]]: नमूना बिंदुओं के सममुच्य के लिए दूरियों के योग को कम करने वाला बिंदु। यह -आयामी डेटा पर प्रयुक्त होने पर माध्यिका के समान है, लेकिन यह प्रत्येक आयाम के माध्यिका को स्वतंत्र रूप से लेने के समान नहीं है। यह अलग-अलग आयामों के अलग-अलग पुनर्विक्रय के लिए अपरिवर्तनीय नहीं है।
; [[ज्यामितीय माध्यिका]]: नमूना बिंदुओं के सममुच्य के लिए दूरियों के योग को कम करने वाला बिंदु यह -आयामी डेटा पर प्रयुक्त होने पर माध्यिका के समान है, लेकिन यह प्रत्येक आयाम के माध्यिका को स्वतंत्र रूप से लेने के समान नहीं है। यह अलग-अलग आयामों के अलग-अलग पुनर्विक्रय के लिए अपरिवर्तनीय नहीं है।
; [[द्विघात माध्य]]: सामान्य; >(अधिकांशतः मूल माध्य वर्ग के रूप में जाना जाता</span> है): इंजीनियरिंग में उपयोगी, लेकिन अधिकांशतः आंकड़ों में उपयोग नहीं किया जाता। ऐसा इसलिए है क्योंकि जब वितरण में ऋणात्मक मान सम्मिलित होते हैं तो यह वितरण के केंद्र का अच्छा संकेतक नहीं होता है।
; द्विघात माध्य (अधिकांशतः मूल माध्य वर्ग के रूप में जाना जाता है): इंजीनियरिंग में उपयोगी, लेकिन अधिकांशतः आंकड़ों में उपयो</span>ग नहीं किया जाता। ऐसा इसलिए है क्योंकि जब वितरण में ऋणात्मक मान सम्मिलित होते हैं तो यह वितरण के केंद्र का अच्छा संकेतक नहीं होता है।
; सरल गहराई: संभावना है कि दिए गए वितरण से कोने के साथ यादृच्छिक रूप से चुने गए [[संकेतन]] में दिए गए केंद्र सम्मिलित होंगे
; सरल गहराई: संभावना है कि दिए गए वितरण से कोने के साथ यादृच्छिक रूप से चुने गए संकेतन में दिए गए केंद्र सम्मिलित होंगे।
; तुकी माध्यिका: संपत्ति के साथ बिंदु जिसमें प्रत्येक आधा स्थान होता है जिसमें कई नमूना बिंदु भी होते हैं
; तुकी माध्यिका: संपत्ति के साथ बिंदु जिसमें प्रत्येक आधा स्थान होता है जिसमें कई नमूना बिंदु भी होते हैं।


== परिवर्तनशील समस्याओं का समाधान ==
== परिवर्तनशील समस्याओं का समाधान ==
केंद्रीय प्रवृत्ति के कई उपायों को भिन्नात्मक समस्या को हल करने के रूप में वर्णित किया जा सकता है, विविधताओं की कलन के अर्थ में, अर्थात् केंद्र से भिन्नता को कम करना। अर्थात्, सांख्यिकीय फैलाव का उपाय दिया गया है, केंद्रीय प्रवृत्ति का उपाय मांगता है जो भिन्नता को कम करता है: जैसे केंद्र के सभी विकल्पों में केंद्र से भिन्नता न्यूनतम है। चुटकी में, फैलाव स्थान से पहले होता है। इन उपायों को प्रारंभ में आयाम में परिभाषित किया गया है, लेकिन इन्हें कई आयामों में सामान्यीकृत किया जा सकता है। यह केंद्र अद्वितीय हो भी सकता है और नहीं भी। एलपी स्पेस के अर्थ में {{math|{{var|L}}<sup>{{var|p}}</sup>}} रिक्त स्थान, पत्राचार है:
केंद्रीय प्रवृत्ति के कई उपायों को भिन्नात्मक समस्या को हल करने के रूप में वर्णित किया जा सकता है, विविधताओं की कलन के अर्थ में, अर्थात् केंद्र से भिन्नता को कम करना अर्थात्, सांख्यिकीय फैलाव का उपाय दिया गया है, केंद्रीय प्रवृत्ति का उपाय मांगता है जो भिन्नता को कम करता है: जैसे केंद्र के सभी विकल्पों में केंद्र से भिन्नता न्यूनतम है। चुटकी में, फैलाव स्थान से पहले होता है। इन उपायों को प्रारंभ में आयाम में परिभाषित किया गया है, लेकिन इन्हें कई आयामों में सामान्यीकृत किया जा सकता है। यह केंद्र अद्वितीय हो भी सकता है और नहीं भी। {{math|{{var|L}}<sup>{{var|p}}</sup>}} स्पेस के अर्थ में रिक्त स्थान, पत्राचार है।
{| class="wikitable"
{| class="wikitable"
! {{math|''L''<sup>{{var|p}}</sup>}} !! फैलाव !! केंद्रीय प्रवृत्ति
! {{math|''L''<sup>{{var|p}}</sup>}} !! फैलाव !! केंद्रीय प्रवृत्ति
Line 53: Line 50:
| [[midrange|मध्य स्तर]]{{efn|In multiple dimensions, the midrange can be define coordinate-wise (take the midrange of each coordinate), though this is not common.}}
| [[midrange|मध्य स्तर]]{{efn|In multiple dimensions, the midrange can be define coordinate-wise (take the midrange of each coordinate), though this is not common.}}
|}
|}
संबंधित कार्यों को पी-नॉर्म कहा जाता है {{math|{{var|p}}}}-नॉर्म्स: क्रमशः 0-नॉर्म, 1-नॉर्म, 2-नॉर्म, और ∞-नॉर्म। के अनुरूप समारोह {{var|L}}<sup>0</sup> स्थान एक मानक नहीं है, और इस प्रकार इसे अधिकांशतः उद्धरणों में संदर्भित किया जाता है: 0-मानदंड। समीकरणों में, दिए गए (परिमित) डेटा सममुच्य के लिए {{math|X}}, सदिश के रूप में माना जाता है {{math|{{strong|x}} {{=}} ({{var|x}}{{sub|1}},…,{{var|x}}{{sub|{{var|n}}}})}} बिंदु के बारे में फैलाव {{math|{{strong|c}}}} से दूरी है {{math|{{strong|x}}}} निरंतर वेक्टर के लिए {{math|{{strong|c}} {{=}} ({{var|c}},…,{{var|c}})}} में {{var|p}}-मानदंड (अंकों की संख्या से सामान्यीकृत {{var|n}}) है।
संबंधित कार्यों को p-नॉर्म कहा जाता है {{math|{{var|p}}}}-नॉर्म्स: क्रमशः 0-नॉर्म, 1-नॉर्म, 2-नॉर्म, और ∞-नॉर्म। के अनुरूप समारोह {{var|L}}<sup>0</sup> स्थान एक मानक नहीं है, और इस प्रकार इसे अधिकांशतः उद्धरणों में संदर्भित किया जाता है: 0-मानदंड समीकरणों में, दिए गए (परिमित) डेटा सममुच्य के लिए {{math|X}}, सदिश के रूप में माना जाता है {{math|{{strong|x}} {{=}} ({{var|x}}{{sub|1}},…,{{var|x}}{{sub|{{var|n}}}})}} बिंदु के बारे में फैलाव {{math|{{strong|c}}}} से दूरी है {{math|{{strong|x}}}} निरंतर वेक्टर के लिए {{math|{{strong|c}} {{=}} ({{var|c}},…,{{var|c}})}} में {{var|p}}-मानदंड (अंकों की संख्या से सामान्यीकृत {{var|n}}) है।


:<math>f_p(c) = \left\| \mathbf{x} - \mathbf{c} \right\|_p := \bigg( \frac{1}{n} \sum_{i=1}^n \left| x_i - c\right| ^p \bigg) ^{1/p}</math>
:<math>f_p(c) = \left\| \mathbf{x} - \mathbf{c} \right\|_p := \bigg( \frac{1}{n} \sum_{i=1}^n \left| x_i - c\right| ^p \bigg) ^{1/p}</math>
Line 59: Line 56:


=== विशिष्टता ===
=== विशिष्टता ===
औसत (''L''<sup>2</sup> केंद्र) और मिडरेंज (L<sup>∞</sup> केंद्र) अद्वितीय होते हैं (जब वे उपस्थित होते हैं), जबकि माध्यिका (L<sup>1</sup> केंद्र) और मोड (L<sup>0</sup> केंद्र) सामान्य रूप से अद्वितीय नहीं हैं। इसे संबंधित कार्यों (उत्पीड़न कार्यों) के उत्तल कार्य के संदर्भ में समझा जा सकता है।
औसत (''L''<sup>2</sup> केंद्र) और मध्यम श्रेणी (L<sup>∞</sup> केंद्र) अद्वितीय होते हैं (जब वे उपस्थित होते हैं), जबकि माध्यिका (L<sup>1</sup> केंद्र) और मोड (L<sup>0</sup> केंद्र) सामान्य रूप से अद्वितीय नहीं हैं। इसे संबंधित कार्यों (उत्पीड़न कार्यों) के उत्तल कार्य के संदर्भ में समझा जा सकता है।


2-मानदंड और ∞-मानदंड कड़ाई से उत्तल कार्य हैं, और इस प्रकार (उत्तल अनुकूलन द्वारा) मिनिमाइज़र अद्वितीय है (यदि यह उपस्थित है), और बंधे हुए वितरण के लिए उपस्थित है। इस प्रकार माध्य के बारे में मानक विचलन किसी अन्य बिंदु के बारे में मानक विचलन से कम है, और मध्य श्रेणी के बारे में अधिकतम विचलन किसी अन्य बिंदु के अधिकतम विचलन से कम है।
2-मानदंड और ∞-मानदंड कड़ाई से उत्तल कार्य हैं, और इस प्रकार (उत्तल अनुकूलन द्वारा) न्यूनतम अद्वितीय है (यदि यह उपस्थित है), और बंधे हुए वितरण के लिए उपस्थित है। इस प्रकार माध्य के बारे में मानक विचलन किसी अन्य बिंदु के बारे में मानक विचलन से कम है, और मध्य श्रेणी के बारे में अधिकतम विचलन किसी अन्य बिंदु के अधिकतम विचलन से कम है।


1-मानदंड सख्ती से उत्तल नहीं है, जबकि मिनिमाइज़र की विशिष्टता सुनिश्चित करने के लिए सख्त उत्तलता की आवश्यकता है। इसके विपरीत, औसत (न्यूनतम करने के इस अर्थ में) सामान्य रूप से अद्वितीय नहीं है, और वास्तव में असतत वितरण के दो केंद्रीय बिंदुओं के बीच कोई भी बिंदु औसत पूर्ण विचलन को कम करता है।
1-मानदंड सख्ती से उत्तल नहीं है, जबकि न्यूनतम की विशिष्टता सुनिश्चित करने के लिए सख्त उत्तलता की आवश्यकता है। इसके विपरीत, औसत (न्यूनतम करने के इस अर्थ में) सामान्य रूप से अद्वितीय नहीं है, और वास्तव में असतत वितरण के दो केंद्रीय बिंदुओं के बीच कोई भी बिंदु औसत पूर्ण विचलन को कम करता है।


0- मानदंड उत्तल नहीं है (इसलिए आदर्श नहीं है)। तदनुसार, बहुलक अद्वितीय नहीं है - उदाहरण के लिए, समान वितरण में कोई भी बिंदु बहुलक होता है।
0- मानदंड उत्तल नहीं है (इसलिए आदर्श नहीं है)। तदनुसार, बहुलक अद्वितीय नहीं है - उदाहरण के लिए, समान वितरण में कोई भी बिंदु बहुलक होता है।


=== क्लस्टरिंग ===
=== क्लस्टरिंग ===
केंद्रीय बिंदु के अतिरिक्त, कई बिंदुओं के लिए कहा जा सकता है ताकि इन बिंदुओं से भिन्नता कम से कम हो। यह [[क्लस्टर विश्लेषण]] की ओर जाता है, जहां डेटा सममुच्य में प्रत्येक बिंदु को निकटतम केंद्र के साथ क्लस्टर किया जाता है। सामान्यतः, 2-मानदंड का उपयोग k- का अर्थ क्लस्टरिंग के माध्य को सामान्यीकृत करता है, जबकि 1-मानदंड का उपयोग करते हुए (ज्यामितीय) मध्यिका को k-मध्यिका क्लस्टरिंग | k-मध्यिका क्लस्टरिंग के लिए सामान्यीकृत करता है। 0-मानदंड का उपयोग केंद्र के रूप में k सबसे सामान्य मानों का उपयोग करने के लिए मोड (सबसे सामान्य मान) को सामान्य करता है।
केंद्रीय बिंदु के अतिरिक्त, कई बिंदुओं के लिए कहा जा सकता है यद्यपि इन बिंदुओं से भिन्नता कम से कम हो यह [[क्लस्टर विश्लेषण]] की ओर जाता है, जहां डेटा सममुच्य में प्रत्येक बिंदु को निकटतम केंद्र के साथ क्लस्टर किया जाता है। सामान्यतः, 2-मानदंड का उपयोग k- का अर्थ क्लस्टरिंग के माध्य को सामान्यीकृत करता है, जबकि 1-मानदंड का उपयोग करते हुए (ज्यामितीय) मध्यिका को k-मध्यिका क्लस्टरिंग k-मध्यिका क्लस्टरिंग के लिए सामान्यीकृत करता है। 0-मानदंड का उपयोग केंद्र के रूप में k सबसे सामान्य मानों का उपयोग करने के लिए मोड (सबसे सामान्य मान) को सामान्य करता है।


एकल-केंद्र आँकड़ों के विपरीत, यह बहु-केंद्र क्लस्टरिंग सामान्य रूप से बंद-रूप अभिव्यक्ति में गणना नहीं की जा सकती है, और इसके अतिरिक्त पुनरावृत्त विधि द्वारा गणना या अनुमान लगाया जाना चाहिए; सामान्य दृष्टिकोण अपेक्षा-अधिकतमकरण एल्गोरिदम है।
एकल-केंद्र आँकड़ों के विपरीत, यह बहु-केंद्र क्लस्टरिंग सामान्य रूप से बंद-रूप अभिव्यक्ति में गणना नहीं की जा सकती है, और इसके अतिरिक्त पुनरावृत्त विधि द्वारा गणना या अनुमान लगाया जाना चाहिए; सामान्य दृष्टिकोण अपेक्षा-अधिकतमकरण प्रारूप है।


=== [[सूचना ज्यामिति]] ===
=== [[सूचना ज्यामिति]] ===
न्यूनतम भिन्नता के रूप में केंद्र की धारणा को सूचना ज्यामिति में वितरण के रूप में सामान्यीकृत किया जा सकता है जो डेटा सममुच्य से [[विचलन (सांख्यिकी)]] (सामान्यीकृत दूरी) को कम करता है। सबसे सामान्य स्थितियां [[अधिकतम संभावना अनुमान]] है, जहां अधिकतम संभावना अनुमान (एमएलई) संभावना को अधिकतम करता है (अपेक्षित [[आश्चर्य]] को कम करता है), जिसे भिन्नता को मापने के लिए [[एंट्रॉपी (सांख्यिकी)]] का उपयोग करके ज्यामितीय रूप से व्याख्या की जा सकती है: एमएलई [[क्रॉस एन्ट्रापी]] को कम करता है (समतुल्य, सापेक्ष एन्ट्रॉपी) , कुल्बैक-लीब्लर विचलन) है।
न्यूनतम भिन्नता के रूप में केंद्र की धारणा को सूचना ज्यामिति में वितरण के रूप में सामान्यीकृत किया जा सकता है जो डेटा सममुच्य से [[विचलन (सांख्यिकी)]] (सामान्यीकृत दूरी) को कम करता है। सबसे सामान्य स्थितियां [[अधिकतम संभावना अनुमान]] है, जहां अधिकतम संभावना अनुमान (MLE) संभावना को अधिकतम करता है (अपेक्षित [[आश्चर्य]] को कम करता है), जिसे भिन्नता को मापने के लिए [[एंट्रॉपी (सांख्यिकी)]] का उपयोग करके ज्यामितीय रूप से व्याख्या की जा सकती है MLE [[क्रॉस एन्ट्रापी]] को कम करता है (समतुल्य,सापेक्ष एन्ट्रॉपी), कुल्बैक-लीब्लर विचलन है।


इसका सरल उदाहरण नाममात्र डेटा के केंद्र के लिए है: मोड (केवल एकल-मूल्यवान केंद्र) का उपयोग करने के अतिरिक्त, केंद्र के रूप में अधिकांशतः अनुभवजन्य माप (नमूना आकार से विभाजित आवृत्ति वितरण) का उपयोग करता है। उदाहरण के लिए, दिए गए [[बाइनरी डेटा]], जैसे कि हेड या टेल, यदि डेटा सममुच्य में 2 हेड और 1 टेल होते हैं, तो मोड हेड है, लेकिन अनुभवजन्य माप 2/3 हेड, 1/3 टेल है, जो क्रॉस-को कम करता है- डेटा सममुच्य से एंट्रॉपी (कुल आश्चर्य)। इस परिप्रेक्ष्य का उपयोग [[प्रतिगमन विश्लेषण]] में भी किया जाता है, जहां कम से कम वर्ग उस समाधान को ढूंढता है जो इससे दूरी को कम करता है, और समान रूप से रसद प्रतिगमन में, अधिकतम संभावना अनुमान आश्चर्य (सूचना दूरी) को कम करता है।
इसका सरल उदाहरण नाममात्र डेटा के केंद्र के लिए है: मोड (केवल एकल-मूल्यवान केंद्र) का उपयोग करने के अतिरिक्त, केंद्र के रूप में अधिकांशतः अनुभवजन्य माप (नमूना आकार से विभाजित आवृत्ति वितरण) का उपयोग करता है। उदाहरण के लिए, दिए गए [[बाइनरी डेटा]], जैसे कि हेड या टेल, यदि डेटा सममुच्य में 2 हेड और 1 टेल होते हैं, तो मोड हेड है, लेकिन अनुभवजन्य माप 2/3 हेड, 1/3 टेल है, जो क्रॉस-को कम करता है- डेटा सममुच्य से एंट्रॉपी (कुल आश्चर्य)। इस परिप्रेक्ष्य का उपयोग [[प्रतिगमन विश्लेषण]] में भी किया जाता है, जहां कम से कम वर्ग उस समाधान को ढूंढता है जो इससे दूरी को कम करता है, और समान रूप से रसद प्रतिगमन में, अधिकतम संभावना अनुमान आश्चर्य (सूचना दूरी) को कम करता है।
Line 80: Line 77:
{{Main|गैर पैरामीट्रिक तिरछा#माध्य, माध्यिका और बहुलक के बीच संबंध}}
{{Main|गैर पैरामीट्रिक तिरछा#माध्य, माध्यिका और बहुलक के बीच संबंध}}


[[एकरूप वितरण]] के लिए निम्नलिखित सीमाएँ ज्ञात हैं और तीक्ष्ण हैं:<ref name=Johnson1951>Johnson NL, Rogers CA (1951) "The moment problem for unimodal distributions". ''Annals of Mathematical Statistics'', 22 (3) 433–439</ref>
[[एकरूप वितरण]] के लिए निम्नलिखित सीमाएँ ज्ञात और तीक्ष्ण हैं:<ref name=Johnson1951>Johnson NL, Rogers CA (1951) "The moment problem for unimodal distributions". ''Annals of Mathematical Statistics'', 22 (3) 433–439</ref>
: <math> \frac{| \theta - \mu |}{ \sigma } \le \sqrt{ 3 } ,</math>
: <math> \frac{| \theta - \mu |}{ \sigma } \le \sqrt{ 3 } ,</math>
: <math> \frac{| \nu - \mu |}{ \sigma } \le \sqrt{ 0.6 } ,</math>
: <math> \frac{| \nu - \mu |}{ \sigma } \le \sqrt{ 0.6 } ,</math>
Line 95: Line 92:
* [[स्थान पैरामीटर]]
* [[स्थान पैरामीटर]]
*[[अर्थ]]
*[[अर्थ]]
*[[आबादी मतलब]]
*
*[[नमूना माध्य]]
*[[नमूना माध्य]]


Line 105: Line 102:
{{Reflist}}
{{Reflist}}


{{Statistics|descriptive}}
{{DEFAULTSORT:Central Tendency}}
 
{{DEFAULTSORT:Central Tendency}}[[Category: सारांश आँकड़े]] [[Category: सिद्धांत संभावना]]


[[de:Lagemaß]]
[[de:Lagemaß]]


 
[[Category:Articles with hatnote templates targeting a nonexistent page|Central Tendency]]
 
[[Category:Collapse templates|Central Tendency]]
[[Category: Machine Translated Page]]
[[Category:Created On 20/03/2023|Central Tendency]]
[[Category:Created On 20/03/2023]]
[[Category:Machine Translated Page|Central Tendency]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Central Tendency]]
[[Category:Pages with empty portal template|Central Tendency]]
[[Category:Pages with script errors|Central Tendency]]
[[Category:Portal-inline template with redlinked portals|Central Tendency]]
[[Category:Short description with empty Wikidata description|Central Tendency]]
[[Category:Vigyan Ready]]

Latest revision as of 06:58, 17 October 2023

आँकड़ों में, केंद्रीय प्रवृत्ति (या केंद्रीय प्रवृत्ति का माप) संभाव्यता वितरण के लिए केंद्रीय या विशिष्ट मूल्य है।[1] बोलचाल की भाषा में, केंद्रीय प्रवृत्ति के उपायों को अधिकांशतः औसत कहा जाता है। केंद्रीय प्रवृत्ति शब्द 1920 के दशक के उत्तरार्ध से आता है।[2] केंद्रीय प्रवृत्ति के सबसे सामान्य उपाय अंकगणितीय माध्य, माध्यिका और मोड (सांख्यिकी) हैं। मध्य प्रवृत्ति की गणना या तो मूल्यों के परिमित सममुच्य के लिए या सैद्धांतिक वितरण के लिए की जा सकती है, जैसे कि सामान्य वितरण कभी-कभी लेखक कुछ केंद्रीय मूल्य के आसपास क्लस्टर करने के लिए मात्रात्मक डेटा की प्रवृत्ति को निरूपित करने के लिए केंद्रीय प्रवृत्ति का उपयोग करते हैं।[2][3]

वितरण की केंद्रीय प्रवृत्ति सामान्यतः इसके सांख्यिकीय फैलाव या परिवर्तनशीलता के विपरीत होती है; फैलाव और केंद्रीय प्रवृत्ति वितरण के अधिकांशतः विशेषता गुण होते हैं। विश्लेषण यह निर्धारित कर सकता है कि डेटा के फैलाव के आधार पर मजबूत या कमजोर केंद्रीय प्रवृत्ति है या नहीं।

उपाय

निम्नलिखित को एक-आयामी डेटा पर प्रयुक्त किया जा सकता है। परिस्थितियों के आधार पर, केंद्रीय प्रवृत्ति की गणना करने से पहले डेटा को बदलना उचित हो सकता है। उदाहरण मानों का वर्ग कर रहे हैं या लघुगणक ले रहे हैं। क्या एक परिवर्तन उचित है और यह क्या होना चाहिए, विश्लेषण किए जा रहे डेटा पर बहुत अधिक निर्भर करता है।

अंकगणितीय माध्य या केवल, माध्य
डेटा सममुच्य में अवलोकनों की संख्या से विभाजित सभी मापों का योग है।
माध्यिका
मध्य मान जो डेटा सममुच्य के निचले आधे भागों से उच्च आधे को अलग करता है। मध्यिका और मोड केंद्रीय प्रवृत्ति के एकमात्र उपाय हैं जिनका उपयोग माप के स्तर ऑर्डिनल पैमाने के लिए किया जा सकता है, जिसमें मूल्यों को एक दूसरे के सापेक्ष पद दिया जाता है लेकिन बिल्कुल नहीं मापा जाता है।
मोड
डेटा सममुच्य में सबसे लगातार मूल्य यह एकमात्र केंद्रीय प्रवृत्ति माप है जिसका उपयोग माप के स्तर नाममात्र स्तर के साथ किया जा सकता है, जिसमें विशुद्ध रूप से गुणात्मक श्रेणी असाइनमेंट होते हैं।
सामान्यीकृत माध्य
पायथागॉरियन माध्य का सामान्यीकरण, प्रतिपादक द्वारा निर्दिष्ट होता है।
ज्यामितीय माध्य
डेटा मानों के गुणनफल का Nवां मूल, जहां इनमें से n हैं। यह माप केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
अनुकूल माध्य
डेटा मानों के व्युत्क्रम के अंकगणितीय माध्य का गुणनात्मक व्युत्क्रम यह उपाय भी केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
भारित अंकगणितीय माध्य
अंकगणितीय माध्य जिसमें कुछ डेटा तत्वों का भार सम्मिलित होता है।
काटे गए माध्य या छंटे हुए माध्य
यह निश्चित संख्या या उच्चतम और निम्नतम डेटा मानों के अनुपात के बाद डेटा मानों का अंकगणितीय माध्य हटा दिया गया है।
[अंतरचतुर्थक माध्य]
अन्तःचतुर्थक श्रेणी के अन्दर डेटा के आधार पर छोटा अर्थ है।
मध्य स्तर
डेटा सममुच्य के अधिकतम और न्यूनतम मूल्यों का अंकगणितीय माध्य है।
अनुसरण
पहले और तीसरे चतुर्थक का अंकगणितीय माध्य है।
अर्ध-अंकगणितीय माध्य
सामान्यीकृत माध्य का सामान्यीकरण, सतत फलन इंजेक्टिव फलन (गणित) द्वारा निर्दिष्ट होता है।
ट्रिमियन
माध्यिका और दो चतुर्थक का भारित अंकगणितीय माध्य है।
विनसोराइज्ड माध्य
अंकगणितीय माध्य जिसमें ग़ैर को माध्यिका के निकट के मानों द्वारा प्रतिस्थापित किया जाता है।

उपरोक्त में से कोई भी बहु-आयामी डेटा के प्रत्येक आयाम पर प्रयुक्त किया जा सकता है, लेकिन परिणाम बहु-आयामी अंतरिक्ष के घूर्णन के लिए अपरिवर्तनीय नहीं हो सकते हैं।

ज्यामितीय माध्यिका
नमूना बिंदुओं के सममुच्य के लिए दूरियों के योग को कम करने वाला बिंदु यह -आयामी डेटा पर प्रयुक्त होने पर माध्यिका के समान है, लेकिन यह प्रत्येक आयाम के माध्यिका को स्वतंत्र रूप से लेने के समान नहीं है। यह अलग-अलग आयामों के अलग-अलग पुनर्विक्रय के लिए अपरिवर्तनीय नहीं है।
द्विघात माध्य (अधिकांशतः मूल माध्य वर्ग के रूप में जाना जाता है)
इंजीनियरिंग में उपयोगी, लेकिन अधिकांशतः आंकड़ों में उपयोग नहीं किया जाता। ऐसा इसलिए है क्योंकि जब वितरण में ऋणात्मक मान सम्मिलित होते हैं तो यह वितरण के केंद्र का अच्छा संकेतक नहीं होता है।
सरल गहराई
संभावना है कि दिए गए वितरण से कोने के साथ यादृच्छिक रूप से चुने गए संकेतन में दिए गए केंद्र सम्मिलित होंगे।
तुकी माध्यिका
संपत्ति के साथ बिंदु जिसमें प्रत्येक आधा स्थान होता है जिसमें कई नमूना बिंदु भी होते हैं।

परिवर्तनशील समस्याओं का समाधान

केंद्रीय प्रवृत्ति के कई उपायों को भिन्नात्मक समस्या को हल करने के रूप में वर्णित किया जा सकता है, विविधताओं की कलन के अर्थ में, अर्थात् केंद्र से भिन्नता को कम करना अर्थात्, सांख्यिकीय फैलाव का उपाय दिया गया है, केंद्रीय प्रवृत्ति का उपाय मांगता है जो भिन्नता को कम करता है: जैसे केंद्र के सभी विकल्पों में केंद्र से भिन्नता न्यूनतम है। चुटकी में, फैलाव स्थान से पहले होता है। इन उपायों को प्रारंभ में आयाम में परिभाषित किया गया है, लेकिन इन्हें कई आयामों में सामान्यीकृत किया जा सकता है। यह केंद्र अद्वितीय हो भी सकता है और नहीं भी। Lp स्पेस के अर्थ में रिक्त स्थान, पत्राचार है।

Lp फैलाव केंद्रीय प्रवृत्ति
L0 भिन्नता अनुपात मोड[lower-alpha 1]
L1 औसत पूर्ण विचलन माध्यिका (ज्यामितीय माध्यिका)[lower-alpha 2]
L2 मानक विचलन माध्य (केंद्रक)[lower-alpha 3]
L अधिकतम विचलन मध्य स्तर[lower-alpha 4]

संबंधित कार्यों को p-नॉर्म कहा जाता है p-नॉर्म्स: क्रमशः 0-नॉर्म, 1-नॉर्म, 2-नॉर्म, और ∞-नॉर्म। के अनुरूप समारोह L0 स्थान एक मानक नहीं है, और इस प्रकार इसे अधिकांशतः उद्धरणों में संदर्भित किया जाता है: 0-मानदंड समीकरणों में, दिए गए (परिमित) डेटा सममुच्य के लिए X, सदिश के रूप में माना जाता है x = (x1,…,xn) बिंदु के बारे में फैलाव c से दूरी है x निरंतर वेक्टर के लिए c = (c,…,c) में p-मानदंड (अंकों की संख्या से सामान्यीकृत n) है।

के लिए p = 0 और p = ∞ इन कार्यों को क्रमशः सीमाएं लेकर परिभाषित किया गया है p → 0 और p → ∞. के लिए p = 0 सीमित मान हैं 00 = 0 और a0 = 0 या a ≠ 0, इसलिए अंतर केवल समानता बन जाता है, इसलिए 0-मानक असमान बिंदुओं की संख्या को गिनता है। के लिए p = ∞ सबसे बड़ी संख्या हावी है, और इस प्रकार ∞-मानदंड अधिकतम अंतर है।

विशिष्टता

औसत (L2 केंद्र) और मध्यम श्रेणी (L केंद्र) अद्वितीय होते हैं (जब वे उपस्थित होते हैं), जबकि माध्यिका (L1 केंद्र) और मोड (L0 केंद्र) सामान्य रूप से अद्वितीय नहीं हैं। इसे संबंधित कार्यों (उत्पीड़न कार्यों) के उत्तल कार्य के संदर्भ में समझा जा सकता है।

2-मानदंड और ∞-मानदंड कड़ाई से उत्तल कार्य हैं, और इस प्रकार (उत्तल अनुकूलन द्वारा) न्यूनतम अद्वितीय है (यदि यह उपस्थित है), और बंधे हुए वितरण के लिए उपस्थित है। इस प्रकार माध्य के बारे में मानक विचलन किसी अन्य बिंदु के बारे में मानक विचलन से कम है, और मध्य श्रेणी के बारे में अधिकतम विचलन किसी अन्य बिंदु के अधिकतम विचलन से कम है।

1-मानदंड सख्ती से उत्तल नहीं है, जबकि न्यूनतम की विशिष्टता सुनिश्चित करने के लिए सख्त उत्तलता की आवश्यकता है। इसके विपरीत, औसत (न्यूनतम करने के इस अर्थ में) सामान्य रूप से अद्वितीय नहीं है, और वास्तव में असतत वितरण के दो केंद्रीय बिंदुओं के बीच कोई भी बिंदु औसत पूर्ण विचलन को कम करता है।

0- मानदंड उत्तल नहीं है (इसलिए आदर्श नहीं है)। तदनुसार, बहुलक अद्वितीय नहीं है - उदाहरण के लिए, समान वितरण में कोई भी बिंदु बहुलक होता है।

क्लस्टरिंग

केंद्रीय बिंदु के अतिरिक्त, कई बिंदुओं के लिए कहा जा सकता है यद्यपि इन बिंदुओं से भिन्नता कम से कम हो यह क्लस्टर विश्लेषण की ओर जाता है, जहां डेटा सममुच्य में प्रत्येक बिंदु को निकटतम केंद्र के साथ क्लस्टर किया जाता है। सामान्यतः, 2-मानदंड का उपयोग k- का अर्थ क्लस्टरिंग के माध्य को सामान्यीकृत करता है, जबकि 1-मानदंड का उपयोग करते हुए (ज्यामितीय) मध्यिका को k-मध्यिका क्लस्टरिंग k-मध्यिका क्लस्टरिंग के लिए सामान्यीकृत करता है। 0-मानदंड का उपयोग केंद्र के रूप में k सबसे सामान्य मानों का उपयोग करने के लिए मोड (सबसे सामान्य मान) को सामान्य करता है।

एकल-केंद्र आँकड़ों के विपरीत, यह बहु-केंद्र क्लस्टरिंग सामान्य रूप से बंद-रूप अभिव्यक्ति में गणना नहीं की जा सकती है, और इसके अतिरिक्त पुनरावृत्त विधि द्वारा गणना या अनुमान लगाया जाना चाहिए; सामान्य दृष्टिकोण अपेक्षा-अधिकतमकरण प्रारूप है।

सूचना ज्यामिति

न्यूनतम भिन्नता के रूप में केंद्र की धारणा को सूचना ज्यामिति में वितरण के रूप में सामान्यीकृत किया जा सकता है जो डेटा सममुच्य से विचलन (सांख्यिकी) (सामान्यीकृत दूरी) को कम करता है। सबसे सामान्य स्थितियां अधिकतम संभावना अनुमान है, जहां अधिकतम संभावना अनुमान (MLE) संभावना को अधिकतम करता है (अपेक्षित आश्चर्य को कम करता है), जिसे भिन्नता को मापने के लिए एंट्रॉपी (सांख्यिकी) का उपयोग करके ज्यामितीय रूप से व्याख्या की जा सकती है MLE क्रॉस एन्ट्रापी को कम करता है (समतुल्य,सापेक्ष एन्ट्रॉपी), कुल्बैक-लीब्लर विचलन है।

इसका सरल उदाहरण नाममात्र डेटा के केंद्र के लिए है: मोड (केवल एकल-मूल्यवान केंद्र) का उपयोग करने के अतिरिक्त, केंद्र के रूप में अधिकांशतः अनुभवजन्य माप (नमूना आकार से विभाजित आवृत्ति वितरण) का उपयोग करता है। उदाहरण के लिए, दिए गए बाइनरी डेटा, जैसे कि हेड या टेल, यदि डेटा सममुच्य में 2 हेड और 1 टेल होते हैं, तो मोड हेड है, लेकिन अनुभवजन्य माप 2/3 हेड, 1/3 टेल है, जो क्रॉस-को कम करता है- डेटा सममुच्य से एंट्रॉपी (कुल आश्चर्य)। इस परिप्रेक्ष्य का उपयोग प्रतिगमन विश्लेषण में भी किया जाता है, जहां कम से कम वर्ग उस समाधान को ढूंढता है जो इससे दूरी को कम करता है, और समान रूप से रसद प्रतिगमन में, अधिकतम संभावना अनुमान आश्चर्य (सूचना दूरी) को कम करता है।

माध्य, माध्यिका और बहुलक के बीच संबंध

एकरूप वितरण के लिए निम्नलिखित सीमाएँ ज्ञात और तीक्ष्ण हैं:[4]

जहां μ माध्य है, ν माध्यिका है, θ मोड है, और σ मानक विचलन है।

प्रत्येक वितरण के लिए,[5][6]


यह भी देखें

टिप्पणियाँ

  1. Unlike the other measures, the mode does not require any geometry on the set, and thus applies equally in one dimension, multiple dimensions, or even for categorical variables.
  2. The median is only defined in one dimension; the geometric median is a multidimensional generalization.
  3. The mean can be defined identically for vectors in multiple dimensions as for scalars in one dimension; the multidimensional form is often called the centroid.
  4. In multiple dimensions, the midrange can be define coordinate-wise (take the midrange of each coordinate), though this is not common.


संदर्भ

  1. Weisberg H.F (1992) Central Tendency and Variability, Sage University Paper Series on Quantitative Applications in the Social Sciences, ISBN 0-8039-4007-6 p.2
  2. 2.0 2.1 Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP ISBN 978-0-19-954145-4 (entry for "central tendency")
  3. Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP for International Statistical Institute. ISBN 0-19-920613-9 (entry for "central tendency")
  4. Johnson NL, Rogers CA (1951) "The moment problem for unimodal distributions". Annals of Mathematical Statistics, 22 (3) 433–439
  5. Hotelling H, Solomons LM (1932) The limits of a measure of skewness. Annals Math Stat 3, 141–114
  6. Garver (1932) Concerning the limits of a mesuare of skewness. Ann Math Stats 3(4) 141–142