केंद्रीय प्रवृत्ति
आँकड़ों में, एक केंद्रीय प्रवृत्ति (या केंद्रीय प्रवृत्ति का माप) संभाव्यता वितरण के लिए एक केंद्रीय या विशिष्ट मूल्य है।[1] बोलचाल की भाषा में, केंद्रीय प्रवृत्ति के उपायों को अक्सर औसत कहा जाता है। केंद्रीय प्रवृत्ति शब्द 1920 के दशक के उत्तरार्ध से आता है।[2]
केंद्रीय प्रवृत्ति के सबसे आम उपाय अंकगणितीय माध्य, माध्यिका और मोड (सांख्यिकी) हैं। एक मध्य प्रवृत्ति की गणना या तो मूल्यों के परिमित सेट के लिए या सैद्धांतिक वितरण के लिए की जा सकती है, जैसे कि सामान्य वितरण। कभी-कभी लेखक कुछ केंद्रीय मूल्य के आसपास क्लस्टर करने के लिए मात्रात्मक डेटा की प्रवृत्ति को निरूपित करने के लिए केंद्रीय प्रवृत्ति का उपयोग करते हैं।[2][3] एक वितरण की केंद्रीय प्रवृत्ति आमतौर पर इसके सांख्यिकीय फैलाव या परिवर्तनशीलता के विपरीत होती है; फैलाव और केंद्रीय प्रवृत्ति वितरण के अक्सर विशेषता गुण होते हैं। विश्लेषण यह तय कर सकता है कि डेटा के फैलाव के आधार पर एक मजबूत या कमजोर केंद्रीय प्रवृत्ति है या नहीं।
उपाय
निम्नलिखित को एक-आयामी डेटा पर लागू किया जा सकता है। परिस्थितियों के आधार पर, केंद्रीय प्रवृत्ति की गणना करने से पहले डेटा को बदलना उचित हो सकता है। उदाहरण मानों का वर्ग कर रहे हैं या लघुगणक ले रहे हैं। क्या एक परिवर्तन उचित है और यह क्या होना चाहिए, विश्लेषण किए जा रहे डेटा पर बहुत अधिक निर्भर करता है।
- अंकगणित माध्य <विस्तार शैली = फ़ॉन्ट-वजन
- सामान्य; >या बस, का अर्थ है: डेटा सेट में अवलोकनों की संख्या से विभाजित सभी मापों का योग।
- माध्यिका
- मध्य मान जो डेटा सेट के निचले आधे हिस्से से उच्च आधे को अलग करता है। मध्यिका और मोड केंद्रीय प्रवृत्ति के एकमात्र उपाय हैं जिनका उपयोग माप के स्तर # ऑर्डिनल स्केल के लिए किया जा सकता है, जिसमें मूल्यों को एक दूसरे के सापेक्ष रैंक दिया जाता है लेकिन बिल्कुल नहीं मापा जाता है।
- मोड (सांख्यिकी)
- डेटा सेट में सबसे लगातार मूल्य। यह एकमात्र केंद्रीय प्रवृत्ति माप है जिसका उपयोग माप के स्तर # नाममात्र स्तर के साथ किया जा सकता है, जिसमें विशुद्ध रूप से गुणात्मक श्रेणी असाइनमेंट होते हैं।
- सामान्यीकृत माध्य
- पायथागॉरियन माध्य का एक सामान्यीकरण, एक प्रतिपादक द्वारा निर्दिष्ट।
- ज्यामितीय माध्य
- डेटा मानों के गुणनफल का Nवां मूल, जहां इनमें से n हैं। यह माप केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
- अनुकूल माध्य
- डेटा मानों के व्युत्क्रम के अंकगणितीय माध्य का गुणनात्मक व्युत्क्रम। यह उपाय भी केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
- भारित अंकगणितीय माध्य
- एक अंकगणितीय माध्य जिसमें कुछ डेटा तत्वों का भार शामिल होता है।
- काटे गए माध्य <अवधि शैली = फ़ॉन्ट-वजन
- सामान्य; >या छंटनी की गई माध्य: एक निश्चित संख्या या उच्चतम और निम्नतम डेटा मानों के अनुपात के बाद डेटा मानों का अंकगणितीय माध्य हटा दिया गया है।
- [[अंतरचतुर्थक माध्य]]
- अन्तःचतुर्थक श्रेणी के भीतर डेटा के आधार पर एक छोटा मतलब।
- मध्य स्तर
- डेटा सेट के अधिकतम और न्यूनतम मूल्यों का अंकगणितीय माध्य।
- अनुसरण
- पहले और तीसरे चतुर्थक का अंकगणितीय माध्य।
- अर्ध-अंकगणितीय माध्य
- सामान्यीकृत माध्य का एक सामान्यीकरण, एक सतत फ़ंक्शन इंजेक्शन समारोह फ़ंक्शन (गणित) द्वारा निर्दिष्ट।
- Trimean
- माध्यिका और दो चतुर्थक का भारित अंकगणितीय माध्य।
- विनसोराइज्ड माध्य
- एक अंकगणितीय माध्य जिसमें ग़ैर को माध्यिका के निकट के मानों द्वारा प्रतिस्थापित किया जाता है।
उपरोक्त में से कोई भी बहु-आयामी डेटा के प्रत्येक आयाम पर लागू किया जा सकता है, लेकिन परिणाम बहु-आयामी अंतरिक्ष के घूर्णन के लिए अपरिवर्तनीय नहीं हो सकते हैं।
- ज्यामितीय माध्यिका
- नमूना बिंदुओं के एक सेट के लिए दूरियों के योग को कम करने वाला बिंदु। यह एक-आयामी डेटा पर लागू होने पर माध्यिका के समान है, लेकिन यह प्रत्येक आयाम के माध्यिका को स्वतंत्र रूप से लेने के समान नहीं है। यह अलग-अलग आयामों के अलग-अलग पुनर्विक्रय के लिए अपरिवर्तनीय नहीं है।
- द्विघात माध्य <अवधि शैली = फ़ॉन्ट-वजन
- सामान्य; >(अक्सर मूल माध्य वर्ग के रूप में जाना जाता है): इंजीनियरिंग में उपयोगी, लेकिन अक्सर आंकड़ों में उपयोग नहीं किया जाता। ऐसा इसलिए है क्योंकि जब वितरण में ऋणात्मक मान शामिल होते हैं तो यह वितरण के केंद्र का एक अच्छा संकेतक नहीं होता है।
- सरल गहराई
- संभावना है कि दिए गए वितरण से कोने के साथ यादृच्छिक रूप से चुने गए संकेतन में दिए गए केंद्र शामिल होंगे
- Tukey माध्यिका
- संपत्ति के साथ एक बिंदु जिसमें प्रत्येक आधा स्थान होता है जिसमें कई नमूना बिंदु भी होते हैं
परिवर्तनशील समस्याओं का समाधान
केंद्रीय प्रवृत्ति के कई उपायों को भिन्नात्मक समस्या को हल करने के रूप में वर्णित किया जा सकता है, विविधताओं की कलन के अर्थ में, अर्थात् केंद्र से भिन्नता को कम करना। अर्थात्, सांख्यिकीय फैलाव का एक उपाय दिया गया है, एक केंद्रीय प्रवृत्ति का एक उपाय मांगता है जो भिन्नता को कम करता है: जैसे केंद्र के सभी विकल्पों में केंद्र से भिन्नता न्यूनतम है। एक चुटकी में, फैलाव स्थान से पहले होता है। इन उपायों को प्रारंभ में एक आयाम में परिभाषित किया गया है, लेकिन इन्हें कई आयामों में सामान्यीकृत किया जा सकता है। यह केंद्र अद्वितीय हो भी सकता है और नहीं भी। एलपी स्पेस के अर्थ में |Lp रिक्त स्थान, पत्राचार है:
Lp | dispersion | central tendency |
---|---|---|
L0 | variation ratio | mode[lower-alpha 1] |
L1 | average absolute deviation | median (geometric median)[lower-alpha 2] |
L2 | standard deviation | mean (centroid)[lower-alpha 3] |
L∞ | maximum deviation | midrange[lower-alpha 4] |
संबंधित कार्यों को पी-नॉर्म कहा जाता हैp-नॉर्म्स: क्रमशः 0-नॉर्म, 1-नॉर्म, 2-नॉर्म, और ∞-नॉर्म। के अनुरूप समारोह L0 स्थान एक मानक नहीं है, और इस प्रकार इसे अक्सर उद्धरणों में संदर्भित किया जाता है: 0-मानदंड।
समीकरणों में, दिए गए (परिमित) डेटा सेट के लिए X, एक सदिश के रूप में माना जाता है x = (x1,…,xn), एक बिंदु के बारे में फैलाव c से दूरी है x निरंतर वेक्टर के लिए c = (c,…,c) में p-मानदंड (अंकों की संख्या से सामान्यीकृत n):
के लिए p = 0 और p = ∞ इन कार्यों को क्रमशः सीमाएं लेकर परिभाषित किया गया है p → 0 और p → ∞. के लिए p = 0 सीमित मान हैं 00 = 0 और a0 = 0 या a ≠ 0, इसलिए अंतर केवल समानता बन जाता है, इसलिए 0-मानक असमान बिंदुओं की संख्या को गिनता है। के लिए p = ∞ सबसे बड़ी संख्या हावी है, और इस प्रकार ∞-मानदंड अधिकतम अंतर है।
विशिष्टता
औसत (एल2 केंद्र) और मिडरेंज (L∞ केंद्र) अद्वितीय होते हैं (जब वे मौजूद होते हैं), जबकि माध्यिका (L1 केंद्र) और मोड (L0 केंद्र) सामान्य रूप से अद्वितीय नहीं हैं। इसे संबंधित कार्यों (उत्पीड़न कार्यों) के उत्तल कार्य के संदर्भ में समझा जा सकता है।
2-मानदंड और ∞-मानदंड कड़ाई से उत्तल कार्य हैं, और इस प्रकार (उत्तल अनुकूलन द्वारा) मिनिमाइज़र अद्वितीय है (यदि यह मौजूद है), और बंधे हुए वितरण के लिए मौजूद है। इस प्रकार माध्य के बारे में मानक विचलन किसी अन्य बिंदु के बारे में मानक विचलन से कम है, और मध्य श्रेणी के बारे में अधिकतम विचलन किसी अन्य बिंदु के अधिकतम विचलन से कम है।
1-मानदंड सख्ती से उत्तल नहीं है, जबकि मिनिमाइज़र की विशिष्टता सुनिश्चित करने के लिए सख्त उत्तलता की आवश्यकता है। इसके विपरीत, औसत (न्यूनतम करने के इस अर्थ में) सामान्य रूप से अद्वितीय नहीं है, और वास्तव में असतत वितरण के दो केंद्रीय बिंदुओं के बीच कोई भी बिंदु औसत पूर्ण विचलन को कम करता है।
0- मानदंड उत्तल नहीं है (इसलिए आदर्श नहीं है)। तदनुसार, बहुलक अद्वितीय नहीं है - उदाहरण के लिए, एक समान वितरण में कोई भी बिंदु बहुलक होता है।
क्लस्टरिंग
एक केंद्रीय बिंदु के बजाय, कई बिंदुओं के लिए कहा जा सकता है ताकि इन बिंदुओं से भिन्नता कम से कम हो। यह क्लस्टर विश्लेषण की ओर जाता है, जहां डेटा सेट में प्रत्येक बिंदु को निकटतम केंद्र के साथ क्लस्टर किया जाता है। आमतौर पर, 2-मानदंड का उपयोग k-means क्लस्टरिंग | k-means क्लस्टरिंग के माध्य को सामान्यीकृत करता है, जबकि 1-मानदंड का उपयोग करते हुए (ज्यामितीय) मध्यिका को k-मध्यिका क्लस्टरिंग | k-मध्यिका क्लस्टरिंग के लिए सामान्यीकृत करता है। 0-मानदंड का उपयोग केंद्र के रूप में k सबसे सामान्य मानों का उपयोग करने के लिए मोड (सबसे सामान्य मान) को सामान्य करता है।
एकल-केंद्र आँकड़ों के विपरीत, यह बहु-केंद्र क्लस्टरिंग सामान्य रूप से एक बंद-रूप अभिव्यक्ति में गणना नहीं की जा सकती है, और इसके बजाय पुनरावृत्त विधि द्वारा गणना या अनुमान लगाया जाना चाहिए; एक सामान्य दृष्टिकोण अपेक्षा-अधिकतमकरण एल्गोरिदम है।
सूचना ज्यामिति
न्यूनतम भिन्नता के रूप में एक केंद्र की धारणा को सूचना ज्यामिति में एक वितरण के रूप में सामान्यीकृत किया जा सकता है जो डेटा सेट से विचलन (सांख्यिकी) (एक सामान्यीकृत दूरी) को कम करता है। सबसे आम मामला अधिकतम संभावना अनुमान है, जहां अधिकतम संभावना अनुमान (एमएलई) संभावना को अधिकतम करता है (अपेक्षित आश्चर्य को कम करता है), जिसे भिन्नता को मापने के लिए एंट्रॉपी (सांख्यिकी) का उपयोग करके ज्यामितीय रूप से व्याख्या की जा सकती है: एमएलई क्रॉस एन्ट्रापी को कम करता है (समतुल्य, सापेक्ष एन्ट्रॉपी) , कुल्बैक-लीब्लर विचलन)।
इसका एक सरल उदाहरण नाममात्र डेटा के केंद्र के लिए है: मोड (केवल एकल-मूल्यवान केंद्र) का उपयोग करने के बजाय, एक केंद्र के रूप में अक्सर अनुभवजन्य माप (नमूना आकार से विभाजित आवृत्ति वितरण) का उपयोग करता है। उदाहरण के लिए, दिए गए बाइनरी डेटा, जैसे कि हेड या टेल, यदि डेटा सेट में 2 हेड और 1 टेल होते हैं, तो मोड हेड है, लेकिन अनुभवजन्य माप 2/3 हेड, 1/3 टेल है, जो क्रॉस-को कम करता है- डेटा सेट से एंट्रॉपी (कुल आश्चर्य)। इस परिप्रेक्ष्य का उपयोग प्रतिगमन विश्लेषण में भी किया जाता है, जहां कम से कम वर्ग उस समाधान को ढूंढता है जो इससे दूरी को कम करता है, और समान रूप से रसद प्रतिगमन में, अधिकतम संभावना अनुमान आश्चर्य (सूचना दूरी) को कम करता है।
माध्य, माध्यिका और बहुलक के बीच संबंध
एकरूप वितरण के लिए निम्नलिखित सीमाएँ ज्ञात हैं और तीक्ष्ण हैं:[4]
जहां μ माध्य है, ν माध्यिका है, θ मोड है, और σ मानक विचलन है।
यह भी देखें
टिप्पणियाँ
- ↑ Unlike the other measures, the mode does not require any geometry on the set, and thus applies equally in one dimension, multiple dimensions, or even for categorical variables.
- ↑ The median is only defined in one dimension; the geometric median is a multidimensional generalization.
- ↑ The mean can be defined identically for vectors in multiple dimensions as for scalars in one dimension; the multidimensional form is often called the centroid.
- ↑ In multiple dimensions, the midrange can be define coordinate-wise (take the midrange of each coordinate), though this is not common.
संदर्भ
- ↑ Weisberg H.F (1992) Central Tendency and Variability, Sage University Paper Series on Quantitative Applications in the Social Sciences, ISBN 0-8039-4007-6 p.2
- ↑ 2.0 2.1 Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP ISBN 978-0-19-954145-4 (entry for "central tendency")
- ↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP for International Statistical Institute. ISBN 0-19-920613-9 (entry for "central tendency")
- ↑ Johnson NL, Rogers CA (1951) "The moment problem for unimodal distributions". Annals of Mathematical Statistics, 22 (3) 433–439
- ↑ Hotelling H, Solomons LM (1932) The limits of a measure of skewness. Annals Math Stat 3, 141–114
- ↑ Garver (1932) Concerning the limits of a mesuare of skewness. Ann Math Stats 3(4) 141–142