क्रम सांख्यिकीय
सांख्यिकी में, एक सांख्यिकीय नमूने का kth 'क्रम सांख्यिकीय' उसके kth-सबसे छोटे मान के बराबर होता है।[1] श्रेणी के साथ, क्रम सांख्यिकी अप्राचलिक सांख्यिकी और अप्राचलिक अनुमान में सबसे बुनियादी उपकरणों में से एक हैं।
क्रम सांख्यिकी के महत्वपूर्ण विशेष स्थितियोंे एक नमूने के न्यूनतम और अधिकतम मान हैं, और (नीचे चर्चा की गई कुछ योग्यताओं के साथ) नमूना माध्यिका और अन्य मात्राएँ हैं।
सतत संभाव्यता वितरण से यादृच्छिक नमूनों के क्रम सांख्यिकी का विश्लेषण करने के लिए संभाव्यता सिद्धांत का उपयोग करते समय, संचयी वितरण फलन का उपयोग समान वितरण (निरंतर) के क्रम सांख्यिकी के स्थितियोंे में विश्लेषण को कम करने के लिए किया जाता है।
संकेतन और उदाहरण
उदाहरण के लिए, मान लीजिए कि चार संख्याएँ देखी या दर्ज की गईं, जिसके परिणामस्वरूप आकार 4 का एक नमूना प्राप्त हुआ, यदि नमूना मान हैं
- 6, 9, 3, 8,
क्रम सांख्यिकी दर्शाए जाएंगे
जहां अधोलेख (i) कोष्ठकों में संलग्न इंगित करता है iनमूने का वां क्रम सांख्यिकीय है।
प्रथम क्रम सांख्यिकीय (या सबसे छोटा क्रम सांख्यिकीय) हमेशा नमूने का न्यूनतम होता है, अर्थात,
जहां, एक सामान्य परंपरा का पालन करते हुए, हम यादृच्छिक चर को संदर्भित करने के लिए बड़े अक्षरों का उपयोग करते हैं, और उनके वास्तविक देखे गए मानों को संदर्भित करने के लिए लघु अक्षरों (जैसा कि ऊपर) का उपयोग करते हैं।
इसी प्रकार, आकार के नमूने के लिए n, और nवें क्रम का सांख्यिकी (या सबसे बड़े क्रम का सांख्यिकी) अधिकतम है, अर्थात,
नमूना सीमा अधिकतम और न्यूनतम के बीच का अंतर है। यह क्रम सांख्यिकी का एक कार्य है:
अन्वेषी आँकड़ा विश्लेषण में एक समान महत्वपूर्ण सांख्यिकी जो कि केवल क्रम सांख्यिकी से संबंधित है, नमूना अन्तःचतुर्थक श्रेणी है।
नमूना माध्यिका एक क्रम सांख्यिकी हो भी सकता है और नहीं भी, क्योंकि संख्या होने पर केवल एक ही मध्य मान होता है n प्रेक्षणों की संख्या सम और विषम संख्या है। अधिक सटीक रूप से, यदि n = 2m+1 कुछ पूर्णांक के लिए m, तो नमूना माध्यिका है और ऐसा ही एक क्रम सांख्यिकी है। दूसरी ओर, जब n सम और विषम संख्या है, n = 2m और दो मध्य मान हैं, और , और नमूना माध्यिका दोनों का कुछ कार्य है (सामान्यत: औसत) और इसलिए कोई क्रम सांख्यिकी नहीं है। समान टिप्पणियाँ सभी नमूना मात्राओं पर लागू होती हैं।
प्रायिकतात्मक विश्लेषण
किसी यादृच्छिक चर को देखते हुए X1, X2..., Xn, क्रम सांख्यिकी X(1), X(2), ..., X(n) ये यादृच्छिक चर भी हैं, जिन्हें X1, ..., Xn के मानों (प्राप्ति (संभावना)) को क्रमबद्ध करके परिभाषित किया गया है बढ़ते क्रम में।
जब यादृच्छिक चर X1, X2..., Xn एक नमूना (सांख्यिकी) बनाएं, वे स्वतंत्र और समान रूप से वितरित हैं। इस स्थितियोंे का इलाज नीचे किया गया है। सामान्य तौर पर, यादृच्छिक चर X1, ..., Xn एक से अधिक जनसंख्या से नमूना लेने से उत्पन्न हो सकता है। फिर वे स्वतंत्र (सांख्यिकी) हैं, लेकिन आवश्यक रूप से समान रूप से वितरित नहीं हैं, और उनका संयुक्त संभाव्यता वितरण बापट-बेग प्रमेय द्वारा दिया गया है।
अब से, हम मान लेंगे कि विचाराधीन यादृच्छिक चर निरंतर संभाव्यता वितरण हैं और, जहां सुविधाजनक हो, हम यह भी मान लेंगे कि उनके पास संभाव्यता घनत्व फलन (पीडीएफ) है, अर्थात, वे पूर्ण निरंतरता हैं। बिंदुओं को द्रव्यमान निर्दिष्ट करने वाले वितरणों के विश्लेषण की विशिष्टताओं (विशेष रूप से, असतत वितरण) पर अंत में चर्चा की गई है।
क्रम सांख्यिकी का संचयी वितरण फलन
ऊपर बताए अनुसार यादृच्छिक नमूने के लिए, संचयी वितरण के साथ , उस नमूने के क्रम सांख्यिकी का संचयी वितरण निम्नानुसार है[2] (जहाँ r निर्दिष्ट करता है कि कौन सा क्रम सांख्यिकीय है):
संबंधित संभाव्यता घनत्व फलन इस परिणाम से प्राप्त किया जा सकता है, और पाया जाता है
इसके अतिरिक्त, दो विशेष स्थितियोंे हैं, जिनमें सीडीएफ हैं जिनकी गणना करना आसान है।
जिसे संभावनाओं पर सावधानीपूर्वक विचार करके निकाला जा सकता है।
क्रम सांख्यिकी की संभाव्यता वितरण
एक समान वितरण से नमूना किए गए क्रम सांख्यिकी
इस खंड में हम दिखाते हैं कि इकाई अंतराल पर समान वितरण (निरंतर) के क्रम सांख्यिकी में बीटा वितरण वर्ग से संबंधित सीमांत वितरण होते हैं। हम किसी भी संख्या के क्रम सांख्यिकी के संयुक्त वितरण को प्राप्त करने के लिए एक सरल विधि भी देते हैं, और अंत में संचयी वितरण फलन का उपयोग करके इन परिणामों को मनमाने ढंग से निरंतर वितरण में अनुवादित करते हैं।
हम इस पूरे खंड में यही मानते हैं सीडीएफ के साथ निरंतर वितरण से लिया गया एक यादृच्छिक नमूना है . दर्शाने हम संगत यादृच्छिक नमूना प्राप्त करते हैं मानक समान वितरण (निरंतर) से, ध्यान दें कि क्रम सांख्यिकी भी संतुष्ट करते हैं .
क्रम सांख्यिकी की संभाव्यता घनत्व फलन के बराबर है[3]
अर्थात्, समान वितरण का kth क्रम सांख्यिकीय एक बीटा-वितरित यादृच्छिक चर है।[3][4]
इन कथनों का प्रमाण इस प्रकार है। के लिए uऔर u + du के बीच होने के लिए, यह आवश्यक है कि नमूने के बिल्कुल k - 1 तत्व u से छोटे हों, और कम से कम एक u और u + du के बीच हो। इस बाद वाले अंतराल में एक से अधिक होने की संभावना पहले से ही है , इसलिए हमें इस संभावना की गणना करनी होगी कि बिल्कुल k − 1, 1 और n − k अवलोकन अंतराल में आते हैं , और क्रमश: यह बराबर है (विवरण के लिए बहुपद वितरण देखें)
और परिणाम इस प्रकार है.
इस वितरण का माध्य k/(n + 1) है।
समान वितरण के क्रम सांख्यिकी का संयुक्त वितरण
इसी प्रकार, i <j के लिए, दो क्रम सांख्यिकीय का संयुक्त संभाव्यता वितरण U(i)<U(j) होना दिखाया जा सकता है
जो (से उच्च क्रम की शर्तों तक) है ) संभावना है कि i − 1, 1, j − 1 − i, 1 और n − j नमूना तत्व अंतराल में आते हैं , , , , क्रमश:
उच्च-क्रम संयुक्त वितरण प्राप्त करने के लिए पूरी तरह से समान तरीके से एक कारण है। शायद आश्चर्यजनक रूप से, n क्रम सांख्यिकी का संयुक्त घनत्व स्थिर हो जाता है:
इसे समझने का एक तरीका यह है कि अव्यवस्थित नमूने का स्थिर घनत्व 1 के बराबर होता है, और n! होते हैं क्रम सांख्यिकी के समान अनुक्रम के अनुरूप नमूने के विभिन्न क्रमपरिवर्तन यह इस तथ्य से संबंधित है कि 1/n! क्षेत्र का आयतन है . यह एकसमान यादृच्छिक चर के क्रम सांख्यिकी की एक और विशिष्टता से भी संबंधित है: यह बीआरएस-असमानता से इस प्रकार है कि एकसमान U(0,1] यादृच्छिक चर की अधिकतम अपेक्षित संख्या को एक योग के साथ आकार n के नमूने से चुना जा सकता है जो निम्न से अधिक नहीं है से ऊपर घिरा हुआ है , जो इस प्रकार सभी के समुच्चय पर अपरिवर्तनीय है निरंतर उत्पाद के साथ .
उपरोक्त सूत्रों का उपयोग करके, कोई क्रम सांख्यिकी की सीमा का वितरण प्राप्त कर सकता है, अर्थात वितरण , अर्थात अधिकतम शून्य से न्यूनतम। अधिक सामान्यतः, के लिए , बीटा वितरण भी है:
घातीय वितरण से नमूना किए गए क्रम सांख्यिकी
के लिए मापदंड λ, क्रम सांख्यिकी X(i) के साथ एक घातीय वितरण से आकार n का एक यादृच्छिक नमूना i = 1,2,3, ..., n के लिए प्रत्येक का वितरण है
जहां Zj आईआईडी मानक घातीय यादृच्छिक चर हैं (अर्थात दर मापदंड 1 के साथ)। यह परिणाम सबसे पहले अल्फ्रेड रेनी द्वारा प्रकाशित किया गया था।[5][6]
क्रम सांख्यिकी एर्लांग वितरण से नमूना लिए गए हैं
क्रम सांख्यिकी के लाप्लास परिवर्तन को पथ गणना पद्धति के माध्यम से एरलांग वितरण से नमूना किया जा सकता है।[clarification needed].[7]
बिल्कुल सतत वितरण के क्रम सांख्यिकी का संयुक्त वितरण
यदि FX पूर्ण सातत्य है, इसका घनत्व ऐसा है , और हम प्रतिस्थापनों का उपयोग कर सकते हैं
और
X के वितरण से लिए गए आकार n के नमूने के क्रम सांख्यिकी के लिए निम्नलिखित संभाव्यता घनत्व फलन प्राप्त करने के लिए:
- कहाँ
- कहाँ
अनुप्रयोग: मात्राओं के लिए विश्वास अंतराल
एक दिलचस्प सवाल यह है कि अंतर्निहित वितरण की मात्राओं के अनुमानक के रूप में क्रम सांख्यिकी कितना अच्छा प्रदर्शन करते हैं।
एक छोटे-नमूने-आकार का उदाहरण
विचार करने का सबसे सरल स्थितियोंा यह है कि नमूना माध्यिका जनसंख्या माध्यिका का कितनी अच्छी तरह अनुमान लगाती है।
उदाहरण के तौर पर, आकार 6 के एक यादृच्छिक नमूने पर विचार करें, उस स्थिति में, नमूना माध्यिका को सामान्यत: तीसरे और चौथे क्रम के सांख्यिकी द्वारा सीमांकित अंतराल के मध्य बिंदु के रूप में परिभाषित किया जाता है। चूंकि, हम पिछली चर्चा से जानते हैं कि इस अंतराल में वास्तव में जनसंख्या माध्यिका सम्मलित होने की संभावना है
चूंकि नमूना माध्यिका संभवतः जनसंख्या माध्यिका के सबसे अच्छे वितरण-स्वतंत्र बिंदु अनुमानों में से एक है, यह उदाहरण जो दर्शाता है वह यह है कि यह निरपेक्ष रूप से विशेष रूप से अच्छा नहीं है। इस विशेष स्थितियोंे में, माध्यिका के लिए एक बेहतर आत्मविश्वास अंतराल दूसरे और 5वें क्रम के सांख्यिकी द्वारा सीमांकित है, जिसमें संभाव्यता के साथ जनसंख्या माध्यिका सम्मलित है
इतने छोटे नमूने के आकार के साथ, यदि कोई कम से कम 95% विश्वास चाहता है, तो उसे केवल यह कहना होगा कि माध्य 31/32 या लगभग 97% संभावना के साथ 6 अवलोकनों में से न्यूनतम और अधिकतम के बीच है। आकार 6, वास्तव में, सबसे छोटा नमूना आकार है, जैसे कि न्यूनतम और अधिकतम द्वारा निर्धारित अंतराल जनसंख्या माध्यिका के लिए कम से कम 95% विश्वास अंतराल है।
बड़े नमूना आकार
समान वितरण के लिए, चूँकि n अनंत की ओर प्रवृत्त होता है, pth नमूना मात्रा असम्बद्ध रूप से सामान्य वितरण है, क्योंकि यह अनुमानित है
F पर निरंतर गैर-शून्य घनत्व वाले सामान्य वितरण F−1 के लिए (p), एक समान स्पर्शोन्मुख सामान्यता लागू होती है:
जहां f घनत्व फलन है, और F−1 F से जुड़ा मात्रात्मक कार्य है। इस परिणाम का उल्लेख करने और सिद्ध करने वाले पहले लोगों में से एक 1946 में अपने मौलिक पेपर में फ्रेडरिक मोस्टेलर थे।[8] 1960 के दशक में आगे के शोध से रघु राज बहादुर का प्रतिनिधित्व प्राप्त हुआ जो त्रुटियों के बारे में जानकारी प्रदान करता है।
उस स्थितियोंे में एक दिलचस्प अवलोकन किया जा सकता है जहां वितरण सममित है, और जनसंख्या माध्य जनसंख्या माध्य के बराबर है। इस स्थितियोंे में, केंद्रीय सीमा प्रमेय द्वारा नमूना माध्य भी सामान्य रूप से असमान रूप से वितरित किया जाता है, लेकिन विचरण के साथ σइसके अतरिक्त 2/n. यह स्पर्शोन्मुख विश्लेषण बताता है कि कम कुकुदता के स्थितियोंों में माध्य माध्यिका से बेहतर प्रदर्शन करता है, और इसके विपरीत है। उदाहरण के लिए, माध्य लाप्लास वितरण के लिए बेहतर आत्मविश्वास अंतराल प्राप्त करता है, जबकि माध्य X के लिए बेहतर प्रदर्शन करता है जो सामान्य रूप से वितरित होते हैं।
प्रमाण
ऐसा दिखाया जा सकता है
जहाँ
Zi के साथ दर 1 के साथ स्वतंत्र रूप से समान रूप से वितरित घातीय वितरण यादृच्छिक चर होने के नाते है। चूंकि X/n और Y/n को सीएलटी द्वारा सामान्य रूप से वितरित किया जाता है, इसलिए हमारे परिणाम डेल्टा विधि के अनुप्रयोग द्वारा अनुसरण किए जाते हैं।
अनुप्रयोग: अप्राचलिक घनत्व अनुमान
पहले क्रम के सांख्यिकी के वितरण के क्षणों का उपयोग अप्राचलिक घनत्व अनुमानक विकसित करने के लिए किया जा सकता है।[9] मान लीजिए, हम घनत्व का अनुमान लगाना चाहते हैं बिंदु पर . यादृच्छिक चर पर विचार करें , जो वितरण फलन के साथ आई.आई.डी. हैं . विशेष रूप से, .
प्रथम क्रम सांख्यिकी का अपेक्षित मान का एक नमूना दिया कुल अवलोकन पैदावार,
जहाँ वितरण से जुड़ा मात्रात्मक कार्य है , और . जैकनाइफ पुनः नमूनाकरण तकनीक के साथ संयोजन में यह समीकरण निम्नलिखित घनत्व अनुमान कलनविधि का आधार बन जाता है,
निविष्ट: का एक नमूना अवलोकन. घनत्व मानांकन के बिंदु. संस्वरण मापदंड (सामान्यत: 1/3). निर्गम: मानांकन के बिंदुओं पर अनुमानित घनत्व।
1 समुच्चय
2: समुच्चय
3: एक बनाएं आव्यूह जो धारण करता है उपसमुच्चय के साथ प्रत्येक का अवलोकन।
4: एक सदिश बनाएं घनत्व मानांकन आयोजित करने के लिए। 5: के लिए 6: के लिए 7: निकटतम दूरी ज्ञात करें वर्तमान बिंदु तक के अंदर वें उपसमुच्चय 8: अंत के लिए 9: दूरियों के उपसमुच्चय औसत की गणना करें
10: घनत्व अनुमान की गणना करें
11: समाप्त करने के लिए
12: वापसी
हिस्टोग्राम और कर्नेल घनत्व अनुमान आधारित दृष्टिकोण के लिए बैंडविड्थ/लंबाई आधारित संस्वरण मापदंड के विपरीत, क्रम सांख्यिकी आधारित घनत्व अनुमानक के लिए संस्वरण मापदंड नमूना उपसमुच्चय का आकार है। ऐसा अनुमानक हिस्टोग्राम और कर्नेल आधारित दृष्टिकोणों की तुलना में अधिक मजबूत है, उदाहरण के लिए कॉची वितरण (जिसमें सीमित क्षणों की कमी होती है) जैसे घनत्व का अनुमान फ्रीडमैन-डीकन नियम जैसे विशेष संशोधनों की आवश्यकता के बिना लगाया जा सकता है। ऐसा इसलिए है क्योंकि अंतर्निहित वितरण का अपेक्षित मान होने पर क्रम सांख्यिकी का पहला क्षण हमेशा सम्मलित रहता है, लेकिन इसका विपरीत आवश्यक रूप से सत्य नहीं होता है।[10]
असतत चर से निपटना
कल्पना करें क्या आई.आई.डी. संचयी वितरण फलन के साथ असतत वितरण से यादृच्छिक चर और संभाव्यता द्रव्यमान फलन . की सम्भावनाएँ ज्ञात करना क्रम सांख्यिकी, तीन मानों की सबसे पहले आवश्यकता होती है, अर्थात्
का संचयी वितरण कार्य क्रम सांख्यिकी की गणना उसे नोट करके की जा सकती है
इसी प्रकार, द्वारा दिया गया है
ध्यान दें कि संभाव्यता द्रव्यमान फलन कहने का तात्पर्य यह है कि इन मानों का ही अंतर है
अभिकलन क्रम सांख्यिकी
किसी सूची के सबसे छोटे (या सबसे बड़े) तत्व की गणना करने की समस्या को चयन समस्या कहा जाता है और इसे चयन कलनविधि द्वारा हल किया जाता है। चूंकि यह समस्या बहुत बड़ी सूचियों के लिए कठिन है, परिष्कृत चयन कलनविधि बनाए गए हैं जो सूची में तत्वों की संख्या के अनुपात में समय में इस समस्या को हल कर सकते हैं, भले ही सूची पूरी तरह से अव्यवस्थित हो। यदि आँकड़े को कुछ विशेष आँकड़ा संरचनाओं में संग्रहीत किया जाता है, तो इस समय को O (लॉग एन) तक कम किया जा सकता है। कई अनुप्रयोगों में सभी क्रम सांख्यिकी की आवश्यकता होती है, ऐसी स्थिति में एक सॉर्टिंग कलनविधि का उपयोग किया जा सकता है और लिया गया समय O(n log n) है।
यह भी देखें
- रंकिट
- रेखा - चित्र
- बीआरएस-असमानता
- सहवर्ती (सांख्यिकी)
- फिशर-टिपेट वितरण
- स्वतंत्र लेकिन जरूरी नहीं कि समान रूप से वितरित यादृच्छिक चर के क्रम सांख्यिकी के लिए बापट-बेग प्रमेय
- बर्नस्टीन बहुपद
- एल-आकलनकर्ता - क्रम सांख्यिकी का रैखिक संयोजन
- रैंक-आकार वितरण
- चयन कलनविधि
क्रम सांख्यिकी के उदाहरण
- अधिकतम और न्यूनतम नमूना
- चतुर्थांश
- प्रतिशतक
- वर्णनात्मक सांख्यिकी
- चतुर्थक
- माध्यिका
संदर्भ
- ↑ David, H. A.; Nagaraja, H. N. (2003). आदेश सांख्यिकी. Wiley Series in Probability and Statistics. doi:10.1002/0471722162. ISBN 9780471722168.
- ↑ Casella, George; Berger, Roger (2002). Statistical Inference (2nd ed.). Cengage Learning. p. 229. ISBN 9788131503942.
- ↑ 3.0 3.1 Gentle, James E. (2009), Computational Statistics, Springer, p. 63, ISBN 9780387981444.
- ↑ Jones, M. C. (2009), "Kumaraswamy's distribution: A beta-type distribution with some tractability advantages", Statistical Methodology, 6 (1): 70–81, doi:10.1016/j.stamet.2008.04.001,
As is well known, the beta distribution is the distribution of the m 'th order statistic from a random sample of size n from the uniform distribution (on (0,1)).
- ↑ David, H. A.; Nagaraja, H. N. (2003), "Chapter 2. Basic Distribution Theory", Order Statistics, Wiley Series in Probability and Statistics, p. 9, doi:10.1002/0471722162.ch2, ISBN 9780471722168
- ↑ Rényi, Alfréd (1953). "On the theory of order statistics". Acta Mathematica Hungarica. 4 (3): 191–231. doi:10.1007/BF02127580.
- ↑ Hlynka, M.; Brill, P. H.; Horn, W. (2010). "एर्लांग यादृच्छिक चर के क्रम आँकड़ों के लाप्लास परिवर्तन प्राप्त करने की एक विधि". Statistics & Probability Letters. 80: 9–18. doi:10.1016/j.spl.2009.09.006.
- ↑ Mosteller, Frederick (1946). "कुछ उपयोगी "अकुशल" आँकड़ों पर". Annals of Mathematical Statistics. 17 (4): 377–408. doi:10.1214/aoms/1177730881. Retrieved February 26, 2015.
- ↑ Garg, Vikram V.; Tenorio, Luis; Willcox, Karen (2017). "न्यूनतम स्थानीय दूरी घनत्व अनुमान". Communications in Statistics - Theory and Methods. 46 (1): 148–164. arXiv:1412.2851. doi:10.1080/03610926.2014.988260. S2CID 14334678.
- ↑ David, H. A.; Nagaraja, H. N. (2003), "Chapter 3. Expected Values and Moments", Order Statistics, Wiley Series in Probability and Statistics, p. 34, doi:10.1002/0471722162.ch3, ISBN 9780471722168
बाहरी संबंध
- Order statistics at PlanetMath. Retrieved Feb 02,2005
- Weisstein, Eric W. "Order Statistic". MathWorld. Retrieved Feb 02,2005
- C++ source Dynamic Order Statistics