पुनः प्रतिचयन (सांख्यिकी)
आँकड़ों में, एक देखे गए नमूने के आधार पर नए नमूनों का निर्माण पुनर्नमूनाकरण है। पुनर्नमूनाकरण विधियाँ हैं:
- क्रमचय परीक्षण (फिर से यादृच्छिक परीक्षण भी)
- बूटस्ट्रैपिंग (सांख्यिकी)
- क्रॉस-सत्यापन (आँकड़े)
क्रमचय परीक्षण
क्रमचय परीक्षण शून्य परिकल्पना को मानकर मूल डेटा के पुनः प्रतिचयन पर निर्भर करते हैं। पुनर्नमूना डेटा के आधार पर यह निष्कर्ष निकाला जा सकता है कि शून्य परिकल्पना के तहत मूल डेटा के होने की कितनी संभावना है।
बूटस्ट्रैप
मूल नमूने से प्रतिस्थापन के साथ नमूनाकरण (सांख्यिकी) द्वारा अनुमानक के नमूनाकरण वितरण का अनुमान लगाने के लिए बूटस्ट्रैपिंग एक सांख्यिकीय पद्धति है, जिसका उद्देश्य मानक त्रुटियों के मजबूत अनुमानों और जनसंख्या पैरामीटर के विश्वास अंतराल जैसे माध्य, माध्य, आनुपातिकता (गणित), अंतर अनुपात, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक या प्रतिगमन विश्लेषण गुणांक। इसे प्लग-इन सिद्धांत कहा गया है,[1] क्योंकि यह एक नमूने के आधार पर अनुभवजन्य वितरण समारोह में समान कार्यात्मकताओं का मूल्यांकन करके जनसंख्या वितरण के कार्यात्मकताओं के अनुमान सांख्यिकी की विधि है।
उदाहरण के लिए,[1]जनसंख्या सांख्यिकी माध्य का आकलन करते समय, यह विधि नमूना (सांख्यिकी) माध्य का उपयोग करती है; जनसंख्या माध्यिका (सांख्यिकी) का अनुमान लगाने के लिए, यह नमूना माध्यिका का उपयोग करता है; जनसंख्या प्रतिगमन रेखा का अनुमान लगाने के लिए, यह नमूना प्रतिगमन रेखा का उपयोग करता है।
इसका उपयोग परिकल्पना परीक्षणों के निर्माण के लिए भी किया जा सकता है। यह अक्सर पैरामीट्रिक मान्यताओं के आधार पर अनुमान के एक मजबूत विकल्प के रूप में उपयोग किया जाता है, जब उन मान्यताओं पर संदेह होता है, या जहां पैरामीट्रिक अनुमान असंभव है या मानक त्रुटियों की गणना के लिए बहुत जटिल सूत्रों की आवश्यकता होती है। बूटस्ट्रैपिंग तकनीकों का उपयोग कण फिल्टर, जेनेटिक एल्गोरिद्म और कम्प्यूटेशनल भौतिकी में उपयोग किए जाने वाले मोंटे कार्लो विधियों के अद्यतन-चयन संक्रमण में भी किया जाता है।[2][3] इस संदर्भ में, बूटस्ट्रैप का उपयोग क्रमिक रूप से अनुभवजन्य भारित संभाव्यता उपायों को अनुभवजन्य उपायों से बदलने के लिए किया जाता है। बूटस्ट्रैप उच्च भार वाले नमूनों की प्रतियों द्वारा कम वजन वाले नमूनों को बदलने की अनुमति देता है।
क्रॉस-सत्यापन
क्रॉस-सत्यापन भविष्य कहनेवाला मॉडलिंग को मान्य करने के लिए एक सांख्यिकीय पद्धति है। डेटा के सबसेट को सत्यापन सेट के रूप में उपयोग के लिए रखा जाता है; एक मॉडल शेष डेटा (एक प्रशिक्षण सेट) के लिए फिट है और सत्यापन सेट के लिए भविष्यवाणी करने के लिए उपयोग किया जाता है। सत्यापन सेटों में भविष्यवाणियों की गुणवत्ता का औसत भविष्यवाणी सटीकता का एक समग्र माप देता है। निर्णय पेड़ों के निर्माण में बार-बार क्रॉस-वैलिडेशन का उपयोग किया जाता है।
क्रॉस-सत्यापन का एक रूप एक समय में एक ही अवलोकन छोड़ देता है; यह जैकनाइफ रीसैंपलिंग के समान है। एक और, के-गुना क्रॉस-वैलिडेशन, डेटा को के सबसेट में विभाजित करता है; सत्यापन सेट के रूप में प्रत्येक को बारी-बारी से आयोजित किया जाता है।
यह आत्म-प्रभाव से बचाता है। तुलना के लिए, प्रतिगमन विश्लेषण विधियों जैसे रैखिक प्रतिगमन में, प्रत्येक y मान प्रतिगमन रेखा को अपनी ओर खींचता है, जिससे उस मूल्य की भविष्यवाणी वास्तव में उससे अधिक सटीक दिखाई देती है। रेखीय प्रतिगमन पर लागू क्रॉस-सत्यापन उस अवलोकन का उपयोग किए बिना प्रत्येक अवलोकन के लिए y मान की भविष्यवाणी करता है।
यह अक्सर यह तय करने के लिए उपयोग किया जाता है कि प्रतिगमन में कितने भविष्यवक्ता चर का उपयोग करना है। क्रॉस-वैलिडेशन के बिना, भविष्यवक्ताओं को जोड़ने से हमेशा वर्गों का अवशिष्ट योग कम हो जाता है (या संभवतः इसे अपरिवर्तित छोड़ देता है)। इसके विपरीत, यदि मूल्यवान भविष्यवक्ताओं को जोड़ा जाता है, तो क्रॉस-वैरिफाइड माध्य-स्क्वायर त्रुटि कम हो जाएगी, लेकिन यदि बेकार भविष्यवक्ताओं को जोड़ा जाता है तो वृद्धि होगी।[4]
मोंटे कार्लो क्रॉस-सत्यापन
एक अनुमानक के नमूनाकरण वितरण का अनुमान लगाने के लिए सबसैंपलिंग एक वैकल्पिक तरीका है। बूटस्ट्रैप में दो प्रमुख अंतर हैं:
- नमूना आकार नमूना आकार से छोटा है और
- पुनर्नमूना प्रतिस्थापन के बिना किया जाता है।
सबसैम्पलिंग का लाभ यह है कि यह बूटस्ट्रैप की तुलना में बहुत कमजोर परिस्थितियों में मान्य है। विशेष रूप से, पर्याप्त शर्तों का एक सेट यह है कि अनुमानक के अभिसरण की दर ज्ञात है और सीमित वितरण निरंतर है। इसके अलावा, प्रतिदर्श (या उप-नमूना) आकार को नमूना आकार के साथ-साथ अनंत तक जाना चाहिए, लेकिन एक छोटी दर पर, ताकि उनका अनुपात शून्य हो जाए। जबकि सबसैंपलिंग मूल रूप से केवल स्वतंत्र और समान रूप से वितरित (आईआईडी) डेटा के मामले में प्रस्तावित किया गया था, कार्यप्रणाली को समय श्रृंखला डेटा को भी कवर करने के लिए विस्तारित किया गया है; इस मामले में, एक व्यक्तिगत डेटा बिंदुओं के बजाय बाद के डेटा के ब्लॉक को दोहराता है। एप्लाइड इंटरेस्ट के कई मामले हैं जहां सबसैंपलिंग वैध अनुमान की ओर ले जाती है जबकि बूटस्ट्रैपिंग नहीं; उदाहरण के लिए, ऐसे मामलों में उदाहरण शामिल हैं जहां अनुमानक के अभिसरण की दर नमूना आकार का वर्गमूल नहीं है या जब सीमित वितरण गैर-सामान्य है। जब सबसैम्पलिंग और बूटस्ट्रैप दोनों संगत होते हैं, तो बूटस्ट्रैप आमतौर पर अधिक सटीक होता है। RANSAC सबसैम्पलिंग का उपयोग करने वाला एक लोकप्रिय एल्गोरिथम है।
जैकनाइफ क्रॉस-सत्यापन
जैकनाइफिंग (जैकनाइफ क्रॉस-वैलिडेशन), एक सांख्यिकीय के पूर्वाग्रह और मानक त्रुटि (विचरण) का अनुमान लगाने के लिए सांख्यिकीय अनुमान में उपयोग किया जाता है, जब इसकी गणना करने के लिए टिप्पणियों का एक यादृच्छिक नमूना उपयोग किया जाता है। ऐतिहासिक रूप से, यह विधि बूटस्ट्रैप के आविष्कार से पहले मौरिस क्वेनौली ने 1949 में इस पद्धति का आविष्कार किया था और जॉन टुकी ने 1958 में इसका विस्तार किया था।[5][6] इस पद्धति का पूर्वाभास प्रशांत चंद्र महालनोबिस ने किया था, जिन्होंने 1946 में यादृच्छिक रूप से चुने गए आधे नमूने के साथ ब्याज के आंकड़ों के बार-बार अनुमान लगाने का सुझाव दिया था।[7] उन्होंने इस पद्धति के लिए 'इंटरपेनेट्रेटिंग सैंपल' नाम गढ़ा।
नमूना अनुमान के पूर्वाग्रह को कम करने के इरादे से क्वेनौइल ने इस पद्धति का आविष्कार किया। टकी ने इस पद्धति को यह मानकर बढ़ाया कि यदि प्रतिकृति को समान रूप से और स्वतंत्र रूप से वितरित माना जा सकता है, तो नमूना पैरामीटर के विचरण का अनुमान लगाया जा सकता है और यह लगभग n−1 स्वतंत्रता की डिग्री (n) के साथ एक t भिन्न के रूप में वितरित किया जाएगा। नमूना आकार होना)।
जैकनाइफ विचरण अनुमानक के पीछे मूल विचार व्यवस्थित रूप से सांख्यिकीय अनुमानों की पुन: गणना करने में निहित है, नमूना सेट से एक समय में एक या अधिक अवलोकनों को छोड़कर। आँकड़ों की प्रतिकृति के इस नए सेट से, पूर्वाग्रह के लिए एक अनुमान और आँकड़ों के विचरण के लिए एक अनुमान की गणना की जा सकती है।
विचरण का अनुमान लगाने के लिए जैकनाइफ का उपयोग करने के बजाय, इसे प्रसरण के लॉग पर लागू किया जा सकता है। इस परिवर्तन के परिणामस्वरूप बेहतर अनुमान लग सकते हैं, खासकर जब भिन्नता का वितरण स्वयं सामान्य नहीं हो सकता है।
कई सांख्यिकीय मापदंडों के लिए विचरण का जैकनाइफ अनुमान असम्बद्ध रूप से सही मूल्य पर लगभग निश्चित रूप से जाता है। तकनीकी शब्दों में कहा जाता है कि कटहल का अनुमान लगातार अनुमानक है। जैकनाइफ नमूना साधनों, नमूना भिन्नता, केंद्रीय और गैर-केंद्रीय टी-सांख्यिकी (संभवतः गैर-सामान्य आबादी के साथ), भिन्नता का नमूना गुणांक, अधिकतम संभावना अनुमानक, कम से कम वर्ग अनुमानक, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक और प्रतिगमन के लिए संगत है। गुणांक।
यह नमूना माध्यिका के लिए संगत नहीं है। एक अनिमॉडल वैरिएट के मामले में नमूना प्रसरण के लिए जैकनाइफ विचरण का अनुपात दो डिग्री स्वतंत्रता के साथ एक ची वर्ग वितरण के आधे वर्ग के रूप में वितरित किया जाता है।
जैकनाइफ, मूल बूटस्ट्रैप की तरह, डेटा की स्वतंत्रता पर निर्भर है। डेटा में निर्भरता की अनुमति देने के लिए कटहल के विस्तार का प्रस्ताव किया गया है।
एक अन्य एक्सटेंशन है डिलीट-ए-ग्रुप विधि जिसका उपयोग जहर का नमूना के सहयोग से किया जाता है।
जैकनाइफ रैंडम (सबसैंपलिंग) लीव-वन-आउट क्रॉस-वैलिडेशन के बराबर है, यह केवल लक्ष्य में भिन्न है।[8]
बूटस्ट्रैप और जैकनाइफ की तुलना
दोनों विधियाँ, बूटस्ट्रैप और जैकनाइफ, पैरामीट्रिक मान्यताओं के बजाय उप-नमूने के बीच उस आँकड़े की परिवर्तनशीलता से एक आँकड़ा की परिवर्तनशीलता का अनुमान लगाती हैं। अधिक सामान्य जैकनाइफ के लिए, डिलीट-एम अवलोकन जैकनाइफ, बूटस्ट्रैप को इसके एक यादृच्छिक सन्निकटन के रूप में देखा जा सकता है। दोनों समान संख्यात्मक परिणाम देते हैं, यही कारण है कि प्रत्येक को दूसरे के सन्निकटन के रूप में देखा जा सकता है। यद्यपि उनकी गणितीय अंतर्दृष्टि में भारी सैद्धांतिक अंतर हैं, सांख्यिकी उपयोगकर्ताओं के लिए मुख्य व्यावहारिक अंतर यह है कि बूटस्ट्रैपिंग (सांख्यिकी) एक ही डेटा पर दोहराए जाने पर अलग-अलग परिणाम देता है, जबकि जैकनाइफ हर बार बिल्कुल वही परिणाम देता है। इस वजह से, कटहल लोकप्रिय है जब अनुमानों को प्रकाशन से पहले कई बार सत्यापित करने की आवश्यकता होती है (उदाहरण के लिए, आधिकारिक सांख्यिकी एजेंसियां)। दूसरी ओर, जब यह सत्यापन विशेषता महत्वपूर्ण नहीं होती है और यह रुचिकर होता है कि कोई संख्या न हो बल्कि इसके वितरण का केवल एक विचार हो, तो बूटस्ट्रैप को प्राथमिकता दी जाती है (उदाहरण के लिए, भौतिकी, अर्थशास्त्र, जैविक विज्ञान में अध्ययन)।
बूटस्ट्रैप या जैकनाइफ का उपयोग करना सर्वेक्षण के सांख्यिकीय चिंताओं की तुलना में परिचालन पहलुओं पर अधिक निर्भर हो सकता है। जैकनाइफ, मूल रूप से पूर्वाग्रह में कमी के लिए उपयोग किया जाता है, यह एक विशेष विधि है और केवल बिंदु अनुमानक के विचरण का अनुमान लगाता है। यह बुनियादी सांख्यिकीय अनुमान (जैसे, परिकल्पना परीक्षण, विश्वास अंतराल) के लिए पर्याप्त हो सकता है। दूसरी ओर, बूटस्ट्रैप पहले पूरे वितरण (बिंदु अनुमानक के) का अनुमान लगाता है और फिर उससे भिन्नता की गणना करता है। जबकि शक्तिशाली और आसान, यह अत्यधिक कम्प्यूटेशनल रूप से गहन हो सकता है।
बूटस्ट्रैप को भिन्नता और वितरण अनुमान समस्याओं दोनों पर लागू किया जा सकता है। हालांकि, अनुभवजन्य परिणामों के संदर्भ में बूटस्ट्रैप प्रसरण अनुमानक जैकनाइफ या संतुलित दोहराया प्रतिकृति (बीआरआर) प्रसरण अनुमानक जितना अच्छा नहीं है। इसके अलावा, बूटस्ट्रैप प्रसरण अनुमानक को आमतौर पर जैकनाइफ या बीआरआर की तुलना में अधिक संगणना की आवश्यकता होती है। इस प्रकार, वितरण अनुमान के लिए मुख्य रूप से बूटस्ट्रैप की सिफारिश की जाती है।[attribution needed][9]
जैकनाइफ के साथ एक विशेष विचार है, विशेष रूप से डिलीट -1 ऑब्जर्वेशन जैकनाइफ के साथ। इसका उपयोग केवल सहज, अलग-अलग आँकड़ों के साथ किया जाना चाहिए (जैसे, योग, साधन, अनुपात, अनुपात, विषम अनुपात, प्रतिगमन गुणांक, आदि; माध्यिका या मात्रा के साथ नहीं)। यह एक व्यावहारिक नुकसान बन सकता है। यह नुकसान आमतौर पर जैकनाइफिंग पर बूटस्ट्रैपिंग के पक्ष में तर्क है। डिलीट-1 की तुलना में अधिक सामान्य जैकनाइफ, जैसे कि डिलीट-एम जैकनाइफ या डिलीट-ऑल-बट-2 हॉजेज-लेहमन अनुमानक, निरंतर विचरण अनुमान के लिए चिकनाई आवश्यकताओं को शिथिल करके माध्यिका और क्वांटाइल के लिए इस समस्या को दूर करते हैं।
आमतौर पर जैकनाइफ को बूटस्ट्रैप की तुलना में जटिल सैंपलिंग योजनाओं पर लागू करना आसान होता है। जटिल नमूनाकरण योजनाओं में स्तरीकरण, कई चरणों (क्लस्टरिंग), अलग-अलग नमूना भार (गैर-प्रतिक्रिया समायोजन, अंशांकन, पोस्ट-स्तरीकरण) और असमान-संभाव्यता नमूनाकरण डिजाइन के तहत शामिल हो सकते हैं। बूटस्ट्रैप और कटहल दोनों के सैद्धांतिक पहलुओं को शाओ और तू (1995) में पाया जा सकता है,[10] जबकि वोल्टर (2007) में मूल परिचय दिया गया है।[11] मॉडल भविष्यवाणी पूर्वाग्रह का बूटस्ट्रैप अनुमान जैकनाइफ अनुमानों की तुलना में अधिक सटीक है, जैसे रैखिक मॉडल जैसे रैखिक विभेदक फ़ंक्शन या एकाधिक प्रतिगमन।[12]
यह भी देखें
- बूटस्ट्रैप एकत्रीकरण (बैगिंग)
- जेनेटिक एल्गोरिद्म
- मोंटे कार्लो विधि
- गैर पैरामीट्रिक आँकड़े
- कण फिल्टर
- pseudoreplication
- गैर-समान यादृच्छिक चर पीढ़ी
- यादृच्छिक क्रमपरिवर्तन
- प्रतिकृति (सांख्यिकी)
- सरोगेट डेटा परीक्षण
संदर्भ
- ↑ 1.0 1.1 Logan, J. David and Wolesensky, Willian R. Mathematical methods in biology. Pure and Applied Mathematics: a Wiley-interscience Series of Texts, Monographs, and Tracts. John Wiley& Sons, Inc. 2009. Chapter 6: Statistical inference. Section 6.6: Bootstrap methods
- ↑ Del Moral, Pierre (2004). फेनमैन-केएसी सूत्र। वंशावली और अंतःक्रियात्मक कण सन्निकटन. Probability and its Applications. Springer. p. 575. doi:10.1007/978-1-4684-9393-1. ISBN 978-1-4419-1902-1.
Series: Probability and Applications
- ↑ Del Moral, Pierre (2013). मोंटे कार्लो एकीकरण के लिए मीन फील्ड सिमुलेशन. Chapman & Hall/CRC Press. p. 626.
सांख्यिकी और अनुप्रयुक्त संभाव्यता पर मोनोग्राफ
- ↑ Verbyla, D. (1986). "प्रतिगमन और विभेदक विश्लेषण में संभावित भविष्यवाणी पूर्वाग्रह". Canadian Journal of Forest Research. 16 (6): 1255–1257. doi:10.1139/x86-222.
- ↑ Quenouille, M. H. (1949). "समय-श्रृंखला में सहसंबंध के अनुमानित परीक्षण". Journal of the Royal Statistical Society, Series B. 11 (1): 68–84. doi:10.1111/j.2517-6161.1949.tb00023.x. JSTOR 2983696.
- ↑ Tukey, J. W. (1958). "काफी बड़े नमूनों में पूर्वाग्रह और विश्वास (प्रारंभिक रिपोर्ट)". Annals of Mathematical Statistics. 29 (2): 614. JSTOR 2237363.
- ↑ Mahalanobis, P. C. (1946). "Proceedings of a Meeting of the Royal Statistical Society held on July 16th, 1946". Journal of the Royal Statistical Society. 109 (4): 325–370. JSTOR 2981330.
- ↑ Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics (in English). Elsevier. 2018-08-21. p. 544. ISBN 978-0-12-811432-2.
- ↑ Shao, J. and Tu, D. (1995). The Jackknife and Bootstrap. Springer-Verlag, Inc. pp. 281.
- ↑ Shao, J.; Tu, D. (1995). जैकनाइफ और बूटस्ट्रैप. Springer.
- ↑ Wolter, K. M. (2007). भिन्नता अनुमान का परिचय (Second ed.). Springer.
- ↑ Verbyla, D.; Litvaitis, J. (1989). "वन्यजीव आवास मॉडल की वर्गीकरण सटीकता के मूल्यांकन के लिए पुन: नमूनाकरण पद्धति". Environmental Management. 13 (6): 783–787. Bibcode:1989EnMan..13..783V. doi:10.1007/bf01868317. S2CID 153448048.
ग्रन्थसूची
- Good, P. (2006) Resampling Methods. 3rd Ed. Birkhauser.
- Wolter, K.M. (2007). Introduction to Variance Estimation. 2nd Edition. Springer, Inc.
- Pierre Del Moral (2004). Feynman-Kac formulae. Genealogical and Interacting particle systems with applications, Springer, Series Probability and Applications. ISBN 978-0-387-20268-6
- Pierre Del Moral (2013). Del Moral, Pierre (2013). Mean field simulation for Monte Carlo integration. Chapman & Hall/CRC Press, Monographs on Statistics and Applied Probability. ISBN 9781466504059
बाहरी संबंध
सॉफ्टवेयर
- एंजेलो कैंटी और ब्रायन रिप्ले (2010)। बूट: बूटस्ट्रैप आर (एस-प्लस) कार्य। आर पैकेज संस्करण 1.2-43। ए.सी. डेविसन और डी.वी. हिंकले (1997, सीयूपी) की पुस्तक बूटस्ट्रैप मेथड्स एंड देयर एप्लीकेशन से बूटस्ट्रैपिंग के लिए कार्य और डेटासेट।
- सांख्यिकी101: रीसैंपलिंग, बूटस्ट्रैप, मोंटे कार्लो सिमुलेशन प्रोग्राम
- R पैकेज `samplingVarEst': नमूना भिन्नता अनुमान। कुछ बिंदु अनुमानकों के नमूनाकरण भिन्नता का अनुमान लगाने के लिए कार्य करता है।
- TREC परिणामों के मूल्यांकन के लिए युग्मित यादृच्छिकीकरण/क्रमपरिवर्तन परीक्षण
- रेंडमाइजेशन/परमुटेशन परीक्षण सूचना पुनर्प्राप्ति प्रयोगों में परिणामों का मूल्यांकन करने के लिए (कई तुलनाओं के लिए समायोजन के साथ और बिना)।
- जीनोमिक्स के अनुप्रयोगों के साथ बायोकंडक्टर रीसैंपलिंग-आधारित बहु परिकल्पना परीक्षण।
- permtest: एक आर पैकेज माइक्रोएरे डेटा के एक सेट के भीतर दो समूहों के बीच परिवर्तनशीलता और दूरी की तुलना करने के लिए।
- बूटस्ट्रैप रीसैंपलिंग: आर में बूटस्ट्रैप रीसैंपलिंग के साथ परिकल्पना परीक्षण का इंटरैक्टिव प्रदर्शन।
- क्रमचय परीक्षण: आर में क्रमपरिवर्तन परीक्षण के साथ परिकल्पना परीक्षण का इंटरैक्टिव प्रदर्शन।
श्रेणी: पुनर्नमूनाकरण (आँकड़े)
श्रेणी:मोंटे कार्लो के तरीके
श्रेणी:सांख्यिकीय अनुमान
श्रेणी:गैर पैरामीट्रिक आँकड़े