पुनः प्रतिचयन (सांख्यिकी)

From Vigyanwiki
Revision as of 09:40, 12 June 2023 by alpha>Karanpant (text)

आँकड़ों में, एक देखे गए मापक्रम के आधार पर नए मापक्रमों का निर्माण पुनःप्रतिचयन है। पुनःप्रतिचयन विधियाँ निम्नलिखित हैं:

  1. क्रमचय परीक्षण (फिर से यादृच्छिक परीक्षण भी)
  2. स्वोत्थान (सांख्यिकी)
  3. अंतः वैधीकरण (आँकड़े)

क्रमचय परीक्षण

क्रमचय परीक्षण शून्य परिकल्पना को मानकर मूल डेटा के पुनः प्रतिचयन पर निर्भर करते हैं। पुनर्प्रतिरूप डेटा के आधार पर यह निष्कर्ष निकाला जा सकता है कि शून्य परिकल्पना के तहत मूल डेटा के होने की कितनी संभावना है।

बूटस्ट्रैप

प्लग-इन सिद्धांत, स्वोत्थान विधि का सबसे अच्छा उदाहरण।

मूल मापक्रम से प्रतिस्थापन के साथ प्रतिचयन (सांख्यिकी) द्वारा पुर्वानुमानक के प्रतिचयन वितरण का पुर्वानुमान लगाने के लिए स्वोत्थान एक सांख्यिकीय पद्धति है, जिसका उद्देश्य मानक त्रुटियों के शक्तिशाली आकलक और जनसंख्या मापदण्ड के विश्वास अंतराल जैसे माध्य, आनुपातिकता (गणित), अंतर अनुपात, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक या प्रतिगमन विश्लेषण गुणांक है। इसे प्लग-इन सिद्धांत कहा गया है,[1] क्योंकि यह एक मापक्रम के आधार पर अनुभवजन्य वितरण फलन में समान कार्यात्मकताओं का मूल्यांकन करके जनसंख्या वितरण के कार्यात्मकताओं के पुर्वानुमान सांख्यिकी की विधि है।

उदाहरण के लिए,[1] जनसंख्या सांख्यिकी माध्य का आकलन करते समय, यह विधि प्रतिरूप (सांख्यिकी) माध्य का उपयोग करती है; जनसंख्या माध्यिका (सांख्यिकी) का पुर्वानुमान लगाने के लिए, यह प्रतिरूप माध्यिका का उपयोग करता है; जनसंख्या प्रतिगमन रेखा का पुर्वानुमान लगाने के लिए, यह प्रतिरूप प्रतिगमन रेखा का उपयोग करता है।

इसका उपयोग परिकल्पना परीक्षणों के निर्माण के लिए भी किया जा सकता है। यह प्रायः प्राचलिक मान्यताओं के आधार पर पुर्वानुमान के एक शक्तिशाली विकल्प के रूप में उपयोग किया जाता है, जब उन मान्यताओं पर संदेह होता है, या जहां प्राचलिक पुर्वानुमान असंभव है या मानक त्रुटियों की गणना के लिए बहुत जटिल सूत्रों की आवश्यकता होती है। स्वोत्थान तकनीकों का उपयोग कण निस्यंदक, आनुवांशिक कलन विधि और कम्प्यूटेशनल भौतिकी में उपयोग किए जाने वाले मोंटे कार्लो विधियों के अद्यतन-चयन संक्रमण में भी किया जाता है। [2][3] इस संदर्भ में, बूटस्ट्रैप का उपयोग क्रमिक रूप से अनुभवजन्य भारित संभाव्यता उपायों को अनुभवजन्य उपायों से बदलने के लिए किया जाता है। बूटस्ट्रैप उच्च भार वाले मापक्रमों की प्रतियों द्वारा कम वजन वाले मापक्रमों को बदलने की अनुमति देता है।

अंतः वैधीकरण

अंतः वैधीकरण भविष्यसूचक प्रतिरूपण को मान्य करने के लिए एक सांख्यिकीय पद्धति है। डेटा के उपवर्ग को सत्यापन सम्मुच्चय के रूप में उपयोग के लिए रखा जाता है; एक प्रतिरूप शेष डेटा (एक प्रशिक्षण सम्मुच्चय) के लिए उपयुक्त है और सत्यापन सम्मुच्चय के लिए भविष्यवाणी करने के लिए उपयोग किया जाता है। सत्यापन सम्मुच्चय में भविष्यवाणियों की गुणवत्ता का औसत भविष्यवाणी उपयुक्तता का एक समग्र माप देता है। निर्णय पेड़ों के निर्माण में बार-बार अंतः वैधीकरण का उपयोग किया जाता है।

अंतः वैधीकरण का एक रूप एक समय में एक ही अवलोकन छोड़ देता है; यह जैकनाइफ पुनः प्रतिचयन के समान है। एक और, k-गुना अंतः वैधीकरण, डेटा को के उपवर्ग में विभाजित करता है; सत्यापन सम्मुच्चय के रूप में प्रत्येक को बारी-बारी से आयोजित किया जाता है।

यह आत्म-प्रभाव से बचाता है। तुलना के लिए, प्रतिगमन विश्लेषण विधियों जैसे रैखिक प्रतिगमन में, प्रत्येक y मान प्रतिगमन रेखा को अपनी ओर खींचता है, जिससे उस मूल्य की भविष्यवाणी वास्तव में उससे अधिक उपयुक्त दिखाई देती है। रेखीय प्रतिगमन पर लागू अंतः वैधीकरण उस अवलोकन का उपयोग किए बिना प्रत्येक अवलोकन के लिए y मान की भविष्यवाणी करता है।

यह प्रायः यह तय करने के लिए उपयोग किया जाता है कि प्रतिगमन में कितने भविष्यवक्ता चर का उपयोग करना है। अंतः वैधीकरण के बिना, भविष्यवक्ताओं को जोड़ने से हमेशा वर्गों का अवशिष्ट योग कम हो जाता है (या संभवतः इसे अपरिवर्तित छोड़ देता है)। इसके विपरीत, यदि मूल्यवान भविष्यवक्ताओं को जोड़ा जाता है, तो अंतः वैधीकरण वर्गमाध्य त्रुटि कम हो जाएगी, लेकिन यदि बेकार भविष्यवक्ताओं को जोड़ा जाता है तो वृद्धि होगी। [4]


मोंटे कार्लो अंतः वैधीकरण

एक पुर्वानुमानक के प्रतिचयन वितरण का पुर्वानुमान लगाने के लिए उप प्रतिचयन एक वैकल्पिक तरीका है। बूटस्ट्रैप में दो प्रमुख अंतर हैं:

  1. प्रतिरूप आकार प्रतिरूप आकार से छोटा है और
  2. पुनर्प्रतिरूप प्रतिस्थापन के बिना किया जाता है।

उप प्रतिचयन का लाभ यह है कि यह बूटस्ट्रैप की तुलना में बहुत शक्तिहीन परिस्थितियों में मान्य है। विशेष रूप से, पर्याप्त स्तिथियों का एक सम्मुच्चय यह है कि पुर्वानुमानक के अभिसरण की दर ज्ञात है और सीमित वितरण निरंतर है।

इसके अतिरिक्त, प्रतिदर्श (या उप-प्रतिरूप) आकार को प्रतिरूप आकार के साथ-साथ अनंत तक जाना चाहिए, लेकिन एक छोटी दर पर, ताकि उनका अनुपात शून्य हो जाए। जबकि उप प्रतिचयन मूल रूप से केवल स्वतंत्र और समान रूप से वितरित (आईआईडी) डेटा की स्तिथि में प्रस्तावित किया गया था, कार्यप्रणाली को समय श्रृंखला डेटा को भी आच्छादित करने के लिए विस्तारित किया गया है; इस स्तिथि में, एक व्यक्तिगत डेटा बिंदुओं के स्थान पर बाद के डेटा के खंडक को दोहराता है। उपयोजित अभिरूचि की कई स्तिथि हैं जहां उप प्रतिचयन वैध पुर्वानुमान की ओर ले जाती है जबकि स्वोत्थान नहीं; उदाहरण के लिए, ऐसे स्तिथियों में उदाहरण सम्मिलित हैं जहां पुर्वानुमानक के अभिसरण की दर प्रतिरूप आकार का वर्गमूल नहीं है या जब सीमित वितरण गैर-सामान्य है। जब उप प्रतिचयन और बूटस्ट्रैप दोनों संगत होते हैं, तो बूटस्ट्रैप सामान्यतः अधिक उपयुक्त होता है। रानसैक उप प्रतिचयन का उपयोग करने वाला एक लोकप्रिय कलन विधि है।

जैकनाइफ अंतः वैधीकरण

जैकनाइफिंग (जैकनाइफ अंतः वैधीकरण), एक सांख्यिकीय के पूर्वाग्रह और मानक त्रुटि (विचरण) का पुर्वानुमान लगाने के लिए सांख्यिकीय पुर्वानुमान में उपयोग किया जाता है, जब इसकी गणना करने के लिए टिप्पणियों का एक यादृच्छिक प्रतिरूप उपयोग किया जाता है। ऐतिहासिक रूप से, यह विधि बूटस्ट्रैप के आविष्कार से पहले मौरिस क्वेनौली ने 1949 में इस पद्धति का आविष्कार किया था और जॉन टुकी ने 1958 में इसका विस्तार किया था। [5][6] इस पद्धति का पूर्वाभास प्रशांत चंद्र महालनोबिस ने किया था, जिन्होंने 1946 में यादृच्छिक रूप से चुने गए आधे मापक्रम के साथ अभिरूचि के आंकड़ों के बार-बार पुर्वानुमान लगाने का सुझाव दिया था। [7] उन्होंने इस पद्धति के लिए 'अंतर्वेधन प्रतिरूप' नाम गढ़ा।

प्रतिरूप पुर्वानुमान के पूर्वाग्रह को कम करने के उद्देश्य से क्वेनौइल ने इस पद्धति का आविष्कार किया। टकी ने इस पद्धति को यह मानकर बढ़ाया कि यदि प्रतिकृति को समान रूप से और स्वतंत्र रूप से वितरित माना जा सकता है, तो प्रतिरूप मापदण्ड के विचरण का पुर्वानुमान लगाया जा सकता है और यह लगभग n−1 स्वतंत्रता की घात (n) के साथ एक t भिन्न के रूप में वितरित किया जाएगा।

जैकनाइफ विचरण पुर्वानुमानक के पीछे मूल विचार व्यवस्थित रूप से प्रतिरूप सम्मुच्चय से एक समय में एक या अधिक अवलोकनों को छोड़कर सांख्यिकीय पुर्वानुमानों की पुन: गणना करने में निहित है। आँकड़ों की प्रतिकृति के इस नए सम्मुच्चय से, पूर्वाग्रह के लिए एक पुर्वानुमान और आँकड़ों के विचरण के लिए एक पुर्वानुमान की गणना की जा सकती है।

विचरण का पुर्वानुमान लगाने के लिए जैकनाइफ का उपयोग करने के स्थान पर, इसे प्रसरण के अभिलेख पर लागू किया जा सकता है। इस परिवर्तन के परिणामस्वरूप बेहतर पुर्वानुमान लग सकते हैं, विशेष रूप से जब भिन्नता का वितरण स्वयं सामान्य नहीं हो सकता है।

कई सांख्यिकीय मापदंडों के लिए विचरण का जैकनाइफ पुर्वानुमान असम्बद्ध रूप से सही मूल्य पर लगभग निश्चित रूप से जाता है। तकनीकी शब्दों में कहा जाता है कि जैकनाइफ का पुर्वानुमान लगातार पुर्वानुमानक है। जैकनाइफ प्रतिरूप साधनों, प्रतिरूप भिन्नता, केंद्रीय और गैर-केंद्रीय टी-सांख्यिकी (संभवतः गैर-सामान्य आबादी के साथ), भिन्नता का प्रतिरूप गुणांक, अधिकतम संभावना पुर्वानुमानक, कम से कम वर्ग पुर्वानुमानक, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक और प्रतिगमन के लिए संगत है।

यह प्रतिरूप माध्यिका के लिए संगत नहीं है। एक अनिप्रतिरूप विचर के स्तिथि में प्रतिरूप प्रसरण के लिए जैकनाइफ विचरण का अनुपात दो स्वतंत्रता की घात के साथ एक ची वर्ग वितरण के आधे वर्ग के रूप में वितरित किया जाता है।

जैकनाइफ, मूल बूटस्ट्रैप की तरह, डेटा की स्वतंत्रता पर निर्भर है। डेटा में निर्भरता की अनुमति देने के लिए जैकनाइफ के विस्तार का प्रस्ताव किया गया है।

एक अन्य विस्तारण विलोप-ए-ग्रुप विधि है जिसका उपयोग प्वासों प्रतिरूप के सहयोग से किया जाता है।

जैकनाइफ रैंडम (उप प्रतिचयन) लीव-वन-आउट अंतः वैधीकरण के बराबर है, यह केवल लक्ष्य में भिन्न है। [8]


बूटस्ट्रैप और जैकनाइफ की तुलना

दोनों विधियाँ, बूटस्ट्रैप और जैकनाइफ, प्राचलिक मान्यताओं के स्थान पर उप-मापक्रम के बीच उस आँकड़े की परिवर्तनशीलता से एक आंकड़े की परिवर्तनशीलता का पुर्वानुमान लगाती हैं। अधिक सामान्य जैकनाइफ के लिए, विलोपन-एम अवलोकन जैकनाइफ, बूटस्ट्रैप को इसके एक यादृच्छिक सन्निकटन के रूप में देखा जा सकता है। दोनों समान संख्यात्मक परिणाम देते हैं, यही कारण है कि प्रत्येक को दूसरे के सन्निकटन के रूप में देखा जा सकता है। यद्यपि उनकी गणितीय अंतर्दृष्टि में भारी सैद्धांतिक अंतर हैं, सांख्यिकी उपयोगकर्ताओं के लिए मुख्य व्यावहारिक अंतर यह है कि स्वोत्थान (सांख्यिकी) एक ही डेटा पर दोहराए जाने पर अलग-अलग परिणाम देता है, जबकि जैकनाइफ हर बार बिल्कुल वही परिणाम देता है। इस वजह से, जैकनाइफ लोकप्रिय है जब पुर्वानुमानों को प्रकाशन से पहले कई बार सत्यापित करने की आवश्यकता होती है (उदाहरण के लिए, आधिकारिक सांख्यिकी अभिकरण)। दूसरी ओर, जब यह सत्यापन विशेषता महत्वपूर्ण नहीं होती है और यह रुचिकर होता है कि कोई संख्या न हो बल्कि इसके वितरण का केवल एक विचार हो, तो बूटस्ट्रैप को प्राथमिकता दी जाती है (उदाहरण के लिए, भौतिकी, अर्थशास्त्र, जैविक विज्ञान में अध्ययन)।

बूटस्ट्रैप या जैकनाइफ का उपयोग करना सर्वेक्षण के सांख्यिकीय चिंताओं की तुलना में परिचालन पहलुओं पर अधिक निर्भर हो सकता है। जैकनाइफ, मूल रूप से पूर्वाग्रह में कमी के लिए उपयोग किया जाता है, यह एक विशेष विधि है और केवल बिंदु पुर्वानुमानक के विचरण का पुर्वानुमान लगाता है। यह बुनियादी सांख्यिकीय पुर्वानुमान (जैसे, परिकल्पना परीक्षण, विश्वास अंतराल) के लिए पर्याप्त हो सकता है। दूसरी ओर, बूटस्ट्रैप पहले पूरे वितरण (बिंदु पुर्वानुमानक के) का पुर्वानुमान लगाता है और फिर उससे भिन्नता की गणना करता है। जबकि शक्तिशाली और आसान, यह अत्यधिक कम्प्यूटेशनल रूप से गहन हो सकता है।

बूटस्ट्रैप को भिन्नता और वितरण पुर्वानुमान समस्याओं दोनों पर लागू किया जा सकता है। हालांकि, अनुभवजन्य परिणामों के संदर्भ में बूटस्ट्रैप प्रसरण पुर्वानुमानक जैकनाइफ या संतुलित दोहराया प्रतिकृति (बीआरआर) प्रसरण पुर्वानुमानक जितना अच्छा नहीं है। इसके अतिरिक्त, बूटस्ट्रैप प्रसरण पुर्वानुमानक को सामान्यतः जैकनाइफ या बीआरआर की तुलना में अधिक संगणना की आवश्यकता होती है। इस प्रकार, वितरण पुर्वानुमान के लिए मुख्य रूप से बूटस्ट्रैप की सिफारिश की जाती है।[attribution needed] [9]

जैकनाइफ के साथ एक विशेष विचार विशेष रूप से विलोप -1 प्रेक्षण जैकनाइफ के साथ है। इसका उपयोग केवल सहज, अलग-अलग आँकड़ों के साथ किया जाना चाहिए (जैसे, योग, साधन, अनुपात, अनुपात, विषम अनुपात, प्रतिगमन गुणांक, आदि; माध्यिका या मात्रा के साथ नहीं किया जाना चाहिए)। यह एक व्यावहारिक हानि बन सकता है। यह हानि सामान्यतः जैकनाइफिंग पर स्वोत्थान के पक्ष में तर्क है। विलोप-1 की तुलना में अधिक सामान्य जैकनाइफ, जैसे कि विलोप-एम जैकनाइफ हॉजेज-लेहमन पुर्वानुमानक निरंतर विचरण पुर्वानुमान के लिए निर्बाध आवश्यकताओं को शिथिल करके माध्यिका और विभाजक के लिए इस समस्या को दूर करते हैं।

सामान्यतः जैकनाइफ को बूटस्ट्रैप की तुलना में जटिल प्रतिचयन योजनाओं पर लागू करना आसान होता है। जटिल प्रतिचयन योजनाओं में स्तरीकरण, कई चरणों (गुच्छन), अलग-अलग प्रतिरूप भार (गैर-प्रतिक्रिया समायोजन, अंशांकन, पोस्ट-स्तरीकरण) और असमान-संभाव्यता प्रतिचयन अभिकल्पना के अंतर्गत सम्मिलित हो सकते हैं। बूटस्ट्रैप और जैकनाइफ दोनों के सैद्धांतिक पहलुओं को शाओ और तू (1995) में पाया जा सकता है,[10] जबकि वोल्टर (2007) में मूल परिचय दिया गया है। [11] प्रतिरूप भविष्यवाणी पूर्वाग्रह का बूटस्ट्रैप पुर्वानुमान जैकनाइफ पुर्वानुमानों की तुलना में अधिक उपयुक्त है, जैसे रैखिक प्रतिरूप जैसे रैखिक विभेदक फलन या एकाधिक प्रतिगमन है। [12]


यह भी देखें

संदर्भ

  1. 1.0 1.1 Logan, J. David and Wolesensky, Willian R. Mathematical methods in biology. Pure and Applied Mathematics: a Wiley-interscience Series of Texts, Monographs, and Tracts. John Wiley& Sons, Inc. 2009. Chapter 6: Statistical inference. Section 6.6: Bootstrap methods
  2. Del Moral, Pierre (2004). फेनमैन-केएसी सूत्र। वंशावली और अंतःक्रियात्मक कण सन्निकटन. Probability and its Applications. Springer. p. 575. doi:10.1007/978-1-4684-9393-1. ISBN 978-1-4419-1902-1. Series: Probability and Applications
  3. Del Moral, Pierre (2013). मोंटे कार्लो एकीकरण के लिए मीन फील्ड सिमुलेशन. Chapman & Hall/CRC Press. p. 626. सांख्यिकी और अनुप्रयुक्त संभाव्यता पर मोनोग्राफ
  4. Verbyla, D. (1986). "प्रतिगमन और विभेदक विश्लेषण में संभावित भविष्यवाणी पूर्वाग्रह". Canadian Journal of Forest Research. 16 (6): 1255–1257. doi:10.1139/x86-222.
  5. Quenouille, M. H. (1949). "समय-श्रृंखला में सहसंबंध के अनुमानित परीक्षण". Journal of the Royal Statistical Society, Series B. 11 (1): 68–84. doi:10.1111/j.2517-6161.1949.tb00023.x. JSTOR 2983696.
  6. Tukey, J. W. (1958). "काफी बड़े नमूनों में पूर्वाग्रह और विश्वास (प्रारंभिक रिपोर्ट)". Annals of Mathematical Statistics. 29 (2): 614. JSTOR 2237363.
  7. Mahalanobis, P. C. (1946). "Proceedings of a Meeting of the Royal Statistical Society held on July 16th, 1946". Journal of the Royal Statistical Society. 109 (4): 325–370. JSTOR 2981330.
  8. Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics (in English). Elsevier. 2018-08-21. p. 544. ISBN 978-0-12-811432-2.
  9. Shao, J. and Tu, D. (1995). The Jackknife and Bootstrap. Springer-Verlag, Inc. pp. 281.
  10. Shao, J.; Tu, D. (1995). जैकनाइफ और बूटस्ट्रैप. Springer.
  11. Wolter, K. M. (2007). भिन्नता अनुमान का परिचय (Second ed.). Springer.
  12. Verbyla, D.; Litvaitis, J. (1989). "वन्यजीव आवास मॉडल की वर्गीकरण सटीकता के मूल्यांकन के लिए पुन: नमूनाकरण पद्धति". Environmental Management. 13 (6): 783–787. Bibcode:1989EnMan..13..783V. doi:10.1007/bf01868317. S2CID 153448048.


ग्रन्थसूची

  • Good, P. (2006) Resampling Methods. 3rd Ed. Birkhauser.
  • Wolter, K.M. (2007). Introduction to Variance Estimation. 2nd Edition. Springer, Inc.
  • Pierre Del Moral (2004). Feynman-Kac formulae. Genealogical and Interacting particle systems with applications, Springer, Series Probability and Applications. ISBN 978-0-387-20268-6
  • Pierre Del Moral (2013). Del Moral, Pierre (2013). Mean field simulation for Monte Carlo integration. Chapman & Hall/CRC Press, Monographs on Statistics and Applied Probability. ISBN 9781466504059


बाहरी संबंध

सॉफ्टवेयर


श्रेणी: पुनःप्रतिचयन (आँकड़े) श्रेणी:मोंटे कार्लो के तरीके श्रेणी:सांख्यिकीय पुर्वानुमान श्रेणी:गैर प्राचलिक आँकड़े