अस्वीकृति नमूनाकरण: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Computational statistics technique}} | {{Short description|Computational statistics technique}} | ||
संख्यात्मक विश्लेषण और कम्प्यूटेशनल आंकड़ों में, अस्वीकृति नमूनाकरण एक मूल तकनीक है जिसका उपयोग संभाव्यता वितरण से अवलोकन उत्पन्न करने के लिए किया जाता है। इसे सामान्यतः स्वीकृति-अस्वीकृति विधि या स्वीकार-अस्वीकार एल्गोरिथम भी कहा जाता है और यह एक प्रकार की सटीक सिमुलेशन विधि है। विधि किसी भी वितरण के लिए काम करती है <math>\mathbb{R}^m</math> संभाव्यता घनत्व फलन के साथ। | संख्यात्मक विश्लेषण और कम्प्यूटेशनल आंकड़ों में, अस्वीकृति नमूनाकरण एक मूल तकनीक है जिसका उपयोग संभाव्यता वितरण से अवलोकन उत्पन्न करने के लिए किया जाता है। इसे सामान्यतः स्वीकृति-अस्वीकृति विधि या स्वीकार-अस्वीकार एल्गोरिथम भी कहा जाता है और यह एक प्रकार की सटीक सिमुलेशन विधि है। यह विधि किसी भी वितरण <math>\mathbb{R}^m</math> संभाव्यता घनत्व फलन के साथ के लिए काम करती है '''<math>\mathbb{R}^m</math> संभाव्यता घनत्व फलन के साथ।''' | ||
अस्वीकृति नमूनाकरण अवलोकन पर आधारित है कि एक आयाम में एक यादृच्छिक चर का नमूना लेने के लिए, द्वि-आयामी कार्टेशियन ग्राफ का एक समान रूप से यादृच्छिक नमूनाकरण कर सकता है, और इसके घनत्व | अस्वीकृति नमूनाकरण अवलोकन पर आधारित है कि एक आयाम में एक यादृच्छिक चर का नमूना लेने के लिए, द्वि-आयामी कार्टेशियन ग्राफ का एक समान रूप से यादृच्छिक नमूनाकरण कर सकता है, और इसके घनत्व फलन के ग्राफ के तहत क्षेत्र में नमूने रख सकता है।<ref>{{Cite book|title = सामान्यीकृत स्वीकार-अस्वीकार नमूना योजनाएँ|pages = 342–347|doi = 10.1214/lnms/1196285403|first = George|last = Casella|first2 = Christian P.|last2 = Robert|first3 = Martin T.|last3 = Wells|isbn = 9780940600614|publisher = Institute of Mathematical Statistics|year = 2004}}</ref><ref name="radford03">{{cite journal | ||
|first=Radford M. |last=Neal | |first=Radford M. |last=Neal | ||
|title=Slice Sampling | |title=Slice Sampling | ||
Line 20: | Line 20: | ||
== विवरण == | == विवरण == | ||
रिजेक्शन सैंपलिंग के पीछे की प्रेरणा की कल्पना करने के लिए, एक बड़े आयताकार बोर्ड पर एक यादृच्छिक चर के घनत्व | रिजेक्शन सैंपलिंग के पीछे की प्रेरणा की कल्पना करने के लिए, एक बड़े आयताकार बोर्ड पर एक यादृच्छिक चर के घनत्व फलन को ग्राफ़ करने और उस पर डार्ट्स फेंकने की कल्पना करें। मान लें कि डार्ट्स समान रूप से बोर्ड के चारों ओर वितरित किए जाते हैं। अब उन सभी डार्ट्स को हटा दें जो वक्र के नीचे के क्षेत्र से बाहर हैं। शेष डार्ट्स वक्र के अंतर्गत क्षेत्र के अन्दर समान रूप से वितरित किए जाएंगे, और इन डार्ट्स के x-पोजिशन को यादृच्छिक चर के घनत्व के अनुसार वितरित किया जाएगा। ऐसा इसलिए है क्योंकि डार्ट्स के लिए सबसे अधिक जगह है जहां वक्र उच्चतम है और इस प्रकार संभाव्यता घनत्व सबसे बड़ा है। | ||
दृश्य जैसा कि अभी वर्णित किया गया है, अस्वीकृति नमूनाकरण के एक विशेष रूप के बराबर है जहाँ प्रस्ताव वितरण एक समान है (इसलिए इसका ग्राफ़ एक आयत है)। अस्वीकृति नमूनाकरण का सामान्य रूप मानता है कि बोर्ड आवश्यक रूप से आयताकार नहीं है, लेकिन कुछ प्रस्ताव वितरण के घनत्व के अनुसार आकार दिया गया है, जिसे हम जानते हैं कि कैसे नमूना लेना है (उदाहरण के लिए, [[उलटा नमूनाकरण|उल्टा नमूनाकरण]] का उपयोग करके), और जो कम से कम हर बार उच्च है उस वितरण के रूप में इंगित करें जिससे हम नमूना लेना चाहते हैं, ताकि पूर्व पूरी तरह से उत्तरार्द्ध को घेर ले। (अन्यथा, घुमावदार क्षेत्र के कुछ भाग होंगे जिनसे हम नमूना लेना चाहते हैं, कभी नहीं पहुंचा जा सकता।) | |||
अस्वीकृति नमूना निम्नानुसार काम करता है: | अस्वीकृति नमूना निम्नानुसार काम करता है: | ||
#प्रस्ताव वितरण से x-अक्ष पर एक बिंदु का नमूना लें। | #प्रस्ताव वितरण से x-अक्ष पर एक बिंदु का नमूना लें। | ||
# प्रस्ताव वितरण के प्रायिकता घनत्व | # प्रस्ताव वितरण के प्रायिकता घनत्व फलन के अधिकतम y- मान तक, इस x- स्थिति पर एक लंबवत रेखा बनाएं। | ||
# इस रेखा के साथ समान रूप से 0 से अधिकतम संभाव्यता घनत्व | # इस रेखा के साथ समान रूप से 0 से अधिकतम संभाव्यता घनत्व फलन का नमूना लें। यदि नमूनाकृत मान इस लंबवत रेखा पर वांछित वितरण के मान से अधिक है, तो x-मान को अस्वीकार करें और चरण 1 पर वापस लौटें; अन्यथा x-मान वांछित वितरण से एक नमूना है। | ||
इस एल्गोरिथ्म का उपयोग किसी भी वक्र के | इस एल्गोरिथ्म का उपयोग किसी भी वक्र के अंतर्गत क्षेत्र से नमूना लेने के लिए किया जा सकता है, भले ही फलन 1 को एकीकृत करता हो या नहीं। वास्तव में, किसी फलन को स्थिरांक द्वारा स्केल करने से नमूना x-स्थितियों पर कोई प्रभाव नहीं पड़ता है। इस प्रकार, एल्गोरिथ्म का उपयोग एक ऐसे वितरण से नमूना लेने के लिए किया जा सकता है जिसका [[सामान्यीकरण स्थिरांक]] अज्ञात है, जो कम्प्यूटेशनल आंकड़ों में सामान्य है। | ||
== सिद्धांत == | == सिद्धांत == | ||
रिजेक्शन सैंपलिंग पद्धति लक्ष्य वितरण से सैंपलिंग मान उत्पन्न करती है <math>X</math> मनमाने ढंग से संभाव्यता घनत्व | रिजेक्शन सैंपलिंग पद्धति लक्ष्य वितरण से सैंपलिंग मान उत्पन्न करती है <math>X</math> मनमाने ढंग से संभाव्यता घनत्व फलन के साथ <math>f(x)</math> प्रस्ताव वितरण का उपयोग करके <math>Y</math> संभाव्यता घनत्व के साथ <math>g(x)</math>. विचार यह है कि कोई एक नमूना मूल्य उत्पन्न कर सकता है <math>X</math> इसके अतिरिक्त से नमूना लेना <math>Y</math> और से नमूना स्वीकार करना <math>Y</math> संभावना के साथ <math>f(x)/(M g(x))</math>, ड्रॉ को दोहराते हुए <math>Y</math> जब तक कोई मान स्वीकार नहीं किया जाता। <math>M</math> यहाँ संभावना अनुपात पर एक स्थिर, परिमित सीमा है <math>f(x)/g(x)</math>, संतुष्टि देने वाला <math>1 < M < \infty</math> के [[समर्थन (गणित)]] पर <math>X</math>; दूसरे शब्दों में, एम को संतुष्ट करना चाहिए <math>f(x) \leq M g(x)</math> के सभी मूल्यों के लिए <math>x</math>. ध्यान दें कि इसके लिए समर्थन की आवश्यकता है <math>Y</math> का समर्थन सम्मिलित करना चाहिए <math>X</math>-दूसरे शब्दों में, <math>g(x) > 0</math> जब कभी भी <math>f(x) > 0</math>.है | ||
इस पद्धति का सत्यापन | इस पद्धति का सत्यापन आवरण सिद्धांत है: जोड़ी का अनुकरण करते समय <math display="inline">(x,v=u\cdot Mg(x))</math>, एक के सबग्राफ पर एक समान सिमुलेशन का उत्पादन करता है <math display="inline">Mg(x)</math>. केवल ऐसी जोड़ियों को स्वीकार करना <math display="inline">u<f(x)/(Mg(x))</math> फिर जोड़े उत्पन करता है <math>(x,v)</math> के सबग्राफ पर समान रूप से वितरित <math>f(x)</math> और इस प्रकार, आंशिक रूप से, एक अनुकरण <math>f(x).</math> | ||
इसका मतलब यह है कि, पर्याप्त प्रतिकृति के साथ, एल्गोरिथम वांछित वितरण से एक नमूना उत्पन्न करता है <math>f(x)</math>. इस एल्गोरिथम के लिए कई एक्सटेंशन हैं, जैसे [[ महानगर एल्गोरिथम ]]। | इसका मतलब यह है कि, पर्याप्त प्रतिकृति के साथ, एल्गोरिथम वांछित वितरण से एक नमूना उत्पन्न करता है <math>f(x)</math>. इस एल्गोरिथम के लिए कई एक्सटेंशन हैं, जैसे [[ महानगर एल्गोरिथम ]]। | ||
यह विधि मोंटे कार्लो पद्धति तकनीकों के सामान्य क्षेत्र से संबंधित है, जिसमें [[मार्कोव चेन मोंटे कार्लो]] एल्गोरिदम | यह विधि मोंटे कार्लो पद्धति तकनीकों के सामान्य क्षेत्र से संबंधित है, जिसमें [[मार्कोव चेन मोंटे कार्लो]] एल्गोरिदम सम्मिलित हैं जो लक्ष्य वितरण से अनुकरण प्राप्त करने के लिए प्रॉक्सी वितरण का भी उपयोग करते हैं। <math>f(x)</math>. यह मेट्रोपोलिस एल्गोरिथम जैसे एल्गोरिदम के लिए आधार बनाता है। | ||
बिना शर्त स्वीकृति संभावना प्रस्तावित नमूनों का अनुपात है जो स्वीकार किए जाते हैं, जो है <math display="block"> | बिना शर्त स्वीकृति संभावना प्रस्तावित नमूनों का अनुपात है जो स्वीकार किए जाते हैं, जो है <math display="block"> | ||
Line 50: | Line 50: | ||
&= \frac{1}{M} & (\text{since support of } Y \text{ includes support of } X) | &= \frac{1}{M} & (\text{since support of } Y \text{ includes support of } X) | ||
\end{align} | \end{align} | ||
</math>कहाँ <math>U\sim \mathrm{Unif}(0,1)</math>, और का मूल्य <math>y</math> हर बार घनत्व | </math>कहाँ <math>U\sim \mathrm{Unif}(0,1)</math>, और का मूल्य <math>y</math> हर बार घनत्व फलन के अंतर्गत उत्पन्न होता है <math>g(\cdot)</math> प्रस्ताव वितरण के संबंध में <math>Y</math>है. | ||
से आवश्यक नमूनों की संख्या <math>Y</math> एक स्वीकृत मूल्य प्राप्त करने के लिए इस प्रकार संभाव्यता के साथ एक [[ज्यामितीय वितरण]] होता है <math>1/M</math>, जिसका मतलब है <math>M</math>. सहज रूप से, <math>M</math> एल्गोरिथम की कम्प्यूटेशनल जटिलता के माप के रूप में आवश्यक पुनरावृत्तियों की अपेक्षित संख्या है। | से आवश्यक नमूनों की संख्या <math>Y</math> एक स्वीकृत मूल्य प्राप्त करने के लिए इस प्रकार संभाव्यता के साथ एक [[ज्यामितीय वितरण]] होता है <math>1/M</math>, जिसका मतलब है <math>M</math>. सहज रूप से, <math>M</math> एल्गोरिथम की कम्प्यूटेशनल जटिलता के माप के रूप में आवश्यक पुनरावृत्तियों की अपेक्षित संख्या है। | ||
उपरोक्त समीकरण को फिर से लिखें, <math display="block">M=\frac{1}{\mathbb{P}\left(U\le\frac{f(Y)}{M g(Y)}\right)}</math> | उपरोक्त समीकरण को फिर से लिखें, <math display="block">M=\frac{1}{\mathbb{P}\left(U\le\frac{f(Y)}{M g(Y)}\right)}</math> | ||
ध्यान दें कि <math display="inline">1 \le M<\infty</math>, उपरोक्त सूत्र के कारण, जहाँ <math display="inline">\mathbb{P}\left(U\le\frac{f(Y)}{M g(Y)}\right)</math> एक प्रायिकता है जो अंतराल में केवल मान ले सकती है <math>[0,1]</math>. कब <math>M</math> एक के | ध्यान दें कि <math display="inline">1 \le M<\infty</math>, उपरोक्त सूत्र के कारण, जहाँ <math display="inline">\mathbb{P}\left(U\le\frac{f(Y)}{M g(Y)}\right)</math> एक प्रायिकता है जो अंतराल में केवल मान ले सकती है <math>[0,1]</math>. कब <math>M</math> एक के समीप चुना जाता है, बिना शर्त स्वीकृति की संभावना उतनी ही अधिक होती है, जितना कम अनुपात भिन्न होता है, क्योंकि <math>M</math> संभावना अनुपात के लिए ऊपरी सीमा '''है''' <math display="inline">f(x)/g(x)</math>. व्यवहार में, का एक मूल्य के करीब को प्राथमिकता दी जाती है क्योंकि इसका तात्पर्य कम अस्वीकृत नमूनों से है, औसतन, और इस प्रकार एल्गोरिथम के कम पुनरावृत्तियों। इस अर्थ में, कोई लेना पसंद करता है <math>M</math> जितना संभव हो उतना छोटा (अभी भी संतुष्ट करते हुए <math>f(x) \leq M g(x)</math>, जिससे पता चलता है <math>g(x)</math> सम्मिलित समान होना चाहिए <math>f(x)</math> किसी तरह। चूंकि, ध्यान दें <math>M</math> 1 के बराबर नहीं हो सकता: ऐसा इसका मतलब होगा <math>f(x)=g(x)</math>, यानी कि लक्ष्य और प्रस्ताव वितरण वास्तव में समान वितरण हैं। | ||
अस्वीकृति नमूनाकरण का उपयोग | अस्वीकृति नमूनाकरण का उपयोग अधिकांशतः उन स्थितियों में किया जाता है जहां प्रपत्र <math>f(x)</math> नमूनाकरण को कठिन बनाता है। अस्वीकृति एल्गोरिथम के एकल पुनरावृत्ति के लिए प्रस्ताव वितरण से नमूने लेने, एक समान वितरण से आरेखण करने और प्रस्ताव का मूल्यांकन करने की आवश्यकता होती है <math>f(x)/(M g(x))</math> अभिव्यक्ति। इस प्रकार अस्वीकृति नमूनाकरण किसी अन्य विधि की तुलना में अधिक कुशल होता है जब भी इन कार्यों की m गुना लागत - जो अस्वीकृति नमूनाकरण के साथ नमूना प्राप्त करने की अपेक्षित लागत होती है - अन्य विधि का उपयोग करके नमूना प्राप्त करने की लागत से कम होती है। | ||
== एल्गोरिथम == | == एल्गोरिथम == | ||
Line 64: | Line 64: | ||
* चेक करें या नहीं <math display="inline">u<f(y)/Mg(y)</math>. | * चेक करें या नहीं <math display="inline">u<f(y)/Mg(y)</math>. | ||
** यदि यह मान्य है, तो स्वीकार करें <math>y</math> से लिए गए नमूने के रूप में <math>f</math>; | ** यदि यह मान्य है, तो स्वीकार करें <math>y</math> से लिए गए नमूने के रूप में <math>f</math>; | ||
** यदि नहीं, के मूल्य को अस्वीकार करें <math>y</math> और नमूनाकरण | ** यदि नहीं, के मूल्य को अस्वीकार करें <math>y</math> और नमूनाकरण चरण पर लौटें। | ||
एल्गोरिदम औसत लेगा <math>M</math> नमूना प्राप्त करने के लिए | एल्गोरिदम औसत लेगा <math>M</math> पुनरावृत्तियाँ नमूना प्राप्त करने के लिए '''पुनरावृत्तियाँ'''। | ||
== | == सहज विधियों का उपयोग करके नमूनाकरण पर लाभ == | ||
कुछ स्थितियों में सरल तरीकों की तुलना में अस्वीकृति नमूनाकरण कहीं अधिक कुशल हो सकता है। उदाहरण के लिए, नमूनाकरण के रूप में एक समस्या दी गई है <math display="inline">X\sim F(\cdot)</math> सशर्त रूप से <math>X</math> सेट दिया <math>A</math>, अर्थात।, <math display="inline">X|X\in A</math>, कभी-कभी <math display="inline">X</math> भोली विधियों का उपयोग करके आसानी से अनुकरण किया जा सकता है (उदाहरण के लिए प्रतिलोम रूपांतरण नमूनाकरण द्वारा): | कुछ स्थितियों में सरल तरीकों की तुलना में अस्वीकृति नमूनाकरण कहीं अधिक कुशल हो सकता है। उदाहरण के लिए, नमूनाकरण के रूप में एक समस्या दी गई है <math display="inline">X\sim F(\cdot)</math> सशर्त रूप से <math>X</math> सेट दिया <math>A</math>, अर्थात।, <math display="inline">X|X\in A</math>, कभी-कभी <math display="inline">X</math> भोली विधियों का उपयोग करके आसानी से अनुकरण किया जा सकता है (उदाहरण के लिए प्रतिलोम रूपांतरण नमूनाकरण द्वारा): | ||
* नमूना <math display="inline">X\sim F(\cdot)</math> स्वतंत्र रूप से, और उन्हें संतुष्ट करने वालों को छोड़ दें <math>\{n\ge 1: X_n\in A\}</math> * आउटपुट: <math>\{X_1,X_2,...,X_N:X_i\in A, i=1,...,N\}</math> | * नमूना <math display="inline">X\sim F(\cdot)</math> स्वतंत्र रूप से, और उन्हें संतुष्ट करने वालों को छोड़ दें <math>\{n\ge 1: X_n\in A\}</math> * आउटपुट: <math>\{X_1,X_2,...,X_N:X_i\in A, i=1,...,N\}</math> | ||
समस्या यह है कि यह नमूनाकरण कठिन और अक्षम हो सकता है, यदि <math display="inline">\mathbb{P}(X\in A)\approx 0</math>. पुनरावृत्तियों की अपेक्षित संख्या होगी <math>\frac{1}{\mathbb{P}(X\in A)}</math>, जो अनंत के करीब हो सकता है। इसके | समस्या यह है कि यह नमूनाकरण कठिन और अक्षम हो सकता है, यदि <math display="inline">\mathbb{P}(X\in A)\approx 0</math>. पुनरावृत्तियों की अपेक्षित संख्या होगी <math>\frac{1}{\mathbb{P}(X\in A)}</math>, जो अनंत के करीब हो सकता है। इसके अतिरिक्त, जब आप अस्वीकृति नमूनाकरण विधि प्रयुक्त करते हैं, तब भी बाउंड को अनुकूलित करना हमेशा कठिन होता है <math>M</math> संभावना अनुपात के लिए अधिक से अधिक, <math>M</math> बड़ा है और अस्वीकृति दर अधिक है, एल्गोरिथ्म बहुत अक्षम हो सकता है। [[प्राकृतिक घातीय परिवार]] (यदि यह उपस्थित है), जिसे घातीय झुकाव के रूप में भी जाना जाता है, प्रस्ताव वितरण का एक वर्ग प्रदान करता है जो गणना जटिलता को कम कर सकता है, का मान <math>M</math> और संगणनाओं को गति दें (उदाहरण देखें: प्राकृतिक घातीय परिवारों के साथ काम करना)। | ||
== उदाहरण: प्राकृतिक घातीय परिवारों के साथ काम करना == | == उदाहरण: प्राकृतिक घातीय परिवारों के साथ काम करना == | ||
एक यादृच्छिक चर दिया <math>X\sim F(\cdot)</math>, <math>F(x)=\mathbb{P}(X\le x)</math> लक्ष्य वितरण है। सादगी के लिए मान लें, घनत्व | एक यादृच्छिक चर दिया <math>X\sim F(\cdot)</math>, <math>F(x)=\mathbb{P}(X\le x)</math> लक्ष्य वितरण है। सादगी के लिए मान लें, घनत्व फलन स्पष्ट रूप से लिखा जा सकता है <math>f(x)</math>. प्रस्ताव को इस रूप में चुनें <math display="block">\begin{align} | ||
F_\theta (x)&=\mathbb{E}\left[\exp(\theta X-\psi (\theta))\mathbb{I}(X\le x)\right]\\ | F_\theta (x)&=\mathbb{E}\left[\exp(\theta X-\psi (\theta))\mathbb{I}(X\le x)\right]\\ | ||
&=\int^x_{-\infty}e^{\theta y-\psi(\theta)}f(y)dy\\ | &=\int^x_{-\infty}e^{\theta y-\psi(\theta)}f(y)dy\\ | ||
g_\theta(x)&=F'_\theta(x)=e^{\theta x-\psi(\theta)}f(x) | g_\theta(x)&=F'_\theta(x)=e^{\theta x-\psi(\theta)}f(x) | ||
\end{align}</math> | \end{align}</math>जहाँ <math>\psi(\theta) = \log\left(\mathbb{E}\exp(\theta X)\right)</math> और <math>\Theta = \{\theta :\psi(\theta)<\infty\}</math>. स्पष्ट रूप से, <math>\{F_\theta (\cdot)\}_{\theta \in \Theta}</math>, एक [[प्राकृतिक घातीय परिवार]] से है। इसके अतिरिक्त, संभावना अनुपात है <math display="block">Z(x)=\frac{f(x)}{g_\theta(x)}=\frac{f(x)}{e^{\theta x-\psi(\theta)}f(x)}=e^{-\theta x+\psi(\theta)}</math>ध्यान दें कि <math>\psi (\theta)<\infty</math> तात्पर्य यह है कि यह वास्तव में एक लॉग [[क्षण-उत्पन्न करने वाला कार्य]] है। मोमेंट-जेनरेशन फलन, यानी <math>\psi(\theta)=\log\mathbb{E}{\exp(tX)}|_{t=\theta}=\log M_X(t)|_{t=\theta}</math>. और प्रस्ताव के लॉग क्षण-सृजन फलन को प्राप्त करना आसान है और इसलिए प्रस्ताव के क्षण।<math display="block">\begin{align} | ||
\psi_\theta(\eta)&=\log\left(\mathbb{E}_\theta\exp(\eta X)\right)=\psi(\theta+\eta)-\psi(\theta)<\infty\\ | \psi_\theta(\eta)&=\log\left(\mathbb{E}_\theta\exp(\eta X)\right)=\psi(\theta+\eta)-\psi(\theta)<\infty\\ | ||
\mathbb{E}_\theta(X)&= \left.\frac{\partial \psi_\theta(\eta)}{\partial\eta}\right|_{\eta=0}\\ | \mathbb{E}_\theta(X)&= \left.\frac{\partial \psi_\theta(\eta)}{\partial\eta}\right|_{\eta=0}\\ | ||
\mathrm{Var}_\theta(X)&= \left.\frac{\partial^2 \psi_\theta(\eta)}{\partial^2\eta}\right|_{\eta=0} | \mathrm{Var}_\theta(X)&= \left.\frac{\partial^2 \psi_\theta(\eta)}{\partial^2\eta}\right|_{\eta=0} | ||
\end{align}</math> एक साधारण उदाहरण के रूप में, मान लीजिए <math>F(\cdot)</math>, <math>X \sim \mathrm{N}(\mu, \sigma^2)</math>, साथ <math display="inline">\psi(\theta)=\theta \mu+\frac{\sigma^2\theta^2}{2}</math>. लक्ष्य नमूना लेना है <math>X|X\in \left[b,\infty\right]</math>, <math>b>\mu</math>. विश्लेषण इस प्रकार है। | \end{align}</math> एक साधारण उदाहरण के रूप में, मान लीजिए <math>F(\cdot)</math>, <math>X \sim \mathrm{N}(\mu, \sigma^2)</math>, साथ <math display="inline">\psi(\theta)=\theta \mu+\frac{\sigma^2\theta^2}{2}</math>. लक्ष्य नमूना लेना है <math>X|X\in \left[b,\infty\right]</math>, <math>b>\mu</math>. विश्लेषण इस प्रकार है। | ||
* प्रस्ताव वितरण का रूप चुनें <math>F_\theta(\cdot)</math>, लॉग मोमेंट-जेनरेटिंग | * प्रस्ताव वितरण का रूप चुनें <math>F_\theta(\cdot)</math>, लॉग मोमेंट-जेनरेटिंग फलन के रूप में <math display="inline">\psi_\theta(\eta)=\psi (\theta+\eta)-\psi(\eta)=\eta(\mu+\theta\sigma^2)+\frac{\sigma^2\eta^2}{2}</math>, जिसका अर्थ है कि यह एक सामान्य वितरण है <math>\mathrm{N}(\mu+\theta\sigma^2, \sigma^2)</math>. | ||
* अच्छी तरह से चुने गए का फैसला करें <math>\theta^*</math> प्रस्ताव वितरण के लिए इस सेटअप में, चुनने का सहज | * अच्छी तरह से चुने गए का फैसला करें <math>\theta^*</math> प्रस्ताव वितरण के लिए इस सेटअप में, चुनने का सहज विधि <math>\theta^*</math> लगाना है <math>\mathbb{E}_{\theta}(X)=\mu+\theta\sigma^2=b</math>, वह है <math>\theta^*=\frac{b-\mu}{\sigma^2}</math> | ||
* स्पष्ट रूप से लक्ष्य, प्रस्ताव और संभावना अनुपात लिखें<math display="block">\begin{align} | * स्पष्ट रूप से लक्ष्य, प्रस्ताव और संभावना अनुपात लिखें<math display="block">\begin{align} | ||
f_{X|X\ge b}(x)&=\frac{f(x)\mathbb{I}(x\ge b)}{\mathbb{P}(X\ge b)}\\ | f_{X|X\ge b}(x)&=\frac{f(x)\mathbb{I}(x\ge b)}{\mathbb{P}(X\ge b)}\\ | ||
Line 94: | Line 94: | ||
* अस्वीकृति नमूनाकरण मानदंड: के लिए <math>U\sim \mathrm{Unif}(0,1)</math>, अगर <math display="block">U\le \frac{Z(x)}{M}=e^{-\theta^*(x-b)}\mathbb{I}(x\ge b)</math>रखता है, का मान स्वीकार करता है <math>X</math>; यदि नहीं, तो नया नमूना लेना जारी रखें <math display="inline">X\sim_{i.i.d.}\mathrm{N}(\mu+\theta^*\sigma^2,\sigma^2)</math> और नया <math display="inline">U\sim \mathrm{Unif}(0,1)</math> स्वीकृति तक। | * अस्वीकृति नमूनाकरण मानदंड: के लिए <math>U\sim \mathrm{Unif}(0,1)</math>, अगर <math display="block">U\le \frac{Z(x)}{M}=e^{-\theta^*(x-b)}\mathbb{I}(x\ge b)</math>रखता है, का मान स्वीकार करता है <math>X</math>; यदि नहीं, तो नया नमूना लेना जारी रखें <math display="inline">X\sim_{i.i.d.}\mathrm{N}(\mu+\theta^*\sigma^2,\sigma^2)</math> और नया <math display="inline">U\sim \mathrm{Unif}(0,1)</math> स्वीकृति तक। | ||
उपरोक्त उदाहरण के लिए, दक्षता की माप के रूप में, पुनरावृत्तियों की अपेक्षित संख्या एनईएफ-आधारित अस्वीकृति नमूना पद्धति क्रम | उपरोक्त उदाहरण के लिए, दक्षता की माप के रूप में, पुनरावृत्तियों की अपेक्षित संख्या एनईएफ-आधारित अस्वीकृति नमूना पद्धति क्रम b की है, अर्थात <math>M(b)=O(b)</math>, जबकि भोली पद्धति के अंतर्गत, पुनरावृत्तियों की अपेक्षित संख्या है <math display="inline">\frac{1}{\mathbb{P}(X\ge b)}=O(b\cdot e^{\frac{(b-\mu)^2}{2\sigma^2}})</math>, जो कहीं अधिक अक्षम है। | ||
सामान्यतः, घातीय झुकाव, प्रस्ताव वितरण का एक पैरामीट्रिक वर्ग, अपने उपयोगी गुणों के साथ अनुकूलन समस्याओं को आसानी से हल करता है जो सीधे प्रस्ताव के वितरण की विशेषता बताते हैं। इस प्रकार की समस्या के लिए अनुकरण करना <math>X</math> सशर्त रूप से <math>X\in A</math>, सरल वितरण के वर्ग के बीच, एनईएफ का उपयोग करने की चाल है, जो जटिलता पर कुछ नियंत्रण प्राप्त करने में सहायता करती है और गणना को काफी तेज करती है। दरअसल, एनईएफ का उपयोग करने के गहरे गणितीय कारण हैं। | |||
== कमियां == | == कमियां == | ||
यदि नमूना लिया जा रहा कार्य एक निश्चित क्षेत्र में अत्यधिक केंद्रित है, उदाहरण के लिए एक | यदि नमूना लिया जा रहा कार्य एक निश्चित क्षेत्र में अत्यधिक केंद्रित है, उदाहरण के लिए एक फलन जिसमें किसी स्थान पर स्पाइक है, तो अस्वीकृति नमूनाकरण से बहुत सारे अवांछित नमूने लिए जा सकते हैं। कई वितरणों के लिए, इस समस्या को एक अनुकूली विस्तार (देखें # अनुकूली अस्वीकृति नमूनाकरण) का उपयोग करके या यूनिफार्म के अनुपात की विधि के साथ चर के उचित परिवर्तन के साथ हल किया जा सकता है। इसके अतिरिक्त, जैसे-जैसे समस्या का आयाम बड़ा होता जाता है, एम्बेडिंग वॉल्यूम के कोनों में एम्बेडेड वॉल्यूम का अनुपात शून्य की ओर बढ़ता जाता है, इस प्रकार एक उपयोगी नमूना उत्पन्न होने से पहले बहुत सारे अस्वीकरण हो सकते हैं, इस प्रकार एल्गोरिथम को अक्षम बना दिया जाता है और अव्यावहारिक। आयामीता का अपवाद देखें। उच्च आयामों में, एक अलग दृष्टिकोण का उपयोग करना आवश्यक है, सामान्यतः एक मार्कोव श्रृंखला मोंटे कार्लो विधि जैसे मेट्रोपोलिस नमूनाकरण या [[गिब्स नमूनाकरण]]। (चूंकि, गिब्स नमूनाकरण, जो एक बहु-आयामी नमूनाकरण समस्या को निम्न-आयामी नमूनों की एक श्रृंखला में विभाजित करता है, इसके एक चरण के रूप में अस्वीकृति नमूनाकरण का उपयोग कर सकता है।) | ||
== अनुकूली अस्वीकृति नमूनाकरण == | == अनुकूली अस्वीकृति नमूनाकरण == | ||
कई वितरणों के लिए, एक ऐसा प्रस्ताव वितरण खोजना मुश्किल है जिसमें बहुत अधिक बर्बाद जगह के बिना दिए गए वितरण को | कई वितरणों के लिए, एक ऐसा प्रस्ताव वितरण खोजना मुश्किल है जिसमें बहुत अधिक बर्बाद जगह के बिना दिए गए वितरण को सम्मिलित किया गया हो। अस्वीकृति नमूनाकरण का एक विस्तार जिसका उपयोग इस कठिनाई को दूर करने के लिए किया जा सकता है और विभिन्न प्रकार के वितरणों से कुशलता से नमूना लिया जा सकता है (बशर्ते कि उनके पास लॉगरिदमिक रूप से अवतल कार्य हो। लॉग-अवतल घनत्व कार्य, जो वास्तव में अधिकांश सामान्य वितरणों के स्थितियों में है- यहां तक कि जिनके घनत्व कार्य स्वयं अवतल नहीं हैं) को 'अनुकूली अस्वीकृति नमूनाकरण (एआरएस)' के रूप में जाना जाता है। | ||
1992 में गिल्क्स द्वारा अंततः पेश की गई इस तकनीक के लिए तीन मूल विचार हैं:<ref>{{cite journal |first=W. R. |last=Gilks |first2=P. |last2=Wild |title=गिब्स नमूनाकरण के लिए अनुकूली अस्वीकृति नमूनाकरण|journal=Journal of the Royal Statistical Society |series=Series C (Applied Statistics) |volume=41 |issue=2 |year=1992 |pages=337–348 |doi=10.2307/2347565 }}</ref> | 1992 में गिल्क्स द्वारा अंततः पेश की गई इस तकनीक के लिए तीन मूल विचार हैं:<ref>{{cite journal |first=W. R. |last=Gilks |first2=P. |last2=Wild |title=गिब्स नमूनाकरण के लिए अनुकूली अस्वीकृति नमूनाकरण|journal=Journal of the Royal Statistical Society |series=Series C (Applied Statistics) |volume=41 |issue=2 |year=1992 |pages=337–348 |doi=10.2307/2347565 }}</ref> | ||
# यदि यह | # यदि यह सहायता करता है, तो इसके अतिरिक्त लॉग स्पेस (जैसे लॉग-प्रायिकता या लॉग-घनत्व) में अपने लिफाफा वितरण को परिभाषित करें। यानी साथ काम करें <math> h\left(x\right) = \log g\left(x\right)</math> के अतिरिक्त <math> g\left(x\right)</math> सीधे। | ||
#* | #* अधिकांशतः, जिन वितरणों में बीजगणितीय रूप से गड़बड़ घनत्व कार्य होते हैं, उनके पास यथोचित सरल लॉग घनत्व कार्य होते हैं (अर्थात जब <math>f\left( x \right) </math> गन्दा है, <math> \log f\left(x\right)</math> के साथ काम करना सरल हो सकता है या कम से कम, टुकड़ों में रैखिक के करीब)। | ||
# एक समान लिफ़ाफ़ा घनत्व | # एक समान लिफ़ाफ़ा घनत्व फलन के अतिरिक्त, अपने लिफाफे के रूप में एक टुकड़ा-वार रैखिक घनत्व फलन का उपयोग करें। | ||
#* हर बार जब आपको किसी नमूने को अस्वीकार करना हो, तो आप के मान का उपयोग कर सकते हैं <math> f \left(x \right) </math> जिसका आपने मूल्यांकन किया है, टुकड़ों के सन्निकटन में सुधार करने के लिए <math> h \left(x \right) </math>. इससे आपके अगले प्रयास के अस्वीकृत होने की संभावना कम हो जाती है। असम्बद्ध रूप से, आपके नमूने को अस्वीकार करने की आवश्यकता की संभावना शून्य हो जानी चाहिए, और व्यवहार में, | #* हर बार जब आपको किसी नमूने को अस्वीकार करना हो, तो आप के मान का उपयोग कर सकते हैं <math> f \left(x \right) </math> जिसका आपने मूल्यांकन किया है, टुकड़ों के सन्निकटन में सुधार करने के लिए <math> h \left(x \right) </math>. इससे आपके अगले प्रयास के अस्वीकृत होने की संभावना कम हो जाती है। असम्बद्ध रूप से, आपके नमूने को अस्वीकार करने की आवश्यकता की संभावना शून्य हो जानी चाहिए, और व्यवहार में, अधिकांशतः बहुत तेज़ी से। | ||
#* जैसा कि प्रस्तावित है, किसी भी समय हम एक ऐसा बिंदु चुनते हैं जिसे अस्वीकार कर दिया जाता है, हम लिफाफे को एक अन्य रेखा खंड के साथ कसते हैं जो उस बिंदु पर स्पर्शरेखा है जो चुने गए बिंदु के समान x-निर्देशांक के साथ है। | #* जैसा कि प्रस्तावित है, किसी भी समय हम एक ऐसा बिंदु चुनते हैं जिसे अस्वीकार कर दिया जाता है, हम लिफाफे को एक अन्य रेखा खंड के साथ कसते हैं जो उस बिंदु पर स्पर्शरेखा है जो चुने गए बिंदु के समान x-निर्देशांक के साथ है। | ||
#* प्रस्ताव लॉग वितरण का टुकड़ावार रेखीय मॉडल टुकड़ेवार घातीय वितरण के एक सेट में परिणाम देता है (यानी एक या अधिक घातीय वितरण के खंड, अंत से अंत तक संलग्न)। घातीय वितरण अच्छी तरह से व्यवहार किया जाता है और अच्छी तरह से समझा जाता है। एक घातीय वितरण का लघुगणक एक सीधी रेखा है, और इसलिए इस पद्धति में अनिवार्य रूप से रेखा खंडों की एक श्रृंखला में घनत्व के लघुगणक को | #* प्रस्ताव लॉग वितरण का टुकड़ावार रेखीय मॉडल टुकड़ेवार घातीय वितरण के एक सेट में परिणाम देता है (यानी एक या अधिक घातीय वितरण के खंड, अंत से अंत तक संलग्न)। घातीय वितरण अच्छी तरह से व्यवहार किया जाता है और अच्छी तरह से समझा जाता है। एक घातीय वितरण का लघुगणक एक सीधी रेखा है, और इसलिए इस पद्धति में अनिवार्य रूप से रेखा खंडों की एक श्रृंखला में घनत्व के लघुगणक को सम्मिलित करना सम्मिलित है। यह लॉग-अवतल प्रतिबंध का स्रोत है: यदि कोई वितरण लॉग-अवतल है, तो इसका लघुगणक अवतल (उल्टा-नीचे U जैसा आकार) है, जिसका अर्थ है कि वक्र के लिए स्पर्शरेखा रेखा खंड हमेशा वक्र के ऊपर से गुजरेगा। | ||
#* यदि लॉग स्पेस में काम नहीं कर रहा है, तो एक टुकड़े के अनुसार रैखिक घनत्व | #* यदि लॉग स्पेस में काम नहीं कर रहा है, तो एक टुकड़े के अनुसार रैखिक घनत्व फलन को त्रिकोण वितरण के माध्यम से भी नमूना लिया जा सकता है<ref>{{cite journal |first=D. B. |last=Thomas |first2=W. |last2=Luk |title=टुकड़े-टुकड़े रैखिक अनुमानों के माध्यम से गैर-समान यादृच्छिक संख्या पीढ़ी|journal=IET Computers & Digital Techniques |volume=1 |issue=4 |pages=312–321 |year=2007 |doi=10.1049/iet-cdt:20060188 }}</ref> | ||
# मूल्यांकन की लागत से संभावित रूप से बचने के लिए हम (लॉग) समतलता आवश्यकता का और भी लाभ उठा सकते हैं <math>f \left( x \right)</math> जब आपका नमूना स्वीकार किया जाता है। | # मूल्यांकन की लागत से संभावित रूप से बचने के लिए हम (लॉग) समतलता आवश्यकता का और भी लाभ उठा सकते हैं <math>f \left( x \right)</math> जब आपका नमूना स्वीकार किया जाता है। | ||
#* जैसे हम के मानों का उपयोग करके एक टुकड़े की रैखिक ऊपरी सीमा (लिफ़ाफ़ा | #* जैसे हम के मानों का उपयोग करके एक टुकड़े की रैखिक ऊपरी सीमा (लिफ़ाफ़ा फलन) का निर्माण कर सकते हैं <math> h \left(x \right) </math> कि हमें अस्वीकृति की वर्तमान श्रृंखला में मूल्यांकन करना था, हम इन मूल्यों का उपयोग करके एक टुकड़े की रैखिक निचली सीमा (निचोड़ने का कार्य) भी बना सकते हैं। | ||
#* मूल्यांकन करने से पहले (संभावित महंगा) <math>f \left( x \right)</math> यह देखने के लिए कि आपका नमूना स्वीकार किया जाएगा या नहीं, हम पहले से ही जान सकते हैं कि यह (आदर्श रूप से सस्ता) के खिलाफ तुलना करके स्वीकार किया जाएगा या नहीं <math> g_l \left( x \right) </math> (या <math>h_l \left( x \right)</math> इस | #* मूल्यांकन करने से पहले (संभावित महंगा) <math>f \left( x \right)</math> यह देखने के लिए कि आपका नमूना स्वीकार किया जाएगा या नहीं, हम पहले से ही जान सकते हैं कि यह (आदर्श रूप से सस्ता) के खिलाफ तुलना करके स्वीकार किया जाएगा या नहीं <math> g_l \left( x \right) </math> (या <math>h_l \left( x \right)</math> इस स्थितियों में) निचोड़ने का कार्य जो उपलब्ध है। | ||
#* गिलक्स द्वारा सुझाए जाने पर भी यह निचोड़ने वाला कदम वैकल्पिक है। सर्वोत्तम रूप से यह आपको आपके (गड़बड़ और/या महंगे) लक्ष्य घनत्व के केवल एक अतिरिक्त मूल्यांकन से बचाता है। | #* गिलक्स द्वारा सुझाए जाने पर भी यह निचोड़ने वाला कदम वैकल्पिक है। सर्वोत्तम रूप से यह आपको आपके (गड़बड़ और/या महंगे) लक्ष्य घनत्व के केवल एक अतिरिक्त मूल्यांकन से बचाता है। चूंकि, संभवतः विशेष रूप से महंगे घनत्व कार्यों के लिए (और शून्य की ओर अस्वीकृति दर के तेजी से अभिसरण को मानते हुए) यह अंतिम रनटाइम में एक बड़ा अंतर बना सकता है। | ||
इस पद्धति में अनिवार्य रूप से सीधी-रेखा खंडों के एक लिफाफे को क्रमिक रूप से निर्धारित करना | इस पद्धति में अनिवार्य रूप से सीधी-रेखा खंडों के एक लिफाफे को क्रमिक रूप से निर्धारित करना सम्मिलित है जो लघुगणक को बेहतर और अच्छा बनाता है, जबकि अभी भी वक्र के ऊपर शेष है, निश्चित संख्या में खंडों (संभवतः केवल एक स्पर्शरेखा रेखा) से प्रारंभ होता है। एक छोटे घातीय यादृच्छिक चर से नमूनाकरण सीधा है। बस एक समान यादृच्छिक चर का लॉग लें (उचित अंतराल और संबंधित ट्रंकेशन के साथ)। | ||
दुर्भाग्य से, एआरएस को केवल लॉग-अवतल लक्ष्य घनत्व से नमूनाकरण से ही | दुर्भाग्य से, एआरएस को केवल लॉग-अवतल लक्ष्य घनत्व से नमूनाकरण से ही प्रयुक्त किया जा सकता है। इस कारण से, गैर-लॉग-अवतल लक्ष्य वितरण से निपटने के लिए साहित्य में एआरएस के कई विस्तार प्रस्तावित किए गए हैं।<ref>{{Cite journal|title = टी-अवतल वितरण से नमूनाकरण के लिए एक अस्वीकृति तकनीक|journal = ACM Trans. Math. Softw.|date = 1995-06-01|issn = 0098-3500|pages = 182–193|volume = 21|issue = 2|doi = 10.1145/203082.203089|first = Wolfgang|last = Hörmann|citeseerx = 10.1.1.56.6055}}</ref><ref>{{Cite journal|title = रूपांतरित घनत्वों के अवतल गुणों का उपयोग करते हुए यादृच्छिक चर उत्पादन|jstor = 1390680|journal = Journal of Computational and Graphical Statistics|date = 1998-12-01|pages = 514–528|volume = 7|issue = 4|doi = 10.2307/1390680|first = M.|last = Evans|first2 = T.|last2 = Swartz|citeseerx = 10.1.1.53.9001}}</ref><ref>{{Cite journal|title = अवतल-उत्तल अनुकूली अस्वीकृति नमूनाकरण|journal = Journal of Computational and Graphical Statistics|date = 2011-01-01|issn = 1061-8600|pages = 670–691|volume = 20|issue = 3|doi = 10.1198/jcgs.2011.09058|first = Dilan|last = Görür|first2 = Yee Whye|last2 = Teh}}</ref> इसके अतिरिक्त, एआरएस और मेट्रोपोलिस-हेस्टिंग्स पद्धति के विभिन्न संयोजनों को एक सार्वभौमिक सैम्पलर प्राप्त करने के लिए डिज़ाइन किया गया है जो एक स्व-ट्यूनिंग प्रस्ताव घनत्व बनाता है (यानी, एक प्रस्ताव स्वचालित रूप से निर्मित और लक्ष्य के लिए अनुकूलित)। विधियों के इस वर्ग को अधिकांशतः एडेप्टिव रिजेक्शन मेट्रोपोलिस सैंपलिंग (एआरएमएस) एल्गोरिदम कहा जाता है।<ref>{{Cite journal|title = गिब्स सैंपलिंग के भीतर अनुकूली अस्वीकृति मेट्रोपोलिस नमूनाकरण|jstor = 2986138|journal = Journal of the Royal Statistical Society |series=Series C (Applied Statistics)|date = 1995-01-01|pages = 455–472|volume = 44|issue = 4|doi = 10.2307/2986138|first = W. R.|last = Gilks|first2 = N. G.|last2 = Best|author2-link= Nicky Best |first3 = K. K. C.|last3 = Tan}}</ref><ref>{{Cite journal|title = Adaptive rejection Metropolis sampling using Lagrange interpolation polynomials of degree 2|journal = Computational Statistics & Data Analysis|date = 2008-03-15|pages = 3408–3423|volume = 52|issue = 7|doi = 10.1016/j.csda.2008.01.005|first = Renate|last = Meyer|first2 = Bo|last2 = Cai|first3 = François|last3 = Perron}}</ref> परिणामी अनुकूली तकनीकों को हमेशा प्रयुक्त किया जा सकता है लेकिन उत्पन्न नमूने इस मामले में सहसंबद्ध होते हैं (हालांकि पुनरावृत्तियों की संख्या बढ़ने पर सहसंबंध जल्दी से शून्य हो जाता है)। | ||
== यह भी देखें == | == यह भी देखें == |
Revision as of 01:05, 27 March 2023
संख्यात्मक विश्लेषण और कम्प्यूटेशनल आंकड़ों में, अस्वीकृति नमूनाकरण एक मूल तकनीक है जिसका उपयोग संभाव्यता वितरण से अवलोकन उत्पन्न करने के लिए किया जाता है। इसे सामान्यतः स्वीकृति-अस्वीकृति विधि या स्वीकार-अस्वीकार एल्गोरिथम भी कहा जाता है और यह एक प्रकार की सटीक सिमुलेशन विधि है। यह विधि किसी भी वितरण संभाव्यता घनत्व फलन के साथ के लिए काम करती है संभाव्यता घनत्व फलन के साथ।
अस्वीकृति नमूनाकरण अवलोकन पर आधारित है कि एक आयाम में एक यादृच्छिक चर का नमूना लेने के लिए, द्वि-आयामी कार्टेशियन ग्राफ का एक समान रूप से यादृच्छिक नमूनाकरण कर सकता है, और इसके घनत्व फलन के ग्राफ के तहत क्षेत्र में नमूने रख सकता है।[1][2][3] ध्यान दें कि इस संपत्ति को n-आयाम कार्यों तक बढ़ाया जा सकता है।
विवरण
रिजेक्शन सैंपलिंग के पीछे की प्रेरणा की कल्पना करने के लिए, एक बड़े आयताकार बोर्ड पर एक यादृच्छिक चर के घनत्व फलन को ग्राफ़ करने और उस पर डार्ट्स फेंकने की कल्पना करें। मान लें कि डार्ट्स समान रूप से बोर्ड के चारों ओर वितरित किए जाते हैं। अब उन सभी डार्ट्स को हटा दें जो वक्र के नीचे के क्षेत्र से बाहर हैं। शेष डार्ट्स वक्र के अंतर्गत क्षेत्र के अन्दर समान रूप से वितरित किए जाएंगे, और इन डार्ट्स के x-पोजिशन को यादृच्छिक चर के घनत्व के अनुसार वितरित किया जाएगा। ऐसा इसलिए है क्योंकि डार्ट्स के लिए सबसे अधिक जगह है जहां वक्र उच्चतम है और इस प्रकार संभाव्यता घनत्व सबसे बड़ा है।
दृश्य जैसा कि अभी वर्णित किया गया है, अस्वीकृति नमूनाकरण के एक विशेष रूप के बराबर है जहाँ प्रस्ताव वितरण एक समान है (इसलिए इसका ग्राफ़ एक आयत है)। अस्वीकृति नमूनाकरण का सामान्य रूप मानता है कि बोर्ड आवश्यक रूप से आयताकार नहीं है, लेकिन कुछ प्रस्ताव वितरण के घनत्व के अनुसार आकार दिया गया है, जिसे हम जानते हैं कि कैसे नमूना लेना है (उदाहरण के लिए, उल्टा नमूनाकरण का उपयोग करके), और जो कम से कम हर बार उच्च है उस वितरण के रूप में इंगित करें जिससे हम नमूना लेना चाहते हैं, ताकि पूर्व पूरी तरह से उत्तरार्द्ध को घेर ले। (अन्यथा, घुमावदार क्षेत्र के कुछ भाग होंगे जिनसे हम नमूना लेना चाहते हैं, कभी नहीं पहुंचा जा सकता।)
अस्वीकृति नमूना निम्नानुसार काम करता है:
- प्रस्ताव वितरण से x-अक्ष पर एक बिंदु का नमूना लें।
- प्रस्ताव वितरण के प्रायिकता घनत्व फलन के अधिकतम y- मान तक, इस x- स्थिति पर एक लंबवत रेखा बनाएं।
- इस रेखा के साथ समान रूप से 0 से अधिकतम संभाव्यता घनत्व फलन का नमूना लें। यदि नमूनाकृत मान इस लंबवत रेखा पर वांछित वितरण के मान से अधिक है, तो x-मान को अस्वीकार करें और चरण 1 पर वापस लौटें; अन्यथा x-मान वांछित वितरण से एक नमूना है।
इस एल्गोरिथ्म का उपयोग किसी भी वक्र के अंतर्गत क्षेत्र से नमूना लेने के लिए किया जा सकता है, भले ही फलन 1 को एकीकृत करता हो या नहीं। वास्तव में, किसी फलन को स्थिरांक द्वारा स्केल करने से नमूना x-स्थितियों पर कोई प्रभाव नहीं पड़ता है। इस प्रकार, एल्गोरिथ्म का उपयोग एक ऐसे वितरण से नमूना लेने के लिए किया जा सकता है जिसका सामान्यीकरण स्थिरांक अज्ञात है, जो कम्प्यूटेशनल आंकड़ों में सामान्य है।
सिद्धांत
रिजेक्शन सैंपलिंग पद्धति लक्ष्य वितरण से सैंपलिंग मान उत्पन्न करती है मनमाने ढंग से संभाव्यता घनत्व फलन के साथ प्रस्ताव वितरण का उपयोग करके संभाव्यता घनत्व के साथ . विचार यह है कि कोई एक नमूना मूल्य उत्पन्न कर सकता है इसके अतिरिक्त से नमूना लेना और से नमूना स्वीकार करना संभावना के साथ , ड्रॉ को दोहराते हुए जब तक कोई मान स्वीकार नहीं किया जाता। यहाँ संभावना अनुपात पर एक स्थिर, परिमित सीमा है , संतुष्टि देने वाला के समर्थन (गणित) पर ; दूसरे शब्दों में, एम को संतुष्ट करना चाहिए के सभी मूल्यों के लिए . ध्यान दें कि इसके लिए समर्थन की आवश्यकता है का समर्थन सम्मिलित करना चाहिए -दूसरे शब्दों में, जब कभी भी .है
इस पद्धति का सत्यापन आवरण सिद्धांत है: जोड़ी का अनुकरण करते समय , एक के सबग्राफ पर एक समान सिमुलेशन का उत्पादन करता है . केवल ऐसी जोड़ियों को स्वीकार करना फिर जोड़े उत्पन करता है के सबग्राफ पर समान रूप से वितरित और इस प्रकार, आंशिक रूप से, एक अनुकरण इसका मतलब यह है कि, पर्याप्त प्रतिकृति के साथ, एल्गोरिथम वांछित वितरण से एक नमूना उत्पन्न करता है . इस एल्गोरिथम के लिए कई एक्सटेंशन हैं, जैसे महानगर एल्गोरिथम ।
यह विधि मोंटे कार्लो पद्धति तकनीकों के सामान्य क्षेत्र से संबंधित है, जिसमें मार्कोव चेन मोंटे कार्लो एल्गोरिदम सम्मिलित हैं जो लक्ष्य वितरण से अनुकरण प्राप्त करने के लिए प्रॉक्सी वितरण का भी उपयोग करते हैं। . यह मेट्रोपोलिस एल्गोरिथम जैसे एल्गोरिदम के लिए आधार बनाता है।
बिना शर्त स्वीकृति संभावना प्रस्तावित नमूनों का अनुपात है जो स्वीकार किए जाते हैं, जो है
से आवश्यक नमूनों की संख्या एक स्वीकृत मूल्य प्राप्त करने के लिए इस प्रकार संभाव्यता के साथ एक ज्यामितीय वितरण होता है , जिसका मतलब है . सहज रूप से, एल्गोरिथम की कम्प्यूटेशनल जटिलता के माप के रूप में आवश्यक पुनरावृत्तियों की अपेक्षित संख्या है।
उपरोक्त समीकरण को फिर से लिखें,
अस्वीकृति नमूनाकरण का उपयोग अधिकांशतः उन स्थितियों में किया जाता है जहां प्रपत्र नमूनाकरण को कठिन बनाता है। अस्वीकृति एल्गोरिथम के एकल पुनरावृत्ति के लिए प्रस्ताव वितरण से नमूने लेने, एक समान वितरण से आरेखण करने और प्रस्ताव का मूल्यांकन करने की आवश्यकता होती है अभिव्यक्ति। इस प्रकार अस्वीकृति नमूनाकरण किसी अन्य विधि की तुलना में अधिक कुशल होता है जब भी इन कार्यों की m गुना लागत - जो अस्वीकृति नमूनाकरण के साथ नमूना प्राप्त करने की अपेक्षित लागत होती है - अन्य विधि का उपयोग करके नमूना प्राप्त करने की लागत से कम होती है।
एल्गोरिथम
एल्गोरिथम, जिसका उपयोग जॉन वॉन न्यूमैन द्वारा किया गया था[4] और जॉर्जेस-लुई लेक्लेर, कॉम्टे डे बफन और बफन की सुई के समय से है,[5] वितरण से एक नमूना प्राप्त करता है घनत्व के साथ वितरण से नमूने का उपयोग करना घनत्व के साथ निम्नलिखित नुसार:
- नमूना प्राप्त करें वितरण से और एक नमूना से (इकाई अंतराल पर समान वितरण)।
- चेक करें या नहीं .
- यदि यह मान्य है, तो स्वीकार करें से लिए गए नमूने के रूप में ;
- यदि नहीं, के मूल्य को अस्वीकार करें और नमूनाकरण चरण पर लौटें।
एल्गोरिदम औसत लेगा पुनरावृत्तियाँ नमूना प्राप्त करने के लिए पुनरावृत्तियाँ।
सहज विधियों का उपयोग करके नमूनाकरण पर लाभ
कुछ स्थितियों में सरल तरीकों की तुलना में अस्वीकृति नमूनाकरण कहीं अधिक कुशल हो सकता है। उदाहरण के लिए, नमूनाकरण के रूप में एक समस्या दी गई है सशर्त रूप से सेट दिया , अर्थात।, , कभी-कभी भोली विधियों का उपयोग करके आसानी से अनुकरण किया जा सकता है (उदाहरण के लिए प्रतिलोम रूपांतरण नमूनाकरण द्वारा):
- नमूना स्वतंत्र रूप से, और उन्हें संतुष्ट करने वालों को छोड़ दें * आउटपुट:
समस्या यह है कि यह नमूनाकरण कठिन और अक्षम हो सकता है, यदि . पुनरावृत्तियों की अपेक्षित संख्या होगी , जो अनंत के करीब हो सकता है। इसके अतिरिक्त, जब आप अस्वीकृति नमूनाकरण विधि प्रयुक्त करते हैं, तब भी बाउंड को अनुकूलित करना हमेशा कठिन होता है संभावना अनुपात के लिए अधिक से अधिक, बड़ा है और अस्वीकृति दर अधिक है, एल्गोरिथ्म बहुत अक्षम हो सकता है। प्राकृतिक घातीय परिवार (यदि यह उपस्थित है), जिसे घातीय झुकाव के रूप में भी जाना जाता है, प्रस्ताव वितरण का एक वर्ग प्रदान करता है जो गणना जटिलता को कम कर सकता है, का मान और संगणनाओं को गति दें (उदाहरण देखें: प्राकृतिक घातीय परिवारों के साथ काम करना)।
उदाहरण: प्राकृतिक घातीय परिवारों के साथ काम करना
एक यादृच्छिक चर दिया , लक्ष्य वितरण है। सादगी के लिए मान लें, घनत्व फलन स्पष्ट रूप से लिखा जा सकता है . प्रस्ताव को इस रूप में चुनें
- प्रस्ताव वितरण का रूप चुनें , लॉग मोमेंट-जेनरेटिंग फलन के रूप में , जिसका अर्थ है कि यह एक सामान्य वितरण है .
- अच्छी तरह से चुने गए का फैसला करें प्रस्ताव वितरण के लिए इस सेटअप में, चुनने का सहज विधि लगाना है , वह है
- स्पष्ट रूप से लक्ष्य, प्रस्ताव और संभावना अनुपात लिखें
- सीमा प्राप्त करें संभावना अनुपात के लिए , जो कि एक घटता हुआ कार्य है , इसलिए
- अस्वीकृति नमूनाकरण मानदंड: के लिए , अगर रखता है, का मान स्वीकार करता है ; यदि नहीं, तो नया नमूना लेना जारी रखें और नया स्वीकृति तक।
उपरोक्त उदाहरण के लिए, दक्षता की माप के रूप में, पुनरावृत्तियों की अपेक्षित संख्या एनईएफ-आधारित अस्वीकृति नमूना पद्धति क्रम b की है, अर्थात , जबकि भोली पद्धति के अंतर्गत, पुनरावृत्तियों की अपेक्षित संख्या है , जो कहीं अधिक अक्षम है।
सामान्यतः, घातीय झुकाव, प्रस्ताव वितरण का एक पैरामीट्रिक वर्ग, अपने उपयोगी गुणों के साथ अनुकूलन समस्याओं को आसानी से हल करता है जो सीधे प्रस्ताव के वितरण की विशेषता बताते हैं। इस प्रकार की समस्या के लिए अनुकरण करना सशर्त रूप से , सरल वितरण के वर्ग के बीच, एनईएफ का उपयोग करने की चाल है, जो जटिलता पर कुछ नियंत्रण प्राप्त करने में सहायता करती है और गणना को काफी तेज करती है। दरअसल, एनईएफ का उपयोग करने के गहरे गणितीय कारण हैं।
कमियां
यदि नमूना लिया जा रहा कार्य एक निश्चित क्षेत्र में अत्यधिक केंद्रित है, उदाहरण के लिए एक फलन जिसमें किसी स्थान पर स्पाइक है, तो अस्वीकृति नमूनाकरण से बहुत सारे अवांछित नमूने लिए जा सकते हैं। कई वितरणों के लिए, इस समस्या को एक अनुकूली विस्तार (देखें # अनुकूली अस्वीकृति नमूनाकरण) का उपयोग करके या यूनिफार्म के अनुपात की विधि के साथ चर के उचित परिवर्तन के साथ हल किया जा सकता है। इसके अतिरिक्त, जैसे-जैसे समस्या का आयाम बड़ा होता जाता है, एम्बेडिंग वॉल्यूम के कोनों में एम्बेडेड वॉल्यूम का अनुपात शून्य की ओर बढ़ता जाता है, इस प्रकार एक उपयोगी नमूना उत्पन्न होने से पहले बहुत सारे अस्वीकरण हो सकते हैं, इस प्रकार एल्गोरिथम को अक्षम बना दिया जाता है और अव्यावहारिक। आयामीता का अपवाद देखें। उच्च आयामों में, एक अलग दृष्टिकोण का उपयोग करना आवश्यक है, सामान्यतः एक मार्कोव श्रृंखला मोंटे कार्लो विधि जैसे मेट्रोपोलिस नमूनाकरण या गिब्स नमूनाकरण। (चूंकि, गिब्स नमूनाकरण, जो एक बहु-आयामी नमूनाकरण समस्या को निम्न-आयामी नमूनों की एक श्रृंखला में विभाजित करता है, इसके एक चरण के रूप में अस्वीकृति नमूनाकरण का उपयोग कर सकता है।)
अनुकूली अस्वीकृति नमूनाकरण
कई वितरणों के लिए, एक ऐसा प्रस्ताव वितरण खोजना मुश्किल है जिसमें बहुत अधिक बर्बाद जगह के बिना दिए गए वितरण को सम्मिलित किया गया हो। अस्वीकृति नमूनाकरण का एक विस्तार जिसका उपयोग इस कठिनाई को दूर करने के लिए किया जा सकता है और विभिन्न प्रकार के वितरणों से कुशलता से नमूना लिया जा सकता है (बशर्ते कि उनके पास लॉगरिदमिक रूप से अवतल कार्य हो। लॉग-अवतल घनत्व कार्य, जो वास्तव में अधिकांश सामान्य वितरणों के स्थितियों में है- यहां तक कि जिनके घनत्व कार्य स्वयं अवतल नहीं हैं) को 'अनुकूली अस्वीकृति नमूनाकरण (एआरएस)' के रूप में जाना जाता है।
1992 में गिल्क्स द्वारा अंततः पेश की गई इस तकनीक के लिए तीन मूल विचार हैं:[6]
- यदि यह सहायता करता है, तो इसके अतिरिक्त लॉग स्पेस (जैसे लॉग-प्रायिकता या लॉग-घनत्व) में अपने लिफाफा वितरण को परिभाषित करें। यानी साथ काम करें के अतिरिक्त सीधे।
- अधिकांशतः, जिन वितरणों में बीजगणितीय रूप से गड़बड़ घनत्व कार्य होते हैं, उनके पास यथोचित सरल लॉग घनत्व कार्य होते हैं (अर्थात जब गन्दा है, के साथ काम करना सरल हो सकता है या कम से कम, टुकड़ों में रैखिक के करीब)।
- एक समान लिफ़ाफ़ा घनत्व फलन के अतिरिक्त, अपने लिफाफे के रूप में एक टुकड़ा-वार रैखिक घनत्व फलन का उपयोग करें।
- हर बार जब आपको किसी नमूने को अस्वीकार करना हो, तो आप के मान का उपयोग कर सकते हैं जिसका आपने मूल्यांकन किया है, टुकड़ों के सन्निकटन में सुधार करने के लिए . इससे आपके अगले प्रयास के अस्वीकृत होने की संभावना कम हो जाती है। असम्बद्ध रूप से, आपके नमूने को अस्वीकार करने की आवश्यकता की संभावना शून्य हो जानी चाहिए, और व्यवहार में, अधिकांशतः बहुत तेज़ी से।
- जैसा कि प्रस्तावित है, किसी भी समय हम एक ऐसा बिंदु चुनते हैं जिसे अस्वीकार कर दिया जाता है, हम लिफाफे को एक अन्य रेखा खंड के साथ कसते हैं जो उस बिंदु पर स्पर्शरेखा है जो चुने गए बिंदु के समान x-निर्देशांक के साथ है।
- प्रस्ताव लॉग वितरण का टुकड़ावार रेखीय मॉडल टुकड़ेवार घातीय वितरण के एक सेट में परिणाम देता है (यानी एक या अधिक घातीय वितरण के खंड, अंत से अंत तक संलग्न)। घातीय वितरण अच्छी तरह से व्यवहार किया जाता है और अच्छी तरह से समझा जाता है। एक घातीय वितरण का लघुगणक एक सीधी रेखा है, और इसलिए इस पद्धति में अनिवार्य रूप से रेखा खंडों की एक श्रृंखला में घनत्व के लघुगणक को सम्मिलित करना सम्मिलित है। यह लॉग-अवतल प्रतिबंध का स्रोत है: यदि कोई वितरण लॉग-अवतल है, तो इसका लघुगणक अवतल (उल्टा-नीचे U जैसा आकार) है, जिसका अर्थ है कि वक्र के लिए स्पर्शरेखा रेखा खंड हमेशा वक्र के ऊपर से गुजरेगा।
- यदि लॉग स्पेस में काम नहीं कर रहा है, तो एक टुकड़े के अनुसार रैखिक घनत्व फलन को त्रिकोण वितरण के माध्यम से भी नमूना लिया जा सकता है[7]
- मूल्यांकन की लागत से संभावित रूप से बचने के लिए हम (लॉग) समतलता आवश्यकता का और भी लाभ उठा सकते हैं जब आपका नमूना स्वीकार किया जाता है।
- जैसे हम के मानों का उपयोग करके एक टुकड़े की रैखिक ऊपरी सीमा (लिफ़ाफ़ा फलन) का निर्माण कर सकते हैं कि हमें अस्वीकृति की वर्तमान श्रृंखला में मूल्यांकन करना था, हम इन मूल्यों का उपयोग करके एक टुकड़े की रैखिक निचली सीमा (निचोड़ने का कार्य) भी बना सकते हैं।
- मूल्यांकन करने से पहले (संभावित महंगा) यह देखने के लिए कि आपका नमूना स्वीकार किया जाएगा या नहीं, हम पहले से ही जान सकते हैं कि यह (आदर्श रूप से सस्ता) के खिलाफ तुलना करके स्वीकार किया जाएगा या नहीं (या इस स्थितियों में) निचोड़ने का कार्य जो उपलब्ध है।
- गिलक्स द्वारा सुझाए जाने पर भी यह निचोड़ने वाला कदम वैकल्पिक है। सर्वोत्तम रूप से यह आपको आपके (गड़बड़ और/या महंगे) लक्ष्य घनत्व के केवल एक अतिरिक्त मूल्यांकन से बचाता है। चूंकि, संभवतः विशेष रूप से महंगे घनत्व कार्यों के लिए (और शून्य की ओर अस्वीकृति दर के तेजी से अभिसरण को मानते हुए) यह अंतिम रनटाइम में एक बड़ा अंतर बना सकता है।
इस पद्धति में अनिवार्य रूप से सीधी-रेखा खंडों के एक लिफाफे को क्रमिक रूप से निर्धारित करना सम्मिलित है जो लघुगणक को बेहतर और अच्छा बनाता है, जबकि अभी भी वक्र के ऊपर शेष है, निश्चित संख्या में खंडों (संभवतः केवल एक स्पर्शरेखा रेखा) से प्रारंभ होता है। एक छोटे घातीय यादृच्छिक चर से नमूनाकरण सीधा है। बस एक समान यादृच्छिक चर का लॉग लें (उचित अंतराल और संबंधित ट्रंकेशन के साथ)।
दुर्भाग्य से, एआरएस को केवल लॉग-अवतल लक्ष्य घनत्व से नमूनाकरण से ही प्रयुक्त किया जा सकता है। इस कारण से, गैर-लॉग-अवतल लक्ष्य वितरण से निपटने के लिए साहित्य में एआरएस के कई विस्तार प्रस्तावित किए गए हैं।[8][9][10] इसके अतिरिक्त, एआरएस और मेट्रोपोलिस-हेस्टिंग्स पद्धति के विभिन्न संयोजनों को एक सार्वभौमिक सैम्पलर प्राप्त करने के लिए डिज़ाइन किया गया है जो एक स्व-ट्यूनिंग प्रस्ताव घनत्व बनाता है (यानी, एक प्रस्ताव स्वचालित रूप से निर्मित और लक्ष्य के लिए अनुकूलित)। विधियों के इस वर्ग को अधिकांशतः एडेप्टिव रिजेक्शन मेट्रोपोलिस सैंपलिंग (एआरएमएस) एल्गोरिदम कहा जाता है।[11][12] परिणामी अनुकूली तकनीकों को हमेशा प्रयुक्त किया जा सकता है लेकिन उत्पन्न नमूने इस मामले में सहसंबद्ध होते हैं (हालांकि पुनरावृत्तियों की संख्या बढ़ने पर सहसंबंध जल्दी से शून्य हो जाता है)।
यह भी देखें
- उलटा नमूना बदलना
- वर्दी का अनुपात
- छद्म यादृच्छिक संख्या नमूनाकरण
- ज़िगगुरैट एल्गोरिथम
संदर्भ
- ↑ Casella, George; Robert, Christian P.; Wells, Martin T. (2004). सामान्यीकृत स्वीकार-अस्वीकार नमूना योजनाएँ. Institute of Mathematical Statistics. pp. 342–347. doi:10.1214/lnms/1196285403. ISBN 9780940600614.
- ↑ Neal, Radford M. (2003). "Slice Sampling". Annals of Statistics. 31 (3): 705–767. doi:10.1214/aos/1056562461. MR 1994729. Zbl 1051.65007.
- ↑ Bishop, Christopher (2006). "11.4: Slice sampling". Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
- ↑ Forsythe, George E. (1972). "सामान्य और अन्य वितरणों से यादृच्छिक नमूनाकरण के लिए वॉन न्यूमैन की तुलना विधि". Mathematics of Computation. 26 (120): 817–826. doi:10.2307/2005864. ISSN 0025-5718.
- ↑ Legault, Geoffrey; Melbourne, Brett A. (2019-03-01). "निरंतर समय के स्टोकेस्टिक जनसंख्या मॉडल में पर्यावरण परिवर्तन के लिए लेखांकन". Theoretical Ecology (in English). 12 (1): 31–48. doi:10.1007/s12080-018-0386-z. ISSN 1874-1746.
- ↑ Gilks, W. R.; Wild, P. (1992). "गिब्स नमूनाकरण के लिए अनुकूली अस्वीकृति नमूनाकरण". Journal of the Royal Statistical Society. Series C (Applied Statistics). 41 (2): 337–348. doi:10.2307/2347565.
- ↑ Thomas, D. B.; Luk, W. (2007). "टुकड़े-टुकड़े रैखिक अनुमानों के माध्यम से गैर-समान यादृच्छिक संख्या पीढ़ी". IET Computers & Digital Techniques. 1 (4): 312–321. doi:10.1049/iet-cdt:20060188.
- ↑ Hörmann, Wolfgang (1995-06-01). "टी-अवतल वितरण से नमूनाकरण के लिए एक अस्वीकृति तकनीक". ACM Trans. Math. Softw. 21 (2): 182–193. CiteSeerX 10.1.1.56.6055. doi:10.1145/203082.203089. ISSN 0098-3500.
- ↑ Evans, M.; Swartz, T. (1998-12-01). "रूपांतरित घनत्वों के अवतल गुणों का उपयोग करते हुए यादृच्छिक चर उत्पादन". Journal of Computational and Graphical Statistics. 7 (4): 514–528. CiteSeerX 10.1.1.53.9001. doi:10.2307/1390680. JSTOR 1390680.
- ↑ Görür, Dilan; Teh, Yee Whye (2011-01-01). "अवतल-उत्तल अनुकूली अस्वीकृति नमूनाकरण". Journal of Computational and Graphical Statistics. 20 (3): 670–691. doi:10.1198/jcgs.2011.09058. ISSN 1061-8600.
- ↑ Gilks, W. R.; Best, N. G.; Tan, K. K. C. (1995-01-01). "गिब्स सैंपलिंग के भीतर अनुकूली अस्वीकृति मेट्रोपोलिस नमूनाकरण". Journal of the Royal Statistical Society. Series C (Applied Statistics). 44 (4): 455–472. doi:10.2307/2986138. JSTOR 2986138.
- ↑ Meyer, Renate; Cai, Bo; Perron, François (2008-03-15). "Adaptive rejection Metropolis sampling using Lagrange interpolation polynomials of degree 2". Computational Statistics & Data Analysis. 52 (7): 3408–3423. doi:10.1016/j.csda.2008.01.005.
अग्रिम पठन
- Robert, C. P.; Casella, G. (2004). Monte Carlo Statistical Methods (Second ed.). New York: Springer-Verlag.