सरल यादृच्छिक नमूना: Difference between revisions
No edit summary |
No edit summary |
||
(9 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{Refimprove|date=November 2011}} | {{Refimprove|date=November 2011}} | ||
आँकड़ों में, एक साधारण यादृच्छिक नमूना (या एसआरएस) एक बड़े [ | आँकड़ों में, एक साधारण यादृच्छिक नमूना (या एसआरएस) एक बड़े [<nowiki/>[[सबसेट|उपसमुच्चय]] (गणित)(एक सांख्यिकीय आबादी) से चुने गए [[व्यक्तियों]] (एक [[नमूना (सांख्यिकी)]]) का एक उपसमुच्चय होता है जिसमें सभी समान संभावना के साथ व्यक्तियों के एक उपसमुच्चय को यादृच्छिकरण चुना जाता है। यह यादृच्छिक तरीके से नमूने के चयन की एक प्रक्रिया है। एसआरएस में, ''k'' व्यक्तियों के प्रत्येक उपसमुच्चय में नमूने के लिए चुने जाने की उतनी ही संभावना है जितनी कि ''k'' व्यक्तियों के किसी अन्य उपसमुच्चय के रूप में।<ref>{{cite book |last = Yates |first = Daniel S. |author2=David S. Moore |author3=Daren S. Starnes |title = The Practice of Statistics, 3rd Ed. |publisher = [[W.H. Freeman|Freeman]] |year = 2008 |isbn = 978-0-7167-7309-2 }}</ref> एक साधारण यादृच्छिक नमूना एक निष्पक्ष नमूनाकरण यांत्रिकी है। सरल यादृच्छिक नमूनाकरण एक बुनियादी प्रकार का नमूनाकरण है और यह अन्य अधिक जटिल नमूनाकरण विधियों का एक घटक हो सकता है। | ||
== परिचय == | == परिचय == | ||
साधारण यादृच्छिक प्रतिचयन का सिद्धांत यह है कि वस्तुओं के प्रत्येक समूह के चुने जाने की समान संभावना होती है। उदाहरण के लिए, मान लीजिए | साधारण यादृच्छिक प्रतिचयन का सिद्धांत यह है कि वस्तुओं के प्रत्येक समूह के चुने जाने की समान संभावना होती है। उदाहरण के लिए, मान लीजिए N कॉलेज के छात्र बास्केटबॉल खेल के लिए टिकट प्राप्त करना चाहते हैं, लेकिन उनके लिए केवल X < N टिकट हैं, इसलिए वे यह देखने का एक उचित तरीका तय करते हैं कि किसे जाना है। फिर, सभी को 0 से N-1 की सीमा में एक संख्या दी जाती है, और यादृच्छिक संख्याएँ या तो इलेक्ट्रॉनिक रूप से या यादृच्छिक संख्याओं की तालिका से उत्पन्न होती हैं। 0 से N-1 की सीमा के बाहर की संख्या को अनदेखा कर दिया जाता है, जैसा कि पहले से चयनित किसी भी संख्या में होता है। पहले X नंबर भाग्यशाली टिकट विजेताओं की पहचान करेंगे। | ||
छोटी आबादी में और अक्सर बड़ी आबादी में, इस तरह के नमूने प्रायः 'बिना प्रतिस्थापन' के किए जाते हैं, यानी, एक से अधिक बार आबादी के किसी भी सदस्य को जानबूझकर चुनने से बचा जाता है। हालांकि सरल यादृच्छिक नमूनाकरण प्रतिस्थापन के साथ आयोजित किया जा सकता है, यह कम आम है और सामान्य रूप से 'प्रतिस्थापन के साथ' सरल यादृच्छिक नमूनाकरण के रूप में अधिक पूर्ण रूप से वर्णित किया जाएगा। | छोटी आबादी में और अक्सर बड़ी आबादी में, इस तरह के नमूने प्रायः 'बिना प्रतिस्थापन' के किए जाते हैं, यानी, एक से अधिक बार आबादी के किसी भी सदस्य को जानबूझकर चुनने से बचा जाता है। हालांकि सरल यादृच्छिक नमूनाकरण प्रतिस्थापन के साथ आयोजित किया जा सकता है, यह कम आम है और सामान्य रूप से 'प्रतिस्थापन के साथ' सरल यादृच्छिक नमूनाकरण के रूप में अधिक पूर्ण रूप से वर्णित किया जाएगा। | ||
Line 11: | Line 11: | ||
व्यक्तियों का एक निष्पक्ष यादृच्छिक चयन महत्वपूर्ण है ताकि यदि कई नमूने तैयार किए गए हों, तो औसत नमूना सटीक रूप से जनसंख्या का प्रतिनिधित्व करेगा। हालांकि, यह गारंटी नहीं देता है कि एक विशेष नमूना जनसंख्या का सही प्रतिनिधित्व है। सरल यादृच्छिक नमूनाकरण केवल नमूने के आधार पर पूरी आबादी के बारे में बाहरी रूप से मान्य निष्कर्ष निकालने की अनुमति देता है। | व्यक्तियों का एक निष्पक्ष यादृच्छिक चयन महत्वपूर्ण है ताकि यदि कई नमूने तैयार किए गए हों, तो औसत नमूना सटीक रूप से जनसंख्या का प्रतिनिधित्व करेगा। हालांकि, यह गारंटी नहीं देता है कि एक विशेष नमूना जनसंख्या का सही प्रतिनिधित्व है। सरल यादृच्छिक नमूनाकरण केवल नमूने के आधार पर पूरी आबादी के बारे में बाहरी रूप से मान्य निष्कर्ष निकालने की अनुमति देता है। | ||
संकल्पनात्मक रूप से, सरल यादृच्छिक प्रतिचयन प्रायिकता प्रतिचयन यांत्रिकी में सबसे सरल है। इसके लिए एक पूर्ण नमूना | संकल्पनात्मक रूप से, सरल यादृच्छिक प्रतिचयन प्रायिकता प्रतिचयन यांत्रिकी में सबसे सरल है। इसके लिए एक पूर्ण नमूना ढांचा की आवश्यकता होती है, जो कि बड़ी आबादी के निर्माण के लिए उपलब्ध या व्यवहार्य नहीं हो सकता है। यहां तक कि अगर एक पूर्ण रूपरेखा उपलब्ध है, तो जनसंख्या में इकाइयों के बारे में अन्य उपयोगी जानकारी उपलब्ध होने पर अधिक कुशल दृष्टिकोण संभव हो सकते हैं। | ||
लाभ यह है कि यह वर्गीकरण त्रुटि से मुक्त है, और इसके लिए | लाभ यह है कि यह वर्गीकरण त्रुटि से मुक्त है, और इसके लिए ढांचा के अलावा जनसंख्या के न्यूनतम अग्रिम ज्ञान की आवश्यकता होती है। इसकी सादगी भी इस तरह से एकत्र किए गए आंकड़े की व्याख्या करना अपेक्षाकृत आसान बनाती है। इन कारणों से, सरल यादृच्छिक नमूनाकरण उन स्थितियों के लिए सबसे उपयुक्त है जहां जनसंख्या के बारे में अधिक जानकारी उपलब्ध नहीं है और यादृच्छिक रूप से वितरित वस्तुओं पर आंकड़े संग्रह कुशलतापूर्वक आयोजित किया जा सकता है, या जहां नमूनाकरण की लागत सरलता की तुलना में दक्षता को कम महत्वपूर्ण बनाने के लिए अधिक कम है। यदि ये स्थितियाँ पकड़ में नहीं आती हैं, तो स्तरीकृत नमूनाकरण या क्लस्टर नमूनाकरण एक अधिक अच्छा विकल्प हो सकता है। | ||
== साधारण यादृच्छिक नमूने और अन्य तरीकों के बीच संबंध == | == साधारण यादृच्छिक नमूने और अन्य तरीकों के बीच संबंध == | ||
=== समान संभावना नमूनाकरण (ईपीएसईएम) === | === समान संभावना नमूनाकरण (ईपीएसईएम) === | ||
एक नमूना विधि जिसके लिए प्रत्येक व्यक्तिगत इकाई के चुने जाने का समान अवसर होता है, उसे समान संभाव्यता नमूनाकरण (लघु के लिए | एक नमूना विधि जिसके लिए प्रत्येक व्यक्तिगत इकाई के चुने जाने का समान अवसर होता है, उसे समान संभाव्यता नमूनाकरण (लघु के लिए ईपीएसईएम) कहा जाता है। | ||
एक साधारण यादृच्छिक नमूने का उपयोग करने से निरंतर एक | एक साधारण यादृच्छिक नमूने का उपयोग करने से निरंतर एक ईपीएसईएम होता है, लेकिन सभी ईपीएसईएम नमूने एसआरएस नहीं होते हैं। उदाहरण के लिए, यदि किसी शिक्षिका की कक्षा 6 स्तंभों की 5 पंक्तियों में व्यवस्थित है और वह 5 छात्रों का एक यादृच्छिक नमूना लेना चाहती है, तो वह यादृच्छिक रूप से 6 स्तंभों में से एक चुन सकती है। यह एक ईपीएसईएम नमूना होगा लेकिन 5 विद्यार्थियों के सभी उपसमुच्चय यहां समान रूप से होने की संभावना नहीं है, क्योंकि केवल एक स्तंभ के रूप में व्यवस्थित उपसमुच्चय चयन के लिए पात्र हैं। [[ बहुस्तरीय नमूनाकरण ]] के निर्माण के तरीके भी हैं, जो एसआरएस नहीं हैं, जबकि अंतिम सैंपल ईपीएसईएम होगा।<ref>Peters, Tim J., and Jenny I. Eachus. "Achieving equal probability of selection under various random sampling strategies." Paediatric and perinatal epidemiology 9.2 (1995): 219-224.</ref> उदाहरण के लिए, [[व्यवस्थित नमूनाकरण]] एक नमूना तैयार करता है जिसके लिए प्रत्येक व्यक्तिगत इकाई में सम्मिलित होने की समान संभावना होती है, लेकिन इकाइयों के विभिन्न सेटों में चयनित होने की अलग-अलग संभावनाएं होती हैं। | ||
ईपीएसईएम वाले नमूने स्वयं भार हैं, जिसका अर्थ है कि प्रत्येक नमूने के लिए चयन संभावना का व्युत्क्रम समान है। | |||
=== एक व्यवस्थित यादृच्छिक नमूना और एक साधारण यादृच्छिक नमूना === के बीच अंतर | === एक व्यवस्थित यादृच्छिक नमूना और एक साधारण यादृच्छिक नमूना === के बीच अंतर | ||
1000 छात्रों वाले एक | 1000 छात्रों वाले एक विद्यालय पर विचार करें, और मान लें कि एक शोधकर्ता आगे के अध्ययन के लिए उनमें से 100 का चयन करना चाहता है। उनके सभी नाम एक बाल्टी में डाले जाएंगे और फिर 100 नाम निकाले जाएंगे। न केवल प्रत्येक व्यक्ति के पास चुने जाने की समान संभावना होती है, बल्कि हम किसी दिए गए व्यक्ति के चुने जाने की संभावना (P) की भी आसानी से गणना कर सकते हैं, क्योंकि हम नमूना आकार (n) और जनसंख्या (N) जानते हैं: | ||
1. इस स्थिति में कि किसी दिए गए व्यक्ति को केवल एक बार चुना जा सकता है (अर्थात, चयन के बाद किसी व्यक्ति को चयन पूल से हटा दिया जाता है): | 1. इस स्थिति में कि किसी दिए गए व्यक्ति को केवल एक बार चुना जा सकता है (अर्थात, चयन के बाद किसी व्यक्ति को चयन पूल से हटा दिया जाता है): | ||
Line 45: | Line 45: | ||
P = 1-\left(1-\frac{1}{N}\right)^n = 1 - \left(\frac{999}{1000}\right)^{100} = 0.0952\dots \approx 9.5\% | P = 1-\left(1-\frac{1}{N}\right)^n = 1 - \left(\frac{999}{1000}\right)^{100} = 0.0952\dots \approx 9.5\% | ||
</math> | </math> | ||
इसका मतलब यह है कि | इसका मतलब यह है कि विद्यालय में प्रत्येक छात्र के पास किसी भी स्थिति में इस पद्धति का उपयोग करके चुने जाने का लगभग 10 में से 1 अवसर होता है। इसके अलावा, 100 छात्रों के किसी भी संयोजन में चयन की समान संभावना है। | ||
यदि यादृच्छिक नमूने में एक व्यवस्थित पैटर्न प्रस्तुत किया जाता है, तो इसे व्यवस्थित (यादृच्छिक) नमूनाकरण कहा जाता है। एक उदाहरण यह होगा कि यदि | यदि यादृच्छिक नमूने में एक व्यवस्थित पैटर्न प्रस्तुत किया जाता है, तो इसे व्यवस्थित (यादृच्छिक) नमूनाकरण कहा जाता है। एक उदाहरण यह होगा कि यदि विद्यालय में छात्रों के नाम के साथ 0001 से 1000 तक की संख्याएँ जुड़ी हुई थीं, और हमने एक यादृच्छिक प्रारंभिक बिंदु चुना, उदाहरण के लिए, 0533, और उसके बाद हमें 100 का नमूना देने के लिए हर 10वां नाम चुना (0993 तक पहुंचने के बाद 0003 से आरम्भ )। इस अर्थ में, यह यांत्रिकी क्लस्टर नमूनाकरण के समान है, क्योंकि पहली इकाई का चुनाव शेष का निर्धारण करेगा। यह अब सरल यादृच्छिक नमूनाकरण नहीं है, क्योंकि 100 छात्रों के कुछ संयोजनों में दूसरों की तुलना में बड़ी चयन संभावना है - उदाहरण के लिए, {3, 13, 23, ..., 993} में चयन का 1/10 अवसर है, जबकि {1 , 2, 3, ..., 100} को इस पद्धति के अंतर्गत नहीं चुना जा सकता है। | ||
== द्विबीजपत्री जनसंख्या का प्रतिचयन == | == द्विबीजपत्री जनसंख्या का प्रतिचयन == | ||
यदि जनसंख्या के सदस्य तीन प्रकार में आते हैं, कहते हैं नीला लाल और काला | यदि जनसंख्या के सदस्य तीन प्रकार में आते हैं, कहते हैं नीला, लाल और काला दिए गए आकार के नमूने में लाल तत्वों की संख्या नमूने के अनुसार अलग-अलग होगी और इसलिए एक यादृच्छिक चर है जिसका वितरण अध्ययन किया जा सकता है। यह वितरण पूर्ण जनसंख्या में लाल और काले तत्वों की संख्या पर निर्भर करता है। प्रतिस्थापन के साथ एक साधारण यादृच्छिक नमूने के लिए, वितरण एक [[द्विपद वितरण]] है। प्रतिस्थापन के बिना एक साधारण यादृच्छिक नमूने के लिए, एक [[हाइपरज्यामितीय वितरण]] प्राप्त करता है। | ||
== एल्गोरिदम == | == एल्गोरिदम == | ||
सरल यादृच्छिक प्रतिचयन के लिए कई कुशल एल्गोरिदम विकसित किए गए हैं।<ref>{{Cite book|title = नमूना एल्गोरिदम - स्प्रिंगर|date = 2006-01-01|doi = 10.1007/0-387-34240-0|isbn = 978-0-387-30814-2|series = Springer Series in Statistics|last1 = Tille|first1 = Yves|last2 = Tillé|first2 = Yves}}</ref><ref>{{Cite journal|url = http://jmlr.org/proceedings/papers/v28/meng13a.pdf|title = स्केलेबल सिंपल रैंडम सैंपलिंग और स्तरीकृत सैंपलिंग|last = Meng|first = Xiangrui|date = 2013|journal = Proceedings of the 30th International Conference on Machine Learning (ICML-13)|pages = 531–539}}</ref> एक भोली एल्गोरिथ्म ड्रा-बाय-ड्रा एल्गोरिथम है जहां प्रत्येक चरण पर हम उस चरण में आइटम को समान संभावना के साथ सेट से हटाते हैं और आइटम को नमूने में डालते हैं। हम तब तक जारी रखते हैं जब तक हमारे पास वांछित | सरल यादृच्छिक प्रतिचयन के लिए कई कुशल एल्गोरिदम विकसित किए गए हैं।<ref>{{Cite book|title = नमूना एल्गोरिदम - स्प्रिंगर|date = 2006-01-01|doi = 10.1007/0-387-34240-0|isbn = 978-0-387-30814-2|series = Springer Series in Statistics|last1 = Tille|first1 = Yves|last2 = Tillé|first2 = Yves}}</ref><ref>{{Cite journal|url = http://jmlr.org/proceedings/papers/v28/meng13a.pdf|title = स्केलेबल सिंपल रैंडम सैंपलिंग और स्तरीकृत सैंपलिंग|last = Meng|first = Xiangrui|date = 2013|journal = Proceedings of the 30th International Conference on Machine Learning (ICML-13)|pages = 531–539}}</ref> एक भोली एल्गोरिथ्म ड्रा-बाय-ड्रा एल्गोरिथम है जहां प्रत्येक चरण पर हम उस चरण में आइटम को समान संभावना के साथ सेट से हटाते हैं और आइटम को नमूने में डालते हैं। हम तब तक जारी रखते हैं जब तक हमारे पास वांछित <math>k</math> आकार का नमूना नहीं होता । इस पद्धति का दोष यह है कि इसके लिए सेट में अनियमित पहुँच की आवश्यकता होती है। | ||
फैन एट अल द्वारा विकसित चयन-अस्वीकृति | फैन एट अल द्वारा विकसित चयन-अस्वीकृति एल्गोरिथ्म, 1962 में<ref>{{Cite journal|title = अनुक्रमिक (आइटम द्वारा आइटम) चयन तकनीकों और डिजिटल कंप्यूटर का उपयोग करके नमूनाकरण योजनाओं का विकास|journal = Journal of the American Statistical Association|date = 1962-06-01|issn = 0162-1459|pages = 387–402|volume = 57|issue = 298|doi = 10.1080/01621459.1962.10480667|first = C. T.|last = Fan|first2 = Mervin E.|last2 = Muller|first3 = Ivan|last3 = Rezucha}}</ref> आंकड़े पर एकल पास की आवश्यकता है; हालाँकि, यह एक अनुक्रमिक एल्गोरिथम है और इसके लिए <math>n</math> वस्तुओं की कुल संख्या के ज्ञान की आवश्यकता होती है , जो स्ट्रीमिंग परिदृश्यों में उपलब्ध नहीं है। | ||
1977 में | 1977 में सनटर द्वारा एक बहुत ही सरल यादृच्छिक छँटाई एल्गोरिथ्म सिद्ध किया गया था।<ref>{{Cite journal|title = प्रतिस्थापन के बिना समान या असमान संभावनाओं के साथ अनुक्रमिक नमूनाकरण की सूची बनाएं|jstor = 2346966|journal = Applied Statistics|date = 1977-01-01|volume = 26|issue = 3|pages = 261–268|doi = 10.2307/2346966|first = A. B.|last = Sunter}}</ref> एल्गोरिथम केवल समान वितरण से तैयार की गई एक यादृच्छिक संख्या प्रदान करता है <math>(0,1)</math> प्रत्येक आइटम की कुंजी के रूप में, फिर कुंजी का उपयोग करके सभी आइटमों को क्रमबद्ध करें और सबसे छोटे <math>k</math> सामान का चयन करें । | ||
1985 में जे. विटर<ref>{{Cite journal|title = एक जलाशय के साथ यादृच्छिक नमूनाकरण|journal = ACM Trans. Math. Softw.|date = 1985-03-01|issn = 0098-3500|pages = 37–57|volume = 11|issue = 1|doi = 10.1145/3147.3165|first = Jeffrey S.|last = Vitter|citeseerx = 10.1.1.138.784}}</ref> प्रस्तावित [[जलाशय नमूनाकरण]] एल्गोरिदम, जो व्यापक रूप से उपयोग किए जाते हैं। इस एल्गोरिथ्म को | 1985 में जे. विटर<ref>{{Cite journal|title = एक जलाशय के साथ यादृच्छिक नमूनाकरण|journal = ACM Trans. Math. Softw.|date = 1985-03-01|issn = 0098-3500|pages = 37–57|volume = 11|issue = 1|doi = 10.1145/3147.3165|first = Jeffrey S.|last = Vitter|citeseerx = 10.1.1.138.784}}</ref> प्रस्तावित [[जलाशय नमूनाकरण]] एल्गोरिदम, जो व्यापक रूप से उपयोग किए जाते हैं। इस एल्गोरिथ्म को <math>n</math> अग्रिम में, जनसंख्या के आकार के ज्ञान की आवश्यकता नहीं है और निरंतर स्थान का उपयोग करता है। | ||
नमूनों के बीच अंतराल के वितरण से नमूनाकरण द्वारा यादृच्छिक नमूनाकरण में भी तेजी लाई जा सकती है<ref>{{Cite journal|journal = Communications of the ACM|volume = 27|issue = 7|doi = 10.1145/358105.893|title = यादृच्छिक नमूनाकरण के लिए तेज़ तरीके|last1 = Vitter |first1 = Jeffrey S.|date = 1984-07-01|issn = 0001-0782|pages = 703-718|citeseerx = 10.1.1.329.6400}}</ref> | नमूनों के बीच अंतराल के वितरण से नमूनाकरण द्वारा यादृच्छिक नमूनाकरण और अंतराल पर लंघन में भी तेजी लाई जा सकती है<ref>{{Cite journal|journal = Communications of the ACM|volume = 27|issue = 7|doi = 10.1145/358105.893|title = यादृच्छिक नमूनाकरण के लिए तेज़ तरीके|last1 = Vitter |first1 = Jeffrey S.|date = 1984-07-01|issn = 0001-0782|pages = 703-718|citeseerx = 10.1.1.329.6400}}</ref> । | ||
== यह भी देखें == | == यह भी देखें == | ||
Line 74: | Line 74: | ||
==संदर्भ== | ==संदर्भ== | ||
{{Reflist}} | {{Reflist}} | ||
बाहरी संबंध | |||
*{{Commonscatinline|यादृच्छिक नमूना}} | |||
*{{Commonscatinline| | |||
{{Social surveys}} | {{Social surveys}} | ||
[[Category: | [[Category:All articles needing additional references]] | ||
[[Category:Articles needing additional references from November 2011]] | |||
[[Category:Collapse templates]] | |||
[[Category:Created On 31/05/2023]] | [[Category:Created On 31/05/2023]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Sidebars with styles needing conversion]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates generating microformats]] | |||
[[Category:Templates that are not mobile friendly]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Wikipedia metatemplates]] | |||
[[Category:नमूनाकरण तकनीक]] |
Latest revision as of 10:18, 21 June 2023
This article needs additional citations for verification. (November 2011) (Learn how and when to remove this template message) |
आँकड़ों में, एक साधारण यादृच्छिक नमूना (या एसआरएस) एक बड़े [उपसमुच्चय (गणित)(एक सांख्यिकीय आबादी) से चुने गए व्यक्तियों (एक नमूना (सांख्यिकी)) का एक उपसमुच्चय होता है जिसमें सभी समान संभावना के साथ व्यक्तियों के एक उपसमुच्चय को यादृच्छिकरण चुना जाता है। यह यादृच्छिक तरीके से नमूने के चयन की एक प्रक्रिया है। एसआरएस में, k व्यक्तियों के प्रत्येक उपसमुच्चय में नमूने के लिए चुने जाने की उतनी ही संभावना है जितनी कि k व्यक्तियों के किसी अन्य उपसमुच्चय के रूप में।[1] एक साधारण यादृच्छिक नमूना एक निष्पक्ष नमूनाकरण यांत्रिकी है। सरल यादृच्छिक नमूनाकरण एक बुनियादी प्रकार का नमूनाकरण है और यह अन्य अधिक जटिल नमूनाकरण विधियों का एक घटक हो सकता है।
परिचय
साधारण यादृच्छिक प्रतिचयन का सिद्धांत यह है कि वस्तुओं के प्रत्येक समूह के चुने जाने की समान संभावना होती है। उदाहरण के लिए, मान लीजिए N कॉलेज के छात्र बास्केटबॉल खेल के लिए टिकट प्राप्त करना चाहते हैं, लेकिन उनके लिए केवल X < N टिकट हैं, इसलिए वे यह देखने का एक उचित तरीका तय करते हैं कि किसे जाना है। फिर, सभी को 0 से N-1 की सीमा में एक संख्या दी जाती है, और यादृच्छिक संख्याएँ या तो इलेक्ट्रॉनिक रूप से या यादृच्छिक संख्याओं की तालिका से उत्पन्न होती हैं। 0 से N-1 की सीमा के बाहर की संख्या को अनदेखा कर दिया जाता है, जैसा कि पहले से चयनित किसी भी संख्या में होता है। पहले X नंबर भाग्यशाली टिकट विजेताओं की पहचान करेंगे।
छोटी आबादी में और अक्सर बड़ी आबादी में, इस तरह के नमूने प्रायः 'बिना प्रतिस्थापन' के किए जाते हैं, यानी, एक से अधिक बार आबादी के किसी भी सदस्य को जानबूझकर चुनने से बचा जाता है। हालांकि सरल यादृच्छिक नमूनाकरण प्रतिस्थापन के साथ आयोजित किया जा सकता है, यह कम आम है और सामान्य रूप से 'प्रतिस्थापन के साथ' सरल यादृच्छिक नमूनाकरण के रूप में अधिक पूर्ण रूप से वर्णित किया जाएगा।
प्रतिस्थापन के बिना किया गया नमूनाकरण अब स्वतंत्र नहीं है, लेकिन फिर भी विनिमेय यादृच्छिक चर को संतुष्ट करता है, इसलिए कई परिणाम अभी भी पकड़ में हैं। इसके अलावा, एक बड़ी आबादी से एक छोटे नमूने के लिए, प्रतिस्थापन के बिना नमूनाकरण लगभग प्रतिस्थापन के साथ नमूनाकरण के समान है, क्योंकि एक ही व्यक्ति को दो बार चुनने की संभावना कम है।
व्यक्तियों का एक निष्पक्ष यादृच्छिक चयन महत्वपूर्ण है ताकि यदि कई नमूने तैयार किए गए हों, तो औसत नमूना सटीक रूप से जनसंख्या का प्रतिनिधित्व करेगा। हालांकि, यह गारंटी नहीं देता है कि एक विशेष नमूना जनसंख्या का सही प्रतिनिधित्व है। सरल यादृच्छिक नमूनाकरण केवल नमूने के आधार पर पूरी आबादी के बारे में बाहरी रूप से मान्य निष्कर्ष निकालने की अनुमति देता है।
संकल्पनात्मक रूप से, सरल यादृच्छिक प्रतिचयन प्रायिकता प्रतिचयन यांत्रिकी में सबसे सरल है। इसके लिए एक पूर्ण नमूना ढांचा की आवश्यकता होती है, जो कि बड़ी आबादी के निर्माण के लिए उपलब्ध या व्यवहार्य नहीं हो सकता है। यहां तक कि अगर एक पूर्ण रूपरेखा उपलब्ध है, तो जनसंख्या में इकाइयों के बारे में अन्य उपयोगी जानकारी उपलब्ध होने पर अधिक कुशल दृष्टिकोण संभव हो सकते हैं।
लाभ यह है कि यह वर्गीकरण त्रुटि से मुक्त है, और इसके लिए ढांचा के अलावा जनसंख्या के न्यूनतम अग्रिम ज्ञान की आवश्यकता होती है। इसकी सादगी भी इस तरह से एकत्र किए गए आंकड़े की व्याख्या करना अपेक्षाकृत आसान बनाती है। इन कारणों से, सरल यादृच्छिक नमूनाकरण उन स्थितियों के लिए सबसे उपयुक्त है जहां जनसंख्या के बारे में अधिक जानकारी उपलब्ध नहीं है और यादृच्छिक रूप से वितरित वस्तुओं पर आंकड़े संग्रह कुशलतापूर्वक आयोजित किया जा सकता है, या जहां नमूनाकरण की लागत सरलता की तुलना में दक्षता को कम महत्वपूर्ण बनाने के लिए अधिक कम है। यदि ये स्थितियाँ पकड़ में नहीं आती हैं, तो स्तरीकृत नमूनाकरण या क्लस्टर नमूनाकरण एक अधिक अच्छा विकल्प हो सकता है।
साधारण यादृच्छिक नमूने और अन्य तरीकों के बीच संबंध
समान संभावना नमूनाकरण (ईपीएसईएम)
एक नमूना विधि जिसके लिए प्रत्येक व्यक्तिगत इकाई के चुने जाने का समान अवसर होता है, उसे समान संभाव्यता नमूनाकरण (लघु के लिए ईपीएसईएम) कहा जाता है।
एक साधारण यादृच्छिक नमूने का उपयोग करने से निरंतर एक ईपीएसईएम होता है, लेकिन सभी ईपीएसईएम नमूने एसआरएस नहीं होते हैं। उदाहरण के लिए, यदि किसी शिक्षिका की कक्षा 6 स्तंभों की 5 पंक्तियों में व्यवस्थित है और वह 5 छात्रों का एक यादृच्छिक नमूना लेना चाहती है, तो वह यादृच्छिक रूप से 6 स्तंभों में से एक चुन सकती है। यह एक ईपीएसईएम नमूना होगा लेकिन 5 विद्यार्थियों के सभी उपसमुच्चय यहां समान रूप से होने की संभावना नहीं है, क्योंकि केवल एक स्तंभ के रूप में व्यवस्थित उपसमुच्चय चयन के लिए पात्र हैं। बहुस्तरीय नमूनाकरण के निर्माण के तरीके भी हैं, जो एसआरएस नहीं हैं, जबकि अंतिम सैंपल ईपीएसईएम होगा।[2] उदाहरण के लिए, व्यवस्थित नमूनाकरण एक नमूना तैयार करता है जिसके लिए प्रत्येक व्यक्तिगत इकाई में सम्मिलित होने की समान संभावना होती है, लेकिन इकाइयों के विभिन्न सेटों में चयनित होने की अलग-अलग संभावनाएं होती हैं।
ईपीएसईएम वाले नमूने स्वयं भार हैं, जिसका अर्थ है कि प्रत्येक नमूने के लिए चयन संभावना का व्युत्क्रम समान है।
=== एक व्यवस्थित यादृच्छिक नमूना और एक साधारण यादृच्छिक नमूना === के बीच अंतर
1000 छात्रों वाले एक विद्यालय पर विचार करें, और मान लें कि एक शोधकर्ता आगे के अध्ययन के लिए उनमें से 100 का चयन करना चाहता है। उनके सभी नाम एक बाल्टी में डाले जाएंगे और फिर 100 नाम निकाले जाएंगे। न केवल प्रत्येक व्यक्ति के पास चुने जाने की समान संभावना होती है, बल्कि हम किसी दिए गए व्यक्ति के चुने जाने की संभावना (P) की भी आसानी से गणना कर सकते हैं, क्योंकि हम नमूना आकार (n) और जनसंख्या (N) जानते हैं:
1. इस स्थिति में कि किसी दिए गए व्यक्ति को केवल एक बार चुना जा सकता है (अर्थात, चयन के बाद किसी व्यक्ति को चयन पूल से हटा दिया जाता है):
2. स्थिति में कि किसी भी चयनित व्यक्ति को चयन पूल में वापस कर दिया जाता है (यानी, एक से अधिक बार चुना जा सकता है):
इसका मतलब यह है कि विद्यालय में प्रत्येक छात्र के पास किसी भी स्थिति में इस पद्धति का उपयोग करके चुने जाने का लगभग 10 में से 1 अवसर होता है। इसके अलावा, 100 छात्रों के किसी भी संयोजन में चयन की समान संभावना है।
यदि यादृच्छिक नमूने में एक व्यवस्थित पैटर्न प्रस्तुत किया जाता है, तो इसे व्यवस्थित (यादृच्छिक) नमूनाकरण कहा जाता है। एक उदाहरण यह होगा कि यदि विद्यालय में छात्रों के नाम के साथ 0001 से 1000 तक की संख्याएँ जुड़ी हुई थीं, और हमने एक यादृच्छिक प्रारंभिक बिंदु चुना, उदाहरण के लिए, 0533, और उसके बाद हमें 100 का नमूना देने के लिए हर 10वां नाम चुना (0993 तक पहुंचने के बाद 0003 से आरम्भ )। इस अर्थ में, यह यांत्रिकी क्लस्टर नमूनाकरण के समान है, क्योंकि पहली इकाई का चुनाव शेष का निर्धारण करेगा। यह अब सरल यादृच्छिक नमूनाकरण नहीं है, क्योंकि 100 छात्रों के कुछ संयोजनों में दूसरों की तुलना में बड़ी चयन संभावना है - उदाहरण के लिए, {3, 13, 23, ..., 993} में चयन का 1/10 अवसर है, जबकि {1 , 2, 3, ..., 100} को इस पद्धति के अंतर्गत नहीं चुना जा सकता है।
द्विबीजपत्री जनसंख्या का प्रतिचयन
यदि जनसंख्या के सदस्य तीन प्रकार में आते हैं, कहते हैं नीला, लाल और काला दिए गए आकार के नमूने में लाल तत्वों की संख्या नमूने के अनुसार अलग-अलग होगी और इसलिए एक यादृच्छिक चर है जिसका वितरण अध्ययन किया जा सकता है। यह वितरण पूर्ण जनसंख्या में लाल और काले तत्वों की संख्या पर निर्भर करता है। प्रतिस्थापन के साथ एक साधारण यादृच्छिक नमूने के लिए, वितरण एक द्विपद वितरण है। प्रतिस्थापन के बिना एक साधारण यादृच्छिक नमूने के लिए, एक हाइपरज्यामितीय वितरण प्राप्त करता है।
एल्गोरिदम
सरल यादृच्छिक प्रतिचयन के लिए कई कुशल एल्गोरिदम विकसित किए गए हैं।[3][4] एक भोली एल्गोरिथ्म ड्रा-बाय-ड्रा एल्गोरिथम है जहां प्रत्येक चरण पर हम उस चरण में आइटम को समान संभावना के साथ सेट से हटाते हैं और आइटम को नमूने में डालते हैं। हम तब तक जारी रखते हैं जब तक हमारे पास वांछित आकार का नमूना नहीं होता । इस पद्धति का दोष यह है कि इसके लिए सेट में अनियमित पहुँच की आवश्यकता होती है।
फैन एट अल द्वारा विकसित चयन-अस्वीकृति एल्गोरिथ्म, 1962 में[5] आंकड़े पर एकल पास की आवश्यकता है; हालाँकि, यह एक अनुक्रमिक एल्गोरिथम है और इसके लिए वस्तुओं की कुल संख्या के ज्ञान की आवश्यकता होती है , जो स्ट्रीमिंग परिदृश्यों में उपलब्ध नहीं है।
1977 में सनटर द्वारा एक बहुत ही सरल यादृच्छिक छँटाई एल्गोरिथ्म सिद्ध किया गया था।[6] एल्गोरिथम केवल समान वितरण से तैयार की गई एक यादृच्छिक संख्या प्रदान करता है प्रत्येक आइटम की कुंजी के रूप में, फिर कुंजी का उपयोग करके सभी आइटमों को क्रमबद्ध करें और सबसे छोटे सामान का चयन करें ।
1985 में जे. विटर[7] प्रस्तावित जलाशय नमूनाकरण एल्गोरिदम, जो व्यापक रूप से उपयोग किए जाते हैं। इस एल्गोरिथ्म को अग्रिम में, जनसंख्या के आकार के ज्ञान की आवश्यकता नहीं है और निरंतर स्थान का उपयोग करता है।
नमूनों के बीच अंतराल के वितरण से नमूनाकरण द्वारा यादृच्छिक नमूनाकरण और अंतराल पर लंघन में भी तेजी लाई जा सकती है[8] ।
यह भी देखें
- मल्टीस्टेज सैंपलिंग
- गैर संभावित नमूना
- जनमत सर्वेक्षण
- मात्रात्मक विपणन अनुसंधान
- नमूना डिजाइन
- बरनौली नमूनाकरण
- ज़हर का नमूना
संदर्भ
- ↑ Yates, Daniel S.; David S. Moore; Daren S. Starnes (2008). The Practice of Statistics, 3rd Ed. Freeman. ISBN 978-0-7167-7309-2.
- ↑ Peters, Tim J., and Jenny I. Eachus. "Achieving equal probability of selection under various random sampling strategies." Paediatric and perinatal epidemiology 9.2 (1995): 219-224.
- ↑ Tille, Yves; Tillé, Yves (2006-01-01). नमूना एल्गोरिदम - स्प्रिंगर. Springer Series in Statistics. doi:10.1007/0-387-34240-0. ISBN 978-0-387-30814-2.
- ↑ Meng, Xiangrui (2013). "स्केलेबल सिंपल रैंडम सैंपलिंग और स्तरीकृत सैंपलिंग" (PDF). Proceedings of the 30th International Conference on Machine Learning (ICML-13): 531–539.
- ↑ Fan, C. T.; Muller, Mervin E.; Rezucha, Ivan (1962-06-01). "अनुक्रमिक (आइटम द्वारा आइटम) चयन तकनीकों और डिजिटल कंप्यूटर का उपयोग करके नमूनाकरण योजनाओं का विकास". Journal of the American Statistical Association. 57 (298): 387–402. doi:10.1080/01621459.1962.10480667. ISSN 0162-1459.
- ↑ Sunter, A. B. (1977-01-01). "प्रतिस्थापन के बिना समान या असमान संभावनाओं के साथ अनुक्रमिक नमूनाकरण की सूची बनाएं". Applied Statistics. 26 (3): 261–268. doi:10.2307/2346966. JSTOR 2346966.
- ↑ Vitter, Jeffrey S. (1985-03-01). "एक जलाशय के साथ यादृच्छिक नमूनाकरण". ACM Trans. Math. Softw. 11 (1): 37–57. CiteSeerX 10.1.1.138.784. doi:10.1145/3147.3165. ISSN 0098-3500.
- ↑ Vitter, Jeffrey S. (1984-07-01). "यादृच्छिक नमूनाकरण के लिए तेज़ तरीके". Communications of the ACM. 27 (7): 703–718. CiteSeerX 10.1.1.329.6400. doi:10.1145/358105.893. ISSN 0001-0782.
बाहरी संबंध
- Media related to यादृच्छिक नमूना at Wikimedia Commons