हाइपरज्यामेट्रिक वितरण
Probability mass function ![]() | |||
Cumulative distribution function ![]() | |||
Parameters | |||
---|---|---|---|
Support | |||
PMF | |||
CDF | where is the generalized hypergeometric function | ||
Mean | |||
Mode | |||
Variance | |||
Skewness | |||
Ex. kurtosis |
| ||
MGF | |||
CF |
प्रायिकता सिद्धांत और सांख्यिकी में, हाइपरज्यामितीय वितरण प्रायिकता वितरण अथवा असतत प्रायिकता वितरण है जो आकार की सीमित सांख्यिकीय जनसंख्या से, प्रतिस्थापन के अतिरिक्त ड्रा में सफलताओं (यादृच्छिक ड्रॉ जिसके लिए बनाई गई वस्तु में निर्दिष्ट विशेषता होती है) की संभावना का वर्णन करता है जिसमें पूर्णतः सम्मिलित होता है जो उस सुविधा के साथ ऑब्जेक्ट करता है जिसमें प्रत्येक ड्रा या तो सफल होता है या असफल होता है। इसके विपरीत, द्विपद वितरण प्रतिस्थापन के साथ ड्रॉ में सफलताओं की संभावना का वर्णन करता है।
परिभाषाएँ
प्रायिकता द्रव्यमान फलन
निम्नलिखित स्थितियाँ हाइपरज्यामितीय वितरण की विशेषता बताती हैं:
- प्रत्येक ड्रा के परिणाम (प्रारूप लिए जा रहे जनसंख्या के तत्वों) को बाइनरी वैरिएबल में वर्गीकृत किया जा सकता है (उदाहरण के लिए उत्तीर्ण/अनुत्तीर्ण या नियोजित/बेरोजगार)।
- प्रत्येक ड्रा पर सफलता की संभावना परिवर्तित हो जाती है, क्योंकि प्रत्येक ड्रा में जनसंख्या कम हो जाती है (सीमित जनसंख्या से प्रतिस्थापन के बिना प्रारूपकरण)।
यादृच्छिक चर हाइपरज्यामितीय वितरण का अनुसरण करता है यदि इसकी प्रायिकता द्रव्यमान फलन (पीएमएफ) द्वारा दी गई है-[1]
जहाँ
- जनसंख्या का आकार है,
- जनसंख्या में सफल स्थितियों की संख्या है,
- ड्रॉ की संख्या है (अर्थात प्रत्येक परीक्षण में प्राप्त की गई मात्रा),
- अवलोकित की गई सफलताओं की संख्या है,
- द्विपद गुणांक है।
- pmf सकारात्मक है जब है।
पैरामीटर , और के साथ हाइपरज्यामितीय रूप से वितरित यादृच्छिक चर को लिखा जाता है और प्रायिकता द्रव्यमान फलन होता है।
संयुक्त सर्वसमिकाएँ
जिस प्रकार की आवश्यकता है, हमारे निकट है
जो अनिवार्य रूप से कॉम्बिनेटरिक्स से वेंडरमोंडे की सर्वसमिका का अनुसरण करता है।
यह भी ध्यान रखें
इस सर्वसमिका के द्विपद गुणांकों को भाज्य के संदर्भ में व्यक्त करके और दूसरे को पुनर्व्यवस्थित करके दिखाया जा सकता है, किन्तु यह समस्या की समरूपता से भी ज्ञात होता है। वास्तव में, प्रतिस्थापन के बिना ड्राइंग के दो राउंड पर विचार करें। प्रथम राउंड में, तटस्थ मार्बल्स में से को बिना प्रतिस्थापन के जलपात्र से निकाला जाता है और हरे रंग में रंगा जाता है। तत्पश्चात रंगीन मार्बल्स को पुनः रख दिया जाता है। दूसरे राउंड में, मार्बल्स को बिना प्रतिस्थापन के निकाला जाता है और लाल रंग से रंगा जाता है। तब, दोनों रंग वाले कंचों की संख्या (अर्थात, दो बार निकाले गए कंचों की संख्या) में हाइपरज्यामितीय वितरण होता है। और में समरूपता इस तथ्य से उत्पन्न होती है कि दोनों राउंड स्वतंत्र हैं, और प्रथम गेंदों को चित्रित करके और उन्हें लाल रंग से रंगना प्रारम्भ किया जा सकता था।
गुण
कार्य उदाहरण
हाइपरज्यामितीय वितरण का अनुप्रयोग प्रतिस्थापन के बिना प्रारूपकरण है। मार्बल के दो रंग, लाल और हरे, के साथ कलश समस्या के संबंध में विचार करें। हरे मार्बल के चित्र को सफलता के रूप में और लाल मार्बल के चित्र को विफलता के रूप में परिभाषित करें (द्विपद वितरण के अनुरूप)। यदि चर N कलश में सभी मार्बल्स की संख्या का वर्णन करता है (नीचे आकस्मिकता तालिका देखें) और K हरे मार्बल्स की संख्या का वर्णन करता है, तो N − K लाल मार्बल्स की संख्या से युग्मित होता है। इस उदाहरण में, X यादृच्छिक चर है जिसका परिणाम k है, जो वास्तव में प्रयोग में चित्रित किये गए हरे मार्बल्स की संख्या है। इस स्थिति को निम्नलिखित आकस्मिकता तालिका द्वारा दर्शाया गया है:
drawn | not drawn | total | |
---|---|---|---|
green marbles | k | K − k | K |
red marbles | n − k | N + k − n − K | N − K |
total | n | N − n | N |
अब, मान लीजिए (उदाहरण के लिए) कि कलश में 5 हरे और 45 लाल मार्बल्स हैं। कलश के निकट खड़े होकर, आप अपनी आँखें बंद करते हैं और बिना प्रतिस्थापन के 10 मार्बल्स निकालते हैं। इसकी क्या प्रायिकता है कि 10 में से 4 हरे हैं? ध्यान दें कि यद्यपि हम सफलता/असफलता को देख रहे हैं, डेटा को द्विपद वितरण द्वारा त्रुटिहीन रूप से मॉडल नहीं किया गया है, क्योंकि प्रत्येक परीक्षण पर सफलता की संभावना समान नहीं है, क्योंकि जब हम प्रत्येक मार्बल को विस्थापित करते हैं तो शेष जनसंख्या का आकार परिवर्तित हो जाता है।
इस समस्या को निम्नलिखित आकस्मिकता तालिका द्वारा संक्षेपित किया गया है:
drawn | not drawn | total | |
---|---|---|---|
green marbles | k = 4 | K − k = 1 | K = 5 |
red marbles | n − k = 6 | N + k − n − K = 39 | N − K = 45 |
total | n = 10 | N − n = 40 | N = 50 |
पूर्ण रूप से k हरे मार्बल निकालने की प्रायिकता की गणना सूत्र द्वारा की जा सकती है
इसलिए, इस उदाहरण में गणना करें
सहज रूप से हम आशा करेंगे कि यह और भी अधिक संभावना नहीं होगी कि सभी 5 हरे मार्बल निकाले गए 10 में से होंगे।
जैसा कि अपेक्षित था, 5 हरे मार्बल निकालने की संभावना 4 मार्बल निकालने की संभावना से लगभग 35 गुना कम है।
समरूपता
हरे और लाल मार्बल्स की भूमिकाओं का परिवर्तन:
चित्रित किये गए और बिना चित्रित किये गए कंचों की भूमिकाओं का परिवर्तन:
हरे और चित्रित किये गए कंचों की भूमिकाओं का परिवर्तन:
ये समरूपताएं डायहेड्रल समूह उत्पन्न करती हैं।
ड्रा का क्रम
हरे और लाल मार्बल्स (हाइपरज्यामितीय वितरण) के किसी भी सेट को चित्रित करने की संभावना केवल हरे और लाल मार्बल्स की संख्या पर निर्भर करती है, न कि उनके दिखने के क्रम पर; यानी, यह विनिमेय यादृच्छिक चर वितरण है। परिणामस्वरूप, ड्रा में हरा मार्बल निकलने की प्रायिकता होती है-[2]
यह प्रत्याशित संभावना है—अर्थात्, यह पूर्व ड्रा के परिणामों को न जानने पर आधारित है।
टेल बॉन्ड्स
मान लीजिए और है। फिर के लिए हम निम्नलिखित सीमाएँ प्राप्त कर सकते हैं:[3]
जहाँ
कुल्बैक-लीब्लर विचलन है और इसका उपयोग के लिए किया जाता है।[4]
यदि n, N/2 से बड़ा है, तो सीमाओं को परिवर्तित करने के लिए समरूपता प्रयुक्त करना उपयोगी हो सकता है, जो आपको निम्नलिखित समीकरण देता है:[4]
सांख्यिकीय अनुमान
हाइपरज्यामितीय परीक्षण
हाइपरज्यामितीय परीक्षण, सफलताओं वाले आकार की जनसंख्या से सफलताओं की विशिष्ट संख्या ( कुल ड्रॉ में) से युक्त प्रारूप प्रस्तुत करने के सांख्यिकीय महत्व को मापने के लिए हाइपरज्यामितीय वितरण का उपयोग करता है। प्रारूप में सफलताओं के अति-प्रतिनिधित्व के लिए परीक्षण में, हाइपरज्यामितीय p-मान की गणना यादृच्छिक रूप से कुल ड्रा में जनसंख्या से यादृच्छिक रूप से या अधिक सफलताओं को निकालने की संभावना के रूप में की जाती है। कम-प्रतिनिधित्व के लिए परीक्षण में, p-मान यादृच्छिक रूप से या कम सफलताओं को निकालने की संभावना होती है।
हाइपरज्यामितीय वितरण (हाइपरज्यामितीय परीक्षण) पर आधारित परीक्षण फिशर के त्रुटिहीन परीक्षण के संबंधित टेल संस्करण के समान है।[6] पारस्परिक रूप से, द्विपक्षीय फिशर के त्रुटिहीन परीक्षण के p-मान की गणना दो उपयुक्त हाइपरज्यामितीय परीक्षणों के योग के रूप में की जा सकती है (अधिक जानकारी के लिए देखें[7])।
परीक्षण का उपयोग अधिकांशतः यह प्रमाणित करने के लिए किया जाता है कि प्रारूप में कौन सी उप-जनसँख्या का प्रतिनिधित्व अधिक या कम है। इस परीक्षण में अनुप्रयोगों की विस्तृत श्रृंखला होती है। उदाहरण के लिए, विपणन समूह विभिन्न जनसांख्यिकीय उपसमूहों (उदाहरण के लिए, 30 वर्ष से कम आयु की महिलाएँ) के अधिक प्रतिनिधित्व के लिए ज्ञात ग्राहकों के समूह का परीक्षण करके अपने ग्राहक आधार का अध्ययन करने के लिए परीक्षण का उपयोग कर सकता है।
संबंधित वितरण
मान लीजिये और है।
- अगर तब पैरामीटर के साथ बर्नौली वितरण है .
- होने देना मापदंडों के साथ द्विपद वितरण है और ; यह प्रतिस्थापन के साथ अनुरूप नमूनाकरण समस्या में सफलताओं की संख्या को दर्शाता है। अगर और की तुलना में बड़े हैं , और तो, 0 या 1 के करीब नहीं है और समान वितरण हैं, अर्थात्, .
- अगर बड़ी है, और की तुलना में बड़े हैं , और तो, 0 या 1 के करीब नहीं है
जहाँ मानक सामान्य वितरण#संचयी वितरण फलन है
- यदि हरे या लाल मार्बल को खींचने की संभावनाएँ समान नहीं हैं (उदाहरण के लिए क्योंकि हरे मार्बल लाल मार्बल की तुलना में बड़े/पकड़ने में आसान होते हैं) तो एक गैरकेंद्रीय हाइपरज्यामितीय वितरण है
- बीटा-द्विपद वितरण हाइपरज्यामितीय वितरण के लिए एक संयुग्मित पूर्व है।
निम्नलिखित तालिका ड्रॉ के अनुक्रम में सफलताओं की संख्या से संबंधित चार वितरणों का वर्णन करती है:
With replacements | No replacements | |
---|---|---|
Given number of draws | binomial distribution | hypergeometric distribution |
Given number of failures | negative binomial distribution | negative hypergeometric distribution |
बहुभिन्नरूपी हाइपरज्यामितीय वितरण
Parameters |
| ||
---|---|---|---|
Support | |||
PMF | |||
Mean | |||
Variance |
|
हरे और लाल पत्थरों के साथ कलश समस्या के मॉडल को उस मामले तक बढ़ाया जा सकता है जहां दो से अधिक रंगों के पत्थर हों। यदि k हैंi कलश में i रंग के कंचे हैं और आप बिना प्रतिस्थापन के यादृच्छिक रूप से N कंचे लेते हैं, तो नमूने में प्रत्येक रंग के कंचों की संख्या (K)1, क2,..., कc) में बहुभिन्नरूपी हाइपरज्यामितीय वितरण है। इसका बहुपद वितरण से वही संबंध है जो हाइपरज्यामितीय वितरण का द्विपद वितरण से होता है - बहुपद वितरण प्रतिस्थापन के साथ वितरण है और बहुभिन्नरूपी हाइपरज्यामितीय बिना प्रतिस्थापन वितरण है।
इस वितरण के गुण आसन्न तालिका में दिए गए हैं,[8] जहाँ c विभिन्न रंगों की संख्या है और कलश में कंचों की कुल संख्या है।
उदाहरण
मान लीजिए कि एक कलश में 5 काले, 10 सफेद और 15 लाल पत्थर हैं। यदि छः मार्बल बिना प्रतिस्थापन के चुने जाते हैं, तो संभावना है कि प्रत्येक रंग में से ठीक दो को चुना जाएगा
घटना और अनुप्रयोग
चुनावों के ऑडिट के लिए आवेदन
चुनाव ऑडिट आम तौर पर यह देखने के लिए मशीन से गिने गए परिसरों के नमूने का परीक्षण करते हैं कि क्या हाथ या मशीन से की गई पुनर्गणना मूल गणना से मेल खाती है। बेमेल के परिणामस्वरूप या तो एक रिपोर्ट या बड़ी पुनर्गणना होती है। नमूना दरों को आम तौर पर कानून द्वारा परिभाषित किया जाता है, न कि सांख्यिकीय डिज़ाइन द्वारा, इसलिए कानूनी रूप से परिभाषित नमूना आकार n के लिए, किसी समस्या के गायब होने की संभावना क्या है जो K परिसर में मौजूद है, जैसे हैक या बग? यह संभावना है कि k = 0. बग अक्सर अस्पष्ट होते हैं, और एक हैकर केवल कुछ परिक्षेत्रों को प्रभावित करके पहचान को कम कर सकता है, जो अभी भी करीबी चुनावों को प्रभावित करेगा, इसलिए एक प्रशंसनीय परिदृश्य यह है कि K 5% के क्रम पर होगा एन. ऑडिट आम तौर पर 1% से 10% परिसर को कवर करते हैं (अक्सर 3%),[9][10][11] इसलिए उनके पास किसी समस्या से चूकने की बहुत अधिक संभावना है। उदाहरण के लिए, यदि कोई समस्या 100 में से 5 परिसरों में मौजूद है, तो 3% नमूने में 86% संभावना है कि k = 0 इसलिए समस्या पर ध्यान नहीं दिया जाएगा, और नमूने में समस्या दिखाई देने की केवल 14% संभावना है (सकारात्मक k) :
नमूने में k = 0 की संभावना 5% से कम रखने के लिए नमूने को 45 परिसरों की आवश्यकता होगी, और इस प्रकार समस्या खोजने की 95% से अधिक संभावना होगी:
टेक्सास होल्डम पोकर के लिए आवेदन
होल्डम पोकर में खिलाड़ी अपना सर्वश्रेष्ठ प्रदर्शन करते हुए अपने हाथ में मौजूद दो कार्डों को 5 कार्डों (सामुदायिक कार्ड) के साथ जोड़ सकते हैं जो अंततः टेबल पर आ जाते हैं। डेक में 52 हैं और प्रत्येक सूट में 13 हैं।
इस उदाहरण के लिए मान लीजिए कि एक खिलाड़ी के हाथ में 2 क्लब हैं और टेबल पर 3 कार्ड दिख रहे हैं, जिनमें से 2 भी क्लब हैं। खिलाड़ी फ्लश (पोकर) को पूरा करने के लिए क्लब के रूप में दिखाए जाने वाले अगले 2 कार्डों में से एक की संभावना जानना चाहेगा।
(ध्यान दें कि इस उदाहरण में गणना की गई संभावना यह मानती है कि अन्य खिलाड़ियों के हाथों में कार्ड के बारे में कोई जानकारी नहीं है; हालांकि, अनुभवी पोकर खिलाड़ी इस बात पर विचार कर सकते हैं कि अन्य खिलाड़ी अपना दांव कैसे लगाते हैं (चेक, कॉल, रेज़, या फोल्ड) प्रत्येक परिदृश्य के लिए संभावना। कड़ाई से बोलते हुए, यहां उल्लिखित सफलता की संभावनाओं की गणना करने का दृष्टिकोण उस परिदृश्य में सटीक है जहां टेबल पर सिर्फ एक खिलाड़ी है; एक मल्टीप्लेयर गेम में इस संभावना को विरोधियों के सट्टेबाजी खेल के आधार पर कुछ हद तक समायोजित किया जा सकता है .)
वहाँ 4 क्लब दिखाई दे रहे हैं इसलिए 9 क्लब अभी भी अदृश्य हैं। वहाँ 5 कार्ड दिखाए जा रहे हैं (2 हाथ में और 3 टेबल पर) तो हैं अभी भी अदृश्य.
अगले दो कार्डों में से एक के क्लब होने की संभावना की गणना हाइपरज्यामितीय का उपयोग करके की जा सकती है और . (लगभग 31.64%)
अगले दो कार्डों में से दोनों के क्लब होने की संभावना की गणना हाइपरज्यामितीय का उपयोग करके की जा सकती है और . (लगभग 3.33%)
संभावना है कि अगले दो कार्डों में से कोई भी क्लब नहीं है, हाइपरज्यामितीय का उपयोग करके गणना की जा सकती है और . (लगभग 65.03%)
केनो के लिए आवेदन
केनो ऑड्स की गणना के लिए हाइपरज्यामितीय वितरण अपरिहार्य है। केनो में, बिंगो (अमेरिकी संस्करण) की तरह, एक कंटेनर में 80 क्रमांकित गेंदों के संग्रह से 20 गेंदें यादृच्छिक रूप से निकाली जाती हैं। प्रत्येक ड्रा से पहले, एक खिलाड़ी इस उद्देश्य के लिए दिए गए एक पेपर फॉर्म को चिह्नित करके एक निश्चित संख्या में स्थानों का चयन करता है। उदाहरण के लिए, एक खिलाड़ी 6 नंबरों को चिह्नित करके 6-स्पॉट खेल सकता है, जिनमें से प्रत्येक 1 से लेकर 80 तक की सीमा तक हो सकता है। फिर (जब सभी खिलाड़ी अपने फॉर्म कैशियर के पास ले गए और उन्हें उनके चिह्नित फॉर्म की डुप्लिकेट दी गई, और उनके दांव का भुगतान किया गया) 20 गेंदें निकाली गईं। निकाली गई कुछ गेंदें खिलाड़ी द्वारा चुनी गई कुछ या सभी गेंदों से मेल खा सकती हैं। आम तौर पर कहें तो, जितने अधिक हिट (खिलाड़ी द्वारा चुने गए नंबरों से मेल खाने वाली गेंदें निकाली जाएंगी) उतना अधिक भुगतान होगा।
उदाहरण के लिए, यदि कोई ग्राहक 6-स्पॉट के लिए 1 डॉलर का दांव लगाता है (खेलता है) (यह कोई असामान्य उदाहरण नहीं है) और 6 में से 4 हिट करता है, तो कैसीनो $4 का भुगतान करेगा। भुगतान एक कैसीनो से दूसरे कैसीनो में भिन्न हो सकते हैं, किन्तु $4 यहां एक सामान्य मूल्य है। इस घटना की प्रायिकता है:
इसी तरह, चयनित 6 में से 5 स्थानों पर पहुंचने का मौका है जबकि एक सामान्य भुगतान $88 हो सकता है। सभी 6 को हिट करने का भुगतान लगभग $1500 (संभावना ≈ 0.000128985 या 7752-टू-1) होगा। 3 संख्याओं तक पहुंचने के लिए एकमात्र अन्य गैर-शून्य भुगतान $1 हो सकता है (यानी, आपको अपना दांव वापस मिल जाएगा), जिसकी संभावना 0.129819548 के करीब है।
भुगतान समय की संगत संभावनाओं के उत्पादों का योग लेने पर हमें 29% के घरेलू लाभ के लिए 0.70986492 या 6-स्पॉट के लिए लगभग 71% का अपेक्षित रिटर्न मिलता है। खेले गए अन्य स्थानों पर भी इसी तरह की अपेक्षित वापसी होती है। यह बहुत खराब रिटर्न (खिलाड़ी के लिए) आमतौर पर खेल के लिए आवश्यक बड़े ओवरहेड (फर्श स्थान, उपकरण, कर्मियों) द्वारा समझाया जाता है।
यह भी देखें
- [[गैरकेंद्रीय हाइपरज्यामितीय वितरण]]
- नकारात्मक हाइपरज्यामितीय वितरण
- बहुपद वितरण
- नमूनाकरण (सांख्यिकी)
- सामान्यीकृत हाइपरज्यामितीय फलन
- कूपन संग्राहक की समस्या
- ज्यामितीय वितरण
- केनो
- महिला चाय का स्वाद चख रही है
संदर्भ
उद्धरण
- ↑ Rice, John A. (2007). Mathematical Statistics and Data Analysis (Third ed.). Duxbury Press. p. 42.
- ↑ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf[bare URL PDF]
- ↑ Hoeffding, Wassily (1963), "Probability inequalities for sums of bounded random variables" (PDF), Journal of the American Statistical Association, 58 (301): 13–30, doi:10.2307/2282952, JSTOR 2282952.
- ↑ 4.0 4.1 "हाइपरज्यामितीय वितरण की एक और पूँछ". wordpress.com. 8 December 2015. Retrieved 19 March 2018.
- ↑ Serfling, Robert (1974), "Probability inequalities for the sum in sampling without replacement", The Annals of Statistics, 2 (1): 39–48, doi:10.1214/aos/1176342611.
- ↑ Rivals, I.; Personnaz, L.; Taing, L.; Potier, M.-C (2007). "Enrichment or depletion of a GO category within a class of genes: which test?". Bioinformatics. 23 (4): 401–407. doi:10.1093/bioinformatics/btl633. PMID 17182697.
- ↑ K. Preacher and N. Briggs. "Calculation for Fisher's Exact Test: An interactive calculation tool for Fisher's exact probability test for 2 x 2 tables (interactive page)".
- ↑ Duan, X. G. "Better understanding of the multivariate hypergeometric distribution with implications in design-based survey sampling." arXiv preprint arXiv:2101.00548 (2021). (pdf)
- ↑ Amanda Glazer and Jacob Spertus (2020-02-10). "Start Spreading the News: New York's Post-Election Audit has Major Flaws" (in English). SSRN 3536011.
- ↑ "राज्य लेखापरीक्षा कानून". Verified Voting (in English). 2017-02-10. Retrieved 2018-04-02.
- ↑ National Conference of State Legislatures. "चुनाव के बाद ऑडिट". www.ncsl.org (in English). Retrieved 2018-04-02.
![]() | This article includes a list of general references, but it lacks sufficient corresponding inline citations. (August 2011) (Learn how and when to remove this template message) |
स्रोत
- Berkopec, Aleš (2007). "असतत हाइपरजियोमेट्रिक वितरण के लिए हाइपरक्विक एल्गोरिदम". Journal of Discrete Algorithms. 5 (2): 341–347. doi:10.1016/j.jda.2006.01.001.
- Skala, M. (2011). "हाइपरजियोमेट्रिक टेल असमानताएँ: पागलपन को समाप्त करना". arXiv:1311.5939 [math.PR]. अप्रकाशित नोट