श्रेणीबद्ध वितरण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 139: Line 139:
\end{align}
\end{align}
</math>
</math>
उपरोक्त महत्वपूर्ण रेखा तीसरी है। दूसरा अपेक्षित मूल्य की परिभाषा से सीधे अनुसरण करता है। तीसरी पंक्ति विशेष रूप से श्रेणीबद्ध वितरण के लिए है, और इस तथ्य से अनुसरण करती है कि, श्रेणीबद्ध वितरण में विशेष रूप से, किसी विशेष मान i को देखने का अपेक्षित मान सीधे संबद्ध पैरामीटर p द्वारा निर्दिष्ट किया जाता है<sub>i</sub>. चौथी पंक्ति केवल  भिन्न संकेतन में तीसरे का पुनर्लेखन है, जो मापदंडों के पश्च वितरण के संबंध में की गई अपेक्षा के लिए आगे के संकेतन का उपयोग करता है।
उपरोक्त महत्वपूर्ण रेखा तीसरी है। दूसरा अपेक्षित मूल्य की परिभाषा से सीधे अनुसरण करता है। तीसरी पंक्ति विशेष रूप से श्रेणीबद्ध वितरण के लिए है, और इस तथ्य से अनुसरण करती है कि, श्रेणीबद्ध वितरण में विशेष रूप से, किसी विशेष मान i को देखने का अपेक्षित मान सीधे संबद्ध पैरामीटर p<sub>i</sub> द्वारा निर्दिष्ट किया जाता है, चौथी पंक्ति केवल  भिन्न संकेतन में तीसरे का पुनर्लेखन है, जो मापदंडों के पश्च वितरण के संबंध में की गई अपेक्षा के लिए आगे के संकेतन का उपयोग करता है।


डेटा बिंदुओं को - करके देखें और हर बार डेटा बिंदु का अवलोकन करने और पोस्टीरियर को अपडेट करने से पहले उनकी अनुमानित अनुमान पर विचार करें। किसी दिए गए डेटा बिंदु के लिए, उस बिंदु की किसी श्रेणी को मानने की अनुमान उस श्रेणी में पहले से मौजूद डेटा बिंदुओं की संख्या पर निर्भर करती है। इस परिदृश्य में, यदि किसी श्रेणी में घटना की उच्च आवृत्ति होती है, तो उस श्रेणी में नए डेटा बिंदुओं के सम्मिलित होने की अनुमान अधिक होती है - उसी श्रेणी को और समृद्ध करते हुए। इस प्रकार के परिदृश्य को प्रायः [[अधिमान्य लगाव]] (या अमीर अमीर हो जाता है) मॉडल कहा जाता है। यह कई वास्तविक दुनिया की प्रक्रियाओं को मॉडल करता है, और ऐसे मामलों में पहले कुछ डेटा बिंदुओं द्वारा किए गए विकल्पों का बाकी डेटा बिंदुओं पर अधिक अधिक प्रभाव पड़ता है।
डेटा बिंदुओं को करके देखें और हर बार डेटा बिंदु का अवलोकन करने और पोस्टीरियर को अपडेट करने से पूर्व उनकी अनुमानित अनुमान पर विचार करें। किसी दिए गए डेटा बिंदु के लिए, उस बिंदु की किसी श्रेणी को मानने की अनुमान उस श्रेणी में पूर्व से उपस्थित डेटा बिंदुओं की संख्या पर निर्भर करती है। इस परिदृश्य में, यदि किसी श्रेणी में घटना की उच्च आवृत्ति होती है, तो उस श्रेणी में नए डेटा बिंदुओं के सम्मिलित होने की अनुमान अधिक होती है, उसी श्रेणी को और समृद्ध करते है। इस प्रकार के परिदृश्य को प्रायः [[अधिमान्य लगाव]] मॉडल कहा जाता है। यह कई वास्तविक दुनिया की प्रक्रियाओं को मॉडल करता है, और ऐसे विषयो में प्रथम कुछ डेटा बिंदुओं द्वारा किए गए विकल्पों का बाकी डेटा बिंदुओं पर अधिक अधिक प्रभाव पड़ता है।


=== पश्च [[सशर्त वितरण]] ===
=== पश्च [[सशर्त वितरण]] ===

Revision as of 19:01, 11 July 2023

Categorical
Parameters number of categories (integer)
event probabilities
Support
PMF

(1)
(2)
(3)

where is the Iverson bracket
Mode

संभाव्यता सिद्धांत और सांख्यिकी में, श्रेणीबद्ध वितरण (जिसे सामान्यीकृत बर्नौली वितरण भी कहा जाता है, मल्टीनौली वितरण[1]) असतत संभाव्यता वितरण है जो यादृच्छिक चर के संभावित परिणामों का वर्णन करता है जो संभाव्यता के साथ K संभावित श्रेणियों में से एक पर ले जा सकता है। प्रत्येक श्रेणी को भिन्न से निर्दिष्ट किया गया है। इन परिणामों का कोई जन्मजात अंतर्निहित क्रम नहीं है, किन्तु वितरण का वर्णन करने में सुविधा के लिए संख्यात्मक लेबल प्रायः संलग्न होते हैं, (जैसे 1 से K)। K-आयामी श्रेणीबद्ध वितरण, के-वे घटना पर सबसे सामान्य वितरण है; आकार-K प्रतिरूप स्थान पर कोई अन्य पृथक वितरण विशेष विषय है। प्रत्येक संभावित परिणाम की अनुमानओं को निर्दिष्ट करने वाले पैरामीटर केवल इस तथ्य से बाधित होते हैं कि प्रत्येक को 0 से 1 की सीमा में होना चाहिए, और सभी का योग 1 होना चाहिए।

श्रेणीबद्ध वितरण श्रेणीगत चर यादृच्छिक चर के लिए बर्नौली वितरण का सामान्यीकरण है, अर्थात असतत चर के लिए दो से अधिक संभावित परिणामों के साथ, जैसे पासे का रोल। दूसरी ओर, श्रेणीबद्ध वितरण बहुराष्ट्रीय वितरण का विशेष विषय है, जिसमें यह कई रेखाचित्रों के अतिरिक्त रेखाचित्र के संभावित परिणामों की अनुमानएँ देता है।

शब्दावली

कभी-कभी, श्रेणीबद्ध वितरण को असतत वितरण कहा जाता है। चूंकि, यह उचित रूप से वितरण के विशेष समुदाय को नहीं अर्थात असतत वितरण को संदर्भित करता है।

कुछ क्षेत्रों में, जैसे कि यंत्र अधिगम और प्राकृतिक भाषा प्रसंस्करण, श्रेणीबद्ध और बहुराष्ट्रीय वितरण परस्पर जुड़े हुए हैं, और बहुराष्ट्रीय वितरण का कथन करना साधारण है जब श्रेणीबद्ध वितरण अधिक स्थिर होगा।[2] यह अस्पष्ट उपयोग इस तथ्य से उत्पन्न होता है कि कभी-कभी श्रेणीबद्ध वितरण के परिणाम को "1-ऑफ-के" सदिश (सदिश जिसमें तत्व 1 और अन्य सभी तत्व 0 युक्त होता है) के रूप में व्यक्त करना सुविधाजनक होता है, इसके अतिरिक्त कि 1 से K तक की सीमा में पूर्णांक इस रूप में, श्रेणीबद्ध वितरण एकल अवलोकन के लिए बहुपद वितरण के समान है।

चूंकि, श्रेणीबद्ध और बहुराष्ट्रीय वितरणों को मिलाने से समस्याएँ हो सकती हैं। उदाहरण के लिए, डिरिचलेट-बहुराष्ट्रीय वितरण में, जो सामान्यतः प्राकृतिक भाषा प्रसंस्करण मॉडल (चूंकि सामान्यतः इस नाम के साथ नहीं) में उत्पन्न होता है, संक्षिप्त गिब्स नमूने के परिणामस्वरूप जहां डिरिचलेट वितरण पदानुक्रमित बायेसियन मॉडल से भिन्न हो जाते है, यह अधिक महत्वपूर्ण है श्रेणीबद्ध को बहुपद से भिन्न करें। समान डिरिचलेट-बहुराष्ट्रीय समान चर के संयुक्त वितरण के दो भिन्न-भिन्न रूप हैं, जो इस पर निर्भर करता है कि क्या यह वितरण के रूप में वर्णित है दोनों रूपों में अधिक समान दिखने वाली संभाव्यता द्रव्यमान फ़ंक्शन (पीएमएफ) हैं, जो दोनों श्रेणी में नोड्स की बहुपद-शैली की गणना का संदर्भ देते हैं। चूंकि, बहुपद-शैली पीएमएफ में अतिरिक्त कारक, बहुपद गुणांक है, जो कि श्रेणीबद्ध-शैली पीएमएफ में 1 के समान स्थिरांक है। दोनों को भ्रमित करने से उन सेटिंग्स में सरलता से गलत परिणाम आ सकते हैं जहां यह अतिरिक्त कारक ब्याज के वितरण के संबंध में स्थिर नहीं है। गिब्स सैंपलिंग में उपयोग की जाने वाली पूर्ण सशर्तताओं और परिवर्तनशील प्रविधियों में इष्टतम वितरण में कारक प्रायः स्थिर होता है।

वितरण प्रस्तुत करना

श्रेणीबद्ध वितरण असतत संभाव्यता वितरण है जिसका प्रतिरूप स्थान व्यक्तिगत रूप से पहचाने गए आइटमों का सेट है। यह श्रेणीबद्ध यादृच्छिक चर के लिए बर्नौली वितरण का सामान्यीकरण होता है।

वितरण के सूत्रीकरण में, प्रतिरूप स्थान को पूर्णांकों का सीमित अनुक्रम माना जाता है। लेबल के रूप में उपयोग किए जाने वाले सटीक पूर्णांक महत्वहीन हैं; वे {0, 1, ..., k − 1} या {1, 2, ..., k} या मानों का कोई अन्य मनमाना सेट हो सकते हैं। निम्नलिखित विवरणों में, हम सुविधा के लिए {1, 2, ..., k} का उपयोग करते हैं, चूंकि यह बर्नौली वितरण के लिए सम्मेलन से असहमत है, जो {0, 1} का उपयोग करता है। इस स्थिति में, संभाव्यता द्रव्यमान फलन f है।

जहाँ , तत्व i और देखने की अनुमान का प्रतिनिधित्व करता है,

अन्य सूत्रीकरण जो अधिक जटिल दिखाई देता है किन्तु गणितीय जोड़तोड़ की सुविधा देता है इवरसन ब्रैकेट का उपयोग करते हुए इस प्रकार है[3]

जहाँ यदि 1 का मूल्यांकन करता है , 0 अन्यथा। इस फॉर्मूलेशन के विभिन्न लाभ हैं, उदाहरण के लिए:

  • स्वतंत्र समान रूप से वितरित श्रेणीबद्ध चर के सेट की अनुमान फ़ंक्शन को लिखना सरल होता है।
  • यह श्रेणीबद्ध वितरण को संबंधित बहुराष्ट्रीय वितरण से जोड़ता है।
  • यह दिखाता है कि डिरिचलेट वितरण श्रेणीबद्ध वितरण से पूर्व का संयुग्मित क्यों है, और मापदंडों के पश्च वितरण की गणना करने की अनुमति देता है।

तत्पश्चात अन्य सूत्रीकरण श्रेणीबद्ध वितरण को बहुपद वितरण के विशेष विषय के रूप में मानकर श्रेणीबद्ध और बहुपद वितरण के मध्य संबंध को स्पष्ट करता है जिसमें बहुपद वितरण का पैरामीटर n (प्रतिरूप किए गए आइटम की संख्या) 1 पर निर्धारित किया गया है। इस सूत्रीकरण में , प्रतिरूप स्थान को आयाम k के 1-ऑफ-K एन्कोडेड यादृच्छिक सदिश x का सेट माना जा सकता है[4]जिसमें यह गुण होता है कि वास्तव में तत्व का मान 1 है और अन्य का मान 0 है। विशेष तत्व वाला मान 1 इंगित करता है कि कौन सी श्रेणी चयन की गई है। इस सूत्रीकरण में प्रायिकता द्रव्यमान फलन f है।

जहाँ तत्व i और देखने की अनुमान का प्रतिनिधित्व करता है यह क्रिस्टोफर बिशप द्वारा स्वीकार किया गया सूत्रीकरण है।[4][note 1]

गुण

के साथ श्रेणीबद्ध वितरण के लिए संभावित अनुमानएँ 2-सिम्प्लेक्स हैं , 3-स्पेस में एम्बेडेड।

* वितरण पूर्ण रूप से प्रत्येक संख्या से जुड़ी अनुमानओं द्वारा दिया गया है: , i = 1,...,k, जहाँ . अनुमानओं के संभावित सेट मानक में बिल्कुल वही हैं -आयामी सिंप्लेक्स; k = 2 के लिए यह बर्नौली वितरण के 1-सिम्प्लेक्स होने की संभावित अनुमानओं को कम कर देता है।

  • वितरण "बहुभिन्नरूपी बर्नौली वितरण" का विशेष विषय है [5] जिसमें k 0-1 चर में से एक का मान होता है।
  • होने देना श्रेणीबद्ध वितरण से प्राप्ति हो। तत्वों से बना यादृच्छिक सदिश Y को परिभाषित करें:
जहां I सूचकफ़ंक्शन है। तत्पश्चात Y का वितरण है जो पैरामीटर के साथ बहुपद वितरण का विशेष विषय है . कुल मिलाकर स्वतंत्र और समान रूप से वितरित ऐसे यादृच्छिक चर Y पैरामीटर के साथ श्रेणीबद्ध वितरण से निर्मित होते हैं,Y स्वतंत्र और समान रूप से वितरित किए गए मापदंडों के साथ और बहुपद वितरण है।
  • श्रेणीबद्ध वितरण का संयुग्मित पूर्व वितरण डिरिचलेट वितरण है।[2]अधिक वर्णन के लिए नीचे दिया गया अनुभाग देखें।
  • n स्वतंत्र प्रेक्षणों से पर्याप्त आँकड़ा प्रत्येक श्रेणी में अवलोकनों की गिनती (या, समकक्ष, अनुपात) का सेट है, जहाँ परीक्षणों की कुल संख्या (=n) निश्चित है।
  • किसी अवलोकन का सूचक फ़ंक्शन जिसका मान i है, इवरसन ब्रैकेट फ़ंक्शन के समान है या क्रोनकर डेल्टा फ़ंक्शन डेल्टा पैरामीटर के साथ बर्नौली वितरण होता है।


संयुग्म पूर्व का उपयोग करते हुए बायेसियन

बायेसियन आंकड़ों में, डिरिचलेट वितरण श्रेणीबद्ध वितरण (और बहुराष्ट्रीय वितरण) का संयुग्मित पूर्व वितरण है। इसका तअर्थ यह है कि मॉडल में डेटा बिंदु होता है जिसमें अज्ञात पैरामीटर सदिश p के साथ श्रेणीबद्ध वितरण होता है, और (मानक बायेसियन शैली में) हम इस पैरामीटर को यादृच्छिक चर के रूप में मानते हैं और इसे डिरिचलेट वितरण का उपयोग करके परिभाषित पूर्व वितरण देते हैं, तत्पश्चात प्रेक्षित डेटा से प्राप्त ज्ञान को सम्मिलित करने के पश्चात पैरामीटर का पूर्व वितरण भी डिरिचलेट है। सहज रूप से, ऐसे मामले में, डेटा बिंदु को देखने से पूर्व पैरामीटर के विषय में जो ज्ञात होता है उससे प्रारम्भ करके, डेटा बिंदु के आधार पर ज्ञान को अद्यतन किया जा सकता है, जिससे प्राचीन के समान रूप का नया वितरण प्राप्त होता है। इस प्रकार, गणितीय कठिनाइयों में पड़े बिना, समय में नए अवलोकनों को सम्मिलित करके पैरामीटर के ज्ञान को क्रमिक रूप से अद्यतन किया जा सकता है।

औपचारिक रूप से, इसे इस प्रकार व्यक्त किया जा सकता है।

तो निम्नलिखित मान्य है:[2]

इस संबंध का उपयोग बायेसियन आंकड़ों में N नमूनों के संग्रह को देखते हुए श्रेणीबद्ध वितरण के अंतर्निहित पैरामीटर P का अनुमान लगाने के लिए किया जाता है। सहज रूप से, हम हाइपरप्रायर सदिश α को छद्मगणना के रूप में देख सकते हैं, अर्थात प्रत्येक श्रेणी में उन टिप्पणियों की संख्या का प्रतिनिधित्व करते हैं जो हम पूर्व ही देख चुके है। तत्पश्चात हम पश्च वितरण प्राप्त करने के लिए बस सभी नए अवलोकनों (सदिश c) की गिनती जोड़ते हैं।

आगे का अंतर्ज्ञान पश्च वितरण के अपेक्षित मूल्य से आता है (डिरिचलेट वितरण पर लेख देखें):

यह कहता है कि पश्च वितरण द्वारा उत्पन्न विभिन्न असतत वितरणों के मध्य श्रेणी i को देखने की अपेक्षित अनुमान वास्तव में डेटा में देखी गई उस श्रेणी की घटनाओं के अनुपात के समान है, जिसमें पूर्व वितरण में छद्म गणना भी सम्मिलित है। इससे अधिक सीमा तक सहज ज्ञान प्राप्त होता है: यदि उदाहरण के लिए, तीन संभावित श्रेणियां हैं, और श्रेणी 1 को देखे गए डेटा में 40% समय देखा जाता है, तो कोई औसतन 40% समय श्रेणी 1 को देखने की अपेक्षा करेगा।

(यह अंतर्ज्ञान पूर्व वितरण के प्रभाव को अनदेखा कर रहा है। इसके अतिरिक्त, पश्च वितरण वितरण पर वितरण है। सामान्य रूप से पश्च वितरण प्रश्न में पैरामीटर का वर्णन करता है, और इस स्थिति में पैरामीटर स्वयं असतत संभाव्यता वितरण है, अर्थात वास्तविक श्रेणीबद्ध वितरण जिसने डेटा उत्पन्न किया। उदाहरण के लिए, यदि 40:5:55 के अनुपात में 3 श्रेणियां प्रेक्षित डेटा में हैं, तो पूर्व वितरण के प्रभाव को अनदेखा करते हुए, सही पैरामीटर - अर्थात उचित, अंतर्निहित वितरण जिसने हमारे देखे गए डेटा को उत्पन्न किया।औसत मान (0.40,0.05,0.55) होने की आशा है, जो वास्तव में पूर्व से ज्ञात होता है। चूंकि, वास्तविक वितरण वास्तव में (0.35,0.07,0.58) या (0.42,0.04,0.54) या हो सकता है निकट की विभिन्न अन्य अनुमानएँ यहां सम्मिलित अनिश्चितता की मात्रा पश्च भाग के विचरण द्वारा निर्दिष्ट की जाती है, जिसे कुल अवलोकनों की संख्या द्वारा नियंत्रित किया जाता है, जितना अधिक डेटा देखा जाएगा, सच्चे पैरामीटर के बारे में अनिश्चितता उतनी ही कम होगी।)

(तकनीकी रूप से, पूर्व पैरामीटर को वास्तव में प्रतिनिधित्व के रूप में देखा जाना चाहिए श्रेणी के पूर्व अवलोकन . तत्पश्चात, अद्यतन पश्च पैरामीटर का प्रतिनिधित्व करता है पश्च अवलोकन, यह इस तथ्य को दर्शाता है कि डिरिचलेट वितरण के साथ पूर्ण रूप से समतल है - अनिवार्य रूप से, p के संभावित मूल्यों के संकेतन पर समान वितरण (निरंतर) होते है। तार्किक रूप से, इस प्रकार का समतल वितरण कुल अज्ञानता का प्रतिनिधित्व करता है, जो कि किसी भी प्रकार की टिप्पणियों के अनुरूप नहीं है। चूंकि, यदि हम ध्यान न दें तो पश्च का गणितीय अद्यतन उचित कार्य करता है टर्म और केवल α सदिश के विषय में सोचें जो सीधे छद्म गणनाओं के सेट का प्रतिनिधित्व करता है। इसके अतिरिक्त, ऐसा करने से व्याख्या करने की समस्या से बचा जा सकता है मान 1 से कम।)

एमएपी अनुमान

उपरोक्त मॉडल में पैरामीटर p का अधिकतम-ए-पोस्टीरियरी अनुमान केवल पोस्टीरियर डिरिचलेट वितरण की विधि है, अर्थात[2]

कई व्यावहारिक अनुप्रयोगों में, स्थिति का आश्वासन देने की एकमात्र प्रविधि यही है सेट करना है, सभी i के लिए होता है।

सीमांत अनुमान

उपरोक्त मॉडल में, टिप्पणियों की सीमांत अनुमान (अर्थात पूर्व पैरामीटर सीमांत वितरण के साथ टिप्पणियों का संयुक्त वितरण) डिरिचलेट-बहुराष्ट्रीय वितरण है:[2]

यह वितरण पदानुक्रमित बायेसियन मॉडल में महत्वपूर्ण भूमिका निभाता है, क्योंकि गिब्स सैंपलिंग या वेरिएबल बेयस जैसे प्रविधियों का उपयोग करते हुए ऐसे मॉडल पर सांख्यिकीय अनुमान लगाते समय, डिरिचलेट पूर्व वितरण प्रायः हाशिए पर रखे जाते हैं। अधिक विवरण के लिए इस वितरण पर आलेख देखें।

पश्च भविष्य कहनेवाला वितरण

उपरोक्त मॉडल में नए अवलोकन का पश्च पूर्वानुमानित वितरण नए अवलोकन का वितरण है , सेट दिया जाएगा। N श्रेणीबद्ध अवलोकनों का, जैसा कि डिरिचलेट-मल्टीनोमियल वितरण आलेख में दिखाया गया है, इसका अधिक सरल रूप है:[2]

इस सूत्र और पूर्व वाले के मध्य विभिन्न संबंध हैं:

  • किसी विशेष श्रेणी को देखने की पूर्व अनुमानित अनुमान उस श्रेणी में पूर्व टिप्पणियों के सापेक्ष अनुपात के समान है (पूर्व की छद्म टिप्पणियों सहित)। यह तार्किक ज्ञात होता है ,सहज रूप से हम उस श्रेणी के प्रथम से देखे गए आवृत्ति के अनुसार विशेष श्रेणी को देखने की अपेक्षा करेंगे।
  • पोस्टीरियर प्रेडिक्टिव प्रायिकता पोस्टीरियर डिस्ट्रीब्यूशन के अपेक्षित मूल्य के समान है। यह नीचे और अधिक बताया गया है।
  • परिणामस्वरूप, इस सूत्र को किसी श्रेणी को देखने की पश्चगामी अनुमान के रूप में व्यक्त किया जा सकता है, जो उस श्रेणी की कुल देखी गई संख्या के समानुपाती होती है, या किसी श्रेणी की अपेक्षित गणना श्रेणी की कुल देखी गई संख्या के समान होती है। , जहां पूर्व की छद्म टिप्पणियों को सम्मिलित करने के लिए प्रेक्षित गणना की जाती है।

पश्चगामी भविष्यवाणिय संभाव्यता और 'P' के पश्च वितरण के अपेक्षित मूल्य के मध्य समानता का कारण उपरोक्त सूत्र की पुन: परिक्षण से स्पष्ट है। जैसा कि पोस्टीरियर प्रेडिक्टिव डिस्ट्रीब्यूशन आर्टिकल में बताया गया है, पोस्टीरियर प्रेडिक्टिव प्रोबेबिलिटी के फॉर्मूले में पोस्टीरियर डिस्ट्रीब्यूशन के संबंध में अपेक्षित मान का रूप है:

उपरोक्त महत्वपूर्ण रेखा तीसरी है। दूसरा अपेक्षित मूल्य की परिभाषा से सीधे अनुसरण करता है। तीसरी पंक्ति विशेष रूप से श्रेणीबद्ध वितरण के लिए है, और इस तथ्य से अनुसरण करती है कि, श्रेणीबद्ध वितरण में विशेष रूप से, किसी विशेष मान i को देखने का अपेक्षित मान सीधे संबद्ध पैरामीटर pi द्वारा निर्दिष्ट किया जाता है, चौथी पंक्ति केवल भिन्न संकेतन में तीसरे का पुनर्लेखन है, जो मापदंडों के पश्च वितरण के संबंध में की गई अपेक्षा के लिए आगे के संकेतन का उपयोग करता है।

डेटा बिंदुओं को करके देखें और हर बार डेटा बिंदु का अवलोकन करने और पोस्टीरियर को अपडेट करने से पूर्व उनकी अनुमानित अनुमान पर विचार करें। किसी दिए गए डेटा बिंदु के लिए, उस बिंदु की किसी श्रेणी को मानने की अनुमान उस श्रेणी में पूर्व से उपस्थित डेटा बिंदुओं की संख्या पर निर्भर करती है। इस परिदृश्य में, यदि किसी श्रेणी में घटना की उच्च आवृत्ति होती है, तो उस श्रेणी में नए डेटा बिंदुओं के सम्मिलित होने की अनुमान अधिक होती है, उसी श्रेणी को और समृद्ध करते है। इस प्रकार के परिदृश्य को प्रायः अधिमान्य लगाव मॉडल कहा जाता है। यह कई वास्तविक दुनिया की प्रक्रियाओं को मॉडल करता है, और ऐसे विषयो में प्रथम कुछ डेटा बिंदुओं द्वारा किए गए विकल्पों का बाकी डेटा बिंदुओं पर अधिक अधिक प्रभाव पड़ता है।

पश्च सशर्त वितरण

गिब्स प्रतिरूपकरण में, आम तौर पर बहु-चर बेयस नेटवर्क में सशर्त वितरण से आकर्षित करने की आवश्यकता होती है जहां प्रत्येक चर अन्य सभी पर सशर्त होता है। उन नेटवर्कों में जिनमें डिरिचलेट डिस्ट्रीब्यूशन प्रिअर्स (उदाहरण मिश्रण मॉडल और मिश्रण घटकों सहित मॉडल) के साथ श्रेणीबद्ध चर सम्मिलित हैं, डिरिचलेट वितरण प्रायः नेटवर्क के ढह जाते हैं (सीमांत वितरण), जो किसी दिए गए पूर्व पर निर्भर विभिन्न श्रेणीबद्ध नोड्स के मध्य निर्भरता का परिचय देता है ( विशेष रूप से, उनका संयुक्त वितरण डिरिचलेट-बहुराष्ट्रीय वितरण है)। ऐसा करने के कारणों में से यह है कि इस तरह के मामले में, श्रेणीबद्ध नोड का वितरण दूसरों को दिया गया है, शेष नोड्स का सटीक पश्च भविष्यवाणिय वितरण है।

अर्थात नोड्स के सेट के लिए , यदि विचाराधीन नोड के रूप में दर्शाया गया है और शेष के रूप में , तब

कहाँ नोड n के अतिरिक्त अन्य नोड्स के मध्य श्रेणी I वाले नोड्स की संख्या है।

प्रतिरूपकरण

कई छद्म-यादृच्छिक संख्या प्रतिरूपकरण # परिमित असतत वितरण हैं, किन्तु श्रेणीबद्ध वितरण से प्रतिरूप लेने का सबसे आम तरीका प्रकार का उलटा परिवर्तन प्रतिरूपकरण का उपयोग करता है:

मान लें कि वितरण अज्ञात सामान्यीकरण स्थिरांक के साथ, कुछ अभिव्यक्ति के समानुपाती के रूप में व्यक्त किया गया है। कोई भी प्रतिरूप लेने से पहले, कुछ मान निम्नानुसार तैयार किए जाते हैं:

  1. प्रत्येक श्रेणी के लिए वितरण के असामान्य मान की गणना करें।
  2. उनका योग करें और प्रत्येक मान को इस राशि से विभाजित करें, ताकि उन्हें सामान्य किया जा सके।
  3. श्रेणियों पर किसी प्रकार का आदेश दें (उदाहरण के लिए सूचकांक जो 1 से k तक चलता है, जहां k श्रेणियों की संख्या है)।
  4. प्रत्येक मान को पिछले सभी मानों के योग के साथ बदलकर मानों को संचयी वितरण फ़ंक्शन (CDF) में बदलें। यह समय ओ (के) में किया जा सकता है। पहली श्रेणी के लिए परिणामी मान 0 होगा।

तत्पश्चात, हर बार मूल्य का प्रतिरूप लेना आवश्यक है:

  1. 0 और 1 के मध्य समान वितरण (निरंतर) संख्या चुनें।
  2. CDF में सबसे बड़ी संख्या का पता लगाएँ जिसका मान अभी चुनी गई संख्या से कम या उसके समान है। यह बाइनरी खोज द्वारा समय ओ (लॉग (के)) में किया जा सकता है।
  3. इस सीडीएफ मूल्य के अनुरूप श्रेणी लौटाएं।

यदि ही श्रेणीबद्ध वितरण से कई मूल्यों को निकालना आवश्यक है, तो निम्न दृष्टिकोण अधिक कुशल है। यह O(n) समय में n नमूने लेता है (यह मानते हुए कि O(1) सन्निकटन का उपयोग द्विपद वितरण से मान निकालने के लिए किया जाता है[5]).

<पूर्व> function draw_categorical(n) // जहाँ n श्रेणीबद्ध वितरण से निकाले जाने वाले नमूनों की संख्या है

 आर = 1
 एस = 0
 i के लिए 1 से k // जहाँ k श्रेणियों की संख्या है
   v =  द्विपद (n, p[i] / r) वितरण से ड्रा // जहां p[i] श्रेणी i की अनुमान है
   जे के लिए 1 से वी के लिए
     z[s++] = i // जहां z  सरणी है जिसमें परिणाम संग्रहीत होते हैं
   एन = एन - वी
   आर = आर - पी [मैं]
 जेड में तत्वों को शफल (यादृच्छिक रूप से पुन: व्यवस्थित करें)।
 वापसी जेड

</पूर्व>

गंबेल वितरण के माध्यम से प्रतिरूपकरण

मशीन लर्निंग में श्रेणीबद्ध वितरण को पैरामीट्रिज करना विशिष्ट है, में अप्रतिबंधित प्रतिनिधित्व के माध्यम से , जिनके घटक निम्न द्वारा दिए गए हैं:

कहाँ कोई वास्तविक स्थिरांक है। इस प्रतिनिधित्व को देखते हुए, सॉफ्टमैक्स फ़ंक्शन का उपयोग करके पुनर्प्राप्त किया जा सकता है, जिसे बाद में ऊपर वर्णित तकनीकों का उपयोग करके प्रतिरूप किया जा सकता है। चूंकि अधिक प्रत्यक्ष प्रतिरूपकरण विधि है जो Gumbel वितरण से नमूनों का उपयोग करती है।[6] होने देना मानक गंबेल वितरण से के स्वतंत्र ड्रॉ, तत्पश्चात

वांछित श्रेणीबद्ध वितरण से प्रतिरूप होगा। (अगर मानक वर्दी वितरण (निरंतर) से प्रतिरूप है, तो मानक Gumbel वितरण से प्रतिरूप है।)

यह भी देखें

  • श्रेणीगत चर

संबंधित वितरण

  • डिरिचलेट वितरण
  • बहुपद वितरण
  • बर्नौली वितरण
  • डिरिचलेट-बहुराष्ट्रीय वितरण

टिप्पणियाँ

  1. However, Bishop does not explicitly use the term categorical distribution.


संदर्भ

  1. Murphy, K. P. (2012). Machine learning: a probabilistic perspective, p. 35. MIT press. ISBN 0262018020.
  2. 2.0 2.1 2.2 2.3 2.4 2.5 Minka, T. (2003) Bayesian inference, entropy and the multinomial distribution. Technical report Microsoft Research.
  3. Minka, T. (2003), op. cit. Minka uses the Kronecker delta function, similar to but less general than the Iverson bracket.
  4. 4.0 4.1 Bishop, C. (2006) Pattern Recognition and Machine Learning, Springer. ISBN 0-387-31073-8.
  5. Agresti, A., An Introduction to Categorical Data Analysis, Wiley-Interscience, 2007, ISBN 978-0-471-22618-5, pp. 25
  6. Adams, Ryan. "The Gumbel–Max Trick for Discrete Distributions".