डिरिचलेट-बहुपद वितरण

From Vigyanwiki
Revision as of 13:32, 18 July 2023 by alpha>Saurabh
Dirichlet-Multinomial
Notation
Parameters number of trials (positive integer)
Support
PMF [1]
Mean
Variance
MGF
with
[1]
CF


with

[1]
PGF


with

[1]

संभाव्यता सिद्धांत और आंकड़ों में, डिरिचलेट-बहुपद वितरण गैर-नकारात्मक पूर्णांकों के सीमित समर्थन पर असतत बहुभिन्नरूपी संभाव्यता वितरण का वर्ग है। इसे डिरिचलेट यौगिक संभाव्यता वितरण (डीसीएम) या मल्टीवेरिएट प्रायिकता वितरण (जॉर्ज पोलिया के पश्चात् ) भी कहा जाता है। यह मिश्रित संभाव्यता वितरण है, जहां पैरामीटर सदिश p के साथ डिरिचलेट वितरण से संभाव्यता सदिश निकाला जाता है , और संभाव्यता सदिश p और परीक्षणों की संख्या n के साथ बहुपद वितरण से लिया गया अवलोकन है । डिरिचलेट पैरामीटर सदिश स्थिति के पश्चात् पूर्व धारणा को दर्शाता है और इसे छद्मगणना के रूप में देखा जा सकता है: वास्तविक डेटा एकत्र होने से पहले होने वाले प्रत्येक परिणाम का अवलोकन है । और कंपाउंडिंग पोल्या कलश मॉडल|पोल्या कलश योजना से दर्शाया गया है। यह बायेसियन सांख्यिकी, यंत्र अधिगम , अनुभवजन्य बेयस विधियों और शास्त्रीय सांख्यिकी में अतिविस्तारित बहुपद वितरण के रूप में अधिकांशतः सामने आता है।

जब n = 1 होता है तो यह विशेष मामले के रूप में श्रेणीबद्ध वितरण को कम कर देता है। यह उच्च α के लिए स्वैच्छिक रूप से बहुपद वितरण का भी अनुमान लगाता है। डिरिचलेट-मल्टीनोमियल बीटा-द्विपद वितरण का बहुभिन्नरूपी विस्तार है, क्योंकि बहुपद और डिरिचलेट वितरण क्रमशः द्विपद वितरण और बीटा वितरण के बहुभिन्नरूपी संस्करण हैं।

विनिर्देश

डिरिचलेट-मल्टीनोमियल यौगिक वितरण के रूप में

इस प्रकार से डिरिचलेट वितरण बहुपद वितरण का संयुग्मित वितरण है। यह तथ्य विश्लेषणात्मक रूप से सुव्यवस्थित यौगिक वितरण की ओर ले जाता है।

श्रेणी गणना के यादृच्छिक सदिश के लिए , बहुपद वितरण के अनुसार वितरित, सीमांत वितरण p के लिए वितरण पर एकीकृत करके प्राप्त किया जाता है जिसे डिरिचलेट वितरण के पश्चात यादृच्छिक सदिश के रूप में माना जा सकता है:

जिसके परिणामस्वरूप निम्नलिखित स्पष्ट सूत्र प्राप्त होता है:

जहाँ योग के रूप में परिभाषित किया गया है . इसी यौगिक वितरण का दूसरा रूप, जिसे बीटा फ़ंक्शन, B के संदर्भ में अधिक संक्षिप्त रूप से लिखा गया है, इस प्रकार है:

इसके अतिरिक्त फॉर्म इस तथ्य पर जोर देता है कि गणना में शून्य गिनती श्रेणियों को नजरअंदाज किया जा सकता है - उपयोगी तथ्य जब श्रेणियों की संख्या बहुत बड़ी है और विरल मैट्रिक्स (उदाहरण के लिए दस्तावेजों में शब्द गिनती)।

ध्यान दें कि पीडीएफ बीटा-द्विपद वितरण है जब . यह भी दिखाया जा सकता है कि यह बहुपद वितरण के रूप में दृष्टिकोण करता है अनंत तक पहुंचता है। पैरामीटर बहुपद के सापेक्ष अति फैलाव या विस्फोट की डिग्री को नियंत्रित करता है। निरूपित करने के लिए वैकल्पिक विकल्प साहित्य में पाए जाने वाले एस और ए हैं।

डिरिचलेट-मल्टीनोमियल कलश मॉडल के रूप में

डिरिचलेट-बहुपद वितरण को सदिश α के सकारात्मक पूर्णांक मानों के लिए कलश मॉडल के माध्यम से भी प्रेरित किया जा सकता है, जिसे पॉली कलश मॉडल के रूप में जाना जाता है। विशेष रूप से, कलश की कल्पना करें जिसमें K रंग क्रमांकन वाली गेंदें हों Ith रंग के लिए, जहां यादृच्छिक ड्रॉ बनाए जाते हैं। जब गेंद को यादृच्छिक रूप से निकाला जाता है और उसका अवलोकन किया जाता है, तो ही रंग की दो गेंदें कलश में वापस आ जाती हैं। यदि यह n बार किया जाता है, तो यादृच्छिक सदिश के अवलोकन की संभावना रंग गणना पैरामीटर n और α के साथ डिरिचलेट-मल्टीनोमियल है। यदि यादृच्छिक ड्रॉ सरल प्रतिस्थापन के साथ होते हैं (अवलोकित गेंद के ऊपर और ऊपर कोई भी गेंद कलश में नहीं जोड़ी जाती है), तो वितरण बहुपद वितरण का अनुसरण करता है और यदि यादृच्छिक ड्रॉ प्रतिस्थापन के बिना किया जाता है, तो वितरण बहुभिन्नरूपी हाइपरज्यामितीय वितरण का अनुसरण करता है।

गुण

क्षण

बार फिर चलो और जाने , तो n परीक्षणों पर देखे गए परिणाम की अपेक्षित मान संख्या है

सहप्रसरण मैट्रिक्स इस प्रकार है। प्रत्येक विकर्ण प्रविष्टि बीटा-द्विपदीय रूप से वितरित यादृच्छिक वेरिएबल का विवेरिएबल ण है, और इसलिए है

ऑफ-विकर्ण प्रविष्टियाँ सहप्रसरण हैं:

i, j के लिए अलग।

सभी सहप्रसरण नकारात्मक हैं क्योंकि निश्चित n के लिए, डिरिचलेट-मल्टीनोमियल सदिश के घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।

यह K × K सकारात्मक-निश्चित मैट्रिक्स#नकारात्मक-निश्चित, अर्धनिश्चित और अनिश्चित आव्यूह|रैंक (रैखिक बीजगणित) K - 1 का सकारात्मक-अर्धनिश्चित मैट्रिक्स है।

संगत सहसंबंध मैट्रिक्स#सहसंबंध मैट्रिक्स की प्रविष्टियाँ हैं

नमूना आकार इस अभिव्यक्ति से बाहर हो जाता है।

प्रत्येक k घटक में अलग-अलग बीटा-द्विपद वितरण होता है।

डिरिचलेट-बहुपद वितरण का समर्थन (गणित) सेट है

इसके तत्वों की संख्या है


मैट्रिक्स संकेतन

मैट्रिक्स संकेतन में,

और

साथ pT = स्तंभ सदिश का पंक्ति सदिश स्थानान्तरण p. दे

, हम वैकल्पिक रूप से लिख सकते हैं

पैरामीटर इसे इंट्रा क्लास या इंट्रा क्लस्टर सहसंबंध के रूप में जाना जाता है। यह सकारात्मक सहसंबंध है जो बहुपद वितरण के सापेक्ष अतिफैलाव को जन्म देता है।

एकत्रीकरण

अगर

फिर, यदि सबस्क्रिप्ट i और j वाले यादृच्छिक वेरिएबल को सदिश से हटा दिया जाता है और उनके योग से प्रतिस्थापित कर दिया जाता है[citation needed],

इस एकत्रीकरण संपत्ति का उपयोग सीमांत वितरण प्राप्त करने के लिए किया जा सकता है .

संभावना फ़ंक्शन

वैचारिक रूप से, हम K श्रेणियों के साथ श्रेणीबद्ध वितरण से N स्वतंत्र ड्रॉ बना रहे हैं। आइए हम स्वतंत्र ड्रा को यादृच्छिक श्रेणीगत वेरिएबल के रूप में प्रस्तुत करें के लिए . आइए हम किसी विशेष श्रेणी को कितनी बार निरूपित करें (के लिए) देखा गया है ) सभी श्रेणीगत वेरिएबल ों के बीच , और . फिर, इस समस्या पर हमारे दो अलग-अलग विचार हैं:

  1. का सेट श्रेणीगत वेरिएबल .
  2. एकल सदिश-मूल्यवान वेरिएबल , बहुपद वितरण के अनुसार वितरित।

पहला मामला यादृच्छिक वेरिएबल का सेट है जो प्रत्येक व्यक्तिगत परिणाम को निर्दिष्ट करता है, जबकि बाद वाला वेरिएबल है जो प्रत्येक के श्रेणियों के परिणामों की संख्या निर्दिष्ट करता है। अंतर महत्वपूर्ण है, क्योंकि दोनों मामलों में संगत रूप से अलग-अलग संभाव्यता वितरण हैं।

श्रेणीबद्ध वितरण का पैरामीटर है जहाँ मूल्य निकालने की संभावना है ; इसी प्रकार बहुपद वितरण का पैरामीटर भी है . निर्दिष्ट करने के बजाय सीधे तौर पर, हम इसे संयुग्मित पूर्व वितरण देते हैं, और इसलिए इसे पैरामीटर सदिश के साथ डिरिचलेट वितरण से लिया जाता है .

एकीकृत करके , हम मिश्रित वितरण प्राप्त करते हैं। हालाँकि, वितरण का स्वरूप इस पर निर्भर करता है कि हम कौन सा दृष्टिकोण अपनाते हैं।

व्यक्तिगत परिणामों के सेट के लिए

संयुक्त वितरण

श्रेणीबद्ध वेरिएबल के लिए सीमांत वितरण संयुक्त वितरण को एकीकृत करके प्राप्त किया जाता है :

जिसके परिणामस्वरूप निम्नलिखित स्पष्ट सूत्र प्राप्त होता है:

जहाँ गामा फ़ंक्शन है, के साथ

प्रत्येक श्रेणी के भीतर गिनती पर संभावना के बजाय श्रेणीबद्ध वेरिएबल के अनुक्रम की संभावना के बारे में सूत्र होने के कारण बहुपद गुणांक की अनुपस्थिति पर ध्यान दें।

यद्यपि वेरिएबल उपरोक्त सूत्र में स्पष्ट रूप से प्रकट नहीं होते हैं, वे इसके माध्यम से प्रवेश करते हैं मूल्य.

सशर्त वितरण

अन्य उपयोगी सूत्र, विशेष रूप से गिब्स नमूने के संदर्भ में, पूछता है कि किसी दिए गए वेरिएबल का सशर्त घनत्व क्या है अन्य सभी वेरिएबल (जिन्हें हम निरूपित करेंगे) पर आधारित है ). इसका स्वरूप अत्यंत सरल है:

जहाँ श्रेणी की गिनती की संख्या निर्दिष्ट करता है के अलावा सभी वेरिएबल्स में देखा जाता है .

यह दिखाना उपयोगी हो सकता है कि इस सूत्र को कैसे प्राप्त किया जाए। सामान्य तौर पर, सशर्त वितरण संबंधित संयुक्त वितरण के समानुपाती होते हैं, इसलिए हम सभी के संयुक्त वितरण के लिए उपरोक्त सूत्र से शुरुआत करते हैं। मान और फिर विशेष पर निर्भर न होने वाले किसी भी कारक को हटा दें प्रश्न में। ऐसा करने के लिए, हम संकेतन का उपयोग करते हैं ऊपर परिभाषित, और

हम भी इस तथ्य का उपयोग करते हैं

तब:

सामान्य तौर पर, सशर्त वितरण के लिए समीकरण प्राप्त करते समय सामान्यीकरण स्थिरांक के बारे में चिंता करना आवश्यक नहीं है। सामान्यीकरण स्थिरांक को वितरण से नमूने के लिए एल्गोरिदम के भाग के रूप में निर्धारित किया जाएगा (श्रेणीबद्ध वितरण#नमूनाकरण देखें)। हालाँकि, जब सशर्त वितरण ऊपर सरल रूप में लिखा जाता है, तो यह पता चलता है कि सामान्यीकरण स्थिरांक सरल रूप धारण करता है:

इस तरह

यह फ़ॉर्मूला चीनी रेस्तरां प्रक्रिया से निकटता से संबंधित है, जो सीमा को इस रूप में लेने से उत्पन्न होता है .

बायेसियन नेटवर्क में

बड़े बायेसियन नेटवर्क में, जिसमें श्रेणीबद्ध (या तथाकथित बहुपद) वितरण बड़े नेटवर्क के हिस्से के रूप में डिरिचलेट वितरण पुजारियों के साथ होते हैं, सभी डिरिचलेट पूर्वज को ढहाया जा सकता है, बशर्ते कि उन पर निर्भर एकमात्र नोड श्रेणीबद्ध वितरण हों। पतन प्रत्येक डिरिचलेट-वितरण नोड के लिए दूसरों से अलग होता है, और किसी भी अन्य नोड की परवाह किए बिना होता है जो श्रेणीबद्ध वितरण पर निर्भर हो सकता है। यह इस बात की परवाह किए बिना भी होता है कि क्या श्रेणीबद्ध वितरण डिरिचलेट पुजारियों के अतिरिक्त नोड्स पर निर्भर करते हैं (हालांकि ऐसे मामले में, उन अन्य नोड्स को अतिरिक्त कंडीशनिंग कारकों के रूप में रहना चाहिए)। अनिवार्य रूप से, किसी दिए गए डिरिचलेट-वितरण नोड के आधार पर सभी श्रेणीबद्ध वितरण उपरोक्त सूत्र द्वारा परिभाषित एकल डिरिचलेट-मल्टीनोमियल संयुक्त वितरण में जुड़ जाते हैं। इस तरह से परिभाषित संयुक्त वितरण एकीकृत-आउट डिरिचेट पूर्व नोड्स के माता-पिता पर निर्भर करेगा, साथ ही डिरिचलेट पूर्व नोड्स के अलावा श्रेणीबद्ध नोड्स के किसी भी माता-पिता पर निर्भर करेगा।

निम्नलिखित अनुभागों में, हम आमतौर पर बायेसियन नेटवर्क में पाए जाने वाले विभिन्न कॉन्फ़िगरेशन पर वेरिएबल ्चा करते हैं। हम ऊपर से संभाव्यता घनत्व दोहराते हैं, और इसे प्रतीक का उपयोग करके परिभाषित करते हैं :


ही हाइपरप्रायर के साथ एकाधिक डिरिचलेट पुजारी

कल्पना कीजिए कि हमारे पास इस प्रकार पदानुक्रमित मॉडल है:

इस तरह के मामलों में, हमारे पास कई डिरिचेट पूर्वज हैं, जिनमें से प्रत्येक कुछ संख्या में श्रेणीबद्ध अवलोकन उत्पन्न करता है (संभवतः प्रत्येक पूर्व के लिए अलग संख्या)। तथ्य यह है कि वे सभी ही हाइपरप्रायर पर निर्भर हैं, भले ही यह ऊपर जैसा यादृच्छिक वेरिएबल हो, इससे कोई फर्क नहीं पड़ता। डिरिचलेट पूर्व को एकीकृत करने का प्रभाव उस पूर्व से जुड़े श्रेणीबद्ध वेरिएबल को जोड़ता है, जिसका संयुक्त वितरण बस डिरिचलेट पूर्व के किसी भी कंडीशनिंग कारकों को प्राप्त करता है। तथ्य यह है कि कई पूर्वज हाइपरप्रियर साझा कर सकते हैं, इससे कोई फर्क नहीं पड़ता:

जहाँ यह केवल पूर्व d पर निर्भर श्रेणीगत वेरिएबल ों का संग्रह है।

तदनुसार, सशर्त संभाव्यता वितरण निम्नानुसार लिखा जा सकता है:

जहाँ विशेष रूप से सेट के बीच वेरिएबल की संख्या का मतलब है , को छोड़कर स्वयं, जिसका मूल्य है .

केवल k मान वाले वेरिएबल्स को गिनना आवश्यक है जो समान पूर्व होने के कारण प्रश्न में वेरिएबल से साथ बंधे हैं। हम k मान वाले किसी अन्य वेरिएबल को भी गिनना नहीं चाहते हैं।

ही हाइपरप्रियर वाले एकाधिक डिरिचलेट पादरी, आश्रित बच्चों के साथ

अब थोड़ा अधिक जटिल पदानुक्रमित मॉडल की कल्पना इस प्रकार करें:

यह मॉडल ऊपर जैसा ही है, लेकिन इसके अलावा, प्रत्येक श्रेणीगत वेरिएबल पर चाइल्ड वेरिएबल निर्भर होता है। यह मिश्रण मॉडल की खासियत है.

फिर से, संयुक्त वितरण में, केवल उसी पूर्व पर निर्भर श्रेणीबद्ध वेरिएबल एकल डिरिचलेट-मल्टीनोमियल में जुड़े हुए हैं:

केवल उनके माता-पिता और पूर्वजों पर निर्भर श्रेणीगत वेरिएबल ों का सशर्त वितरण सरल मामले में उपरोक्त के समान रूप होगा। हालाँकि, गिब्स नमूने में किसी दिए गए नोड के सशर्त वितरण को निर्धारित करना आवश्यक है केवल पर निर्भर नहीं और पूर्वज जैसे लेकिन अन्य सभी मापदंडों पर।

सशर्त वितरण के लिए सरलीकृत अभिव्यक्ति ऊपर संयुक्त संभाव्यता के लिए अभिव्यक्ति को फिर से लिखकर और निरंतर कारकों को हटाकर प्राप्त की गई है। इसलिए, वही सरलीकरण बड़े संयुक्त संभाव्यता अभिव्यक्ति में लागू होगा जैसे कि इस मॉडल में, डिरिचलेट-मल्टीनोमियल घनत्व और श्रेणीबद्ध वेरिएबल के मूल्यों पर निर्भर कई अन्य यादृच्छिक वेरिएबल के कारकों से बना है।

इससे निम्नलिखित परिणाम मिलते हैं:

यहाँ की संभाव्यता घनत्व प्रत्यक्ष रूप से प्रकट होता है. छद्म-यादृच्छिक संख्या नमूनाकरण करने के लिए , हम सभी K संभावनाओं के लिए असामान्य संभावनाओं की गणना करेंगे उपरोक्त सूत्र का उपयोग करके, फिर उन्हें सामान्य करें और श्रेणीबद्ध वितरण आलेख में वर्णित एल्गोरिदम का उपयोग करके सामान्य रूप से आगे बढ़ें।

सही ढंग से कहें तो, सशर्त वितरण में दिखाई देने वाला अतिरिक्त कारक मॉडल विनिर्देश से नहीं बल्कि सीधे संयुक्त वितरण से प्राप्त होता है। यह अंतर उन मॉडलों पर विचार करते समय महत्वपूर्ण है जहां डिरिचलेट-पूर्व माता-पिता के साथ दिए गए नोड में कई आश्रित बच्चे हैं, खासकर जब वे बच्चे एक-दूसरे पर निर्भर होते हैं (उदाहरण के लिए यदि वे माता-पिता को साझा करते हैं जो अलग हो गए हैं)। इस पर नीचे अधिक वेरिएबल ्चा की गई है।

पूर्व सदस्यता बदलने के साथ एकाधिक डिरिचलेट पुजारी

अब कल्पना करें कि हमारे पास इस प्रकार पदानुक्रमित मॉडल है:

यहां हमारे पास पेचीदा स्थिति है जहां हमारे पास पहले की तरह कई डिरिचलेट पूर्व और आश्रित श्रेणीगत वेरिएबल का सेट है, लेकिन पहले के विपरीत, पूर्व और आश्रित वेरिएबल के बीच संबंध तय नहीं है। इसके बजाय, उपयोग से पहले का चुनाव किसी अन्य यादृच्छिक श्रेणीबद्ध वेरिएबल पर निर्भर है। ऐसा होता है, उदाहरण के लिए, विषय मॉडल में, और वास्तव में उपरोक्त वेरिएबल के नाम अव्यक्त डिरिचलेट आवंटन के अनुरूप होते हैं। इस मामले में, सेट शब्दों का समूह है, जिनमें से प्रत्येक शब्द किसी से लिया गया है संभावित विषय, जहां प्रत्येक विषय की शब्दावली से पहले डिरिचलेट है संभावित शब्द, विषय में विभिन्न शब्दों की आवृत्ति निर्दिष्ट करते हुए। हालाँकि, किसी दिए गए शब्द की विषय सदस्यता निश्चित नहीं है; बल्कि, यह अव्यक्त वेरिएबल ों के सेट से निर्धारित होता है . प्रति शब्द अव्यक्त वेरिएबल है, ए -आयामी श्रेणीबद्ध वेरिएबल उस विषय को निर्दिष्ट करता है जिससे शब्द संबंधित है।

इस मामले में, किसी दिए गए पूर्व पर निर्भर सभी वेरिएबल समूह में साथ बंधे हुए हैं (यानी सहसंबद्ध), पहले की तरह - विशेष रूप से, किसी दिए गए विषय से संबंधित सभी शब्द जुड़े हुए हैं। हालाँकि, इस मामले में, समूह की सदस्यता बदल जाती है, जिसमें शब्द किसी दिए गए विषय पर तय नहीं होते हैं, बल्कि विषय शब्द से जुड़े अव्यक्त वेरिएबल के मूल्य पर निर्भर करता है। हालाँकि, डिरिचलेट-मल्टीनोमियल घनत्व की परिभाषा वास्तव में किसी समूह में श्रेणीबद्ध वेरिएबल की संख्या (यानी किसी दिए गए विषय से उत्पन्न दस्तावेज़ में शब्दों की संख्या) पर निर्भर नहीं करती है, बल्कि केवल इस बात पर निर्भर करती है कि इसमें कितने वेरिएबल हैं समूह का दिया हुआ मान होता है (अर्थात किसी दिए गए विषय से उत्पन्न सभी शब्द टोकन के बीच, उनमें से कितने दिए गए शब्द हैं)। इसलिए, हम अभी भी संयुक्त वितरण के लिए स्पष्ट सूत्र लिख सकते हैं:

यहां हम संकेतन का उपयोग करते हैं उन शब्द टोकनों की संख्या को दर्शाने के लिए जिनका मान शब्द प्रतीक v है और जो विषय k से संबंधित हैं।

सशर्त वितरण का रूप अभी भी वही है:

यहां फिर से, किसी दिए गए विषय से संबंधित शब्दों के लिए केवल श्रेणीबद्ध वेरिएबल जुड़े हुए हैं (भले ही यह लिंकिंग अव्यक्त वेरिएबल के असाइनमेंट पर निर्भर करेगी), और इसलिए शब्द गणना केवल किसी दिए गए विषय से उत्पन्न शब्दों से अधिक होनी चाहिए। इसलिए प्रतीक , जो कि शब्द प्रतीक v वाले शब्द टोकन की गिनती है, लेकिन विषय k द्वारा उत्पन्न लोगों में से 'केवल' है, और उस शब्द को छोड़कर जिसके वितरण का वर्णन किया जा रहा है।

(जिस कारण से शब्द को बाहर करना आवश्यक है, और यह बिल्कुल भी समझ में क्यों आता है, वह यह है कि गिब्स नमूना संदर्भ में, हम सभी पिछले वेरिएबल के माध्यम से चलने और नमूना लेने के बाद, प्रत्येक यादृच्छिक वेरिएबल के मूल्यों को बार-बार पुन: नमूना करते हैं। इसलिए वेरिएबल का पहले से ही मान होगा, और हमें इस मौजूदा मान को उन विभिन्न गणनाओं से बाहर करने की आवश्यकता है जिनका हम उपयोग करते हैं।)

संयुक्त उदाहरण: एलडीए विषय मॉडल

अब हम दिखाते हैं कि उपरोक्त कुछ परिदृश्यों को कैसे संयोजित किया जाए ताकि यह प्रदर्शित किया जा सके कि गिब्स वास्तविक दुनिया के मॉडल, विशेष रूप से स्मूथ लेटेंट डिरिचलेट आवंटन (एलडीए) विषय मॉडल का नमूना कैसे ले सकते हैं।

मॉडल इस प्रकार है:

अनिवार्य रूप से हम पिछले तीन परिदृश्यों को जोड़ते हैं: हमारे पास श्रेणीबद्ध वेरिएबल हैं जो हाइपरप्रायर साझा करने वाले कई पुजारियों पर निर्भर हैं; हमारे पास आश्रित बच्चों के साथ श्रेणीगत वेरिएबल हैं (अव्यक्त वेरिएबल विषय पहचान); और हमारे पास हाइपरप्रायर साझा करने वाले कई पुजारियों में सदस्यता बदलने के साथ श्रेणीबद्ध वेरिएबल हैं। मानक एलडीए मॉडल में, शब्दों का पूरी तरह से अवलोकन किया जाता है, और इसलिए हमें उन्हें दोबारा नमूना लेने की आवश्यकता नहीं होती है। (हालांकि, गिब्स नमूनाकरण समान रूप से संभव होगा यदि केवल कुछ या कोई भी शब्द नहीं देखा गया हो। ऐसे मामले में, हम कुछ उचित तरीके से शब्दों पर वितरण शुरू करना चाहेंगे - उदाहरण के लिए कुछ प्रक्रिया के आउटपुट से जो वाक्य उत्पन्न करता है , जैसे कि मशीनी अनुवाद मॉडल - परिणामी पश्च वितरण अव्यक्त वेरिएबल वितरण के लिए कोई अर्थ निकालने के लिए।)

उपरोक्त सूत्रों का उपयोग करके, हम सशर्त संभावनाओं को सीधे लिख सकते हैं:

यहां हमने शब्दों की संख्या और विषयों की संख्या को स्पष्ट रूप से अलग करने के लिए गिनती को अधिक स्पष्ट रूप से परिभाषित किया है:

आश्रित बच्चों के साथ श्रेणीबद्ध वेरिएबल के साथ उपरोक्त परिदृश्य में, उन आश्रित बच्चों की सशर्त संभावना माता-पिता की सशर्त संभावना की परिभाषा में दिखाई देती है। इस मामले में, प्रत्येक अव्यक्त वेरिएबल में केवल ही आश्रित उपसर्ग शब्द होता है, इसलिए ऐसा केवल ही शब्द प्रकट होता है। (यदि एकाधिक आश्रित बच्चे हों, तो सभी को माता-पिता की सशर्त संभाव्यता में उपस्थित होना होगा, भले ही अलग-अलग माता-पिता और समान बच्चों के बीच ओवरलैप हो, यानी इस बात की परवाह किए बिना कि किसी दिए गए माता-पिता के आश्रित बच्चों के अन्य माता-पिता भी हैं या नहीं। ऐसा मामला जहां बच्चे के कई माता-पिता हों, उस बच्चे की सशर्त संभाव्यता उसके प्रत्येक माता-पिता की सशर्त संभाव्यता परिभाषा में दिखाई देती है।)

उपरोक्त परिभाषा केवल शब्दों की असामान्यीकृत सशर्त संभाव्यता को निर्दिष्ट करती है, जबकि विषय सशर्त संभाव्यता के लिए वास्तविक (यानी सामान्यीकृत) संभाव्यता की आवश्यकता होती है। इसलिए हमें सभी शब्द प्रतीकों को जोड़कर सामान्य बनाना होगा:

जहाँ

यह और बिंदु को विस्तार से बताने लायक भी है, जो सशर्त संभाव्यता में उपरोक्त दूसरे कारक से संबंधित है। याद रखें कि सामान्य रूप से सशर्त वितरण संयुक्त वितरण से प्राप्त होता है, और सशर्त के डोमेन (ऊर्ध्वाधर पट्टी के बाईं ओर का भाग) पर निर्भर नहीं होने वाले शब्दों को हटाकर इसे सरल बनाया जाता है। जब नोड आश्रित बच्चे हैं, तो या अधिक कारक होंगे संयुक्त वितरण में जो निर्भर हैं . आमतौर पर प्रत्येक आश्रित नोड के लिए कारक होता है, और इसमें गणितीय परिभाषा में दिखाई देने वाले वितरण के समान घनत्व कार्य होता है। हालाँकि, यदि आश्रित नोड में अन्य अभिभावक ( सह-अभिभावक) भी है, और वह सह-अभिभावक समाप्त हो गया है, तो नोड उस सह-अभिभावक को साझा करने वाले अन्य सभी नोड्स पर निर्भर हो जाएगा, और इसके लिए कई शर्तों के स्थान पर ऐसे प्रत्येक नोड, संयुक्त वितरण में केवल संयुक्त पद होगा। हमारे यहाँ बिल्कुल वैसी ही स्थिति है। चाहे केवल बच्चा है , उस बच्चे के पास डिरिचलेट सह-अभिभावक है जिसे हमने अलग कर दिया है, जो नोड्स के पूरे सेट पर डिरिचलेट-मल्टीनोमियल उत्पन्न करता है .

इस मामले में ऐसा होता है कि यह मुद्दा बड़ी समस्याओं का कारण नहीं बनता है, ठीक बीच में एक-से- संबंध के कारण और . हम संयुक्त वितरण को इस प्रकार पुनः लिख सकते हैं:

सेट में कहां (अर्थात नोड्स का सेट के सिवा ), किसी भी नोड में नहीं है माता-पिता के रूप में. इसलिए इसे कंडीशनिंग कारक (पंक्ति 2) के रूप में समाप्त किया जा सकता है, जिसका अर्थ है कि पूरे कारक को सशर्त वितरण (पंक्ति 3) से समाप्त किया जा सकता है।

दूसरा उदाहरण: नाइव बेयस दस्तावेज़ क्लस्टरिंग

यहां और मॉडल है, जिसमें मुद्दों का अलग सेट है। यह दस्तावेज़ क्लस्टरिंग के लिए अप्रकाशित नाइव बेयस मॉडल का कार्यान्वयन है। अर्थात्, हम पाठ्य सामग्री के आधार पर कई श्रेणियों (उदाहरण के लिए स्पैम (इलेक्ट्रॉनिक) या गैर-स्पैम, या वैज्ञानिक जर्नल लेख, वित्त के बारे में समाचार पत्र लेख, राजनीति के बारे में समाचार पत्र लेख, प्रेम पत्र) में वर्गीकरण का दस्तावेजीकरण करना चाहेंगे। हालाँकि, हम पहले से ही किसी दस्तावेज़ की सही श्रेणी नहीं जानते हैं; इसके बजाय, हम आपसी समानता के आधार पर उन्हें क्लस्टर करने का दस्तावेजीकरण करना चाहते हैं। (उदाहरण के लिए, वैज्ञानिक लेखों का सेट शब्द प्रयोग में एक-दूसरे के समान होगा लेकिन प्रेम पत्रों के सेट से बहुत अलग होगा।) यह प्रकार की बिना पर्यवेक्षित शिक्षा है। (उसी तकनीक का उपयोग अर्ध-पर्यवेक्षित शिक्षण करने के लिए किया जा सकता है, यानी जहां हम दस्तावेज़ों के कुछ अंश की सही श्रेणी जानते हैं और शेष दस्तावेज़ों को क्लस्टर करने में सहायता के लिए इस ज्ञान का उपयोग करना चाहेंगे।)

मॉडल इस प्रकार है:

कई मायनों में, यह मॉडल ऊपर वर्णित अव्यक्त डिरिचलेट आवंटन विषय मॉडल के समान है, लेकिन यह प्रति शब्द विषय के बजाय प्रति दस्तावेज़ विषय मानता है, जिसमें दस्तावेज़ में विषयों का मिश्रण होता है। इसे उपरोक्त मॉडल में स्पष्ट रूप से देखा जा सकता है, जो एलडीए मॉडल के समान है, सिवाय इसके कि प्रति दस्तावेज़ शब्द के बजाय केवल अव्यक्त वेरिएबल है। बार फिर, हम मानते हैं कि हम डिरिचलेट के सभी पूर्ववर्तियों को ध्वस्त कर रहे हैं।

किसी दिए गए शब्द के लिए सशर्त संभाव्यता एलडीए मामले के लगभग समान है। बार फिर, उसी डिरिचलेट पूर्व द्वारा उत्पन्न सभी शब्द अन्योन्याश्रित हैं। इस मामले में, इसका मतलब है कि दिए गए लेबल वाले सभी दस्तावेज़ों के शब्द - फिर से, यह लेबल असाइनमेंट के आधार पर भिन्न हो सकता है, लेकिन हमें केवल कुल गिनती की परवाह है। इस तरह:

जहाँ

हालाँकि, लेबल असाइनमेंट के लिए अव्यक्त वेरिएबल के सशर्त वितरण में महत्वपूर्ण अंतर है, जो यह है कि किसी दिए गए लेबल वेरिएबल में केवल के बजाय कई बच्चों के नोड होते हैं - विशेष रूप से, लेबल के दस्तावेज़ में सभी शब्दों के लिए नोड्स। यह कारक के बारे में उपरोक्त वेरिएबल ्चा से निकटता से संबंधित है जो संयुक्त वितरण से उत्पन्न होता है। इस मामले में, संयुक्त वितरण को सभी दस्तावेजों में सभी शब्दों पर ले जाने की आवश्यकता है जिसमें मूल्य के बराबर लेबल असाइनमेंट शामिल है , और इसमें डिरिचलेट-बहुपद वितरण का मान है। इसके अलावा, हम इस संयुक्त वितरण को शब्द पर सशर्त वितरण तक सीमित नहीं कर सकते। इसके बजाय, हम इसे केवल प्रश्न में लेबल के लिए दस्तावेज़ में शब्दों पर छोटे से संयुक्त सशर्त वितरण तक कम कर सकते हैं, और इसलिए हम उपरोक्त ट्रिक का उपयोग करके इसे सरल नहीं बना सकते हैं जो अपेक्षित गणना और पूर्व का सरल योग प्राप्त करता है। यद्यपि वास्तव में इसे ऐसे व्यक्तिगत योगों के उत्पाद के रूप में फिर से लिखना संभव है, कारकों की संख्या बहुत बड़ी है, और डिरिचलेट-बहुपद वितरण संभावना की सीधे गणना करने की तुलना में स्पष्ट रूप से अधिक कुशल नहीं है।

संबंधित वितरण

डिरिचलेट-बहुपद वितरण के एक-आयामी संस्करण को बीटा-द्विपद वितरण के रूप में जाना जाता है।

डिरिचलेट-बहुपद वितरण का संबंध नकारात्मक द्विपद वितरण के साथ है, जो पॉइसन वितरण के साथ बहुपद वितरण के संबंध के अनुरूप है।[2]

उपयोग

डिरिचलेट-बहुपद वितरण का उपयोग स्वचालित दस्तावेज़ वर्गीकरण और क्लस्टरिंग, आनुवंशिकी, अर्थव्यवस्था, मुकाबला मॉडलिंग और मात्रात्मक विपणन में किया जाता है।

यह भी देखें

संदर्भ

उद्धरण

  1. 1.0 1.1 1.2 1.3 Glüsenkamp, T. (2018). "Probabilistic treatment of the uncertainty from the finite size of weighted Monte Carlo data". EPJ Plus. 133 (6): 218. arXiv:1712.01293. Bibcode:2018EPJP..133..218G. doi:10.1140/epjp/i2018-12042-x. S2CID 125665629.
  2. Theorem 1 of Zhou, M. (2018). "Nonparametric Bayesian Negative Binomial Factor Analysis". Bayesian Analysis. 13 (4): 1065–1093. doi:10.1214/17-BA1070.

स्रोत

श्रेणी:बहुभिन्नरूपी असतत वितरण श्रेणी:अलग-अलग वितरण श्रेणी:यौगिक संभाव्यता वितरण