डिरिचलेट-बहुपद वितरण: Difference between revisions

From Vigyanwiki
(Created page with "{{Probability distribution| pdf_image =| cdf_image =| name =Dirichlet-Multinomial| type =mass| parameters =<math>n > 0</math> number of trials (positi...")
 
No edit summary
Line 28: Line 28:
   conjugate  =|
   conjugate  =|
}}
}}
संभाव्यता सिद्धांत और आंकड़ों में, डिरिचलेट-मल्टीनोमियल वितरण गैर-नकारात्मक पूर्णांकों के एक सीमित समर्थन पर असतत बहुभिन्नरूपी संभाव्यता वितरण का एक परिवार है। इसे डिरिचलेट [[यौगिक संभाव्यता वितरण]] (DCM) या मल्टीवेरिएट [[प्रायिकता वितरण]] (जॉर्ज पोलिया के बाद) भी कहा जाता है। यह एक मिश्रित संभाव्यता वितरण है, जहां पैरामीटर वेक्टर के साथ [[डिरिचलेट वितरण]] से एक संभाव्यता वेक्टर पी निकाला जाता है <math>\boldsymbol{\alpha}</math>, और संभाव्यता वेक्टर पी और परीक्षणों की संख्या ''एन'' के साथ एक [[बहुपद वितरण]] से लिया गया एक अवलोकन। डिरिचलेट पैरामीटर वेक्टर स्थिति के बारे में पूर्व धारणा को पकड़ता है और इसे छद्मगणना के रूप में देखा जा सकता है: वास्तविक डेटा एकत्र होने से पहले होने वाले प्रत्येक परिणाम का अवलोकन। कंपाउंडिंग पोल्या कलश मॉडल|पोल्या कलश योजना से मेल खाती है। यह बायेसियन सांख्यिकी, [[ यंत्र अधिगम ]], अनुभवजन्य बेयस विधियों और शास्त्रीय सांख्यिकी में एक अतिविस्तारित बहुपद वितरण के रूप में अक्सर सामने आता है।
संभाव्यता सिद्धांत और आंकड़ों में, डिरिचलेट-मल्टीनोमियल वितरण गैर-नकारात्मक पूर्णांकों के सीमित समर्थन पर असतत बहुभिन्नरूपी संभाव्यता वितरण का परिवार है। इसे डिरिचलेट [[यौगिक संभाव्यता वितरण]] (DCM) या मल्टीवेरिएट [[प्रायिकता वितरण]] (जॉर्ज पोलिया के बाद) भी कहा जाता है। यह मिश्रित संभाव्यता वितरण है, जहां पैरामीटर वेक्टर के साथ [[डिरिचलेट वितरण]] से संभाव्यता वेक्टर पी निकाला जाता है <math>\boldsymbol{\alpha}</math>, और संभाव्यता वेक्टर पी और परीक्षणों की संख्या ''एन'' के साथ [[बहुपद वितरण]] से लिया गया अवलोकन। डिरिचलेट पैरामीटर वेक्टर स्थिति के बारे में पूर्व धारणा को पकड़ता है और इसे छद्मगणना के रूप में देखा जा सकता है: वास्तविक डेटा एकत्र होने से पहले होने वाले प्रत्येक परिणाम का अवलोकन। कंपाउंडिंग पोल्या कलश मॉडल|पोल्या कलश योजना से मेल खाती है। यह बायेसियन सांख्यिकी, [[ यंत्र अधिगम |यंत्र अधिगम]] , अनुभवजन्य बेयस विधियों और शास्त्रीय सांख्यिकी में अतिविस्तारित बहुपद वितरण के रूप में अक्सर सामने आता है।
   
   
जब ''n'' = 1 होता है तो यह एक विशेष मामले के रूप में [[श्रेणीबद्ध वितरण]] को कम कर देता है। यह बड़े ''α'' के लिए मनमाने ढंग से बहुपद वितरण का भी अनुमान लगाता है। डिरिचलेट-मल्टीनोमियल बीटा-[[द्विपद वितरण]] का एक बहुभिन्नरूपी विस्तार है, क्योंकि बहुपद और डिरिचलेट वितरण क्रमशः द्विपद वितरण और [[बीटा वितरण]] के बहुभिन्नरूपी संस्करण हैं।
जब ''n'' = 1 होता है तो यह विशेष मामले के रूप में [[श्रेणीबद्ध वितरण]] को कम कर देता है। यह बड़े ''α'' के लिए मनमाने ढंग से बहुपद वितरण का भी अनुमान लगाता है। डिरिचलेट-मल्टीनोमियल बीटा-[[द्विपद वितरण]] का बहुभिन्नरूपी विस्तार है, क्योंकि बहुपद और डिरिचलेट वितरण क्रमशः द्विपद वितरण और [[बीटा वितरण]] के बहुभिन्नरूपी संस्करण हैं।


==विनिर्देश==
==विनिर्देश==


===डिरिचलेट-मल्टीनोमियल एक [[यौगिक वितरण]] के रूप में===
===डिरिचलेट-मल्टीनोमियल [[यौगिक वितरण]] के रूप में===
डिरिचलेट वितरण बहुपद वितरण का [[संयुग्मित वितरण]] है। यह तथ्य एक विश्लेषणात्मक रूप से सुव्यवस्थित यौगिक वितरण की ओर ले जाता है।
डिरिचलेट वितरण बहुपद वितरण का [[संयुग्मित वितरण]] है। यह तथ्य विश्लेषणात्मक रूप से सुव्यवस्थित यौगिक वितरण की ओर ले जाता है।
श्रेणी गणना के यादृच्छिक वेक्टर के लिए <math>\mathbf{x}=(x_1,\dots,x_K)</math>, एक बहुपद वितरण के अनुसार वितरित, [[सीमांत वितरण]] पी के लिए वितरण पर एकीकृत करके प्राप्त किया जाता है जिसे डिरिचलेट वितरण के बाद एक [[यादृच्छिक वेक्टर]] के रूप में माना जा सकता है:
श्रेणी गणना के यादृच्छिक वेक्टर के लिए <math>\mathbf{x}=(x_1,\dots,x_K)</math>, बहुपद वितरण के अनुसार वितरित, [[सीमांत वितरण]] पी के लिए वितरण पर एकीकृत करके प्राप्त किया जाता है जिसे डिरिचलेट वितरण के बाद [[यादृच्छिक वेक्टर]] के रूप में माना जा सकता है:
   
   
:<math>\Pr(\mathbf{x}\mid n,\boldsymbol{\alpha})=\int_{\mathbf{p}}\mathrm{Mult}(\mathbf{x}\mid  n,\mathbf{p})\mathrm{Dir}(\mathbf{p}\mid\boldsymbol{\alpha})\textrm{d}\mathbf{p}</math>
:<math>\Pr(\mathbf{x}\mid n,\boldsymbol{\alpha})=\int_{\mathbf{p}}\mathrm{Mult}(\mathbf{x}\mid  n,\mathbf{p})\mathrm{Dir}(\mathbf{p}\mid\boldsymbol{\alpha})\textrm{d}\mathbf{p}</math>
Line 48: Line 48:
{\prod_{k:x_k>0} x_k B\left(\alpha_k,x_k \right)} .
{\prod_{k:x_k>0} x_k B\left(\alpha_k,x_k \right)} .
</math>
</math>
बाद वाला फॉर्म इस तथ्य पर जोर देता है कि गणना में शून्य गिनती श्रेणियों को नजरअंदाज किया जा सकता है - एक उपयोगी तथ्य जब श्रेणियों की संख्या बहुत बड़ी है और [[विरल मैट्रिक्स]] (उदाहरण के लिए दस्तावेजों में शब्द गिनती)।
बाद वाला फॉर्म इस तथ्य पर जोर देता है कि गणना में शून्य गिनती श्रेणियों को नजरअंदाज किया जा सकता है - उपयोगी तथ्य जब श्रेणियों की संख्या बहुत बड़ी है और [[विरल मैट्रिक्स]] (उदाहरण के लिए दस्तावेजों में शब्द गिनती)।


ध्यान दें कि पीडीएफ बीटा-द्विपद वितरण है जब <math>K=2</math>. यह भी दिखाया जा सकता है कि यह बहुपद वितरण के रूप में दृष्टिकोण करता है <math>\alpha_{0}</math> अनंत तक पहुंचता है। पैरामीटर <math>\alpha_{0}</math> बहुपद के सापेक्ष अति फैलाव या विस्फोट की डिग्री को नियंत्रित करता है। निरूपित करने के लिए वैकल्पिक विकल्प <math>\alpha_{0}</math> साहित्य में पाए जाने वाले एस और ए हैं।
ध्यान दें कि पीडीएफ बीटा-द्विपद वितरण है जब <math>K=2</math>. यह भी दिखाया जा सकता है कि यह बहुपद वितरण के रूप में दृष्टिकोण करता है <math>\alpha_{0}</math> अनंत तक पहुंचता है। पैरामीटर <math>\alpha_{0}</math> बहुपद के सापेक्ष अति फैलाव या विस्फोट की डिग्री को नियंत्रित करता है। निरूपित करने के लिए वैकल्पिक विकल्प <math>\alpha_{0}</math> साहित्य में पाए जाने वाले एस और ए हैं।


===डिरिचलेट-मल्टीनोमियल एक [[कलश मॉडल]] के रूप में===
===डिरिचलेट-मल्टीनोमियल [[कलश मॉडल]] के रूप में===
डिरिचलेट-मल्टीनोमियल वितरण को वेक्टर α के सकारात्मक [[पूर्णांक]] मानों के लिए एक कलश मॉडल के माध्यम से भी प्रेरित किया जा सकता है, जिसे पॉली कलश मॉडल के रूप में जाना जाता है। विशेष रूप से, एक कलश की कल्पना करें जिसमें K रंग क्रमांकन वाली गेंदें हों <math>\alpha_{i}</math> Ith रंग के लिए, जहां यादृच्छिक ड्रॉ बनाए जाते हैं। जब एक गेंद को यादृच्छिक रूप से निकाला जाता है और उसका अवलोकन किया जाता है, तो एक ही रंग की दो गेंदें कलश में वापस आ जाती हैं। यदि यह n बार किया जाता है, तो यादृच्छिक वेक्टर के अवलोकन की संभावना <math>x</math> रंग गणना पैरामीटर n और α के साथ एक डिरिचलेट-मल्टीनोमियल है।
डिरिचलेट-मल्टीनोमियल वितरण को वेक्टर α के सकारात्मक [[पूर्णांक]] मानों के लिए कलश मॉडल के माध्यम से भी प्रेरित किया जा सकता है, जिसे पॉली कलश मॉडल के रूप में जाना जाता है। विशेष रूप से, कलश की कल्पना करें जिसमें K रंग क्रमांकन वाली गेंदें हों <math>\alpha_{i}</math> Ith रंग के लिए, जहां यादृच्छिक ड्रॉ बनाए जाते हैं। जब गेंद को यादृच्छिक रूप से निकाला जाता है और उसका अवलोकन किया जाता है, तो ही रंग की दो गेंदें कलश में वापस आ जाती हैं। यदि यह n बार किया जाता है, तो यादृच्छिक वेक्टर के अवलोकन की संभावना <math>x</math> रंग गणना पैरामीटर n और α के साथ डिरिचलेट-मल्टीनोमियल है।
यदि यादृच्छिक ड्रॉ सरल प्रतिस्थापन के साथ होते हैं (अवलोकित गेंद के ऊपर और ऊपर कोई भी गेंद कलश में नहीं जोड़ी जाती है), तो वितरण एक बहुपद वितरण का अनुसरण करता है और यदि यादृच्छिक ड्रॉ प्रतिस्थापन के बिना किया जाता है, तो वितरण एक बहुभिन्नरूपी हाइपरज्यामितीय वितरण का अनुसरण करता है।
यदि यादृच्छिक ड्रॉ सरल प्रतिस्थापन के साथ होते हैं (अवलोकित गेंद के ऊपर और ऊपर कोई भी गेंद कलश में नहीं जोड़ी जाती है), तो वितरण बहुपद वितरण का अनुसरण करता है और यदि यादृच्छिक ड्रॉ प्रतिस्थापन के बिना किया जाता है, तो वितरण बहुभिन्नरूपी हाइपरज्यामितीय वितरण का अनुसरण करता है।


==गुण==
==गुण==


===क्षण===
===क्षण===
एक बार फिर चलो <math>\alpha_0 = \sum \alpha_k</math> और जाने <math>p_i =\frac{\alpha_i}{\sum \alpha_k}=\frac{\alpha_i}{\alpha_0}</math>, तो n परीक्षणों पर देखे गए परिणाम की अपेक्षित मान संख्या है
बार फिर चलो <math>\alpha_0 = \sum \alpha_k</math> और जाने <math>p_i =\frac{\alpha_i}{\sum \alpha_k}=\frac{\alpha_i}{\alpha_0}</math>, तो n परीक्षणों पर देखे गए परिणाम की अपेक्षित मान संख्या है


:<math>\operatorname{E}(X_i) = n p_i=n\frac{\alpha_i}{\alpha_0}.\,</math>
:<math>\operatorname{E}(X_i) = n p_i=n\frac{\alpha_i}{\alpha_0}.\,</math>
Line 70: Line 70:
i, j के लिए अलग।
i, j के लिए अलग।


सभी सहप्रसरण नकारात्मक हैं क्योंकि निश्चित n के लिए, डिरिचलेट-मल्टीनोमियल वेक्टर के एक घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।
सभी सहप्रसरण नकारात्मक हैं क्योंकि निश्चित n के लिए, डिरिचलेट-मल्टीनोमियल वेक्टर के घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।


यह एक K × K सकारात्मक-निश्चित मैट्रिक्स#नकारात्मक-निश्चित, अर्धनिश्चित और अनिश्चित आव्यूह|[[रैंक (रैखिक बीजगणित)]] K - 1 का सकारात्मक-अर्धनिश्चित मैट्रिक्स है।
यह K × K सकारात्मक-निश्चित मैट्रिक्स#नकारात्मक-निश्चित, अर्धनिश्चित और अनिश्चित आव्यूह|[[रैंक (रैखिक बीजगणित)]] K - 1 का सकारात्मक-अर्धनिश्चित मैट्रिक्स है।


संगत सहसंबंध मैट्रिक्स#सहसंबंध मैट्रिक्स की प्रविष्टियाँ हैं
संगत सहसंबंध मैट्रिक्स#सहसंबंध मैट्रिक्स की प्रविष्टियाँ हैं
Line 113: Line 113:


==संभावना फ़ंक्शन==
==संभावना फ़ंक्शन==
वैचारिक रूप से, हम K श्रेणियों के साथ एक श्रेणीबद्ध वितरण से N स्वतंत्र ड्रॉ बना रहे हैं। आइए हम स्वतंत्र ड्रा को यादृच्छिक श्रेणीगत चर के रूप में प्रस्तुत करें <math>z_n</math> के लिए <math>n = 1 \dots N</math>. आइए हम किसी विशेष श्रेणी को कितनी बार निरूपित करें <math>k</math> (के लिए) देखा गया है <math>k = 1 \dots K</math>) सभी श्रेणीगत चरों के बीच <math>n_k</math>, और <math>\sum_k n_k = N</math>. फिर, इस समस्या पर हमारे दो अलग-अलग विचार हैं:
वैचारिक रूप से, हम K श्रेणियों के साथ श्रेणीबद्ध वितरण से N स्वतंत्र ड्रॉ बना रहे हैं। आइए हम स्वतंत्र ड्रा को यादृच्छिक श्रेणीगत चर के रूप में प्रस्तुत करें <math>z_n</math> के लिए <math>n = 1 \dots N</math>. आइए हम किसी विशेष श्रेणी को कितनी बार निरूपित करें <math>k</math> (के लिए) देखा गया है <math>k = 1 \dots K</math>) सभी श्रेणीगत चरों के बीच <math>n_k</math>, और <math>\sum_k n_k = N</math>. फिर, इस समस्या पर हमारे दो अलग-अलग विचार हैं:
# का एक सेट <math>N</math> श्रेणीगत चर <math>z_1,\dots,z_N</math>.
# का सेट <math>N</math> श्रेणीगत चर <math>z_1,\dots,z_N</math>.
# एक एकल वेक्टर-मूल्यवान चर <math>\mathbf{x}=(n_1,\dots,n_K)</math>, एक बहुपद वितरण के अनुसार वितरित।
# एकल वेक्टर-मूल्यवान चर <math>\mathbf{x}=(n_1,\dots,n_K)</math>, बहुपद वितरण के अनुसार वितरित।
पहला मामला यादृच्छिक चर का एक सेट है जो प्रत्येक व्यक्तिगत परिणाम को निर्दिष्ट करता है, जबकि बाद वाला एक चर है जो प्रत्येक के श्रेणियों के परिणामों की संख्या निर्दिष्ट करता है। अंतर महत्वपूर्ण है, क्योंकि दोनों मामलों में संगत रूप से अलग-अलग संभाव्यता वितरण हैं।
पहला मामला यादृच्छिक चर का सेट है जो प्रत्येक व्यक्तिगत परिणाम को निर्दिष्ट करता है, जबकि बाद वाला चर है जो प्रत्येक के श्रेणियों के परिणामों की संख्या निर्दिष्ट करता है। अंतर महत्वपूर्ण है, क्योंकि दोनों मामलों में संगत रूप से अलग-अलग संभाव्यता वितरण हैं।


श्रेणीबद्ध वितरण का पैरामीटर है <math>\mathbf{p} = (p_1,p_2,\dots,p_K),</math> कहाँ <math>p_k</math> मूल्य निकालने की संभावना है <math>k</math>; <math>\mathbf{p}</math> इसी प्रकार बहुपद वितरण का पैरामीटर भी है <math>P(\mathbf{x}|\mathbf{p})</math>. निर्दिष्ट करने के बजाय <math>\mathbf{p}</math> सीधे तौर पर, हम इसे एक संयुग्मित पूर्व वितरण देते हैं, और इसलिए इसे पैरामीटर वेक्टर के साथ डिरिचलेट वितरण से लिया जाता है <math>\boldsymbol\alpha=(\alpha_1,\alpha_2,\ldots,\alpha_K)</math>.
श्रेणीबद्ध वितरण का पैरामीटर है <math>\mathbf{p} = (p_1,p_2,\dots,p_K),</math> कहाँ <math>p_k</math> मूल्य निकालने की संभावना है <math>k</math>; <math>\mathbf{p}</math> इसी प्रकार बहुपद वितरण का पैरामीटर भी है <math>P(\mathbf{x}|\mathbf{p})</math>. निर्दिष्ट करने के बजाय <math>\mathbf{p}</math> सीधे तौर पर, हम इसे संयुग्मित पूर्व वितरण देते हैं, और इसलिए इसे पैरामीटर वेक्टर के साथ डिरिचलेट वितरण से लिया जाता है <math>\boldsymbol\alpha=(\alpha_1,\alpha_2,\ldots,\alpha_K)</math>.


एकीकृत करके <math>\mathbf{p}</math>, हम एक मिश्रित वितरण प्राप्त करते हैं। हालाँकि, वितरण का स्वरूप इस पर निर्भर करता है कि हम कौन सा दृष्टिकोण अपनाते हैं।
एकीकृत करके <math>\mathbf{p}</math>, हम मिश्रित वितरण प्राप्त करते हैं। हालाँकि, वितरण का स्वरूप इस पर निर्भर करता है कि हम कौन सा दृष्टिकोण अपनाते हैं।


===व्यक्तिगत परिणामों के एक सेट के लिए===
===व्यक्तिगत परिणामों के सेट के लिए===


====संयुक्त वितरण====
====संयुक्त वितरण====
Line 137: Line 137:
प्रत्येक श्रेणी के भीतर गिनती पर संभावना के बजाय श्रेणीबद्ध चर के अनुक्रम की संभावना के बारे में सूत्र होने के कारण बहुपद गुणांक की अनुपस्थिति पर ध्यान दें।
प्रत्येक श्रेणी के भीतर गिनती पर संभावना के बजाय श्रेणीबद्ध चर के अनुक्रम की संभावना के बारे में सूत्र होने के कारण बहुपद गुणांक की अनुपस्थिति पर ध्यान दें।


यद्यपि चर <math>z_1,\dots,z_N</math> उपरोक्त सूत्र में स्पष्ट रूप से प्रकट नहीं होते हैं, वे इसके माध्यम से प्रवेश करते हैं <math>n_k</math> मूल्य.{{clarification needed|reason=By the same reasoning, the z_1, \dots, z_N also enter into the multinomial distribution too. The multinomial distribution is literally the distribution of the vector of the n_k's. So either the purported distinction between Dirichlet-Multinomial and Multinomial does not exist, or the given reason for the distinction is incorrect.|date=June 2021}}
यद्यपि चर <math>z_1,\dots,z_N</math> उपरोक्त सूत्र में स्पष्ट रूप से प्रकट नहीं होते हैं, वे इसके माध्यम से प्रवेश करते हैं <math>n_k</math> मूल्य.


====सशर्त वितरण====
====सशर्त वितरण====
एक अन्य उपयोगी सूत्र, विशेष रूप से गिब्स नमूने के संदर्भ में, पूछता है कि किसी दिए गए चर का सशर्त घनत्व क्या है <math>z_n</math> अन्य सभी चर (जिन्हें हम निरूपित करेंगे) पर आधारित है <math>\mathbb{Z}^{(-n)}</math>). इसका स्वरूप अत्यंत सरल है:
अन्य उपयोगी सूत्र, विशेष रूप से गिब्स नमूने के संदर्भ में, पूछता है कि किसी दिए गए चर का सशर्त घनत्व क्या है <math>z_n</math> अन्य सभी चर (जिन्हें हम निरूपित करेंगे) पर आधारित है <math>\mathbb{Z}^{(-n)}</math>). इसका स्वरूप अत्यंत सरल है:


:<math>\Pr(z_n=k\mid\mathbb{Z}^{(-n)},\boldsymbol{\alpha}) \propto n_k^{(-n)} + \alpha_k</math>
:<math>\Pr(z_n=k\mid\mathbb{Z}^{(-n)},\boldsymbol{\alpha}) \propto n_k^{(-n)} + \alpha_k</math>
Line 171: Line 171:
\end{align}
\end{align}
</math>
</math>
सामान्य तौर पर, सशर्त वितरण के लिए समीकरण प्राप्त करते समय [[सामान्यीकरण स्थिरांक]] के बारे में चिंता करना आवश्यक नहीं है। सामान्यीकरण स्थिरांक को वितरण से नमूने के लिए एल्गोरिदम के भाग के रूप में निर्धारित किया जाएगा (श्रेणीबद्ध वितरण#नमूनाकरण देखें)। हालाँकि, जब सशर्त वितरण ऊपर सरल रूप में लिखा जाता है, तो यह पता चलता है कि सामान्यीकरण स्थिरांक एक सरल रूप धारण करता है:
सामान्य तौर पर, सशर्त वितरण के लिए समीकरण प्राप्त करते समय [[सामान्यीकरण स्थिरांक]] के बारे में चिंता करना आवश्यक नहीं है। सामान्यीकरण स्थिरांक को वितरण से नमूने के लिए एल्गोरिदम के भाग के रूप में निर्धारित किया जाएगा (श्रेणीबद्ध वितरण#नमूनाकरण देखें)। हालाँकि, जब सशर्त वितरण ऊपर सरल रूप में लिखा जाता है, तो यह पता चलता है कि सामान्यीकरण स्थिरांक सरल रूप धारण करता है:


:<math>\sum_k \left( n_k^{(-n)} + \alpha_k \right) = A + \sum_k n_k^{(-n)} = A + N - 1</math>
:<math>\sum_k \left( n_k^{(-n)} + \alpha_k \right) = A + \sum_k n_k^{(-n)} = A + N - 1</math>
Line 180: Line 180:


====[[बायेसियन नेटवर्क]] में====
====[[बायेसियन नेटवर्क]] में====
एक बड़े बायेसियन नेटवर्क में, जिसमें श्रेणीबद्ध (या तथाकथित बहुपद) वितरण एक बड़े नेटवर्क के हिस्से के रूप में डिरिचलेट वितरण पुजारियों के साथ होते हैं, सभी डिरिचलेट पूर्वज को ढहाया जा सकता है, बशर्ते कि उन पर निर्भर एकमात्र नोड श्रेणीबद्ध वितरण हों। पतन प्रत्येक डिरिचलेट-वितरण नोड के लिए दूसरों से अलग होता है, और किसी भी अन्य नोड की परवाह किए बिना होता है जो श्रेणीबद्ध वितरण पर निर्भर हो सकता है। यह इस बात की परवाह किए बिना भी होता है कि क्या श्रेणीबद्ध वितरण डिरिचलेट पुजारियों के अतिरिक्त नोड्स पर निर्भर करते हैं (हालांकि ऐसे मामले में, उन अन्य नोड्स को अतिरिक्त कंडीशनिंग कारकों के रूप में रहना चाहिए)। अनिवार्य रूप से, किसी दिए गए डिरिचलेट-वितरण नोड के आधार पर सभी श्रेणीबद्ध वितरण उपरोक्त सूत्र द्वारा परिभाषित एकल डिरिचलेट-मल्टीनोमियल संयुक्त वितरण में जुड़ जाते हैं। इस तरह से परिभाषित संयुक्त वितरण एकीकृत-आउट डिरिचेट पूर्व नोड्स के माता-पिता पर निर्भर करेगा, साथ ही डिरिचलेट पूर्व नोड्स के अलावा श्रेणीबद्ध नोड्स के किसी भी माता-पिता पर निर्भर करेगा।
बड़े बायेसियन नेटवर्क में, जिसमें श्रेणीबद्ध (या तथाकथित बहुपद) वितरण बड़े नेटवर्क के हिस्से के रूप में डिरिचलेट वितरण पुजारियों के साथ होते हैं, सभी डिरिचलेट पूर्वज को ढहाया जा सकता है, बशर्ते कि उन पर निर्भर एकमात्र नोड श्रेणीबद्ध वितरण हों। पतन प्रत्येक डिरिचलेट-वितरण नोड के लिए दूसरों से अलग होता है, और किसी भी अन्य नोड की परवाह किए बिना होता है जो श्रेणीबद्ध वितरण पर निर्भर हो सकता है। यह इस बात की परवाह किए बिना भी होता है कि क्या श्रेणीबद्ध वितरण डिरिचलेट पुजारियों के अतिरिक्त नोड्स पर निर्भर करते हैं (हालांकि ऐसे मामले में, उन अन्य नोड्स को अतिरिक्त कंडीशनिंग कारकों के रूप में रहना चाहिए)। अनिवार्य रूप से, किसी दिए गए डिरिचलेट-वितरण नोड के आधार पर सभी श्रेणीबद्ध वितरण उपरोक्त सूत्र द्वारा परिभाषित एकल डिरिचलेट-मल्टीनोमियल संयुक्त वितरण में जुड़ जाते हैं। इस तरह से परिभाषित संयुक्त वितरण एकीकृत-आउट डिरिचेट पूर्व नोड्स के माता-पिता पर निर्भर करेगा, साथ ही डिरिचलेट पूर्व नोड्स के अलावा श्रेणीबद्ध नोड्स के किसी भी माता-पिता पर निर्भर करेगा।


निम्नलिखित अनुभागों में, हम आमतौर पर बायेसियन नेटवर्क में पाए जाने वाले विभिन्न कॉन्फ़िगरेशन पर चर्चा करते हैं। हम ऊपर से संभाव्यता घनत्व दोहराते हैं, और इसे प्रतीक का उपयोग करके परिभाषित करते हैं <math>\operatorname{DirMult}(\mathbb{Z}\mid\boldsymbol{\alpha})</math>:
निम्नलिखित अनुभागों में, हम आमतौर पर बायेसियन नेटवर्क में पाए जाने वाले विभिन्न कॉन्फ़िगरेशन पर चर्चा करते हैं। हम ऊपर से संभाव्यता घनत्व दोहराते हैं, और इसे प्रतीक का उपयोग करके परिभाषित करते हैं <math>\operatorname{DirMult}(\mathbb{Z}\mid\boldsymbol{\alpha})</math>:
Line 188: Line 188:




=====एक ही हाइपरप्रायर के साथ एकाधिक डिरिचलेट पुजारी=====
=====ही हाइपरप्रायर के साथ एकाधिक डिरिचलेट पुजारी=====


कल्पना कीजिए कि हमारे पास इस प्रकार एक पदानुक्रमित मॉडल है:
कल्पना कीजिए कि हमारे पास इस प्रकार पदानुक्रमित मॉडल है:


:<math>
:<math>
Line 199: Line 199:
\end{array}
\end{array}
</math>
</math>
इस तरह के मामलों में, हमारे पास कई डिरिचेट पूर्वज हैं, जिनमें से प्रत्येक कुछ संख्या में श्रेणीबद्ध अवलोकन उत्पन्न करता है (संभवतः प्रत्येक पूर्व के लिए एक अलग संख्या)। तथ्य यह है कि वे सभी एक ही हाइपरप्रायर पर निर्भर हैं, भले ही यह ऊपर जैसा यादृच्छिक चर हो, इससे कोई फर्क नहीं पड़ता। डिरिचलेट पूर्व को एकीकृत करने का प्रभाव उस पूर्व से जुड़े श्रेणीबद्ध चर को जोड़ता है, जिसका संयुक्त वितरण बस डिरिचलेट पूर्व के किसी भी कंडीशनिंग कारकों को प्राप्त करता है। तथ्य यह है कि कई पूर्वज हाइपरप्रियर साझा कर सकते हैं, इससे कोई फर्क नहीं पड़ता:
इस तरह के मामलों में, हमारे पास कई डिरिचेट पूर्वज हैं, जिनमें से प्रत्येक कुछ संख्या में श्रेणीबद्ध अवलोकन उत्पन्न करता है (संभवतः प्रत्येक पूर्व के लिए अलग संख्या)। तथ्य यह है कि वे सभी ही हाइपरप्रायर पर निर्भर हैं, भले ही यह ऊपर जैसा यादृच्छिक चर हो, इससे कोई फर्क नहीं पड़ता। डिरिचलेट पूर्व को एकीकृत करने का प्रभाव उस पूर्व से जुड़े श्रेणीबद्ध चर को जोड़ता है, जिसका संयुक्त वितरण बस डिरिचलेट पूर्व के किसी भी कंडीशनिंग कारकों को प्राप्त करता है। तथ्य यह है कि कई पूर्वज हाइपरप्रियर साझा कर सकते हैं, इससे कोई फर्क नहीं पड़ता:


:<math>\Pr(\mathbb{Z}\mid\boldsymbol\alpha) = \prod_d \operatorname{DirMult}(\mathbb{Z}_d\mid\boldsymbol\alpha)</math>
:<math>\Pr(\mathbb{Z}\mid\boldsymbol\alpha) = \prod_d \operatorname{DirMult}(\mathbb{Z}_d\mid\boldsymbol\alpha)</math>
Line 209: Line 209:
कहाँ <math>n_{k,d}^{(-n)}</math> विशेष रूप से सेट के बीच चर की संख्या का मतलब है <math>\mathbb{Z}_d</math>, को छोड़कर <math>z_{dn}</math> स्वयं, जिसका मूल्य है <math>k</math> .
कहाँ <math>n_{k,d}^{(-n)}</math> विशेष रूप से सेट के बीच चर की संख्या का मतलब है <math>\mathbb{Z}_d</math>, को छोड़कर <math>z_{dn}</math> स्वयं, जिसका मूल्य है <math>k</math> .


केवल ''k'' मान वाले वेरिएबल्स को गिनना आवश्यक है जो समान पूर्व होने के कारण प्रश्न में वेरिएबल से एक साथ बंधे हैं। हम ''k'' मान वाले किसी अन्य वेरिएबल को भी गिनना नहीं चाहते हैं।
केवल ''k'' मान वाले वेरिएबल्स को गिनना आवश्यक है जो समान पूर्व होने के कारण प्रश्न में वेरिएबल से साथ बंधे हैं। हम ''k'' मान वाले किसी अन्य वेरिएबल को भी गिनना नहीं चाहते हैं।


=====एक ही हाइपरप्रियर वाले एकाधिक डिरिचलेट पादरी, आश्रित बच्चों के साथ=====
=====ही हाइपरप्रियर वाले एकाधिक डिरिचलेट पादरी, आश्रित बच्चों के साथ=====


अब थोड़ा अधिक जटिल पदानुक्रमित मॉडल की कल्पना इस प्रकार करें:
अब थोड़ा अधिक जटिल पदानुक्रमित मॉडल की कल्पना इस प्रकार करें:
Line 224: Line 224:
\end{array}
\end{array}
</math>
</math>
यह मॉडल ऊपर जैसा ही है, लेकिन इसके अलावा, प्रत्येक श्रेणीगत चर पर एक चाइल्ड वेरिएबल निर्भर होता है। यह [[मिश्रण मॉडल]] की खासियत है.
यह मॉडल ऊपर जैसा ही है, लेकिन इसके अलावा, प्रत्येक श्रेणीगत चर पर चाइल्ड वेरिएबल निर्भर होता है। यह [[मिश्रण मॉडल]] की खासियत है.


फिर से, संयुक्त वितरण में, केवल उसी पूर्व पर निर्भर श्रेणीबद्ध चर एक एकल डिरिचलेट-मल्टीनोमियल में जुड़े हुए हैं:
फिर से, संयुक्त वितरण में, केवल उसी पूर्व पर निर्भर श्रेणीबद्ध चर एकल डिरिचलेट-मल्टीनोमियल में जुड़े हुए हैं:


:<math>\Pr(\mathbb{Z},\mathbb{W}\mid\boldsymbol\alpha,\boldsymbol\phi) = \prod_d \operatorname{DirMult}(\mathbb{Z}_d\mid\boldsymbol\alpha) \prod_{d=1}^{M} \prod_{n=1}^{N_d} \operatorname{F}(w_{dn}\mid z_{dn},\boldsymbol\phi)</math>
:<math>\Pr(\mathbb{Z},\mathbb{W}\mid\boldsymbol\alpha,\boldsymbol\phi) = \prod_d \operatorname{DirMult}(\mathbb{Z}_d\mid\boldsymbol\alpha) \prod_{d=1}^{M} \prod_{n=1}^{N_d} \operatorname{F}(w_{dn}\mid z_{dn},\boldsymbol\phi)</math>
केवल उनके माता-पिता और पूर्वजों पर निर्भर श्रेणीगत चरों का सशर्त वितरण सरल मामले में उपरोक्त के समान रूप होगा। हालाँकि, गिब्स नमूने में किसी दिए गए नोड के सशर्त वितरण को निर्धारित करना आवश्यक है <math>z_{dn}</math> केवल पर निर्भर नहीं <math>\mathbb{Z}^{(-dn)}</math> और पूर्वज जैसे <math>\alpha</math> लेकिन अन्य सभी मापदंडों पर।
केवल उनके माता-पिता और पूर्वजों पर निर्भर श्रेणीगत चरों का सशर्त वितरण सरल मामले में उपरोक्त के समान रूप होगा। हालाँकि, गिब्स नमूने में किसी दिए गए नोड के सशर्त वितरण को निर्धारित करना आवश्यक है <math>z_{dn}</math> केवल पर निर्भर नहीं <math>\mathbb{Z}^{(-dn)}</math> और पूर्वज जैसे <math>\alpha</math> लेकिन अन्य सभी मापदंडों पर।


सशर्त वितरण के लिए सरलीकृत अभिव्यक्ति ऊपर संयुक्त संभाव्यता के लिए अभिव्यक्ति को फिर से लिखकर और निरंतर कारकों को हटाकर प्राप्त की गई है। इसलिए, वही सरलीकरण एक बड़े संयुक्त संभाव्यता अभिव्यक्ति में लागू होगा जैसे कि इस मॉडल में, डिरिचलेट-मल्टीनोमियल घनत्व और श्रेणीबद्ध चर के मूल्यों पर निर्भर कई अन्य यादृच्छिक चर के कारकों से बना है।
सशर्त वितरण के लिए सरलीकृत अभिव्यक्ति ऊपर संयुक्त संभाव्यता के लिए अभिव्यक्ति को फिर से लिखकर और निरंतर कारकों को हटाकर प्राप्त की गई है। इसलिए, वही सरलीकरण बड़े संयुक्त संभाव्यता अभिव्यक्ति में लागू होगा जैसे कि इस मॉडल में, डिरिचलेट-मल्टीनोमियल घनत्व और श्रेणीबद्ध चर के मूल्यों पर निर्भर कई अन्य यादृच्छिक चर के कारकों से बना है।


इससे निम्नलिखित परिणाम मिलते हैं:
इससे निम्नलिखित परिणाम मिलते हैं:
Line 238: Line 238:
यहाँ की संभाव्यता घनत्व <math>\operatorname{F}</math> प्रत्यक्ष रूप से प्रकट होता है. [[छद्म-यादृच्छिक संख्या नमूनाकरण]] करने के लिए <math>z_{dn}</math>, हम सभी K संभावनाओं के लिए असामान्य संभावनाओं की गणना करेंगे <math>z_{dn}</math> उपरोक्त सूत्र का उपयोग करके, फिर उन्हें सामान्य करें और श्रेणीबद्ध वितरण आलेख में वर्णित एल्गोरिदम का उपयोग करके सामान्य रूप से आगे बढ़ें।
यहाँ की संभाव्यता घनत्व <math>\operatorname{F}</math> प्रत्यक्ष रूप से प्रकट होता है. [[छद्म-यादृच्छिक संख्या नमूनाकरण]] करने के लिए <math>z_{dn}</math>, हम सभी K संभावनाओं के लिए असामान्य संभावनाओं की गणना करेंगे <math>z_{dn}</math> उपरोक्त सूत्र का उपयोग करके, फिर उन्हें सामान्य करें और श्रेणीबद्ध वितरण आलेख में वर्णित एल्गोरिदम का उपयोग करके सामान्य रूप से आगे बढ़ें।


सही ढंग से कहें तो, सशर्त वितरण में दिखाई देने वाला अतिरिक्त कारक मॉडल विनिर्देश से नहीं बल्कि सीधे संयुक्त वितरण से प्राप्त होता है। यह अंतर उन मॉडलों पर विचार करते समय महत्वपूर्ण है जहां डिरिचलेट-पूर्व माता-पिता के साथ दिए गए नोड में कई आश्रित बच्चे हैं, खासकर जब वे बच्चे एक-दूसरे पर निर्भर होते हैं (उदाहरण के लिए यदि वे एक माता-पिता को साझा करते हैं जो अलग हो गए हैं)। इस पर नीचे अधिक चर्चा की गई है।
सही ढंग से कहें तो, सशर्त वितरण में दिखाई देने वाला अतिरिक्त कारक मॉडल विनिर्देश से नहीं बल्कि सीधे संयुक्त वितरण से प्राप्त होता है। यह अंतर उन मॉडलों पर विचार करते समय महत्वपूर्ण है जहां डिरिचलेट-पूर्व माता-पिता के साथ दिए गए नोड में कई आश्रित बच्चे हैं, खासकर जब वे बच्चे एक-दूसरे पर निर्भर होते हैं (उदाहरण के लिए यदि वे माता-पिता को साझा करते हैं जो अलग हो गए हैं)। इस पर नीचे अधिक चर्चा की गई है।


=====पूर्व सदस्यता बदलने के साथ एकाधिक डिरिचलेट पुजारी=====
=====पूर्व सदस्यता बदलने के साथ एकाधिक डिरिचलेट पुजारी=====


अब कल्पना करें कि हमारे पास इस प्रकार एक पदानुक्रमित मॉडल है:
अब कल्पना करें कि हमारे पास इस प्रकार पदानुक्रमित मॉडल है:


:<math>
:<math>
Line 253: Line 253:
\end{array}
\end{array}
</math>
</math>
यहां हमारे पास एक पेचीदा स्थिति है जहां हमारे पास पहले की तरह कई डिरिचलेट पूर्व और आश्रित श्रेणीगत चर का एक सेट है, लेकिन पहले के विपरीत, पूर्व और आश्रित चर के बीच संबंध तय नहीं है। इसके बजाय, उपयोग से पहले का चुनाव किसी अन्य यादृच्छिक श्रेणीबद्ध चर पर निर्भर है। ऐसा होता है, उदाहरण के लिए, विषय मॉडल में, और वास्तव में उपरोक्त चर के नाम [[अव्यक्त डिरिचलेट आवंटन]] के अनुरूप होते हैं। इस मामले में, सेट <math>\mathbb{W}</math> शब्दों का एक समूह है, जिनमें से प्रत्येक शब्द किसी एक से लिया गया है <math>K</math> संभावित विषय, जहां प्रत्येक विषय की शब्दावली से पहले एक डिरिचलेट है <math>V</math> संभावित शब्द, विषय में विभिन्न शब्दों की आवृत्ति निर्दिष्ट करते हुए। हालाँकि, किसी दिए गए शब्द की विषय सदस्यता निश्चित नहीं है; बल्कि, यह [[अव्यक्त चर]]ों के एक सेट से निर्धारित होता है <math>\mathbb{Z}</math>. प्रति शब्द एक अव्यक्त चर है, ए <math>K</math> -आयामी श्रेणीबद्ध चर उस विषय को निर्दिष्ट करता है जिससे शब्द संबंधित है।
यहां हमारे पास पेचीदा स्थिति है जहां हमारे पास पहले की तरह कई डिरिचलेट पूर्व और आश्रित श्रेणीगत चर का सेट है, लेकिन पहले के विपरीत, पूर्व और आश्रित चर के बीच संबंध तय नहीं है। इसके बजाय, उपयोग से पहले का चुनाव किसी अन्य यादृच्छिक श्रेणीबद्ध चर पर निर्भर है। ऐसा होता है, उदाहरण के लिए, विषय मॉडल में, और वास्तव में उपरोक्त चर के नाम [[अव्यक्त डिरिचलेट आवंटन]] के अनुरूप होते हैं। इस मामले में, सेट <math>\mathbb{W}</math> शब्दों का समूह है, जिनमें से प्रत्येक शब्द किसी से लिया गया है <math>K</math> संभावित विषय, जहां प्रत्येक विषय की शब्दावली से पहले डिरिचलेट है <math>V</math> संभावित शब्द, विषय में विभिन्न शब्दों की आवृत्ति निर्दिष्ट करते हुए। हालाँकि, किसी दिए गए शब्द की विषय सदस्यता निश्चित नहीं है; बल्कि, यह [[अव्यक्त चर]]ों के सेट से निर्धारित होता है <math>\mathbb{Z}</math>. प्रति शब्द अव्यक्त चर है, ए <math>K</math> -आयामी श्रेणीबद्ध चर उस विषय को निर्दिष्ट करता है जिससे शब्द संबंधित है।


इस मामले में, किसी दिए गए पूर्व पर निर्भर सभी चर एक समूह में एक साथ बंधे हुए हैं (यानी [[सहसंबद्ध]]), पहले की तरह - विशेष रूप से, किसी दिए गए विषय से संबंधित सभी शब्द जुड़े हुए हैं। हालाँकि, इस मामले में, समूह की सदस्यता बदल जाती है, जिसमें शब्द किसी दिए गए विषय पर तय नहीं होते हैं, बल्कि विषय शब्द से जुड़े एक अव्यक्त चर के मूल्य पर निर्भर करता है। हालाँकि, डिरिचलेट-मल्टीनोमियल घनत्व की परिभाषा वास्तव में किसी समूह में श्रेणीबद्ध चर की संख्या (यानी किसी दिए गए विषय से उत्पन्न दस्तावेज़ में शब्दों की संख्या) पर निर्भर नहीं करती है, बल्कि केवल इस बात पर निर्भर करती है कि इसमें कितने चर हैं समूह का एक दिया हुआ मान होता है (अर्थात किसी दिए गए विषय से उत्पन्न सभी शब्द टोकन के बीच, उनमें से कितने दिए गए शब्द हैं)। इसलिए, हम अभी भी संयुक्त वितरण के लिए एक स्पष्ट सूत्र लिख सकते हैं:
इस मामले में, किसी दिए गए पूर्व पर निर्भर सभी चर समूह में साथ बंधे हुए हैं (यानी [[सहसंबद्ध]]), पहले की तरह - विशेष रूप से, किसी दिए गए विषय से संबंधित सभी शब्द जुड़े हुए हैं। हालाँकि, इस मामले में, समूह की सदस्यता बदल जाती है, जिसमें शब्द किसी दिए गए विषय पर तय नहीं होते हैं, बल्कि विषय शब्द से जुड़े अव्यक्त चर के मूल्य पर निर्भर करता है। हालाँकि, डिरिचलेट-मल्टीनोमियल घनत्व की परिभाषा वास्तव में किसी समूह में श्रेणीबद्ध चर की संख्या (यानी किसी दिए गए विषय से उत्पन्न दस्तावेज़ में शब्दों की संख्या) पर निर्भर नहीं करती है, बल्कि केवल इस बात पर निर्भर करती है कि इसमें कितने चर हैं समूह का दिया हुआ मान होता है (अर्थात किसी दिए गए विषय से उत्पन्न सभी शब्द टोकन के बीच, उनमें से कितने दिए गए शब्द हैं)। इसलिए, हम अभी भी संयुक्त वितरण के लिए स्पष्ट सूत्र लिख सकते हैं:


:<math>\Pr(\mathbb{W}\mid\boldsymbol\alpha,\mathbb{Z}) = \prod_{k=1}^K \operatorname{DirMult}(\mathbb{W}_k\mid\mathbb{Z},\boldsymbol\alpha) = \prod_{k=1}^K \left[\frac{\Gamma\left(\sum_v \alpha_v\right)}
:<math>\Pr(\mathbb{W}\mid\boldsymbol\alpha,\mathbb{Z}) = \prod_{k=1}^K \operatorname{DirMult}(\mathbb{W}_k\mid\mathbb{Z},\boldsymbol\alpha) = \prod_{k=1}^K \left[\frac{\Gamma\left(\sum_v \alpha_v\right)}
Line 266: Line 266:
यहां फिर से, किसी दिए गए विषय से संबंधित शब्दों के लिए केवल श्रेणीबद्ध चर जुड़े हुए हैं (भले ही यह लिंकिंग अव्यक्त चर के असाइनमेंट पर निर्भर करेगी), और इसलिए शब्द गणना केवल किसी दिए गए विषय से उत्पन्न शब्दों से अधिक होनी चाहिए। इसलिए प्रतीक <math>n_v^{k,(-n)}</math>, जो कि शब्द प्रतीक v वाले शब्द टोकन की गिनती है, लेकिन विषय k द्वारा उत्पन्न लोगों में से 'केवल' है, और उस शब्द को छोड़कर जिसके वितरण का वर्णन किया जा रहा है।
यहां फिर से, किसी दिए गए विषय से संबंधित शब्दों के लिए केवल श्रेणीबद्ध चर जुड़े हुए हैं (भले ही यह लिंकिंग अव्यक्त चर के असाइनमेंट पर निर्भर करेगी), और इसलिए शब्द गणना केवल किसी दिए गए विषय से उत्पन्न शब्दों से अधिक होनी चाहिए। इसलिए प्रतीक <math>n_v^{k,(-n)}</math>, जो कि शब्द प्रतीक v वाले शब्द टोकन की गिनती है, लेकिन विषय k द्वारा उत्पन्न लोगों में से 'केवल' है, और उस शब्द को छोड़कर जिसके वितरण का वर्णन किया जा रहा है।


(जिस कारण से शब्द को बाहर करना आवश्यक है, और यह बिल्कुल भी समझ में क्यों आता है, वह यह है कि गिब्स नमूना संदर्भ में, हम सभी पिछले चर के माध्यम से चलने और नमूना लेने के बाद, प्रत्येक यादृच्छिक चर के मूल्यों को बार-बार पुन: नमूना करते हैं। इसलिए वेरिएबल का पहले से ही एक मान होगा, और हमें इस मौजूदा मान को उन विभिन्न गणनाओं से बाहर करने की आवश्यकता है जिनका हम उपयोग करते हैं।)
(जिस कारण से शब्द को बाहर करना आवश्यक है, और यह बिल्कुल भी समझ में क्यों आता है, वह यह है कि गिब्स नमूना संदर्भ में, हम सभी पिछले चर के माध्यम से चलने और नमूना लेने के बाद, प्रत्येक यादृच्छिक चर के मूल्यों को बार-बार पुन: नमूना करते हैं। इसलिए वेरिएबल का पहले से ही मान होगा, और हमें इस मौजूदा मान को उन विभिन्न गणनाओं से बाहर करने की आवश्यकता है जिनका हम उपयोग करते हैं।)


=====एक संयुक्त उदाहरण: एलडीए [[विषय मॉडल]]=====
=====संयुक्त उदाहरण: एलडीए [[विषय मॉडल]]=====


अब हम दिखाते हैं कि उपरोक्त कुछ परिदृश्यों को कैसे संयोजित किया जाए ताकि यह प्रदर्शित किया जा सके कि गिब्स वास्तविक दुनिया के मॉडल, विशेष रूप से एक स्मूथ लेटेंट डिरिचलेट आवंटन (एलडीए) विषय मॉडल का नमूना कैसे ले सकते हैं।
अब हम दिखाते हैं कि उपरोक्त कुछ परिदृश्यों को कैसे संयोजित किया जाए ताकि यह प्रदर्शित किया जा सके कि गिब्स वास्तविक दुनिया के मॉडल, विशेष रूप से स्मूथ लेटेंट डिरिचलेट आवंटन (एलडीए) विषय मॉडल का नमूना कैसे ले सकते हैं।


मॉडल इस प्रकार है:
मॉडल इस प्रकार है:
Line 284: Line 284:
\end{array}
\end{array}
</math>
</math>
अनिवार्य रूप से हम पिछले तीन परिदृश्यों को जोड़ते हैं: हमारे पास श्रेणीबद्ध चर हैं जो हाइपरप्रायर साझा करने वाले कई पुजारियों पर निर्भर हैं; हमारे पास आश्रित बच्चों के साथ श्रेणीगत चर हैं (अव्यक्त चर विषय पहचान); और हमारे पास हाइपरप्रायर साझा करने वाले कई पुजारियों में सदस्यता बदलने के साथ श्रेणीबद्ध चर हैं। मानक एलडीए मॉडल में, शब्दों का पूरी तरह से अवलोकन किया जाता है, और इसलिए हमें उन्हें दोबारा नमूना लेने की आवश्यकता नहीं होती है। (हालांकि, गिब्स नमूनाकरण समान रूप से संभव होगा यदि केवल कुछ या कोई भी शब्द नहीं देखा गया हो। ऐसे मामले में, हम कुछ उचित तरीके से शब्दों पर वितरण शुरू करना चाहेंगे - उदाहरण के लिए कुछ प्रक्रिया के आउटपुट से जो वाक्य उत्पन्न करता है , जैसे कि एक मशीनी अनुवाद मॉडल - परिणामी [[पश्च वितरण]] अव्यक्त चर वितरण के लिए कोई अर्थ निकालने के लिए।)
अनिवार्य रूप से हम पिछले तीन परिदृश्यों को जोड़ते हैं: हमारे पास श्रेणीबद्ध चर हैं जो हाइपरप्रायर साझा करने वाले कई पुजारियों पर निर्भर हैं; हमारे पास आश्रित बच्चों के साथ श्रेणीगत चर हैं (अव्यक्त चर विषय पहचान); और हमारे पास हाइपरप्रायर साझा करने वाले कई पुजारियों में सदस्यता बदलने के साथ श्रेणीबद्ध चर हैं। मानक एलडीए मॉडल में, शब्दों का पूरी तरह से अवलोकन किया जाता है, और इसलिए हमें उन्हें दोबारा नमूना लेने की आवश्यकता नहीं होती है। (हालांकि, गिब्स नमूनाकरण समान रूप से संभव होगा यदि केवल कुछ या कोई भी शब्द नहीं देखा गया हो। ऐसे मामले में, हम कुछ उचित तरीके से शब्दों पर वितरण शुरू करना चाहेंगे - उदाहरण के लिए कुछ प्रक्रिया के आउटपुट से जो वाक्य उत्पन्न करता है , जैसे कि मशीनी अनुवाद मॉडल - परिणामी [[पश्च वितरण]] अव्यक्त चर वितरण के लिए कोई अर्थ निकालने के लिए।)


उपरोक्त सूत्रों का उपयोग करके, हम सशर्त संभावनाओं को सीधे लिख सकते हैं:
उपरोक्त सूत्रों का उपयोग करके, हम सशर्त संभावनाओं को सीधे लिख सकते हैं:
Line 302: Line 302:
\end{array}
\end{array}
</math>
</math>
आश्रित बच्चों के साथ श्रेणीबद्ध चर के साथ उपरोक्त परिदृश्य में, उन आश्रित बच्चों की सशर्त संभावना माता-पिता की सशर्त संभावना की परिभाषा में दिखाई देती है। इस मामले में, प्रत्येक अव्यक्त चर में केवल एक ही आश्रित उपसर्ग शब्द होता है, इसलिए ऐसा केवल एक ही शब्द प्रकट होता है। (यदि एकाधिक आश्रित बच्चे हों, तो सभी को माता-पिता की सशर्त संभाव्यता में उपस्थित होना होगा, भले ही अलग-अलग माता-पिता और समान बच्चों के बीच ओवरलैप हो, यानी इस बात की परवाह किए बिना कि किसी दिए गए माता-पिता के आश्रित बच्चों के अन्य माता-पिता भी हैं या नहीं। ऐसा मामला जहां एक बच्चे के कई माता-पिता हों, उस बच्चे की सशर्त संभाव्यता उसके प्रत्येक माता-पिता की सशर्त संभाव्यता परिभाषा में दिखाई देती है।)
आश्रित बच्चों के साथ श्रेणीबद्ध चर के साथ उपरोक्त परिदृश्य में, उन आश्रित बच्चों की सशर्त संभावना माता-पिता की सशर्त संभावना की परिभाषा में दिखाई देती है। इस मामले में, प्रत्येक अव्यक्त चर में केवल ही आश्रित उपसर्ग शब्द होता है, इसलिए ऐसा केवल ही शब्द प्रकट होता है। (यदि एकाधिक आश्रित बच्चे हों, तो सभी को माता-पिता की सशर्त संभाव्यता में उपस्थित होना होगा, भले ही अलग-अलग माता-पिता और समान बच्चों के बीच ओवरलैप हो, यानी इस बात की परवाह किए बिना कि किसी दिए गए माता-पिता के आश्रित बच्चों के अन्य माता-पिता भी हैं या नहीं। ऐसा मामला जहां बच्चे के कई माता-पिता हों, उस बच्चे की सशर्त संभाव्यता उसके प्रत्येक माता-पिता की सशर्त संभाव्यता परिभाषा में दिखाई देती है।)


उपरोक्त परिभाषा केवल शब्दों की असामान्यीकृत सशर्त संभाव्यता को निर्दिष्ट करती है, जबकि विषय सशर्त संभाव्यता के लिए वास्तविक (यानी सामान्यीकृत) संभाव्यता की आवश्यकता होती है। इसलिए हमें सभी शब्द प्रतीकों को जोड़कर सामान्य बनाना होगा:
उपरोक्त परिभाषा केवल शब्दों की असामान्यीकृत सशर्त संभाव्यता को निर्दिष्ट करती है, जबकि विषय सशर्त संभाव्यता के लिए वास्तविक (यानी सामान्यीकृत) संभाव्यता की आवश्यकता होती है। इसलिए हमें सभी शब्द प्रतीकों को जोड़कर सामान्य बनाना होगा:
Line 321: Line 321:
\end{array}
\end{array}
</math>
</math>
यह एक और बिंदु को विस्तार से बताने लायक भी है, जो सशर्त संभाव्यता में उपरोक्त दूसरे कारक से संबंधित है। याद रखें कि सामान्य रूप से सशर्त वितरण संयुक्त वितरण से प्राप्त होता है, और सशर्त के डोमेन (ऊर्ध्वाधर पट्टी के बाईं ओर का भाग) पर निर्भर नहीं होने वाले शब्दों को हटाकर इसे सरल बनाया जाता है। जब एक नोड <math>z</math> आश्रित बच्चे हैं, तो एक या अधिक कारक होंगे <math>\operatorname{F}(\dots\mid z)</math> संयुक्त वितरण में जो निर्भर हैं <math>z</math>. आमतौर पर प्रत्येक आश्रित नोड के लिए एक कारक होता है, और इसमें गणितीय परिभाषा में दिखाई देने वाले वितरण के समान घनत्व कार्य होता है। हालाँकि, यदि एक आश्रित नोड में एक अन्य अभिभावक (एक सह-अभिभावक) भी है, और वह सह-अभिभावक समाप्त हो गया है, तो नोड उस सह-अभिभावक को साझा करने वाले अन्य सभी नोड्स पर निर्भर हो जाएगा, और इसके लिए कई शर्तों के स्थान पर ऐसे प्रत्येक नोड, संयुक्त वितरण में केवल एक संयुक्त पद होगा। हमारे यहाँ बिल्कुल वैसी ही स्थिति है। चाहे <math>z_{dn}</math> केवल एक बच्चा है <math>w_{dn}</math>, उस बच्चे के पास एक डिरिचलेट सह-अभिभावक है जिसे हमने अलग कर दिया है, जो नोड्स के पूरे सेट पर एक डिरिचलेट-मल्टीनोमियल उत्पन्न करता है <math>\mathbb{W}^{k}</math>.
यह और बिंदु को विस्तार से बताने लायक भी है, जो सशर्त संभाव्यता में उपरोक्त दूसरे कारक से संबंधित है। याद रखें कि सामान्य रूप से सशर्त वितरण संयुक्त वितरण से प्राप्त होता है, और सशर्त के डोमेन (ऊर्ध्वाधर पट्टी के बाईं ओर का भाग) पर निर्भर नहीं होने वाले शब्दों को हटाकर इसे सरल बनाया जाता है। जब नोड <math>z</math> आश्रित बच्चे हैं, तो या अधिक कारक होंगे <math>\operatorname{F}(\dots\mid z)</math> संयुक्त वितरण में जो निर्भर हैं <math>z</math>. आमतौर पर प्रत्येक आश्रित नोड के लिए कारक होता है, और इसमें गणितीय परिभाषा में दिखाई देने वाले वितरण के समान घनत्व कार्य होता है। हालाँकि, यदि आश्रित नोड में अन्य अभिभावक ( सह-अभिभावक) भी है, और वह सह-अभिभावक समाप्त हो गया है, तो नोड उस सह-अभिभावक को साझा करने वाले अन्य सभी नोड्स पर निर्भर हो जाएगा, और इसके लिए कई शर्तों के स्थान पर ऐसे प्रत्येक नोड, संयुक्त वितरण में केवल संयुक्त पद होगा। हमारे यहाँ बिल्कुल वैसी ही स्थिति है। चाहे <math>z_{dn}</math> केवल बच्चा है <math>w_{dn}</math>, उस बच्चे के पास डिरिचलेट सह-अभिभावक है जिसे हमने अलग कर दिया है, जो नोड्स के पूरे सेट पर डिरिचलेट-मल्टीनोमियल उत्पन्न करता है <math>\mathbb{W}^{k}</math>.


इस मामले में ऐसा होता है कि यह मुद्दा बड़ी समस्याओं का कारण नहीं बनता है, ठीक बीच में एक-से-एक संबंध के कारण <math>z_{dn}</math> और <math>w_{dn}</math>. हम संयुक्त वितरण को इस प्रकार पुनः लिख सकते हैं:
इस मामले में ऐसा होता है कि यह मुद्दा बड़ी समस्याओं का कारण नहीं बनता है, ठीक बीच में एक-से- संबंध के कारण <math>z_{dn}</math> और <math>w_{dn}</math>. हम संयुक्त वितरण को इस प्रकार पुनः लिख सकते हैं:


:<math>
:<math>
Line 332: Line 332:
\end{array}
\end{array}
</math>
</math>
सेट में कहां <math>\mathbb{W}^{k,(-dn)}</math> (अर्थात नोड्स का सेट <math>\mathbb{W}^{k}</math> के सिवा <math>w_{dn}</math> ), किसी भी नोड में नहीं है <math>z_{dn}</math> माता-पिता के रूप में. इसलिए इसे एक कंडीशनिंग कारक (पंक्ति 2) के रूप में समाप्त किया जा सकता है, जिसका अर्थ है कि पूरे कारक को सशर्त वितरण (पंक्ति 3) से समाप्त किया जा सकता है।
सेट में कहां <math>\mathbb{W}^{k,(-dn)}</math> (अर्थात नोड्स का सेट <math>\mathbb{W}^{k}</math> के सिवा <math>w_{dn}</math> ), किसी भी नोड में नहीं है <math>z_{dn}</math> माता-पिता के रूप में. इसलिए इसे कंडीशनिंग कारक (पंक्ति 2) के रूप में समाप्त किया जा सकता है, जिसका अर्थ है कि पूरे कारक को सशर्त वितरण (पंक्ति 3) से समाप्त किया जा सकता है।


=====दूसरा उदाहरण: नाइव बेयस [[दस्तावेज़ क्लस्टरिंग]]=====
=====दूसरा उदाहरण: नाइव बेयस [[दस्तावेज़ क्लस्टरिंग]]=====


यहां एक और मॉडल है, जिसमें मुद्दों का एक अलग सेट है। यह दस्तावेज़ क्लस्टरिंग के लिए एक अप्रकाशित नाइव बेयस मॉडल का कार्यान्वयन है। अर्थात्, हम पाठ्य सामग्री के आधार पर कई श्रेणियों (उदाहरण के लिए [[स्पैम (इलेक्ट्रॉनिक)]] या गैर-स्पैम, या वैज्ञानिक जर्नल लेख, वित्त के बारे में समाचार पत्र लेख, राजनीति के बारे में समाचार पत्र लेख, प्रेम पत्र) में वर्गीकरण का दस्तावेजीकरण करना चाहेंगे। हालाँकि, हम पहले से ही किसी दस्तावेज़ की सही श्रेणी नहीं जानते हैं; इसके बजाय, हम आपसी समानता के आधार पर उन्हें क्लस्टर करने का दस्तावेजीकरण करना चाहते हैं। (उदाहरण के लिए, वैज्ञानिक लेखों का एक सेट शब्द प्रयोग में एक-दूसरे के समान होगा लेकिन प्रेम पत्रों के सेट से बहुत अलग होगा।) यह एक प्रकार की बिना पर्यवेक्षित शिक्षा है। (उसी तकनीक का उपयोग [[अर्ध-पर्यवेक्षित शिक्षण]] करने के लिए किया जा सकता है, यानी जहां हम दस्तावेज़ों के कुछ अंश की सही श्रेणी जानते हैं और शेष दस्तावेज़ों को क्लस्टर करने में सहायता के लिए इस ज्ञान का उपयोग करना चाहेंगे।)
यहां और मॉडल है, जिसमें मुद्दों का अलग सेट है। यह दस्तावेज़ क्लस्टरिंग के लिए अप्रकाशित नाइव बेयस मॉडल का कार्यान्वयन है। अर्थात्, हम पाठ्य सामग्री के आधार पर कई श्रेणियों (उदाहरण के लिए [[स्पैम (इलेक्ट्रॉनिक)]] या गैर-स्पैम, या वैज्ञानिक जर्नल लेख, वित्त के बारे में समाचार पत्र लेख, राजनीति के बारे में समाचार पत्र लेख, प्रेम पत्र) में वर्गीकरण का दस्तावेजीकरण करना चाहेंगे। हालाँकि, हम पहले से ही किसी दस्तावेज़ की सही श्रेणी नहीं जानते हैं; इसके बजाय, हम आपसी समानता के आधार पर उन्हें क्लस्टर करने का दस्तावेजीकरण करना चाहते हैं। (उदाहरण के लिए, वैज्ञानिक लेखों का सेट शब्द प्रयोग में एक-दूसरे के समान होगा लेकिन प्रेम पत्रों के सेट से बहुत अलग होगा।) यह प्रकार की बिना पर्यवेक्षित शिक्षा है। (उसी तकनीक का उपयोग [[अर्ध-पर्यवेक्षित शिक्षण]] करने के लिए किया जा सकता है, यानी जहां हम दस्तावेज़ों के कुछ अंश की सही श्रेणी जानते हैं और शेष दस्तावेज़ों को क्लस्टर करने में सहायता के लिए इस ज्ञान का उपयोग करना चाहेंगे।)


मॉडल इस प्रकार है:
मॉडल इस प्रकार है:
Line 350: Line 350:
\end{array}
\end{array}
</math>
</math>
कई मायनों में, यह मॉडल ऊपर वर्णित अव्यक्त डिरिचलेट आवंटन विषय मॉडल के समान है, लेकिन यह प्रति शब्द एक विषय के बजाय प्रति दस्तावेज़ एक विषय मानता है, जिसमें दस्तावेज़ में विषयों का मिश्रण होता है। इसे उपरोक्त मॉडल में स्पष्ट रूप से देखा जा सकता है, जो एलडीए मॉडल के समान है, सिवाय इसके कि प्रति दस्तावेज़ एक शब्द के बजाय केवल एक अव्यक्त चर है। एक बार फिर, हम मानते हैं कि हम डिरिचलेट के सभी पूर्ववर्तियों को ध्वस्त कर रहे हैं।
कई मायनों में, यह मॉडल ऊपर वर्णित अव्यक्त डिरिचलेट आवंटन विषय मॉडल के समान है, लेकिन यह प्रति शब्द विषय के बजाय प्रति दस्तावेज़ विषय मानता है, जिसमें दस्तावेज़ में विषयों का मिश्रण होता है। इसे उपरोक्त मॉडल में स्पष्ट रूप से देखा जा सकता है, जो एलडीए मॉडल के समान है, सिवाय इसके कि प्रति दस्तावेज़ शब्द के बजाय केवल अव्यक्त चर है। बार फिर, हम मानते हैं कि हम डिरिचलेट के सभी पूर्ववर्तियों को ध्वस्त कर रहे हैं।


किसी दिए गए शब्द के लिए सशर्त संभाव्यता एलडीए मामले के लगभग समान है। एक बार फिर, उसी डिरिचलेट पूर्व द्वारा उत्पन्न सभी शब्द अन्योन्याश्रित हैं। इस मामले में, इसका मतलब है कि दिए गए लेबल वाले सभी दस्तावेज़ों के शब्द - फिर से, यह लेबल असाइनमेंट के आधार पर भिन्न हो सकता है, लेकिन हमें केवल कुल गिनती की परवाह है। इस तरह:
किसी दिए गए शब्द के लिए सशर्त संभाव्यता एलडीए मामले के लगभग समान है। बार फिर, उसी डिरिचलेट पूर्व द्वारा उत्पन्न सभी शब्द अन्योन्याश्रित हैं। इस मामले में, इसका मतलब है कि दिए गए लेबल वाले सभी दस्तावेज़ों के शब्द - फिर से, यह लेबल असाइनमेंट के आधार पर भिन्न हो सकता है, लेकिन हमें केवल कुल गिनती की परवाह है। इस तरह:


:<math>
:<math>
Line 366: Line 366:
\end{array}
\end{array}
</math>
</math>
हालाँकि, लेबल असाइनमेंट के लिए अव्यक्त चर के सशर्त वितरण में एक महत्वपूर्ण अंतर है, जो यह है कि किसी दिए गए लेबल चर में केवल एक के बजाय कई बच्चों के नोड होते हैं - विशेष रूप से, लेबल के दस्तावेज़ में सभी शब्दों के लिए नोड्स। यह कारक के बारे में उपरोक्त चर्चा से निकटता से संबंधित है <math>\operatorname{F}(\dots\mid z_d)</math> जो संयुक्त वितरण से उत्पन्न होता है। इस मामले में, संयुक्त वितरण को सभी दस्तावेजों में सभी शब्दों पर ले जाने की आवश्यकता है जिसमें मूल्य के बराबर लेबल असाइनमेंट शामिल है <math>z_d</math>, और इसमें डिरिचलेट-मल्टीनोमियल वितरण का मान है। इसके अलावा, हम इस संयुक्त वितरण को एक शब्द पर सशर्त वितरण तक सीमित नहीं कर सकते। इसके बजाय, हम इसे केवल प्रश्न में लेबल के लिए दस्तावेज़ में शब्दों पर एक छोटे से संयुक्त सशर्त वितरण तक कम कर सकते हैं, और इसलिए हम उपरोक्त ट्रिक का उपयोग करके इसे सरल नहीं बना सकते हैं जो अपेक्षित गणना और पूर्व का एक सरल योग प्राप्त करता है। यद्यपि वास्तव में इसे ऐसे व्यक्तिगत योगों के उत्पाद के रूप में फिर से लिखना संभव है, कारकों की संख्या बहुत बड़ी है, और डिरिचलेट-मल्टीनोमियल वितरण संभावना की सीधे गणना करने की तुलना में स्पष्ट रूप से अधिक कुशल नहीं है।
हालाँकि, लेबल असाइनमेंट के लिए अव्यक्त चर के सशर्त वितरण में महत्वपूर्ण अंतर है, जो यह है कि किसी दिए गए लेबल चर में केवल के बजाय कई बच्चों के नोड होते हैं - विशेष रूप से, लेबल के दस्तावेज़ में सभी शब्दों के लिए नोड्स। यह कारक के बारे में उपरोक्त चर्चा से निकटता से संबंधित है <math>\operatorname{F}(\dots\mid z_d)</math> जो संयुक्त वितरण से उत्पन्न होता है। इस मामले में, संयुक्त वितरण को सभी दस्तावेजों में सभी शब्दों पर ले जाने की आवश्यकता है जिसमें मूल्य के बराबर लेबल असाइनमेंट शामिल है <math>z_d</math>, और इसमें डिरिचलेट-मल्टीनोमियल वितरण का मान है। इसके अलावा, हम इस संयुक्त वितरण को शब्द पर सशर्त वितरण तक सीमित नहीं कर सकते। इसके बजाय, हम इसे केवल प्रश्न में लेबल के लिए दस्तावेज़ में शब्दों पर छोटे से संयुक्त सशर्त वितरण तक कम कर सकते हैं, और इसलिए हम उपरोक्त ट्रिक का उपयोग करके इसे सरल नहीं बना सकते हैं जो अपेक्षित गणना और पूर्व का सरल योग प्राप्त करता है। यद्यपि वास्तव में इसे ऐसे व्यक्तिगत योगों के उत्पाद के रूप में फिर से लिखना संभव है, कारकों की संख्या बहुत बड़ी है, और डिरिचलेट-मल्टीनोमियल वितरण संभावना की सीधे गणना करने की तुलना में स्पष्ट रूप से अधिक कुशल नहीं है।


==संबंधित वितरण==
==संबंधित वितरण==
Line 372: Line 372:


डिरिचलेट-मल्टीनोमियल वितरण का संबंध [[नकारात्मक द्विपद]] वितरण के साथ है, जो पॉइसन वितरण के साथ बहुपद वितरण के संबंध के अनुरूप है।<ref name=Zhou2018>Theorem 1 of {{cite journal |last1=Zhou |first=M.|year=2018|title=Nonparametric Bayesian Negative Binomial Factor Analysis |journal=Bayesian Analysis |volume=13 |issue=4|pages=1065–1093|doi=10.1214/17-BA1070 |doi-access=free }}</ref>
डिरिचलेट-मल्टीनोमियल वितरण का संबंध [[नकारात्मक द्विपद]] वितरण के साथ है, जो पॉइसन वितरण के साथ बहुपद वितरण के संबंध के अनुरूप है।<ref name=Zhou2018>Theorem 1 of {{cite journal |last1=Zhou |first=M.|year=2018|title=Nonparametric Bayesian Negative Binomial Factor Analysis |journal=Bayesian Analysis |volume=13 |issue=4|pages=1065–1093|doi=10.1214/17-BA1070 |doi-access=free }}</ref>
==उपयोग==
==उपयोग==
डिरिचलेट-मल्टीनोमियल वितरण का उपयोग स्वचालित दस्तावेज़ वर्गीकरण और क्लस्टरिंग, [[आनुवंशिकी]], [[अर्थव्यवस्था]], मुकाबला मॉडलिंग और मात्रात्मक विपणन में किया जाता है।
डिरिचलेट-मल्टीनोमियल वितरण का उपयोग स्वचालित दस्तावेज़ वर्गीकरण और क्लस्टरिंग, [[आनुवंशिकी]], [[अर्थव्यवस्था]], मुकाबला मॉडलिंग और मात्रात्मक विपणन में किया जाता है।
{{more footnotes|date=June 2012}}


==यह भी देखें==
==यह भी देखें==
Line 388: Line 384:


== संदर्भ ==
== संदर्भ ==
=== उद्धरण ===
=== उद्धरण ===
{{Reflist}}
{{Reflist}}


=== स्रोत ===
=== स्रोत ===
Line 404: Line 396:
* मोसिमन, जे. ई. (1962) [https://www.jstor.org/stable/2333468 मिश्रित बहुपद वितरण, बहुभिन्नरूपी β-वितरण, और अनुपातों के बीच सहसंबंध]। बायोमेट्रिक, 49(1-2), 65-82।
* मोसिमन, जे. ई. (1962) [https://www.jstor.org/stable/2333468 मिश्रित बहुपद वितरण, बहुभिन्नरूपी β-वितरण, और अनुपातों के बीच सहसंबंध]। बायोमेट्रिक, 49(1-2), 65-82।
* वैगनर, यू. और टॉड्स, ए. (1986) ब्रांड चॉइस और खरीद घटना का एक बहुभिन्नरूपी पोलिया मॉडल। विपणन विज्ञान, 5(3), 219-244।
* वैगनर, यू. और टॉड्स, ए. (1986) ब्रांड चॉइस और खरीद घटना का एक बहुभिन्नरूपी पोलिया मॉडल। विपणन विज्ञान, 5(3), 219-244।
{{refend}}
{{refend}}{{ProbDistributions|multivariate}}
 
{{-}}
{{ProbDistributions|multivariate}}
{{Peter Gustav Lejeune Dirichlet}}
{{Peter Gustav Lejeune Dirichlet}}



Revision as of 13:01, 18 July 2023

Dirichlet-Multinomial
Notation
Parameters number of trials (positive integer)
Support
PMF [1]
Mean
Variance
MGF
with
[1]
CF


with

[1]
PGF


with

[1]

संभाव्यता सिद्धांत और आंकड़ों में, डिरिचलेट-मल्टीनोमियल वितरण गैर-नकारात्मक पूर्णांकों के सीमित समर्थन पर असतत बहुभिन्नरूपी संभाव्यता वितरण का परिवार है। इसे डिरिचलेट यौगिक संभाव्यता वितरण (DCM) या मल्टीवेरिएट प्रायिकता वितरण (जॉर्ज पोलिया के बाद) भी कहा जाता है। यह मिश्रित संभाव्यता वितरण है, जहां पैरामीटर वेक्टर के साथ डिरिचलेट वितरण से संभाव्यता वेक्टर पी निकाला जाता है , और संभाव्यता वेक्टर पी और परीक्षणों की संख्या एन के साथ बहुपद वितरण से लिया गया अवलोकन। डिरिचलेट पैरामीटर वेक्टर स्थिति के बारे में पूर्व धारणा को पकड़ता है और इसे छद्मगणना के रूप में देखा जा सकता है: वास्तविक डेटा एकत्र होने से पहले होने वाले प्रत्येक परिणाम का अवलोकन। कंपाउंडिंग पोल्या कलश मॉडल|पोल्या कलश योजना से मेल खाती है। यह बायेसियन सांख्यिकी, यंत्र अधिगम , अनुभवजन्य बेयस विधियों और शास्त्रीय सांख्यिकी में अतिविस्तारित बहुपद वितरण के रूप में अक्सर सामने आता है।

जब n = 1 होता है तो यह विशेष मामले के रूप में श्रेणीबद्ध वितरण को कम कर देता है। यह बड़े α के लिए मनमाने ढंग से बहुपद वितरण का भी अनुमान लगाता है। डिरिचलेट-मल्टीनोमियल बीटा-द्विपद वितरण का बहुभिन्नरूपी विस्तार है, क्योंकि बहुपद और डिरिचलेट वितरण क्रमशः द्विपद वितरण और बीटा वितरण के बहुभिन्नरूपी संस्करण हैं।

विनिर्देश

डिरिचलेट-मल्टीनोमियल यौगिक वितरण के रूप में

डिरिचलेट वितरण बहुपद वितरण का संयुग्मित वितरण है। यह तथ्य विश्लेषणात्मक रूप से सुव्यवस्थित यौगिक वितरण की ओर ले जाता है। श्रेणी गणना के यादृच्छिक वेक्टर के लिए , बहुपद वितरण के अनुसार वितरित, सीमांत वितरण पी के लिए वितरण पर एकीकृत करके प्राप्त किया जाता है जिसे डिरिचलेट वितरण के बाद यादृच्छिक वेक्टर के रूप में माना जा सकता है:

जिसके परिणामस्वरूप निम्नलिखित स्पष्ट सूत्र प्राप्त होता है:

कहाँ योग के रूप में परिभाषित किया गया है . इसी यौगिक वितरण का दूसरा रूप, जिसे बीटा फ़ंक्शन, बी के संदर्भ में अधिक संक्षिप्त रूप से लिखा गया है, इस प्रकार है:

बाद वाला फॉर्म इस तथ्य पर जोर देता है कि गणना में शून्य गिनती श्रेणियों को नजरअंदाज किया जा सकता है - उपयोगी तथ्य जब श्रेणियों की संख्या बहुत बड़ी है और विरल मैट्रिक्स (उदाहरण के लिए दस्तावेजों में शब्द गिनती)।

ध्यान दें कि पीडीएफ बीटा-द्विपद वितरण है जब . यह भी दिखाया जा सकता है कि यह बहुपद वितरण के रूप में दृष्टिकोण करता है अनंत तक पहुंचता है। पैरामीटर बहुपद के सापेक्ष अति फैलाव या विस्फोट की डिग्री को नियंत्रित करता है। निरूपित करने के लिए वैकल्पिक विकल्प साहित्य में पाए जाने वाले एस और ए हैं।

डिरिचलेट-मल्टीनोमियल कलश मॉडल के रूप में

डिरिचलेट-मल्टीनोमियल वितरण को वेक्टर α के सकारात्मक पूर्णांक मानों के लिए कलश मॉडल के माध्यम से भी प्रेरित किया जा सकता है, जिसे पॉली कलश मॉडल के रूप में जाना जाता है। विशेष रूप से, कलश की कल्पना करें जिसमें K रंग क्रमांकन वाली गेंदें हों Ith रंग के लिए, जहां यादृच्छिक ड्रॉ बनाए जाते हैं। जब गेंद को यादृच्छिक रूप से निकाला जाता है और उसका अवलोकन किया जाता है, तो ही रंग की दो गेंदें कलश में वापस आ जाती हैं। यदि यह n बार किया जाता है, तो यादृच्छिक वेक्टर के अवलोकन की संभावना रंग गणना पैरामीटर n और α के साथ डिरिचलेट-मल्टीनोमियल है। यदि यादृच्छिक ड्रॉ सरल प्रतिस्थापन के साथ होते हैं (अवलोकित गेंद के ऊपर और ऊपर कोई भी गेंद कलश में नहीं जोड़ी जाती है), तो वितरण बहुपद वितरण का अनुसरण करता है और यदि यादृच्छिक ड्रॉ प्रतिस्थापन के बिना किया जाता है, तो वितरण बहुभिन्नरूपी हाइपरज्यामितीय वितरण का अनुसरण करता है।

गुण

क्षण

बार फिर चलो और जाने , तो n परीक्षणों पर देखे गए परिणाम की अपेक्षित मान संख्या है

सहप्रसरण मैट्रिक्स इस प्रकार है। प्रत्येक विकर्ण प्रविष्टि बीटा-द्विपदीय रूप से वितरित यादृच्छिक चर का विचरण है, और इसलिए है

ऑफ-विकर्ण प्रविष्टियाँ सहप्रसरण हैं:

i, j के लिए अलग।

सभी सहप्रसरण नकारात्मक हैं क्योंकि निश्चित n के लिए, डिरिचलेट-मल्टीनोमियल वेक्टर के घटक में वृद्धि के लिए दूसरे घटक में कमी की आवश्यकता होती है।

यह K × K सकारात्मक-निश्चित मैट्रिक्स#नकारात्मक-निश्चित, अर्धनिश्चित और अनिश्चित आव्यूह|रैंक (रैखिक बीजगणित) K - 1 का सकारात्मक-अर्धनिश्चित मैट्रिक्स है।

संगत सहसंबंध मैट्रिक्स#सहसंबंध मैट्रिक्स की प्रविष्टियाँ हैं

नमूना आकार इस अभिव्यक्ति से बाहर हो जाता है।

प्रत्येक k घटक में अलग-अलग बीटा-द्विपद वितरण होता है।

डिरिचलेट-मल्टीनोमियल वितरण का समर्थन (गणित) सेट है

इसके तत्वों की संख्या है


मैट्रिक्स संकेतन

मैट्रिक्स संकेतन में,

और

साथ pT = स्तंभ वेक्टर का पंक्ति वेक्टर स्थानान्तरण p. दे

, हम वैकल्पिक रूप से लिख सकते हैं

पैरामीटर इसे इंट्रा क्लास या इंट्रा क्लस्टर सहसंबंध के रूप में जाना जाता है। यह सकारात्मक सहसंबंध है जो बहुपद वितरण के सापेक्ष अतिफैलाव को जन्म देता है।

एकत्रीकरण

अगर

फिर, यदि सबस्क्रिप्ट i और j वाले यादृच्छिक चर को वेक्टर से हटा दिया जाता है और उनके योग से प्रतिस्थापित कर दिया जाता है[citation needed],

इस एकत्रीकरण संपत्ति का उपयोग सीमांत वितरण प्राप्त करने के लिए किया जा सकता है .

संभावना फ़ंक्शन

वैचारिक रूप से, हम K श्रेणियों के साथ श्रेणीबद्ध वितरण से N स्वतंत्र ड्रॉ बना रहे हैं। आइए हम स्वतंत्र ड्रा को यादृच्छिक श्रेणीगत चर के रूप में प्रस्तुत करें के लिए . आइए हम किसी विशेष श्रेणी को कितनी बार निरूपित करें (के लिए) देखा गया है ) सभी श्रेणीगत चरों के बीच , और . फिर, इस समस्या पर हमारे दो अलग-अलग विचार हैं:

  1. का सेट श्रेणीगत चर .
  2. एकल वेक्टर-मूल्यवान चर , बहुपद वितरण के अनुसार वितरित।

पहला मामला यादृच्छिक चर का सेट है जो प्रत्येक व्यक्तिगत परिणाम को निर्दिष्ट करता है, जबकि बाद वाला चर है जो प्रत्येक के श्रेणियों के परिणामों की संख्या निर्दिष्ट करता है। अंतर महत्वपूर्ण है, क्योंकि दोनों मामलों में संगत रूप से अलग-अलग संभाव्यता वितरण हैं।

श्रेणीबद्ध वितरण का पैरामीटर है कहाँ मूल्य निकालने की संभावना है ; इसी प्रकार बहुपद वितरण का पैरामीटर भी है . निर्दिष्ट करने के बजाय सीधे तौर पर, हम इसे संयुग्मित पूर्व वितरण देते हैं, और इसलिए इसे पैरामीटर वेक्टर के साथ डिरिचलेट वितरण से लिया जाता है .

एकीकृत करके , हम मिश्रित वितरण प्राप्त करते हैं। हालाँकि, वितरण का स्वरूप इस पर निर्भर करता है कि हम कौन सा दृष्टिकोण अपनाते हैं।

व्यक्तिगत परिणामों के सेट के लिए

संयुक्त वितरण

श्रेणीबद्ध चर के लिए सीमांत वितरण संयुक्त वितरण को एकीकृत करके प्राप्त किया जाता है :

जिसके परिणामस्वरूप निम्नलिखित स्पष्ट सूत्र प्राप्त होता है:

कहाँ गामा फ़ंक्शन है, के साथ

प्रत्येक श्रेणी के भीतर गिनती पर संभावना के बजाय श्रेणीबद्ध चर के अनुक्रम की संभावना के बारे में सूत्र होने के कारण बहुपद गुणांक की अनुपस्थिति पर ध्यान दें।

यद्यपि चर उपरोक्त सूत्र में स्पष्ट रूप से प्रकट नहीं होते हैं, वे इसके माध्यम से प्रवेश करते हैं मूल्य.

सशर्त वितरण

अन्य उपयोगी सूत्र, विशेष रूप से गिब्स नमूने के संदर्भ में, पूछता है कि किसी दिए गए चर का सशर्त घनत्व क्या है अन्य सभी चर (जिन्हें हम निरूपित करेंगे) पर आधारित है ). इसका स्वरूप अत्यंत सरल है:

कहाँ श्रेणी की गिनती की संख्या निर्दिष्ट करता है के अलावा सभी वेरिएबल्स में देखा जाता है .

यह दिखाना उपयोगी हो सकता है कि इस सूत्र को कैसे प्राप्त किया जाए। सामान्य तौर पर, सशर्त वितरण संबंधित संयुक्त वितरण के समानुपाती होते हैं, इसलिए हम सभी के संयुक्त वितरण के लिए उपरोक्त सूत्र से शुरुआत करते हैं। मान और फिर विशेष पर निर्भर न होने वाले किसी भी कारक को हटा दें प्रश्न में। ऐसा करने के लिए, हम संकेतन का उपयोग करते हैं ऊपर परिभाषित, और

हम भी इस तथ्य का उपयोग करते हैं

तब:

सामान्य तौर पर, सशर्त वितरण के लिए समीकरण प्राप्त करते समय सामान्यीकरण स्थिरांक के बारे में चिंता करना आवश्यक नहीं है। सामान्यीकरण स्थिरांक को वितरण से नमूने के लिए एल्गोरिदम के भाग के रूप में निर्धारित किया जाएगा (श्रेणीबद्ध वितरण#नमूनाकरण देखें)। हालाँकि, जब सशर्त वितरण ऊपर सरल रूप में लिखा जाता है, तो यह पता चलता है कि सामान्यीकरण स्थिरांक सरल रूप धारण करता है:

इस तरह

यह फ़ॉर्मूला चीनी रेस्तरां प्रक्रिया से निकटता से संबंधित है, जो सीमा को इस रूप में लेने से उत्पन्न होता है .

बायेसियन नेटवर्क में

बड़े बायेसियन नेटवर्क में, जिसमें श्रेणीबद्ध (या तथाकथित बहुपद) वितरण बड़े नेटवर्क के हिस्से के रूप में डिरिचलेट वितरण पुजारियों के साथ होते हैं, सभी डिरिचलेट पूर्वज को ढहाया जा सकता है, बशर्ते कि उन पर निर्भर एकमात्र नोड श्रेणीबद्ध वितरण हों। पतन प्रत्येक डिरिचलेट-वितरण नोड के लिए दूसरों से अलग होता है, और किसी भी अन्य नोड की परवाह किए बिना होता है जो श्रेणीबद्ध वितरण पर निर्भर हो सकता है। यह इस बात की परवाह किए बिना भी होता है कि क्या श्रेणीबद्ध वितरण डिरिचलेट पुजारियों के अतिरिक्त नोड्स पर निर्भर करते हैं (हालांकि ऐसे मामले में, उन अन्य नोड्स को अतिरिक्त कंडीशनिंग कारकों के रूप में रहना चाहिए)। अनिवार्य रूप से, किसी दिए गए डिरिचलेट-वितरण नोड के आधार पर सभी श्रेणीबद्ध वितरण उपरोक्त सूत्र द्वारा परिभाषित एकल डिरिचलेट-मल्टीनोमियल संयुक्त वितरण में जुड़ जाते हैं। इस तरह से परिभाषित संयुक्त वितरण एकीकृत-आउट डिरिचेट पूर्व नोड्स के माता-पिता पर निर्भर करेगा, साथ ही डिरिचलेट पूर्व नोड्स के अलावा श्रेणीबद्ध नोड्स के किसी भी माता-पिता पर निर्भर करेगा।

निम्नलिखित अनुभागों में, हम आमतौर पर बायेसियन नेटवर्क में पाए जाने वाले विभिन्न कॉन्फ़िगरेशन पर चर्चा करते हैं। हम ऊपर से संभाव्यता घनत्व दोहराते हैं, और इसे प्रतीक का उपयोग करके परिभाषित करते हैं :


ही हाइपरप्रायर के साथ एकाधिक डिरिचलेट पुजारी

कल्पना कीजिए कि हमारे पास इस प्रकार पदानुक्रमित मॉडल है:

इस तरह के मामलों में, हमारे पास कई डिरिचेट पूर्वज हैं, जिनमें से प्रत्येक कुछ संख्या में श्रेणीबद्ध अवलोकन उत्पन्न करता है (संभवतः प्रत्येक पूर्व के लिए अलग संख्या)। तथ्य यह है कि वे सभी ही हाइपरप्रायर पर निर्भर हैं, भले ही यह ऊपर जैसा यादृच्छिक चर हो, इससे कोई फर्क नहीं पड़ता। डिरिचलेट पूर्व को एकीकृत करने का प्रभाव उस पूर्व से जुड़े श्रेणीबद्ध चर को जोड़ता है, जिसका संयुक्त वितरण बस डिरिचलेट पूर्व के किसी भी कंडीशनिंग कारकों को प्राप्त करता है। तथ्य यह है कि कई पूर्वज हाइपरप्रियर साझा कर सकते हैं, इससे कोई फर्क नहीं पड़ता:

कहाँ यह केवल पूर्व d पर निर्भर श्रेणीगत चरों का संग्रह है।

तदनुसार, सशर्त संभाव्यता वितरण निम्नानुसार लिखा जा सकता है:

कहाँ विशेष रूप से सेट के बीच चर की संख्या का मतलब है , को छोड़कर स्वयं, जिसका मूल्य है .

केवल k मान वाले वेरिएबल्स को गिनना आवश्यक है जो समान पूर्व होने के कारण प्रश्न में वेरिएबल से साथ बंधे हैं। हम k मान वाले किसी अन्य वेरिएबल को भी गिनना नहीं चाहते हैं।

ही हाइपरप्रियर वाले एकाधिक डिरिचलेट पादरी, आश्रित बच्चों के साथ

अब थोड़ा अधिक जटिल पदानुक्रमित मॉडल की कल्पना इस प्रकार करें:

यह मॉडल ऊपर जैसा ही है, लेकिन इसके अलावा, प्रत्येक श्रेणीगत चर पर चाइल्ड वेरिएबल निर्भर होता है। यह मिश्रण मॉडल की खासियत है.

फिर से, संयुक्त वितरण में, केवल उसी पूर्व पर निर्भर श्रेणीबद्ध चर एकल डिरिचलेट-मल्टीनोमियल में जुड़े हुए हैं:

केवल उनके माता-पिता और पूर्वजों पर निर्भर श्रेणीगत चरों का सशर्त वितरण सरल मामले में उपरोक्त के समान रूप होगा। हालाँकि, गिब्स नमूने में किसी दिए गए नोड के सशर्त वितरण को निर्धारित करना आवश्यक है केवल पर निर्भर नहीं और पूर्वज जैसे लेकिन अन्य सभी मापदंडों पर।

सशर्त वितरण के लिए सरलीकृत अभिव्यक्ति ऊपर संयुक्त संभाव्यता के लिए अभिव्यक्ति को फिर से लिखकर और निरंतर कारकों को हटाकर प्राप्त की गई है। इसलिए, वही सरलीकरण बड़े संयुक्त संभाव्यता अभिव्यक्ति में लागू होगा जैसे कि इस मॉडल में, डिरिचलेट-मल्टीनोमियल घनत्व और श्रेणीबद्ध चर के मूल्यों पर निर्भर कई अन्य यादृच्छिक चर के कारकों से बना है।

इससे निम्नलिखित परिणाम मिलते हैं:

यहाँ की संभाव्यता घनत्व प्रत्यक्ष रूप से प्रकट होता है. छद्म-यादृच्छिक संख्या नमूनाकरण करने के लिए , हम सभी K संभावनाओं के लिए असामान्य संभावनाओं की गणना करेंगे उपरोक्त सूत्र का उपयोग करके, फिर उन्हें सामान्य करें और श्रेणीबद्ध वितरण आलेख में वर्णित एल्गोरिदम का उपयोग करके सामान्य रूप से आगे बढ़ें।

सही ढंग से कहें तो, सशर्त वितरण में दिखाई देने वाला अतिरिक्त कारक मॉडल विनिर्देश से नहीं बल्कि सीधे संयुक्त वितरण से प्राप्त होता है। यह अंतर उन मॉडलों पर विचार करते समय महत्वपूर्ण है जहां डिरिचलेट-पूर्व माता-पिता के साथ दिए गए नोड में कई आश्रित बच्चे हैं, खासकर जब वे बच्चे एक-दूसरे पर निर्भर होते हैं (उदाहरण के लिए यदि वे माता-पिता को साझा करते हैं जो अलग हो गए हैं)। इस पर नीचे अधिक चर्चा की गई है।

पूर्व सदस्यता बदलने के साथ एकाधिक डिरिचलेट पुजारी

अब कल्पना करें कि हमारे पास इस प्रकार पदानुक्रमित मॉडल है:

यहां हमारे पास पेचीदा स्थिति है जहां हमारे पास पहले की तरह कई डिरिचलेट पूर्व और आश्रित श्रेणीगत चर का सेट है, लेकिन पहले के विपरीत, पूर्व और आश्रित चर के बीच संबंध तय नहीं है। इसके बजाय, उपयोग से पहले का चुनाव किसी अन्य यादृच्छिक श्रेणीबद्ध चर पर निर्भर है। ऐसा होता है, उदाहरण के लिए, विषय मॉडल में, और वास्तव में उपरोक्त चर के नाम अव्यक्त डिरिचलेट आवंटन के अनुरूप होते हैं। इस मामले में, सेट शब्दों का समूह है, जिनमें से प्रत्येक शब्द किसी से लिया गया है संभावित विषय, जहां प्रत्येक विषय की शब्दावली से पहले डिरिचलेट है संभावित शब्द, विषय में विभिन्न शब्दों की आवृत्ति निर्दिष्ट करते हुए। हालाँकि, किसी दिए गए शब्द की विषय सदस्यता निश्चित नहीं है; बल्कि, यह अव्यक्त चरों के सेट से निर्धारित होता है . प्रति शब्द अव्यक्त चर है, ए -आयामी श्रेणीबद्ध चर उस विषय को निर्दिष्ट करता है जिससे शब्द संबंधित है।

इस मामले में, किसी दिए गए पूर्व पर निर्भर सभी चर समूह में साथ बंधे हुए हैं (यानी सहसंबद्ध), पहले की तरह - विशेष रूप से, किसी दिए गए विषय से संबंधित सभी शब्द जुड़े हुए हैं। हालाँकि, इस मामले में, समूह की सदस्यता बदल जाती है, जिसमें शब्द किसी दिए गए विषय पर तय नहीं होते हैं, बल्कि विषय शब्द से जुड़े अव्यक्त चर के मूल्य पर निर्भर करता है। हालाँकि, डिरिचलेट-मल्टीनोमियल घनत्व की परिभाषा वास्तव में किसी समूह में श्रेणीबद्ध चर की संख्या (यानी किसी दिए गए विषय से उत्पन्न दस्तावेज़ में शब्दों की संख्या) पर निर्भर नहीं करती है, बल्कि केवल इस बात पर निर्भर करती है कि इसमें कितने चर हैं समूह का दिया हुआ मान होता है (अर्थात किसी दिए गए विषय से उत्पन्न सभी शब्द टोकन के बीच, उनमें से कितने दिए गए शब्द हैं)। इसलिए, हम अभी भी संयुक्त वितरण के लिए स्पष्ट सूत्र लिख सकते हैं:

यहां हम संकेतन का उपयोग करते हैं उन शब्द टोकनों की संख्या को दर्शाने के लिए जिनका मान शब्द प्रतीक v है और जो विषय k से संबंधित हैं।

सशर्त वितरण का रूप अभी भी वही है:

यहां फिर से, किसी दिए गए विषय से संबंधित शब्दों के लिए केवल श्रेणीबद्ध चर जुड़े हुए हैं (भले ही यह लिंकिंग अव्यक्त चर के असाइनमेंट पर निर्भर करेगी), और इसलिए शब्द गणना केवल किसी दिए गए विषय से उत्पन्न शब्दों से अधिक होनी चाहिए। इसलिए प्रतीक , जो कि शब्द प्रतीक v वाले शब्द टोकन की गिनती है, लेकिन विषय k द्वारा उत्पन्न लोगों में से 'केवल' है, और उस शब्द को छोड़कर जिसके वितरण का वर्णन किया जा रहा है।

(जिस कारण से शब्द को बाहर करना आवश्यक है, और यह बिल्कुल भी समझ में क्यों आता है, वह यह है कि गिब्स नमूना संदर्भ में, हम सभी पिछले चर के माध्यम से चलने और नमूना लेने के बाद, प्रत्येक यादृच्छिक चर के मूल्यों को बार-बार पुन: नमूना करते हैं। इसलिए वेरिएबल का पहले से ही मान होगा, और हमें इस मौजूदा मान को उन विभिन्न गणनाओं से बाहर करने की आवश्यकता है जिनका हम उपयोग करते हैं।)

संयुक्त उदाहरण: एलडीए विषय मॉडल

अब हम दिखाते हैं कि उपरोक्त कुछ परिदृश्यों को कैसे संयोजित किया जाए ताकि यह प्रदर्शित किया जा सके कि गिब्स वास्तविक दुनिया के मॉडल, विशेष रूप से स्मूथ लेटेंट डिरिचलेट आवंटन (एलडीए) विषय मॉडल का नमूना कैसे ले सकते हैं।

मॉडल इस प्रकार है:

अनिवार्य रूप से हम पिछले तीन परिदृश्यों को जोड़ते हैं: हमारे पास श्रेणीबद्ध चर हैं जो हाइपरप्रायर साझा करने वाले कई पुजारियों पर निर्भर हैं; हमारे पास आश्रित बच्चों के साथ श्रेणीगत चर हैं (अव्यक्त चर विषय पहचान); और हमारे पास हाइपरप्रायर साझा करने वाले कई पुजारियों में सदस्यता बदलने के साथ श्रेणीबद्ध चर हैं। मानक एलडीए मॉडल में, शब्दों का पूरी तरह से अवलोकन किया जाता है, और इसलिए हमें उन्हें दोबारा नमूना लेने की आवश्यकता नहीं होती है। (हालांकि, गिब्स नमूनाकरण समान रूप से संभव होगा यदि केवल कुछ या कोई भी शब्द नहीं देखा गया हो। ऐसे मामले में, हम कुछ उचित तरीके से शब्दों पर वितरण शुरू करना चाहेंगे - उदाहरण के लिए कुछ प्रक्रिया के आउटपुट से जो वाक्य उत्पन्न करता है , जैसे कि मशीनी अनुवाद मॉडल - परिणामी पश्च वितरण अव्यक्त चर वितरण के लिए कोई अर्थ निकालने के लिए।)

उपरोक्त सूत्रों का उपयोग करके, हम सशर्त संभावनाओं को सीधे लिख सकते हैं:

यहां हमने शब्दों की संख्या और विषयों की संख्या को स्पष्ट रूप से अलग करने के लिए गिनती को अधिक स्पष्ट रूप से परिभाषित किया है:

आश्रित बच्चों के साथ श्रेणीबद्ध चर के साथ उपरोक्त परिदृश्य में, उन आश्रित बच्चों की सशर्त संभावना माता-पिता की सशर्त संभावना की परिभाषा में दिखाई देती है। इस मामले में, प्रत्येक अव्यक्त चर में केवल ही आश्रित उपसर्ग शब्द होता है, इसलिए ऐसा केवल ही शब्द प्रकट होता है। (यदि एकाधिक आश्रित बच्चे हों, तो सभी को माता-पिता की सशर्त संभाव्यता में उपस्थित होना होगा, भले ही अलग-अलग माता-पिता और समान बच्चों के बीच ओवरलैप हो, यानी इस बात की परवाह किए बिना कि किसी दिए गए माता-पिता के आश्रित बच्चों के अन्य माता-पिता भी हैं या नहीं। ऐसा मामला जहां बच्चे के कई माता-पिता हों, उस बच्चे की सशर्त संभाव्यता उसके प्रत्येक माता-पिता की सशर्त संभाव्यता परिभाषा में दिखाई देती है।)

उपरोक्त परिभाषा केवल शब्दों की असामान्यीकृत सशर्त संभाव्यता को निर्दिष्ट करती है, जबकि विषय सशर्त संभाव्यता के लिए वास्तविक (यानी सामान्यीकृत) संभाव्यता की आवश्यकता होती है। इसलिए हमें सभी शब्द प्रतीकों को जोड़कर सामान्य बनाना होगा:

कहाँ

यह और बिंदु को विस्तार से बताने लायक भी है, जो सशर्त संभाव्यता में उपरोक्त दूसरे कारक से संबंधित है। याद रखें कि सामान्य रूप से सशर्त वितरण संयुक्त वितरण से प्राप्त होता है, और सशर्त के डोमेन (ऊर्ध्वाधर पट्टी के बाईं ओर का भाग) पर निर्भर नहीं होने वाले शब्दों को हटाकर इसे सरल बनाया जाता है। जब नोड आश्रित बच्चे हैं, तो या अधिक कारक होंगे संयुक्त वितरण में जो निर्भर हैं . आमतौर पर प्रत्येक आश्रित नोड के लिए कारक होता है, और इसमें गणितीय परिभाषा में दिखाई देने वाले वितरण के समान घनत्व कार्य होता है। हालाँकि, यदि आश्रित नोड में अन्य अभिभावक ( सह-अभिभावक) भी है, और वह सह-अभिभावक समाप्त हो गया है, तो नोड उस सह-अभिभावक को साझा करने वाले अन्य सभी नोड्स पर निर्भर हो जाएगा, और इसके लिए कई शर्तों के स्थान पर ऐसे प्रत्येक नोड, संयुक्त वितरण में केवल संयुक्त पद होगा। हमारे यहाँ बिल्कुल वैसी ही स्थिति है। चाहे केवल बच्चा है , उस बच्चे के पास डिरिचलेट सह-अभिभावक है जिसे हमने अलग कर दिया है, जो नोड्स के पूरे सेट पर डिरिचलेट-मल्टीनोमियल उत्पन्न करता है .

इस मामले में ऐसा होता है कि यह मुद्दा बड़ी समस्याओं का कारण नहीं बनता है, ठीक बीच में एक-से- संबंध के कारण और . हम संयुक्त वितरण को इस प्रकार पुनः लिख सकते हैं:

सेट में कहां (अर्थात नोड्स का सेट के सिवा ), किसी भी नोड में नहीं है माता-पिता के रूप में. इसलिए इसे कंडीशनिंग कारक (पंक्ति 2) के रूप में समाप्त किया जा सकता है, जिसका अर्थ है कि पूरे कारक को सशर्त वितरण (पंक्ति 3) से समाप्त किया जा सकता है।

दूसरा उदाहरण: नाइव बेयस दस्तावेज़ क्लस्टरिंग

यहां और मॉडल है, जिसमें मुद्दों का अलग सेट है। यह दस्तावेज़ क्लस्टरिंग के लिए अप्रकाशित नाइव बेयस मॉडल का कार्यान्वयन है। अर्थात्, हम पाठ्य सामग्री के आधार पर कई श्रेणियों (उदाहरण के लिए स्पैम (इलेक्ट्रॉनिक) या गैर-स्पैम, या वैज्ञानिक जर्नल लेख, वित्त के बारे में समाचार पत्र लेख, राजनीति के बारे में समाचार पत्र लेख, प्रेम पत्र) में वर्गीकरण का दस्तावेजीकरण करना चाहेंगे। हालाँकि, हम पहले से ही किसी दस्तावेज़ की सही श्रेणी नहीं जानते हैं; इसके बजाय, हम आपसी समानता के आधार पर उन्हें क्लस्टर करने का दस्तावेजीकरण करना चाहते हैं। (उदाहरण के लिए, वैज्ञानिक लेखों का सेट शब्द प्रयोग में एक-दूसरे के समान होगा लेकिन प्रेम पत्रों के सेट से बहुत अलग होगा।) यह प्रकार की बिना पर्यवेक्षित शिक्षा है। (उसी तकनीक का उपयोग अर्ध-पर्यवेक्षित शिक्षण करने के लिए किया जा सकता है, यानी जहां हम दस्तावेज़ों के कुछ अंश की सही श्रेणी जानते हैं और शेष दस्तावेज़ों को क्लस्टर करने में सहायता के लिए इस ज्ञान का उपयोग करना चाहेंगे।)

मॉडल इस प्रकार है:

कई मायनों में, यह मॉडल ऊपर वर्णित अव्यक्त डिरिचलेट आवंटन विषय मॉडल के समान है, लेकिन यह प्रति शब्द विषय के बजाय प्रति दस्तावेज़ विषय मानता है, जिसमें दस्तावेज़ में विषयों का मिश्रण होता है। इसे उपरोक्त मॉडल में स्पष्ट रूप से देखा जा सकता है, जो एलडीए मॉडल के समान है, सिवाय इसके कि प्रति दस्तावेज़ शब्द के बजाय केवल अव्यक्त चर है। बार फिर, हम मानते हैं कि हम डिरिचलेट के सभी पूर्ववर्तियों को ध्वस्त कर रहे हैं।

किसी दिए गए शब्द के लिए सशर्त संभाव्यता एलडीए मामले के लगभग समान है। बार फिर, उसी डिरिचलेट पूर्व द्वारा उत्पन्न सभी शब्द अन्योन्याश्रित हैं। इस मामले में, इसका मतलब है कि दिए गए लेबल वाले सभी दस्तावेज़ों के शब्द - फिर से, यह लेबल असाइनमेंट के आधार पर भिन्न हो सकता है, लेकिन हमें केवल कुल गिनती की परवाह है। इस तरह:

कहाँ

हालाँकि, लेबल असाइनमेंट के लिए अव्यक्त चर के सशर्त वितरण में महत्वपूर्ण अंतर है, जो यह है कि किसी दिए गए लेबल चर में केवल के बजाय कई बच्चों के नोड होते हैं - विशेष रूप से, लेबल के दस्तावेज़ में सभी शब्दों के लिए नोड्स। यह कारक के बारे में उपरोक्त चर्चा से निकटता से संबंधित है जो संयुक्त वितरण से उत्पन्न होता है। इस मामले में, संयुक्त वितरण को सभी दस्तावेजों में सभी शब्दों पर ले जाने की आवश्यकता है जिसमें मूल्य के बराबर लेबल असाइनमेंट शामिल है , और इसमें डिरिचलेट-मल्टीनोमियल वितरण का मान है। इसके अलावा, हम इस संयुक्त वितरण को शब्द पर सशर्त वितरण तक सीमित नहीं कर सकते। इसके बजाय, हम इसे केवल प्रश्न में लेबल के लिए दस्तावेज़ में शब्दों पर छोटे से संयुक्त सशर्त वितरण तक कम कर सकते हैं, और इसलिए हम उपरोक्त ट्रिक का उपयोग करके इसे सरल नहीं बना सकते हैं जो अपेक्षित गणना और पूर्व का सरल योग प्राप्त करता है। यद्यपि वास्तव में इसे ऐसे व्यक्तिगत योगों के उत्पाद के रूप में फिर से लिखना संभव है, कारकों की संख्या बहुत बड़ी है, और डिरिचलेट-मल्टीनोमियल वितरण संभावना की सीधे गणना करने की तुलना में स्पष्ट रूप से अधिक कुशल नहीं है।

संबंधित वितरण

डिरिचलेट-मल्टीनोमियल वितरण के एक-आयामी संस्करण को बीटा-द्विपद वितरण के रूप में जाना जाता है।

डिरिचलेट-मल्टीनोमियल वितरण का संबंध नकारात्मक द्विपद वितरण के साथ है, जो पॉइसन वितरण के साथ बहुपद वितरण के संबंध के अनुरूप है।[2]

उपयोग

डिरिचलेट-मल्टीनोमियल वितरण का उपयोग स्वचालित दस्तावेज़ वर्गीकरण और क्लस्टरिंग, आनुवंशिकी, अर्थव्यवस्था, मुकाबला मॉडलिंग और मात्रात्मक विपणन में किया जाता है।

यह भी देखें

संदर्भ

उद्धरण

  1. 1.0 1.1 1.2 1.3 Glüsenkamp, T. (2018). "Probabilistic treatment of the uncertainty from the finite size of weighted Monte Carlo data". EPJ Plus. 133 (6): 218. arXiv:1712.01293. Bibcode:2018EPJP..133..218G. doi:10.1140/epjp/i2018-12042-x. S2CID 125665629.
  2. Theorem 1 of Zhou, M. (2018). "Nonparametric Bayesian Negative Binomial Factor Analysis". Bayesian Analysis. 13 (4): 1065–1093. doi:10.1214/17-BA1070.

स्रोत

श्रेणी:बहुभिन्नरूपी असतत वितरण श्रेणी:अलग-अलग वितरण श्रेणी:यौगिक संभाव्यता वितरण