वैरिएशनल बायेसियन विधियाँ: Difference between revisions

Latest revision as of 22:40, 5 December 2023

वेरिएशनल बायेसियन विधियाँ बायेसियन अनुमान और यंत्र अधिगम में उत्पन्न होने वाले असाध्य अभिन्न का अनुमान लगाने की विधि का वर्ग है। इनका उपयोग सामान्यतः सम्मिश्र सांख्यिकीय मॉडल में किया जाता है जिसमें प्रेक्षित वेरिएबल (सामान्यतः डेटा कहा जाता है) | इसके साथ-साथ अज्ञात पैरामीटर और अव्यक्त वेरिएबल होते हैं, तथा यह तीन प्रकार के यादृच्छिक वेरिएबल के मध्य विभिन्न प्रकार के संबंधों के साथ होता है , जैसा कि चित्रमय मॉडल द्वारा वर्णित किया जा सकता है। कि बायेसियन अनुमान में विशिष्ट है, पैरामीटर और अव्यक्त वेरिएबल को साथ न देखे गए वेरिएबल के रूप में समूहीकृत किया जाता है। वेरिएशनल बायेसियन विधियाँ मुख्य रूप से दो उद्देश्यों के लिए उपयोग की जाती हैं |

इन वेरिएबलों का कार्य इन पर सांख्यिकीय अनुमान लगाने के लिए, न देखे गए वेरिएबलों की पूर्व संभावना के लिए विश्लेषणात्मक अनुमान प्रदान करना होता है।
अवलोकित डेटा की सीमांत संभावना (जिसे कभी-कभी साक्ष्य भी कहा जाता है) के लिए निचली सीमा प्राप्त करना है | (अर्थात मॉडल दिए गए डेटा की सीमांत संभावना, बिना देखे गए वेरिएबल पर मर्गिनाल्स पर प्रदर्शन के साथ) होता हैं। इसका उपयोग सामान्यतः मॉडल चयन करने के लिए किया जाता है, तथा सामान्य विचार यह है कि किसी दिए गए मॉडल के लिए उच्च सीमांत संभावना उस मॉडल द्वारा डेटा के उत्तम फिट को निरुपित करती है और इसलिए अधिक संभावना है कि प्रश्न में मॉडल वह था जिसने डेटा उत्पन्न किया था। (बेयस फैक्टर लेख भी देखें।)

पूर्व उद्देश्य में (पश्च संभाव्यता का अनुमान लगाने के लिए), वैरिएबल बेयस मोंटे कार्लो प्रतिरूपीकरण विधियों का विकल्प है - विशेष रूप से, मार्कोव श्रृंखला मोंटे कार्लो विधियां जैसे गिब्स प्रतिरूपीकरण - सम्मिश्र संभाव्यता वितरण पर सांख्यिकीय अनुमान के लिए पूर्ण प्रकार से बायेसियन दृष्टिकोण लेने के लिए सीधे या प्रतिरूप (सांख्यिकी) का विशेष रूप से मूल्यांकन करना कठिन है। जबकि मोंटे कार्लो विधि प्रतिरूपों के समुच्चय का उपयोग करके त्रुटिहीन पोस्टीरियर के लिए संख्यात्मक अनुमान प्रदान करती है, वेरिएबल बेयस पोस्टीरियर के अनुमान के लिए स्थानीय-इष्टतम, त्रुटिहीन विश्लेषणात्मक समाधान प्रदान करता है।

वैरिएशनल बेयस को एक्सपेक्टेशन-मैक्सिमाइजेशन एल्गोरिदम के विस्तार के रूप में देखा जा सकता है। एक्सपेक्टेशन-मैक्सिमाइजेशन (ईएम) एल्गोरिदम प्रत्येक पैरामीटर के एकल सबसे संभावित मूल्य के अधिकतम पोस्टीरियरी अनुमान (एमएपी अनुमान) से लेकर पूर्ण प्रकार से बायेसियन अनुमान तक, जो (एक अनुमान) की गणना करता है। ) मापदंडों और अव्यक्त वेरिएबल का संपूर्ण पश्च वितरण। ईएम की प्रकार, यह इष्टतम पैरामीटर मानों का समुच्चय ढूंढता है, और इसमें ईएम के समान ही वैकल्पिक संरचना होती है, जो इंटरलॉक्ड (परस्पर निर्भर) समीकरणों के समुच्चय पर आधारित होती है जिसका विश्लेषणात्मक रूप से समाधान नहीं किया जा सकता है।

अनेक अनुप्रयोगों के लिए, वैरिएबल बेयस अधिक गति से गिब्स सैंपलिंग के तुलनीय त्रुटिहीनता के समाधान तैयार करता है। चूँकि, मापदंडों को अद्यतन करने के लिए उपयोग किए जाने वाले समीकरणों के समुच्चय को प्राप्त करने के लिए अधिकांशतः तुलनीय गिब्स प्रतिरूप समीकरणों को प्राप्त करने की तुलना में बड़ी मात्रा में कार्य की आवश्यकता होती है। यह अनेक मॉडलों के लिए भी स्तिथि होती है जो वैचारिक रूप से अधिक सरल हैं, जैसा कि केवल दो मापदंडों और कोई अव्यक्त वेरिएबल के साथ मूलभूत गैर-पदानुक्रमित मॉडल के स्थितियां में नीचे दिखाया गया है।

गणितीय व्युत्पत्ति

समस्या

वैरिएबल अनुमान में, कुछ डेटा $\mathbf {X}$ दिए जाने पर न देखे गए वेरिएबल्स $\mathbf {Z} =\{Z_{1}\dots Z_{n}\}$ के समुच्चय पर पश्च वितरण को तथाकथित वेरिएबल डिस्ट्रीब्यूशन, $Q(\mathbf {Z} ):$ द्वारा अनुमानित किया जाता है।

P(\mathbf {Z} \mid \mathbf {X} )\approx Q(\mathbf {Z} ).

विभाजन $Q(\mathbf {Z} )$ $P(\mathbf {Z} \mid \mathbf {X} )$ की तुलना में सरल रूप के वितरण के वर्ग से संबंधित होने तक सीमित है (उदाहरण के लिए गॉसियन वितरण का वर्ग ), $Q(\mathbf {Z} )$ बनाने के प्रयोजन से चुना गया हैं | यह वास्तविक पश्च भाग के समान, $P(\mathbf {Z} \mid \mathbf {X} )$ होता हैं |

समानता (या असमानता) को असमानता फलन $d(Q;P)$ के संदर्भ में मापा जाता है और इसलिए वितरण $Q(\mathbf {Z} )$ का चयन करके अनुमान लगाया जाता है वह $d(Q;P)$ को न्यूनतम करता है |

केएल विचलन

वैरिएबल बेज़ का सबसे सामान्य प्रकार असमानता फलन की पसंद के रूप में P से Q के कुल्बैक-लीब्लर डाइवर्जेंस (केएल-डाइवर्जेंस) का उपयोग करता है। यह विकल्प इस न्यूनतमकरण को सुव्यवस्थित बनाता है। केएल-विचलन को इस प्रकार परिभाषित किया गया है

D_{\mathrm {KL} }(Q\parallel P)\triangleq \sum _{\mathbf {Z} }Q(\mathbf {Z} )\log {\frac {Q(\mathbf {Z} )}{P(\mathbf {Z} \mid \mathbf {X} )}}.

ध्यान दें कि Q और P किसी की अपेक्षा से विपरीत हैं। विपरीते केएल-विचलन का यह उपयोग अवधारणात्मक रूप से अपेक्षा-अधिकतमकरण एल्गोरिदम के समान होता है। (केएल-डाइवर्जेंस का दूसरे तरीके से उपयोग करने से अपेक्षा प्रसार एल्गोरिदम उत्पन्न होता है।)

दुरूहता

विभिन्न विधियों का उपयोग सामान्यतः इसका अनुमान लगाने के लिए किया जाता है:

P(\mathbf {Z} \mid \mathbf {X} )={\frac {P(\mathbf {X} \mid \mathbf {Z} )P(\mathbf {Z} )}{P(\mathbf {X} )}}={\frac {P(\mathbf {X} \mid \mathbf {Z} )P(\mathbf {Z} )}{\int _{\mathbf {Z} }P(\mathbf {X} ,\mathbf {Z} ')\,d\mathbf {Z} '}}

प्रत्येक में $P(\mathbf {X} )$ की गणना करने के लिए $\mathbf {Z}$ से अधिक का मर्गिनाल्स पर जाना सामान्यतः कठिन है, क्योंकि, उदाहरण के लिए, $\mathbf {Z}$ कि खोज समिष्ट संयुक्त रूप से बड़ी होती है। इसलिए, हम $Q(\mathbf {Z} )\approx P(\mathbf {Z} \mid \mathbf {X} )$ का उपयोग करके अनुमान करना चाहते हैं।

साक्ष्य निचली सीमा

मान लें कि $P(\mathbf {Z} \mid \mathbf {X} )={\frac {P(\mathbf {X} ,\mathbf {Z} )}{P(\mathbf {X} )}}$ , उपरोक्त केएल-विचलन को इस प्रकार भी लिखा जा सकता है |

D_{\mathrm {KL} }(Q\parallel P)=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log {\frac {Q(\mathbf {Z} )}{P(\mathbf {Z} ,\mathbf {X} )}}+\log P(\mathbf {X} )\right]=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log P(\mathbf {X} )\right]

क्योंकि $P(\mathbf {X} )$ के संबंध में स्थिरांक $\mathbf {Z}$ है और $\sum _{\mathbf {Z} }Q(\mathbf {Z} )=1$ क्योंकि $Q(\mathbf {Z} )$ वितरण है, जो कि हमारे समीप है

D_{\mathrm {KL} }(Q\parallel P)=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\log P(\mathbf {X} )

जिसे अपेक्षित मान की परिभाषा के अनुसार (एक असतत यादृच्छिक वेरिएबल के लिए) निम्नानुसार लिखा जा सकता है

D_{\mathrm {KL} }(Q\parallel P)=\mathbb {E} _{\mathbf {Q} }\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\log P(\mathbf {X} )

जिसे पुनर्व्यवस्थित करके बनाया जा सकता है |

\log P(\mathbf {X} )=D_{\mathrm {KL} }(Q\parallel P)-\mathbb {E} _{\mathbf {Q} }\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]=D_{\mathrm {KL} }(Q\parallel P)+{\mathcal {L}}(Q)

चूंकि लॉग-साक्ष्य $\log P(\mathbf {X} )$ $Q$ के संबंध में निश्चित किया गया है, अंतिम पद ${\mathcal {L}}(Q)$ को अधिकतम करने से $P$ से $Q$ . का केएल विचलन कम हो जाता है। $Q$ के उचित विकल्प द्वारा, $Q$ , ${\mathcal {L}}(Q)$ सुव्यवस्थित हो जाता है इसका कार्य गणना करना और अधिकतम करना होता हैं। इसलिए हमारे समीप पश्च $P(\mathbf {Z} \mid \mathbf {X} )$ के लिए विश्लेषणात्मक सन्निकटन और लॉग-साक्ष्य $\log P(\mathbf {X} )$ के लिए निचली सीमा ${\mathcal {L}}(Q)$ दोनों हैं (चूंकि केएल-विचलन गैर-नकारात्मक है)।

निचली सीमा ${\mathcal {L}}(Q)$ इसे थर्मोडायनामिक मुक्त ऊर्जा के अनुरूप (ऋणात्मक) परिवर्तनशील मुक्त ऊर्जा के रूप में जाना जाता है क्योंकि इसे ऋणात्मक ऊर्जा के रूप में भी व्यक्त किया जा सकता है | यह $\operatorname {E} _{Q}[\log P(\mathbf {Z} ,\mathbf {X} )]$ प्लस $Q$ एन्ट्रॉपी (सूचना सिद्धांत) हैं। शब्द ${\mathcal {L}}(Q)$ इसे एविडेंस लोअर बाउंड के रूप में भी जाना जाता है, जिसे संक्षेप में एविडेंस लोअर बाउंड के रूप में जाना जाता है, इस बात पर जोर देने के लिए कि यह डेटा के लॉग-एविडेंस पर निचला बाउंड है।

प्रमाण

ब्रेगमैन विचलन के सामान्यीकृत पायथागॉरियन प्रमेय द्वारा, जिसमें केएल-विचलन विशेष स्तिथि होती है, इसमें यह दिखाया जा सकता है कि ^[1] ^[2]

ब्रेगमैन विचलन के लिए सामान्यीकृत पाइथागोरस प्रमेय^[2]

: $D_{\mathrm {KL} }(Q\parallel P)\geq D_{\mathrm {KL} }(Q\parallel Q^{*})+D_{\mathrm {KL} }(Q^{*}\parallel P),\forall Q^{*}\in {\mathcal {C}}$

जहाँ ${\mathcal {C}}$ उत्तल समुच्चय है और समानता जब क्रियान्वित रहती है यदि:

Q=Q^{*}\triangleq \arg \min _{Q\in {\mathcal {C}}}D_{\mathrm {KL} }(Q\parallel P).

इस स्थितियों में, वैश्विक न्यूनतमकर्ता $Q^{*}(\mathbf {Z} )=q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})q^{*}(\mathbf {Z} _{2})=q^{*}(\mathbf {Z} _{2}\mid \mathbf {Z} _{1})q^{*}(\mathbf {Z} _{1}),$ साथ $\mathbf {Z} =\{\mathbf {Z_{1}} ,\mathbf {Z_{2}} \},$ इस प्रकार पाया जा सकता है | ^[1]

q^{*}(\mathbf {Z} _{2})={\frac {P(\mathbf {X} )}{\zeta (\mathbf {X} )}}{\frac {P(\mathbf {Z} _{2}\mid \mathbf {X} )}{\exp(D_{\mathrm {KL} }(q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})\parallel P(\mathbf {Z} _{1}\mid \mathbf {Z} _{2},\mathbf {X} )))}}={\frac {1}{\zeta (\mathbf {X} )}}\exp \mathbb {E} _{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}\left(\log {\frac {P(\mathbf {Z} ,\mathbf {X} )}{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}}\right),

जिसमें सामान्यीकरण स्थिरांक है |

\zeta (\mathbf {X} )=P(\mathbf {X} )\int _{\mathbf {Z} _{2}}{\frac {P(\mathbf {Z} _{2}\mid \mathbf {X} )}{\exp(D_{\mathrm {KL} }(q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})\parallel P(\mathbf {Z} _{1}\mid \mathbf {Z} _{2},\mathbf {X} )))}}=\int _{\mathbf {Z} _{2}}\exp \mathbb {E} _{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}\left(\log {\frac {P(\mathbf {Z} ,\mathbf {X} )}{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}}\right).

शब्द $\zeta (\mathbf {X} )$ व्यवहार में इसे अधिकांशतः मॉडल एविडेंस लोअर बाउंड (ईएलबीओ) कहा जाता है क्योंकि $P(\mathbf {X} )\geq \zeta (\mathbf {X} )=\exp({\mathcal {L}}(Q^{*}))$ ,^[1] जैसा कि उपर दिखाया गया है।

$\mathbf {Z} _{1}$ और $\mathbf {Z} _{2},$ की भूमिकाओं का परिवर्तन करके हम क्रमशः अनुमानित रूप से $q^{*}(\mathbf {Z} _{1})$ और $q^{*}(\mathbf {Z} _{2})$ और $P(\mathbf {Z} _{1}\mid \mathbf {X} )$ और $P(\mathbf {Z} _{2}\mid \mathbf {X} ),$ पुनरावर्ती गणना कर सकते हैं | यद्यपि इस पुनरावृत्तीय योजना को नीरस रूप से अभिसरण करने की गारंटी है,^[1] एकत्रित $Q^{*}$ का केवल $D_{\mathrm {KL} }(Q\parallel P)$ स्थानीय मिनिमाइज़र होता है|

यदि विवश समिष्ट ${\mathcal {C}}$ स्वतंत्र समिष्ट के अंदर ही सीमित है, अर्थात $q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})=q^{*}(\mathbf {Z_{1}} ),$ उपरोक्त पुनरावृत्तीय योजना तथाकथित माध्य क्षेत्र सन्निकटन बन जाएगी $Q^{*}(\mathbf {Z} )=q^{*}(\mathbf {Z} _{1})q^{*}(\mathbf {Z} _{2}),$ जैसा कि नीचे दिया गया है।

माध्य क्षेत्र सन्निकटन

परिवर्तनशील वितरण $Q(\mathbf {Z} )$ सामान्यतः यह माना जाता है कि अव्यक्त वेरिएबल के समुच्चय के कुछ विभाजन पर कारक बनाया जाता है, अर्थात अव्यक्त वेरिएबल के कुछ विभाजन के लिए $\mathbf {Z}$ में $\mathbf {Z} _{1}\dots \mathbf {Z} _{M}$ सम्मिलित होता हैं |

Q(\mathbf {Z} )=\prod _{i=1}^{M}q_{i}(\mathbf {Z} _{i}\mid \mathbf {X} )

इसे विविधताओं की गणना (इसलिए नाम वेरिएबल बेयस) का उपयोग करके दिखाया जा सकता है कि सबसे अच्छा वितरण $q_{j}^{*}$ प्रत्येक कारक के लिए $q_{j}$ (वितरण के संदर्भ में केएल विचलन को न्यूनतम करना, जैसा कि ऊपर वर्णित है) संतुष्ट करता है |

q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )={\frac {e^{\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]}}{\int e^{\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]}\,d\mathbf {Z} _{j}}}

जहाँ $\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]$ डेटा और अव्यक्त वेरिएबल की संयुक्त संभावना के लघुगणक का अपेक्षित मूल्य होता है, जिसके संबंध में $q^{*}$ लिया गया है | जिसके विभाजन में उपस्तिथ सभी वेरिएबल्स पर: लेम्मा 4.1 का संदर्भ लिया जाता हैं | ^[3] यह $q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )$ वितरण की व्युत्पत्ति के लिए किया जाता है |

व्यवहार में, हम सामान्यतः लघुगणक के संदर्भ में कार्य करते हैं, अर्थात:

\ln q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )=\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]+{\text{constant}}

उपरोक्त अभिव्यक्ति में स्थिरांक सामान्यीकृत स्थिरांक (उपरोक्त अभिव्यक्ति में प्रत्येक) $q_{j}^{*}$ से संबंधित है ) और सामान्यतः निरीक्षण द्वारा पुनः स्थापित किया जाता है, क्योंकि अभिव्यक्ति के शेष भागों को सामान्यतः ज्ञात प्रकार के वितरण (जैसे गाऊसी वितरण, गामा वितरण, आदि) के रूप में पहचाना जा सकता है।

अपेक्षाओं के गुणों का प्रयोग, अभिव्यक्ति $\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]$ सामान्यतः अव्यक्त वेरिएबल और अपेक्षाओं (और कभी-कभी उच्चतर क्षण (गणित) जैसे विचरण) पर पूर्व वितरण के निश्चित हाइपरपैरामीटर के फलन में सरलीकृत किया जा सकता है, जो कि वर्तमान विभाजन $\mathbf {Z} _{j}$ में नहीं होता है (अर्थात अव्यक्त वेरिएबल सम्मिलित नहीं हैं) में ) हैं | यह विभाजन में वेरिएबल पर वितरण के मापदंडों और अन्य विभाजन में वेरिएबल की अपेक्षाओं के मध्य परिपत्र निर्भरता बनाता है। यह स्वाभाविक रूप से ईएम (अपेक्षा-अधिकतमकरण एल्गोरिदम) की प्रकार पुनरावृत्त एल्गोरिदम का सुझाव देता है, जिसमें अव्यक्त वेरिएबल की अपेक्षाओं (और संभवतः उच्च क्षणों) को कुछ फैशन में (संभवतःयादृच्छिक रूप से) प्रारंभ किया जाता है, और फिर प्रत्येक वितरण के पैरामीटर होते हैं तथा अपेक्षाओं के वर्तमान मानों का उपयोग करके बारी-बारी से गणना की जाती है, जिसके पश्चात् गणना किए गए मापदंडों के अनुसार नए गणना किए गए वितरण की अपेक्षा उचित रूप से निर्धारित की जाती है। इस प्रकार का एल्गोरिदम अनुक्रम की सीमा की गारंटी देता है। ^[4]

दूसरे शब्दों में, वेरिएबल के प्रत्येक विभाजन के लिए, विभाजन के वेरिएबल पर वितरण के लिए अभिव्यक्ति को सरल बनाकर और प्रश्न में वेरिएबल पर वितरण की कार्यात्मक निर्भरता की जांच करके, वितरण का वर्ग सामान्यतः निर्धारित किया जा सकता है (जो इसके स्थान में निर्धारित करता है) स्थिरांक का मान) हैं। वितरण के मापदंडों का सूत्र पूर्व वितरणों के हाइपरपैरामीटर (जो ज्ञात स्थिरांक हैं) के संदर्भ में व्यक्त किया जाता हैं, किन्तु अन्य विभाजनों में वेरिएबल के कार्यों की अपेक्षाओं के संदर्भ में भी व्यक्त किया जाएगा। सामान्यतः इन अपेक्षाओं को स्वयं वेरिएबलों की अपेक्षाओं के कार्यों में सरलीकृत किया जा सकता है (अर्थात साधन); कभी-कभी वर्गाकार वेरिएबलों की अपेक्षाएं (जो वेरिएबलों के विचरण से संबंधित हो सकती हैं), या उच्च शक्तियों (अर्थात उच्चतर क्षण (गणित)) की अपेक्षाएं भी प्रकट होती हैं। अधिकतर स्थितियों में, अन्य वेरिएबल का वितरण ज्ञात वर्ग से होता हैं, और प्रासंगिक अपेक्षाओं के लिए सूत्रों को देखा जा सकता है। चूँकि, वह सूत्र उन वितरण मापदंडों पर निर्भर करते हैं, जो इसके स्थान में अन्य वेरिएबल के बारे में अपेक्षाओं पर निर्भर करते हैं। इसका परिणाम यह है कि प्रत्येक वेरिएबल के वितरण के मापदंडों के सूत्रों को वेरिएबल के मध्य पारस्परिक, गैर-रेखीय निर्भरता वाले समीकरणों की श्रृंखला के रूप में व्यक्त किया जा सकता है। सामान्यतः, समीकरणों की इस प्रणाली को सीधे समाधान करना संभव नहीं है। चूँकि, जैसा कि ऊपर बताया गया है, निर्भरताएँ सरल पुनरावृत्त एल्गोरिथ्म का सुझाव देती हैं, जो अधिकतर स्थितियों में अभिसरण की गारंटी देता है। उदाहरण से यह प्रक्रिया और स्पष्ट हो जाटी हैं |

परिवर्तनात्मक अनुमान के लिए द्वैत सूत्र

द्वैत सूत्र द्वारा समन्वय आरोहण परिवर्तनीय अनुमान एल्गोरिथ्म का सचित्र चित्रण^[3]

निम्नलिखित प्रमेय को परिवर्तनशील अनुमान के लिए द्वैत सूत्र के रूप में जाना जाता है। ^[3] यह वैरिएबल बेयस विधियों में उपयोग किए जाने वाले वैरिएबल वितरण के कुछ महत्वपूर्ण गुणों की व्याख्या करता है।

प्रमेय दो संभाव्यता समिष्ट $(\Theta ,{\mathcal {F}},P)$ और $(\Theta ,{\mathcal {F}},Q)$ के साथ $Q\ll P$ पर विचार करें मान लें कि सामान्य प्रभावी संभाव्यता माप $\lambda$ होती है जैसे है कि $P\ll \lambda$ और $Q\ll \lambda$ . मान लीजिये कि $h$ $(\Theta ,{\mathcal {F}},P)$ पर किसी भी वास्तविक-मूल्यवान यादृच्छिक वेरिएबल को निरूपित करें जो $h\in L_{1}(P)$ संतुष्ट करता है | तब निम्नलिखित समानता क्रियान्वित रहती है |

\log E_{P}[\exp h]={\text{sup}}_{Q\ll P}\{E_{Q}[h]-D_{\text{KL}}(Q\parallel P)\}.

इसके अतिरिक्त, दाहिनी ओर का सर्वोच्च तभी प्राप्त होता है जब वह क्रियान्वित रहता है

{\frac {q(\theta )}{p(\theta )}}={\frac {\exp h(\theta )}{E_{P}[\exp h]}},

संभाव्यता माप $Q$ के संबंध में लगभग निश्चित रूप से , जहाँ $p(\theta )=dP/d\lambda$ और $q(\theta )=dQ/d\lambda$ क्रमश $\lambda$ के संबंध में संभाव्यता माप $P$ और $Q$ के रेडॉन-निकोडिम डेरिवेटिव को निरूपित करते है |

एक मूलभूत उदाहरण

एक सरल गैर-पदानुक्रमित बायेसियन मॉडल पर विचार करें जिसमें स्वतंत्र रूप से वितरित i.i.d. का समुच्चय सम्मिलित है। तथा अज्ञात माध्य और विचरण के साथ गॉसियन वितरण से अवलोकन भी सम्मिलित हो सकते हैं। ^[5] निम्नलिखित में, हम इस मॉडल के माध्यम से वेरिएबल बेयस विधि की कार्यप्रणाली को स्पष्ट करने के लिए विस्तार से कार्य करते हैं।

गणितीय सुविधा के लिए, निम्नलिखित उदाहरण में हम परिशुद्धता (सांख्यिकी) के संदर्भ में कार्य करते हैं - अर्थात विचरण का व्युत्क्रम हो (या बहुभिन्नरूपी गॉसियन में, सहप्रसरण आव्युह का व्युत्क्रम) - न कि स्वयं विचरण हो । (सैद्धांतिक दृष्टिकोण से, परिशुद्धता और भिन्नता समतुल्य होती हैं क्योंकि दोनों के मध्य वन-से-वन पत्राचार है।)

गणितीय मॉडल

हम संयुग्मित पूर्व वितरणों को अज्ञात माध्य $\mu$ और परिशुद्धता $\tau$ पर रखते हैं अर्थात माध्य भी गाऊसी वितरण का अनुसरण करता है जबकि दूसरे शब्दों में परिशुद्धता गामा वितरण का अनुसरण करती है।

{\begin{aligned}\tau &\sim \operatorname {Gamma} (a_{0},b_{0})\\\mu |\tau &\sim {\mathcal {N}}(\mu _{0},(\lambda _{0}\tau )^{-1})\\\{x_{1},\dots ,x_{N}\}&\sim {\mathcal {N}}(\mu ,\tau ^{-1})\\N&={\text{number of data points}}\end{aligned}}

पूर्व वितरणों में हाइपर पैरामीटर $\mu _{0},\lambda _{0},a_{0}$ और $b_{0}$ मान दिए जाते हैं | जिसमे $\mu$ और $\tau$ . के पूर्व में वितरण निश्चित होते हैं, जो पूर्व वितरणों के बारे में अज्ञानता का संकेत देते हैं तथा व्यापक पूर्व वितरण देने के लिए उन्हें लघु धनात्मक संख्याओं पर समुच्चय किया जा सकता है |

हम $N$ डेटा पॉइंट $\mathbf {X} =\{x_{1},\ldots ,x_{N}\}$ दे रहे हैं और हमारा लक्ष्य पश्च वितरण $q(\mu ,\tau )=p(\mu ,\tau \mid x_{1},\ldots ,x_{N})$ का अनुमान लगाना है मापदंडों का $\mu$ और $\tau .$ होता हैं |

संयुक्त संभावना

सभी वेरिएबलों की संयुक्त प्रायिकता को इस प्रकार पुनः लिखा जा सकता है

p(\mathbf {X} ,\mu ,\tau )=p(\mathbf {X} \mid \mu ,\tau )p(\mu \mid \tau )p(\tau )

जहां व्यक्तिगत कारक हैं

{\begin{aligned}p(\mathbf {X} \mid \mu ,\tau )&=\prod _{n=1}^{N}{\mathcal {N}}(x_{n}\mid \mu ,\tau ^{-1})\\p(\mu \mid \tau )&={\mathcal {N}}\left(\mu \mid \mu _{0},(\lambda _{0}\tau )^{-1}\right)\\p(\tau )&=\operatorname {Gamma} (\tau \mid a_{0},b_{0})\end{aligned}}

जहाँ

{\begin{aligned}{\mathcal {N}}(x\mid \mu ,\sigma ^{2})&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}\\\operatorname {Gamma} (\tau \mid a,b)&={\frac {1}{\Gamma (a)}}b^{a}\tau ^{a-1}e^{-b\tau }\end{aligned}}

गुणनखंडित सन्निकटन

यह मान लीजिए $q(\mu ,\tau )=q(\mu )q(\tau )$ , अर्थात कि पश्च वितरण $\mu$ और $\tau$ के लिए स्वतंत्र कारकों में विभाजित होता है | इस प्रकार की धारणा वैरिएबल बायेसियन पद्धति को रेखांकित करती है। वास्तविक पश्च वितरण वास्तव में इस प्रकार से कारक नहीं होता है (वास्तव में, इस साधारण स्थितियां में, इसे गाऊसी-गामा वितरण के रूप में जाना जाता है), और इसलिए हम जो परिणाम प्राप्त करेंगे उसे अनुमान कहा जाता हैं।

की व्युत्पत्ति $q (μ)$

तब

\begin{aligned} \ln q_{μ}^{*} (μ) & = E_{τ} [\ln p (X ∣ μ, τ) + \ln p (μ ∣ τ) + \ln p (τ)] + C \\ = E_{τ} [\ln p (X ∣ μ, τ)] + E_{τ} [\ln p (μ ∣ τ)] + E_{τ} [\ln p (τ)] + C \\ = E_{τ} [\ln \prod_{n = 1}^{N} N (x_{n} ∣ μ, τ^{- 1})] + E_{τ} [\ln N (μ ∣ μ_{0}, {(λ_{0} τ)}^{- 1})] + C_{2} \\ = E_{τ} [\ln \prod_{n = 1}^{N} \sqrt{\frac{τ}{2 π}} e^{- \frac{{(x_{n} - μ)}^{2} τ}{2}}] + E_{τ} [\ln \sqrt{\frac{λ_{0} τ}{2 π}} e^{- (μ - μ_{}} \end{aligned}

उपरोक्त व्युत्पत्ति में,

C

,

C_{2}

और

C_{3}

उन मानों को संदर्भित करें जो

\mu

के संबंध में स्थिर होते हैं. ध्यान दें कि शब्द

\operatorname {E} _{\tau }[\ln p(\tau )]

\mu

का कार्य नहीं है और

\mu

के मूल्य की चिंता किए बिना उसका मूल्य समान होता हैं | इसलिए पंक्ति 3 में हम इसे अंत में स्थिर पद में समाहित कर सकते हैं। हम पंक्ति 7 में भी यही कार्य करते हैं।

अंतिम पंक्ति $\mu$ में बस द्विघात बहुपद है . चूँकि यह $q_{\mu }^{*}(\mu )$ का लघुगणक है, हम देख सकते हैं कि $q_{\mu }^{*}(\mu )$ स्वयं गाऊसी वितरण है।

एक निश्चित मात्रा में कठिन गणित के साथ (ब्रेसिज़ के अंदर के वर्गों का विस्तार करना, $\mu$ और $\mu ^{2}$ से सम्मिलित शब्दों को भिन्न करना और समूहीकृत करना और $\mu$ पर वर्ग पूरा करना ), हम गाऊसी वितरण के पैरामीटर प्राप्त कर सकते हैं:

\begin{aligned} \ln q_{μ}^{*} (μ) & = - \frac{E_{τ} [τ]}{2} {\sum_{n = 1}^{N} {(x_{n} - μ)}^{2} + λ_{0} {(μ - μ_{0})}^{2}} + C_{3} \\ = - \frac{E_{τ} [τ]}{2} {\sum_{n = 1}^{N} (x_{n}^{2} - 2 x_{n} μ + μ^{2}) + λ_{0} (μ^{2} - 2 μ_{0} μ + μ_{0}^{2})} + C_{3} \\ = - \frac{E_{τ} [τ]}{2} {(\sum_{n = 1}^{N} x_{n}^{2}) - 2 (\sum_{n = 1}^{N} x_{n}) μ + (\sum_{n = 1}^{N} μ^{2}) + λ_{0} μ^{2} - 2 λ_{0} μ_{0} μ + λ_{0} μ_{0}^{2}} + C_{3} \\ = - \frac{E_{τ} [τ]}{2} {(λ_{} \end{aligned}

ध्यान दें कि उपरोक्त सभी चरणों को सामान्य वितरण या दो द्विघातों के योग के सूत्र का उपयोग करके छोटा किया जा सकता है। दूसरे शब्दों में:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

की व्युत्पत्ति $q(τ)$

उपरोक्त की व्युत्पत्ति $q_{\tau }^{*}(\tau )$ के समान है, चूँकि हम संक्षिप्तता के लिए कुछ विवरण छोड़ देते हैं।

{\begin{aligned}\ln q_{\tau }^{*}(\tau )&=\operatorname {E} _{\mu }[\ln p(\mathbf {X} \mid \mu ,\tau )+\ln p(\mu \mid \tau )]+\ln p(\tau )+{\text{constant}}\\&=(a_{0}-1)\ln \tau -b_{0}\tau +{\frac {1}{2}}\ln \tau +{\frac {N}{2}}\ln \tau -{\frac {\tau }{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]+{\text{constant}}\end{aligned}}

दोनों पक्षों को घातांकित करने पर हम यह देख सकते हैं कि $q_{\tau }^{*}(\tau )$ गामा वितरण है. विशेष रूप से:

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

पैरामीटर की गणना के लिए एल्गोरिदम

आइए हम पूर्व अनुभागों के निष्कर्षों का पुनर्कथन करें:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

और

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

प्रत्येक स्थितियों में, किसी वेरिएबल पर वितरण के पैरामीटर दूसरे वेरिएबल के संबंध में ली गई अपेक्षाओं पर निर्भर करते हैं। हम गॉसियन और गामा वितरण के क्षणों की अपेक्षाओं के लिए मानक सूत्रों का उपयोग करके अपेक्षाओं का विस्तार कर सकते हैं:

{\begin{aligned}\operatorname {E} [\tau \mid a_{N},b_{N}]&={\frac {a_{N}}{b_{N}}}\\\operatorname {E} \left[\mu \mid \mu _{N},\lambda _{N}^{-1}\right]&=\mu _{N}\\\operatorname {E} \left[X^{2}\right]&=\operatorname {Var} (X)+(\operatorname {E} [X])^{2}\\\operatorname {E} \left[\mu ^{2}\mid \mu _{N},\lambda _{N}^{-1}\right]&=\lambda _{N}^{-1}+\mu _{N}^{2}\end{aligned}}

इन सूत्रों को उपरोक्त समीकरणों पर प्रयुक्त करना अधिकतर स्थितियों में साधारण है, किन्तु समीकरण के लिए $b_{N}$ अधिक कार्य लेता है:

\begin{aligned} b_{N} & = b_{0} + \frac{1}{2} E_{μ} [\sum_{n = 1}^{N} {(x_{n} - μ)}^{2} + λ_{0} {(μ - μ_{0})}^{2}] \\ = b_{0} + \frac{1}{2} E_{μ} [(λ_{0} + N) μ^{2} - 2 (λ_{0} μ_{0} + \sum_{n = 1}^{N} x_{n}) μ + (\sum_{n = 1}^{N} x_{n}^{2}) + λ_{0} μ_{0}^{2}] \\ = b_{0} + \frac{1}{2} [(λ_{0} + N) E_{μ} [μ^{2}] - 2 (λ_{0} μ_{0} + \sum_{n = 1}^{N} x_{n}) E_{μ} [μ] + (\sum_{n = 1}^{N} x_{n}^{2}) + λ_{0} μ_{0}^{2}] \\ = b_{0} + \frac{1}{2} [(λ_{0} + N) (λ_{N}^{- 1} + μ_{N}^{2}) - 2 (λ_{0} μ_{0} + \sum_{n = 1}^{} \end{aligned}

फिर हम पैरामीटर समीकरणों को बिना किसी अपेक्षा के इस प्रकार लिख सकते हैं:

{\begin{aligned}\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N){\frac {a_{N}}{b_{N}}}\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\left(\lambda _{N}^{-1}+\mu _{N}^{2}\right)-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu _{N}+\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\end{aligned}}

ध्यान दें कि $\lambda _{N}$ और $b_{N}$ सूत्रों के मध्य चक्रीय निर्भरताएँ हैं . यह स्वाभाविक रूप से अपेक्षा-अधिकतमकरण ईएम जैसा एल्गोरिदम का सुझाव देता है:

$\sum _{n=1}^{N}x_{n}$ और $\sum _{n=1}^{N}x_{n}^{2}$ गणना करें | $\mu _{N}$ और $a_{N}$ गणना करने के लिए इन मानों का उपयोग किया जाता है |
कुछ इच्छानुसार मूल्य के लिए $\lambda _{N}$ प्रारंभ करें.
$b_{N}$ की गणना करने के लिए अन्य मापदंडों के ज्ञात मानों के साथ $\lambda _{N},$ के वर्तमान मान का उपयोग करें .
$\lambda _{N}$ की गणना करने के लिए अन्य मापदंडों के ज्ञात मानों के साथ $b_{N},$ के वर्तमान मान का उपयोग करें.
अंतिम दो चरणों को अभिसरण होने तक दोहराएँ (अर्थात जब तक कि कोई भी मान कुछ लघु राशि से अधिक न बदल जाए)।

फिर हमारे समीप पश्च मापदंडों के अनुमानित वितरण के हाइपरपैरामीटर के लिए मान हैं, जिनका उपयोग हम पश्च भाग के किसी भी गुण की गणना करने के लिए कर सकते हैं - उदाहरण के लिए इसका माध्य और विचरण, 95% उच्चतम-घनत्व क्षेत्र (सबसे छोटा अंतराल जिसमें कुल संभावना का 95% सम्मिलित है), आदि।

यह दिखाया जा सकता है कि यह एल्गोरिदम स्थानीय अधिकतम में परिवर्तित होने की गारंटी देता है।

यह भी ध्यान दें कि पूर्व वितरणों का स्वरूप संबंधित पूर्व वितरणों के समान ही है। हमने यह नहीं माना कि हमने जो एकमात्र धारणा बनाई वह यह थी कि वितरण गुणनखंडित होते हैं, और वितरण का स्वरूप स्वाभाविक रूप से अनुसरण किया जाता है। यह पता चला है (नीचे देखें) कि तथ्य यह है कि पूर्व वितरणों का रूप पूर्व वितरणों के समान है, यह कोई संयोग नहीं है, किंतु सामान्य परिणाम है जब भी पूर्व वितरण घातीय वर्ग के सदस्य होते हैं, जो कि अधिकांश मानक वितरणों के लिए स्तिथि है .

आगे की चर्चा

स्टेप-बाय-स्टेप रेसिपी

उपरोक्त उदाहरण उस विधि को दर्शाता है जिसके द्वारा किसी दिए गए बायेसियन नेटवर्क में पश्च संभाव्यता घनत्व के लिए वैरिएबल-बायेसियन सन्निकटन प्राप्त किया जाता है:

ग्राफ़िकल मॉडल के साथ नेटवर्क का वर्णन करें, देखे गए वेरिएबल (डेटा) $\mathbf {X}$ और न देखे गए वेरिएबल (पैरामीटर) ${\boldsymbol {\Theta }}$ और अव्यक्त वेरिएबल $\mathbf {Z}$ ) और उनके सशर्त संभाव्यता वितरण की पहचान करें। वेरिएशनल बेज़ इसके पश्चात् पश्च संभाव्यता $p(\mathbf {Z} ,{\boldsymbol {\Theta }}\mid \mathbf {X} )$ का अनुमान तैयार करेंगे |. सन्निकटन की मूल संपत्ति यह है कि यह गुणनखंडित वितरण है, अर्थात न देखे गए वेरिएबल के असंयुक्त उपसमुच्चय पर दो या दो से अधिक सांख्यिकीय स्वतंत्रता वितरण का उत्पाद है।
न देखे गए वेरिएबलों को दो या दो से अधिक उपसमूहों में विभाजित करें, जिन पर स्वतंत्र कारक प्राप्त किए जाएंगे। ऐसा करने की कोई सार्वभौमिक प्रक्रिया नहीं है; बहुत अधिक उपसमुच्चय बनाने से खराब सन्निकटन प्राप्त होता है, जबकि बहुत कम उपसमुच्चय बनाने से संपूर्ण परिवर्तनशील बेयस प्रक्रिया कठिन हो जाती है। सामान्यतः, पहला विभाजन पैरामीटर और अव्यक्त वेरिएबल को भिन्न करने के लिए होता है; अधिकांशतः, यह अपने आप में सुगम परिणाम उत्पन्न करने के लिए पर्याप्त होता है। मान लें कि विभाजन $\mathbf {Z} _{1},\ldots ,\mathbf {Z} _{M}$ कहा जाता हैं .
किसी दिए गए विभाजन $\mathbf {Z} _{j}$ के लिए , मूल समीकरण $\ln q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )=\operatorname {E} _{i\neq j}[\ln p(\mathbf {Z} ,\mathbf {X} )]+{\text{constant}}$ का उपयोग करके सर्वोत्तम अनुमानित वितरण $q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )$ के लिए सूत्र लिखें .
ग्राफ़िकल मॉडल का उपयोग करके संयुक्त संभाव्यता वितरण के लिए सूत्र भरें। कोई भी घटक सशर्त वितरण जिसमें $\mathbf {Z} _{j}$ कोई भी वेरिएबल सम्मिलित नहीं है नजरअंदाज किया जा सकता है; उन्हें स्थिर अवधि में जोड़ दिया जाएगा।
उपरोक्त उदाहरण का अनुसरण करते हुए सूत्र को सरल बनाएं और अपेक्षा ऑपरेटर प्रयुक्त करें। आदर्श रूप से, इसे वेरिएबल $\mathbf {Z} _{j}$ के मूलभूत कार्यों की अपेक्षाओं में सरलीकृत नहीं किया जाना चाहिए (जैसे पसमाधाना या दूसरा कच्चा क्षण (गणित), लघुगणक की अपेक्षा, आदि)। वेरिएबल बेयस प्रक्रिया को अच्छी प्रकार से कार्य करने के लिए, इन अपेक्षाओं को सामान्यतः इन वेरिएबल के वितरण के मापदंडों और/या हाइपरपैरामीटर के कार्यों के रूप में विश्लेषणात्मक रूप से व्यक्त किया जाना चाहिए। सभी स्थितियों में, यह अपेक्षा शर्तें वर्तमान विभाजन में वेरिएबल के संबंध में स्थिरांक हैं।
वर्तमान विभाजन में वेरिएबल के संबंध में सूत्र का कार्यात्मक रूप वितरण के प्रकार को निरुपित करता है। विशेष रूप से, सूत्र को घातांकित करने से वितरण की संभाव्यता घनत्व फलन (पीडीएफ) उत्पन्न होती है (या कम से कम, इसके लिए कुछ आनुपातिक, अज्ञात सामान्यीकरण स्थिरांक के साथ)। समग्र विधि को ट्रैक्टेबल बनाने के लिए उत्पन्न होती है, तथा इस ज्ञात वितरण से संबंधित कार्यात्मक रूप को पहचानना संभव होना चाहिए। सूत्र को ज्ञात वितरण के पीडीएफ से मेल खाने वाले रूप में बदलने के लिए महत्वपूर्ण गणितीय हेरफेर की आवश्यकता हो सकती है। जब यह किया जा सकता है, तब सामान्यीकरण स्थिरांक को परिभाषा द्वारा पुनः स्थापित किया जा सकता है, और ज्ञात वितरण के मापदंडों के लिए समीकरण सूत्र के उचित भागों को निकालकर प्राप्त किया जा सकता है।
जब सभी अपेक्षाओं को विश्लेषणात्मक रूप से उन वेरिएबलों के कार्यों से बदला जा सकता है जो वर्तमान विभाजन में नहीं हैं, और पीडीएफ को ऐसे रूप में रखा जाता है जो ज्ञात वितरण के साथ पहचान की अनुमति देता है, तब परिणाम समीकरणों का समुच्चय होता है जो इष्टतम मापदंडों के मानों को अन्य विभाजनों में वेरिएबल के पैरामीटर के कार्यों के रूप में व्यक्त करता है ।
जब इस प्रक्रिया को सभी विभाजनों पर प्रयुक्त किया जा सकता है, तब परिणाम सभी मापदंडों के इष्टतम मानों को निर्दिष्ट करने वाले परस्पर जुड़े समीकरणों का समुच्चय होता है।
फिर अपेक्षा अधिकतमीकरण (ईएम) प्रकार की प्रक्रिया प्रयुक्त की जाती है, प्रत्येक पैरामीटर के लिए प्रारंभिक मान चुना जाता है और चरणों की श्रृंखला के माध्यम से पुनरावृत्ति की जाती है, जहां प्रत्येक चरण में हम समीकरणों के माध्यम से चक्र करते हैं, प्रत्येक पैरामीटर को बारी-बारी से अपडेट करते हैं। यह जुटने की गारंटी है.

सबसे महत्वपूर्ण बिंदु

इसमें सम्मिलित सभी गणितीय जोड़-तोड़ों के कारण, बड़ी तस्वीर का ध्यान भटकाना आसान है। महत्वपूर्ण बातें यह हैं:

वैरिएबल बेयस का विचार डेटा को देखते हुए, न देखे गए वेरिएबल (पैरामीटर और अव्यक्त वेरिएबल ) के समुच्चय की पूर्व संभावना के लिए विश्लेषणात्मक सन्निकटन का निर्माण करना है। इसका कारण यह है कि समाधान का रूप अन्य बायेसियन अनुमान विधियों के समान है, जैसे कि गिब्स प्रतिरूपीकरण - अर्थात वितरण जो वेरिएबल के बारे में ज्ञात प्रत्येक चीज का वर्णन करना चाहता है। जैसा कि अन्य बायेसियन विधियों में होता है - किन्तु उदाहरण के विपरीत। अपेक्षा अधिकतमीकरण (ईएम) या अन्य अधिकतम संभावना विधियों में - दोनों प्रकार के अप्राप्य वेरिएबल (अर्थात पैरामीटर और अव्यक्त वेरिएबल ) को समान माना जाता है, अर्थात यादृच्छिक वेरिएबल के रूप में माना जाता है । फिर वेरिएबलों का अनुमान मानक बायेसियन विधियों से प्राप्त किया जा सकता है, जैसे एकल बिंदु अनुमान प्राप्त करने के लिए वितरण के माध्य की गणना करना या विश्वसनीय अंतराल, उच्चतम घनत्व क्षेत्र आदि प्राप्त करना।
विश्लेषणात्मक सन्निकटन का अर्थ है कि पश्च वितरण के लिए सूत्र लिखा जा सकता है। सूत्र में सामान्यतः प्रसिद्ध संभाव्यता वितरण का उत्पाद सम्मिलित होता है, जिनमें से प्रत्येक न देखे गए वेरिएबल के समुच्चय पर कारक होता है (अर्थात, देखे गए डेटा को देखते हुए, यह अन्य वेरिएबल से सशर्त रूप से स्वतंत्र है)। यह सूत्र वास्तविक पश्च वितरण नहीं है, किंतु इसका अनुमान है; विशेष रूप से, यह सामान्यतः न देखे गए वेरिएबलों के निम्नतम क्षण (गणित) में अधिक निकटता से सहमत होगा, उदाहरण के लिए माध्य और विचरण.
सभी गणितीय जोड़-तोड़ों का परिणाम है (1) कारकों को बनाने वाले संभाव्यता वितरण की पहचान, और (2) इन वितरणों के मापदंडों के लिए परस्पर निर्भर सूत्र। इन मापदंडों के वास्तविक मानों की गणना ईएम की प्रकार वैकल्पिक पुनरावृत्त प्रक्रिया के माध्यम से संख्यात्मक रूप से की जाती है।

अपेक्षा अधिकतमकरण (ईएम) के साथ तुलना में

वेरिएशनल बेयस (वीबी) की तुलना अधिकांशतः अपेक्षा अधिकतमकरण (ईएम) से की जाती है। वास्तविक संख्यात्मक प्रक्रिया अधिक समान है, जिसमें दोनों वैकल्पिक पुनरावृत्त प्रक्रियाएं हैं जो क्रमिक रूप से इष्टतम पैरामीटर मानों पर एकत्रित होती हैं। संबंधित प्रक्रियाओं को प्राप्त करने के प्रारंभिक चरण भी अस्पष्ट रूप से समान हैं, दोनों संभाव्यता घनत्व के सूत्रों के साथ प्रारंभ होते हैं और दोनों में महत्वपूर्ण मात्रा में गणितीय जोड़-तोड़ सम्मिलित होते हैं।

चूँकि, इसमें अनेक अंतर हैं। सबसे महत्वपूर्ण यह है कि गणना क्या की जा रही है।

ईएम उन यादृच्छिक वेरिएबलों के पश्च वितरण के बिंदु अनुमानों की गणना करता है जिन्हें मापदंडों के रूप में वर्गीकृत किया जा सकता है, किन्तु केवल अव्यक्त वेरिएबल के वास्तविक पश्च वितरण का अनुमान (कम से कम नरम ईएम में, और अधिकांशतः केवल जब अव्यक्त वेरिएबल भिन्न होते हैं)। गणना किए गए बिंदु अनुमान इन मापदंडों के मोड (सांख्यिकी) हैं; कोई अन्य जानकारी उपलब्ध नहीं है.
दूसरी ओर, वीबी सभी वेरिएबल, दोनों मापदंडों और अव्यक्त वेरिएबल के वास्तविक पश्च वितरण के अनुमान की गणना करता है। जब बिंदु अनुमान प्राप्त करने की आवश्यकता होती है, तब सामान्यतः मोड के अतिरिक्त माध्य का उपयोग किया जाता है, जैसा कि बायेसियन अनुमान में सामान्य है। इसके साथ ही, वीबी में गणना किए गए मापदंडों का ईएम के समान महत्व नहीं है। ईएम बेयस नेटवर्क के मापदंडों के इष्टतम मानों की गणना स्वयं करता है। वीबी बेयस नेटवर्क के मापदंडों और अव्यक्त वेरिएबल का अनुमान लगाने के लिए उपयोग किए जाने वाले वितरण के मापदंडों के इष्टतम मानों की गणना करता है। उदाहरण के लिए, विशिष्ट गाऊसी मिश्रण मॉडल में प्रत्येक मिश्रण घटक के माध्य और विचरण के लिए पैरामीटर होंगे। ईएम सीधे इन मापदंडों के लिए इष्टतम मानों का अनुमान लगाएगा। चूँकि, वीबी पहले इन मापदंडों के अनुसार वितरण को फिट करेगा - सामान्यतः पूर्व वितरण के रूप में, उदाहरण के लिए। सामान्य-स्केल व्युत्क्रम गामा वितरण - और फिर इस पूर्व वितरण के मापदंडों के लिए मानों की गणना करेगा, अर्थात अनिवार्य रूप से हाइपरपैरामीटर में गणना की जाती है। इस स्थितियां में, वीबी सामान्य-स्केल व्युत्क्रम गामा वितरण के चार मापदंडों के इष्टतम अनुमानों की गणना करेगा जो घटक के माध्य और विचरण के संयुक्त वितरण का वर्णन करता है।

एक अधिक सम्मिश्र उदाहरण

प्लेट संकेतन का उपयोग करते हुए बायेसियन गॉसियन मिश्रण मॉडल। छोटे वर्ग निश्चित मापदंडों को दर्शाते हैं; बड़े वृत्त यादृच्छिक वेरिएबल दर्शाते हैं। भरी हुई आकृतियाँ ज्ञात मान दर्शाती हैं। संकेत [K] का अर्थ K आकार का सदिश है; [डी,डी] का अर्थ है डी×डी आकार का आव्युह; अकेले K का कारणK परिणामों के साथ श्रेणीगत वेरिएबल है। क्रॉसबार में समाप्त होने वाले z से आने वाली टेढ़ी-मेढ़ी रेखा स्विच को निरुपित करती है - इस वेरिएबल का मान अन्य आने वाले वेरिएबल के लिए चयन करता है, जो संभावित मानों के आकार-K सरणी से उपयोग करने के लिए मान है।

एक बायेसियन गाऊसी मिश्रण मॉडल की कल्पना करें जिसका वर्णन इस प्रकार है:^[5]

{\begin{aligned}\mathbf {\pi } &\sim \operatorname {SymDir} (K,\alpha _{0})\\\mathbf {\Lambda } _{i=1\dots K}&\sim {\mathcal {W}}(\mathbf {W} _{0},\nu _{0})\\\mathbf {\mu } _{i=1\dots K}&\sim {\mathcal {N}}(\mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{i})^{-1})\\\mathbf {z} [i=1\dots N]&\sim \operatorname {Mult} (1,\mathbf {\pi } )\\\mathbf {x} _{i=1\dots N}&\sim {\mathcal {N}}(\mathbf {\mu } _{z_{i}},{\mathbf {\Lambda } _{z_{i}}}^{-1})\\K&={\text{number of mixing components}}\\N&={\text{number of data points}}\end{aligned}}

टिप्पणी:

सिमडिर()() आयाम का सममित डिरिचलेट वितरण है $K$ , प्रत्येक घटक के लिए हाइपरपैरामीटर $\alpha _{0}$ समुच्चय के साथ है. डिरिचलेट वितरण श्रेणीबद्ध वितरण या बहुपद वितरण से पहले का संयुग्म है।
${\mathcal {W}}()$ विशार्ट वितरण है, जो बहुभिन्नरूपी गॉसियन वितरण के लिए त्रुटिहीन आव्युह (व्युत्क्रम परिशुद्धता आव्युह) का संयुग्मित पूर्व है।
मल्टी() एकल अवलोकन पर बहुपद वितरण है (एक श्रेणीबद्ध वितरण के सामान्तर)। अवस्था समिष्ट वन-के- $K$ प्रतिनिधित्व है, अर्थात, a $K$ -आयामी सदिश जिसमें अवयवों में से 1 है (अवलोकन की पहचान निर्दिष्ट करते हुए) और अन्य सभी अवयव 0 हैं।
${\mathcal {N}}()$ गाऊसी वितरण है, इस स्थितियां में विशेष रूप से बहुभिन्नरूपी गाऊसी वितरण।

उपरोक्त वेरिएबलों की व्याख्या इस प्रकार है:|

$\mathbf {X} =\{\mathbf {x} _{1},\dots ,\mathbf {x} _{N}\}$ $N$ डेटा बिंदु, का समुच्चय है जिनमें से प्रत्येक बहुभिन्नरूपी गॉसियन वितरण $D$ -आयामी सदिश को वितरित किया जाता है।
$\mathbf {Z} =\{\mathbf {z} _{1},\dots ,\mathbf {z} _{N}\}$ अव्यक्त वेरिएबल का समुच्चय है, प्रति डेटा बिंदु निर्दिष्ट करता है कि संबंधित डेटा बिंदु किस मिश्रण घटक से संबंधित है, जैसा ऊपर वर्णित है। $k=1\dots K$ के लिए घटकों $z_{nk}$ के साथ वन- $K$ -सदिश प्रतिनिधित्व का उपयोग करता है |
$\mathbf {\pi }$ $K$ मिश्रण घटक के लिए मिश्रण अनुपात है .
$\mathbf {\mu } _{i=1\dots K}$ और $\mathbf {\Lambda } _{i=1\dots K}$ प्रत्येक मिश्रण घटक से जुड़े पैरामीटर (माध्य और परिशुद्धता (सांख्यिकी)) निर्दिष्ट करते हैं।
{1} और {2} प्रत्येक मिश्रण घटक से जुड़े पैरामीटर (माध्य और परिशुद्धता) निर्दिष्ट करते हैं।

p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )p(\mathbf {Z} \mid \mathbf {\pi } )p(\mathbf {\pi } )p(\mathbf {\mu } \mid \mathbf {\Lambda } )p(\mathbf {\Lambda } )

जहां व्यक्तिगत कारक हैं

{\begin{aligned}p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {x} _{n}\mid \mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})^{z_{nk}}\\p(\mathbf {Z} \mid \mathbf {\pi } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}\pi _{k}^{z_{nk}}\\p(\mathbf {\pi } )&={\frac {\Gamma (K\alpha _{0})}{\Gamma (\alpha _{0})^{K}}}\prod _{k=1}^{K}\pi _{k}^{\alpha _{0}-1}\\p(\mathbf {\mu } \mid \mathbf {\Lambda } )&=\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {\mu } _{k}\mid \mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{k})^{-1})\\p(\mathbf {\Lambda } )&=\prod _{k=1}^{K}{\mathcal {W}}(\mathbf {\Lambda } _{k}\mid \mathbf {W} _{0},\nu _{0})\end{aligned}}

जहाँ

{\begin{aligned}{\mathcal {N}}(\mathbf {x} \mid \mathbf {\mu } ,\mathbf {\Sigma } )&={\frac {1}{(2\pi )^{D/2}}}{\frac {1}{|\mathbf {\Sigma } |^{1/2}}}\exp \left\{-{\frac {1}{2}}(\mathbf {x} -\mathbf {\mu } )^{\rm {T}}\mathbf {\Sigma } ^{-1}(\mathbf {x} -\mathbf {\mu } )\right\}\\{\mathcal {W}}(\mathbf {\Lambda } \mid \mathbf {W} ,\nu )&=B(\mathbf {W} ,\nu )|\mathbf {\Lambda } |^{(\nu -D-1)/2}\exp \left(-{\frac {1}{2}}\operatorname {Tr} (\mathbf {W} ^{-1}\mathbf {\Lambda } )\right)\\B(\mathbf {W} ,\nu )&=|\mathbf {W} |^{-\nu /2}\left\{2^{\nu D/2}\pi ^{D(D-1)/4}\prod _{i=1}^{D}\Gamma \left({\frac {\nu +1-i}{2}}\right)\right\}^{-1}\\D&={\text{dimensionality of each data point}}\end{aligned}}

यह मान लीजिए $q(\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=q(\mathbf {Z} )q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$ .

तब

{\begin{aligned}\ln q^{*}(\mathbf {Z} )&=\operatorname {E} _{\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\operatorname {E} _{\mathbf {\pi } }[\ln p(\mathbf {Z} \mid \mathbf {\pi } )]+\operatorname {E} _{\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\sum _{n=1}^{N}\sum _{k=1}^{K}z_{nk}\ln \rho _{nk}+{\text{constant}}\end{aligned}}

जहां हमने परिभाषित किया है कि

\ln \rho _{nk}=\operatorname {E} [\ln \pi _{k}]+{\frac {1}{2}}\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]-{\frac {D}{2}}\ln(2\pi )-{\frac {1}{2}}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]

के लिए सूत्र के दोनों पक्षों का घातांक द्वारा $\ln q^{*}(\mathbf {Z} )$ उत्पन्न

q^{*}(\mathbf {Z} )\propto \prod _{n=1}^{N}\prod _{k=1}^{K}\rho _{nk}^{z_{nk}}

इसे सामान्य बनाने की आवश्यकता के परिणामस्वरूप $k$ के सभी मानों का $\rho _{nk}$ योग 1 हो जाता है जिससे परिणाम मिलता है

q^{*}(\mathbf {Z} )=\prod _{n=1}^{N}\prod _{k=1}^{K}r_{nk}^{z_{nk}}

जहाँ

r_{nk}={\frac {\rho _{nk}}{\sum _{j=1}^{K}\rho _{nj}}}

दूसरे शब्दों में, $q^{*}(\mathbf {Z} )$ एकल-अवलोकन बहुपद वितरण और प्रत्येक व्यक्ति पर कारकों का उत्पाद है $\mathbf {z} _{n}$ , जिसे मापदंडों के साथ एकल-अवलोकन बहुपद वितरण के रूप में वितरित किया जाता है $r_{nk}$ के लिए $k=1\dots K$ .

इसके अतिरिक्त, हम उस पर ध्यान देते हैं

\operatorname {E} [z_{nk}]=r_{nk}\,

जो श्रेणीबद्ध वितरण के लिए मानक परिणाम है।

अभी, कारक पर विचार करें $q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$ , ध्यान दें कि यह स्वचालित रूप से इसमें सम्मिलित होता है $q(\mathbf {\pi } )\prod _{k=1}^{K}q(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})$ हमारे गॉसियन मिश्रण मॉडल को परिभाषित करने वाले ग्राफिकल मॉडल की संरचना के कारण, जो ऊपर निर्दिष्ट है।

तब,

{\begin{aligned}\ln q^{*}(\mathbf {\pi } )&=\ln p(\mathbf {\pi } )+\operatorname {E} _{\mathbf {Z} }[\ln p(\mathbf {Z} \mid \mathbf {\pi } )]+{\text{constant}}\\&=(\alpha _{0}-1)\sum _{k=1}^{K}\ln \pi _{k}+\sum _{n=1}^{N}\sum _{k=1}^{K}r_{nk}\ln \pi _{k}+{\text{constant}}\end{aligned}}

दोनों पक्षों का घातांक लेते हुए हम पहचानते हैं $q^{*}(\mathbf {\pi } )$ डिरिचलेट वितरण के रूप में

q^{*}(\mathbf {\pi } )\sim \operatorname {Dir} (\mathbf {\alpha } )\,

जहाँ

\alpha _{k}=\alpha _{0}+N_{k}\,

जहाँ

N_{k}=\sum _{n=1}^{N}r_{nk}\,

अंततः

\ln q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})=\ln p(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})+\sum _{n=1}^{N}\operatorname {E} [z_{nk}]\ln {\mathcal {N}}(\mathbf {x} _{n}\mid \mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})+{\text{constant}}

$\mathbf {\mu } _{k}$ और $\mathbf {\Lambda } _{k}$ से सम्मिलित नियमों को समूहीकृत करना और पढ़ना , परिणाम गाऊसी-विशार्ट वितरण द्वारा दिया गया है

q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})={\mathcal {N}}(\mathbf {\mu } _{k}\mid \mathbf {m} _{k},(\beta _{k}\mathbf {\Lambda } _{k})^{-1}){\mathcal {W}}(\mathbf {\Lambda } _{k}\mid \mathbf {W} _{k},\nu _{k})

परिभाषाएँ दी गईं

{\begin{aligned}\beta _{k}&=\beta _{0}+N_{k}\\\mathbf {m} _{k}&={\frac {1}{\beta _{k}}}(\beta _{0}\mathbf {\mu } _{0}+N_{k}{\bar {\mathbf {x} }}_{k})\\\mathbf {W} _{k}^{-1}&=\mathbf {W} _{0}^{-1}+N_{k}\mathbf {S} _{k}+{\frac {\beta _{0}N_{k}}{\beta _{0}+N_{k}}}({\bar {\mathbf {x} }}_{k}-\mathbf {\mu } _{0})({\bar {\mathbf {x} }}_{k}-\mathbf {\mu } _{0})^{\rm {T}}\\\nu _{k}&=\nu _{0}+N_{k}\\N_{k}&=\sum _{n=1}^{N}r_{nk}\\{\bar {\mathbf {x} }}_{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}\mathbf {x} _{n}\\\mathbf {S} _{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})^{\rm {T}}\end{aligned}}

अंत में, ध्यान दें कि इन कार्यों के लिए $r_{nk}$ के मानों की आवश्यकता होती है , जिसका $\rho _{nk}$ उपयोग किया जाता है , जिसके बारी-बारी से $\operatorname {E} [\ln \pi _{k}]$ , $\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]$ और $\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]$ आधार पर परिभाषित किया गया है, अभी जब हमने उन वितरणों को निर्धारित कर लिया है जिन पर यह अपेक्षाएँ ली गई हैं, तब हम उनके लिए सूत्र प्राप्त कर सकते हैं:

{\begin{aligned}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]&=D\beta _{k}^{-1}+\nu _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\\\ln {\widetilde {\Lambda }}_{k}&\equiv \operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]=\sum _{i=1}^{D}\psi \left({\frac {\nu _{k}+1-i}{2}}\right)+D\ln 2+\ln |\mathbf {W} _{k}|\\\ln {\widetilde {\pi }}_{k}&\equiv \operatorname {E} \left[\ln |\pi _{k}|\right]=\psi (\alpha _{k})-\psi \left(\sum _{i=1}^{K}\alpha _{i}\right)\end{aligned}}

इन परिणामों की ओर ले जाते हैं

r_{nk}\propto {\widetilde {\pi }}_{k}{\widetilde {\Lambda }}_{k}^{1/2}\exp \left\{-{\frac {D}{2\beta _{k}}}-{\frac {\nu _{k}}{2}}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\right\}

इन्हें $k$ पर सामान्यीकृत करके आनुपातिक से निरपेक्ष मान में परिवर्तित किया जा सकता है जिससे कि संबंधित मानों का योग 1 हो जाये ।

ध्यान दें कि:

पैरामीटर $\beta _{k}$ , $\mathbf {m} _{k}$ , $\mathbf {W} _{k}$ और $\nu _{k}$ के लिए अद्यतन समीकरण वेरिएबलों का $\mathbf {\mu } _{k}$ और $\mathbf {\Lambda } _{k}$ आंकड़ों $N_{k}$ , ${\bar {\mathbf {x} }}_{k}$ , और $\mathbf {S} _{k}$ पर निर्भरकरते है, और यह आँकड़े इसके स्थान में $r_{nk}$ निर्भर करते हैं .
वेरिएबल $\mathbf {\pi }$ के पैरामीटर $\alpha _{1\dots K}$ के लिए अद्यतन समीकरण का आंकड़ों $N_{k}$ पर निर्भर करते है, जो इसके स्थान में $r_{nk}$ पर निर्भर करता है .
$r_{nk}$ के लिए अद्यतन समीकरण पर प्रत्यक्ष चक्रीय निर्भरता है $\beta _{k}$ , $\mathbf {m} _{k}$ , $\mathbf {W} _{k}$ और $\nu _{k}$ साथ ही $\mathbf {W} _{k}$ , $\nu _{k}$ और अप्रत्यक्ष चक्रीय निर्भरता भी $\alpha _{1\dots K}$ द्वारा ${\widetilde {\pi }}_{k}$ और ${\widetilde {\Lambda }}_{k}$ पर निर्भर करती है |

यह पुनरावृत्तीय प्रक्रिया का सुझाव देता है जो दो चरणों के मध्य वैकल्पिक होती है:

एक E-स्टेप जो अन्य सभी मापदंडों के वर्तमान मानों का उपयोग करके $r_{nk}$ के मूल्य की गणना करता है ।
एक M-स्टेप जो अन्य सभी मापदंडों के वर्तमान मानों की गणना करने के लिए $r_{nk}$ के वर्तमान मान का उपयोग करता है ।

ध्यान दें कि गाऊसी मिश्रण मॉडल के मापदंडों के लिए अधिकतम संभावना या अधिकतम पोस्टीरियरी (एमएपी) समाधान प्राप्त करने के लिए यहचरण मानक ईएम एल्गोरिथ्म के साथ निकटता से मेल खाते हैं। ज़िम्मेदारियाँ $r_{nk}$ E चरण में डेटा दिए गए अव्यक्त वेरिएबल की पूर्व संभावना से निकटता $p(\mathbf {Z} \mid \mathbf {X} )$ से मेल खाता है, अर्थात। ; सांख्यिकी की गणना $N_{k}$ , ${\bar {\mathbf {x} }}_{k}$ , और $\mathbf {S} _{k}$ डेटा पर संगत सॉफ्ट-काउंट आँकड़ों की गणना से निकटता से मेल खाता है; और पैरामीटर के नए मानों की गणना करने के लिए उन आँकड़ों का उपयोग गाऊसी मिश्रण मॉडल पर सामान्य ईएम में नए पैरामीटर मानों की गणना करने के लिए सॉफ्ट काउंट के उपयोग से निकटता से मेल खाता है।

घातांकीय-पारिवारिक वितरण

ध्यान दें कि पूर्व उदाहरण में, बार न देखे गए वेरिएबल पर वितरण को मापदंडों पर वितरण और अव्यक्त डेटा पर वितरण में कारक मान लिया गया था, प्रत्येक वेरिएबल के लिए व्युत्पन्न सर्वोत्तम वितरण वेरिएबल पर संबंधित पूर्व वितरण के समान वर्ग में था। यह सामान्य परिणाम है जो घातीय वर्ग से प्राप्त सभी पूर्व वितरणों के लिए सही है।

यह भी देखें

विविध संदेश भेजना: वेरिएशनल बायेसियन अनुमान के लिए मॉड्यूलर एल्गोरिदम।
वैरिएशनल ऑटोएनकोडर : संभाव्य ग्राफिकल मॉडल और वेरिएशनल बायेसियन विधियों के वर्गों से संबंधित कृत्रिम तंत्रिका नेटवर्क।
अपेक्षा-अधिकतमकरण एल्गोरिथ्म: संबंधित दृष्टिकोण जो परिवर्तनशील बायेसियन अनुमान के विशेष स्थितियां से मेल खाता है।
सामान्यीकृत फ़िल्टरिंग: नॉनलाइनियर स्टेट स्पेस मॉडल के लिए परिवर्तनीय फ़िल्टरिंग योजना।
विविधताओं की गणना: गणितीय विश्लेषण का क्षेत्र जो कार्यात्मकताओं को अधिकतम या न्यूनतम करने से संबंधित है।
अधिकतम एन्ट्रापी भेदभाव: यह परिवर्तनशील अनुमान ढांचा है जो अतिरिक्त बड़े-मार्जिन बाधाओं को प्रस्तुत करने और लेखांकन की अनुमति देता है^[6]

संदर्भ

↑ ^1.0 ^1.1 ^1.2 ^1.3 Tran, Viet Hung (2018). "सूचना ज्यामिति के माध्यम से कोपुला वेरिएशनल बेज़ अनुमान". arXiv:1803.10998 [cs.IT].
↑ ^2.0 ^2.1 Adamčík, Martin (2014). "ब्रेगमैन डायवर्जेंस की सूचना ज्यामिति और मल्टी-एक्सपर्ट रीजनिंग में कुछ अनुप्रयोग". Entropy. 16 (12): 6338–6381. Bibcode:2014Entrp..16.6338A. doi:10.3390/e16126338.
↑ ^3.0 ^3.1 ^3.2 Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods: 1–21. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.
↑ Boyd, Stephen P.; Vandenberghe, Lieven (2004). उत्तल अनुकूलन (PDF). Cambridge University Press. ISBN 978-0-521-83378-3. Retrieved October 15, 2011.
↑ ^5.0 ^5.1 Bishop, Christopher M. (2006). "Chapter 10". पैटर्न मान्यता और मशीन प्रवीणता. Springer. ISBN 978-0-387-31073-2.
↑ Sotirios P. Chatzis, “Infinite Markov-Switching Maximum Entropy Discrimination Machines,” Proc. 30th International Conference on Machine Learning (ICML). Journal of Machine Learning Research: Workshop and Conference Proceedings, vol. 28, no. 3, pp. 729–737, June 2013.

बाहरी संबंध

The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay provides an introduction to variational methods (p. 422).
A Tutorial on Variational Bayes. Fox, C. and Roberts, S. 2012. Artificial Intelligence Review, doi:10.1007/s10462-011-9236-8.
Variational-Bayes Repository A repository of research papers, software, and links related to the use of variational methods for approximate Bayesian learning up to 2003.
Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs.
High-Level Explanation of Variational Inference by Jason Eisner may be worth reading before a more mathematically detailed treatment.
Copula Variational Bayes inference via information geometry (pdf) by Tran, V.H. 2018. This paper is primarily written for students. Via Bregman divergence, the paper shows that Variational Bayes is simply a generalized Pythagorean projection of true model onto an arbitrarily correlated (copula) distributional space, of which the independent space is merely a special case.

[Tran2018-1] 1.0 ^1.1 ^1.2 ^1.3 Tran, Viet Hung (2018). "सूचना ज्यामिति के माध्यम से कोपुला वेरिएशनल बेज़ अनुमान". arXiv:1803.10998 [cs.IT].

[Martin2014-2] 2.0 ^2.1 Adamčík, Martin (2014). "ब्रेगमैन डायवर्जेंस की सूचना ज्यामिति और मल्टी-एक्सपर्ट रीजनिंग में कुछ अनुप्रयोग". Entropy. 16 (12): 6338–6381. Bibcode:2014Entrp..16.6338A. doi:10.3390/e16126338.

[Yoon2021-3] 3.0 ^3.1 ^3.2 Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods: 1–21. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.

[4] Boyd, Stephen P.; Vandenberghe, Lieven (2004). उत्तल अनुकूलन (PDF). Cambridge University Press. ISBN 978-0-521-83378-3. Retrieved October 15, 2011.

[bishop-5] 5.0 ^5.1 Bishop, Christopher M. (2006). "Chapter 10". पैटर्न मान्यता और मशीन प्रवीणता. Springer. ISBN 978-0-387-31073-2.

[6] Sotirios P. Chatzis, “Infinite Markov-Switching Maximum Entropy Discrimination Machines,” Proc. 30th International Conference on Machine Learning (ICML). Journal of Machine Learning Research: Workshop and Conference Proceedings, vol. 28, no. 3, pp. 729–737, June 2013.

[1]

[2]

[3]

[4]

[5]

[6]

@@ Line 1: / Line 1: @@
 {{Short description|Mathematical methods used in Bayesian inference and machine learning}}
-{{For|क्वांटम यांत्रिकी में सन्निकटन की विधि|परिवर्तनीय विधि (क्वांटम यांत्रिकी)                                            }}
+{{For|क्वांटम यांत्रिकी में सन्निकटन की विधि|परिवर्तनीय विधि (क्वांटम यांत्रिकी)                                            }}'''वेरिएशनल बायेसियन विधियाँ''' [[बायेसियन अनुमान]] और [[ यंत्र अधिगम |यंत्र अधिगम]] में उत्पन्न होने वाले असाध्य [[ अभिन्न |अभिन्न]] का अनुमान लगाने की विधि का वर्ग है। इनका उपयोग सामान्यतः सम्मिश्र [[सांख्यिकीय मॉडल]] में किया जाता है जिसमें प्रेक्षित वेरिएबल (सामान्यतः डेटा कहा जाता है) |  इसके साथ-साथ अज्ञात [[पैरामीटर]] और [[अव्यक्त चर|अव्यक्त]] वेरिएबल होते हैं, तथा यह तीन प्रकार के यादृच्छिक वेरिएबल के मध्य विभिन्न प्रकार के संबंधों के साथ होता है , जैसा कि [[ चित्रमय मॉडल |चित्रमय मॉडल]] द्वारा वर्णित किया जा सकता है। कि बायेसियन अनुमान में विशिष्ट है, पैरामीटर और अव्यक्त वेरिएबल को साथ न देखे गए वेरिएबल के रूप में समूहीकृत किया जाता है। वेरिएशनल बायेसियन विधियाँ मुख्य रूप से दो उद्देश्यों के लिए उपयोग की जाती हैं |
-{{Bayesian statistics}}
-'''वेरिएशनल बायेसियन विधियाँ''' [[बायेसियन अनुमान]] और [[ यंत्र अधिगम |यंत्र अधिगम]] में उत्पन्न होने वाले असाध्य [[ अभिन्न |अभिन्न]] का अनुमान लगाने की विधि का वर्ग है। इनका उपयोग सामान्यतः सम्मिश्र [[सांख्यिकीय मॉडल]] में किया जाता है जिसमें प्रेक्षित वेरिएबल (सामान्यतः डेटा कहा जाता है) |  इसके साथ-साथ अज्ञात [[पैरामीटर]] और [[अव्यक्त चर|अव्यक्त]] वेरिएबल होते हैं, तथा यह तीन प्रकार के यादृच्छिक वेरिएबल के मध्य विभिन्न प्रकार के संबंधों के साथ होता है , जैसा कि [[ चित्रमय मॉडल |चित्रमय मॉडल]] द्वारा वर्णित किया जा सकता है। कि बायेसियन अनुमान में विशिष्ट है, पैरामीटर और अव्यक्त वेरिएबल को साथ न देखे गए वेरिएबल के रूप में समूहीकृत किया जाता है। वेरिएशनल बायेसियन विधियाँ मुख्य रूप से दो उद्देश्यों के लिए उपयोग की जाती हैं |
 #इन वेरिएबलों का कार्य इन पर सांख्यिकीय अनुमान लगाने के लिए, न देखे गए वेरिएबलों की पूर्व संभावना के लिए विश्लेषणात्मक अनुमान प्रदान करना होता है।
 #अवलोकित डेटा की [[सीमांत संभावना]] (जिसे कभी-कभी ''साक्ष्य'' भी कहा जाता है) के लिए निचली सीमा प्राप्त करना है | (अर्थात मॉडल दिए गए डेटा की सीमांत संभावना, बिना देखे गए वेरिएबल पर मर्गिनाल्स पर प्रदर्शन के साथ) होता हैं। इसका उपयोग सामान्यतः [[मॉडल चयन]] करने के लिए किया जाता है, तथा सामान्य विचार यह है कि किसी दिए गए मॉडल के लिए उच्च सीमांत संभावना उस मॉडल द्वारा डेटा के उत्तम फिट को निरुपित करती है और इसलिए अधिक संभावना है कि प्रश्न में मॉडल वह था जिसने डेटा उत्पन्न किया था। ([[बेयस फैक्टर]] लेख भी देखें।)
@@ Line 499: / Line 496: @@
 [[Category: Machine Translated Page]]
 [[Category:Created On 07/07/2023]]
+[[Category:Vigyan Ready]]

Anonymous

Search

वैरिएशनल बायेसियन विधियाँ: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 22:40, 5 December 2023

Contents

गणितीय व्युत्पत्ति

समस्या

केएल विचलन

दुरूहता

साक्ष्य निचली सीमा

प्रमाण

माध्य क्षेत्र सन्निकटन

परिवर्तनात्मक अनुमान के लिए द्वैत सूत्र

एक मूलभूत उदाहरण

गणितीय मॉडल

संयुक्त संभावना

गुणनखंडित सन्निकटन

की व्युत्पत्ति $q (μ)$

की व्युत्पत्ति $q(τ)$

पैरामीटर की गणना के लिए एल्गोरिदम

आगे की चर्चा

स्टेप-बाय-स्टेप रेसिपी

सबसे महत्वपूर्ण बिंदु

अपेक्षा अधिकतमकरण (ईएम) के साथ तुलना में

एक अधिक सम्मिश्र उदाहरण

घातांकीय-पारिवारिक वितरण

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

वैरिएशनल बायेसियन विधियाँ: Difference between revisions

Latest revision as of 22:40, 5 December 2023

गणितीय व्युत्पत्ति

समस्या

केएल विचलन

दुरूहता

साक्ष्य निचली सीमा

प्रमाण

माध्य क्षेत्र सन्निकटन

परिवर्तनात्मक अनुमान के लिए द्वैत सूत्र

एक मूलभूत उदाहरण

गणितीय मॉडल

संयुक्त संभावना

गुणनखंडित सन्निकटन

की व्युत्पत्ति q(μ)

की व्युत्पत्ति q(τ)

पैरामीटर की गणना के लिए एल्गोरिदम

आगे की चर्चा

स्टेप-बाय-स्टेप रेसिपी

सबसे महत्वपूर्ण बिंदु

अपेक्षा अधिकतमकरण (ईएम) के साथ तुलना में

एक अधिक सम्मिश्र उदाहरण

घातांकीय-पारिवारिक वितरण

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Hidden categories

की व्युत्पत्ति $q (μ)$

की व्युत्पत्ति $q(τ)$