बायेसियन रैखिक प्रतिगमन: Difference between revisions

From Vigyanwiki
Line 4: Line 4:
{{Distinguish|बेयस रैखिक सांख्यिकी}}
{{Distinguish|बेयस रैखिक सांख्यिकी}}


'''बायेसियन रैखिक प्रतिगमन''' एक प्रकार का [[सशर्त मॉडल|विभेदक मॉडल]] है जिसमें चर का माध्य अन्य चर के रैखिक फलन द्वारा वर्णित किया जाता है, जिसका लक्ष्य प्रतिगमन गुणांक (साथ ही प्रतिगमन के वितरण का वर्णन करने वाले अन्य मापदण्ड) की पश्‍चीय संभाव्यता प्राप्त करना है।) और अंततः रिग्रेसैंड(अक्सर<math>y</math> लेबल किया गया) की [[नमूना से बाहर|आउट-ऑफ़-सैंपल]] पूर्वानुमान की अनुमति देता है। प्रतिगामी मान का अवलोकन करती है (आमतौर पर<math>X</math>)। इस मॉडल का सबसे सरल और सबसे व्यापक रूप से उपयोग किया जाने वाला संस्करण ''सामान्य रैखिक मॉडल'' है, जिसमें <math>y</math> दिया गया <math>X</math> [[सामान्य वितरण|गाऊसी वितरित]] किया जाता है। इस मॉडल में, और मापदंडों के लिए पूर्व संभाव्यता की विशेष पसंद के तहत - तथाकथित संयुग्मित पूर्व - पश्च भाग को विश्लेषणात्मक रूप से पाया जा सकता है। अधिक अक्रमतः चुने गए पूर्ववर्तियों के साथ, आमतौर पर पीछे वाले का अनुमान लगाना पड़ता है।
'''बायेसियन रैखिक प्रतिगमन''' एक प्रकार का [[सशर्त मॉडल|विभेदक मॉडल]] है जिसमें चर का माध्य अन्य चर के रैखिक फलन द्वारा वर्णित किया जाता है, जिसका लक्ष्य प्रतिगमन गुणांक (साथ ही प्रतिगमन के वितरण का वर्णन करने वाले अन्य मापदण्ड) की पश्‍चीय संभाव्यता प्राप्त करना है।) और अंततः रिग्रेसैंड(अक्सर<math>y</math> लेबल किया गया) की [[नमूना से बाहर|आउट-ऑफ़-सैंपल]] पूर्वानुमान की अनुमति देता है। प्रतिगामी मान का अवलोकन करती है (आमतौर पर<math>X</math>)। इस मॉडल का सबसे सरल और सबसे व्यापक रूप से उपयोग किया जाने वाला संस्करण ''सामान्य रैखिक मॉडल'' है, जिसमें <math>y</math> दिया गया <math>X</math> [[सामान्य वितरण|गाऊसी वितरित]] किया जाता है। इस मॉडल में, और मापदंडों के लिए पूर्ववर्ती संभाव्यता की विशेष पसंद के तहत - तथाकथित संयुग्मित पूर्ववर्ती - पश्च भाग को विश्लेषणात्मक रूप से पाया जा सकता है। अधिक अक्रमतः चुने गए पूर्ववर्तियों के साथ, आमतौर पर पीछे वाले का अनुमान लगाना पड़ता है।


==मॉडल सेटअप==
==मॉडल सेटअप==
Line 18: Line 18:
जहाँ <math>\mathbf{X}</math>, <math>n \times k</math> [[डिज़ाइन मैट्रिक्स|अभिकल्पआव्यूह]] है, जिसकी प्रत्येक पंक्ति पूर्वानुमान सदिश <math>\mathbf{x}_i^\mathsf{T}</math>है; और <math>\mathbf{y}</math> <math>n</math>-सदिश <math>[y_1 \; \cdots \; y_n]^\mathsf{T}</math>स्तंभ है,  
जहाँ <math>\mathbf{X}</math>, <math>n \times k</math> [[डिज़ाइन मैट्रिक्स|अभिकल्पआव्यूह]] है, जिसकी प्रत्येक पंक्ति पूर्वानुमान सदिश <math>\mathbf{x}_i^\mathsf{T}</math>है; और <math>\mathbf{y}</math> <math>n</math>-सदिश <math>[y_1 \; \cdots \; y_n]^\mathsf{T}</math>स्तंभ है,  


यह बारंबारवादी दृष्टिकोण है, और यह मानता है कि कुछ सार्थक कहने के लिए पर्याप्त माप हैं <math>\boldsymbol\beta</math>. [[बायेसियन अनुमान]] दृष्टिकोण में, डेटा को [[पूर्व संभाव्यता वितरण]] के रूप में अतिरिक्त जानकारी के साथ पूरक किया जाता है। मापदंडों के बारे में पश्‍चीय संभाव्यता प्राप्त करने के लिए [[बेयस प्रमेय]] के अनुसार मापदंडों के बारे में पूर्व धारणा को डेटा की संभाव्यता फलन के साथ जोड़ा जाता है। <math>\boldsymbol\beta</math> और <math>\sigma</math>. डोमेन और प्राथमिकता के आधार पर उपलब्ध जानकारी के आधार पर पूर्व अलग-अलग कार्यात्मक रूप ले सकता है।
यह बारंबारवादी दृष्टिकोण है, और यह मानता है कि कुछ सार्थक कहने के लिए <math>\boldsymbol\beta</math> पर्याप्त माप हैं, [[बायेसियन अनुमान]] दृष्टिकोण में, आँकड़े को [[पूर्व संभाव्यता वितरण|पूर्ववर्ती संभाव्यता वितरण]] के रूप में अतिरिक्त जानकारी के साथ पूरक किया जाता है। मापदंडों के बारे में पश्‍चीय संभाव्यता प्राप्त करने के लिए [[बेयस प्रमेय]] के अनुसार मापदंडों <math>\boldsymbol\beta</math> और <math>\sigma</math> के बारे में पूर्ववर्ती धारणा को आँकड़े की संभाव्यता फलन के साथ जोड़ा जाता है। प्रांत और प्राथमिकता के आधार पर उपलब्ध जानकारी के आधार पर पूर्ववर्ती अलग-अलग कार्यात्मक रूप ले सकता है।


चूंकि डेटा में दोनों शामिल हैं <math>\mathbf{y}</math> और <math>\mathbf{X}</math>के वितरण पर ही फोकस है <math>\mathbf{y}</math> सशर्त <math>\mathbf{X}</math> औचित्य की आवश्यकता है. वास्तव में, पूर्ण बायेसियन विश्लेषण के लिए एक संयुक्त संभाव्यता की आवश्यकता होगी <math>\rho(\mathbf{y},\mathbf{X}\mid\boldsymbol\beta,\sigma^{2},\gamma)</math> एक पूर्व के साथ <math>\rho(\beta,\sigma^{2},\gamma)</math>, जहाँ <math>\gamma</math> के वितरण के मापदंडों का प्रतीक है <math>\mathbf{X}</math>. केवल (कमजोर) बहिर्जातता की धारणा के तहत ही संयुक्त संभाव्यता को शामिल किया जा सकता है <math>\rho(\mathbf{y}\mid\boldsymbol\mathbf{X},\beta,\sigma^{2})\rho(\mathbf{X}\mid\gamma)</math>.<ref>See Jackman (2009), p. 101.</ref> बाद वाले हिस्से को आमतौर पर असंयुक्त मापदण्ड सेट की धारणा के तहत नजरअंदाज कर दिया जाता है। इससे भी अधिक, क्लासिक धारणाओं के तहत <math>\mathbf{X}</math> चुने हुए माने जाते हैं (उदाहरण के लिए, एक डिज़ाइन किए गए प्रयोग में) और इसलिए मापदंडों के बिना एक ज्ञात संभाव्यता होती है।<ref>See Gelman et al. (2013), p. 354.</ref>
चूंकि आँकड़े में <math>\mathbf{y}</math> और <math>\mathbf{X}</math> दोनों शामिल हैं केवल <math>\mathbf{X}</math> पर सशर्त <math>\mathbf{y}</math> के वितरण पर ध्यान केंद्रित करने के लिए औचित्य की आवश्यकता है। वास्तव में, "पूर्ण" बायेसियन विश्लेषण के लिए संयुक्त संभाव्यता <math>\rho(\mathbf{y},\mathbf{X}\mid\boldsymbol\beta,\sigma^{2},\gamma)</math> पूर्ववर्ती के साथ <math>\rho(\beta,\sigma^{2},\gamma)</math> की आवश्यकता होगी, जहाँ <math>\gamma</math> के वितरण के मापदंडों <math>\mathbf{X}</math> का प्रतीक है, केवल (अदृढ़) बहिर्जातता की धारणा के तहत ही संयुक्त संभाव्यता को <math>\rho(\mathbf{y}\mid\boldsymbol\mathbf{X},\beta,\sigma^{2})\rho(\mathbf{X}\mid\gamma)</math> में शामिल किया जा सकता है।<ref>See Jackman (2009), p. 101.</ref> बाद वाले हिस्से को आमतौर पर असंयुक्त मापदण्ड उत्पन्न की धारणा के तहत नजरअंदाज कर दिया जाता है। इससे भी अधिक, क्लासिक धारणाओं के तहत <math>\mathbf{X}</math> चुने हुए माने जाते हैं (उदाहरण के लिए, डिज़ाइन किए गए प्रयोग में) और इसलिए मापदंडों के बिना ज्ञात संभाव्यता होती है।<ref>See Gelman et al. (2013), p. 354.</ref>
==संयुग्मित पूर्ववर्ती के साथ==


===संयुग्मित पूर्ववर्ती वितरण===
यादृच्छिक पूर्ववर्ती वितरण के लिए, [[पश्च वितरण]] के लिए कोई विश्लेषणात्मक समाधान नहीं हो सकता है। इस खंड में, हम तथाकथित संयुग्म पूर्ववर्ती पर विचार करेंगे जिसके लिए पश्च वितरण विश्लेषणात्मक रूप से प्राप्त किया जा सकता है।


==संयुग्मित पुजारियों के साथ==
पहले से <math>\rho(\boldsymbol\beta,\sigma^{2})</math> इस संभाव्यता फलन से पहले संयुग्मित है यदि इसके संबंध में <math>\boldsymbol\beta</math> और <math>\sigma</math>समान कार्यात्मक रूप है, चूँकि लॉग-संभाव्यता द्विघात है <math>\boldsymbol\beta</math>, लॉग-संभाव्यता को फिर से लिखा जाता है ताकि संभाव्यता <math>(\boldsymbol\beta-\hat{\boldsymbol\beta})</math> सामान्य हो जाए,
 
===संयुग्मित पूर्व वितरण===
मनमाने पूर्व वितरण के लिए, [[पश्च वितरण]] के लिए कोई विश्लेषणात्मक समाधान नहीं हो सकता है। इस खंड में, हम एक तथाकथित संयुग्म पूर्व पर विचार करेंगे जिसके लिए पश्च वितरण विश्लेषणात्मक रूप से प्राप्त किया जा सकता है।
 
पहले से <math>\rho(\boldsymbol\beta,\sigma^{2})</math> इस संभाव्यता फलन से पहले संयुग्मित है यदि इसके संबंध में समान कार्यात्मक रूप है <math>\boldsymbol\beta</math> और <math>\sigma</math>. चूँकि लॉग-संभाव्यता द्विघात है <math>\boldsymbol\beta</math>, लॉग-संभाव्यता को फिर से लिखा जाता है ताकि संभाव्यता सामान्य हो जाए <math>(\boldsymbol\beta-\hat{\boldsymbol\beta})</math>. लिखना


<math display="block">\begin{align}
<math display="block">\begin{align}
Line 43: Line 41:
जहाँ <math>k</math> प्रतिगमन गुणांकों की संख्या है.
जहाँ <math>k</math> प्रतिगमन गुणांकों की संख्या है.


यह पूर्व के लिए एक फॉर्म सुझाता है:
यह पूर्ववर्ती के लिए विधि सुझाता है:
<math display="block">\rho(\boldsymbol\beta,\sigma^2) = \rho(\sigma^2)\rho(\boldsymbol\beta\mid\sigma^2),</math>
<math display="block">\rho(\boldsymbol\beta,\sigma^2) = \rho(\sigma^2)\rho(\boldsymbol\beta\mid\sigma^2),</math>
जहाँ <math>\rho(\sigma^2)</math> एक [[व्युत्क्रम-गामा वितरण]] है
जहाँ <math>\rho(\sigma^2)</math> [[व्युत्क्रम-गामा वितरण]] है
<math display="block"> \rho(\sigma^2) \propto (\sigma^2)^{-\frac{v_0}{2}-1} \exp\left(-\frac{v_0 s_0^2}{2\sigma^2}\right).</math>
<math display="block"> \rho(\sigma^2) \propto (\sigma^2)^{-\frac{v_0}{2}-1} \exp\left(-\frac{v_0 s_0^2}{2\sigma^2}\right).</math>
व्युत्क्रम-गामा वितरण लेख में प्रस्तुत संकेतन में, यह एक का घनत्व है <math> \text{Inv-Gamma}( a_0, b_0)</math> के साथ वितरण <math>a_0=\tfrac{v_0}{2}</math> और <math>b_0=\tfrac{1}{2} v_0s_0^2 </math> साथ <math>v_0</math> और <math>s_0^2</math> के पूर्व मान के रूप में <math>v</math> और <math>s^{2}</math>, क्रमश। समान रूप से, इसे [[स्केल्ड व्युत्क्रम ची-वर्ग वितरण]] के रूप में भी वर्णित किया जा सकता है, <math>\text{Scale-inv-}\chi^2(v_0, s_0^2).</math>
व्युत्क्रम-गामा वितरण लेख में प्रस्तुत संकेतन में, यह <math> \text{Inv-Gamma}( a_0, b_0)</math> का घनत्व है  <math>a_0=\tfrac{v_0}{2}</math> और <math>b_0=\tfrac{1}{2} v_0s_0^2 </math> के साथ वितरण <math>v_0</math> और <math>s_0^2</math> के साथ पूर्ववर्ती मान के रूप में <math>v</math> और <math>s^{2}</math>, क्रमश समान रूप से, इसे [[स्केल्ड व्युत्क्रम ची-वर्ग वितरण]] के रूप में भी वर्णित किया जा सकता है, <math>\text{Scale-inv-}\chi^2(v_0, s_0^2).</math>
आगे सशर्त पूर्व घनत्व <math>\rho(\boldsymbol\beta|\sigma^{2})</math> एक सामान्य वितरण है,
 
आगे सशर्त पूर्ववर्ती घनत्व <math>\rho(\boldsymbol\beta|\sigma^{2})</math> सामान्य वितरण है,


<math display="block"> \rho(\boldsymbol\beta\mid\sigma^2) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T} \mathbf{\Lambda}_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right).</math>
<math display="block"> \rho(\boldsymbol\beta\mid\sigma^2) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T} \mathbf{\Lambda}_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right).</math>
सामान्य वितरण के अंकन में, सशर्त पूर्व वितरण है <math> \mathcal{N}\left(\boldsymbol\mu_0, \sigma^2 \boldsymbol\Lambda_0^{-1}\right).</math>
सामान्य वितरण के अंकन में, सशर्त पूर्ववर्ती वितरण <math> \mathcal{N}\left(\boldsymbol\mu_0, \sigma^2 \boldsymbol\Lambda_0^{-1}\right).</math>है।
 
 
===पश्च वितरण===
===पश्च वितरण===


पूर्व अब निर्दिष्ट के साथ, पश्च वितरण को इस प्रकार व्यक्त किया जा सकता है
पूर्ववर्ती अब निर्दिष्ट के साथ, पश्च वितरण को इस प्रकार व्यक्त किया जा सकता है


<math display="block"> \begin{align}
<math display="block"> \begin{align}
Line 62: Line 59:
& \propto (\sigma^2)^{-n/2} \exp\left(-\frac{1}{2{\sigma}^2}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right) (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta -\boldsymbol\mu_0)^\mathsf{T} \boldsymbol\Lambda_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right)  (\sigma^2)^{-(a_0+1)} \exp\left(-\frac{b_0}{\sigma^2}\right)
& \propto (\sigma^2)^{-n/2} \exp\left(-\frac{1}{2{\sigma}^2}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right) (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2\sigma^2}(\boldsymbol\beta -\boldsymbol\mu_0)^\mathsf{T} \boldsymbol\Lambda_0 (\boldsymbol\beta - \boldsymbol\mu_0)\right)  (\sigma^2)^{-(a_0+1)} \exp\left(-\frac{b_0}{\sigma^2}\right)
\end{align}</math>
\end{align}</math>
कुछ पुनर्व्यवस्था के साथ,<ref>The intermediate steps of this computation can be found in O'Hagan (1994) at the beginning of the chapter on Linear models.</ref> पश्च को फिर से लिखा जा सकता है ताकि पश्च का मतलब हो <math>\boldsymbol\mu_n</math> मापदण्ड सदिश का <math>\boldsymbol\beta</math> न्यूनतम वर्ग अनुमानक के रूप में व्यक्त किया जा सकता है <math>\hat{\boldsymbol\beta}</math> और पूर्व माध्य <math>\boldsymbol\mu_0</math>, पूर्व परिशुद्धता मैट्रिक्स द्वारा इंगित पूर्व की ताकत के साथ <math>\boldsymbol\Lambda_0</math>
कुछ पुनर्व्यवस्था के साथ,<ref>The intermediate steps of this computation can be found in O'Hagan (1994) at the beginning of the chapter on Linear models.</ref> पश्च को फिर से लिखा जा सकता है ताकि पश्च माध्य <math>\boldsymbol\mu_n</math> मापदण्ड सदिश का <math>\boldsymbol\beta</math> न्यूनतम वर्ग अनुमानक <math>\hat{\boldsymbol\beta}</math> और पूर्ववर्ती माध्य <math>\boldsymbol\mu_0</math> के रूप में व्यक्त किया जा सकता है, पूर्ववर्ती परिशुद्धता आव्यूह <math>\boldsymbol\Lambda_0</math> द्वारा इंगित पूर्ववर्ती की ताकत के साथ


<math display="block">\boldsymbol\mu_n = (\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X}\hat{\boldsymbol\beta}+\boldsymbol\Lambda_0\boldsymbol\mu_0) .</math>
<math display="block">\boldsymbol\mu_n = (\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X}\hat{\boldsymbol\beta}+\boldsymbol\Lambda_0\boldsymbol\mu_0) .</math>
उसे उचित ठहराने के लिए <math>\boldsymbol\mu_n</math> वास्तव में पिछला माध्य है, घातांक में द्विघात शब्दों को [[द्विघात रूप (सांख्यिकी)]] के रूप में फिर से व्यवस्थित किया जा सकता है <math>\boldsymbol\beta - \boldsymbol\mu_n</math>.<ref>The intermediate steps are in Fahrmeir et al. (2009) on page 188.</ref>
उसे उचित ठहराने के लिए <math>\boldsymbol\mu_n</math> वास्तव में पश्च माध्य है, घातांक में <math>\boldsymbol\beta - \boldsymbol\mu_n</math>द्विघात शब्दों को [[द्विघात रूप (सांख्यिकी)]] के रूप में फिर से व्यवस्थित किया जा सकता है .<ref>The intermediate steps are in Fahrmeir et al. (2009) on page 188.</ref>


<math display="block"> (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta) + (\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T}\boldsymbol\Lambda_0(\boldsymbol\beta - \boldsymbol\mu_0) =(\boldsymbol\beta-\boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)(\boldsymbol\beta-\boldsymbol\mu_n)+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0 .</math>
<math display="block"> (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^\mathsf{T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta) + (\boldsymbol\beta - \boldsymbol\mu_0)^\mathsf{T}\boldsymbol\Lambda_0(\boldsymbol\beta - \boldsymbol\mu_0) =(\boldsymbol\beta-\boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)(\boldsymbol\beta-\boldsymbol\mu_n)+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T}\mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0 .</math>
Line 71: Line 68:


<math display="block">\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2{\sigma}^{2}}(\boldsymbol\beta - \boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\mathbf{\Lambda}_0)(\boldsymbol\beta - \boldsymbol\mu_n)\right) (\sigma^2)^{-\frac{n+2a_0}{2}-1} \exp\left(-\frac{2 b_0+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0 \boldsymbol\mu_0}{2\sigma^2}\right) .</math>
<math display="block">\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto (\sigma^2)^{-k/2} \exp\left(-\frac{1}{2{\sigma}^{2}}(\boldsymbol\beta - \boldsymbol\mu_n)^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\mathbf{\Lambda}_0)(\boldsymbol\beta - \boldsymbol\mu_n)\right) (\sigma^2)^{-\frac{n+2a_0}{2}-1} \exp\left(-\frac{2 b_0+\mathbf{y}^\mathsf{T}\mathbf{y}-\boldsymbol\mu_n^\mathsf{T}(\mathbf{X}^\mathsf{T} \mathbf{X}+\boldsymbol\Lambda_0)\boldsymbol\mu_n+\boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0 \boldsymbol\mu_0}{2\sigma^2}\right) .</math>
इसलिए, पश्च वितरण को निम्नानुसार पैरामीट्रिज्ड किया जा सकता है।
इसलिए, पश्च वितरण को निम्नानुसार प्राचलीकरण किया जा सकता है।
<math display="block">\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto  \rho(\boldsymbol\beta \mid \sigma^2,\mathbf{y},\mathbf{X}) \rho(\sigma^2\mid\mathbf{y},\mathbf{X}), </math>
<math display="block">\rho(\boldsymbol\beta,\sigma^2\mid\mathbf{y},\mathbf{X}) \propto  \rho(\boldsymbol\beta \mid \sigma^2,\mathbf{y},\mathbf{X}) \rho(\sigma^2\mid\mathbf{y},\mathbf{X}), </math>
जहां दो कारक के घनत्व के अनुरूप हैं <math> \mathcal{N}\left( \boldsymbol\mu_n, \sigma^2\boldsymbol\Lambda_n^{-1} \right)\,</math> और <math> \text{Inv-Gamma}\left(a_n,b_n \right) </math> वितरण, इनके द्वारा दिए गए मापदंडों के साथ
जहां दो कारक के घनत्व <math> \mathcal{N}\left( \boldsymbol\mu_n, \sigma^2\boldsymbol\Lambda_n^{-1} \right)\,</math> और <math> \text{Inv-Gamma}\left(a_n,b_n \right) </math> वितरण के अनुरूप हैं, इनके द्वारा दिए गए मापदंडों के साथ


<math display="block">\boldsymbol\Lambda_n=(\mathbf{X}^\mathsf{T}\mathbf{X}+\mathbf{\Lambda}_0), \quad \boldsymbol\mu_n = (\boldsymbol\Lambda_n)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X} \hat{\boldsymbol\beta} + \boldsymbol\Lambda_0 \boldsymbol\mu_0) ,</math>
<math display="block">\boldsymbol\Lambda_n=(\mathbf{X}^\mathsf{T}\mathbf{X}+\mathbf{\Lambda}_0), \quad \boldsymbol\mu_n = (\boldsymbol\Lambda_n)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{X} \hat{\boldsymbol\beta} + \boldsymbol\Lambda_0 \boldsymbol\mu_0) ,</math>
<math display="block">a_n= a_0 + \frac{n}{2}, \qquad b_n=b_0+\frac{1}{2}(\mathbf{y}^\mathsf{T} \mathbf{y} + \boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0-\boldsymbol\mu_n^\mathsf{T} \boldsymbol\Lambda_n \boldsymbol\mu_n) .</math>
<math display="block">a_n= a_0 + \frac{n}{2}, \qquad b_n=b_0+\frac{1}{2}(\mathbf{y}^\mathsf{T} \mathbf{y} + \boldsymbol\mu_0^\mathsf{T} \boldsymbol\Lambda_0\boldsymbol\mu_0-\boldsymbol\mu_n^\mathsf{T} \boldsymbol\Lambda_n \boldsymbol\mu_n) .</math>
जो बायेसियन अनुमान को पूर्व में निहित जानकारी और नमूने में निहित जानकारी के बीच एक समझौता दर्शाता है।
जो बायेसियन अनुमान को पूर्ववर्ती में निहित जानकारी और नमूने में निहित जानकारी के बीच समझौता दर्शाता है।


===[[मॉडल साक्ष्य]]===
===[[मॉडल साक्ष्य]]===
मॉडल साक्ष्य <math>p(\mathbf{y}\mid m)</math> मॉडल दिए गए डेटा की संभाव्यता है <math>m</math>. इसे [[सीमांत संभावना|सीमांत संभाव्यता]] और पूर्व पूर्वानुमानित घनत्व के रूप में भी जाना जाता है। यहां, मॉडल को संभाव्यता फलन द्वारा परिभाषित किया गया है <math>p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)</math> और मापदंडों पर पूर्व वितरण, यानी। <math>p(\boldsymbol\beta,\sigma)</math>. मॉडल साक्ष्य एक ही संख्या में कैप्चर करता है कि ऐसा मॉडल टिप्पणियों को कितनी अच्छी तरह समझाता है। इस खंड में प्रस्तुत बायेसियन रैखिक प्रतिगमन मॉडल के मॉडल साक्ष्य का उपयोग [[बायेसियन मॉडल तुलना]] द्वारा प्रतिस्पर्धी रैखिक मॉडल की तुलना करने के लिए किया जा सकता है। ये मॉडल पूर्वानुमान चर की संख्या और मान के साथ-साथ मॉडल मापदंडों पर उनके पूर्ववर्तियों में भिन्न हो सकते हैं। मॉडल साक्ष्य द्वारा मॉडल जटिलता को पहले से ही ध्यान में रखा गया है, क्योंकि यह एकीकृत करके मापदंडों को हाशिए पर रख देता है <math>p(\mathbf{y},\boldsymbol\beta,\sigma\mid\mathbf{X})</math> के सभी संभावित मान पर <math>\boldsymbol\beta</math> और <math>\sigma</math>.
मॉडल साक्ष्य <math>p(\mathbf{y}\mid m)</math> मॉडल <math>m</math> दिए गए आँकड़े की संभाव्यता है, इसे [[सीमांत संभावना|सीमांत संभाव्यता]] और ''पूर्ववर्ती पूर्वानुमानित घनत्व'' के रूप में भी जाना जाता है। यहां, मॉडल को संभाव्यता फलन <math>p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)</math> द्वारा परिभाषित किया गया है और मापदंडों पर पूर्ववर्ती वितरण, यानी <math>p(\boldsymbol\beta,\sigma)</math>है। '''मॉडल साक्ष्य एक ही संख्या में कैप्चर करता है कि ऐसा मॉडल टिप्पणियों को कितनी अच्छी तरह समझाता है। इस खंड में प्रस्तुत बायेसियन रैखिक प्रतिगमन मॉडल के मॉडल साक्ष्य का उपयोग [[बायेसियन मॉडल तुलना]] द्वारा प्रतिस्पर्धी रैखिक मॉडल की तुलना करने के लिए किया जा स'''कता है। ये मॉडल पूर्वानुमान चर की संख्या और मान के साथ-साथ मॉडल मापदंडों पर उनके पूर्ववर्तियों में भिन्न हो सकते हैं। मॉडल साक्ष्य द्वारा मॉडल जटिलता को पहले से ही ध्यान में रखा गया है, क्योंकि यह एकीकृत करके मापदंडों को हाशिए पर रख देता है <math>p(\mathbf{y},\boldsymbol\beta,\sigma\mid\mathbf{X})</math> के सभी संभावित मान पर <math>\boldsymbol\beta</math> और <math>\sigma</math>.
<math display="block">p(\mathbf{y}|m)=\int p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)\, p(\boldsymbol\beta,\sigma)\, d\boldsymbol\beta\, d\sigma</math>
<math display="block">p(\mathbf{y}|m)=\int p(\mathbf{y}\mid\mathbf{X},\boldsymbol\beta,\sigma)\, p(\boldsymbol\beta,\sigma)\, d\boldsymbol\beta\, d\sigma</math>
इस अभिन्न की गणना विश्लेषणात्मक रूप से की जा सकती है और समाधान निम्नलिखित समीकरण में दिया गया है।<ref>The intermediate steps of this computation can be found in O'Hagan (1994) on page 257.</ref>
इस अभिन्न की गणना विश्लेषणात्मक रूप से की जा सकती है और समाधान निम्नलिखित समीकरण में दिया गया है।<ref>The intermediate steps of this computation can be found in O'Hagan (1994) on page 257.</ref>
<math display="block">p(\mathbf{y}\mid m)=\frac{1}{(2\pi)^{n/2}}\sqrt{\frac{\det(\boldsymbol\Lambda_0)}{\det(\boldsymbol\Lambda_n)}} \cdot \frac{b_0^{a_0}}{b_n^{a_n}} \cdot \frac{\Gamma(a_n)}{\Gamma(a_0)}</math>
<math display="block">p(\mathbf{y}\mid m)=\frac{1}{(2\pi)^{n/2}}\sqrt{\frac{\det(\boldsymbol\Lambda_0)}{\det(\boldsymbol\Lambda_n)}} \cdot \frac{b_0^{a_0}}{b_n^{a_n}} \cdot \frac{\Gamma(a_n)}{\Gamma(a_0)}</math>
यहाँ <math>\Gamma</math> [[गामा फ़ंक्शन|गामा फलन]] को दर्शाता है। क्योंकि हमने पहले एक संयुग्म चुना है, सीमांत संभाव्यता की गणना मनमाने मान के लिए निम्नलिखित समानता का मूल्यांकन करके आसानी से की जा सकती है <math>\boldsymbol\beta</math> और <math>\sigma</math>.
यहाँ <math>\Gamma</math> [[गामा फ़ंक्शन|गामा फलन]] को दर्शाता है। क्योंकि हमने पहले एक संयुग्म चुना है, सीमांत संभाव्यता की गणना यादृच्छिक मान के लिए निम्नलिखित समानता का मूल्यांकन करके आसानी से की जा सकती है <math>\boldsymbol\beta</math> और <math>\sigma</math>.
<math display="block">p(\mathbf{y}\mid m)=\frac{p(\boldsymbol\beta,\sigma|m)\, p(\mathbf{y} \mid \mathbf{X}, \boldsymbol\beta,\sigma,m)}{p(\boldsymbol\beta, \sigma \mid \mathbf{y},\mathbf{X},m)}</math>
<math display="block">p(\mathbf{y}\mid m)=\frac{p(\boldsymbol\beta,\sigma|m)\, p(\mathbf{y} \mid \mathbf{X}, \boldsymbol\beta,\sigma,m)}{p(\boldsymbol\beta, \sigma \mid \mathbf{y},\mathbf{X},m)}</math>
ध्यान दें कि यह समीकरण बेयस प्रमेय की पुनर्व्यवस्था के अलावा और कुछ नहीं है। पूर्व, संभाव्यता और पश्च के लिए सूत्र सम्मिलित करने और परिणामी अभिव्यक्ति को सरल बनाने से ऊपर दी गई विश्लेषणात्मक अभिव्यक्ति प्राप्त होती है।
ध्यान दें कि यह समीकरण बेयस प्रमेय की पुनर्व्यवस्था के अलावा और कुछ नहीं है। पूर्ववर्ती, संभाव्यता और पश्च के लिए सूत्र सम्मिलित करने और परिणामी अभिव्यक्ति को सरल बनाने से ऊपर दी गई विश्लेषणात्मक अभिव्यक्ति प्राप्त होती है।


==अन्य मामले==
==अन्य मामले==
Line 93: Line 90:
विशेष मामला <math>\boldsymbol\mu_0=0, \mathbf{\Lambda}_0 = c\mathbf{I}</math> [[ रिज प्रतिगमन ]] कहा जाता है।
विशेष मामला <math>\boldsymbol\mu_0=0, \mathbf{\Lambda}_0 = c\mathbf{I}</math> [[ रिज प्रतिगमन ]] कहा जाता है।


एक समान विश्लेषण बहुभिन्नरूपी प्रतिगमन के सामान्य मामले के लिए किया जा सकता है और इसका एक हिस्सा सहप्रसरण मैट्रिक्स के बायेसियन अनुमान के लिए प्रदान करता है: [[बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन]] देखें।
एक समान विश्लेषण बहुभिन्नरूपी प्रतिगमन के सामान्य मामले के लिए किया जा सकता है और इसका एक हिस्सा सहप्रसरण आव्यूह के बायेसियन अनुमान के लिए प्रदान करता है: [[बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन]] देखें।


==यह भी देखें==
==यह भी देखें==

Revision as of 13:12, 16 July 2023

बायेसियन रैखिक प्रतिगमन एक प्रकार का विभेदक मॉडल है जिसमें चर का माध्य अन्य चर के रैखिक फलन द्वारा वर्णित किया जाता है, जिसका लक्ष्य प्रतिगमन गुणांक (साथ ही प्रतिगमन के वितरण का वर्णन करने वाले अन्य मापदण्ड) की पश्‍चीय संभाव्यता प्राप्त करना है।) और अंततः रिग्रेसैंड(अक्सर लेबल किया गया) की आउट-ऑफ़-सैंपल पूर्वानुमान की अनुमति देता है। प्रतिगामी मान का अवलोकन करती है (आमतौर पर)। इस मॉडल का सबसे सरल और सबसे व्यापक रूप से उपयोग किया जाने वाला संस्करण सामान्य रैखिक मॉडल है, जिसमें दिया गया गाऊसी वितरित किया जाता है। इस मॉडल में, और मापदंडों के लिए पूर्ववर्ती संभाव्यता की विशेष पसंद के तहत - तथाकथित संयुग्मित पूर्ववर्ती - पश्च भाग को विश्लेषणात्मक रूप से पाया जा सकता है। अधिक अक्रमतः चुने गए पूर्ववर्तियों के साथ, आमतौर पर पीछे वाले का अनुमान लगाना पड़ता है।

मॉडल सेटअप

मानक रैखिक प्रतिगमन समस्या पर विचार करें, जिसमें के लिए हम सशर्त संभाव्यता वितरण का माध्य निर्दिष्ट करते हैं दिया गया पूर्वानुमान सदिश :

जहाँ एक सदिश है, और स्वतंत्र और समान रूप से सामान्य वितरित यादृच्छिक चर:
यह निम्नलिखित संभाव्यता फलन से मेल खाता है:

सामान्य न्यूनतम वर्ग समाधान का उपयोग मूर-पेनरोज़ छद्म व्युत्क्रम का उपयोग करके गुणांक सदिश का अनुमान लगाने के लिए किया जाता है:
जहाँ , अभिकल्पआव्यूह है, जिसकी प्रत्येक पंक्ति पूर्वानुमान सदिश है; और -सदिश स्तंभ है,

यह बारंबारवादी दृष्टिकोण है, और यह मानता है कि कुछ सार्थक कहने के लिए पर्याप्त माप हैं, बायेसियन अनुमान दृष्टिकोण में, आँकड़े को पूर्ववर्ती संभाव्यता वितरण के रूप में अतिरिक्त जानकारी के साथ पूरक किया जाता है। मापदंडों के बारे में पश्‍चीय संभाव्यता प्राप्त करने के लिए बेयस प्रमेय के अनुसार मापदंडों और के बारे में पूर्ववर्ती धारणा को आँकड़े की संभाव्यता फलन के साथ जोड़ा जाता है। प्रांत और प्राथमिकता के आधार पर उपलब्ध जानकारी के आधार पर पूर्ववर्ती अलग-अलग कार्यात्मक रूप ले सकता है।

चूंकि आँकड़े में और दोनों शामिल हैं केवल पर सशर्त के वितरण पर ध्यान केंद्रित करने के लिए औचित्य की आवश्यकता है। वास्तव में, "पूर्ण" बायेसियन विश्लेषण के लिए संयुक्त संभाव्यता पूर्ववर्ती के साथ की आवश्यकता होगी, जहाँ के वितरण के मापदंडों का प्रतीक है, केवल (अदृढ़) बहिर्जातता की धारणा के तहत ही संयुक्त संभाव्यता को में शामिल किया जा सकता है।[1] बाद वाले हिस्से को आमतौर पर असंयुक्त मापदण्ड उत्पन्न की धारणा के तहत नजरअंदाज कर दिया जाता है। इससे भी अधिक, क्लासिक धारणाओं के तहत चुने हुए माने जाते हैं (उदाहरण के लिए, डिज़ाइन किए गए प्रयोग में) और इसलिए मापदंडों के बिना ज्ञात संभाव्यता होती है।[2]

संयुग्मित पूर्ववर्ती के साथ

संयुग्मित पूर्ववर्ती वितरण

यादृच्छिक पूर्ववर्ती वितरण के लिए, पश्च वितरण के लिए कोई विश्लेषणात्मक समाधान नहीं हो सकता है। इस खंड में, हम तथाकथित संयुग्म पूर्ववर्ती पर विचार करेंगे जिसके लिए पश्च वितरण विश्लेषणात्मक रूप से प्राप्त किया जा सकता है।

पहले से इस संभाव्यता फलन से पहले संयुग्मित है यदि इसके संबंध में और समान कार्यात्मक रूप है, चूँकि लॉग-संभाव्यता द्विघात है , लॉग-संभाव्यता को फिर से लिखा जाता है ताकि संभाव्यता सामान्य हो जाए,

संभाव्यता को अब इस रूप में पुनः लिखा गया है
जहाँ
जहाँ प्रतिगमन गुणांकों की संख्या है.

यह पूर्ववर्ती के लिए विधि सुझाता है:

जहाँ व्युत्क्रम-गामा वितरण है
व्युत्क्रम-गामा वितरण लेख में प्रस्तुत संकेतन में, यह का घनत्व है और के साथ वितरण और के साथ पूर्ववर्ती मान के रूप में और , क्रमश समान रूप से, इसे स्केल्ड व्युत्क्रम ची-वर्ग वितरण के रूप में भी वर्णित किया जा सकता है,

आगे सशर्त पूर्ववर्ती घनत्व सामान्य वितरण है,

सामान्य वितरण के अंकन में, सशर्त पूर्ववर्ती वितरण है।

पश्च वितरण

पूर्ववर्ती अब निर्दिष्ट के साथ, पश्च वितरण को इस प्रकार व्यक्त किया जा सकता है

कुछ पुनर्व्यवस्था के साथ,[3] पश्च को फिर से लिखा जा सकता है ताकि पश्च माध्य मापदण्ड सदिश का न्यूनतम वर्ग अनुमानक और पूर्ववर्ती माध्य के रूप में व्यक्त किया जा सकता है, पूर्ववर्ती परिशुद्धता आव्यूह द्वारा इंगित पूर्ववर्ती की ताकत के साथ

उसे उचित ठहराने के लिए वास्तव में पश्च माध्य है, घातांक में द्विघात शब्दों को द्विघात रूप (सांख्यिकी) के रूप में फिर से व्यवस्थित किया जा सकता है .[4]

अब पश्च भाग को व्युत्क्रम-गामा वितरण के समय सामान्य वितरण के रूप में व्यक्त किया जा सकता है:

इसलिए, पश्च वितरण को निम्नानुसार प्राचलीकरण किया जा सकता है।
जहां दो कारक के घनत्व और वितरण के अनुरूप हैं, इनके द्वारा दिए गए मापदंडों के साथ

जो बायेसियन अनुमान को पूर्ववर्ती में निहित जानकारी और नमूने में निहित जानकारी के बीच समझौता दर्शाता है।

मॉडल साक्ष्य

मॉडल साक्ष्य मॉडल दिए गए आँकड़े की संभाव्यता है, इसे सीमांत संभाव्यता और पूर्ववर्ती पूर्वानुमानित घनत्व के रूप में भी जाना जाता है। यहां, मॉडल को संभाव्यता फलन द्वारा परिभाषित किया गया है और मापदंडों पर पूर्ववर्ती वितरण, यानी है। मॉडल साक्ष्य एक ही संख्या में कैप्चर करता है कि ऐसा मॉडल टिप्पणियों को कितनी अच्छी तरह समझाता है। इस खंड में प्रस्तुत बायेसियन रैखिक प्रतिगमन मॉडल के मॉडल साक्ष्य का उपयोग बायेसियन मॉडल तुलना द्वारा प्रतिस्पर्धी रैखिक मॉडल की तुलना करने के लिए किया जा सकता है। ये मॉडल पूर्वानुमान चर की संख्या और मान के साथ-साथ मॉडल मापदंडों पर उनके पूर्ववर्तियों में भिन्न हो सकते हैं। मॉडल साक्ष्य द्वारा मॉडल जटिलता को पहले से ही ध्यान में रखा गया है, क्योंकि यह एकीकृत करके मापदंडों को हाशिए पर रख देता है के सभी संभावित मान पर और .

इस अभिन्न की गणना विश्लेषणात्मक रूप से की जा सकती है और समाधान निम्नलिखित समीकरण में दिया गया है।[5]
यहाँ गामा फलन को दर्शाता है। क्योंकि हमने पहले एक संयुग्म चुना है, सीमांत संभाव्यता की गणना यादृच्छिक मान के लिए निम्नलिखित समानता का मूल्यांकन करके आसानी से की जा सकती है और .
ध्यान दें कि यह समीकरण बेयस प्रमेय की पुनर्व्यवस्था के अलावा और कुछ नहीं है। पूर्ववर्ती, संभाव्यता और पश्च के लिए सूत्र सम्मिलित करने और परिणामी अभिव्यक्ति को सरल बनाने से ऊपर दी गई विश्लेषणात्मक अभिव्यक्ति प्राप्त होती है।

अन्य मामले

सामान्य तौर पर, विश्लेषणात्मक रूप से पश्च वितरण प्राप्त करना असंभव या अव्यावहारिक हो सकता है। हालाँकि, मोंटे कार्लो नमूनाकरण जैसी अनुमानित बायेसियन गणना विधि द्वारा पश्च भाग का अनुमान लगाना संभव है[6] या वैरिएबल बेयस

विशेष मामला रिज प्रतिगमन कहा जाता है।

एक समान विश्लेषण बहुभिन्नरूपी प्रतिगमन के सामान्य मामले के लिए किया जा सकता है और इसका एक हिस्सा सहप्रसरण आव्यूह के बायेसियन अनुमान के लिए प्रदान करता है: बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन देखें।

यह भी देखें

टिप्पणियाँ

  1. See Jackman (2009), p. 101.
  2. See Gelman et al. (2013), p. 354.
  3. The intermediate steps of this computation can be found in O'Hagan (1994) at the beginning of the chapter on Linear models.
  4. The intermediate steps are in Fahrmeir et al. (2009) on page 188.
  5. The intermediate steps of this computation can be found in O'Hagan (1994) on page 257.
  6. Carlin and Louis(2008) and Gelman, et al. (2003) explain how to use sampling methods for Bayesian linear regression.


संदर्भ

  • Box, G. E. P.; Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis. Wiley. ISBN 0-471-57428-7.
  • Carlin, Bradley P.; Louis, Thomas A. (2008). Bayesian Methods for Data Analysis (Third ed.). Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-697-8.
  • Fahrmeir, L.; Kneib, T.; Lang, S. (2009). Regression. Modelle, Methoden und Anwendungen (Second ed.). Heidelberg: Springer. doi:10.1007/978-3-642-01837-4. ISBN 978-3-642-01836-7.
  • Gelman, Andrew; et al. (2013). "Introduction to regression models". Bayesian Data Analysis (Third ed.). Boca Raton, FL: Chapman and Hall/CRC. pp. 353–380. ISBN 978-1-4398-4095-5.
  • Jackman, Simon (2009). "Regression models". Bayesian Analysis for the Social Sciences. Wiley. pp. 99–124. ISBN 978-0-470-01154-6.
  • Rossi, Peter E.; Allenby, Greg M.; McCulloch, Robert (2006). Bayesian Statistics and Marketing. John Wiley & Sons. ISBN 0470863676.
  • O'Hagan, Anthony (1994). Bayesian Inference. Kendall's Advanced Theory of Statistics. Vol. 2B (First ed.). Halsted. ISBN 0-340-52922-9.


बाहरी संबंध