बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Bayesian approach to multivariate linear regression}} {{Regression bar}} आंकड़ों में, बायेसियन बहुभिन्...")
 
No edit summary
Line 1: Line 1:
{{short description|Bayesian approach to multivariate linear regression}}
{{short description|Bayesian approach to multivariate linear regression}}
{{Regression bar}}
{{Regression bar}}
आंकड़ों में, बायेसियन [[बहुभिन्नरूपी रैखिक प्रतिगमन]] एक है
आंकड़ों में, बायेसियन [[बहुभिन्नरूपी रैखिक प्रतिगमन]] है
बहुभिन्नरूपी रैखिक प्रतिगमन के लिए [[बायेसियन अनुमान]] दृष्टिकोण, यानी रैखिक प्रतिगमन जहां अनुमानित परिणाम एकल अदिश यादृच्छिक चर के बजाय सहसंबद्ध यादृच्छिक चर का एक वेक्टर है। इस दृष्टिकोण का अधिक सामान्य उपचार [[एमएमएसई अनुमानक]] लेख में पाया जा सकता है।
बहुभिन्नरूपी रैखिक प्रतिगमन के लिए [[बायेसियन अनुमान]] दृष्टिकोण, यानी रैखिक प्रतिगमन जहां अनुमानित परिणाम एकल अदिश यादृच्छिक चर के बजाय सहसंबद्ध यादृच्छिक चर का वेक्टर है। इस दृष्टिकोण का अधिक सामान्य उपचार [[एमएमएसई अनुमानक]] लेख में पाया जा सकता है।


==विवरण==
==विवरण==


एक प्रतिगमन समस्या पर विचार करें जहां अनुमानित किया जाने वाला आश्रित चर एक वास्तविक-मूल्यवान अदिश राशि नहीं है, बल्कि सहसंबद्ध वास्तविक संख्याओं का एक एम-लंबाई वेक्टर है। जैसा कि मानक प्रतिगमन सेटअप में होता है, n अवलोकन होते हैं, जहां प्रत्येक अवलोकन i में k−1 व्याख्यात्मक चर होते हैं, जिन्हें एक वेक्टर में समूहीकृत किया जाता है <math>\mathbf{x}_i</math> लंबाई k की (जहां अवरोधन गुणांक की अनुमति देने के लिए 1 के मान के साथ एक [[डमी वैरिएबल (सांख्यिकी)]] जोड़ा गया है)। इसे प्रत्येक अवलोकन के लिए एम संबंधित प्रतिगमन समस्याओं के एक सेट के रूप में देखा जा सकता है:
एक प्रतिगमन समस्या पर विचार करें जहां अनुमानित किया जाने वाला आश्रित चर वास्तविक-मूल्यवान अदिश राशि नहीं है, बल्कि सहसंबद्ध वास्तविक संख्याओं का एम-लंबाई वेक्टर है। जैसा कि मानक प्रतिगमन सेटअप में होता है, n अवलोकन होते हैं, जहां प्रत्येक अवलोकन i में k−1 व्याख्यात्मक चर होते हैं, जिन्हें वेक्टर में समूहीकृत किया जाता है <math>\mathbf{x}_i</math> लंबाई k की (जहां अवरोधन गुणांक की अनुमति देने के लिए 1 के मान के साथ [[डमी वैरिएबल (सांख्यिकी)]] जोड़ा गया है)। इसे प्रत्येक अवलोकन के लिए एम संबंधित प्रतिगमन समस्याओं के सेट के रूप में देखा जा सकता है:<math display="block">\begin{align}
<math display="block">\begin{align}
y_{i,1} &= \mathbf{x}_i^\mathsf{T}\boldsymbol\beta_{1} + \epsilon_{i,1} \\
y_{i,1} &= \mathbf{x}_i^\mathsf{T}\boldsymbol\beta_{1} + \epsilon_{i,1} \\
&\;\;\vdots \\
&\;\;\vdots \\
y_{i,m} &= \mathbf{x}_i^\mathsf{T}\boldsymbol\beta_{m} + \epsilon_{i,m}
y_{i,m} &= \mathbf{x}_i^\mathsf{T}\boldsymbol\beta_{m} + \epsilon_{i,m}
\end{align}</math>
\end{align}</math>
जहां त्रुटियों का सेट <math>\{ \epsilon_{i,1}, \ldots, \epsilon_{i,m}\}</math> सभी सहसंबद्ध हैं. समान रूप से, इसे एकल प्रतिगमन समस्या के रूप में देखा जा सकता है जहां परिणाम एक पंक्ति वेक्टर है <math>\mathbf{y}_i^\mathsf{T}</math> और प्रतिगमन गुणांक वैक्टर एक दूसरे के बगल में रखे गए हैं, इस प्रकार:
 
<math display="block">\mathbf{y}_i^\mathsf{T} = \mathbf{x}_i^\mathsf{T}\mathbf{B} + \boldsymbol\epsilon_{i}^\mathsf{T}.</math>
 
गुणांक मैट्रिक्स बी एक है <math>k \times m</math> मैट्रिक्स जहां गुणांक वैक्टर <math>\boldsymbol\beta_1,\ldots,\boldsymbol\beta_m</math> प्रत्येक प्रतिगमन समस्या के लिए क्षैतिज रूप से स्टैक किया गया है:
जहां त्रुटियों का सेट <math>\{ \epsilon_{i,1}, \ldots, \epsilon_{i,m}\}</math> सभी सहसंबद्ध हैं. समान रूप से, इसे एकल प्रतिगमन समस्या के रूप में देखा जा सकता है जहां परिणाम पंक्ति वेक्टर है <math>\mathbf{y}_i^\mathsf{T}</math> और प्रतिगमन गुणांक वैक्टर दूसरे के बगल में रखे गए हैं, इस प्रकार:<math display="block">\mathbf{y}_i^\mathsf{T} = \mathbf{x}_i^\mathsf{T}\mathbf{B} + \boldsymbol\epsilon_{i}^\mathsf{T}.</math>
 
 
गुणांक मैट्रिक्स बी है <math>k \times m</math> मैट्रिक्स जहां गुणांक वैक्टर <math>\boldsymbol\beta_1,\ldots,\boldsymbol\beta_m</math> प्रत्येक प्रतिगमन समस्या के लिए क्षैतिज रूप से स्टैक किया गया है:
<math display="block">\mathbf{B} =
<math display="block">\mathbf{B} =
\begin{bmatrix}
\begin{bmatrix}
Line 31: Line 33:
\end{pmatrix}
\end{pmatrix}
\end{bmatrix}
\end{bmatrix}
.</math>
.</math>शोर वेक्टर <math>\boldsymbol\epsilon_{i}</math> प्रत्येक अवलोकन के लिए i संयुक्त रूप से सामान्य है, ताकि किसी दिए गए अवलोकन के परिणाम सहसंबद्ध हों:
शोर वेक्टर <math>\boldsymbol\epsilon_{i}</math> प्रत्येक अवलोकन के लिए i संयुक्त रूप से सामान्य है, ताकि किसी दिए गए अवलोकन के परिणाम सहसंबद्ध हों:
 
<math display="block">\boldsymbol\epsilon_i \sim N(0, \boldsymbol\Sigma_{\epsilon}).</math>
<math display="block">\boldsymbol\epsilon_i \sim N(0, \boldsymbol\Sigma_{\epsilon}).</math>हम संपूर्ण प्रतिगमन समस्या को मैट्रिक्स रूप में इस प्रकार लिख सकते हैं:
हम संपूर्ण प्रतिगमन समस्या को मैट्रिक्स रूप में इस प्रकार लिख सकते हैं:
<math display="block">\mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{E},</math>
<math display="block">\mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{E},</math>
जहां Y और E हैं <math>n \times m</math> matrices. [[डिज़ाइन मैट्रिक्स]] X एक है <math>n \times k</math> मानक रैखिक प्रतिगमन सेटअप के अनुसार, ऊर्ध्वाधर रूप से स्टैक्ड टिप्पणियों के साथ मैट्रिक्स:
जहां Y और E हैं <math>n \times m</math> matrices. [[डिज़ाइन मैट्रिक्स]] X है <math>n \times k</math> मानक रैखिक प्रतिगमन सेटअप के अनुसार, ऊर्ध्वाधर रूप से स्टैक्ड टिप्पणियों के साथ मैट्रिक्स:<math display="block">
<math display="block">
  \mathbf{X} = \begin{bmatrix} \mathbf{x}^\mathsf{T}_1 \\ \mathbf{x}^\mathsf{T}_2 \\ \vdots \\ \mathbf{x}^\mathsf{T}_n \end{bmatrix}
  \mathbf{X} = \begin{bmatrix} \mathbf{x}^\mathsf{T}_1 \\ \mathbf{x}^\mathsf{T}_2 \\ \vdots \\ \mathbf{x}^\mathsf{T}_n \end{bmatrix}
  = \begin{bmatrix} x_{1,1} & \cdots & x_{1,k} \\
  = \begin{bmatrix} x_{1,1} & \cdots & x_{1,k} \\
Line 45: Line 45:
  \end{bmatrix}.
  \end{bmatrix}.
</math>
</math>
शास्त्रीय, बारंबारतावादी [[रैखिक न्यूनतम वर्ग (गणित)]] समाधान केवल प्रतिगमन गुणांक के मैट्रिक्स का अनुमान लगाना है <math>\hat{\mathbf{B}}</math> मूर-पेनरोज़ छद्म व्युत्क्रम का उपयोग करना|मूर-पेनरोज़ छद्म व्युत्क्रम:
शास्त्रीय, बारंबारतावादी [[रैखिक न्यूनतम वर्ग (गणित)]] समाधान केवल प्रतिगमन गुणांक के मैट्रिक्स का अनुमान लगाना है <math>\hat{\mathbf{B}}</math> मूर-पेनरोज़ छद्म व्युत्क्रम का उपयोग करना|मूर-पेनरोज़ छद्म व्युत्क्रम:
<math display="block"> \hat{\mathbf{B}} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{Y}.</math>
<math display="block"> \hat{\mathbf{B}} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{Y}.</math>
बायेसियन समाधान प्राप्त करने के लिए, हमें सशर्त संभावना निर्दिष्ट करने की आवश्यकता है और फिर उपयुक्त संयुग्म पूर्व को ढूंढना होगा। [[बायेसियन रैखिक प्रतिगमन]] के अविभाज्य मामले के साथ, हम पाएंगे कि हम एक प्राकृतिक सशर्त संयुग्म पूर्व निर्दिष्ट कर सकते हैं (जो पैमाने पर निर्भर है)।
बायेसियन समाधान प्राप्त करने के लिए, हमें सशर्त संभावना निर्दिष्ट करने की आवश्यकता है और फिर उपयुक्त संयुग्म पूर्व को ढूंढना होगा। [[बायेसियन रैखिक प्रतिगमन]] के अविभाज्य मामले के साथ, हम पाएंगे कि हम प्राकृतिक सशर्त संयुग्म पूर्व निर्दिष्ट कर सकते हैं (जो पैमाने पर निर्भर है)।


आइए हम अपनी सशर्त संभावना को इस प्रकार लिखें<ref name="BSaM">Peter E. Rossi, Greg M. Allenby, Rob McCulloch. ''Bayesian Statistics and Marketing''. John Wiley & Sons, 2012, p. 32.</ref>
आइए हम अपनी सशर्त संभावना को इस प्रकार लिखें<ref name="BSaM">Peter E. Rossi, Greg M. Allenby, Rob McCulloch. ''Bayesian Statistics and Marketing''. John Wiley & Sons, 2012, p. 32.</ref>
<math display="block">\rho(\mathbf{E}|\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-n/2} \exp\left(-\tfrac{1}{2} \operatorname{tr}\left(\mathbf{E}^\mathsf{T} \mathbf{E} \boldsymbol\Sigma_{\epsilon}^{-1}\right) \right) ,</math>
<math display="block">\rho(\mathbf{E}|\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-n/2} \exp\left(-\tfrac{1}{2} \operatorname{tr}\left(\mathbf{E}^\mathsf{T} \mathbf{E} \boldsymbol\Sigma_{\epsilon}^{-1}\right) \right) ,</math>
त्रुटि लिख रहा हूँ <math>\mathbf{E}</math> के अनुसार <math>\mathbf{Y},\mathbf{X},</math> और <math>\mathbf{B}</math> पैदावार
त्रुटि लिख रहा हूँ <math>\mathbf{E}</math> के अनुसार <math>\mathbf{Y},\mathbf{X},</math> और <math>\mathbf{B}</math> पैदावार
<math display="block">\rho(\mathbf{Y}|\mathbf{X},\mathbf{B},\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-n/2} \exp(-\tfrac{1}{2} \operatorname{tr}((\mathbf{Y}-\mathbf{X} \mathbf{B})^\mathsf{T} (\mathbf{Y}-\mathbf{X} \mathbf{B}) \boldsymbol\Sigma_{\epsilon}^{-1} ) ) ,</math>
<math display="block">\rho(\mathbf{Y}|\mathbf{X},\mathbf{B},\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-n/2} \exp(-\tfrac{1}{2} \operatorname{tr}((\mathbf{Y}-\mathbf{X} \mathbf{B})^\mathsf{T} (\mathbf{Y}-\mathbf{X} \mathbf{B}) \boldsymbol\Sigma_{\epsilon}^{-1} ) ) ,</math>हम प्राकृतिक संयुग्म पूर्व-संयुक्त घनत्व की तलाश करते हैं <math>\rho(\mathbf{B},\Sigma_{\epsilon})</math> जो संभावना के समान कार्यात्मक रूप का है। चूंकि संभावना द्विघात है <math>\mathbf{B}</math>, हम संभावना को फिर से लिखते हैं इसलिए यह सामान्य है <math>(\mathbf{B}-\hat{\mathbf{B}})</math> (शास्त्रीय नमूना अनुमान से विचलन)।
हम एक प्राकृतिक संयुग्म पूर्व-संयुक्त घनत्व की तलाश करते हैं <math>\rho(\mathbf{B},\Sigma_{\epsilon})</math> जो संभावना के समान कार्यात्मक रूप का है। चूंकि संभावना द्विघात है <math>\mathbf{B}</math>, हम संभावना को फिर से लिखते हैं इसलिए यह सामान्य है <math>(\mathbf{B}-\hat{\mathbf{B}})</math> (शास्त्रीय नमूना अनुमान से विचलन)।


बायेसियन रैखिक प्रतिगमन के समान तकनीक का उपयोग करते हुए, हम योग-वर्ग तकनीक के मैट्रिक्स-रूप का उपयोग करके घातीय शब्द को विघटित करते हैं। यहां, हालांकि, हमें मैट्रिक्स डिफरेंशियल कैलकुलस ([[क्रोनकर उत्पाद]] और वैश्वीकरण (गणित) परिवर्तन) का भी उपयोग करने की आवश्यकता होगी।
बायेसियन रैखिक प्रतिगमन के समान तकनीक का उपयोग करते हुए, हम योग-वर्ग तकनीक के मैट्रिक्स-रूप का उपयोग करके घातीय शब्द को विघटित करते हैं। यहां, हालांकि, हमें मैट्रिक्स डिफरेंशियल कैलकुलस ([[क्रोनकर उत्पाद]] और वैश्वीकरण (गणित) परिवर्तन) का भी उपयोग करने की आवश्यकता होगी।


सबसे पहले, आइए हम संभाव्यता के लिए नई अभिव्यक्ति प्राप्त करने के लिए वर्गों का योग लागू करें:
सबसे पहले, आइए हम संभाव्यता के लिए नई अभिव्यक्ति प्राप्त करने के लिए वर्गों का योग लागू करें:<math display="block">\rho(\mathbf{Y}|\mathbf{X},\mathbf{B},\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-(n-k)/2} \exp(-\operatorname{tr}(\tfrac{1}{2}\mathbf{S}^\mathsf{T} \mathbf{S} \boldsymbol\Sigma_{\epsilon}^{-1}))   
<math display="block">\rho(\mathbf{Y}|\mathbf{X},\mathbf{B},\boldsymbol\Sigma_{\epsilon}) \propto |\boldsymbol\Sigma_{\epsilon}|^{-(n-k)/2} \exp(-\operatorname{tr}(\tfrac{1}{2}\mathbf{S}^\mathsf{T} \mathbf{S} \boldsymbol\Sigma_{\epsilon}^{-1}))   
|\boldsymbol\Sigma_{\epsilon}|^{-k/2} \exp(-\tfrac{1}{2} \operatorname{tr}((\mathbf{B}-\hat{\mathbf{B}})^\mathsf{T} \mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B}-\hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} ) )
|\boldsymbol\Sigma_{\epsilon}|^{-k/2} \exp(-\tfrac{1}{2} \operatorname{tr}((\mathbf{B}-\hat{\mathbf{B}})^\mathsf{T} \mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B}-\hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} ) )
,</math>
,</math><math display="block">\mathbf{S} = \mathbf{Y} - \mathbf{X}\hat{\mathbf{B}}</math>
<math display="block">\mathbf{S} = \mathbf{Y} - \mathbf{X}\hat{\mathbf{B}}</math>
 
हम पूर्ववर्तियों के लिए एक सशर्त प्रपत्र विकसित करना चाहेंगे:
 
हम पूर्ववर्तियों के लिए सशर्त प्रपत्र विकसित करना चाहेंगे:
<math display="block">\rho(\mathbf{B},\boldsymbol\Sigma_{\epsilon}) = \rho(\boldsymbol\Sigma_{\epsilon})\rho(\mathbf{B}|\boldsymbol\Sigma_{\epsilon}),</math>
<math display="block">\rho(\mathbf{B},\boldsymbol\Sigma_{\epsilon}) = \rho(\boldsymbol\Sigma_{\epsilon})\rho(\mathbf{B}|\boldsymbol\Sigma_{\epsilon}),</math>
कहाँ <math>\rho(\boldsymbol\Sigma_{\epsilon})</math> एक [[व्युत्क्रम-विशार्ट वितरण]] है
कहाँ <math>\rho(\boldsymbol\Sigma_{\epsilon})</math> [[व्युत्क्रम-विशार्ट वितरण]] है
और <math>\rho(\mathbf{B}|\boldsymbol\Sigma_{\epsilon})</math> मैट्रिक्स में [[सामान्य वितरण]] का कुछ रूप है <math>\mathbf{B}</math>. यह वैश्वीकरण (गणित) परिवर्तन का उपयोग करके पूरा किया जाता है, जो मैट्रिक्स के एक फ़ंक्शन से संभावना को परिवर्तित करता है <math>\mathbf{B}, \hat{\mathbf{B}}</math> वैक्टर के एक फ़ंक्शन के लिए <math>\boldsymbol\beta = \operatorname{vec}(\mathbf{B}), \hat{\boldsymbol\beta} = \operatorname{vec}(\hat{\mathbf{B}})</math>.
और <math>\rho(\mathbf{B}|\boldsymbol\Sigma_{\epsilon})</math> मैट्रिक्स में [[सामान्य वितरण]] का कुछ रूप है <math>\mathbf{B}</math>. यह वैश्वीकरण (गणित) परिवर्तन का उपयोग करके पूरा किया जाता है, जो मैट्रिक्स के फ़ंक्शन से संभावना को परिवर्तित करता है <math>\mathbf{B}, \hat{\mathbf{B}}</math> वैक्टर के फ़ंक्शन के लिए <math>\boldsymbol\beta = \operatorname{vec}(\mathbf{B}), \hat{\boldsymbol\beta} = \operatorname{vec}(\hat{\mathbf{B}})</math>.


लिखना
लिखना<math display="block">\operatorname{tr}((\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T}\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_\epsilon^{-1}) = \operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T} \operatorname{vec}(\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} )</math>
<math display="block">\operatorname{tr}((\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T}\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_\epsilon^{-1}) = \operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T} \operatorname{vec}(\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} )</math>
होने देना<math display="block"> \operatorname{vec}(\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} ) =  (\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}}), </math>
होने देना
<math display="block"> \operatorname{vec}(\mathbf{X}^\mathsf{T} \mathbf{X}(\mathbf{B} - \hat{\mathbf{B}}) \boldsymbol\Sigma_{\epsilon}^{-1} ) =  (\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}}), </math>
कहाँ <math>\mathbf{A} \otimes \mathbf{B}</math> मैट्रिक्स ए और बी के क्रोनकर उत्पाद को दर्शाता है, [[बाहरी उत्पाद]] का एक सामान्यीकरण जो गुणा करता है <math>m \times n</math> ए द्वारा मैट्रिक्स <math>p \times q</math> एक उत्पन्न करने के लिए मैट्रिक्स <math>mp \times nq</math> मैट्रिक्स, जिसमें दो मैट्रिक्स के तत्वों के उत्पादों का प्रत्येक संयोजन शामिल होता है।


तब
 
<math display="block">\begin{align}
कहाँ <math>\mathbf{A} \otimes \mathbf{B}</math> मैट्रिक्स ए और बी के क्रोनकर उत्पाद को दर्शाता है, [[बाहरी उत्पाद]] का सामान्यीकरण जो गुणा करता है <math>m \times n</math> ए द्वारा मैट्रिक्स <math>p \times q</math> उत्पन्न करने के लिए मैट्रिक्स <math>mp \times nq</math> मैट्रिक्स, जिसमें दो मैट्रिक्स के तत्वों के उत्पादों का प्रत्येक संयोजन शामिल होता है।
 
तब<math display="block">\begin{align}
&\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T} (\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}}) \\
&\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}})^\mathsf{T} (\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )\operatorname{vec}(\mathbf{B} - \hat{\mathbf{B}}) \\
&= (\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )(\boldsymbol\beta-\hat{\boldsymbol\beta})
&= (\boldsymbol\beta - \hat{\boldsymbol\beta})^\mathsf{T}(\boldsymbol\Sigma_{\epsilon}^{-1} \otimes \mathbf{X}^\mathsf{T}\mathbf{X} )(\boldsymbol\beta-\hat{\boldsymbol\beta})
\end{align}</math>
\end{align}</math>
जिससे ऐसी संभावना बनेगी जो सामान्य है <math>(\boldsymbol\beta - \hat{\boldsymbol\beta})</math>.
जिससे ऐसी संभावना बनेगी जो सामान्य है <math>(\boldsymbol\beta - \hat{\boldsymbol\beta})</math>.


अधिक सुव्यवस्थित रूप में संभावना के साथ, अब हम एक प्राकृतिक (सशर्त) संयुग्म पूर्व पा सकते हैं।
अधिक सुव्यवस्थित रूप में संभावना के साथ, अब हम प्राकृतिक (सशर्त) संयुग्म पूर्व पा सकते हैं।


===संयुग्मित पूर्व वितरण===
===संयुग्मित पूर्व वितरण===


वेक्टरकृत चर का उपयोग करने से पहले प्राकृतिक संयुग्म <math>\boldsymbol\beta</math> इस रूप का है:<ref name="BSaM" />
वेक्टरकृत चर का उपयोग करने से पहले प्राकृतिक संयुग्म <math>\boldsymbol\beta</math> इस रूप का है:<ref name="BSaM" /><math display="block">\rho(\boldsymbol\beta, \boldsymbol\Sigma_{\epsilon}) = \rho(\boldsymbol\Sigma_{\epsilon})\rho(\boldsymbol\beta|\boldsymbol\Sigma_{\epsilon}),</math>
<math display="block">\rho(\boldsymbol\beta, \boldsymbol\Sigma_{\epsilon}) = \rho(\boldsymbol\Sigma_{\epsilon})\rho(\boldsymbol\beta|\boldsymbol\Sigma_{\epsilon}),</math>
कहाँ<math display="block"> \rho(\boldsymbol\Sigma_{\epsilon}) \sim \mathcal{W}^{-1}(\mathbf V_0,\boldsymbol\nu_0)</math>
कहाँ
और<math display="block"> \rho(\boldsymbol\beta|\boldsymbol\Sigma_{\epsilon}) \sim N(\boldsymbol\beta_0, \boldsymbol\Sigma_{\epsilon} \otimes \boldsymbol\Lambda_0^{-1}).</math>
<math display="block"> \rho(\boldsymbol\Sigma_{\epsilon}) \sim \mathcal{W}^{-1}(\mathbf V_0,\boldsymbol\nu_0)</math>
और
<math display="block"> \rho(\boldsymbol\beta|\boldsymbol\Sigma_{\epsilon}) \sim N(\boldsymbol\beta_0, \boldsymbol\Sigma_{\epsilon} \otimes \boldsymbol\Lambda_0^{-1}).</math>
 


===पश्च वितरण===
===पश्च वितरण===
Line 109: Line 107:
={}& \left(\mathbf{Y} - \mathbf X \mathbf B_n \right)^\mathsf{T} \left(\mathbf{Y} - \mathbf X \mathbf B_n\right) + \left(\mathbf B_0 - \mathbf B_n\right)^\mathsf{T} \boldsymbol\Lambda_0 \left(\mathbf B_0 - \mathbf B_n\right) + \left(\mathbf{B} - \mathbf B_n\right)^\mathsf{T} \left(\mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0\right)\left(\mathbf B - \mathbf B_n\right),
={}& \left(\mathbf{Y} - \mathbf X \mathbf B_n \right)^\mathsf{T} \left(\mathbf{Y} - \mathbf X \mathbf B_n\right) + \left(\mathbf B_0 - \mathbf B_n\right)^\mathsf{T} \boldsymbol\Lambda_0 \left(\mathbf B_0 - \mathbf B_n\right) + \left(\mathbf{B} - \mathbf B_n\right)^\mathsf{T} \left(\mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0\right)\left(\mathbf B - \mathbf B_n\right),
\end{align}</math>
\end{align}</math>
साथ
साथ<math display="block">\mathbf B_n = \left(\mathbf{X}^\mathsf{T}\mathbf{X} + \boldsymbol\Lambda_0\right)^{-1}\left(\mathbf{X}^\mathsf{T} \mathbf{X} \hat{\mathbf{B}} + \boldsymbol\Lambda_0\mathbf B_0\right) = \left(\mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0\right)^{-1}\left(\mathbf{X}^\mathsf{T} \mathbf{Y} + \boldsymbol\Lambda_0 \mathbf B_0\right).</math>
<math display="block">\mathbf B_n = \left(\mathbf{X}^\mathsf{T}\mathbf{X} + \boldsymbol\Lambda_0\right)^{-1}\left(\mathbf{X}^\mathsf{T} \mathbf{X} \hat{\mathbf{B}} + \boldsymbol\Lambda_0\mathbf B_0\right) = \left(\mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0\right)^{-1}\left(\mathbf{X}^\mathsf{T} \mathbf{Y} + \boldsymbol\Lambda_0 \mathbf B_0\right).</math>
यह अब हमें पश्च भाग को अधिक उपयोगी रूप में लिखने की अनुमति देता है:<math display="block">\begin{align}
यह अब हमें पश्च भाग को अधिक उपयोगी रूप में लिखने की अनुमति देता है:
<math display="block">\begin{align}
\rho(\boldsymbol\beta,\boldsymbol\Sigma_{\epsilon}|\mathbf{Y},\mathbf{X})
\rho(\boldsymbol\beta,\boldsymbol\Sigma_{\epsilon}|\mathbf{Y},\mathbf{X})
\propto{}&|\boldsymbol\Sigma_{\epsilon}|^{-(\boldsymbol\nu_0 + m + n + 1)/2}\exp{(-\tfrac{1}{2}\operatorname{tr}((\mathbf V_0 + (\mathbf{Y}-\mathbf{XB_n})^\mathsf{T} (\mathbf{Y}-\mathbf{XB_n}) + (\mathbf B_n-\mathbf B_0)^\mathsf{T}\boldsymbol\Lambda_0(\mathbf B_n-\mathbf B_0))\boldsymbol\Sigma_{\epsilon}^{-1}))} \\
\propto{}&|\boldsymbol\Sigma_{\epsilon}|^{-(\boldsymbol\nu_0 + m + n + 1)/2}\exp{(-\tfrac{1}{2}\operatorname{tr}((\mathbf V_0 + (\mathbf{Y}-\mathbf{XB_n})^\mathsf{T} (\mathbf{Y}-\mathbf{XB_n}) + (\mathbf B_n-\mathbf B_0)^\mathsf{T}\boldsymbol\Lambda_0(\mathbf B_n-\mathbf B_0))\boldsymbol\Sigma_{\epsilon}^{-1}))} \\
&\times|\boldsymbol\Sigma_{\epsilon}|^{-k/2}\exp{(-\tfrac{1}{2}\operatorname{tr}((\mathbf{B}-\mathbf B_n)^\mathsf{T} (\mathbf{X}^T\mathbf{X} + \boldsymbol\Lambda_0) (\mathbf{B}-\mathbf B_n)\boldsymbol\Sigma_{\epsilon}^{-1}))}.
&\times|\boldsymbol\Sigma_{\epsilon}|^{-k/2}\exp{(-\tfrac{1}{2}\operatorname{tr}((\mathbf{B}-\mathbf B_n)^\mathsf{T} (\mathbf{X}^T\mathbf{X} + \boldsymbol\Lambda_0) (\mathbf{B}-\mathbf B_n)\boldsymbol\Sigma_{\epsilon}^{-1}))}.
\end{align}</math>
\end{align}</math>
यह [[मैट्रिक्स सामान्य वितरण]] के समय व्युत्क्रम-विशार्ट वितरण का रूप लेता है:
यह [[मैट्रिक्स सामान्य वितरण]] के समय व्युत्क्रम-विशार्ट वितरण का रूप लेता है:<math display="block">\rho(\boldsymbol\Sigma_{\epsilon}|\mathbf{Y},\mathbf{X}) \sim \mathcal{W}^{-1}(\mathbf V_n,\boldsymbol\nu_n)</math>
<math display="block">\rho(\boldsymbol\Sigma_{\epsilon}|\mathbf{Y},\mathbf{X}) \sim \mathcal{W}^{-1}(\mathbf V_n,\boldsymbol\nu_n)</math>
और<math display="block"> \rho(\mathbf{B}|\mathbf{Y},\mathbf{X},\boldsymbol\Sigma_{\epsilon}) \sim \mathcal{MN}_{k,m}(\mathbf B_n, \boldsymbol\Lambda_n^{-1}, \boldsymbol\Sigma_{\epsilon}).</math>
और
इस पश्च भाग के पैरामीटर इस प्रकार दिए गए हैं:<math display="block">\mathbf V_n = \mathbf V_0 + (\mathbf{Y}-\mathbf{XB_n})^\mathsf{T}(\mathbf{Y}-\mathbf{XB_n}) + (\mathbf B_n - \mathbf B_0)^\mathsf{T}\boldsymbol\Lambda_0(\mathbf B_n-\mathbf B_0)</math>
<math display="block"> \rho(\mathbf{B}|\mathbf{Y},\mathbf{X},\boldsymbol\Sigma_{\epsilon}) \sim \mathcal{MN}_{k,m}(\mathbf B_n, \boldsymbol\Lambda_n^{-1}, \boldsymbol\Sigma_{\epsilon}).</math>
इस पश्च भाग के पैरामीटर इस प्रकार दिए गए हैं:
<math display="block">\mathbf V_n = \mathbf V_0 + (\mathbf{Y}-\mathbf{XB_n})^\mathsf{T}(\mathbf{Y}-\mathbf{XB_n}) + (\mathbf B_n - \mathbf B_0)^\mathsf{T}\boldsymbol\Lambda_0(\mathbf B_n-\mathbf B_0)</math>
<math display="block">\boldsymbol\nu_n = \boldsymbol\nu_0 + n</math>
<math display="block">\boldsymbol\nu_n = \boldsymbol\nu_0 + n</math>
<math display="block">\mathbf B_n = (\mathbf{X}^\mathsf{T}\mathbf{X} + \boldsymbol\Lambda_0)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{Y} + \boldsymbol\Lambda_0\mathbf B_0)</math>
<math display="block">\mathbf B_n = (\mathbf{X}^\mathsf{T}\mathbf{X} + \boldsymbol\Lambda_0)^{-1}(\mathbf{X}^\mathsf{T} \mathbf{Y} + \boldsymbol\Lambda_0\mathbf B_0)</math>
<math display="block">\boldsymbol\Lambda_n = \mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0</math>
<math display="block">\boldsymbol\Lambda_n = \mathbf{X}^\mathsf{T} \mathbf{X} + \boldsymbol\Lambda_0</math>


==यह भी देखें==
==यह भी देखें==
Line 134: Line 126:
==संदर्भ==
==संदर्भ==
{{Reflist}}
{{Reflist}}
{{More footnotes|date=November 2010}}
* {{cite book |authorlink= George E. P. Box |last= Box |first= G. E. P. |author2-link=George Tiao |last2= Tiao |first2= G. C. |year= 1973 |title= Bayesian Inference in Statistical Analysis |chapter= 8 |publisher= Wiley |isbn= 0-471-57428-7 }}
* {{cite book |authorlink= George E. P. Box |last= Box |first= G. E. P. |author2-link=George Tiao |last2= Tiao |first2= G. C. |year= 1973 |title= Bayesian Inference in Statistical Analysis |chapter= 8 |publisher= Wiley |isbn= 0-471-57428-7 }}
* {{cite journal|last= Geisser|first= S. |year= 1965 |title= Bayesian Estimation in Multivariate Analysis |journal= [[The Annals of Mathematical Statistics]] |volume= 36 |issue= 1 |pages= 150&ndash;159 |jstor= 2238083}}
* {{cite journal|last= Geisser|first= S. |year= 1965 |title= Bayesian Estimation in Multivariate Analysis |journal= [[The Annals of Mathematical Statistics]] |volume= 36 |issue= 1 |pages= 150&ndash;159 |jstor= 2238083}}

Revision as of 19:48, 11 July 2023

आंकड़ों में, बायेसियन बहुभिन्नरूपी रैखिक प्रतिगमन है बहुभिन्नरूपी रैखिक प्रतिगमन के लिए बायेसियन अनुमान दृष्टिकोण, यानी रैखिक प्रतिगमन जहां अनुमानित परिणाम एकल अदिश यादृच्छिक चर के बजाय सहसंबद्ध यादृच्छिक चर का वेक्टर है। इस दृष्टिकोण का अधिक सामान्य उपचार एमएमएसई अनुमानक लेख में पाया जा सकता है।

विवरण

एक प्रतिगमन समस्या पर विचार करें जहां अनुमानित किया जाने वाला आश्रित चर वास्तविक-मूल्यवान अदिश राशि नहीं है, बल्कि सहसंबद्ध वास्तविक संख्याओं का एम-लंबाई वेक्टर है। जैसा कि मानक प्रतिगमन सेटअप में होता है, n अवलोकन होते हैं, जहां प्रत्येक अवलोकन i में k−1 व्याख्यात्मक चर होते हैं, जिन्हें वेक्टर में समूहीकृत किया जाता है लंबाई k की (जहां अवरोधन गुणांक की अनुमति देने के लिए 1 के मान के साथ डमी वैरिएबल (सांख्यिकी) जोड़ा गया है)। इसे प्रत्येक अवलोकन के लिए एम संबंधित प्रतिगमन समस्याओं के सेट के रूप में देखा जा सकता है:


जहां त्रुटियों का सेट सभी सहसंबद्ध हैं. समान रूप से, इसे एकल प्रतिगमन समस्या के रूप में देखा जा सकता है जहां परिणाम पंक्ति वेक्टर है और प्रतिगमन गुणांक वैक्टर दूसरे के बगल में रखे गए हैं, इस प्रकार:


गुणांक मैट्रिक्स बी है मैट्रिक्स जहां गुणांक वैक्टर प्रत्येक प्रतिगमन समस्या के लिए क्षैतिज रूप से स्टैक किया गया है:

शोर वेक्टर प्रत्येक अवलोकन के लिए i संयुक्त रूप से सामान्य है, ताकि किसी दिए गए अवलोकन के परिणाम सहसंबद्ध हों:

हम संपूर्ण प्रतिगमन समस्या को मैट्रिक्स रूप में इस प्रकार लिख सकते हैं:
जहां Y और E हैं matrices. डिज़ाइन मैट्रिक्स X है मानक रैखिक प्रतिगमन सेटअप के अनुसार, ऊर्ध्वाधर रूप से स्टैक्ड टिप्पणियों के साथ मैट्रिक्स:


शास्त्रीय, बारंबारतावादी रैखिक न्यूनतम वर्ग (गणित) समाधान केवल प्रतिगमन गुणांक के मैट्रिक्स का अनुमान लगाना है मूर-पेनरोज़ छद्म व्युत्क्रम का उपयोग करना|मूर-पेनरोज़ छद्म व्युत्क्रम:

बायेसियन समाधान प्राप्त करने के लिए, हमें सशर्त संभावना निर्दिष्ट करने की आवश्यकता है और फिर उपयुक्त संयुग्म पूर्व को ढूंढना होगा। बायेसियन रैखिक प्रतिगमन के अविभाज्य मामले के साथ, हम पाएंगे कि हम प्राकृतिक सशर्त संयुग्म पूर्व निर्दिष्ट कर सकते हैं (जो पैमाने पर निर्भर है)।

आइए हम अपनी सशर्त संभावना को इस प्रकार लिखें[1]

त्रुटि लिख रहा हूँ के अनुसार और पैदावार
हम प्राकृतिक संयुग्म पूर्व-संयुक्त घनत्व की तलाश करते हैं जो संभावना के समान कार्यात्मक रूप का है। चूंकि संभावना द्विघात है , हम संभावना को फिर से लिखते हैं इसलिए यह सामान्य है (शास्त्रीय नमूना अनुमान से विचलन)।

बायेसियन रैखिक प्रतिगमन के समान तकनीक का उपयोग करते हुए, हम योग-वर्ग तकनीक के मैट्रिक्स-रूप का उपयोग करके घातीय शब्द को विघटित करते हैं। यहां, हालांकि, हमें मैट्रिक्स डिफरेंशियल कैलकुलस (क्रोनकर उत्पाद और वैश्वीकरण (गणित) परिवर्तन) का भी उपयोग करने की आवश्यकता होगी।

सबसे पहले, आइए हम संभाव्यता के लिए नई अभिव्यक्ति प्राप्त करने के लिए वर्गों का योग लागू करें:


हम पूर्ववर्तियों के लिए सशर्त प्रपत्र विकसित करना चाहेंगे:

कहाँ व्युत्क्रम-विशार्ट वितरण है और मैट्रिक्स में सामान्य वितरण का कुछ रूप है . यह वैश्वीकरण (गणित) परिवर्तन का उपयोग करके पूरा किया जाता है, जो मैट्रिक्स के फ़ंक्शन से संभावना को परिवर्तित करता है वैक्टर के फ़ंक्शन के लिए .

लिखना

होने देना


कहाँ मैट्रिक्स ए और बी के क्रोनकर उत्पाद को दर्शाता है, बाहरी उत्पाद का सामान्यीकरण जो गुणा करता है ए द्वारा मैट्रिक्स उत्पन्न करने के लिए मैट्रिक्स मैट्रिक्स, जिसमें दो मैट्रिक्स के तत्वों के उत्पादों का प्रत्येक संयोजन शामिल होता है।

तब


जिससे ऐसी संभावना बनेगी जो सामान्य है .

अधिक सुव्यवस्थित रूप में संभावना के साथ, अब हम प्राकृतिक (सशर्त) संयुग्म पूर्व पा सकते हैं।

संयुग्मित पूर्व वितरण

वेक्टरकृत चर का उपयोग करने से पहले प्राकृतिक संयुग्म इस रूप का है:[1]

कहाँ
और

पश्च वितरण

उपरोक्त पूर्व और संभावना का उपयोग करते हुए, पश्च वितरण को इस प्रकार व्यक्त किया जा सकता है:[1]

कहाँ . शामिल शर्तें (के साथ) समूहीकृत किया जा सकता है ) का उपयोग करना: