भारित न्यूनतम वर्ग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{Short description|Method for model fitting in statistics}}
{{Short description|Method for model fitting in statistics}}
{{cleanup split|Least squares|Linear least squares (mathematics)|date=July 2018}}
{{cleanup split|कम से कम वर्गों|रैखिक न्यूनतम वर्ग (गणित)|date=जुलाई 2018}}
{{Regression bar}}
{{Regression bar}}


भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,<ref>{{Cite web| url=https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/weighted-regression/|title = Weighted regression}}</ref><ref>{{Cite web|url=https://blogs.sas.com/content/iml/2016/10/05/weighted-regression.html|title=Visualize a weighted regression}}</ref> सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण ([[विषमलैंगिकता]]) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी [[सामान्यीकृत न्यूनतम वर्ग]]ों की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं।
भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,<ref>{{Cite web| url=https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/weighted-regression/|title = Weighted regression}}</ref><ref>{{Cite web|url=https://blogs.sas.com/content/iml/2016/10/05/weighted-regression.html|title=Visualize a weighted regression}}</ref> सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण ([[विषमलैंगिकता]]) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी [[सामान्यीकृत न्यूनतम वर्ग]] की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं।


==सूत्रीकरण==
==सूत्रीकरण==
Line 15: Line 15:
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो  <math>\hat{\boldsymbol{\beta}}</math>  [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है।  
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो  <math>\hat{\boldsymbol{\beta}}</math>  [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है।  


गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, <math>\hat{\boldsymbol{\beta}}</math> एक [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है।  [[अलेक्जेंडर ऐटकेन]] ने दिखाया कि जब वर्ग अवशेषों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है,
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, <math>\hat{\boldsymbol{\beta}}</math> एक [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है।  [[अलेक्जेंडर ऐटकेन]] ने दिखाया कि जब वर्ग अवशिष्टों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है,
<math display="block">\begin{align}
<math display="block">\begin{align}
   S &= \sum_{i=1}^n W_{ii}{r_i}^2, &
   S &= \sum_{i=1}^n W_{ii}{r_i}^2, &
Line 25: Line 25:
<math display="block">\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.</math>
<math display="block">\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.</math>


जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार आव्युह, W=Ω<sup>−1</sup>, विकर्ण है, इन्हें इस प्रकार लिखा जा सकता है
जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार मैट्रिक्स, W=Ω−1, विकर्ण होता है, तो इन्हें इस प्रकार लिखा जा सकता है<math display="block">\mathbf{\left(X^\textsf{T} WX\right)\hat{\boldsymbol{\beta}} = X^\textsf{T}Wy}.</math>यदि त्रुटियों को सहसंबद्ध किया जाता है तो परिणामी अनुमानक नीला होता है यदि भार मैट्रिक्स अवलोकनों के  [[विचरण-सहप्रसरण मैट्रिक्स|विचरण-सहप्रसरण आव्युह]] के व्युत्क्रम के सामान्य  है।


यदि त्रुटियाँ सहसंबद्ध हैं, तो परिणामी अनुमानक नीला है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर है।
<math display="block">\mathbf{\left(X^\textsf{T} WX\right)\hat{\boldsymbol{\beta}} = X^\textsf{T}Wy}.</math>यदि त्रुटियाँ सहसंबद्ध हैं, तो परिणामी अनुमानक नीला है यदि भार मैट्रिक्स अवलोकनों के  [[विचरण-सहप्रसरण मैट्रिक्स|विचरण-सहप्रसरण आव्युह]] के व्युत्क्रम के सामान्य है।
जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को  <math>w_{ii} = \sqrt{W_{ii}}</math>. के रूप में कारक करने के रूप मे  गणना को सहज  बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:<math display="block">\mathbf{\left(X'^\textsf{T}X'\right)\hat{\boldsymbol{\beta}} = X'^\textsf{T}y'}\,</math>
जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को  <math>w_{ii} = \sqrt{W_{ii}}</math>. के रूप में कारक करने के रूप मे  गणना को सहज  बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:<math display="block">\mathbf{\left(X'^\textsf{T}X'\right)\hat{\boldsymbol{\beta}} = X'^\textsf{T}y'}\,</math>




जहां हम निम्नलिखित चिह्नित  आव्युह और सदिश  को परिभाषित करते हैं:   
जिस स्थान पर  हम निम्नलिखित चिह्नित  आव्युह और सदिश  को परिभाषित करते हैं:   
<math display="block">\begin{align}
<math display="block">\begin{align}
   \mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\
   \mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\
Line 48: Line 46:


==प्रेरणा==
==प्रेरणा==
कुछ मामलों में टिप्पणियों को महत्व दिया जा सकता है - उदाहरण के रूप मे , वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई वर्गों के भारित योग को कम कर सकता है:
कुछ मामलों में टिप्पणियों को महत्व प्रस्तुत  जा सकता है - उदाहरण के रूप मे , वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई भी वर्गों के भारित योग को कम कर सकता है:
<math display="block">
<math display="block">
   \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 =
   \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 =
   \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2.
   \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2.
</math>
</math>
कहाँ डब्ल्यू<sub>''i''</sub> > 0 वें अवलोकन का वजन है, और डब्ल्यू ऐसे वजन का [[विकर्ण मैट्रिक्स|विकर्ण आव्युह]] है।
जिस स्थान पर  w<sub>''i''</sub>> 0 वें अवलोकन का भार है, और W ऐसे भारों का [[विकर्ण मैट्रिक्स|विकर्ण आव्युह]] है।


आदर्श रूप से, वज़न माप के विचरण के गुणात्मक व्युत्क्रम के बराबर होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन [[सहसंबद्ध]] हैं, तो अभिव्यक्ति <math display="inline">S = \sum_k \sum_j r_k W_{kj} r_j\,</math> लागू होता है. इस मामले में वजन आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के बराबर होना चाहिए)।<ref name=strutz/>सामान्य समीकरण तब हैं:
आदर्श रूप से, भार  माप के विचरण के गुणात्मक व्युत्क्रम के समकक्ष होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन [[सहसंबद्ध]] हैं, तो अभिव्यक्ति <math display="inline">S = \sum_k \sum_j r_k W_{kj} r_j\,</math> लागू होता है. इस मामले में भार आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के समकक्ष होना चाहिए)।<ref name=strutz/>  
 
सामान्य समीकरण तब हैं:
<math display="block">\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.</math>
<math display="block">\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.</math>
इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है।
इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है।
Line 61: Line 61:
==समाधान==
==समाधान==


===पैरामीटर त्रुटियां और सहसंबंध{{anchor|Weighted parameter errors and correlation}}===
===पैरामीटर त्रुटियां और सहसंबंध===
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं
<math display="block">\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. </math>
<math display="block">\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. </math>
इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण आव्युह के रूप मे  एक अभिव्यक्ति टिप्पणियों में त्रुटियों से [[त्रुटि प्रसार]] के माध्यम से  प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के रूप मे  प्रसरण-सहप्रसरण आव्युह को एम के माध्यम से  और अनुमानित मापदंडों को एम के माध्यम से  निरूपित किया जाता है<sup>β</sup>. तब
इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण आव्युह के रूप मे  एक अभिव्यक्ति टिप्पणियों में त्रुटियों से [[त्रुटि प्रसार]] के माध्यम से  प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के रूप मे  प्रसरण-सहप्रसरण आव्युह को M के माध्यम से  और अनुमानित मापदंडों को M<sup>β</sup> के माध्यम से  निरूपित किया जाता है<sup>β</sup>
 
तब
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.</math>
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.</math>
<!-- Commented out: W is a diagonal matrix. so it is equal to its transpose {{Citation needed|date=August 2009|reason=Shouldn't that last inverted (X'*W*X) be transposed as well?}} -->
जब  {{math|1=''W'' = ''M''<sup>−1</sup>}}, तो यह सहज  हो जाता है
कब {{math|1=''W'' = ''M''<sup>−1</sup>}}, इससे यह सहज  हो जाता है
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1}.</math>
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1}.</math>
जब इकाई भार का उपयोग किया जाता है ({{math|1=''W'' = ''I''}}, अभिज्ञान आव्युह), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और समस्त समान हैं: {{math|1=''M'' = ''σ''<sup>2</sup>''I''}}, कहाँ {{math|''σ''<sup>2</sup>}} एक अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ<sup>2</sup>का अनुमान [[कम ची-वर्ग]] के माध्यम से लगाया जाता है <math>\chi^2_\nu</math>:
जब इकाई भार का उपयोग किया जाता है ({{math|1=''W'' = ''I''}}, अभिज्ञान आव्युह), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और समस्त समान हैं: {{math|1=''M'' = ''σ''<sup>2</sup>''I''}}, जिस स्थान पर {{math|''σ''<sup>2</sup>}}   अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ<sup>2</sup> का अनुमान [[कम ची-वर्ग]]  <math>\chi^2_\nu</math> के माध्यम से  लगाया जाता है
<math display="block">\begin{align}
<math display="block">\begin{align}
     M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\
     M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\
   \chi^2_\nu &= S/\nu,
   \chi^2_\nu &= S/\nu,
\end{align}</math>
\end{align}</math>
जहां S भारित #उद्देश्य फलन  का न्यूनतम मान है:
जिस स्थान पर  S भारित उद्देश्य फलन  का न्यूनतम मान है:
<math display="block">S = r^\textsf{T} W r =  \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.</math>
<math display="block">S = r^\textsf{T} W r =  \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.</math>
हर, <math>\nu = n - m</math>, [[स्वतंत्रता की डिग्री (सांख्यिकी)]] की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के रूप मे  स्वतंत्रता की डिग्री (सांख्यिकी)#प्रभावी स्वतंत्रता की डिग्री देखें।
प्रत्येक, <math>\nu = n - m</math>, [[स्वतंत्रता की डिग्री (सांख्यिकी)|स्वतंत्रता की उपाधि  (सांख्यिकी)]] की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के रूप मे  स्वतंत्रता (सांख्यिकी) की प्रभावी उपाधि  देखें।
 
समस्त मामलों में, पैरामीटर अनुमान  <math>\hat\beta_i</math> का विचरण <math>M^\beta_{ii}</math>  के माध्यम से  प्रस्तुत  गया है और पैरामीटर अनुमान  <math>\hat\beta_i</math> और  <math>\hat\beta_j</math> के मध्य  [[सहप्रसरण]]  <math>M^\beta_{ij}</math> के माध्यम से  प्रस्तुत  गया है।
 
[[मानक विचलन]] विचरण  <math>\sigma_i = \sqrt{M^\beta_{ii}}</math>  का वर्गमूल है,  और सहसंबंध गुणांक  <math>\rho_{ij} = M^\beta_{ij}/(\sigma_i \sigma_j)</math> के माध्यम से  प्रस्तुत  गया है।  ये त्रुटि अनुमान माप में मात्र  यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण  दीर्घतर है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर  [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक|पियर्सन परिणाम  महत्व सहसंबंध गुणांक(पीपीएमसीसी)]] होते हैं।               
 
===पैरामीटर  विश्वास्यता सीमाएँ===
{{Main article| विश्वास्यता  अंतराल}}


समस्त मामलों में, पैरामीटर अनुमान का विचरण <math>\hat\beta_i</math> के माध्यम से  दिया गया है <math>M^\beta_{ii}</math> और पैरामीटर अनुमानों के मध्य [[सहप्रसरण]] <math>\hat\beta_i</math> और <math>\hat\beta_j</math> के माध्यम से  दिया गया है <math>M^\beta_{ij}</math>. [[मानक विचलन]] विचरण का वर्गमूल है, <math>\sigma_i = \sqrt{M^\beta_{ii}}</math>, और सहसंबंध गुणांक के माध्यम से  दिया गया है <math>\rho_{ij} = M^\beta_{ij}/(\sigma_i \sigma_j)</math>. ये त्रुटि अनुमान माप में केवल यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण बड़ी है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है।
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर [[केंद्रीय सीमा प्रमेय]] के लिए स्वीकृत माना जाता है -  [[सामान्य वितरण]] वृत्तांत और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन  <math>\sigma</math> के मध्य  एक सामान्य वितरण से संबंधित है। उस धारणा के अनुसार  एकल अदिष्ट  पैरामीटर अनुमान के लिए इसकी अनुमानित मानक त्रुटि <math>se_{\beta}</math> (सामान्य न्यूनतम वर्ग) के संदर्भ में निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं:
ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक]] होते हैं।
* 68% कि अंतराल <math>\hat\beta \pm se_\beta</math> वास्तविक गुणांक मान को समाहित करता है। 
* 95% कि अंतराल <math>\hat\beta \pm 2se_\beta</math> वास्तविक गुणांक मान को समाहित करता है। 
* 99% कि अंतराल <math>\hat\beta \pm 2.5se_\beta</math> वास्तविक गुणांक मान को समाहित करता है।  


===पैरामीटर आत्मविश्वास सीमा===
जब n >> m हो तो यह धारणा अनुचित नहीं है। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर n-m उपाधि  की स्वतंत्रता (सांख्यिकी) के साथ एक विद्यार्थी  के टी-वितरण से संबंधित होंगे। जब n ≫ m विद्यार्थी  का टी-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये  विश्वास्यता सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को मात्र  एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे [[नमूनाकरण त्रुटि]] के अधीन हैं।<ref>{{cite book |title=प्रायोगिक डेटा का सांख्यिकीय विश्लेषण|last=Mandel |first=John |year=1964 |publisher=Interscience |location=New York }}</ref>
{{Main article|Confidence interval}}
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर [[केंद्रीय सीमा प्रमेय]] के रूप मे  आकर्षक माना जाता है - [[सामान्य वितरण]]#घटना और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के माध्य के साथ एक सामान्य वितरण से संबंधित है <math>\sigma</math>. उस धारणा के तहत इसकी अनुमानित मानक त्रुटि के संदर्भ में एकल स्केलर पैरामीटर अनुमान के रूप मे  निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं <math>se_{\beta}</math> (सामान्य न्यूनतम वर्ग#बड़े नमूना गुण दिए गए हैं):
* 68% वह अंतराल <math>\hat\beta \pm se_\beta</math> वास्तविक गुणांक मान शामिल है
* 95% वह अंतराल <math>\hat\beta \pm 2se_\beta</math> वास्तविक गुणांक मान शामिल है
* 99% वह अंतराल <math>\hat\beta \pm 2.5se_\beta</math> वास्तविक गुणांक मान शामिल है


यह धारणा अनुचित नहीं है जब n>>m। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर एन - एम डिग्री की स्वतंत्रता (सांख्यिकी) के साथ एक छात्र के टी-वितरण से संबंधित होंगे। जब n ≫ m छात्र का t-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये आत्मविश्वास सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को केवल एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे [[नमूनाकरण त्रुटि]] के अधीन हैं।<ref>{{cite book |title=प्रायोगिक डेटा का सांख्यिकीय विश्लेषण|last=Mandel |first=John |year=1964 |publisher=Interscience |location=New York }}</ref>
जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के विषय  में किसी भी धारणा का ध्यान दिए    बिना, चेबीचेव की असमानता का उपयोग संभावनाओं की उच्चतर परिबंध के लिए किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान  क्रमशः 100%, 25% और 11% हैं।
जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के बारे में किसी भी धारणा की परवाह किए बिना, चेमध्य ेव की असमानता का उपयोग संभावनाओं की ऊपरी सीमा के रूप मे  किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान  क्रमशः 100%, 25% और 11% हैं।


=== अवशिष्ट मान  और सहसंबंध ===
=== अवशिष्ट मान  और सहसंबंध ===


सांख्यिकी में त्रुटियाँ एवं अवशेष किसके के माध्यम से  किये गये प्रेक्षणों से सम्बन्धित हैं
सांख्यिकी में त्रुटियाँ एवं अवशिष्ट किसके के माध्यम से  किये गये प्रेक्षणों से सम्बन्धित हैं:
<math display="block">\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},</math>
<math display="block">\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},</math>
जहां H एक [[निष्क्रिय मैट्रिक्स|निष्क्रिय आव्युह]] है जिसे [[टोपी मैट्रिक्स|टोपी आव्युह]] के रूप में जाना जाता है:
जिस स्थान पर  H एक [[निष्क्रिय मैट्रिक्स|निष्क्रिय आव्युह]] है जिसे [[टोपी मैट्रिक्स|हैट आव्युह]] के रूप में जाना जाता है:
<math display="block">H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,</math>
<math display="block">H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,</math>
और I अभिज्ञान आव्युह है। अवशिष्टों का प्रसरण-सहप्रसरण आव्युह, एम <sup>r</sup>के माध्यम से  दिया गया है
और I अभिज्ञान आव्युह है। अवशिष्ट M<sup>r</sup> का प्रसरण-सहप्रसरण आव्युह के माध्यम से प्रस्तुत करा गया है
<math display="block">M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.</math>
<math display="block">M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.</math>
इस प्रकार अवशेष सहसंबद्ध होते हैं, भले ही अवलोकन न हों।
इस प्रकार अवलोकन न होने पर भी अवशिष्ट सहसंबद्ध होते हैं:


कब <math>W = M^{-1}</math>,
जब <math>W = M^{-1}</math>,
<math display="block">M^\mathbf{r} = (I - H) M.</math>
<math display="block">M^\mathbf{r} = (I - H) M.</math>
जब भी आदर्श फलन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के बराबर होता है। अवशेषों के रूप मे  अभिव्यक्ति को बायीं ओर से X से गुणा करें{{sup|T}} में{{sup|T}}:
जब भी आदर्श फलन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के समकक्ष होता है। अवशिष्टों के लिए अभिव्यक्ति को X{{sup|T}} W{{sup|T}} से बाएँ ओर से गुणा करें:
<math display="block">X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.</math>
<math display="block">X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.</math>
उदाहरण के रूप मे , कहें कि आदर्श का पहला पद एक स्थिरांक है, इसलिए <math>X_{i1} = 1</math> सबके रूप मे  मैं उस स्थिति में यह उसका अनुसरण करता है
उदाहरण के रूप मे, मान लें कि आदर्श का प्रथम  पद एक स्थिरांक है ताकि समस्त i के लिए  <math>X_{i1} = 1</math> है। उस स्थिति में यह उसका अनुसरण करता है
<math display="block">\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.</math>
<math display="block">\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.</math>
इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के बराबर है, आकस्मिक नहीं है, बल्कि आदर्श में स्थिर पद, α की उपस्थिति का परिणाम है।
इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के समकक्ष है, यह आकस्मिक नहीं है, बल्कि आदर्श में स्थिर पद, α की उपस्थिति का परिणाम है।


यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशेषों और अवलोकनों के मध्य  रैखिक संबंध के कारण, अवशेषों को भी ऐसा ही होना चाहिए,<ref>{{cite book |title=बहुभिन्नरूपी विश्लेषण|last=Mardia |first=K. V. |author2=Kent, J. T. |author3=Bibby, J. M.  |year=1979 |publisher=Academic Press |location=New York |isbn=0-12-471250-9 }}</ref> लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशेष एक छात्र के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक बड़ा प्रतीत होता है तो विद्यार्थीकृत अवशेष किसी बाह्य के रूप मे  सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।
यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशिष्टों और अवलोकनों के मध्य  रैखिक संबंध के कारण, अवशिष्टों को भी ऐसा ही होना चाहिए,<ref>{{cite book |title=बहुभिन्नरूपी विश्लेषण|last=Mardia |first=K. V. |author2=Kent, J. T. |author3=Bibby, J. M.  |year=1979 |publisher=Academic Press |location=New York |isbn=0-12-471250-9 }}</ref> लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशिष्ट एक विद्यार्थी  के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक उच्चतर प्रतीत होता है तो विद्यार्थीकृत अवशिष्ट किसी बाह्य के रूप मे  सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।


==यह भी देखें==
==यह भी देखें==

Revision as of 11:23, 13 July 2023

Template:Cleanup split

भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,[1][2] सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण (विषमलैंगिकता) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी सामान्यीकृत न्यूनतम वर्ग की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं।

सूत्रीकरण

किसी डेटा बिंदु पर आदर्श की उपयुक्त को उसके अवशिष्ट , के माध्यम से मापा जाता है, जिसे आश्रित चर के मापीय मान , और आदर्श के माध्यम से अनुमानित मान , : के मध्य अंतर के रूप में परिभाषित किया गया है।

यदि त्रुटियाँ असंबंधित हैं और उनमें समान भिन्नता है, तो फलन
पर इस प्रकार न्यूनतम किया जाता है कि है

गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है।

गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, एक सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। अलेक्जेंडर ऐटकेन ने दिखाया कि जब वर्ग अवशिष्टों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है,

वर्गों के इस योग के रूप मे क्रमिक समीकरण हैं
जो, एक रैखिक न्यूनतम वर्ग प्रणाली में संशोधित सामान्य समीकरण देते हैं,

जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार मैट्रिक्स, W=Ω−1, विकर्ण होता है, तो इन्हें इस प्रकार लिखा जा सकता है

यदि त्रुटियों को सहसंबद्ध किया जाता है तो परिणामी अनुमानक नीला होता है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के सामान्य है।

जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को . के रूप में कारक करने के रूप मे गणना को सहज बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:


जिस स्थान पर हम निम्नलिखित चिह्नित आव्युह और सदिश को परिभाषित करते हैं:

यह एक प्रकार का श्वेतक परिवर्तन है; अंतिम अभिव्यक्ति में प्रविष्टि सतर्कता विभाजन शामिल है।

अ-रेखीय न्यूनतम वर्ग प्रणालियों के रूप मे एक समान तर्क से ज्ञात होता है कि सामान्य समीकरणों को निम्नानुसार संशोधित किया जाना चाहिए।

ध्यान दें कि अनुभवजन्य परीक्षणों के रूप मे , उपयुक्त W निश्चित रूप से ज्ञात नहीं है और इसका अनुमान लगाया जाना चाहिए। इसके रूप मे व्यवहार्य सामान्यीकृत न्यूनतम वर्ग (एफजीएलएस) तकनीकों का उपयोग किया जा सकता है, इस मामले में यह एक विकर्ण सहप्रसरण आव्युह के रूप मे विशिष्ट है, जिससे एक व्यवहार्य भारित न्यूनतम वर्ग समाधान प्राप्त होता है।

यदि अवलोकनों की अनिश्चितता बाह्य स्रोतों से ज्ञात नहीं है तो दिए गए अवलोकनों से भार का अनुमान लगाया जा सकता है। उदाहरण के रूप मे बाह्य प्रभाव की अभिज्ञान करने के रूप मे यह उपयोगी हो सकता है। डेटा सेट से बाह्य प्रभाव निष्काषित कर जाने के पश्चात् भार को एक पर पुनः स्थापित किया जाना चाहिए।[3]


प्रेरणा

कुछ मामलों में टिप्पणियों को महत्व प्रस्तुत जा सकता है - उदाहरण के रूप मे , वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई भी वर्गों के भारित योग को कम कर सकता है:

जिस स्थान पर wi> 0 वें अवलोकन का भार है, और W ऐसे भारों का विकर्ण आव्युह है।

आदर्श रूप से, भार माप के विचरण के गुणात्मक व्युत्क्रम के समकक्ष होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन सहसंबद्ध हैं, तो अभिव्यक्ति लागू होता है. इस मामले में भार आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के समकक्ष होना चाहिए)।[3]

सामान्य समीकरण तब हैं:

इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है।

समाधान

पैरामीटर त्रुटियां और सहसंबंध

अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं

इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण आव्युह के रूप मे एक अभिव्यक्ति टिप्पणियों में त्रुटियों से त्रुटि प्रसार के माध्यम से प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के रूप मे प्रसरण-सहप्रसरण आव्युह को M के माध्यम से और अनुमानित मापदंडों को Mβ के माध्यम से निरूपित किया जाता हैβ

तब

जब W = M−1, तो यह सहज हो जाता है
जब इकाई भार का उपयोग किया जाता है (W = I, अभिज्ञान आव्युह), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और समस्त समान हैं: M = σ2I, जिस स्थान पर σ2 अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ2 का अनुमान कम ची-वर्ग के माध्यम से लगाया जाता है
जिस स्थान पर S भारित उद्देश्य फलन का न्यूनतम मान है:
प्रत्येक, , स्वतंत्रता की उपाधि (सांख्यिकी) की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के रूप मे स्वतंत्रता (सांख्यिकी) की प्रभावी उपाधि देखें।

समस्त मामलों में, पैरामीटर अनुमान का विचरण के माध्यम से प्रस्तुत गया है और पैरामीटर अनुमान और के मध्य सहप्रसरण के माध्यम से प्रस्तुत गया है।

मानक विचलन विचरण का वर्गमूल है, और सहसंबंध गुणांक के माध्यम से प्रस्तुत गया है। ये त्रुटि अनुमान माप में मात्र यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण दीर्घतर है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर पियर्सन परिणाम महत्व सहसंबंध गुणांक(पीपीएमसीसी) होते हैं।

पैरामीटर विश्वास्यता सीमाएँ

यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर केंद्रीय सीमा प्रमेय के लिए स्वीकृत माना जाता है - सामान्य वितरण वृत्तांत और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के मध्य एक सामान्य वितरण से संबंधित है। उस धारणा के अनुसार एकल अदिष्ट पैरामीटर अनुमान के लिए इसकी अनुमानित मानक त्रुटि (सामान्य न्यूनतम वर्ग) के संदर्भ में निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं:

  • 68% कि अंतराल वास्तविक गुणांक मान को समाहित करता है।
  • 95% कि अंतराल वास्तविक गुणांक मान को समाहित करता है।
  • 99% कि अंतराल वास्तविक गुणांक मान को समाहित करता है।

जब n >> m हो तो यह धारणा अनुचित नहीं है। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर n-m उपाधि की स्वतंत्रता (सांख्यिकी) के साथ एक विद्यार्थी के टी-वितरण से संबंधित होंगे। जब n ≫ m विद्यार्थी का टी-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये विश्वास्यता सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को मात्र एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे नमूनाकरण त्रुटि के अधीन हैं।[4]

जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के विषय में किसी भी धारणा का ध्यान दिए बिना, चेबीचेव की असमानता का उपयोग संभावनाओं की उच्चतर परिबंध के लिए किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान क्रमशः 100%, 25% और 11% हैं।

अवशिष्ट मान और सहसंबंध

सांख्यिकी में त्रुटियाँ एवं अवशिष्ट किसके के माध्यम से किये गये प्रेक्षणों से सम्बन्धित हैं:

जिस स्थान पर H एक निष्क्रिय आव्युह है जिसे हैट आव्युह के रूप में जाना जाता है:
और I अभिज्ञान आव्युह है। अवशिष्ट Mr का प्रसरण-सहप्रसरण आव्युह के माध्यम से प्रस्तुत करा गया है:
इस प्रकार अवलोकन न होने पर भी अवशिष्ट सहसंबद्ध होते हैं:

जब ,

जब भी आदर्श फलन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के समकक्ष होता है। अवशिष्टों के लिए अभिव्यक्ति को XT WT से बाएँ ओर से गुणा करें:
उदाहरण के रूप मे, मान लें कि आदर्श का प्रथम पद एक स्थिरांक है ताकि समस्त i के लिए है। उस स्थिति में यह उसका अनुसरण करता है
इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के समकक्ष है, यह आकस्मिक नहीं है, बल्कि आदर्श में स्थिर पद, α की उपस्थिति का परिणाम है।

यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशिष्टों और अवलोकनों के मध्य रैखिक संबंध के कारण, अवशिष्टों को भी ऐसा ही होना चाहिए,[5] लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशिष्ट एक विद्यार्थी के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक उच्चतर प्रतीत होता है तो विद्यार्थीकृत अवशिष्ट किसी बाह्य के रूप मे सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।

यह भी देखें

संदर्भ

  1. "Weighted regression".
  2. "Visualize a weighted regression".
  3. 3.0 3.1 Strutz, T. (2016). "3". डेटा फिटिंग और अनिश्चितता (भारित न्यूनतम वर्ग और उससे आगे का व्यावहारिक परिचय). Springer Vieweg. ISBN 978-3-658-11455-8.
  4. Mandel, John (1964). प्रायोगिक डेटा का सांख्यिकीय विश्लेषण. New York: Interscience.
  5. Mardia, K. V.; Kent, J. T.; Bibby, J. M. (1979). बहुभिन्नरूपी विश्लेषण. New York: Academic Press. ISBN 0-12-471250-9.