भारित न्यूनतम वर्ग: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Method for model fitting in statistics}} | {{Short description|Method for model fitting in statistics}} | ||
{{cleanup split| | {{cleanup split|कम से कम वर्गों|रैखिक न्यूनतम वर्ग (गणित)|date=जुलाई 2018}} | ||
{{Regression bar}} | {{Regression bar}} | ||
भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,<ref>{{Cite web| url=https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/weighted-regression/|title = Weighted regression}}</ref><ref>{{Cite web|url=https://blogs.sas.com/content/iml/2016/10/05/weighted-regression.html|title=Visualize a weighted regression}}</ref> सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण ([[विषमलैंगिकता]]) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी [[सामान्यीकृत न्यूनतम वर्ग]] | भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,<ref>{{Cite web| url=https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/weighted-regression/|title = Weighted regression}}</ref><ref>{{Cite web|url=https://blogs.sas.com/content/iml/2016/10/05/weighted-regression.html|title=Visualize a weighted regression}}</ref> सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण ([[विषमलैंगिकता]]) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी [[सामान्यीकृत न्यूनतम वर्ग]] की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं। | ||
==सूत्रीकरण== | ==सूत्रीकरण== | ||
Line 15: | Line 15: | ||
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो <math>\hat{\boldsymbol{\beta}}</math> [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। | गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो <math>\hat{\boldsymbol{\beta}}</math> [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। | ||
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, <math>\hat{\boldsymbol{\beta}}</math> एक [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। [[अलेक्जेंडर ऐटकेन]] ने दिखाया कि जब वर्ग | गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, <math>\hat{\boldsymbol{\beta}}</math> एक [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। [[अलेक्जेंडर ऐटकेन]] ने दिखाया कि जब वर्ग अवशिष्टों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है, | ||
<math display="block">\begin{align} | <math display="block">\begin{align} | ||
S &= \sum_{i=1}^n W_{ii}{r_i}^2, & | S &= \sum_{i=1}^n W_{ii}{r_i}^2, & | ||
Line 25: | Line 25: | ||
<math display="block">\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.</math> | <math display="block">\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.</math> | ||
जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार | जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार मैट्रिक्स, W=Ω−1, विकर्ण होता है, तो इन्हें इस प्रकार लिखा जा सकता है<math display="block">\mathbf{\left(X^\textsf{T} WX\right)\hat{\boldsymbol{\beta}} = X^\textsf{T}Wy}.</math>यदि त्रुटियों को सहसंबद्ध किया जाता है तो परिणामी अनुमानक नीला होता है यदि भार मैट्रिक्स अवलोकनों के [[विचरण-सहप्रसरण मैट्रिक्स|विचरण-सहप्रसरण आव्युह]] के व्युत्क्रम के सामान्य है। | ||
जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को <math>w_{ii} = \sqrt{W_{ii}}</math>. के रूप में कारक करने के रूप मे गणना को सहज बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:<math display="block">\mathbf{\left(X'^\textsf{T}X'\right)\hat{\boldsymbol{\beta}} = X'^\textsf{T}y'}\,</math> | जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को <math>w_{ii} = \sqrt{W_{ii}}</math>. के रूप में कारक करने के रूप मे गणना को सहज बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:<math display="block">\mathbf{\left(X'^\textsf{T}X'\right)\hat{\boldsymbol{\beta}} = X'^\textsf{T}y'}\,</math> | ||
जिस स्थान पर हम निम्नलिखित चिह्नित आव्युह और सदिश को परिभाषित करते हैं: | |||
<math display="block">\begin{align} | <math display="block">\begin{align} | ||
\mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\ | \mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\ | ||
Line 48: | Line 46: | ||
==प्रेरणा== | ==प्रेरणा== | ||
कुछ मामलों में टिप्पणियों को महत्व | कुछ मामलों में टिप्पणियों को महत्व प्रस्तुत जा सकता है - उदाहरण के रूप मे , वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई भी वर्गों के भारित योग को कम कर सकता है: | ||
<math display="block"> | <math display="block"> | ||
\underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 = | \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 = | ||
\underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2. | \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2. | ||
</math> | </math> | ||
जिस स्थान पर w<sub>''i''</sub>> 0 वें अवलोकन का भार है, और W ऐसे भारों का [[विकर्ण मैट्रिक्स|विकर्ण आव्युह]] है। | |||
आदर्श रूप से, | आदर्श रूप से, भार माप के विचरण के गुणात्मक व्युत्क्रम के समकक्ष होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन [[सहसंबद्ध]] हैं, तो अभिव्यक्ति <math display="inline">S = \sum_k \sum_j r_k W_{kj} r_j\,</math> लागू होता है. इस मामले में भार आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के समकक्ष होना चाहिए)।<ref name=strutz/> | ||
सामान्य समीकरण तब हैं: | |||
<math display="block">\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.</math> | <math display="block">\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.</math> | ||
इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है। | इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है। | ||
Line 61: | Line 61: | ||
==समाधान== | ==समाधान== | ||
===पैरामीटर त्रुटियां और सहसंबंध | ===पैरामीटर त्रुटियां और सहसंबंध=== | ||
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं | अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं | ||
<math display="block">\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. </math> | <math display="block">\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. </math> | ||
इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण आव्युह के रूप मे एक अभिव्यक्ति टिप्पणियों में त्रुटियों से [[त्रुटि प्रसार]] के माध्यम से प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के रूप मे प्रसरण-सहप्रसरण आव्युह को | इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण आव्युह के रूप मे एक अभिव्यक्ति टिप्पणियों में त्रुटियों से [[त्रुटि प्रसार]] के माध्यम से प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के रूप मे प्रसरण-सहप्रसरण आव्युह को M के माध्यम से और अनुमानित मापदंडों को M<sup>β</sup> के माध्यम से निरूपित किया जाता है<sup>β</sup>। | ||
तब | |||
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.</math> | <math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.</math> | ||
जब {{math|1=''W'' = ''M''<sup>−1</sup>}}, तो यह सहज हो जाता है | |||
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1}.</math> | <math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1}.</math> | ||
जब इकाई भार का उपयोग किया जाता है ({{math|1=''W'' = ''I''}}, अभिज्ञान आव्युह), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और समस्त समान हैं: {{math|1=''M'' = ''σ''<sup>2</sup>''I''}}, | जब इकाई भार का उपयोग किया जाता है ({{math|1=''W'' = ''I''}}, अभिज्ञान आव्युह), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और समस्त समान हैं: {{math|1=''M'' = ''σ''<sup>2</sup>''I''}}, जिस स्थान पर {{math|''σ''<sup>2</sup>}} अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ<sup>2</sup> का अनुमान [[कम ची-वर्ग]] <math>\chi^2_\nu</math> के माध्यम से लगाया जाता है | ||
<math display="block">\begin{align} | <math display="block">\begin{align} | ||
M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\ | M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\ | ||
\chi^2_\nu &= S/\nu, | \chi^2_\nu &= S/\nu, | ||
\end{align}</math> | \end{align}</math> | ||
जिस स्थान पर S भारित उद्देश्य फलन का न्यूनतम मान है: | |||
<math display="block">S = r^\textsf{T} W r = \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.</math> | <math display="block">S = r^\textsf{T} W r = \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.</math> | ||
प्रत्येक, <math>\nu = n - m</math>, [[स्वतंत्रता की डिग्री (सांख्यिकी)|स्वतंत्रता की उपाधि (सांख्यिकी)]] की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के रूप मे स्वतंत्रता (सांख्यिकी) की प्रभावी उपाधि देखें। | |||
समस्त मामलों में, पैरामीटर अनुमान <math>\hat\beta_i</math> का विचरण <math>M^\beta_{ii}</math> के माध्यम से प्रस्तुत गया है और पैरामीटर अनुमान <math>\hat\beta_i</math> और <math>\hat\beta_j</math> के मध्य [[सहप्रसरण]] <math>M^\beta_{ij}</math> के माध्यम से प्रस्तुत गया है। | |||
[[मानक विचलन]] विचरण <math>\sigma_i = \sqrt{M^\beta_{ii}}</math> का वर्गमूल है, और सहसंबंध गुणांक <math>\rho_{ij} = M^\beta_{ij}/(\sigma_i \sigma_j)</math> के माध्यम से प्रस्तुत गया है। ये त्रुटि अनुमान माप में मात्र यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण दीर्घतर है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक|पियर्सन परिणाम महत्व सहसंबंध गुणांक(पीपीएमसीसी)]] होते हैं। | |||
===पैरामीटर विश्वास्यता सीमाएँ=== | |||
{{Main article| विश्वास्यता अंतराल}} | |||
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर [[केंद्रीय सीमा प्रमेय]] के लिए स्वीकृत माना जाता है - [[सामान्य वितरण]] वृत्तांत और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन <math>\sigma</math> के मध्य एक सामान्य वितरण से संबंधित है। उस धारणा के अनुसार एकल अदिष्ट पैरामीटर अनुमान के लिए इसकी अनुमानित मानक त्रुटि <math>se_{\beta}</math> (सामान्य न्यूनतम वर्ग) के संदर्भ में निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं: | |||
* 68% कि अंतराल <math>\hat\beta \pm se_\beta</math> वास्तविक गुणांक मान को समाहित करता है। | |||
* 95% कि अंतराल <math>\hat\beta \pm 2se_\beta</math> वास्तविक गुणांक मान को समाहित करता है। | |||
* 99% कि अंतराल <math>\hat\beta \pm 2.5se_\beta</math> वास्तविक गुणांक मान को समाहित करता है। | |||
जब n >> m हो तो यह धारणा अनुचित नहीं है। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर n-m उपाधि की स्वतंत्रता (सांख्यिकी) के साथ एक विद्यार्थी के टी-वितरण से संबंधित होंगे। जब n ≫ m विद्यार्थी का टी-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये विश्वास्यता सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को मात्र एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे [[नमूनाकरण त्रुटि]] के अधीन हैं।<ref>{{cite book |title=प्रायोगिक डेटा का सांख्यिकीय विश्लेषण|last=Mandel |first=John |year=1964 |publisher=Interscience |location=New York }}</ref> | |||
यह | |||
जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के विषय में किसी भी धारणा का ध्यान दिए बिना, चेबीचेव की असमानता का उपयोग संभावनाओं की उच्चतर परिबंध के लिए किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान क्रमशः 100%, 25% और 11% हैं। | |||
जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के | |||
=== अवशिष्ट मान और सहसंबंध === | === अवशिष्ट मान और सहसंबंध === | ||
सांख्यिकी में त्रुटियाँ एवं | सांख्यिकी में त्रुटियाँ एवं अवशिष्ट किसके के माध्यम से किये गये प्रेक्षणों से सम्बन्धित हैं: | ||
<math display="block">\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},</math> | <math display="block">\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},</math> | ||
जिस स्थान पर H एक [[निष्क्रिय मैट्रिक्स|निष्क्रिय आव्युह]] है जिसे [[टोपी मैट्रिक्स|हैट आव्युह]] के रूप में जाना जाता है: | |||
<math display="block">H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,</math> | <math display="block">H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,</math> | ||
और I अभिज्ञान आव्युह है। | और I अभिज्ञान आव्युह है। अवशिष्ट M<sup>r</sup> का प्रसरण-सहप्रसरण आव्युह के माध्यम से प्रस्तुत करा गया है: | ||
<math display="block">M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.</math> | <math display="block">M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.</math> | ||
इस प्रकार | इस प्रकार अवलोकन न होने पर भी अवशिष्ट सहसंबद्ध होते हैं: | ||
जब <math>W = M^{-1}</math>, | |||
<math display="block">M^\mathbf{r} = (I - H) M.</math> | <math display="block">M^\mathbf{r} = (I - H) M.</math> | ||
जब भी आदर्श फलन | जब भी आदर्श फलन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के समकक्ष होता है। अवशिष्टों के लिए अभिव्यक्ति को X{{sup|T}} W{{sup|T}} से बाएँ ओर से गुणा करें: | ||
<math display="block">X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.</math> | <math display="block">X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.</math> | ||
उदाहरण के रूप मे , | उदाहरण के रूप मे, मान लें कि आदर्श का प्रथम पद एक स्थिरांक है ताकि समस्त i के लिए <math>X_{i1} = 1</math> है। उस स्थिति में यह उसका अनुसरण करता है | ||
<math display="block">\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.</math> | <math display="block">\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.</math> | ||
इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के | इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के समकक्ष है, यह आकस्मिक नहीं है, बल्कि आदर्श में स्थिर पद, α की उपस्थिति का परिणाम है। | ||
यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, | यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशिष्टों और अवलोकनों के मध्य रैखिक संबंध के कारण, अवशिष्टों को भी ऐसा ही होना चाहिए,<ref>{{cite book |title=बहुभिन्नरूपी विश्लेषण|last=Mardia |first=K. V. |author2=Kent, J. T. |author3=Bibby, J. M. |year=1979 |publisher=Academic Press |location=New York |isbn=0-12-471250-9 }}</ref> लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशिष्ट एक विद्यार्थी के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक उच्चतर प्रतीत होता है तो विद्यार्थीकृत अवशिष्ट किसी बाह्य के रूप मे सांख्यिकीय परीक्षण करने में उपयोगी होते हैं। | ||
==यह भी देखें== | ==यह भी देखें== |
Revision as of 11:23, 13 July 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,[1][2] सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण (विषमलैंगिकता) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी सामान्यीकृत न्यूनतम वर्ग की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं।
सूत्रीकरण
किसी डेटा बिंदु पर आदर्श की उपयुक्त को उसके अवशिष्ट , के माध्यम से मापा जाता है, जिसे आश्रित चर के मापीय मान , और आदर्श के माध्यम से अनुमानित मान , : के मध्य अंतर के रूप में परिभाषित किया गया है।
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है।
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, एक सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। अलेक्जेंडर ऐटकेन ने दिखाया कि जब वर्ग अवशिष्टों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है,
जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार मैट्रिक्स, W=Ω−1, विकर्ण होता है, तो इन्हें इस प्रकार लिखा जा सकता है
जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को . के रूप में कारक करने के रूप मे गणना को सहज बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:
जिस स्थान पर हम निम्नलिखित चिह्नित आव्युह और सदिश को परिभाषित करते हैं:
अ-रेखीय न्यूनतम वर्ग प्रणालियों के रूप मे एक समान तर्क से ज्ञात होता है कि सामान्य समीकरणों को निम्नानुसार संशोधित किया जाना चाहिए।
यदि अवलोकनों की अनिश्चितता बाह्य स्रोतों से ज्ञात नहीं है तो दिए गए अवलोकनों से भार का अनुमान लगाया जा सकता है। उदाहरण के रूप मे बाह्य प्रभाव की अभिज्ञान करने के रूप मे यह उपयोगी हो सकता है। डेटा सेट से बाह्य प्रभाव निष्काषित कर जाने के पश्चात् भार को एक पर पुनः स्थापित किया जाना चाहिए।[3]
प्रेरणा
कुछ मामलों में टिप्पणियों को महत्व प्रस्तुत जा सकता है - उदाहरण के रूप मे , वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई भी वर्गों के भारित योग को कम कर सकता है:
आदर्श रूप से, भार माप के विचरण के गुणात्मक व्युत्क्रम के समकक्ष होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन सहसंबद्ध हैं, तो अभिव्यक्ति लागू होता है. इस मामले में भार आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के समकक्ष होना चाहिए)।[3]
सामान्य समीकरण तब हैं:
समाधान
पैरामीटर त्रुटियां और सहसंबंध
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं
तब
समस्त मामलों में, पैरामीटर अनुमान का विचरण के माध्यम से प्रस्तुत गया है और पैरामीटर अनुमान और के मध्य सहप्रसरण के माध्यम से प्रस्तुत गया है।
मानक विचलन विचरण का वर्गमूल है, और सहसंबंध गुणांक के माध्यम से प्रस्तुत गया है। ये त्रुटि अनुमान माप में मात्र यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण दीर्घतर है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर पियर्सन परिणाम महत्व सहसंबंध गुणांक(पीपीएमसीसी) होते हैं।
पैरामीटर विश्वास्यता सीमाएँ
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर केंद्रीय सीमा प्रमेय के लिए स्वीकृत माना जाता है - सामान्य वितरण वृत्तांत और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के मध्य एक सामान्य वितरण से संबंधित है। उस धारणा के अनुसार एकल अदिष्ट पैरामीटर अनुमान के लिए इसकी अनुमानित मानक त्रुटि (सामान्य न्यूनतम वर्ग) के संदर्भ में निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं:
- 68% कि अंतराल वास्तविक गुणांक मान को समाहित करता है।
- 95% कि अंतराल वास्तविक गुणांक मान को समाहित करता है।
- 99% कि अंतराल वास्तविक गुणांक मान को समाहित करता है।
जब n >> m हो तो यह धारणा अनुचित नहीं है। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर n-m उपाधि की स्वतंत्रता (सांख्यिकी) के साथ एक विद्यार्थी के टी-वितरण से संबंधित होंगे। जब n ≫ m विद्यार्थी का टी-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये विश्वास्यता सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को मात्र एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे नमूनाकरण त्रुटि के अधीन हैं।[4]
जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के विषय में किसी भी धारणा का ध्यान दिए बिना, चेबीचेव की असमानता का उपयोग संभावनाओं की उच्चतर परिबंध के लिए किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान क्रमशः 100%, 25% और 11% हैं।
अवशिष्ट मान और सहसंबंध
सांख्यिकी में त्रुटियाँ एवं अवशिष्ट किसके के माध्यम से किये गये प्रेक्षणों से सम्बन्धित हैं:
जब ,
यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशिष्टों और अवलोकनों के मध्य रैखिक संबंध के कारण, अवशिष्टों को भी ऐसा ही होना चाहिए,[5] लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशिष्ट एक विद्यार्थी के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक उच्चतर प्रतीत होता है तो विद्यार्थीकृत अवशिष्ट किसी बाह्य के रूप मे सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।
यह भी देखें
- न्यूनतम वर्गों को पुनरावृत्त रूप से पुनः भारित किया गया
- विषमलैंगिकता-संगत मानक त्रुटियाँ
- भारित माध्य
संदर्भ
- ↑ "Weighted regression".
- ↑ "Visualize a weighted regression".
- ↑ 3.0 3.1 Strutz, T. (2016). "3". डेटा फिटिंग और अनिश्चितता (भारित न्यूनतम वर्ग और उससे आगे का व्यावहारिक परिचय). Springer Vieweg. ISBN 978-3-658-11455-8.
- ↑ Mandel, John (1964). प्रायोगिक डेटा का सांख्यिकीय विश्लेषण. New York: Interscience.
- ↑ Mardia, K. V.; Kent, J. T.; Bibby, J. M. (1979). बहुभिन्नरूपी विश्लेषण. New York: Academic Press. ISBN 0-12-471250-9.