भारित न्यूनतम वर्ग: Difference between revisions
(Created page with "{{Short description|Method for model fitting in statistics}} {{cleanup split|Least squares|Linear least squares (mathematics)|date=July 2018}} {{Regression bar}} भारि...") |
No edit summary |
||
Line 3: | Line 3: | ||
{{Regression bar}} | {{Regression bar}} | ||
भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,<ref>{{Cite web| url=https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/weighted-regression/|title = Weighted regression}}</ref><ref>{{Cite web|url=https://blogs.sas.com/content/iml/2016/10/05/weighted-regression.html|title=Visualize a weighted regression}}</ref> सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण ([[विषमलैंगिकता]]) का ज्ञान प्रतिगमन में शामिल किया जाता है। | भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,<ref>{{Cite web| url=https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/weighted-regression/|title = Weighted regression}}</ref><ref>{{Cite web|url=https://blogs.sas.com/content/iml/2016/10/05/weighted-regression.html|title=Visualize a weighted regression}}</ref> सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण ([[विषमलैंगिकता]]) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी [[सामान्यीकृत न्यूनतम वर्ग]]ों की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं। | ||
डब्लूएलएस भी [[सामान्यीकृत न्यूनतम वर्ग]]ों की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण | |||
== | ==सूत्रीकरण== | ||
किसी डेटा बिंदु पर आदर्श की उपयुक्त को उसके अवशिष्ट <math> r_i </math>, के माध्यम से मापा जाता है, जिसे आश्रित चर के मापीय मान , <math> y_i </math> और आदर्श के माध्यम से अनुमानित मान , <math>f(x_i, \boldsymbol\beta)</math>: के मध्य अंतर के रूप में परिभाषित किया गया है। | |||
<math display="block">r_i(\boldsymbol\beta) = y_i - f(x_i, \boldsymbol\beta).</math> | |||
यदि त्रुटियाँ असंबंधित हैं और उनमें समान भिन्नता है, तो | <math display="block">r_i(\boldsymbol\beta) = y_i - f(x_i, \boldsymbol\beta).</math> | ||
यदि त्रुटियाँ असंबंधित हैं और उनमें समान भिन्नता है, तो फलन | |||
<math display="block">S(\boldsymbol\beta) = \sum_i r_i(\boldsymbol\beta)^2,</math> | <math display="block">S(\boldsymbol\beta) = \sum_i r_i(\boldsymbol\beta)^2,</math> | ||
<math>\boldsymbol\hat\beta</math> पर इस प्रकार न्यूनतम किया जाता है कि <math>\frac{\partial S}{\partial\beta_j}(\hat\boldsymbol\beta) = 0</math> है | |||
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, <math>\hat{\boldsymbol{\beta}}</math> एक [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] ( | गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो <math>\hat{\boldsymbol{\beta}}</math> [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। | ||
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, <math>\hat{\boldsymbol{\beta}}</math> एक [[सर्वोत्तम रैखिक निष्पक्ष अनुमानक]] (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। [[अलेक्जेंडर ऐटकेन]] ने दिखाया कि जब वर्ग अवशेषों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है, | |||
<math display="block">\begin{align} | <math display="block">\begin{align} | ||
S &= \sum_{i=1}^n W_{ii}{r_i}^2, & | S &= \sum_{i=1}^n W_{ii}{r_i}^2, & | ||
W_{ii} &= \frac{1}{{\sigma_i}^2} | W_{ii} &= \frac{1}{{\sigma_i}^2} | ||
\end{align}</math> | \end{align}</math> | ||
वर्गों के इस योग के | वर्गों के इस योग के रूप मे क्रमिक समीकरण हैं | ||
<math display="block">-2\sum_i W_{ii}\frac{\partial f(x_i, \boldsymbol{\beta})}{\partial\beta_j} r_i = 0,\quad j = 1, \ldots, m</math> | <math display="block">-2\sum_i W_{ii}\frac{\partial f(x_i, \boldsymbol{\beta})}{\partial\beta_j} r_i = 0,\quad j = 1, \ldots, m</math> | ||
जो, एक रैखिक न्यूनतम वर्ग प्रणाली में संशोधित सामान्य समीकरण देते हैं, | जो, एक रैखिक न्यूनतम वर्ग प्रणाली में संशोधित सामान्य समीकरण देते हैं, | ||
<math display="block">\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.</math> | <math display="block">\sum_{i=1}^n \sum_{k=1}^m X_{ij}W_{ii}X_{ik}\hat{\beta}_k = \sum_{i=1}^n X_{ij}W_{ii}y_i,\quad j = 1, \ldots, m\,.</math> | ||
जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार आव्युह, W=Ω<sup>−1</sup>, विकर्ण है, इन्हें इस प्रकार लिखा जा सकता है | |||
<math display="block">\mathbf{\left(X^\textsf{T} WX\right)\hat{\boldsymbol{\beta}} = X^\textsf{T}Wy}.</math> | |||
यदि | यदि त्रुटियाँ सहसंबद्ध हैं, तो परिणामी अनुमानक नीला है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर है। | ||
<math display="block">\mathbf{\left(X^\textsf{T} WX\right)\hat{\boldsymbol{\beta}} = X^\textsf{T}Wy}.</math>यदि त्रुटियाँ सहसंबद्ध हैं, तो परिणामी अनुमानक नीला है यदि भार मैट्रिक्स अवलोकनों के [[विचरण-सहप्रसरण मैट्रिक्स|विचरण-सहप्रसरण आव्युह]] के व्युत्क्रम के सामान्य है। | |||
जब त्रुटियां असंबंधित होती हैं, तो भार आव्युह को <math>w_{ii} = \sqrt{W_{ii}}</math>. के रूप में कारक करने के रूप मे गणना को सहज बनाना सुविधाजनक होता है। तत्पश्चात सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:<math display="block">\mathbf{\left(X'^\textsf{T}X'\right)\hat{\boldsymbol{\beta}} = X'^\textsf{T}y'}\,</math> | |||
जहां हम निम्नलिखित चिह्नित आव्युह और सदिश को परिभाषित करते हैं: | |||
जहां हम निम्नलिखित | |||
<math display="block">\begin{align} | <math display="block">\begin{align} | ||
\mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\ | \mathbf{X'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{X},\\ | ||
\mathbf{y'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{y} = \mathbf{y} \oslash \mathbf{\sigma}. | \mathbf{y'} &= \operatorname{diag}\left(\mathbf{w}\right) \mathbf{y} = \mathbf{y} \oslash \mathbf{\sigma}. | ||
\end{align}</math> | \end{align}</math> | ||
यह एक प्रकार का | यह एक प्रकार का श्वेतक परिवर्तन है; अंतिम अभिव्यक्ति में [[प्रवेशवार विभाजन|प्रविष्टि सतर्कता]] विभाजन शामिल है। | ||
अ-रेखीय न्यूनतम वर्ग प्रणालियों के रूप मे एक समान तर्क से ज्ञात होता है कि सामान्य समीकरणों को निम्नानुसार संशोधित किया जाना चाहिए। | |||
<math display="block">\mathbf{\left(J^\textsf{T}WJ\right)\, \boldsymbol\Delta\beta = J^\textsf{T}W\, \boldsymbol\Delta y}.\,</math> | <math display="block">\mathbf{\left(J^\textsf{T}WJ\right)\, \boldsymbol\Delta\beta = J^\textsf{T}W\, \boldsymbol\Delta y}.\,</math> | ||
ध्यान दें कि अनुभवजन्य परीक्षणों के | ध्यान दें कि अनुभवजन्य परीक्षणों के रूप मे , उपयुक्त W निश्चित रूप से ज्ञात नहीं है और इसका अनुमान लगाया जाना चाहिए। इसके रूप मे [[व्यवहार्य सामान्यीकृत न्यूनतम वर्ग]] (एफजीएलएस) तकनीकों का उपयोग किया जा सकता है, इस मामले में यह एक विकर्ण सहप्रसरण आव्युह के रूप मे विशिष्ट है, जिससे एक व्यवहार्य भारित न्यूनतम वर्ग समाधान प्राप्त होता है। | ||
यदि अवलोकनों की अनिश्चितता बाह्य स्रोतों से ज्ञात नहीं है तो दिए गए अवलोकनों से भार का अनुमान लगाया जा सकता है। उदाहरण के रूप मे बाह्य प्रभाव की अभिज्ञान करने के रूप मे यह उपयोगी हो सकता है। डेटा सेट से बाह्य प्रभाव निष्काषित कर जाने के पश्चात् भार को एक पर पुनः स्थापित किया जाना चाहिए।<ref name="strutz">{{cite book|last=Strutz | first = T.| title=डेटा फिटिंग और अनिश्चितता (भारित न्यूनतम वर्ग और उससे आगे का व्यावहारिक परिचय)|publisher=Springer Vieweg | year=2016 | isbn= 978-3-658-11455-8 | chapter = 3}}</ref> | |||
==प्रेरणा== | ==प्रेरणा== | ||
कुछ मामलों में टिप्पणियों को महत्व दिया जा सकता है - उदाहरण के | कुछ मामलों में टिप्पणियों को महत्व दिया जा सकता है - उदाहरण के रूप मे , वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई वर्गों के भारित योग को कम कर सकता है: | ||
<math display="block"> | <math display="block"> | ||
\underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 = | \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \sum_{i=1}^{n} w_i \left|y_i - \sum_{j=1}^{m} X_{ij}\beta_j\right|^2 = | ||
\underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2. | \underset{\boldsymbol\beta}{\operatorname{arg\ min}}\, \left\|W^\frac{1}{2}\left(\mathbf{y} - X\boldsymbol\beta\right)\right\|^2. | ||
</math> | </math> | ||
कहाँ डब्ल्यू<sub>''i''</sub> > 0 वें अवलोकन का वजन है, और डब्ल्यू ऐसे वजन का [[विकर्ण मैट्रिक्स]] है। | कहाँ डब्ल्यू<sub>''i''</sub> > 0 वें अवलोकन का वजन है, और डब्ल्यू ऐसे वजन का [[विकर्ण मैट्रिक्स|विकर्ण आव्युह]] है। | ||
आदर्श रूप से, वज़न माप के विचरण के गुणात्मक व्युत्क्रम के बराबर होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन [[सहसंबद्ध]] हैं, तो अभिव्यक्ति <math display="inline">S = \sum_k \sum_j r_k W_{kj} r_j\,</math> लागू होता है. इस मामले में वजन | आदर्श रूप से, वज़न माप के विचरण के गुणात्मक व्युत्क्रम के बराबर होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन [[सहसंबद्ध]] हैं, तो अभिव्यक्ति <math display="inline">S = \sum_k \sum_j r_k W_{kj} r_j\,</math> लागू होता है. इस मामले में वजन आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के बराबर होना चाहिए)।<ref name=strutz/>सामान्य समीकरण तब हैं: | ||
<math display="block">\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.</math> | <math display="block">\left(X^\textsf{T} W X\right)\hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y}.</math> | ||
इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है। | इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है। | ||
Line 60: | Line 64: | ||
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं | अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं | ||
<math display="block">\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. </math> | <math display="block">\hat{\boldsymbol{\beta}} = (X^\textsf{T} W X)^{-1} X^\textsf{T} W \mathbf{y}. </math> | ||
इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण | इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण आव्युह के रूप मे एक अभिव्यक्ति टिप्पणियों में त्रुटियों से [[त्रुटि प्रसार]] के माध्यम से प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के रूप मे प्रसरण-सहप्रसरण आव्युह को एम के माध्यम से और अनुमानित मापदंडों को एम के माध्यम से निरूपित किया जाता है<sup>β</sup>. तब | ||
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.</math> | <math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W M W^\textsf{T} X \left(X^\textsf{T} W^\textsf{T} X\right)^{-1}.</math> | ||
<!-- Commented out: W is a diagonal matrix. so it is equal to its transpose {{Citation needed|date=August 2009|reason=Shouldn't that last inverted (X'*W*X) be transposed as well?}} --> | <!-- Commented out: W is a diagonal matrix. so it is equal to its transpose {{Citation needed|date=August 2009|reason=Shouldn't that last inverted (X'*W*X) be transposed as well?}} --> | ||
कब {{math|1=''W'' = ''M''<sup>−1</sup>}}, इससे यह | कब {{math|1=''W'' = ''M''<sup>−1</sup>}}, इससे यह सहज हो जाता है | ||
<math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1}.</math> | <math display="block">M^\beta = \left(X^\textsf{T} W X\right)^{-1}.</math> | ||
जब इकाई भार का उपयोग किया जाता है ({{math|1=''W'' = ''I''}}, | जब इकाई भार का उपयोग किया जाता है ({{math|1=''W'' = ''I''}}, अभिज्ञान आव्युह), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और समस्त समान हैं: {{math|1=''M'' = ''σ''<sup>2</sup>''I''}}, कहाँ {{math|''σ''<sup>2</sup>}} एक अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ<sup>2</sup>का अनुमान [[कम ची-वर्ग]] के माध्यम से लगाया जाता है <math>\chi^2_\nu</math>: | ||
<math display="block">\begin{align} | <math display="block">\begin{align} | ||
M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\ | M^\beta &= \chi^2_\nu\left(X^\textsf{T} W X\right)^{-1}, \\ | ||
\chi^2_\nu &= S/\nu, | \chi^2_\nu &= S/\nu, | ||
\end{align}</math> | \end{align}</math> | ||
जहां S भारित #उद्देश्य | जहां S भारित #उद्देश्य फलन का न्यूनतम मान है: | ||
<math display="block">S = r^\textsf{T} W r = \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.</math> | <math display="block">S = r^\textsf{T} W r = \left\|W^\frac{1}{2}\left(\mathbf{y} - X\hat{\boldsymbol\beta}\right)\right\|^2.</math> | ||
हर, <math>\nu = n - m</math>, [[स्वतंत्रता की डिग्री (सांख्यिकी)]] की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के | हर, <math>\nu = n - m</math>, [[स्वतंत्रता की डिग्री (सांख्यिकी)]] की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के रूप मे स्वतंत्रता की डिग्री (सांख्यिकी)#प्रभावी स्वतंत्रता की डिग्री देखें। | ||
समस्त मामलों में, पैरामीटर अनुमान का विचरण <math>\hat\beta_i</math> के माध्यम से दिया गया है <math>M^\beta_{ii}</math> और पैरामीटर अनुमानों के मध्य [[सहप्रसरण]] <math>\hat\beta_i</math> और <math>\hat\beta_j</math> के माध्यम से दिया गया है <math>M^\beta_{ij}</math>. [[मानक विचलन]] विचरण का वर्गमूल है, <math>\sigma_i = \sqrt{M^\beta_{ii}}</math>, और सहसंबंध गुणांक के माध्यम से दिया गया है <math>\rho_{ij} = M^\beta_{ij}/(\sigma_i \sigma_j)</math>. ये त्रुटि अनुमान माप में केवल यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण बड़ी है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। | |||
ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक]] होते हैं। | ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक]] होते हैं। | ||
===पैरामीटर आत्मविश्वास सीमा=== | ===पैरामीटर आत्मविश्वास सीमा=== | ||
{{Main article|Confidence interval}} | {{Main article|Confidence interval}} | ||
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर [[केंद्रीय सीमा प्रमेय]] के | यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर [[केंद्रीय सीमा प्रमेय]] के रूप मे आकर्षक माना जाता है - [[सामान्य वितरण]]#घटना और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के माध्य के साथ एक सामान्य वितरण से संबंधित है <math>\sigma</math>. उस धारणा के तहत इसकी अनुमानित मानक त्रुटि के संदर्भ में एकल स्केलर पैरामीटर अनुमान के रूप मे निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं <math>se_{\beta}</math> (सामान्य न्यूनतम वर्ग#बड़े नमूना गुण दिए गए हैं): | ||
* 68% वह अंतराल <math>\hat\beta \pm se_\beta</math> वास्तविक गुणांक मान शामिल है | * 68% वह अंतराल <math>\hat\beta \pm se_\beta</math> वास्तविक गुणांक मान शामिल है | ||
* 95% वह अंतराल <math>\hat\beta \pm 2se_\beta</math> वास्तविक गुणांक मान शामिल है | * 95% वह अंतराल <math>\hat\beta \pm 2se_\beta</math> वास्तविक गुणांक मान शामिल है | ||
Line 85: | Line 89: | ||
यह धारणा अनुचित नहीं है जब n>>m। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर एन - एम डिग्री की स्वतंत्रता (सांख्यिकी) के साथ एक छात्र के टी-वितरण से संबंधित होंगे। जब n ≫ m छात्र का t-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये आत्मविश्वास सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को केवल एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे [[नमूनाकरण त्रुटि]] के अधीन हैं।<ref>{{cite book |title=प्रायोगिक डेटा का सांख्यिकीय विश्लेषण|last=Mandel |first=John |year=1964 |publisher=Interscience |location=New York }}</ref> | यह धारणा अनुचित नहीं है जब n>>m। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर एन - एम डिग्री की स्वतंत्रता (सांख्यिकी) के साथ एक छात्र के टी-वितरण से संबंधित होंगे। जब n ≫ m छात्र का t-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये आत्मविश्वास सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को केवल एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे [[नमूनाकरण त्रुटि]] के अधीन हैं।<ref>{{cite book |title=प्रायोगिक डेटा का सांख्यिकीय विश्लेषण|last=Mandel |first=John |year=1964 |publisher=Interscience |location=New York }}</ref> | ||
जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के बारे में किसी भी धारणा की परवाह किए बिना, | जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के बारे में किसी भी धारणा की परवाह किए बिना, चेमध्य ेव की असमानता का उपयोग संभावनाओं की ऊपरी सीमा के रूप मे किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान क्रमशः 100%, 25% और 11% हैं। | ||
=== अवशिष्ट | === अवशिष्ट मान और सहसंबंध === | ||
सांख्यिकी में त्रुटियाँ एवं अवशेष किसके | सांख्यिकी में त्रुटियाँ एवं अवशेष किसके के माध्यम से किये गये प्रेक्षणों से सम्बन्धित हैं | ||
<math display="block">\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},</math> | <math display="block">\mathbf{\hat r} = \mathbf{y} - X \hat{\boldsymbol{\beta}} = \mathbf{y} - H \mathbf{y} = (I - H) \mathbf{y},</math> | ||
जहां H एक [[निष्क्रिय मैट्रिक्स]] है जिसे [[टोपी मैट्रिक्स]] के रूप में जाना जाता है: | जहां H एक [[निष्क्रिय मैट्रिक्स|निष्क्रिय आव्युह]] है जिसे [[टोपी मैट्रिक्स|टोपी आव्युह]] के रूप में जाना जाता है: | ||
<math display="block">H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,</math> | <math display="block">H = X \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W,</math> | ||
और I | और I अभिज्ञान आव्युह है। अवशिष्टों का प्रसरण-सहप्रसरण आव्युह, एम <sup>r</sup>के माध्यम से दिया गया है | ||
<math display="block">M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.</math> | <math display="block">M^\mathbf{r} = (I - H) M (I - H)^\textsf{T}.</math> | ||
इस प्रकार अवशेष सहसंबद्ध होते हैं, भले ही अवलोकन न हों। | इस प्रकार अवशेष सहसंबद्ध होते हैं, भले ही अवलोकन न हों। | ||
Line 99: | Line 103: | ||
कब <math>W = M^{-1}</math>, | कब <math>W = M^{-1}</math>, | ||
<math display="block">M^\mathbf{r} = (I - H) M.</math> | <math display="block">M^\mathbf{r} = (I - H) M.</math> | ||
जब भी | जब भी आदर्श फलन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के बराबर होता है। अवशेषों के रूप मे अभिव्यक्ति को बायीं ओर से X से गुणा करें{{sup|T}} में{{sup|T}}: | ||
<math display="block">X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.</math> | <math display="block">X^\textsf{T} W \hat{\mathbf r} = X^\textsf{T} W \mathbf{y} - X^\textsf{T} W X \hat{\boldsymbol{\beta}} = X^\textsf{T} W \mathbf{y} - \left(X^{\rm T}W X\right) \left(X^\textsf{T} W X\right)^{-1} X^\textsf{T} W \mathbf{y} = \mathbf{0}.</math> | ||
उदाहरण के | उदाहरण के रूप मे , कहें कि आदर्श का पहला पद एक स्थिरांक है, इसलिए <math>X_{i1} = 1</math> सबके रूप मे मैं उस स्थिति में यह उसका अनुसरण करता है | ||
<math display="block">\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.</math> | <math display="block">\sum_i^m X_{i1} W_i\hat r_i = \sum_i^m W_i \hat r_i = 0.</math> | ||
इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के बराबर है, आकस्मिक नहीं है, बल्कि | इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के बराबर है, आकस्मिक नहीं है, बल्कि आदर्श में स्थिर पद, α की उपस्थिति का परिणाम है। | ||
यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशेषों और अवलोकनों के | यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशेषों और अवलोकनों के मध्य रैखिक संबंध के कारण, अवशेषों को भी ऐसा ही होना चाहिए,<ref>{{cite book |title=बहुभिन्नरूपी विश्लेषण|last=Mardia |first=K. V. |author2=Kent, J. T. |author3=Bibby, J. M. |year=1979 |publisher=Academic Press |location=New York |isbn=0-12-471250-9 }}</ref> लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशेष एक छात्र के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक बड़ा प्रतीत होता है तो विद्यार्थीकृत अवशेष किसी बाह्य के रूप मे सांख्यिकीय परीक्षण करने में उपयोगी होते हैं। | ||
==यह भी देखें== | ==यह भी देखें== |
Revision as of 02:01, 13 July 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,[1][2] सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण (विषमलैंगिकता) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी सामान्यीकृत न्यूनतम वर्गों की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण आव्युह की समस्त संवृत विकर्ण प्रविष्टियां शून्य होती हैं।
सूत्रीकरण
किसी डेटा बिंदु पर आदर्श की उपयुक्त को उसके अवशिष्ट , के माध्यम से मापा जाता है, जिसे आश्रित चर के मापीय मान , और आदर्श के माध्यम से अनुमानित मान , : के मध्य अंतर के रूप में परिभाषित किया गया है।
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा होता है, तो सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है।
गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, एक सर्वोत्तम रैखिक निष्पक्ष अनुमानक (सर्वोत्तम लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। अलेक्जेंडर ऐटकेन ने दिखाया कि जब वर्ग अवशेषों का भारित योग न्यूनतम किया जाता है, तो 1 नीला होता है यदि प्रत्येक वजन माप के विचरण के व्युत्क्रम के अनुरूप होता है,
जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार आव्युह, W=Ω−1, विकर्ण है, इन्हें इस प्रकार लिखा जा सकता है
यदि त्रुटियाँ सहसंबद्ध हैं, तो परिणामी अनुमानक नीला है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर है।
जहां हम निम्नलिखित चिह्नित आव्युह और सदिश को परिभाषित करते हैं:
अ-रेखीय न्यूनतम वर्ग प्रणालियों के रूप मे एक समान तर्क से ज्ञात होता है कि सामान्य समीकरणों को निम्नानुसार संशोधित किया जाना चाहिए।
यदि अवलोकनों की अनिश्चितता बाह्य स्रोतों से ज्ञात नहीं है तो दिए गए अवलोकनों से भार का अनुमान लगाया जा सकता है। उदाहरण के रूप मे बाह्य प्रभाव की अभिज्ञान करने के रूप मे यह उपयोगी हो सकता है। डेटा सेट से बाह्य प्रभाव निष्काषित कर जाने के पश्चात् भार को एक पर पुनः स्थापित किया जाना चाहिए।[3]
प्रेरणा
कुछ मामलों में टिप्पणियों को महत्व दिया जा सकता है - उदाहरण के रूप मे , वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई वर्गों के भारित योग को कम कर सकता है:
आदर्श रूप से, वज़न माप के विचरण के गुणात्मक व्युत्क्रम के बराबर होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन सहसंबद्ध हैं, तो अभिव्यक्ति लागू होता है. इस मामले में वजन आव्युह आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण आव्युह के व्युत्क्रम के बराबर होना चाहिए)।[3]सामान्य समीकरण तब हैं:
समाधान
पैरामीटर त्रुटियां और सहसंबंध
अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं
समस्त मामलों में, पैरामीटर अनुमान का विचरण के माध्यम से दिया गया है और पैरामीटर अनुमानों के मध्य सहप्रसरण और के माध्यम से दिया गया है . मानक विचलन विचरण का वर्गमूल है, , और सहसंबंध गुणांक के माध्यम से दिया गया है . ये त्रुटि अनुमान माप में केवल यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण बड़ी है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर पियर्सन उत्पाद-क्षण सहसंबंध गुणांक होते हैं।
पैरामीटर आत्मविश्वास सीमा
यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर केंद्रीय सीमा प्रमेय के रूप मे आकर्षक माना जाता है - सामान्य वितरण#घटना और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के माध्य के साथ एक सामान्य वितरण से संबंधित है . उस धारणा के तहत इसकी अनुमानित मानक त्रुटि के संदर्भ में एकल स्केलर पैरामीटर अनुमान के रूप मे निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं (सामान्य न्यूनतम वर्ग#बड़े नमूना गुण दिए गए हैं):
- 68% वह अंतराल वास्तविक गुणांक मान शामिल है
- 95% वह अंतराल वास्तविक गुणांक मान शामिल है
- 99% वह अंतराल वास्तविक गुणांक मान शामिल है
यह धारणा अनुचित नहीं है जब n>>m। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर एन - एम डिग्री की स्वतंत्रता (सांख्यिकी) के साथ एक छात्र के टी-वितरण से संबंधित होंगे। जब n ≫ m छात्र का t-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये आत्मविश्वास सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को केवल एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे नमूनाकरण त्रुटि के अधीन हैं।[4] जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के बारे में किसी भी धारणा की परवाह किए बिना, चेमध्य ेव की असमानता का उपयोग संभावनाओं की ऊपरी सीमा के रूप मे किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मान क्रमशः 100%, 25% और 11% हैं।
अवशिष्ट मान और सहसंबंध
सांख्यिकी में त्रुटियाँ एवं अवशेष किसके के माध्यम से किये गये प्रेक्षणों से सम्बन्धित हैं
कब ,
यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशेषों और अवलोकनों के मध्य रैखिक संबंध के कारण, अवशेषों को भी ऐसा ही होना चाहिए,[5] लेकिन चूँकि अवलोकन समस्त संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशेष एक छात्र के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक बड़ा प्रतीत होता है तो विद्यार्थीकृत अवशेष किसी बाह्य के रूप मे सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।
यह भी देखें
- न्यूनतम वर्गों को पुनरावृत्त रूप से पुनः भारित किया गया
- विषमलैंगिकता-संगत मानक त्रुटियाँ
- भारित माध्य
संदर्भ
- ↑ "Weighted regression".
- ↑ "Visualize a weighted regression".
- ↑ 3.0 3.1 Strutz, T. (2016). "3". डेटा फिटिंग और अनिश्चितता (भारित न्यूनतम वर्ग और उससे आगे का व्यावहारिक परिचय). Springer Vieweg. ISBN 978-3-658-11455-8.
- ↑ Mandel, John (1964). प्रायोगिक डेटा का सांख्यिकीय विश्लेषण. New York: Interscience.
- ↑ Mardia, K. V.; Kent, J. T.; Bibby, J. M. (1979). बहुभिन्नरूपी विश्लेषण. New York: Academic Press. ISBN 0-12-471250-9.