रैखिक न्यूनतम वर्ग: Difference between revisions
No edit summary |
No edit summary |
||
(15 intermediate revisions by 5 users not shown) | |||
Line 2: | Line 2: | ||
{{Regression bar}} | {{Regression bar}} | ||
रेखीय न्यूनतम वर्ग (LLS) डेटा के [[रैखिक कार्य]] | रेखीय न्यूनतम वर्ग (LLS) डेटा के [[रैखिक कार्य]] का न्यूनतम वर्ग सन्निकटन रहता है। | ||
यह [[रेखीय प्रतिगमन]] में सम्मिलित सांख्यिकीय समस्याओं को हल करने के लिए | |||
रेखीय कम से कम वर्गों के लिए संख्यात्मक | यह [[रेखीय प्रतिगमन]] में सम्मिलित सांख्यिकीय समस्याओं को हल करने के लिए इनके योग का समुच्चय है, जिसमें सामान्य न्यूनतम वर्ग (अनवेटेड), भारित न्यूनतम वर्ग और [[सामान्यीकृत न्यूनतम वर्ग]] (सहसंबद्ध) [[अवशिष्ट (सांख्यिकी)]] सम्मिलित हैं। | ||
इस प्रकार रेखीय कम से कम वर्गों के लिए संख्यात्मक विधियों में सामान्य समीकरणों और [[मैट्रिक्स अपघटन|आव्यूह अपघटन]] विधियों के आव्यूह को परिवर्तित करना सम्मिलित है। | |||
== मुख्य फॉर्मूलेशन == | == मुख्य फॉर्मूलेशन == | ||
तीन मुख्य रैखिक न्यूनतम वर्ग योग हैं: | तीन मुख्य रैखिक न्यूनतम वर्ग योग हैं: | ||
* सामान्य न्यूनतम वर्ग ( | * सामान्य न्यूनतम वर्ग (ओएलएस) सबसे सामान्य अनुमानक है। ओएलएस अनुमानों का [[प्रयोग]] सामान्यतः प्रयोगात्मक और अवलोकन संबंधी अध्ययन डेटा दोनों का विश्लेषण करने के लिए किया जाता है। ओएलएस पद्धति आँकड़ों में प्राप्त त्रुटियों और अवशिष्टों के योग को कम करती है, और अज्ञात पैरामीटर सदिश β के अनुमानित मान के लिए बंद-रूप अभिव्यक्ति की ओर ले जाती है: <math display="block"> | ||
\hat{\boldsymbol\beta} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1} \mathbf{X}^\mathsf{T} \mathbf{y}, | \hat{\boldsymbol\beta} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1} \mathbf{X}^\mathsf{T} \mathbf{y}, | ||
</math> | </math> जहाँ <math>\mathbf{y}</math> वेक्टर है जिसका iवाँ अवयव [[निर्भर चर|निर्भर वैरियेबल]] का iवाँ अवलोकन है, और <math>\mathbf{X}</math> आव्यूह है जिसका ij अवयव jवें [[स्वतंत्र चर|स्वतंत्र]] वैरियेबल का iवां प्रेक्षण मान है। इस अनुमानक और सुसंगत अनुमानक का पूर्वाग्रह है यदि त्रुटियों में परिमित विचरण है और प्रतिगामी के साथ असंबद्ध हैं:<ref>{{cite journal | last1=Lai | first1=T.L. | last2=Robbins | first2=H. | last3=Wei | first3=C.Z. | journal=[[Proceedings of the National Academy of Sciences|PNAS]] | year=1978 | volume=75 | title=एकाधिक प्रतिगमन में कम से कम वर्गों के अनुमानों की मजबूत स्थिरता| issue=7 | pages=3034–3036 | doi= 10.1073/pnas.75.7.3034 | pmid=16592540 | jstor=68164 | bibcode=1978PNAS...75.3034L | pmc=392707 | doi-access=free }}</ref> <math display="block"> | ||
\operatorname{E}[\,\mathbf{x}_i\varepsilon_i\,] = 0, | \operatorname{E}[\,\mathbf{x}_i\varepsilon_i\,] = 0, | ||
</math> | </math> जहाँ <math>\mathbf{x}_i</math> आव्यूह की पंक्ति i का स्थानान्तरण <math>\mathbf{X}.</math> है, इस धारणा के अनुसार [[दक्षता (सांख्यिकी)]] भी है कि त्रुटियों में परिमित विचरण है और समरूपता को प्रकट करती है, जिसका अर्थ है कि E[''ε<sub>i</sub>''<sup>2</sup>|'''x'''<sub>''i''</sub>] पर निर्भर नहीं करती है। इस स्थिति की त्रुटियां प्रतिगमनकर्ताओं के साथ असंबद्ध रहती हैं, सामान्यतः प्रयोग में संतुष्ट होंगी, किन्तु अवलोकन संबंधी डेटा की स्थिति में, छोड़े गए सहसंयोजक z की संभावना को बाहर करना कठिन होता है जो कि देखे गए सहसंयोजक और प्रतिक्रिया वैरियेबल दोनों से संबंधित है, इस प्रकार के सहसंयोजक का अस्तित्व सामान्यतः प्रतिगामी और प्रतिक्रिया वैरियेबल के बीच सहसंबंध की ओर ले जाता हैं, और इसलिए 'β' के असंगत अनुमानक के लिए इसका उपयोग किया जाता हैं। इस समरूपता की स्थिति प्रयोगात्मक या अवलोकन संबंधी डेटा के साथ विफल हो सकती है। यदि लक्ष्य या तो अनुमान या भविष्य कहने वाला मॉडलिंग को प्रकट करता हैं, तो बहुसंरेखता उपस्तिथ होने पर ओएलएस अनुमानों का प्रदर्शन बुरा हो सकता है, जब तक कि नमूना आकार बड़ा न हो। | ||
* 'भारित न्यूनतम वर्ग' (WLS) का उपयोग तब किया जाता है जब मॉडल की त्रुटि शर्तों में [[विषमलैंगिकता]] उपस्तिथ होती है। | * 'भारित न्यूनतम वर्ग' (WLS) का उपयोग तब किया जाता है जब मॉडल की त्रुटि शर्तों में [[विषमलैंगिकता]] उपस्तिथ होती है। | ||
* 'सामान्यीकृत न्यूनतम वर्ग' (जीएलएस) ओएलएस पद्धति का विस्तार है, जो β के कुशल अनुमान की अनुमति देता है जब या तो विषमलैंगिकता, या सहसंबंध, या दोनों मॉडल की त्रुटि शर्तों के बीच उपस्तिथ होते हैं, जब तक कि विषमलैंगिकता का रूप और सहसंबंध डेटा से स्वतंत्र रूप से जाना जाता है। विषमलैंगिकता को संभालने के लिए जब त्रुटि शब्द दूसरे के साथ असंबद्ध होते हैं, | * 'सामान्यीकृत न्यूनतम वर्ग' (जीएलएस) ओएलएस पद्धति का विस्तार है, जो β के कुशल अनुमान की अनुमति देता है जब या तो विषमलैंगिकता, या सहसंबंध, या दोनों मॉडल की त्रुटि शर्तों के बीच उपस्तिथ होते हैं, जब तक कि विषमलैंगिकता का रूप और सहसंबंध डेटा से स्वतंत्र रूप से जाना जाता है। विषमलैंगिकता को संभालने के लिए जब त्रुटि शब्द दूसरे के साथ असंबद्ध होते हैं, जीएलएस भारित एनालॉग को ओएलएस प्रतिगमन से चुकता अवशेषों के योग में कम कर देता है, जहां i के लिए वजन var(ε)<sub>''i''</sub> के व्युत्क्रमानुपाती होता है। जीएलएस के लिए इस विशेष स्थिति को भारित न्यूनतम वर्ग कहा जाता है। इसका अनुमान उक्त समस्या के लिए जीएलएस का समाधान है। | ||
<math display="block"> | |||
\hat{\boldsymbol\beta} = (\mathbf{X}^\mathsf{T} \boldsymbol\Omega^{-1} \mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\boldsymbol\Omega^{-1}\mathbf{y}, | |||
</math>जहां Ω त्रुटियों का सहप्रसरण मैट्रिक्स है। जीएलएस को डेटा में एक रैखिक परिवर्तन लागू करने के रूप में देखा जा सकता है ताकि रूपांतरित डेटा के लिए ओएलएस की मान्यताओं को पूरा किया जा सके। जीएलएस को लागू करने के लिए, त्रुटियों की सहप्रसरण संरचना को गुणक स्थिरांक तक जाना जाना चाहिए।<sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup>।<sup><sup><sup><sup><sup><sup> <sup><sup><sup><sup><sup><sup><sup> <sup><sup><sup><sup><sup><sup><sup> <sup><sup><sup><sup><sup><sup><sup> <sup> <sup> <sup> <sup> <sup> | |||
<sup><sup> | |||
<sup><sup><sup> | |||
<sup><sup><sup><sup> | |||
<sup><sup><sup><sup><sup> | |||
<sup><sup><sup><sup><sup><sup> | |||
<sup><sup><sup><sup><sup><sup> | |||
<sup><sup><sup><sup><sup><sup><sup> | |||
<sup><sup><sup><sup><sup><sup><sup> | |||
<sup><sup><sup><sup><sup><sup><sup> | |||
<sup> | |||
<sup><sup><sup><sup><sup> | |||
== वैकल्पिक फॉर्मूलेशन == | == वैकल्पिक फॉर्मूलेशन == | ||
अन्य योगों में सम्मिलित हैं: | अन्य योगों में सम्मिलित हैं: | ||
* [[पुनरावर्ती रूप से कम से कम वर्गों को फिर से भारित किया गया]] | * [[पुनरावर्ती रूप से कम से कम वर्गों को फिर से भारित किया गया|पुनरावर्ती रूप से कम से कम वर्गों को फिर से भारित किया जाता हैं]], इस स्थिति मे आईआरएलएस का उपयोग किया जाता है जब विषमलैंगिकता, या सहसंबंध, या दोनों मॉडल की त्रुटि शर्तों के बीच उपस्तिथ होते हैं, किन्तु जहां डेटा से स्वतंत्र रूप से त्रुटियों की सहप्रसरण संरचना के बारे में बहुत कम जानकारी होती है।<ref>{{cite journal | title=सांख्यिकीय एल्गोरिथम में पुनरावृत्त सामान्यीकृत न्यूनतम वर्गों की एकीकृत भूमिका| last=del Pino | first=Guido | journal=Statistical Science | volume=4 | year=1989 | pages=394–403 | doi=10.1214/ss/1177012408 | issue=4 | jstor=2245853| doi-access=free }}</ref> पहली पुनरावृत्ति में, ओएलएस, या जीएलएस अनंतिम सहप्रसरण संरचना के साथ किया जाता है, और अवशिष्टों को फिट से प्राप्त किया जाता है। अवशिष्टों के आधार पर, त्रुटियों की सहप्रसरण संरचना का उत्तम अनुमान सामान्यतः प्राप्त किया जा<sup><sup> <sup><sup><sup> स<sup><sup><sup><sup> क<sup><sup><sup><sup><sup> त<sup><sup><sup><sup><sup><sup> ा<sup><sup><sup><sup><sup><sup><sup> <sup><sup><sup><sup><sup><sup><sup><sup> ह<sup><sup><sup><sup><sup><sup><sup><sup><sup> ै<sup><sup><sup><sup><sup><sup><sup><sup><sup><sup> <sup> ।<sup><sup><sup><sup><sup><sup><sup><sup><sup> <sup><sup><sup><sup><sup><sup><sup><sup><sup><sup> <sup> वजन को परिभाषित करने के लिए त्रुटि संरचना के इस अनुमान का उपयोग करके बाद में जीएलएस पुनरावृत्ति का प्रदर्शन किया जाता है। प्रक्रिया को अभिसरण के लिए पुनरावृत्त किया जा सकता है, किन्तु कई स्थितियों में, केवल पुनरावृत्ति β के कुशल अनुमान को प्राप्त करने के लिए पर्याप्त रहता हैं।<ref>{{cite journal | title=रेखीय मॉडल में विषमलैंगिकता के लिए अनुकूलन| last=Carroll | first=Raymond J. | journal=The Annals of Statistics | volume=10 | year=1982 | pages=1224–1233 | doi=10.1214/aos/1176345987 | issue=4 | jstor=2240725| doi-access=free }}</ref><ref>{{cite journal | title=मजबूत, सुचारू रूप से विषम प्रसरण प्रतिगमन| last=Cohen | first=Michael |author2=Dalal, Siddhartha R. |author3=Tukey, John W. | journal=Journal of the Royal Statistical Society, Series C | volume=42 | year=1993 | pages=339–353 | issue=2 | jstor=2986237}}</ref> | ||
* [[वाद्य चर]] प्रतिगमन (IV) तब किया जा सकता है जब प्रतिगमन त्रुटियों के साथ सहसंबद्ध | * [[वाद्य चर|वाद्य वैरियेबल]] प्रतिगमन (IV) तब किया जा सकता है जब प्रतिगमन त्रुटियों के साथ सहसंबद्ध होती हैं। इस स्थिति में, हमें कुछ सहायक 'वाद्य वैरियेबल' z<sub>''i''</sub> के अस्तित्व की आवश्यकता होती हैं, ऐसा इसलिए है क्योंकि E [Z<sub>''i''</sub>ε<sub>''i''</sub>] = 0 रहता हैं। इस प्रकार यदि Z उपकरणों का आव्यूह हो तब अनुमानक को बंद रूप में दिया जा सकता है <math display="block"> | ||
\hat{\boldsymbol\beta} = (\mathbf{X}^\mathsf{T}\mathbf{Z}(\mathbf{Z}^\mathsf{T}\mathbf{Z})^{-1}\mathbf{Z}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{Z}(\mathbf{Z}^\mathsf{T}\mathbf{Z})^{-1}\mathbf{Z}^\mathsf{T}\mathbf{y}. | \hat{\boldsymbol\beta} = (\mathbf{X}^\mathsf{T}\mathbf{Z}(\mathbf{Z}^\mathsf{T}\mathbf{Z})^{-1}\mathbf{Z}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{Z}(\mathbf{Z}^\mathsf{T}\mathbf{Z})^{-1}\mathbf{Z}^\mathsf{T}\mathbf{y}. | ||
</math> इष्टतम उपकरण प्रतिगमन उस स्थिति के लिए मौलिक IV प्रतिगमन का विस्तार है जहां {{math|1=E[''ε<sub>i</sub>'' {{!}} '''z'''<sub>''i''</sub>] = 0}}. | </math> इष्टतम उपकरण प्रतिगमन उस स्थिति के लिए मौलिक IV प्रतिगमन का विस्तार करता है जहां {{math|1=E[''ε<sub>i</sub>'' {{!}} '''z'''<sub>''i''</sub>] = 0}}. | ||
* [[कुल न्यूनतम वर्ग]] (TLS)<ref>{{cite journal | title=Total Least Squares: State-of-the-Art Regression in Numerical Analysis | last=Nievergelt | first=Yves | journal=SIAM Review | volume=36 | year=1994 |pages=258–264 | doi=10.1137/1036055 | issue=2 | jstor=2132463}}</ref> रेखीय प्रतिगमन मॉडल के कम से कम वर्गों के अनुमान के लिए दृष्टिकोण है जो ओएलएस की तुलना में अधिक ज्यामितीय रूप से सममित | * [[कुल न्यूनतम वर्ग]] (TLS)<ref>{{cite journal | title=Total Least Squares: State-of-the-Art Regression in Numerical Analysis | last=Nievergelt | first=Yves | journal=SIAM Review | volume=36 | year=1994 |pages=258–264 | doi=10.1137/1036055 | issue=2 | jstor=2132463}}</ref> रेखीय प्रतिगमन मॉडल के कम से कम वर्गों के अनुमान के लिए दृष्टिकोण है ,जो ओएलएस की तुलना में अधिक ज्यामितीय रूप से सममित तविधियोंसे कोवरिएट्स और प्रतिक्रिया वैरियेबल का उपचार करता है। यह वैरियेबल समस्या में त्रुटियों को संभालने का विधि है, और कभी-कभी इसका उपयोग तब भी किया जाता है जब सहसंयोजकों को त्रुटि-मुक्त माना जाता है। | ||
*प्रतिशत न्यूनतम वर्ग प्रतिशत त्रुटियों को कम करने पर केंद्रित है, जो पूर्वानुमान या समय श्रृंखला विश्लेषण के क्षेत्र में उपयोगी है। यह उन स्थितियों में भी उपयोगी है जहां आश्रित | *प्रतिशत न्यूनतम वर्ग प्रतिशत त्रुटियों को कम करने पर केंद्रित है, जो पूर्वानुमान या समय श्रृंखला विश्लेषण के क्षेत्र में उपयोगी है। यह उन स्थितियों में भी उपयोगी है जहां आश्रित वैरियेबल की निरंतर विचरण के बिना विस्तृत श्रृंखला होती है, क्योंकि यदि ओएलएस का उपयोग किया जाता है तो सीमा के ऊपरी छोर पर बड़े अवशेष पर प्रभावित होते हैं। जब प्रतिशत या सापेक्ष त्रुटि सामान्य रूप से वितरित की जाती है, तो कम से कम वर्ग प्रतिशत प्रतिगमन अधिकतम संभावना अनुमान प्रदान करता है। प्रतिशत प्रतिगमन गुणक त्रुटि मॉडल से जुड़ा हुआ है, जबकि ओएलएस योगात्मक त्रुटि शब्द वाले प्रारूप से जुड़ा होता हैं।<ref>{{cite journal | ssrn = 1406472 | title=कम से कम वर्ग प्रतिशत प्रतिगमन| author = Tofallis, C | journal = Journal of Modern Applied Statistical Methods | volume=7 | year = 2009 | pages=526–534 | doi = 10.2139/ssrn.1406472 | url = https://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1466&context=jmasm }}</ref> | ||
* [[विवश न्यूनतम वर्ग]], | * [[विवश न्यूनतम वर्ग]], का मान के लिए इसके अतिरिक्त बाधाओं के साथ रैखिक न्यूनतम वर्ग समस्या को इंगित करता है। | ||
== [[उद्देश्य समारोह]] == | == [[उद्देश्य समारोह|उद्देश्य फलन]] == | ||
ओएलएस में (अर्थात्, भारित टिप्पणियों को मानते हुए), गुणांक वेक्टर के लिए इष्टतम अभिव्यक्ति को प्रतिस्थापित करके उद्देश्य फ़ंक्शन का [[गणितीय अनुकूलन]] पाया जाता है: | ओएलएस में (अर्थात्, भारित टिप्पणियों को मानते हुए), गुणांक वेक्टर के लिए इष्टतम अभिव्यक्ति को प्रतिस्थापित करके उद्देश्य फ़ंक्शन का [[गणितीय अनुकूलन]] पाया जाता है: | ||
<math display="block">S=\mathbf y^\mathsf{T} (\mathbf{I} - \mathbf{H})^\mathsf{T} (\mathbf{I} - \mathbf{H}) \mathbf y = \mathbf y^\mathsf{T} (\mathbf{I} - \mathbf{H}) \mathbf y,</math> | <math display="block">S=\mathbf y^\mathsf{T} (\mathbf{I} - \mathbf{H})^\mathsf{T} (\mathbf{I} - \mathbf{H}) \mathbf y = \mathbf y^\mathsf{T} (\mathbf{I} - \mathbf{H}) \mathbf y,</math> | ||
जहाँ <math>\mathbf{H}=\mathbf{X}(\mathbf{X}^\mathsf{T}\mathbf{X})^{-1} \mathbf{X}^\mathsf{T} </math>, बाद की समानता के बाद से <math>(\mathbf{I} - \mathbf{H})</math> सममित और आडिएमपोटेंट है। इससे वजन के उपयुक्त असाइनमेंट के अनुसार S का अपेक्षित मान m − n के रूप में दिखाया जा सकता है<ref>{{cite book |title=भौतिक विज्ञान में सांख्यिकी|last=Hamilton |first=W. C. |year=1964 |publisher=Ronald Press |location=New York |url=https://archive.org/details/statisticsinphys0000hami|url-access=registration }}</ref>। यदि इसके अतिरिक्त इकाई भार ग्रहण किया जाता है, तो S का अपेक्षित मान है <math>(m - n)\sigma^2</math>, जहाँ <math>\sigma^2</math> प्रत्येक अवलोकन का विचरण प्रदान करता हैं। | |||
यदि यह माना जाता है कि अवशिष्ट सामान्य वितरण से संबंधित हैं, तो वस्तुनिष्ठ फलन, भारित वर्गित अवशिष्टों का योग होने के कारण, ची-वर्ग वितरण|ची-वर्ग से संबंधित | यदि यह माना जाता है कि अवशिष्ट सामान्य वितरण से संबंधित हैं, तो वस्तुनिष्ठ फलन, भारित वर्गित अवशिष्टों का योग होने के कारण, ची-वर्ग वितरण|ची-वर्ग से संबंधित होगा। जो {{nowrap|(<math>\chi ^2</math>)}} m − n [[स्वतंत्रता की डिग्री (सांख्यिकी)]] के साथ वितरण के कुछ निदर्शी प्रतिशतक मानों के लिए <math>\chi ^2</math> के लिए निम्न सूची में दिए गए हैं।<ref>{{cite book |title=शाउम के सिद्धांत की रूपरेखा और संभाव्यता और सांख्यिकी की समस्याएं| last=Spiegel |first=Murray R. |year=1975 |publisher=McGraw-Hill |location=New York |isbn=978-0-585-26739-5 }}</ref> | ||
{| class="wikitable" | {| class="wikitable" | ||
! <math>m - n</math> !! <math>\chi ^2_{0.50}</math> !! <math>\chi ^2 _{0.95}</math>!!<math>\chi ^2 _{0.99}</math> | ! <math>m - n</math> !! <math>\chi ^2_{0.50}</math> !! <math>\chi ^2 _{0.95}</math>!!<math>\chi ^2 _{0.99}</math> | ||
Line 48: | Line 66: | ||
== चर्चा == | == चर्चा == | ||
आंकड़ों और गणित में, रैखिक कम से कम वर्ग उन स्थितियों में डेटा के लिए गणितीय मॉडल या [[सांख्यिकीय मॉडल]] को फिट करने के लिए दृष्टिकोण है, जहां किसी डेटा बिंदु के लिए मॉडल द्वारा प्रदान किए गए आदर्श मूल्य को मॉडल के अज्ञात मापदंडों के संदर्भ में रैखिक रूप | आंकड़ों और गणित में, रैखिक कम से कम वर्ग उन स्थितियों में डेटा के लिए गणितीय मॉडल या [[सांख्यिकीय मॉडल]] को फिट करने के लिए दृष्टिकोण है, जहां किसी डेटा बिंदु के लिए मॉडल द्वारा प्रदान किए गए आदर्श मूल्य को मॉडल के अज्ञात मापदंडों के संदर्भ में रैखिक रूप [[[[आंकड़े]]]] से व्यक्त किया जाता है। इस प्रकार परिणामी फिट किए गए मॉडल का उपयोग डेटा को वर्णनात्मक आंकड़ों के लिए किया जा सकता है, इ, सिस्टम से अप्राप्य मूल्यों की [[भविष्यवाणी]] करने के लिए, और सिस्टम को समझने वाले तंत्र को समझने के लिए किया जाता हैं। | ||
गणितीय रूप से, रैखिक न्यूनतम वर्ग रैखिक समीकरणों A x = b की [[अतिनिर्धारित प्रणाली]] को लगभग हल करने की समस्या है, जहाँ b | गणितीय रूप से, रैखिक न्यूनतम वर्ग रैखिक समीकरणों A x = b की [[अतिनिर्धारित प्रणाली]] को लगभग हल करने की समस्या है, जहाँ b आव्यूह A के [[स्तंभ स्थान]] का अवयव नहीं है। अनुमानित समाधान को A x = के त्रुटिहीन समाधान के रूप में महसूस किया जाता है। b', जहां b' A के कॉलम स्पेस पर b का प्रक्षेपण है। सबसे अच्छा सन्निकटन वह है जो डेटा मानों और उनके संबंधित मॉडल मूल्यों के बीच चुकता अंतरों के योग को कम करता है। दृष्टिकोण को 'रैखिक' 'कम से कम वर्ग कहा जाता है क्योंकि अनुमानित कार्य अनुमानित [[पैरामीटर]] में रैखिक है। रैखिक कम से कम वर्ग की समस्याएं उत्तल कार्य हैं और बंद-रूप अभिव्यक्ति है। बंद-रूप समाधान जो अद्वितीय है, बशर्ते कि फिटिंग के लिए उपयोग किए जाने वाले डेटा बिंदुओं की संख्या अज्ञात मापदंडों की संख्या के बराबर या उससे अधिक हो, विशेष पतित स्थितियों को छोड़कर किया जाता हैं। इसके विपरीत, गैर-रैखिक कम से कम वर्गों की समस्याओं को सामान्यतः पुनरावृत्त विधि द्वारा हल किया जाना चाहिए, और उद्देश्य फ़ंक्शन के लिए कई ऑप्टिमा के साथ समस्याएं गैर-उत्तल हो सकती हैं। यदि पूर्व वितरण उपलब्ध हैं, तो [[न्यूनतम औसत वर्ग त्रुटि]] का उपयोग करके कम निर्धारित प्रणाली को भी हल किया जा सकता है। | ||
आँकड़ों में, रैखिक कम से कम वर्ग समस्याएँ विशेष रूप से महत्वपूर्ण प्रकार के सांख्यिकीय मॉडल के अनुरूप होती हैं जिन्हें रैखिक प्रतिगमन कहा जाता है जो [[प्रतिगमन विश्लेषण]] के विशेष रूप के रूप में उत्पन्न होता है। इस तरह के मॉडल का मूल रूप साधारण न्यूनतम वर्ग मॉडल है। वर्तमान लेख रैखिक कम से कम वर्गों की समस्याओं के गणितीय पहलुओं पर ध्यान केंद्रित करता है, सांख्यिकीय प्रतिगमन मॉडल के निर्माण और व्याख्या की चर्चा के साथ और इनसे संबंधित सांख्यिकीय अनुमानों को अभी उल्लिखित लेखों में निपटाया जा रहा है। विषय की रूपरेखा के लिए [[प्रतिगमन विश्लेषण की रूपरेखा]] देखें। | आँकड़ों में, रैखिक कम से कम वर्ग समस्याएँ विशेष रूप से महत्वपूर्ण प्रकार के सांख्यिकीय मॉडल के अनुरूप होती हैं जिन्हें रैखिक प्रतिगमन कहा जाता है जो [[प्रतिगमन विश्लेषण]] के विशेष रूप के रूप में उत्पन्न होता है। इस तरह के मॉडल का मूल रूप साधारण न्यूनतम वर्ग मॉडल है। वर्तमान लेख रैखिक कम से कम वर्गों की समस्याओं के गणितीय पहलुओं पर ध्यान केंद्रित करता है, सांख्यिकीय प्रतिगमन मॉडल के निर्माण और व्याख्या की चर्चा के साथ और इनसे संबंधित सांख्यिकीय अनुमानों को अभी उल्लिखित लेखों में निपटाया जा रहा है। विषय की रूपरेखा के लिए [[प्रतिगमन विश्लेषण की रूपरेखा]] देखें। | ||
== गुण == | == गुण == | ||
{{See also| | {{See also|साधारण न्यूनतम वर्ग गुण}} | ||
यदि प्रायोगिक त्रुटियां, <math>\varepsilon</math>, असंबंधित हैं, शून्य का | यदि प्रायोगिक त्रुटियां, <math>\varepsilon</math>, असंबंधित हैं, शून्य का अर्थ है और इसमें निरंतर भिन्नता रहती हैं, इस प्रकार <math>\sigma</math>, गॉस-मार्कोव प्रमेय कहता है कि कम से कम वर्ग अनुमानक, <math>\hat{\boldsymbol{\beta}}</math>, सभी अनुमानकों का न्यूनतम विचरण करता है जो अवलोकनों के रैखिक संयोजित रहता हैं। इस अर्थ में यह पैरामीटरों का सबसे अच्छा, या इष्टतम, अनुमानक है। विशेष रूप से ध्यान दें कि यह संपत्ति त्रुटियों के सांख्यिकीय संचयी वितरण फलन से स्वतंत्र रहता है। दूसरे शब्दों में, त्रुटियों का वितरण कार्य [[सामान्य वितरण]] नहीं होना चाहिए। चूंकि, कुछ प्रायिकता वितरणों के लिए, इस बात की कोई गारंटी नहीं है कि प्रेक्षणों को देखते हुए न्यूनतम वर्ग समाधान भी संभव है; फिर भी, ऐसे स्थितियों में यह सबसे अच्छा अनुमानक है जो रैखिक और निष्पक्ष दोनों है। | ||
उदाहरण के लिए, यह दिखाना | उदाहरण के लिए, यह दिखाना सरल है कि किसी मात्रा के माप के समुच्चय का अंकगणितीय माध्य उस मात्रा के मान का न्यूनतम-वर्ग अनुमानक है। यदि गॉस-मार्कोव प्रमेय की शर्तें लागू होती हैं, तो माप की त्रुटियों का वितरण कुछ भी हो अंकगणितीय माध्य इष्टतम होता है। | ||
चूँकि, इस स्थिति में कि प्रायोगिक त्रुटियाँ सामान्य वितरण से संबंधित हैं, न्यूनतम-वर्ग अनुमानक भी अधिकतम संभावना अनुमानक है।<ref>{{cite book |title=भौतिकी और रसायन विज्ञान का गणित|last=Margenau |first=Henry | author2=Murphy, George Moseley |year=1956 | publisher=Van Nostrand |location=Princeton |url=https://archive.org/details/mathematicsofphy0002marg| url-access=registration }}</ref> | |||
ये गुण सभी प्रकार के डेटा फ़िटिंग के लिए कम से कम वर्गों की विधि के उपयोग को रेखांकित करते हैं, तब भी जब धारणाएँ कड़ाई से मान्य नहीं हैं। | ये गुण सभी प्रकार के डेटा फ़िटिंग के लिए कम से कम वर्गों की विधि के उपयोग को रेखांकित करते हैं, तब भी जब धारणाएँ कड़ाई से मान्य नहीं हैं। | ||
=== सीमाएं === | === सीमाएं === | ||
ऊपर दिए गए उपचार में अंतर्निहित धारणा यह है कि स्वतंत्र | ऊपर दिए गए उपचार में अंतर्निहित धारणा यह है कि स्वतंत्र वैरियेबल, x, त्रुटि मुक्त रहता है। व्यवहारिक रूप से, स्वतंत्र वैरियेबल के मापन में त्रुटियां सामान्यतः निर्भर वैरियेबल पर त्रुटियों की तुलना में बहुत कम होती हैं और इसलिए इसे अनदेखा किया जा सकता है। जब ऐसा नहीं होता है, तो कम से कम वर्ग या अधिक सामान्यतः त्रुटियों में वैरियेबल मॉडल, या कठोर न्यूनतम वर्ग का उपयोग किया जाना चाहिए। यह निर्भर और स्वतंत्र वैरियेबल दोनों पर त्रुटियों को ध्यान में रखते हुए भार योजना को समायोजित करके और फिर मानक प्रक्रिया का पालन करके किया जा सकता है।<ref name="pg">{{cite book |title=रासायनिक विज्ञान में डेटा फिटिंग|last=Gans |first=Peter |year=1992 |publisher=Wiley |location=New York |isbn=978-0-471-93412-7 }}</ref><ref>{{cite book |title=डेटा का सांख्यिकीय समायोजन|last=Deming |first=W. E. |year=1943 |publisher=Wiley | location=New York }}</ref> | ||
कुछ स्थितियों में (भारित) सामान्य समीकरण | |||
कुछ स्थितियों में (भारित) सामान्य समीकरण आव्यूह X<sup>T</sup>X है। बहुपदों को फ़िट करते समय सामान्य समीकरण आव्यूह [[वैंडरमोंड मैट्रिक्स|वैंडरमोंड आव्यूह]] होता है। जैसे-जैसे आव्यूह का क्रम बढ़ता है वैंडरमोंड मैट्रिसेस तेजी से बीमार होते जाते हैं।{{citation needed|date=December 2010}} इन स्थितियों में, सबसे कम वर्ग का अनुमान माप ध्वनि को बढ़ाता है और यह पूर्ण रूप से गलत होता हैं।{{citation needed|date=December 2010}} ऐसी स्थितियों में विभिन्न [[नियमितीकरण (गणित)]] तकनीकों को लागू किया जा सकता है, जिनमें से सबसे सरल [[तिखोनोव नियमितीकरण]] कहा जाता है। यदि पैरामीटर के बारे में अधिक जानकारी ज्ञात है, उदाहरण के लिए, संभावित मानों की श्रेणी <math>\mathbf{\hat{\boldsymbol{\beta}}}</math>, तो समाधान की स्थिरता को बढ़ाने के लिए विभिन्न तकनीकों का उपयोग किया जा सकता है। उदाहरण के लिए, विवश_रैखिक_कम से कम_वर्ग देखें। | |||
कम से कम वर्गों के अनुमानक का और दोष यह तथ्य है कि अवशिष्टों का मानदंड, <math>\| \mathbf y - X\hat{\boldsymbol{\beta}} \|</math> न्यूनतम किया जाता है, जबकि कुछ स्थितियों में पैरामीटर में छोटी त्रुटि प्राप्त करने में वास्तव में रुचि होती | कम से कम वर्गों के अनुमानक का और दोष यह तथ्य है कि अवशिष्टों का मानदंड, <math>\| \mathbf y - X\hat{\boldsymbol{\beta}} \|</math> न्यूनतम किया जाता है, जबकि कुछ स्थितियों में पैरामीटर में छोटी त्रुटि प्राप्त करने में वास्तव में रुचि होती है। इस प्रकार <math>\mathbf{\hat{\boldsymbol{\beta}}}</math>, उदाहरण के लिए, का छोटा मान <math>\|{\boldsymbol{\beta}}-\hat{\boldsymbol{\beta}}\|</math> हैं।{{citation needed|date=December 2010}} चूंकि, सही पैरामीटर के बाद से <math>{\boldsymbol{\beta}}</math> आवश्यक रूप से अज्ञात है, इस मात्रा को सीधे कम नहीं किया जा सकता हैं। यदि [[पूर्व संभावना]] चालू है तो उसे <math>\hat{\boldsymbol{\beta}}</math> से ज्ञात किया जाता है, तो औसत वर्ग त्रुटि को कम करने के लिए न्यूनतम औसत वर्ग त्रुटि <math>E \left\{ \| {\boldsymbol{\beta}} - \hat{\boldsymbol{\beta}} \|^2 \right\} </math> का उपयोग किया जा सकता है। कम से कम वर्ग विधि अधिकांशतःलागू होती है जब कोई पूर्व ज्ञात नहीं होता है। आश्चर्यजनक रूप से, जब कई मापदंडों का संयुक्त रूप से अनुमान लगाया जा रहा हो, तो उत्तम आकलनकर्ताओं का निर्माण किया जा सकता है, प्रभाव जिसे स्टीन की घटना के रूप में जाना जाता है। उदाहरण के लिए, यदि माप त्रुटि सामान्य वितरण है, तो कई अनुमानक ज्ञात हैं जो निर्णय नियम पर प्रभावी होता हैं, इस प्रकार यह सबसे कम वर्ग तकनीक से उत्तम प्रदर्शन करते हैं; इनमें से सबसे प्रसिद्ध जेम्स-स्टीन अनुमानक है। यह अधिक सामान्य सिकुड़न अनुमानक का उदाहरण है जिसे प्रतिगमन समस्याओं पर लागू किया गया है। | ||
== अनुप्रयोग == | == अनुप्रयोग == | ||
{{See also| | {{See also|रेखीय प्रतिगमन अनुप्रयोग}} | ||
* [[बहुपद]] प्रतिगमन: मॉडल स्वतंत्र | * [[बहुपद]] प्रतिगमन: मॉडल स्वतंत्र वैरियेबल में बहुपद x हैं,: | ||
** सरल रेखा: <math>f(x, \boldsymbol \beta)=\beta_1 +\beta_2 x</math>.<ref>{{cite book |title=स्ट्रेट-लाइन डेटा का विश्लेषण|last=Acton |first=F. S. |year=1959 |publisher=Wiley |location=New York }}</ref> | ** सरल रेखा: <math>f(x, \boldsymbol \beta)=\beta_1 +\beta_2 x</math>.<ref>{{cite book |title=स्ट्रेट-लाइन डेटा का विश्लेषण|last=Acton |first=F. S. |year=1959 |publisher=Wiley |location=New York }}</ref> | ||
** द्विघात: <math>f(x, \boldsymbol \beta)=\beta_1 + \beta_2 x +\beta_3 x^2</math>. | ** द्विघात: <math>f(x, \boldsymbol \beta)=\beta_1 + \beta_2 x +\beta_3 x^2</math>. | ||
** घन, चतुर्थक और उच्च बहुपद। बहुपद प्रतिगमन | ** घन, चतुर्थक और उच्च बहुपद। बहुपद प्रतिगमन या उच्च-क्रम बहुपदों के साथ प्रतिगमन के लिए, [[ऑर्थोगोनल बहुपद]] के उपयोग की प्रस्तुति की जाती है।<ref>{{cite book |title=वक्र फिटिंग के संख्यात्मक तरीके|last=Guest |first=P. G. |year=1961 |publisher=Cambridge University Press |location=Cambridge }}{{page needed|date=December 2010}}</ref> | ||
* [[संख्यात्मक चौरसाई और भेदभाव]] - यह बहुपद फिटिंग का अनुप्रयोग है। | * [[संख्यात्मक चौरसाई और भेदभाव]] - यह बहुपद फिटिंग का अनुप्रयोग है। | ||
* सतह फिटिंग सहित से अधिक स्वतंत्र | * सतह फिटिंग सहित से अधिक स्वतंत्र वैरियेबल में बहुपद | ||
* [[बी-पट्टी]] के साथ कर्व फिटिंग<ref name=pg/>* [[ रसायन विज्ञान |रसायन विज्ञान]] , [[अंशांकन वक्र]], [[मानक जोड़]], [[महान साजिश]], बीयर-लैंबर्ट | * [[बी-पट्टी]] के साथ कर्व फिटिंग<ref name="pg" />* [[ रसायन विज्ञान |रसायन विज्ञान]] , [[अंशांकन वक्र]], [[मानक जोड़]], [[महान साजिश]], बीयर-लैंबर्ट नियम रासायनिक विश्लेषण | ||
=== [[डेटा फिटिंग]] में उपयोग === | === [[डेटा फिटिंग]] में उपयोग === | ||
रैखिक कम से कम वर्गों का प्राथमिक अनुप्रयोग डेटा फ़िटिंग में है। एम डेटा बिंदुओं के | रैखिक कम से कम वर्गों का प्राथमिक अनुप्रयोग डेटा फ़िटिंग में है। एम डेटा बिंदुओं के समुच्चय <math>y_1, y_2,\dots, y_m,</math>को देखते हुए m मानों के लिए उपयोग किये गए प्रयोगात्मक रूप से मापा मूल्यों से मिलकर <math>x_1, x_2,\dots, x_m</math> स्वतंत्र वैरियेबल का (<math>x_i</math> अदिश या सदिश राशियाँ हो सकती हैं), और मॉडल फ़ंक्शन <math>y=f(x, \boldsymbol \beta),</math> साथ <math>\boldsymbol \beta = (\beta_1, \beta_2, \dots, \beta_n),</math> दिया गया है। यह मापदंडों को खोजने के लिए <math>\beta_j</math> को वांछित किया जाता है जैसे कि मॉडल फ़ंक्शन डेटा के लिए सबसे उपयुक्त है। रैखिक कम से कम वर्गों में, रैखिकता का अर्थ <math>\beta_j,</math> के मापदंडों के संबंध में होता है इसलिए-<math display="block">f(x, \boldsymbol \beta) = \sum_{j=1}^{n} \beta_j \varphi_j(x).</math>यहाँ, फलन <math>\varphi_j</math> वैरियेबल x के संबंध में अरैखिक हो सकता है। | ||
<math display="block">f(x, \boldsymbol \beta) = \sum_{j=1}^{n} \beta_j \varphi_j(x).</math> | |||
यहाँ, | |||
आदर्श रूप से, मॉडल फ़ंक्शन डेटा को त्रुटिहीन रूप से फिट करता है, इसलिए | आदर्श रूप से, मॉडल फ़ंक्शन डेटा को त्रुटिहीन रूप से फिट करता है, इसलिए<math display="block">y_i = f(x_i, \boldsymbol \beta)</math>सभी के लिए <math>i=1, 2, \dots, m.</math> यह सामान्यतः व्यवहार में संभव नहीं है, क्योंकि निर्धारित किए जाने वाले मापदंडों की तुलना में अधिक डेटा बिंदु हैं। इस दृष्टिकोण के आधार पर [[अवशिष्ट (सांख्यिकी)]] के वर्गों के योग का न्यूनतम संभव मान ज्ञात करना है<math display="block">r_i(\boldsymbol \beta)= y_i - f(x_i, \boldsymbol \beta),\ (i=1, 2, \dots, m) </math>इसलिए फलन को कम करने के लिए<math display="block">S(\boldsymbol \beta)=\sum_{i=1}^{m}r_i^2(\boldsymbol \beta).</math>के लिए प्रतिस्थापित करने के पश्ताक <math>r_i</math> और फिर <math>f</math> के लिए यह न्यूनीकरण समस्या उपरोक्त द्विघात न्यूनीकरण समस्या बन जाती है<math display="block">X_{ij} = \varphi_j(x_i),</math>और सामान्य समीकरणों को हल करके सबसे उपयुक्त पाया जा सकता है। | ||
<math display="block">y_i = f(x_i, \boldsymbol \beta)</math> | |||
सभी के लिए <math>i=1, 2, \dots, m.</math> यह सामान्यतः व्यवहार में संभव नहीं है, क्योंकि निर्धारित किए जाने वाले मापदंडों की तुलना में अधिक डेटा बिंदु हैं। | |||
<math display="block">r_i(\boldsymbol \beta)= y_i - f(x_i, \boldsymbol \beta),\ (i=1, 2, \dots, m) </math> | |||
इसलिए | |||
<math display="block">S(\boldsymbol \beta)=\sum_{i=1}^{m}r_i^2(\boldsymbol \beta).</math> | |||
के लिए प्रतिस्थापित करने के | |||
<math display="block">X_{ij} = \varphi_j(x_i),</math> | |||
और सामान्य समीकरणों को हल करके सबसे उपयुक्त पाया जा सकता है। | |||
== उदाहरण == | == उदाहरण == | ||
{{See also| | {{See also|साधारण न्यूनतम वर्ग#उदाहरण|सरल रेखीय प्रतिगमन # उदाहरण}} | ||
{{Further| | {{Further|बहुपद प्रतिगमन}} | ||
[[Image:Linear least squares example2.svg|right|thumb|डेटा बिंदुओं का प्लॉट (लाल रंग में), सर्वोत्तम फिट की कम से कम वर्ग रेखा (नीले रंग में), और अवशिष्ट (हरे रंग में)]] | [[Image:Linear least squares example2.svg|right|thumb|डेटा बिंदुओं का प्लॉट (लाल रंग में), सर्वोत्तम फिट की कम से कम वर्ग रेखा (नीले रंग में), और अवशिष्ट (हरे रंग में)]]इस प्रयोग के परिणामस्वरूप, चार <math>(x, y)</math> डेटा बिंदु <math>(1, 6),</math> <math>(2, 5),</math> <math>(3, 7),</math> और <math>(4, 10)</math> प्राप्त किए गए थे, (दाईं ओर आरेख में लाल रंग में दिखाया गया है)। यहाँ पर हमें <math>y=\beta_1+\beta_2 x</math> रेखा मिलने की आस होती है, जो इन चार बिंदुओं के लिए सबसे उपयुक्त होती है। दूसरे शब्दों में, हम संख्याओं <math>\beta_1</math> और <math>\beta_2</math> का पता लगाना चाहेंगे, यह लगभग अतिनिर्धारित रैखिक प्रणाली को हल करता है:<math display="block">\begin{alignat}{3} | ||
<math display="block">\begin{alignat}{3} | |||
\beta_1 + 1\beta_2 + r_1 &&\; = \;&& 6 & \\ | \beta_1 + 1\beta_2 + r_1 &&\; = \;&& 6 & \\ | ||
\beta_1 + 2\beta_2 + r_2 &&\; = \;&& 5 & \\ | \beta_1 + 2\beta_2 + r_2 &&\; = \;&& 5 & \\ | ||
\beta_1 + 3\beta_2 + r_3 &&\; = \;&& 7 & \\ | \beta_1 + 3\beta_2 + r_3 &&\; = \;&& 7 & \\ | ||
\beta_1 + 4\beta_2 + r_4 &&\; = \;&& 10 & \\ | \beta_1 + 4\beta_2 + r_4 &&\; = \;&& 10 & \\ | ||
\end{alignat}</math> | \end{alignat}</math>कुछ सर्वोत्तम अर्थों में दो अज्ञात में चार समीकरणों के लिए <math>r</math> वक्र फिट और डेटा के बीच, प्रत्येक बिंदु पर अवशिष्ट का प्रतिनिधित्व करता है:<math display="block">\begin{alignat}{3} | ||
कुछ सर्वोत्तम अर्थों में दो अज्ञात में चार समीकरणों | |||
<math>r</math> वक्र फिट और डेटा के बीच, प्रत्येक बिंदु पर अवशिष्ट का प्रतिनिधित्व करता है: | |||
<math display="block">\begin{alignat}{3} | |||
r_1 &&\; = \;&& 6 - (\beta_1 + 1\beta_2) & \\ | r_1 &&\; = \;&& 6 - (\beta_1 + 1\beta_2) & \\ | ||
r_2 &&\; = \;&& 5 - (\beta_1 + 2\beta_2) & \\ | r_2 &&\; = \;&& 5 - (\beta_1 + 2\beta_2) & \\ | ||
r_3 &&\; = \;&& 7 - (\beta_1 + 3\beta_2) & \\ | r_3 &&\; = \;&& 7 - (\beta_1 + 3\beta_2) & \\ | ||
r_4 &&\; = \;&& 10 - (\beta_1 + 4\beta_2) & \\ | r_4 &&\; = \;&& 10 - (\beta_1 + 4\beta_2) & \\ | ||
\end{alignat}</math> | \end{alignat}</math>इस समस्या को हल करने के लिए [[कम से कम वर्गों]] का दृष्टिकोण इन अवशेषों के वर्गों के योग को जितना संभव हो उतना छोटा करने का प्रयास करना है; वह है, फलन की अधिकतमता और न्यूनतमता को खोजने के लिए:<math display="block">\begin{align} | ||
इस समस्या को हल करने के लिए [[कम से कम वर्गों]] का दृष्टिकोण इन अवशेषों के वर्गों के योग को जितना संभव हो उतना छोटा करने का प्रयास करना है; वह है, | |||
<math display="block">\begin{align} | |||
S(\beta_1, \beta_2) &= r_1^2 + r_2^2 + r_3^2 + r_4^2 \\[6pt] | S(\beta_1, \beta_2) &= r_1^2 + r_2^2 + r_3^2 + r_4^2 \\[6pt] | ||
&= [6-(\beta_1+1\beta_2)]^2 + [5-(\beta_1+2\beta_2)]^2 + [7-(\beta_1+3\beta_2)]^2 + [10-(\beta_1+4\beta_2)]^2 \\[6pt] | &= [6-(\beta_1+1\beta_2)]^2 + [5-(\beta_1+2\beta_2)]^2 + [7-(\beta_1+3\beta_2)]^2 + [10-(\beta_1+4\beta_2)]^2 \\[6pt] | ||
&= 4\beta_1^2 + 30\beta_2^2 + 20\beta_1\beta_2 - 56\beta_1 - 154\beta_2 + 210 \\[6pt] | &= 4\beta_1^2 + 30\beta_2^2 + 20\beta_1\beta_2 - 56\beta_1 - 154\beta_2 + 210 \\[6pt] | ||
\end{align} | \end{align} | ||
</math> | </math>के आंशिक डेरिवेटिव की गणना करके न्यूनतम निर्धारित किया जाता है, इस प्रकार <math>S(\beta_1, \beta_2)</math> के संबंध में <math>\beta_1</math> और <math>\beta_2</math> और उन्हें शून्य पर समुच्चय का उपयोग होता हैं:<math display="block">\frac{\partial S}{\partial \beta_1}=0=8\beta_1 + 20\beta_2 -56</math><math display="block">\frac{\partial S}{\partial \beta_2}=0=20\beta_1 + 60\beta_2 -154.</math> | ||
के आंशिक डेरिवेटिव की गणना करके न्यूनतम निर्धारित किया जाता है <math>S(\beta_1, \beta_2)</math> | इसका परिणाम दो अज्ञात में दो समीकरणों की प्रणाली में होता है, जिसे सामान्य समीकरण कहा जाता है, जो हल करने पर देता है:<math display="block">\beta_1=3.5</math><math display="block">\beta_2=1.4</math>और समीकरण <math>y = 3.5 + 1.4x</math> सर्वश्रेष्ठ फिट की रेखा है। अवशिष्ट (सांख्यिकी), अर्थात्, के बीच अंतर <math>y</math> प्रेक्षणों से मान और <math>y</math> सर्वोत्तम फिट की रेखा का उपयोग करके अनुमानित वैरियेबल <math>1.1,</math> <math>-1.3,</math> <math>-0.7,</math> और <math>0.9</math> (दाईं ओर आरेख देखें) पाए जाते हैं। अवशिष्टों के वर्गों के योग का न्यूनतम मान <math>S(3.5, 1.4)=1.1^2+(-1.3)^2+(-0.7)^2+0.9^2=4.2.</math> है, इससे अधिक सामान्य स्थिति के लिए कोई भी हो सकता है <math>n</math> प्रतिगामी <math>x_j</math>, और रैखिक मॉडल<math display="block">y = \beta_0 + \sum_{j=1}^{n} \beta_{j} x_{j}. </math> | ||
<math display="block">\frac{\partial S}{\partial \beta_1}=0=8\beta_1 + 20\beta_2 -56</math> | |||
<math display="block">\frac{\partial S}{\partial \beta_2}=0=20\beta_1 + 60\beta_2 -154.</math> | |||
इसका परिणाम दो अज्ञात में दो समीकरणों की प्रणाली में होता है, जिसे सामान्य समीकरण कहा जाता है, जो हल करने पर देता है: | |||
<math display="block">\beta_1=3.5</math> | |||
<math display="block">\beta_2=1.4</math> | |||
और समीकरण <math>y = 3.5 + 1.4x</math> सर्वश्रेष्ठ फिट की रेखा है। अवशिष्ट (सांख्यिकी), अर्थात्, के बीच अंतर <math>y</math> प्रेक्षणों से मान और <math>y</math> सर्वोत्तम फिट की रेखा का उपयोग करके अनुमानित | |||
अधिक | |||
<math display="block">y = \beta_0 + \sum_{j=1}^{n} \beta_{j} x_{j}. </math> | |||
=== द्विघात मॉडल का प्रयोग === | === द्विघात मॉडल का प्रयोग === | ||
[[File:Linear least squares2.svg|alt=|thumb|द्विघात फलन को फ़िट करने का परिणाम <math>y=\beta_1+\beta_2x+\beta_3x^2\,</math> (नीले रंग में) डेटा बिंदुओं के | [[File:Linear least squares2.svg|alt=|thumb|द्विघात फलन को फ़िट करने का परिणाम <math>y=\beta_1+\beta_2x+\beta_3x^2\,</math> (नीले रंग में) डेटा बिंदुओं के समुच्चय के माध्यम से <math>(x_i, y_i)</math> (लाल)। रैखिक कम से कम वर्गों में फ़ंक्शन को तर्क में रैखिक होने की आवश्यकता नहीं है <math>x,</math> किन्तु केवल मापदंडों में <math>\beta_j</math> जो सर्वश्रेष्ठ फिट देने के लिए दृढ़ संकल्पित हैं।]]महत्वपूर्ण रूप से, रैखिक न्यूनतम वर्गों में, हम उपरोक्त उदाहरण के रूप में रेखा को मॉडल के रूप में उपयोग करने तक सीमित नहीं हैं। उदाहरण के लिए, हम प्रतिबंधित द्विघात मॉडल <math>y=\beta_1 x^2</math> को चुन सकते थे। यह मॉडल अभी भी रैखिक है <math>\beta_1</math> पैरामीटर, इसलिए हम अभी भी समान विश्लेषण कर सकते हैं, डेटा बिंदुओं से समीकरणों की प्रणाली का निर्माण कर सकते हैं: | ||
<math display="block">\begin{alignat}{2} | <math display="block">\begin{alignat}{2} | ||
6 &&\; = \beta_1 (1)^2 + r_1 \\ | 6 &&\; = \beta_1 (1)^2 + r_1 \\ | ||
Line 141: | Line 135: | ||
10 &&\; = \beta_1 (4)^2 + r_4 \\ | 10 &&\; = \beta_1 (4)^2 + r_4 \\ | ||
\end{alignat}</math> | \end{alignat}</math> | ||
पैरामीटर के संबंध में आंशिक डेरिवेटिव (इस बार केवल ही है) की फिर से गणना की जाती है और 0 पर | पैरामीटर के संबंध में आंशिक डेरिवेटिव (इस बार केवल ही है) की फिर से गणना की जाती है और 0 पर समुच्चय किया जाता है:<math display="block">\frac{\partial S}{\partial \beta_1} = 0 = 708 \beta_1 - 498</math>और इसे हल करने पर<math display="block">\beta_1 = 0.703</math>परिणामी सर्वोत्तम फिट मॉडल के लिए अग्रणी मान <math>y = 0.703 x^2.</math> प्राप्त होता हैं। | ||
<math display="block">\frac{\partial S}{\partial \beta_1} = 0 = 708 \beta_1 - 498</math> | |||
और हल | |||
<math display="block">\beta_1 = 0.703</math> | |||
परिणामी सर्वोत्तम फिट मॉडल के लिए अग्रणी <math>y = 0.703 x^2.</math> | |||
== यह भी देखें == | == यह भी देखें == | ||
* लाइन-लाइन | * लाइन-लाइन गैर-प्रतिच्छेदी लाइनों के निकटतम बिंदु आवेदन | ||
* [[लाइन फिटिंग]] | * [[लाइन फिटिंग]] | ||
* [[अरेखीय कम से कम वर्ग]] | * [[अरेखीय कम से कम वर्ग]] | ||
Line 162: | Line 153: | ||
==बाहरी संबंध== | ==बाहरी संबंध== | ||
*[http://mathworld.wolfram.com/LeastSquaresFitting.html Least Squares Fitting – From MathWorld] | *[http://mathworld.wolfram.com/LeastSquaresFitting.html Least Squares Fitting – From MathWorld] | ||
*[http://mathworld.wolfram.com/LeastSquaresFittingPolynomial.html Least Squares Fitting-Polynomial – From MathWorld] | *[http://mathworld.wolfram.com/LeastSquaresFittingPolynomial.html Least Squares Fitting-Polynomial – From MathWorld] | ||
<sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup><sup> | |||
[[Category: | [[Category:All articles with unsourced statements]] | ||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category:Articles with invalid date parameter in template]] | |||
[[Category:Articles with unsourced statements from December 2010]] | |||
[[Category:Created On 17/03/2023]] | [[Category:Created On 17/03/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with empty portal template]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Portal-inline template with redlinked portals]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Wikipedia articles needing page number citations from December 2010]] | |||
[[Category:कम से कम वर्गों]] | |||
[[Category:कम्प्यूटेशनल आँकड़े]] | |||
[[Category:व्यापक अवधारणा वाले लेख]] |
Latest revision as of 10:03, 28 March 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
रेखीय न्यूनतम वर्ग (LLS) डेटा के रैखिक कार्य का न्यूनतम वर्ग सन्निकटन रहता है।
यह रेखीय प्रतिगमन में सम्मिलित सांख्यिकीय समस्याओं को हल करने के लिए इनके योग का समुच्चय है, जिसमें सामान्य न्यूनतम वर्ग (अनवेटेड), भारित न्यूनतम वर्ग और सामान्यीकृत न्यूनतम वर्ग (सहसंबद्ध) अवशिष्ट (सांख्यिकी) सम्मिलित हैं।
इस प्रकार रेखीय कम से कम वर्गों के लिए संख्यात्मक विधियों में सामान्य समीकरणों और आव्यूह अपघटन विधियों के आव्यूह को परिवर्तित करना सम्मिलित है।
मुख्य फॉर्मूलेशन
तीन मुख्य रैखिक न्यूनतम वर्ग योग हैं:
- सामान्य न्यूनतम वर्ग (ओएलएस) सबसे सामान्य अनुमानक है। ओएलएस अनुमानों का प्रयोग सामान्यतः प्रयोगात्मक और अवलोकन संबंधी अध्ययन डेटा दोनों का विश्लेषण करने के लिए किया जाता है। ओएलएस पद्धति आँकड़ों में प्राप्त त्रुटियों और अवशिष्टों के योग को कम करती है, और अज्ञात पैरामीटर सदिश β के अनुमानित मान के लिए बंद-रूप अभिव्यक्ति की ओर ले जाती है: जहाँ वेक्टर है जिसका iवाँ अवयव निर्भर वैरियेबल का iवाँ अवलोकन है, और आव्यूह है जिसका ij अवयव jवें स्वतंत्र वैरियेबल का iवां प्रेक्षण मान है। इस अनुमानक और सुसंगत अनुमानक का पूर्वाग्रह है यदि त्रुटियों में परिमित विचरण है और प्रतिगामी के साथ असंबद्ध हैं:[1]जहाँ आव्यूह की पंक्ति i का स्थानान्तरण है, इस धारणा के अनुसार दक्षता (सांख्यिकी) भी है कि त्रुटियों में परिमित विचरण है और समरूपता को प्रकट करती है, जिसका अर्थ है कि E[εi2|xi] पर निर्भर नहीं करती है। इस स्थिति की त्रुटियां प्रतिगमनकर्ताओं के साथ असंबद्ध रहती हैं, सामान्यतः प्रयोग में संतुष्ट होंगी, किन्तु अवलोकन संबंधी डेटा की स्थिति में, छोड़े गए सहसंयोजक z की संभावना को बाहर करना कठिन होता है जो कि देखे गए सहसंयोजक और प्रतिक्रिया वैरियेबल दोनों से संबंधित है, इस प्रकार के सहसंयोजक का अस्तित्व सामान्यतः प्रतिगामी और प्रतिक्रिया वैरियेबल के बीच सहसंबंध की ओर ले जाता हैं, और इसलिए 'β' के असंगत अनुमानक के लिए इसका उपयोग किया जाता हैं। इस समरूपता की स्थिति प्रयोगात्मक या अवलोकन संबंधी डेटा के साथ विफल हो सकती है। यदि लक्ष्य या तो अनुमान या भविष्य कहने वाला मॉडलिंग को प्रकट करता हैं, तो बहुसंरेखता उपस्तिथ होने पर ओएलएस अनुमानों का प्रदर्शन बुरा हो सकता है, जब तक कि नमूना आकार बड़ा न हो।
- 'भारित न्यूनतम वर्ग' (WLS) का उपयोग तब किया जाता है जब मॉडल की त्रुटि शर्तों में विषमलैंगिकता उपस्तिथ होती है।
- 'सामान्यीकृत न्यूनतम वर्ग' (जीएलएस) ओएलएस पद्धति का विस्तार है, जो β के कुशल अनुमान की अनुमति देता है जब या तो विषमलैंगिकता, या सहसंबंध, या दोनों मॉडल की त्रुटि शर्तों के बीच उपस्तिथ होते हैं, जब तक कि विषमलैंगिकता का रूप और सहसंबंध डेटा से स्वतंत्र रूप से जाना जाता है। विषमलैंगिकता को संभालने के लिए जब त्रुटि शब्द दूसरे के साथ असंबद्ध होते हैं, जीएलएस भारित एनालॉग को ओएलएस प्रतिगमन से चुकता अवशेषों के योग में कम कर देता है, जहां i के लिए वजन var(ε)i के व्युत्क्रमानुपाती होता है। जीएलएस के लिए इस विशेष स्थिति को भारित न्यूनतम वर्ग कहा जाता है। इसका अनुमान उक्त समस्या के लिए जीएलएस का समाधान है।
वैकल्पिक फॉर्मूलेशन
अन्य योगों में सम्मिलित हैं:
- पुनरावर्ती रूप से कम से कम वर्गों को फिर से भारित किया जाता हैं, इस स्थिति मे आईआरएलएस का उपयोग किया जाता है जब विषमलैंगिकता, या सहसंबंध, या दोनों मॉडल की त्रुटि शर्तों के बीच उपस्तिथ होते हैं, किन्तु जहां डेटा से स्वतंत्र रूप से त्रुटियों की सहप्रसरण संरचना के बारे में बहुत कम जानकारी होती है।[2] पहली पुनरावृत्ति में, ओएलएस, या जीएलएस अनंतिम सहप्रसरण संरचना के साथ किया जाता है, और अवशिष्टों को फिट से प्राप्त किया जाता है। अवशिष्टों के आधार पर, त्रुटियों की सहप्रसरण संरचना का उत्तम अनुमान सामान्यतः प्राप्त किया जा स क त ा ह ै । वजन को परिभाषित करने के लिए त्रुटि संरचना के इस अनुमान का उपयोग करके बाद में जीएलएस पुनरावृत्ति का प्रदर्शन किया जाता है। प्रक्रिया को अभिसरण के लिए पुनरावृत्त किया जा सकता है, किन्तु कई स्थितियों में, केवल पुनरावृत्ति β के कुशल अनुमान को प्राप्त करने के लिए पर्याप्त रहता हैं।[3][4]
- वाद्य वैरियेबल प्रतिगमन (IV) तब किया जा सकता है जब प्रतिगमन त्रुटियों के साथ सहसंबद्ध होती हैं। इस स्थिति में, हमें कुछ सहायक 'वाद्य वैरियेबल' zi के अस्तित्व की आवश्यकता होती हैं, ऐसा इसलिए है क्योंकि E [Ziεi] = 0 रहता हैं। इस प्रकार यदि Z उपकरणों का आव्यूह हो तब अनुमानक को बंद रूप में दिया जा सकता है इष्टतम उपकरण प्रतिगमन उस स्थिति के लिए मौलिक IV प्रतिगमन का विस्तार करता है जहां E[εi | zi] = 0.
- कुल न्यूनतम वर्ग (TLS)[5] रेखीय प्रतिगमन मॉडल के कम से कम वर्गों के अनुमान के लिए दृष्टिकोण है ,जो ओएलएस की तुलना में अधिक ज्यामितीय रूप से सममित तविधियोंसे कोवरिएट्स और प्रतिक्रिया वैरियेबल का उपचार करता है। यह वैरियेबल समस्या में त्रुटियों को संभालने का विधि है, और कभी-कभी इसका उपयोग तब भी किया जाता है जब सहसंयोजकों को त्रुटि-मुक्त माना जाता है।
- प्रतिशत न्यूनतम वर्ग प्रतिशत त्रुटियों को कम करने पर केंद्रित है, जो पूर्वानुमान या समय श्रृंखला विश्लेषण के क्षेत्र में उपयोगी है। यह उन स्थितियों में भी उपयोगी है जहां आश्रित वैरियेबल की निरंतर विचरण के बिना विस्तृत श्रृंखला होती है, क्योंकि यदि ओएलएस का उपयोग किया जाता है तो सीमा के ऊपरी छोर पर बड़े अवशेष पर प्रभावित होते हैं। जब प्रतिशत या सापेक्ष त्रुटि सामान्य रूप से वितरित की जाती है, तो कम से कम वर्ग प्रतिशत प्रतिगमन अधिकतम संभावना अनुमान प्रदान करता है। प्रतिशत प्रतिगमन गुणक त्रुटि मॉडल से जुड़ा हुआ है, जबकि ओएलएस योगात्मक त्रुटि शब्द वाले प्रारूप से जुड़ा होता हैं।[6]
- विवश न्यूनतम वर्ग, का मान के लिए इसके अतिरिक्त बाधाओं के साथ रैखिक न्यूनतम वर्ग समस्या को इंगित करता है।
उद्देश्य फलन
ओएलएस में (अर्थात्, भारित टिप्पणियों को मानते हुए), गुणांक वेक्टर के लिए इष्टतम अभिव्यक्ति को प्रतिस्थापित करके उद्देश्य फ़ंक्शन का गणितीय अनुकूलन पाया जाता है:
यदि यह माना जाता है कि अवशिष्ट सामान्य वितरण से संबंधित हैं, तो वस्तुनिष्ठ फलन, भारित वर्गित अवशिष्टों का योग होने के कारण, ची-वर्ग वितरण|ची-वर्ग से संबंधित होगा। जो () m − n स्वतंत्रता की डिग्री (सांख्यिकी) के साथ वितरण के कुछ निदर्शी प्रतिशतक मानों के लिए के लिए निम्न सूची में दिए गए हैं।[8]
10 | 9.34 | 18.3 | 23.2 |
25 | 24.3 | 37.7 | 44.3 |
100 | 99.3 | 124 | 136 |
फिट होने की अच्छाई के लिए इन मूल्यों का उपयोग सांख्यिकीय मानदंड के लिए किया जा सकता है। जब इकाई भार का उपयोग किया जाता है, तो संख्याओं को प्रेक्षण के प्रसरण से विभाजित किया जाना चाहिए।
WLS के लिए, उपरोक्त सामान्य उद्देश्य फ़ंक्शन को अवशिष्टों के भारित औसत के लिए प्रतिस्थापित किया जाता है।
चर्चा
आंकड़ों और गणित में, रैखिक कम से कम वर्ग उन स्थितियों में डेटा के लिए गणितीय मॉडल या सांख्यिकीय मॉडल को फिट करने के लिए दृष्टिकोण है, जहां किसी डेटा बिंदु के लिए मॉडल द्वारा प्रदान किए गए आदर्श मूल्य को मॉडल के अज्ञात मापदंडों के संदर्भ में रैखिक रूप [[आंकड़े]] से व्यक्त किया जाता है। इस प्रकार परिणामी फिट किए गए मॉडल का उपयोग डेटा को वर्णनात्मक आंकड़ों के लिए किया जा सकता है, इ, सिस्टम से अप्राप्य मूल्यों की भविष्यवाणी करने के लिए, और सिस्टम को समझने वाले तंत्र को समझने के लिए किया जाता हैं।
गणितीय रूप से, रैखिक न्यूनतम वर्ग रैखिक समीकरणों A x = b की अतिनिर्धारित प्रणाली को लगभग हल करने की समस्या है, जहाँ b आव्यूह A के स्तंभ स्थान का अवयव नहीं है। अनुमानित समाधान को A x = के त्रुटिहीन समाधान के रूप में महसूस किया जाता है। b', जहां b' A के कॉलम स्पेस पर b का प्रक्षेपण है। सबसे अच्छा सन्निकटन वह है जो डेटा मानों और उनके संबंधित मॉडल मूल्यों के बीच चुकता अंतरों के योग को कम करता है। दृष्टिकोण को 'रैखिक' 'कम से कम वर्ग कहा जाता है क्योंकि अनुमानित कार्य अनुमानित पैरामीटर में रैखिक है। रैखिक कम से कम वर्ग की समस्याएं उत्तल कार्य हैं और बंद-रूप अभिव्यक्ति है। बंद-रूप समाधान जो अद्वितीय है, बशर्ते कि फिटिंग के लिए उपयोग किए जाने वाले डेटा बिंदुओं की संख्या अज्ञात मापदंडों की संख्या के बराबर या उससे अधिक हो, विशेष पतित स्थितियों को छोड़कर किया जाता हैं। इसके विपरीत, गैर-रैखिक कम से कम वर्गों की समस्याओं को सामान्यतः पुनरावृत्त विधि द्वारा हल किया जाना चाहिए, और उद्देश्य फ़ंक्शन के लिए कई ऑप्टिमा के साथ समस्याएं गैर-उत्तल हो सकती हैं। यदि पूर्व वितरण उपलब्ध हैं, तो न्यूनतम औसत वर्ग त्रुटि का उपयोग करके कम निर्धारित प्रणाली को भी हल किया जा सकता है।
आँकड़ों में, रैखिक कम से कम वर्ग समस्याएँ विशेष रूप से महत्वपूर्ण प्रकार के सांख्यिकीय मॉडल के अनुरूप होती हैं जिन्हें रैखिक प्रतिगमन कहा जाता है जो प्रतिगमन विश्लेषण के विशेष रूप के रूप में उत्पन्न होता है। इस तरह के मॉडल का मूल रूप साधारण न्यूनतम वर्ग मॉडल है। वर्तमान लेख रैखिक कम से कम वर्गों की समस्याओं के गणितीय पहलुओं पर ध्यान केंद्रित करता है, सांख्यिकीय प्रतिगमन मॉडल के निर्माण और व्याख्या की चर्चा के साथ और इनसे संबंधित सांख्यिकीय अनुमानों को अभी उल्लिखित लेखों में निपटाया जा रहा है। विषय की रूपरेखा के लिए प्रतिगमन विश्लेषण की रूपरेखा देखें।
गुण
यदि प्रायोगिक त्रुटियां, , असंबंधित हैं, शून्य का अर्थ है और इसमें निरंतर भिन्नता रहती हैं, इस प्रकार , गॉस-मार्कोव प्रमेय कहता है कि कम से कम वर्ग अनुमानक, , सभी अनुमानकों का न्यूनतम विचरण करता है जो अवलोकनों के रैखिक संयोजित रहता हैं। इस अर्थ में यह पैरामीटरों का सबसे अच्छा, या इष्टतम, अनुमानक है। विशेष रूप से ध्यान दें कि यह संपत्ति त्रुटियों के सांख्यिकीय संचयी वितरण फलन से स्वतंत्र रहता है। दूसरे शब्दों में, त्रुटियों का वितरण कार्य सामान्य वितरण नहीं होना चाहिए। चूंकि, कुछ प्रायिकता वितरणों के लिए, इस बात की कोई गारंटी नहीं है कि प्रेक्षणों को देखते हुए न्यूनतम वर्ग समाधान भी संभव है; फिर भी, ऐसे स्थितियों में यह सबसे अच्छा अनुमानक है जो रैखिक और निष्पक्ष दोनों है।
उदाहरण के लिए, यह दिखाना सरल है कि किसी मात्रा के माप के समुच्चय का अंकगणितीय माध्य उस मात्रा के मान का न्यूनतम-वर्ग अनुमानक है। यदि गॉस-मार्कोव प्रमेय की शर्तें लागू होती हैं, तो माप की त्रुटियों का वितरण कुछ भी हो अंकगणितीय माध्य इष्टतम होता है।
चूँकि, इस स्थिति में कि प्रायोगिक त्रुटियाँ सामान्य वितरण से संबंधित हैं, न्यूनतम-वर्ग अनुमानक भी अधिकतम संभावना अनुमानक है।[9]
ये गुण सभी प्रकार के डेटा फ़िटिंग के लिए कम से कम वर्गों की विधि के उपयोग को रेखांकित करते हैं, तब भी जब धारणाएँ कड़ाई से मान्य नहीं हैं।
सीमाएं
ऊपर दिए गए उपचार में अंतर्निहित धारणा यह है कि स्वतंत्र वैरियेबल, x, त्रुटि मुक्त रहता है। व्यवहारिक रूप से, स्वतंत्र वैरियेबल के मापन में त्रुटियां सामान्यतः निर्भर वैरियेबल पर त्रुटियों की तुलना में बहुत कम होती हैं और इसलिए इसे अनदेखा किया जा सकता है। जब ऐसा नहीं होता है, तो कम से कम वर्ग या अधिक सामान्यतः त्रुटियों में वैरियेबल मॉडल, या कठोर न्यूनतम वर्ग का उपयोग किया जाना चाहिए। यह निर्भर और स्वतंत्र वैरियेबल दोनों पर त्रुटियों को ध्यान में रखते हुए भार योजना को समायोजित करके और फिर मानक प्रक्रिया का पालन करके किया जा सकता है।[10][11]
कुछ स्थितियों में (भारित) सामान्य समीकरण आव्यूह XTX है। बहुपदों को फ़िट करते समय सामान्य समीकरण आव्यूह वैंडरमोंड आव्यूह होता है। जैसे-जैसे आव्यूह का क्रम बढ़ता है वैंडरमोंड मैट्रिसेस तेजी से बीमार होते जाते हैं।[citation needed] इन स्थितियों में, सबसे कम वर्ग का अनुमान माप ध्वनि को बढ़ाता है और यह पूर्ण रूप से गलत होता हैं।[citation needed] ऐसी स्थितियों में विभिन्न नियमितीकरण (गणित) तकनीकों को लागू किया जा सकता है, जिनमें से सबसे सरल तिखोनोव नियमितीकरण कहा जाता है। यदि पैरामीटर के बारे में अधिक जानकारी ज्ञात है, उदाहरण के लिए, संभावित मानों की श्रेणी , तो समाधान की स्थिरता को बढ़ाने के लिए विभिन्न तकनीकों का उपयोग किया जा सकता है। उदाहरण के लिए, विवश_रैखिक_कम से कम_वर्ग देखें।
कम से कम वर्गों के अनुमानक का और दोष यह तथ्य है कि अवशिष्टों का मानदंड, न्यूनतम किया जाता है, जबकि कुछ स्थितियों में पैरामीटर में छोटी त्रुटि प्राप्त करने में वास्तव में रुचि होती है। इस प्रकार , उदाहरण के लिए, का छोटा मान हैं।[citation needed] चूंकि, सही पैरामीटर के बाद से आवश्यक रूप से अज्ञात है, इस मात्रा को सीधे कम नहीं किया जा सकता हैं। यदि पूर्व संभावना चालू है तो उसे से ज्ञात किया जाता है, तो औसत वर्ग त्रुटि को कम करने के लिए न्यूनतम औसत वर्ग त्रुटि का उपयोग किया जा सकता है। कम से कम वर्ग विधि अधिकांशतःलागू होती है जब कोई पूर्व ज्ञात नहीं होता है। आश्चर्यजनक रूप से, जब कई मापदंडों का संयुक्त रूप से अनुमान लगाया जा रहा हो, तो उत्तम आकलनकर्ताओं का निर्माण किया जा सकता है, प्रभाव जिसे स्टीन की घटना के रूप में जाना जाता है। उदाहरण के लिए, यदि माप त्रुटि सामान्य वितरण है, तो कई अनुमानक ज्ञात हैं जो निर्णय नियम पर प्रभावी होता हैं, इस प्रकार यह सबसे कम वर्ग तकनीक से उत्तम प्रदर्शन करते हैं; इनमें से सबसे प्रसिद्ध जेम्स-स्टीन अनुमानक है। यह अधिक सामान्य सिकुड़न अनुमानक का उदाहरण है जिसे प्रतिगमन समस्याओं पर लागू किया गया है।
अनुप्रयोग
- बहुपद प्रतिगमन: मॉडल स्वतंत्र वैरियेबल में बहुपद x हैं,:
- सरल रेखा: .[12]
- द्विघात: .
- घन, चतुर्थक और उच्च बहुपद। बहुपद प्रतिगमन या उच्च-क्रम बहुपदों के साथ प्रतिगमन के लिए, ऑर्थोगोनल बहुपद के उपयोग की प्रस्तुति की जाती है।[13]
- संख्यात्मक चौरसाई और भेदभाव - यह बहुपद फिटिंग का अनुप्रयोग है।
- सतह फिटिंग सहित से अधिक स्वतंत्र वैरियेबल में बहुपद
- बी-पट्टी के साथ कर्व फिटिंग[10]* रसायन विज्ञान , अंशांकन वक्र, मानक जोड़, महान साजिश, बीयर-लैंबर्ट नियम रासायनिक विश्लेषण
डेटा फिटिंग में उपयोग
रैखिक कम से कम वर्गों का प्राथमिक अनुप्रयोग डेटा फ़िटिंग में है। एम डेटा बिंदुओं के समुच्चय को देखते हुए m मानों के लिए उपयोग किये गए प्रयोगात्मक रूप से मापा मूल्यों से मिलकर स्वतंत्र वैरियेबल का ( अदिश या सदिश राशियाँ हो सकती हैं), और मॉडल फ़ंक्शन साथ दिया गया है। यह मापदंडों को खोजने के लिए को वांछित किया जाता है जैसे कि मॉडल फ़ंक्शन डेटा के लिए सबसे उपयुक्त है। रैखिक कम से कम वर्गों में, रैखिकता का अर्थ के मापदंडों के संबंध में होता है इसलिए-
आदर्श रूप से, मॉडल फ़ंक्शन डेटा को त्रुटिहीन रूप से फिट करता है, इसलिए
उदाहरण
इस प्रयोग के परिणामस्वरूप, चार डेटा बिंदु और प्राप्त किए गए थे, (दाईं ओर आरेख में लाल रंग में दिखाया गया है)। यहाँ पर हमें रेखा मिलने की आस होती है, जो इन चार बिंदुओं के लिए सबसे उपयुक्त होती है। दूसरे शब्दों में, हम संख्याओं और का पता लगाना चाहेंगे, यह लगभग अतिनिर्धारित रैखिक प्रणाली को हल करता है:
इसका परिणाम दो अज्ञात में दो समीकरणों की प्रणाली में होता है, जिसे सामान्य समीकरण कहा जाता है, जो हल करने पर देता है:
द्विघात मॉडल का प्रयोग
महत्वपूर्ण रूप से, रैखिक न्यूनतम वर्गों में, हम उपरोक्त उदाहरण के रूप में रेखा को मॉडल के रूप में उपयोग करने तक सीमित नहीं हैं। उदाहरण के लिए, हम प्रतिबंधित द्विघात मॉडल को चुन सकते थे। यह मॉडल अभी भी रैखिक है पैरामीटर, इसलिए हम अभी भी समान विश्लेषण कर सकते हैं, डेटा बिंदुओं से समीकरणों की प्रणाली का निर्माण कर सकते हैं:
यह भी देखें
- लाइन-लाइन गैर-प्रतिच्छेदी लाइनों के निकटतम बिंदु आवेदन
- लाइन फिटिंग
- अरेखीय कम से कम वर्ग
- कम से कम वर्गों को नियमित करें
- सरल रेखीय प्रतिगमन
- आंशिक न्यूनतम वर्ग प्रतिगमन
- रैखिक प्रकार्य
संदर्भ
- ↑ Lai, T.L.; Robbins, H.; Wei, C.Z. (1978). "एकाधिक प्रतिगमन में कम से कम वर्गों के अनुमानों की मजबूत स्थिरता". PNAS. 75 (7): 3034–3036. Bibcode:1978PNAS...75.3034L. doi:10.1073/pnas.75.7.3034. JSTOR 68164. PMC 392707. PMID 16592540.
- ↑ del Pino, Guido (1989). "सांख्यिकीय एल्गोरिथम में पुनरावृत्त सामान्यीकृत न्यूनतम वर्गों की एकीकृत भूमिका". Statistical Science. 4 (4): 394–403. doi:10.1214/ss/1177012408. JSTOR 2245853.
- ↑ Carroll, Raymond J. (1982). "रेखीय मॉडल में विषमलैंगिकता के लिए अनुकूलन". The Annals of Statistics. 10 (4): 1224–1233. doi:10.1214/aos/1176345987. JSTOR 2240725.
- ↑ Cohen, Michael; Dalal, Siddhartha R.; Tukey, John W. (1993). "मजबूत, सुचारू रूप से विषम प्रसरण प्रतिगमन". Journal of the Royal Statistical Society, Series C. 42 (2): 339–353. JSTOR 2986237.
- ↑ Nievergelt, Yves (1994). "Total Least Squares: State-of-the-Art Regression in Numerical Analysis". SIAM Review. 36 (2): 258–264. doi:10.1137/1036055. JSTOR 2132463.
- ↑ Tofallis, C (2009). "कम से कम वर्ग प्रतिशत प्रतिगमन". Journal of Modern Applied Statistical Methods. 7: 526–534. doi:10.2139/ssrn.1406472. SSRN 1406472.
- ↑ Hamilton, W. C. (1964). भौतिक विज्ञान में सांख्यिकी. New York: Ronald Press.
- ↑ Spiegel, Murray R. (1975). शाउम के सिद्धांत की रूपरेखा और संभाव्यता और सांख्यिकी की समस्याएं. New York: McGraw-Hill. ISBN 978-0-585-26739-5.
- ↑ Margenau, Henry; Murphy, George Moseley (1956). भौतिकी और रसायन विज्ञान का गणित. Princeton: Van Nostrand.
- ↑ 10.0 10.1 Gans, Peter (1992). रासायनिक विज्ञान में डेटा फिटिंग. New York: Wiley. ISBN 978-0-471-93412-7.
- ↑ Deming, W. E. (1943). डेटा का सांख्यिकीय समायोजन. New York: Wiley.
- ↑ Acton, F. S. (1959). स्ट्रेट-लाइन डेटा का विश्लेषण. New York: Wiley.
- ↑ Guest, P. G. (1961). वक्र फिटिंग के संख्यात्मक तरीके. Cambridge: Cambridge University Press.[page needed]
अग्रिम पठन
- Bevington, Philip R.; Robinson, Keith D. (2003). Data Reduction and Error Analysis for the Physical Sciences. McGraw-Hill. ISBN 978-0-07-247227-1.
बाहरी संबंध