बहुपद प्रतिगमन: Difference between revisions

From Vigyanwiki
(text)
(text)
Line 2: Line 2:
{{Regression bar}}
{{Regression bar}}


सांख्यिकी में, '''[[बहुपद]] प्रतिगमन''' [[प्रतिगमन विश्लेषण]] का रूप है जिसमें [[स्वतंत्र चर]] ''x'' और आश्रित चर ''y'' के बीच संबंध को ''x'' में ''n''वीं कोटि बहुपद के रूप में तैयार किया जाता है। बहुपद प्रतिगमन ''x'' के मान और ''y'' की संगत [[सशर्त अपेक्षा|सशर्त माध्य,]] E(''y'' |''x'') के बीच गैर-रेखीय संबंध में फिट बैठता है। यद्यपि ''बहुपद प्रतिगमन'' [[आंकड़े]] के लिए गैर-रेखीय मॉडल में फिट बैठता है, [[अनुमान सिद्धांत|सांख्यिकीय अनुमान]] समस्या के रूप में यह रैखिक है, इस अर्थ में कि प्रतिगमन फलन E(''y'' | ''x'') डेटा से अनुमानित अज्ञात [[पैरामीटर|मापदंड]] में रैखिक है। इस कारण से, बहुपद प्रतिगमन को एकाधिक रैखिक प्रतिगमन का एक विशेष मामला माना जाता है।
सांख्यिकी में, '''[[बहुपद]] प्रतिगमन''' [[प्रतिगमन विश्लेषण]] का रूप है जिसमें [[स्वतंत्र चर]] ''x'' और आश्रित चर ''y'' के बीच संबंध को ''x'' में ''n''वीं कोटि बहुपद के रूप में तैयार किया जाता है। बहुपद प्रतिगमन ''x'' के मान और ''y'' की संगत [[सशर्त अपेक्षा|सशर्त माध्य,]] E(''y'' |''x'') के बीच अरैखिक संबंध के अनुरूप है। यद्यपि ''बहुपद प्रतिगमन'' [[आंकड़े]] के लिए अरैखिक मॉडल के अनुरूप है, [[अनुमान सिद्धांत|सांख्यिकीय अनुमान]] समस्या के रूप में यह रैखिक है, इस अर्थ में कि प्रतिगमन फलन E(''y'' | ''x'') आंकड़े से अनुमानित अज्ञात [[पैरामीटर|मापदंड]] में रैखिक है। इस कारण से, बहुपद प्रतिगमन को एकाधिक रैखिक प्रतिगमन का विशेष मामला माना जाता है।
 
आधारभूत चर के बहुपद विस्तार से उत्पन्न व्याख्यात्मक (स्वतंत्र) चर को उच्च-कोटि शब्दों के रूप में जाना जाता है। ऐसे चर का उपयोग [[सांख्यिकीय वर्गीकरण]] सेटिंग्स में भी किया जाता है।<ref name="Chang2010">{{cite journal |author1=Yin-Wen Chang |author2=Cho-Jui Hsieh |author3=Kai-Wei Chang |author4=Michael Ringgaard |author5=Chih-Jen Lin |year=2010 |url=http://jmlr.csail.mit.edu/papers/v11/chang10a.html |title=रैखिक एसवीएम के माध्यम से निम्न-डिग्री बहुपद डेटा मैपिंग का प्रशिक्षण और परीक्षण|journal=[[Journal of Machine Learning Research]] |volume=11 |pages=1471–1490}}</ref>
 


आधारभूत चर के बहुपद विस्तार से उत्पन्न "व्याख्यात्मक (स्वतंत्र)" चर को उच्च-कोटि शब्दों के रूप में जाना जाता है। ऐसे चर का उपयोग [[सांख्यिकीय वर्गीकरण]] समायोजन में भी किया जाता है।<ref name="Chang2010">{{cite journal |author1=Yin-Wen Chang |author2=Cho-Jui Hsieh |author3=Kai-Wei Chang |author4=Michael Ringgaard |author5=Chih-Jen Lin |year=2010 |url=http://jmlr.csail.mit.edu/papers/v11/chang10a.html |title=रैखिक एसवीएम के माध्यम से निम्न-डिग्री बहुपद डेटा मैपिंग का प्रशिक्षण और परीक्षण|journal=[[Journal of Machine Learning Research]] |volume=11 |pages=1471–1490}}</ref>
== इतिहास ==
== इतिहास ==


बहुपद प्रतिगमन मॉडल आमतौर पर [[कम से कम वर्गों]] की विधि का उपयोग करके फिट होते हैं। न्यूनतम-वर्ग विधि एक अनुमानक के पूर्वाग्रह के विचरण को कम करती है|<!-- mean- -->[[गॉस]]-मार्कोव प्रमेय की शर्तों के तहत गुणांकों का निष्पक्ष अनुमान सिद्धांत। न्यूनतम-वर्ग विधि 1805 में [[एड्रियन मैरी लीजेंड्रे]] द्वारा और 1809 में गॉस द्वारा प्रकाशित की गई थी। बहुपद प्रतिगमन के लिए प्रयोगों के डिज़ाइन का पहला [[इष्टतम डिज़ाइन]] [[जोसेफ़ डियाज़ गेर्गोन]] के 1815 के पेपर में दिखाई दिया।<ref>{{cite journal | title=अनुक्रमों के प्रक्षेप के लिए न्यूनतम वर्गों की विधि का अनुप्रयोग|author=Gergonne, J. D. |journal=Historia Mathematica |volume=1 | issue=4 |date=November 1974 |orig-year=1815 |pages=439&ndash;447 |edition=Translated by Ralph St. John and [[Stephen M. Stigler|S. M. Stigler]] from the 1815 French | doi=10.1016/0315-0860(74)90034-2 |author-link=Joseph Diaz Gergonne |doi-access=free }}</ref><ref>{{cite journal | title=Gergonne's 1815 paper on the design and analysis of polynomial regression experiments | author=Stigler, Stephen M. |journal=Historia Mathematica | volume=1 |issue=4 |date=November 1974 |pages=431&ndash;439 | doi=10.1016/0315-0860(74)90033-0| author-link=Stephen M. Stigler | doi-access=free }}</ref> बीसवीं सदी में, प्रयोगों के डिजाइन और सांख्यिकीय अनुमान के मुद्दों पर अधिक जोर देने के साथ, बहुपद प्रतिगमन ने प्रतिगमन विश्लेषण के विकास में एक महत्वपूर्ण भूमिका निभाई।<ref>{{cite journal | author=Smith, Kirstine|title=एक प्रेक्षित बहुपद फलन और उसके स्थिरांकों के समायोजित और अंतर्वेशित मूल्यों के मानक विचलन और प्रेक्षणों के वितरण के उचित विकल्प के लिए उनके द्वारा दिए जाने वाले मार्गदर्शन पर| year=1918 |journal=Biometrika | volume=12 | issue=1/2 | pages=1–85 | jstor=2331929 | doi=10.2307/2331929|url=https://zenodo.org/record/1431591 }}</ref> हाल ही में, बहुपद मॉडल के उपयोग को अन्य तरीकों से पूरक किया गया है, गैर-बहुपद मॉडल में कुछ वर्गों की समस्याओं के लिए फायदे हैं।{{Citation needed|date=March 2018}}
बहुपद प्रतिगमन मॉडल आमतौर पर [[कम से कम वर्गों|न्यूनतम वर्ग]] की विधि का उपयोग के अनुरूप होते हैं। न्यूनतम-वर्ग विधि अनुमानक के पूर्वाग्रह के विचरण को कम करती है| [[गॉस]]-मार्कोव प्रमेय की शर्तों के तहत, न्यूनतम-वर्ग विधि गुणांक के निष्पक्ष अनुमानकों के विचरण को कम करती है। न्यूनतम-वर्ग विधि 1805 में [[एड्रियन मैरी लीजेंड्रे]] द्वारा और 1809 में गॉस द्वारा प्रकाशित की गई थी। बहुपद प्रतिगमन के लिए प्रयोग का पहला डिज़ाइन 1815 में [[इष्टतम डिज़ाइन]] [[जोसेफ़ डियाज़ गेर्गोन]] के पेपर में दिखाई दिया था।<ref>{{cite journal | title=अनुक्रमों के प्रक्षेप के लिए न्यूनतम वर्गों की विधि का अनुप्रयोग|author=Gergonne, J. D. |journal=Historia Mathematica |volume=1 | issue=4 |date=November 1974 |orig-year=1815 |pages=439&ndash;447 |edition=Translated by Ralph St. John and [[Stephen M. Stigler|S. M. Stigler]] from the 1815 French | doi=10.1016/0315-0860(74)90034-2 |author-link=Joseph Diaz Gergonne |doi-access=free }}</ref><ref>{{cite journal | title=Gergonne's 1815 paper on the design and analysis of polynomial regression experiments | author=Stigler, Stephen M. |journal=Historia Mathematica | volume=1 |issue=4 |date=November 1974 |pages=431&ndash;439 | doi=10.1016/0315-0860(74)90033-0| author-link=Stephen M. Stigler | doi-access=free }}</ref> बीसवीं सदी में, बहुपद प्रतिगमन ने डिजाइन और अनुमान के मुद्दों पर अधिक जोर देने के साथ, प्रतिगमन विश्लेषण के विकास में एक महत्वपूर्ण भूमिका निभाई थी।<ref>{{cite journal | author=Smith, Kirstine|title=एक प्रेक्षित बहुपद फलन और उसके स्थिरांकों के समायोजित और अंतर्वेशित मूल्यों के मानक विचलन और प्रेक्षणों के वितरण के उचित विकल्प के लिए उनके द्वारा दिए जाने वाले मार्गदर्शन पर| year=1918 |journal=Biometrika | volume=12 | issue=1/2 | pages=1–85 | jstor=2331929 | doi=10.2307/2331929|url=https://zenodo.org/record/1431591 }}</ref> हाल ही में, बहुपद मॉडल के उपयोग को अन्य तरीकों से पूरक किया गया है, गैर-बहुपद मॉडल में कुछ वर्गों की समस्याओं के लिए फायदे हैं।


== परिभाषा और उदाहरण ==
== परिभाषा और उदाहरण ==
[[Image:Polyreg scheffe.svg|thumb|325px|एक घन बहुपद प्रतिगमन एक सिम्युलेटेड डेटा सेट में फिट होता है। [[आत्मविश्वास बैंड]] एक 95% एक साथ कॉन्फिडेंस बैंड है जिसे शेफ़े की विधि|शेफ़े दृष्टिकोण का उपयोग करके बनाया गया है।]]प्रतिगमन विश्लेषण का लक्ष्य एक स्वतंत्र चर (या स्वतंत्र चर के वेक्टर) x के मूल्य के संदर्भ में एक आश्रित चर y के अपेक्षित मूल्य को मॉडल करना है। सरल रैखिक प्रतिगमन में, मॉडल
[[Image:Polyreg scheffe.svg|thumb|325px|एक घन बहुपद प्रतिगमन एक सिम्युलेटेड डेटा सेट में फिट होता है। [[आत्मविश्वास बैंड]] एक 95% एक साथ कॉन्फिडेंस बैंड है जिसे शेफ़े की विधि|शेफ़े दृष्टिकोण का उपयोग करके बनाया गया है।]]प्रतिगमन विश्लेषण का लक्ष्य स्वतंत्र चर (या स्वतंत्र चर के सदिश) ''x'' के मान के संदर्भ में आश्रित चर ''y'' के अपेक्षित मान को मॉडल करना है। सरल रैखिक प्रतिगमन में, मॉडल


:<math>
:<math>
y = \beta_0 + \beta_1 x + \varepsilon, \,
y = \beta_0 + \beta_1 x + \varepsilon, \,
</math>
</math>
का उपयोग किया जाता है, जहां ε एक स्केलर (गणित) चर x पर वातानुकूलित माध्य शून्य के साथ एक अप्राप्य यादृच्छिक त्रुटि है। इस मॉडल में, x के मान में प्रत्येक इकाई वृद्धि के लिए, y की सशर्त अपेक्षा β से बढ़ जाती है<sub>1</sub> इकाइयाँ।
का उपयोग किया जाता है, जहां ε अदिश (गणित) चर ''x'' पर वातानुकूलित माध्य शून्य के साथ अप्राप्य यादृच्छिक त्रुटि है। इस मॉडल में, ''x'' के मान में प्रत्येक इकाई वृद्धि के लिए, ''y'' की सशर्त अपेक्षा ''β''<sub>1</sub> इकाइयाँ से बढ़ जाती है।


कई सेटिंग्स में, ऐसा रैखिक संबंध कायम नहीं रह सकता है। उदाहरण के लिए, यदि हम रासायनिक संश्लेषण की उपज को उस तापमान के संदर्भ में मॉडलिंग कर रहे हैं जिस पर संश्लेषण होता है, तो हम पा सकते हैं कि तापमान में प्रत्येक इकाई वृद्धि के लिए मात्रा में वृद्धि से उपज में सुधार होता है। इस मामले में, हम फॉर्म का एक द्विघात मॉडल प्रस्तावित कर सकते हैं
कई समायोजन में, ऐसा रैखिक संबंध कायम नहीं रह सकता है। उदाहरण के लिए, यदि हम रासायनिक संश्लेषण की उत्पन्न को उस तापमान के संदर्भ में मॉडलिंग कर रहे हैं जिस पर संश्लेषण होता है, तो हम पा सकते हैं कि तापमान में प्रत्येक इकाई वृद्धि के लिए मात्रा में वृद्धि से उत्पन्न में सुधार होता है। इस मामले में, हम विधि का द्विघात मॉडल प्रस्तावित कर सकते हैं


:<math>
:<math>
y = \beta_0 + \beta_1x + \beta_2 x^2 + \varepsilon. \,
y = \beta_0 + \beta_1x + \beta_2 x^2 + \varepsilon. \,
</math>
</math>
इस मॉडल में, जब तापमान x से x + 1 इकाई तक बढ़ाया जाता है, तो अपेक्षित उपज में परिवर्तन होता है <math>\beta_1+\beta_2(2x+ 1).</math> (इसे इस समीकरण में x को x+1 से प्रतिस्थापित करके और x+1 में समीकरण से x में समीकरण घटाकर देखा जा सकता है।) x में अनंत परिवर्तन के लिए, y पर प्रभाव x के संबंध में [[कुल व्युत्पन्न]] द्वारा दिया जाता है। : <math>\beta_1+2\beta_2x.</math> तथ्य यह है कि उपज में परिवर्तन x पर निर्भर करता है, जो x और y के बीच संबंध को अरेखीय बनाता है, भले ही मॉडल अनुमानित मापदंडों में रैखिक हो।
इस मॉडल में, जब तापमान ''x'' से ''x'' + 1 इकाई तक बढ़ाया जाता है, तो अपेक्षित उत्पन्न<math>\beta_1+\beta_2(2x+ 1).</math> में परिवर्तन होता है। (इसे इस समीकरण में ''x'' को ''x+1'' से प्रतिस्थापित करके और ''x''+1 में समीकरण से ''x में''  समीकरण घटाकर देखा जा सकता है।) ''x'' में अनंत परिवर्तन के लिए, ''y'' पर प्रभाव ''x'' के संबंध में [[कुल व्युत्पन्न]] द्वारा दिया जाता है। : <math>\beta_1+2\beta_2x.</math> तथ्य यह है कि उत्पन्न में परिवर्तन ''x'' पर निर्भर करता है, जो ''x'' और ''y'' के बीच संबंध को अरेखीय बनाता है, भले ही मॉडल अनुमानित मापदंडों में रैखिक हो।


सामान्य तौर पर, हम y के अपेक्षित मान को nवीं कोटि बहुपद के रूप में मॉडल कर सकते हैं, जिससे सामान्य बहुपद प्रतिगमन मॉडल प्राप्त होता है
सामान्य तौर पर, हम ''y'' के अपेक्षित मान को ''n''वीं कोटि बहुपद के रूप में मॉडल कर सकते हैं, जिससे सामान्य बहुपद प्रतिगमन मॉडल प्राप्त होता है


:<math>
:<math>
y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n + \varepsilon. \,  
y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n + \varepsilon. \,  
</math>
</math>
आसानी से, ये मॉडल अनुमान सिद्धांत के दृष्टिकोण से सभी रैखिक हैं, क्योंकि प्रतिगमन फलन अज्ञात मापदंड β के संदर्भ में रैखिक है<sub>0</sub>, बी<sub>1</sub>, .... इसलिए, न्यूनतम वर्ग विश्लेषण के लिए, बहुपद प्रतिगमन की कम्प्यूटेशनल और अनुमानित समस्याओं को रैखिक प्रतिगमन की तकनीकों का उपयोग करके पूरी तरह से संबोधित किया जा सकता है। यह x,x का उपचार करके किया जाता है<sup>2</sup>,... एकाधिक प्रतिगमन मॉडल में विशिष्ट स्वतंत्र चर के रूप में।
ये मॉडल आसानी से अनुमान सिद्धांत के दृष्टिकोण से सभी रैखिक हैं, क्योंकि प्रतिगमन फलन अज्ञात मापदंड ''β<sub>0</sub>, β<sub>1</sub>, ....'' के संदर्भ में रैखिक है इसलिए, न्यूनतम वर्ग विश्लेषण के लिए, बहुपद प्रतिगमन की कम्प्यूटेशनल और अनुमानित समस्याओं को रैखिक प्रतिगमन की तकनीकों का उपयोग करके पूरी तरह से संबोधित किया जा सकता है। यह एकाधिक प्रतिगमन मॉडल में विशिष्ट स्वतंत्र चर के रूप में ''x, x<sup>2</sup>, ...'' का उपचार करके किया जाता है।


==मैट्रिक्स फॉर्म और अनुमानों की गणना==
==आव्यूह विधि और अनुमानों की गणना==


बहुपद प्रतिगमन मॉडल
बहुपद प्रतिगमन मॉडल


:<math>y_i \,=\, \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \cdots + \beta_m x_i^m + \varepsilon_i\  (i = 1, 2, \dots , n) </math>
:<math>y_i \,=\, \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \cdots + \beta_m x_i^m + \varepsilon_i\  (i = 1, 2, \dots , n) </math>
डिज़ाइन मैट्रिक्स के संदर्भ में मैट्रिक्स रूप में व्यक्त किया जा सकता है <math>\mathbf{X}</math>, एक प्रतिक्रिया वेक्टर <math>\vec y</math>, एक मापदंड वेक्टर <math>\vec \beta</math>, और एक वेक्टर <math>\vec\varepsilon</math> यादृच्छिक त्रुटियों का. की i-वीं पंक्ति <math>\mathbf{X}</math> और <math>\vec y</math> i-वें डेटा नमूने के लिए x और y मान शामिल होंगे। तब मॉडल को रैखिक समीकरणों की एक प्रणाली के रूप में लिखा जा सकता है:
डिज़ाइन आव्यूह <math>\mathbf{X}</math> प्रतिक्रिया सदिश <math>\vec y</math>, मापदंड सदिश <math>\vec \beta</math>, और सदिश <math>\vec\varepsilon</math> यादृच्छिक त्रुटियो के संदर्भ में आव्यूह रूप में व्यक्त किया जा सकता है।  i-वीं पंक्ति <math>\mathbf{X}</math> और <math>\vec y</math> i-वें आंकड़े नमूने के लिए ''x'' और ''y'' मान शामिल होंगे। तब मॉडल को रैखिक समीकरणों प्रणाली के रूप में लिखा जा सकता है:


:<math> \begin{bmatrix} y_1\\ y_2\\ y_3 \\ \vdots \\ y_n \end{bmatrix}= \begin{bmatrix} 1 & x_1 & x_1^2 & \dots & x_1^m \\ 1 & x_2 & x_2^2 & \dots & x_2^m \\ 1 & x_3 & x_3^2 & \dots & x_3^m \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_n & x_n^2 & \dots & x_n^m \end{bmatrix} \begin{bmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \vdots \\ \beta_m \end{bmatrix} + \begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \varepsilon_3 \\ \vdots \\ \varepsilon_n \end{bmatrix}, </math>
:<math> \begin{bmatrix} y_1\\ y_2\\ y_3 \\ \vdots \\ y_n \end{bmatrix}= \begin{bmatrix} 1 & x_1 & x_1^2 & \dots & x_1^m \\ 1 & x_2 & x_2^2 & \dots & x_2^m \\ 1 & x_3 & x_3^2 & \dots & x_3^m \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_n & x_n^2 & \dots & x_n^m \end{bmatrix} \begin{bmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \vdots \\ \beta_m \end{bmatrix} + \begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \varepsilon_3 \\ \vdots \\ \varepsilon_n \end{bmatrix}, </math>
जिसे शुद्ध मैट्रिक्स नोटेशन का उपयोग करते समय इस प्रकार लिखा जाता है
जिसे शुद्ध आव्यूह नोटेशन का उपयोग करते समय इस प्रकार लिखा जाता है


: <math>\vec y = \mathbf{X} \vec \beta + \vec\varepsilon. \,</math>
: <math>\vec y = \mathbf{X} \vec \beta + \vec\varepsilon. \,</math>
[[अनुमान]]ित बहुपद प्रतिगमन गुणांक का वेक्टर (साधारण न्यूनतम वर्ग अनुमान का उपयोग करके) है
[[अनुमान]] बहुपद प्रतिगमन गुणांक का सदिश (साधारण न्यूनतम वर्ग अनुमान का उपयोग करके) है


: <math>\widehat{\vec \beta} = (\mathbf{X}^\mathsf{T} \mathbf{X})^{-1}\; \mathbf{X}^\mathsf{T} \vec y, \,</math>
: <math>\widehat{\vec \beta} = (\mathbf{X}^\mathsf{T} \mathbf{X})^{-1}\; \mathbf{X}^\mathsf{T} \vec y, \,</math>
यह मानते हुए कि m < n जो मैट्रिक्स के व्युत्क्रमणीय होने के लिए आवश्यक है; तब से <math>\mathbf{X}</math> एक [[वेंडरमोंडे मैट्रिक्स]] है, यदि सभी हो तो व्युत्क्रमणीयता की स्थिति कायम रहने की गारंटी है <math>x_i</math> मूल्य भिन्न हैं। यह अद्वितीय न्यूनतम-वर्ग समाधान है।
यह मानते हुए कि ''m < n'' जो आव्यूह के व्युत्क्रमणीय होने के लिए आवश्यक है; तब से <math>\mathbf{X}</math> [[वेंडरमोंडे मैट्रिक्स|वेंडरमोंडे आव्यूह]] है, यदि सभी हो तो व्युत्क्रमणीयता की स्थिति कायम रहने की गारंटी है <math>x_i</math> मान भिन्न हैं। यह अद्वितीय न्यूनतम-वर्ग समाधान है।


==व्याख्या==
==व्याख्या==


यद्यपि बहुपद प्रतिगमन तकनीकी रूप से एकाधिक रैखिक प्रतिगमन का एक विशेष मामला है, एक फिट बहुपद प्रतिगमन मॉडल की व्याख्या के लिए कुछ अलग परिप्रेक्ष्य की आवश्यकता होती है। बहुपद प्रतिगमन फिट में व्यक्तिगत गुणांकों की व्याख्या करना अक्सर मुश्किल होता है, क्योंकि अंतर्निहित एकपदी अत्यधिक सहसंबद्ध हो सकते हैं। उदाहरण के लिए, एक्स और एक्स<sup>2</sup> का सहसंबंध 0.97 के आसपास होता है जब x अंतराल (0, 1) पर एक [[समान वितरण (निरंतर)]] होता है। यद्यपि [[ऑर्थोगोनल बहुपद]]ों का उपयोग करके सहसंबंध को कम किया जा सकता है, लेकिन समग्र रूप से फिट किए गए प्रतिगमन फलन पर विचार करना आम तौर पर अधिक जानकारीपूर्ण होता है। प्रतिगमन फलन के अनुमान में अनिश्चितता की भावना प्रदान करने के लिए बिंदु-वार या एक साथ आत्मविश्वास बैंड का उपयोग किया जा सकता है।
यद्यपि बहुपद प्रतिगमन तकनीकी रूप से एकाधिक रैखिक प्रतिगमन का विशेष मामला है, अनुरूप बहुपद प्रतिगमन मॉडल की व्याख्या के लिए कुछ अलग परिप्रेक्ष्य की आवश्यकता होती है। बहुपद प्रतिगमन अनुरूप में व्यक्तिगत गुणांकों की व्याख्या करना अक्सर मुश्किल होता है, क्योंकि अंतर्निहित एकपदी अत्यधिक सहसंबद्ध हो सकते हैं। उदाहरण के लिए, ''x'' और ''x<sup>2</sup>'' का सहसंबंध 0.97 के आसपास होता है जब ''x'' अंतराल (0, 1) पर [[समान वितरण (निरंतर)]] होता है। यद्यपि [[ऑर्थोगोनल बहुपद|लांबिक बहुपद]] का उपयोग करके सहसंबंध को कम किया जा सकता है, लेकिन समग्र रूप से अनुरूप किए गए प्रतिगमन फलन पर विचार करना आम तौर पर अधिक जानकारीपूर्ण होता है। प्रतिगमन फलन के अनुमान में अनिश्चितता की भावना प्रदान करने के लिए बिंदु-वार या एक साथ विश्वास्यता  बैंड का उपयोग किया जाता है।


==वैकल्पिक दृष्टिकोण==
==वैकल्पिक दृष्टिकोण==


बहुपद प्रतिगमन दो मात्राओं के बीच कार्यात्मक संबंध को मॉडल करने के लिए [[आधार कार्य]]ों का उपयोग करके प्रतिगमन विश्लेषण का एक उदाहरण है। अधिक विशेष रूप से, यह प्रतिस्थापित करता है <math>x \in \mathbb R^{d_x}</math> बहुपद आधार के साथ रैखिक प्रतिगमन में <math>\varphi (x) \in \mathbb R^{d_\varphi}</math>, उदा. <math>[1,x] \mathbin{\stackrel{\varphi}{\rightarrow}} [1,x,x^2,\ldots,x^d]</math>. बहुपद आधारों का एक दोष यह है कि आधार कार्य गैर-स्थानीय हैं, जिसका अर्थ है कि किसी दिए गए मान पर y का फिट मान x = x<sub>0</sub> x से दूर x वाले डेटा मानों पर दृढ़ता से निर्भर करता है<sub>0</sub>.<ref>
बहुपद प्रतिगमन दो मात्राओं के बीच कार्यात्मक संबंध को मॉडल करने के लिए [[आधार कार्य|आधार फलन]] का उपयोग, प्रतिगमन विश्लेषण का उदाहरण है। विशेष रूप से, यह प्रतिस्थापित करता है <math>x \in \mathbb R^{d_x}</math> बहुपद आधार के साथ रैखिक प्रतिगमन में <math>\varphi (x) \in \mathbb R^{d_\varphi}</math>, उदा. <math>[1,x] \mathbin{\stackrel{\varphi}{\rightarrow}} [1,x,x^2,\ldots,x^d]</math>. बहुपद आधारों का एक दोष यह है कि आधार फलन गैर-स्थानीय हैं, जिसका अर्थ है कि किसी दिए गए मान पर y का अनुरूप मान x = x<sub>0</sub> x से दूर x वाले आंकड़े मानों पर दृढ़ता से निर्भर करता है<sub>0</sub>.<ref>
Such "non-local" behavior is a property of [[Analytic function#Properties of analytic functions|analytic function]]s that are not constant (everywhere). Such "non-local" behavior has been widely discussed in statistics:  
Such "non-local" behavior is a property of [[Analytic function#Properties of analytic functions|analytic function]]s that are not constant (everywhere). Such "non-local" behavior has been widely discussed in statistics:  
*{{cite journal | doi=10.2307/2685560 | last=Magee | first=Lonnie | journal=The American Statistician | title=Nonlocal Behavior in Polynomial Regressions | volume=52 | year=1998 | jstor=2685560 | pages=20–22 | issue=1 }}</ref> आधुनिक आँकड़ों में, बहुपद आधार-फलन का उपयोग नए आधार फ़ंक्शंस, जैसे स्पलाइन (गणित), रेडियल आधार फ़ंक्शंस और [[ छोटा लहर ]]्स के साथ किया जाता है। [[आधार कार्य]]ों के ये परिवार कई प्रकार के डेटा के लिए अधिक अनुकूल फिट प्रदान करते हैं।
*{{cite journal | doi=10.2307/2685560 | last=Magee | first=Lonnie | journal=The American Statistician | title=Nonlocal Behavior in Polynomial Regressions | volume=52 | year=1998 | jstor=2685560 | pages=20–22 | issue=1 }}</ref> आधुनिक आँकड़ों में, बहुपद आधार-फलन का उपयोग नए आधार फ़ंक्शंस, जैसे स्पलाइन (गणित), रेडियल आधार फ़ंक्शंस और [[ छोटा लहर ]]्स के साथ किया जाता है। [[आधार कार्य]]ों के ये परिवार कई प्रकार के आंकड़े के लिए अधिक अनुकूल अनुरूप प्रदान करते हैं।


बहुपद प्रतिगमन का लक्ष्य स्वतंत्र और आश्रित चर (तकनीकी रूप से, स्वतंत्र चर और आश्रित चर के सशर्त माध्य के बीच) के बीच एक गैर-रैखिक संबंध को मॉडल करना है। यह [[गैरपैरामीट्रिक प्रतिगमन]] के लक्ष्य के समान है, जिसका उद्देश्य गैर-रेखीय प्रतिगमन संबंधों को पकड़ना है<!-- ; nonparametric regression is als useful when the error distribution is unknown (and not just for possibly non-Gaussian error distributions)-->. इसलिए, गैर-पैरामीट्रिक प्रतिगमन दृष्टिकोण जैसे [[ चौरसाई ]] बहुपद प्रतिगमन के लिए उपयोगी विकल्प हो सकते हैं। इनमें से कुछ विधियाँ शास्त्रीय बहुपद प्रतिगमन के स्थानीयकृत रूप का उपयोग करती हैं।<ref>{{cite book | last=Fan | first=Jianqing | year=1996 | title=Local Polynomial Modelling and Its Applications: From linear regression to nonlinear regression | series=Monographs on Statistics and Applied Probability | publisher=Chapman & Hall/CRC. | isbn=978-0-412-98321-4}}</ref> पारंपरिक बहुपद प्रतिगमन का एक फायदा यह है कि एकाधिक प्रतिगमन के अनुमानित ढांचे का उपयोग किया जा सकता है (यह आधार कार्यों के अन्य परिवारों जैसे स्प्लिंस का उपयोग करते समय भी लागू होता है)।
बहुपद प्रतिगमन का लक्ष्य स्वतंत्र और आश्रित चर (तकनीकी रूप से, स्वतंत्र चर और आश्रित चर के सशर्त माध्य के बीच) के बीच एक गैर-रैखिक संबंध को मॉडल करना है। यह [[गैरपैरामीट्रिक प्रतिगमन]] के लक्ष्य के समान है, जिसका उद्देश्य अरैखिक प्रतिगमन संबंधों को पकड़ना है<!-- ; nonparametric regression is als useful when the error distribution is unknown (and not just for possibly non-Gaussian error distributions)-->. इसलिए, गैर-पैरामीट्रिक प्रतिगमन दृष्टिकोण जैसे [[ चौरसाई ]] बहुपद प्रतिगमन के लिए उपयोगी विकल्प हो सकते हैं। इनमें से कुछ विधियाँ शास्त्रीय बहुपद प्रतिगमन के स्थानीयकृत रूप का उपयोग करती हैं।<ref>{{cite book | last=Fan | first=Jianqing | year=1996 | title=Local Polynomial Modelling and Its Applications: From linear regression to nonlinear regression | series=Monographs on Statistics and Applied Probability | publisher=Chapman & Hall/CRC. | isbn=978-0-412-98321-4}}</ref> पारंपरिक बहुपद प्रतिगमन का एक फायदा यह है कि एकाधिक प्रतिगमन के अनुमानित ढांचे का उपयोग किया जा सकता है (यह आधार कार्यों के अन्य परिवारों जैसे स्प्लिंस का उपयोग करते समय भी लागू होता है)।


एक अंतिम विकल्प कर्नेल विधि मॉडल का उपयोग करना है जैसे [[बहुपद कर्नेल]] के साथ वेक्टर प्रतिगमन का समर्थन करना।
एक अंतिम विकल्प कर्नेल विधि मॉडल का उपयोग करना है जैसे [[बहुपद कर्नेल]] के साथ सदिश प्रतिगमन का समर्थन करना।


यदि अवशिष्टों (सांख्यिकी) में असमान भिन्नता है, तो उसके लिए एक [[भारित न्यूनतम वर्ग]] अनुमानक का उपयोग किया जा सकता है।<ref name="Conte De Boor 2018 p. 259">{{cite book | last1=Conte | first1=S.D. | last2=De Boor | first2=C. | title=Elementary Numerical Analysis: An Algorithmic Approach | publisher=Society for Industrial and Applied Mathematics (SIAM, 3600 Market Street, Floor 6, Philadelphia, PA 19104) | series=Classics in Applied Mathematics | year=2018 | isbn=978-1-61197-520-8 | url=https://books.google.com/books?id=oYZXDwAAQBAJ&pg=PA259 | access-date=2020-08-28 | page=259}}</ref>
यदि अवशिष्टों (सांख्यिकी) में असमान भिन्नता है, तो उसके लिए एक [[भारित न्यूनतम वर्ग]] अनुमानक का उपयोग किया जा सकता है।<ref name="Conte De Boor 2018 p. 259">{{cite book | last1=Conte | first1=S.D. | last2=De Boor | first2=C. | title=Elementary Numerical Analysis: An Algorithmic Approach | publisher=Society for Industrial and Applied Mathematics (SIAM, 3600 Market Street, Floor 6, Philadelphia, PA 19104) | series=Classics in Applied Mathematics | year=2018 | isbn=978-1-61197-520-8 | url=https://books.google.com/books?id=oYZXDwAAQBAJ&pg=PA259 | access-date=2020-08-28 | page=259}}</ref>
Line 70: Line 68:
*[[रेखा प्रतिगमन]]
*[[रेखा प्रतिगमन]]
*[[स्थानीय बहुपद प्रतिगमन]]
*[[स्थानीय बहुपद प्रतिगमन]]
*[[बहुपद और तर्कसंगत कार्य मॉडलिंग]]
*[[बहुपद और तर्कसंगत कार्य मॉडलिंग|बहुपद और तर्कसंगत फलन मॉडलिंग]]
*[[बहुपद प्रक्षेप]]
*[[बहुपद प्रक्षेप]]
*[[प्रतिक्रिया सतह कार्यप्रणाली]]
*[[प्रतिक्रिया सतह कार्यप्रणाली]]

Revision as of 11:07, 16 July 2023

सांख्यिकी में, बहुपद प्रतिगमन प्रतिगमन विश्लेषण का रूप है जिसमें स्वतंत्र चर x और आश्रित चर y के बीच संबंध को x में nवीं कोटि बहुपद के रूप में तैयार किया जाता है। बहुपद प्रतिगमन x के मान और y की संगत सशर्त माध्य, E(y |x) के बीच अरैखिक संबंध के अनुरूप है। यद्यपि बहुपद प्रतिगमन आंकड़े के लिए अरैखिक मॉडल के अनुरूप है, सांख्यिकीय अनुमान समस्या के रूप में यह रैखिक है, इस अर्थ में कि प्रतिगमन फलन E(y | x) आंकड़े से अनुमानित अज्ञात मापदंड में रैखिक है। इस कारण से, बहुपद प्रतिगमन को एकाधिक रैखिक प्रतिगमन का विशेष मामला माना जाता है।

आधारभूत चर के बहुपद विस्तार से उत्पन्न "व्याख्यात्मक (स्वतंत्र)" चर को उच्च-कोटि शब्दों के रूप में जाना जाता है। ऐसे चर का उपयोग सांख्यिकीय वर्गीकरण समायोजन में भी किया जाता है।[1]

इतिहास

बहुपद प्रतिगमन मॉडल आमतौर पर न्यूनतम वर्ग की विधि का उपयोग के अनुरूप होते हैं। न्यूनतम-वर्ग विधि अनुमानक के पूर्वाग्रह के विचरण को कम करती है| गॉस-मार्कोव प्रमेय की शर्तों के तहत, न्यूनतम-वर्ग विधि गुणांक के निष्पक्ष अनुमानकों के विचरण को कम करती है। न्यूनतम-वर्ग विधि 1805 में एड्रियन मैरी लीजेंड्रे द्वारा और 1809 में गॉस द्वारा प्रकाशित की गई थी। बहुपद प्रतिगमन के लिए प्रयोग का पहला डिज़ाइन 1815 में इष्टतम डिज़ाइन जोसेफ़ डियाज़ गेर्गोन के पेपर में दिखाई दिया था।[2][3] बीसवीं सदी में, बहुपद प्रतिगमन ने डिजाइन और अनुमान के मुद्दों पर अधिक जोर देने के साथ, प्रतिगमन विश्लेषण के विकास में एक महत्वपूर्ण भूमिका निभाई थी।[4] हाल ही में, बहुपद मॉडल के उपयोग को अन्य तरीकों से पूरक किया गया है, गैर-बहुपद मॉडल में कुछ वर्गों की समस्याओं के लिए फायदे हैं।

परिभाषा और उदाहरण

शेफ़े दृष्टिकोण का उपयोग करके बनाया गया है।

प्रतिगमन विश्लेषण का लक्ष्य स्वतंत्र चर (या स्वतंत्र चर के सदिश) x के मान के संदर्भ में आश्रित चर y के अपेक्षित मान को मॉडल करना है। सरल रैखिक प्रतिगमन में, मॉडल

का उपयोग किया जाता है, जहां ε अदिश (गणित) चर x पर वातानुकूलित माध्य शून्य के साथ अप्राप्य यादृच्छिक त्रुटि है। इस मॉडल में, x के मान में प्रत्येक इकाई वृद्धि के लिए, y की सशर्त अपेक्षा β1 इकाइयाँ से बढ़ जाती है।

कई समायोजन में, ऐसा रैखिक संबंध कायम नहीं रह सकता है। उदाहरण के लिए, यदि हम रासायनिक संश्लेषण की उत्पन्न को उस तापमान के संदर्भ में मॉडलिंग कर रहे हैं जिस पर संश्लेषण होता है, तो हम पा सकते हैं कि तापमान में प्रत्येक इकाई वृद्धि के लिए मात्रा में वृद्धि से उत्पन्न में सुधार होता है। इस मामले में, हम विधि का द्विघात मॉडल प्रस्तावित कर सकते हैं

इस मॉडल में, जब तापमान x से x + 1 इकाई तक बढ़ाया जाता है, तो अपेक्षित उत्पन्न में परिवर्तन होता है। (इसे इस समीकरण में x को x+1 से प्रतिस्थापित करके और x+1 में समीकरण से x में समीकरण घटाकर देखा जा सकता है।) x में अनंत परिवर्तन के लिए, y पर प्रभाव x के संबंध में कुल व्युत्पन्न द्वारा दिया जाता है। : तथ्य यह है कि उत्पन्न में परिवर्तन x पर निर्भर करता है, जो x और y के बीच संबंध को अरेखीय बनाता है, भले ही मॉडल अनुमानित मापदंडों में रैखिक हो।

सामान्य तौर पर, हम y के अपेक्षित मान को nवीं कोटि बहुपद के रूप में मॉडल कर सकते हैं, जिससे सामान्य बहुपद प्रतिगमन मॉडल प्राप्त होता है

ये मॉडल आसानी से अनुमान सिद्धांत के दृष्टिकोण से सभी रैखिक हैं, क्योंकि प्रतिगमन फलन अज्ञात मापदंड β0, β1, .... के संदर्भ में रैखिक है इसलिए, न्यूनतम वर्ग विश्लेषण के लिए, बहुपद प्रतिगमन की कम्प्यूटेशनल और अनुमानित समस्याओं को रैखिक प्रतिगमन की तकनीकों का उपयोग करके पूरी तरह से संबोधित किया जा सकता है। यह एकाधिक प्रतिगमन मॉडल में विशिष्ट स्वतंत्र चर के रूप में x, x2, ... का उपचार करके किया जाता है।

आव्यूह विधि और अनुमानों की गणना

बहुपद प्रतिगमन मॉडल

डिज़ाइन आव्यूह प्रतिक्रिया सदिश , मापदंड सदिश , और सदिश यादृच्छिक त्रुटियो के संदर्भ में आव्यूह रूप में व्यक्त किया जा सकता है। i-वीं पंक्ति और i-वें आंकड़े नमूने के लिए x और y मान शामिल होंगे। तब मॉडल को रैखिक समीकरणों क प्रणाली के रूप में लिखा जा सकता है:

जिसे शुद्ध आव्यूह नोटेशन का उपयोग करते समय इस प्रकार लिखा जाता है

अनुमान बहुपद प्रतिगमन गुणांक का सदिश (साधारण न्यूनतम वर्ग अनुमान का उपयोग करके) है

यह मानते हुए कि m < n जो आव्यूह के व्युत्क्रमणीय होने के लिए आवश्यक है; तब से वेंडरमोंडे आव्यूह है, यदि सभी हो तो व्युत्क्रमणीयता की स्थिति कायम रहने की गारंटी है मान भिन्न हैं। यह अद्वितीय न्यूनतम-वर्ग समाधान है।

व्याख्या

यद्यपि बहुपद प्रतिगमन तकनीकी रूप से एकाधिक रैखिक प्रतिगमन का विशेष मामला है, अनुरूप बहुपद प्रतिगमन मॉडल की व्याख्या के लिए कुछ अलग परिप्रेक्ष्य की आवश्यकता होती है। बहुपद प्रतिगमन अनुरूप में व्यक्तिगत गुणांकों की व्याख्या करना अक्सर मुश्किल होता है, क्योंकि अंतर्निहित एकपदी अत्यधिक सहसंबद्ध हो सकते हैं। उदाहरण के लिए, x और x2 का सहसंबंध 0.97 के आसपास होता है जब x अंतराल (0, 1) पर समान वितरण (निरंतर) होता है। यद्यपि लांबिक बहुपद का उपयोग करके सहसंबंध को कम किया जा सकता है, लेकिन समग्र रूप से अनुरूप किए गए प्रतिगमन फलन पर विचार करना आम तौर पर अधिक जानकारीपूर्ण होता है। प्रतिगमन फलन के अनुमान में अनिश्चितता की भावना प्रदान करने के लिए बिंदु-वार या एक साथ विश्वास्यता बैंड का उपयोग किया जाता है।

वैकल्पिक दृष्टिकोण

बहुपद प्रतिगमन दो मात्राओं के बीच कार्यात्मक संबंध को मॉडल करने के लिए आधार फलन का उपयोग, प्रतिगमन विश्लेषण का उदाहरण है। विशेष रूप से, यह प्रतिस्थापित करता है बहुपद आधार के साथ रैखिक प्रतिगमन में , उदा. . बहुपद आधारों का एक दोष यह है कि आधार फलन गैर-स्थानीय हैं, जिसका अर्थ है कि किसी दिए गए मान पर y का अनुरूप मान x = x0 x से दूर x वाले आंकड़े मानों पर दृढ़ता से निर्भर करता है0.[5] आधुनिक आँकड़ों में, बहुपद आधार-फलन का उपयोग नए आधार फ़ंक्शंस, जैसे स्पलाइन (गणित), रेडियल आधार फ़ंक्शंस और छोटा लहर ्स के साथ किया जाता है। आधार कार्यों के ये परिवार कई प्रकार के आंकड़े के लिए अधिक अनुकूल अनुरूप प्रदान करते हैं।

बहुपद प्रतिगमन का लक्ष्य स्वतंत्र और आश्रित चर (तकनीकी रूप से, स्वतंत्र चर और आश्रित चर के सशर्त माध्य के बीच) के बीच एक गैर-रैखिक संबंध को मॉडल करना है। यह गैरपैरामीट्रिक प्रतिगमन के लक्ष्य के समान है, जिसका उद्देश्य अरैखिक प्रतिगमन संबंधों को पकड़ना है. इसलिए, गैर-पैरामीट्रिक प्रतिगमन दृष्टिकोण जैसे चौरसाई बहुपद प्रतिगमन के लिए उपयोगी विकल्प हो सकते हैं। इनमें से कुछ विधियाँ शास्त्रीय बहुपद प्रतिगमन के स्थानीयकृत रूप का उपयोग करती हैं।[6] पारंपरिक बहुपद प्रतिगमन का एक फायदा यह है कि एकाधिक प्रतिगमन के अनुमानित ढांचे का उपयोग किया जा सकता है (यह आधार कार्यों के अन्य परिवारों जैसे स्प्लिंस का उपयोग करते समय भी लागू होता है)।

एक अंतिम विकल्प कर्नेल विधि मॉडल का उपयोग करना है जैसे बहुपद कर्नेल के साथ सदिश प्रतिगमन का समर्थन करना।

यदि अवशिष्टों (सांख्यिकी) में असमान भिन्नता है, तो उसके लिए एक भारित न्यूनतम वर्ग अनुमानक का उपयोग किया जा सकता है।[7]


यह भी देखें

टिप्पणियाँ

  • Microsoft Excel makes use of polynomial regression when fitting a trendline to data points on an X Y scatter plot.[8]


संदर्भ

  1. Yin-Wen Chang; Cho-Jui Hsieh; Kai-Wei Chang; Michael Ringgaard; Chih-Jen Lin (2010). "रैखिक एसवीएम के माध्यम से निम्न-डिग्री बहुपद डेटा मैपिंग का प्रशिक्षण और परीक्षण". Journal of Machine Learning Research. 11: 1471–1490.
  2. Gergonne, J. D. (November 1974) [1815]. "अनुक्रमों के प्रक्षेप के लिए न्यूनतम वर्गों की विधि का अनुप्रयोग". Historia Mathematica (Translated by Ralph St. John and S. M. Stigler from the 1815 French ed.). 1 (4): 439–447. doi:10.1016/0315-0860(74)90034-2.
  3. Stigler, Stephen M. (November 1974). "Gergonne's 1815 paper on the design and analysis of polynomial regression experiments". Historia Mathematica. 1 (4): 431–439. doi:10.1016/0315-0860(74)90033-0.
  4. Smith, Kirstine (1918). "एक प्रेक्षित बहुपद फलन और उसके स्थिरांकों के समायोजित और अंतर्वेशित मूल्यों के मानक विचलन और प्रेक्षणों के वितरण के उचित विकल्प के लिए उनके द्वारा दिए जाने वाले मार्गदर्शन पर". Biometrika. 12 (1/2): 1–85. doi:10.2307/2331929. JSTOR 2331929.
  5. Such "non-local" behavior is a property of analytic functions that are not constant (everywhere). Such "non-local" behavior has been widely discussed in statistics:
  6. Fan, Jianqing (1996). Local Polynomial Modelling and Its Applications: From linear regression to nonlinear regression. Monographs on Statistics and Applied Probability. Chapman & Hall/CRC. ISBN 978-0-412-98321-4.
  7. Conte, S.D.; De Boor, C. (2018). Elementary Numerical Analysis: An Algorithmic Approach. Classics in Applied Mathematics. Society for Industrial and Applied Mathematics (SIAM, 3600 Market Street, Floor 6, Philadelphia, PA 19104). p. 259. ISBN 978-1-61197-520-8. Retrieved 2020-08-28.
  8. Stevenson, Christopher. "Tutorial: Polynomial Regression in Excel". facultystaff.richmond.edu. Retrieved 22 January 2017.


बाहरी संबंध