प्रतिगमन विश्लेषण: Difference between revisions
No edit summary |
|||
(27 intermediate revisions by 4 users not shown) | |||
Line 1: | Line 1: | ||
[[File:Normdist regression.png|thumb|right|200px|लाइन y = 1.5x+2 (दिखाया नहीं गया) के चारों ओर एक गाऊसी वितरण में 50 यादृच्छिक बिंदुओं के लिए प्रतिगमन लाइन।]] | [[File:Normdist regression.png|thumb|right|200px|लाइन y = 1.5x+2 (दिखाया नहीं गया) के चारों ओर एक गाऊसी वितरण में 50 यादृच्छिक बिंदुओं के लिए प्रतिगमन लाइन।]] | ||
सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) | सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) को एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की प्रणाली अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए ([https://en.wikipedia.org/wiki/Linear_regression रैखिक प्रतिगमन] देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं। | ||
प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है। | प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है। | ||
पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है। | |||
दूसरे, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से समायोजित करना चाहिए कि वर्तमान संबंध में नए संदर्भ या दो चर के बीच संबंध के लिए एक कारण स्पष्टीकरण क्यों है। उत्तरार्द्ध बहुत महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की अपेक्षा करते हैं।<ref name="Freedman2009">{{cite book|author=David A. Freedman|title=Statistical Models: Theory and Practice|url=https://books.google.com/books?id=fW_9BV5Wpf8C&q=%22regression+analysis%22|date=27 April 2009|publisher=Cambridge University Press|isbn=978-1-139-47731-4}}</ref><ref>आर। डेनिस कुक;सैनफोर्ड वीसबर्ग [https://www.jstor.org/stable/270724 आलोचना और प्रतिगमन में प्रभाव विश्लेषण], समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361</ref> | |||
== इतिहास == | == इतिहास == | ||
प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,<ref name="Legendre">एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?</ref>और गॉस ने 1809 में प्रकाशित किया था।<ref name="Gauss">अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.</ref>लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से | प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,<ref name="Legendre">एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?</ref>और गॉस ने 1809 में प्रकाशित किया था।<ref name="Gauss">अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.</ref>लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,<ref name="Gauss2">सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)</ref> जिसमें [https://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem गॉस-मार्कोव प्रमेय] का एक संस्करण भी शामिल था। | ||
"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।<ref> | "प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।<ref> | ||
Line 37: | Line 35: | ||
1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।<ref>रॉडनी रामचरन।]</ref> | 1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।<ref>रॉडनी रामचरन।]</ref> | ||
हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए | हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है। | ||
== प्रतिगमन मॉडल == | == प्रतिगमन मॉडल == | ||
Line 52: | Line 61: | ||
:<math>Y_i = f (X_i, \beta) + e_i</math> | :<math>Y_i = f (X_i, \beta) + e_i</math> | ||
शोधकर्ताओं का लक्ष्य | शोधकर्ताओं का लक्ष्य कार्य का अनुमान लगाना है <math>f(X_i, \beta)</math> जो डेटा के सबसे करीब से फिट बैठता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप <math>f</math> निर्दिष्ट किया जाना चाहिए। कभी-कभी इस फलन का रूप के बीच संबंध के बारे में ज्ञान पर आधारित होता है <math>Y_i</math> तथा <math>X_i</math> जो डेटा पर निर्भर नहीं है। यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो <math>f</math> चुना जाता है। उदाहरण के लिए, एक साधारण अविभाज्य प्रतिगमन प्रस्तावित कर सकता है <math>f(X_i, \beta) = \beta_0 + \beta_1 X_i</math> यह सुझाव देते हुए कि शोधकर्ता का मानना है <math>Y_i = \beta_0 + \beta_1 X_i + e_i</math> डेटा उत्पन्न करने वाली सांख्यिकीय प्रक्रिया के लिए एक उचित सन्निकटन होना चाहिए। | ||
एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों <math>\beta </math> का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, | एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों <math>\beta </math> का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, न्यूनतम वर्ग (इसके सबसे सामान्य प्रकार, साधारण कम से कम वर्ग सहित) का मान पाता है <math>\beta </math> यह चुकता त्रुटियों के योग को कम करता है <math>\sum_i (Y_i - f(X_i, \beta))^2</math>। एक दी गई प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी <math>\beta</math>, आमतौर पर निरूपित <math>\hat{\beta}</math> डेटा को जनरेट करने वाले सही (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए करते है। इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकता है <math>\hat{Y_i} = f(X_i,\hat{\beta})</math> भविष्यवाणी के लिए या डेटा की व्याख्या करने में मॉडल की सटीकता का आकलन करने के लिए कर सकता है। क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है <math>\hat{\beta}</math> या अनुमानित मूल्य <math>\hat{Y_i}</math> संदर्भ और उनके लक्ष्यों पर निर्भर करेगा। जैसा कि साधारण कम से कम वर्गों में वर्णित है, न्यूनतम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन <math>f(X_i, \hat{\beta})</math> सशर्त अपेक्षा का अनुमान लगाता है <math>E(Y_i|X_i)</math>।<ref name="Gauss" /> हालांकि, वैकल्पिक वेरिएंट (जैसे,न्यूनतम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं <math>f(X_i,\beta)</math>। | ||
यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना | यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए। उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है <math>N</math> एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: <math>(Y_i, X_{1i}, X_{2i})</math>। मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: <math>Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + e_i</math>। यदि शोधकर्ता के पास केवल पहुंच है <math>N=2</math> डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे। <math>(\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2)</math> यह डेटा को समान रूप से अच्छी तरह से समझाता है, किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है <math>\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}</math>जिनमें से सभी का नेतृत्व करते हैं <math>\sum_i \hat{e}_i^2 = \sum_i (\hat{Y}_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}))^2 = 0</math> और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं। यह समझने के लिए कि अपरिमित रूप से अनेक विकल्प क्यों हैं, ध्यान दें कि की प्रणाली <math>N=2</math> समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम निर्धारित करता है। वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो <math>N=2</math> फिक्स्ड पॉइंट्स से गुजरते हैं। | ||
अधिक आम तौर पर, | अधिक आम तौर पर, न्यूनतम वर्गों के मॉडल का अनुमान लगाने के लिए <math>k</math> अलग पैरामीटर पर, और एक अलग <math>N > k</math> अलग डेटा बिंदु होना चाहिए। यदि <math>N > k</math> तो आम तौर पर ऐसे मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेंगे। मात्रा <math>k-N</math> प्रतिगमन विश्लेषण में अक्सर प्रकट होता है, और इसे मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है। इसके अलावा, कम से कम वर्ग मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर <math>(X_{1i}, X_{2i}, ..., X_{ki})</math> रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए। जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है,जैसा कि साधारण न्यूनतम वर्गों में चर्चा की गई है, यह शर्त सुनिश्चित करती है कि यह <math>X^{T}X</math> एक उल्टे मैट्रिक्स है और एक उलटा मैट्रिक्स है और इसलिए यह एक अनूठा मौजूद समाधान है, <math>\hat{\beta}</math>। | ||
== अंतर्निहित धारणाएँ == | == अंतर्निहित धारणाएँ == | ||
अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है। वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं। इन धारणाओं में अक्सर शामिल होते हैं: | |||
अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना | |||
*नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है। | *नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है। | ||
*स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है। | *स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है। | ||
*मॉडल से विचलन | *मॉडल से विचलन का अपेक्षित मान शून्य है, सहसंयोजकों पर सशर्त, <math>E(e_i | X_i) = 0</math> | ||
*अवशिष्टों का | *अवशिष्टों का प्रसरण <math>e_i</math> अवलोकन (समरूपता) में निरंतर है। | ||
* अवशिष्ट <math>e_i</math> एक दूसरे | * अवशिष्ट <math>e_i</math> एक दूसरे से असंबंधित हैं। गणितीय रूप से, त्रुटियों का प्रसरण-सहप्रसरण मैट्रिक्स विकर्ण है। | ||
कम से कम वर्ग अनुमानक के लिए वांछनीय गुण रखने के लिए कुछ हद तक स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्कोव मान्यताओं का अर्थ है कि पैरामीटर अनुमान निष्पक्ष, सुसंगत और रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल होंगे। व्यवसायी ने वास्तविक दुनिया की सेटिंग में इनमें से कुछ या सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय मान्यताओं के सटीक रूप से धारण करने की संभावना नहीं है। उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल से उचित अनुमान लगा सकते हैं स्वतंत्र चर को त्रुटियों से माप सकते है। विषमलैंगिकता-संगत मानक त्रुटियां के विचरण की अनुमति देती है <math>e_i</math> के मूल्यों को बदलने के लिए <math>X_i</math>। सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के साथ क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या न्यूए-वेस्ट मानक त्रुटियों का उपयोग करके नियंत्रित किया जा सकता है। जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप हों, तो मॉडल का चुनाव कैसे करें? <math>e_i</math> भौगोलिक इकाइयों के महत्वपूर्ण परिणाम हो सकते हैं।<ref>{{cite book|title=Geographically weighted regression: the analysis of spatially varying relationships|last1=Fotheringham|first1=A. Stewart|last2=Brunsdon|first2=Chris|last3=Charlton|first3=Martin|publisher=John Wiley|year=2002|isbn=978-0-471-49616-8|edition=Reprint|location=Chichester, England}}</ref> अर्थमिति का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग में उचित वास्तविक दुनिया के निष्कर्ष निकालने की अनुमति देता है, जहां शास्त्रीय धारणाएं बिल्कुल सही नहीं होती हैं। | |||
== रैखिक प्रतिगमन == | == रैखिक प्रतिगमन == | ||
रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, <math> y_i </math> मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है) | रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, <math> y_i </math> मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)। उदाहरण के लिए, मॉडलिंग <math> n </math> डेटा बिंदुओं के लिए सरल रेखीय प्रतिगमन में एक स्वतंत्र चर होता है: <math> x_i </math>, और दो पैरामीटर, <math>\beta_0</math> तथा <math>\beta_1</math>: | ||
:सीधी रेखा: <math>y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n.\!</math> | :सीधी रेखा: <math>y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n.\!</math> | ||
बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या स्वतंत्र चर के कार्य होते हैं। | |||
पिछले प्रतिगमन में <math>x_i^2</math> में एक पद जोड़ने पर यह मिलता है: | |||
: अनुवृत्त (parabola): <math>y_i=\beta_0 +\beta_1 x_i +\beta_2 x_i^2+\varepsilon_i,\ i=1,\dots,n.\!</math> | |||
यह अभी भी रैखिक प्रतिगमन है, हालांकि दायीं ओर का व्यंजक स्वतंत्र चर <math>x_i</math> में द्विघात है, यह पैरामीटर <math>\beta_0</math>, <math>\beta_1</math> तथा <math>\beta_2</math> में रैखिक है। | |||
दोनों ही मामलों में, <math>\varepsilon_i</math> एक त्रुटि शब्द है और सबस्क्रिप्ट <math>i</math> एक विशेष अवलोकन को अनुक्रमित करता है। | |||
दोनों ही मामलों में, <math>\varepsilon_i</math> एक त्रुटि शब्द और सबस्क्रिप्ट | |||
सीधी रेखा के मामले | सीधी रेखा के मामले पर ध्यान देते है, जनसंख्या से एक यादृच्छिक नमूने को देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं, | ||
: <math> \widehat{y}_i = \widehat{\beta}_0 + \widehat{\beta}_1 x_i. </math> | : <math> \widehat{y}_i = \widehat{\beta}_0 + \widehat{\beta}_1 x_i. </math> | ||
अवशिष्ट, <math> e_i = y_i - \widehat{y}_i </math>, मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, <math> \widehat{y}_i</math>, और आश्रित चर का | अवशिष्ट, <math> e_i = y_i - \widehat{y}_i </math>, मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, <math> \widehat{y}_i</math>, और सही मान आश्रित चर का, <math>y_i</math>है। आकलन की एक विधि साधारण न्यूनतम वर्ग है। यह विधि पैरामीटर अनुमान प्राप्त करती है जो चुकता अवशिष्टों के योग को कम करती है, | ||
:<math>SSR=\sum_{i=1}^n e_i^2. \, </math> | :<math>SSR=\sum_{i=1}^n e_i^2. \, </math> | ||
इस फ़ंक्शन के | इस फ़ंक्शन के न्यूनीकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक उत्पन्न करने के लिए हल किया जाता है, <math>\widehat{\beta}_0, \widehat{\beta}_1</math>। | ||
[[Image:Linear regression.svg|thumb|upright=1.3|डेटा सेट पर रैखिक प्रतिगमन का चित्रण।]] | [[Image:Linear regression.svg|thumb|upright=1.3|डेटा सेट पर रैखिक प्रतिगमन का चित्रण।]] | ||
सरल प्रतिगमन के मामले में, | सरल प्रतिगमन के मामले में, न्यूनतम वर्ग अनुमान के सूत्र हैं | ||
:<math>\widehat{\beta}_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}</math> | :<math>\widehat{\beta}_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}</math> | ||
:<math>\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}</math> | :<math>\widehat{\beta}_0=\bar{y}-\widehat{\beta}_1\bar{x}</math> | ||
जहां पे <math>\bar{x}</math> मानों और <math>x</math> का माध्य (औसत) है <math>\bar{y}</math> का मतलब है <math>y</math> मानों का माध्य है। | |||
इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में | इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में निरंतर भिन्नता है, उस भिन्नता का अनुमान इस प्रकार दिया जाता है, | ||
: <math> \hat{\sigma}^2_\varepsilon = \frac{SSR}{n-2}.\,</math> | : <math> \hat{\sigma}^2_\varepsilon = \frac{SSR}{n-2}.\,</math> | ||
इसे प्रतिगमन का माध्य वर्ग त्रुटि ( | इसे प्रतिगमन का माध्य वर्ग त्रुटि (MSE) कहा जाता है। हर वह नमूना आकार है जो समान डेटा से अनुमानित मॉडल पैरामीटर की संख्या से घटाया जाता है,<math>(n-p)</math> के लिये <math>p</math> रेग्रेसर्स (regressors) या <math>(n-p-1)</math> अगर अवरोधन का इस्तेमाल किया जाता है।<ref>स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।</ref> इस मामले में, <math>p=1</math> तो हर है <math>n-2</math>। | ||
पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं | पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं, | ||
:<math>\hat\sigma_{\beta_1}=\hat\sigma_{\varepsilon} \sqrt{\frac{1}{\sum(x_i-\bar x)^2}}</math> | :<math>\hat\sigma_{\beta_1}=\hat\sigma_{\varepsilon} \sqrt{\frac{1}{\sum(x_i-\bar x)^2}}</math> | ||
:<math>\hat\sigma_{\beta_0}=\hat\sigma_\varepsilon \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum(x_i-\bar x)^2}}=\hat\sigma_{\beta_1} \sqrt{\frac{\sum x_i^2}{n}}. </math> | :<math>\hat\sigma_{\beta_0}=\hat\sigma_\varepsilon \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum(x_i-\bar x)^2}}=\hat\sigma_{\beta_1} \sqrt{\frac{\sum x_i^2}{n}}. </math> | ||
आगे की धारणा के तहत कि जनसंख्या त्रुटि | आगे की धारणा के तहत कि जनसंख्या त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है। | ||
=== सामान्य रैखिक मॉडल === | |||
अधिक सामान्य एकाधिक प्रतिगमन मॉडल में <math>p</math> स्वतंत्र चर हैं, | |||
: <math> y_i = \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \varepsilon_i, \, </math> | : <math> y_i = \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \varepsilon_i, \, </math> | ||
जहांपे <math>x_{ij}</math> है <math>i</math> अवलोकन पर <math>j</math>-th स्वतंत्र चर हैं। यदि पहला स्वतंत्र चर सभी 1 लेता है <math>i</math>, <math>x_{i1} = 1</math>, फिर <math>\beta_1</math> को प्रतीपगमन अवरोधन कहा जाता है। | |||
यदि पहला स्वतंत्र चर सभी | |||
न्यूनतम वर्ग पैरामीटर अनुमान <math>p</math> सामान्य समीकरणों से प्राप्त किए जाते हैं। अवशिष्ट के रूप में लिखा जा सकता है, | |||
:<math>\varepsilon_i=y_i - \hat\beta_1 x_{i1} - \cdots - \hat\beta_p x_{ip}.</math> | :<math>\varepsilon_i=y_i - \hat\beta_1 x_{i1} - \cdots - \hat\beta_p x_{ip}.</math> | ||
Line 128: | Line 133: | ||
:<math>\mathbf{(X^\top X )\hat{\boldsymbol{\beta}}= {}X^\top Y},\,</math> | :<math>\mathbf{(X^\top X )\hat{\boldsymbol{\beta}}= {}X^\top Y},\,</math> | ||
जहां <math>ij</math> का तत्व <math>\mathbf X</math> है <math>x_{ij}</math>, <math>i</math> स्तंभ वेक्टर का तत्व <math>Y</math> है <math>y_i</math>, और यह <math>j</math> का तत्व <math>\hat \boldsymbol \beta</math> है <math>\hat \beta_j</math> | जहां <math>ij</math> का तत्व <math>\mathbf X</math> है <math>x_{ij}</math>, <math>i</math> स्तंभ वेक्टर का तत्व <math>Y</math> है <math>y_i</math>, और यह <math>j</math> का तत्व <math>\hat \boldsymbol \beta</math> है <math>\hat \beta_j</math>। इस प्रकार <math>\mathbf X</math> है <math>n \times p</math>, <math>Y</math> है <math>n \times 1</math>, तथा <math>\hat \boldsymbol \beta</math> है <math>p \times 1</math>।समाधान है | ||
:<math>\mathbf{\hat{\boldsymbol{\beta}}= (X^\top X )^{-1}X^\top Y}.\,</math> | :<math>\mathbf{\hat{\boldsymbol{\beta}}= (X^\top X )^{-1}X^\top Y}.\,</math> | ||
=== निदान | === निदान=== | ||
एक बार | एक बार प्रतिगमन मॉडल का निर्माण हो जाने के बाद, मॉडल के फिट होने की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांचों में आर-स्क्वेर्ड, अवशेषों के पैटर्न का विश्लेषण और परिकल्पना परीक्षण शामिल हैं। सांख्यिकीय महत्व को समग्र फिट के एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण किए जा सकते हैं। | ||
इन नैदानिक परीक्षणों की व्याख्या मॉडल की मान्यताओं पर | इन नैदानिक परीक्षणों की व्याख्या मॉडल की मान्यताओं पर बहुत अधिक निर्भर करती है। हालांकि अवशेषों की जांच का उपयोग किसी मॉडल को अमान्य करने के लिए किया जा सकता है, टी-टेस्ट या एफ-टेस्ट के परिणामों की व्याख्या करना कभी-कभी अधिक कठिन होता है यदि मॉडल की मान्यताओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द का सामान्य वितरण नहीं है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण का पालन नहीं करेंगे और अनुमान को जटिल करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह लागू किया जा सकता है कि परिकल्पना परीक्षण स्पर्शोन्मुख सन्निकटन का उपयोग करके आगे बढ़ सकता है। | ||
=== सीमित आश्रित चर === | === सीमित आश्रित चर === | ||
Line 143: | Line 148: | ||
प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है। | प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है। | ||
== | == अरेखीय प्रतिगमन == | ||
जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है। | जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है। | ||
== अंतर्वेशन ( | == अंतर्वेशन (इन्टरपोलेशन) और बहिर्वेशन (एक्सट्रपलेशन) == | ||
[[File:CurveWeightHeight.png|thumb|upright=1.5|url = http: //www.incertitudes.fr/book.pdf}} </ref>]] | [[File:CurveWeightHeight.png|thumb|upright=1.5|url = http: //www.incertitudes.fr/book.pdf}} </ref>]] | ||
प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन ( | प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन (इन्टरपोलेशन) के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को बहिर्वेशन (एक्सट्रपलेशन) के रूप में जाना जाता है। बहिर्वेशन (एक्सट्रपलेशन) करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है। आगे बहिर्वेशन (एक्सट्रपलेशन) डेटा के बाहर चला जाता है, मॉडल के लिए मान्यताओं और नमूना डेटा या वास्तविक मान के बीच अंतर के कारण विफल होने के लिए अधिक जगह होती है। | ||
आम तौर पर यह सलाह दी जाती है {{Citation needed|date=February 2010}} कि बहिर्वेशन ( | आम तौर पर यह सलाह दी जाती है {{Citation needed|date=February 2010}} कि बहिर्वेशन (एक्सट्रपलेशन) करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मान के साथ होना चाहिए जो अनिश्चितता का प्रतिनिधित्व करता है। इस तरह के अंतराल में तेजी से विस्तार होता है क्योंकि स्वतंत्र चर के मान देखे गए डेटा द्वारा आवृत की गई सीमा से बाहर चले गए हैं। | ||
ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन ( | ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन (एक्सट्रपलेशन) करना नासमझी हो सकती है।<ref>चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। {{isbn|981-238-310-7}} - [https://books.google.com/books?</ref> | ||
हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन ( | हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन (एक्सट्रपलेशन) विशेष रूप से प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही धारणाओं पर निर्भर है। यहां सर्वोत्तम अभ्यास सलाह {{Citation needed|date=March 2011}} यह है कि एक रैखिक-इन-चर और रैखिक-इन-पैरामीटर संबंध को केवल अभिकलन सुविधा के लिए नहीं चुना जाना चाहिए, बल्कि यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए। यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मान की एक निश्चित सीमा से बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल के चयन में किया जा सकता है - भले ही देखे गए डेटासेट में विशेष रूप से ऐसी सीमाओं के पास कोई मान न हो। जब बहिर्वेशन (एक्सट्रपलेशन) पर विचार किया जाता है तो प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस कदम के निहितार्थ बहुत अच्छे हो सकते हैं। कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन "यथार्थवादी" है(या जो ज्ञात है उसके अनुरूप)। | ||
== शक्ति और नमूना आकार की गणना == | == शक्ति और नमूना आकार की गणना == | ||
Line 171: | Line 178: | ||
== सॉफ्टवेयर == | == सॉफ्टवेयर == | ||
सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन और न्यूनतम वर्गों का उपयोग करके कई प्रतिगमन कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं। अलग-अलग सॉफ़्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि अलग-अलग पैकेजों में अलग-अलग तरीके से लागू की जा सकती है। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशिष्ट प्रतिगमन सॉफ्टवेयर विकसित किया गया है। | |||
सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन | |||
== यह भी देखें | == यह भी देखें{{Portal|Mathematics}}== | ||
{{Portal|Mathematics}} | |||
{{Div col}} | {{Div col}} | ||
* | * एस्कम्बे की चौकड़ी | ||
* वक्र फिटिंग | * वक्र फिटिंग | ||
* अनुमान सिद्धांत | * अनुमान सिद्धांत | ||
Line 242: | Line 247: | ||
{{Authority control}} | {{Authority control}} | ||
{{DEFAULTSORT:Regression Analysis}}[[Category: | {{DEFAULTSORT:Regression Analysis}} | ||
[[Category: | ] | ||
[[Category: | |||
[[Category: | [[Category:AC with 0 elements|Regression Analysis]] | ||
[[Category: Machine Translated Page]] | [[Category:All articles with unsourced statements|Regression Analysis]] | ||
[[Category: Mathematics]] | [[Category:Articles with invalid date parameter in template|Regression Analysis]] | ||
[[Category:Articles with unsourced statements from February 2010|Regression Analysis]] | |||
[[Category:Articles with unsourced statements from March 2011|Regression Analysis]] | |||
[[Category:CS1|Regression Analysis]] | |||
[[Category:Commons category link is locally defined|Regression Analysis]] | |||
[[Category:Exclude in print|Regression Analysis]] | |||
[[Category:Interwiki category linking templates|Regression Analysis]] | |||
[[Category:Interwiki link templates|Regression Analysis]] | |||
[[Category:Machine Translated Page|Regression Analysis]] | |||
[[Category:Mathematics|Regression Analysis]] | |||
[[Category:Pages with empty portal template|Regression Analysis]] | |||
[[Category:Pages with script errors|Regression Analysis]] | |||
[[Category:Portal-inline template with redlinked portals|Regression Analysis]] | |||
[[Category:Portal templates with redlinked portals|Regression Analysis]] | |||
[[Category:Templates that add a tracking category|Regression Analysis]] | |||
[[Category:Templates using TemplateData|Regression Analysis]] | |||
[[Category:Wikimedia Commons templates|Regression Analysis]] |
Latest revision as of 09:39, 27 July 2022
सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) को एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की प्रणाली अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए (रैखिक प्रतिगमन देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।
प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।
पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।
दूसरे, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से समायोजित करना चाहिए कि वर्तमान संबंध में नए संदर्भ या दो चर के बीच संबंध के लिए एक कारण स्पष्टीकरण क्यों है। उत्तरार्द्ध बहुत महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की अपेक्षा करते हैं।[1][2]
इतिहास
प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,[3]और गॉस ने 1809 में प्रकाशित किया था।[4]लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,[5] जिसमें गॉस-मार्कोव प्रमेय का एक संस्करण भी शामिल था।
"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।[6][7]गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, [8][9]लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन ने एक अधिक सामान्य सांख्यिकीय संदर्भ में विस्तारित किया था।[10][11]यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। 1922 और 1925 के अपने कार्यों में आर.ए. फिशर द्वारा इस धारणा को कमजोर किया गया था।[12][13][14]फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।
1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।[15]
हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है।
प्रतिगमन मॉडल
शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,
- अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर के रूप में दर्शाया जाता है।
- स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर के रूप में दर्शाए जाते हैं (जहां डेटा की एक पंक्ति को दर्शाता है)।
- आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते है।
- त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते हैं।
अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।
अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि का एक कार्य है तथा , जिसमें एक योगात्मक त्रुटि शब्द का प्रतिनिधित्व करता है जो या यादृच्छिक सांख्यिकीय शोर के गैर-मॉडल निर्धारकों के लिए खड़ा हो सकता है,
शोधकर्ताओं का लक्ष्य कार्य का अनुमान लगाना है जो डेटा के सबसे करीब से फिट बैठता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप निर्दिष्ट किया जाना चाहिए। कभी-कभी इस फलन का रूप के बीच संबंध के बारे में ज्ञान पर आधारित होता है तथा जो डेटा पर निर्भर नहीं है। यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो चुना जाता है। उदाहरण के लिए, एक साधारण अविभाज्य प्रतिगमन प्रस्तावित कर सकता है यह सुझाव देते हुए कि शोधकर्ता का मानना है डेटा उत्पन्न करने वाली सांख्यिकीय प्रक्रिया के लिए एक उचित सन्निकटन होना चाहिए।
एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, न्यूनतम वर्ग (इसके सबसे सामान्य प्रकार, साधारण कम से कम वर्ग सहित) का मान पाता है यह चुकता त्रुटियों के योग को कम करता है । एक दी गई प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी , आमतौर पर निरूपित डेटा को जनरेट करने वाले सही (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए करते है। इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकता है भविष्यवाणी के लिए या डेटा की व्याख्या करने में मॉडल की सटीकता का आकलन करने के लिए कर सकता है। क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है या अनुमानित मूल्य संदर्भ और उनके लक्ष्यों पर निर्भर करेगा। जैसा कि साधारण कम से कम वर्गों में वर्णित है, न्यूनतम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन सशर्त अपेक्षा का अनुमान लगाता है ।[4] हालांकि, वैकल्पिक वेरिएंट (जैसे,न्यूनतम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं ।
यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए। उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: । मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: । यदि शोधकर्ता के पास केवल पहुंच है डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे। यह डेटा को समान रूप से अच्छी तरह से समझाता है, किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है जिनमें से सभी का नेतृत्व करते हैं और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं। यह समझने के लिए कि अपरिमित रूप से अनेक विकल्प क्यों हैं, ध्यान दें कि की प्रणाली समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम निर्धारित करता है। वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो फिक्स्ड पॉइंट्स से गुजरते हैं।
अधिक आम तौर पर, न्यूनतम वर्गों के मॉडल का अनुमान लगाने के लिए अलग पैरामीटर पर, और एक अलग अलग डेटा बिंदु होना चाहिए। यदि तो आम तौर पर ऐसे मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेंगे। मात्रा प्रतिगमन विश्लेषण में अक्सर प्रकट होता है, और इसे मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है। इसके अलावा, कम से कम वर्ग मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए। जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है,जैसा कि साधारण न्यूनतम वर्गों में चर्चा की गई है, यह शर्त सुनिश्चित करती है कि यह एक उल्टे मैट्रिक्स है और एक उलटा मैट्रिक्स है और इसलिए यह एक अनूठा मौजूद समाधान है, ।
अंतर्निहित धारणाएँ
अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है। वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं। इन धारणाओं में अक्सर शामिल होते हैं:
- नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
- स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
- मॉडल से विचलन का अपेक्षित मान शून्य है, सहसंयोजकों पर सशर्त,
- अवशिष्टों का प्रसरण अवलोकन (समरूपता) में निरंतर है।
- अवशिष्ट एक दूसरे से असंबंधित हैं। गणितीय रूप से, त्रुटियों का प्रसरण-सहप्रसरण मैट्रिक्स विकर्ण है।
कम से कम वर्ग अनुमानक के लिए वांछनीय गुण रखने के लिए कुछ हद तक स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्कोव मान्यताओं का अर्थ है कि पैरामीटर अनुमान निष्पक्ष, सुसंगत और रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल होंगे। व्यवसायी ने वास्तविक दुनिया की सेटिंग में इनमें से कुछ या सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय मान्यताओं के सटीक रूप से धारण करने की संभावना नहीं है। उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल से उचित अनुमान लगा सकते हैं स्वतंत्र चर को त्रुटियों से माप सकते है। विषमलैंगिकता-संगत मानक त्रुटियां के विचरण की अनुमति देती है के मूल्यों को बदलने के लिए । सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के साथ क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या न्यूए-वेस्ट मानक त्रुटियों का उपयोग करके नियंत्रित किया जा सकता है। जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप हों, तो मॉडल का चुनाव कैसे करें? भौगोलिक इकाइयों के महत्वपूर्ण परिणाम हो सकते हैं।[16] अर्थमिति का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग में उचित वास्तविक दुनिया के निष्कर्ष निकालने की अनुमति देता है, जहां शास्त्रीय धारणाएं बिल्कुल सही नहीं होती हैं।
रैखिक प्रतिगमन
रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)। उदाहरण के लिए, मॉडलिंग डेटा बिंदुओं के लिए सरल रेखीय प्रतिगमन में एक स्वतंत्र चर होता है: , और दो पैरामीटर, तथा :
- सीधी रेखा:
बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या स्वतंत्र चर के कार्य होते हैं।
पिछले प्रतिगमन में में एक पद जोड़ने पर यह मिलता है:
- अनुवृत्त (parabola):
यह अभी भी रैखिक प्रतिगमन है, हालांकि दायीं ओर का व्यंजक स्वतंत्र चर में द्विघात है, यह पैरामीटर , तथा में रैखिक है।
दोनों ही मामलों में, एक त्रुटि शब्द है और सबस्क्रिप्ट एक विशेष अवलोकन को अनुक्रमित करता है।
सीधी रेखा के मामले पर ध्यान देते है, जनसंख्या से एक यादृच्छिक नमूने को देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं,
अवशिष्ट, , मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, , और सही मान आश्रित चर का, है। आकलन की एक विधि साधारण न्यूनतम वर्ग है। यह विधि पैरामीटर अनुमान प्राप्त करती है जो चुकता अवशिष्टों के योग को कम करती है,
इस फ़ंक्शन के न्यूनीकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक उत्पन्न करने के लिए हल किया जाता है, ।
सरल प्रतिगमन के मामले में, न्यूनतम वर्ग अनुमान के सूत्र हैं
जहां पे मानों और का माध्य (औसत) है का मतलब है मानों का माध्य है।
इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में निरंतर भिन्नता है, उस भिन्नता का अनुमान इस प्रकार दिया जाता है,
इसे प्रतिगमन का माध्य वर्ग त्रुटि (MSE) कहा जाता है। हर वह नमूना आकार है जो समान डेटा से अनुमानित मॉडल पैरामीटर की संख्या से घटाया जाता है, के लिये रेग्रेसर्स (regressors) या अगर अवरोधन का इस्तेमाल किया जाता है।[17] इस मामले में, तो हर है ।
पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं,
आगे की धारणा के तहत कि जनसंख्या त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है।
सामान्य रैखिक मॉडल
अधिक सामान्य एकाधिक प्रतिगमन मॉडल में स्वतंत्र चर हैं,
जहांपे है अवलोकन पर -th स्वतंत्र चर हैं। यदि पहला स्वतंत्र चर सभी 1 लेता है , , फिर को प्रतीपगमन अवरोधन कहा जाता है।
न्यूनतम वर्ग पैरामीटर अनुमान सामान्य समीकरणों से प्राप्त किए जाते हैं। अवशिष्ट के रूप में लिखा जा सकता है,
सामान्य समीकरण हैं
मैट्रिक्स संकेतन में, सामान्य समीकरणों को लिखा जाता है
जहां का तत्व है , स्तंभ वेक्टर का तत्व है , और यह का तत्व है । इस प्रकार है , है , तथा है ।समाधान है
निदान
एक बार प्रतिगमन मॉडल का निर्माण हो जाने के बाद, मॉडल के फिट होने की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांचों में आर-स्क्वेर्ड, अवशेषों के पैटर्न का विश्लेषण और परिकल्पना परीक्षण शामिल हैं। सांख्यिकीय महत्व को समग्र फिट के एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण किए जा सकते हैं।
इन नैदानिक परीक्षणों की व्याख्या मॉडल की मान्यताओं पर बहुत अधिक निर्भर करती है। हालांकि अवशेषों की जांच का उपयोग किसी मॉडल को अमान्य करने के लिए किया जा सकता है, टी-टेस्ट या एफ-टेस्ट के परिणामों की व्याख्या करना कभी-कभी अधिक कठिन होता है यदि मॉडल की मान्यताओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द का सामान्य वितरण नहीं है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण का पालन नहीं करेंगे और अनुमान को जटिल करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह लागू किया जा सकता है कि परिकल्पना परीक्षण स्पर्शोन्मुख सन्निकटन का उपयोग करके आगे बढ़ सकता है।
सीमित आश्रित चर
सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या वे चर हैं जो केवल एक निश्चित सीमा में गिरने के लिए विवश हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।
प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है।
अरेखीय प्रतिगमन
जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है।
अंतर्वेशन (इन्टरपोलेशन) और बहिर्वेशन (एक्सट्रपलेशन)
प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन (इन्टरपोलेशन) के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को बहिर्वेशन (एक्सट्रपलेशन) के रूप में जाना जाता है। बहिर्वेशन (एक्सट्रपलेशन) करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है। आगे बहिर्वेशन (एक्सट्रपलेशन) डेटा के बाहर चला जाता है, मॉडल के लिए मान्यताओं और नमूना डेटा या वास्तविक मान के बीच अंतर के कारण विफल होने के लिए अधिक जगह होती है।
आम तौर पर यह सलाह दी जाती है[citation needed] कि बहिर्वेशन (एक्सट्रपलेशन) करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मान के साथ होना चाहिए जो अनिश्चितता का प्रतिनिधित्व करता है। इस तरह के अंतराल में तेजी से विस्तार होता है क्योंकि स्वतंत्र चर के मान देखे गए डेटा द्वारा आवृत की गई सीमा से बाहर चले गए हैं।
ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन (एक्सट्रपलेशन) करना नासमझी हो सकती है।[18]
हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन (एक्सट्रपलेशन) विशेष रूप से प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही धारणाओं पर निर्भर है। यहां सर्वोत्तम अभ्यास सलाह[citation needed] यह है कि एक रैखिक-इन-चर और रैखिक-इन-पैरामीटर संबंध को केवल अभिकलन सुविधा के लिए नहीं चुना जाना चाहिए, बल्कि यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए। यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मान की एक निश्चित सीमा से बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल के चयन में किया जा सकता है - भले ही देखे गए डेटासेट में विशेष रूप से ऐसी सीमाओं के पास कोई मान न हो। जब बहिर्वेशन (एक्सट्रपलेशन) पर विचार किया जाता है तो प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस कदम के निहितार्थ बहुत अच्छे हो सकते हैं। कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन "यथार्थवादी" है(या जो ज्ञात है उसके अनुरूप)।
शक्ति और नमूना आकार की गणना
मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई और सहमत तरीके नहीं हैं। गुड और हार्डिन द्वारा अनुमानित एक विधि है, जहां नमूना आकार है, स्वतंत्र चर की संख्या है और वांछित सटीकता तक पहुंचने के लिए आवश्यक अवलोकनों की संख्या है यदि मॉडल में केवल एक स्वतंत्र है।[19]उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बना रहा है जिसमें 1000 रोगी () होते हैं। यदि शोधकर्ता यह निर्णय लेता है कि एक सीधी रेखा (), को ठीक-ठीक परिभाषित करने के लिए पाँच प्रेक्षणों की आवश्यकता है, तो मॉडल द्वारा समर्थित स्वतंत्र चरों की अधिकतम संख्या 4 है, क्योंकि
अन्य तरीके
यद्यपि एक प्रतिगमन मॉडल के मापदंडों का अनुमान आमतौर पर न्यूनतम वर्गों की विधि का उपयोग करके लगाया जाता है, अन्य विधियों का उपयोग किया गया है जिनमें शामिल हैं:
- बायेसियन तरीके, उदाहरण बायेसियन रैखिक प्रतिगमन।
- प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त समझा जाता है।
- न्यूनतम निरपेक्ष विचलन, जो बाहरी लोगों की उपस्थिति में अधिक मजबूत होता है, जिससे मात्रात्मक प्रतिगमन होता है।
- गैर-पैरामीट्रिक प्रतिगमन के लिए बड़ी संख्या में अवलोकन की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।
- परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी।
- डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।[20]
सॉफ्टवेयर
सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन और न्यूनतम वर्गों का उपयोग करके कई प्रतिगमन कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं। अलग-अलग सॉफ़्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि अलग-अलग पैकेजों में अलग-अलग तरीके से लागू की जा सकती है। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशिष्ट प्रतिगमन सॉफ्टवेयर विकसित किया गया है।
यह भी देखें
- एस्कम्बे की चौकड़ी
- वक्र फिटिंग
- अनुमान सिद्धांत
- पूर्वानुमान
- विचरण का अंश अस्पष्टीकृत
- समारोह सन्निकटन
- सामान्यीकृत रैखिक मॉडल
- क्रिगिंग (एक रैखिक कम से कम वर्ग अनुमान एल्गोरिथ्म)
- स्थानीय प्रतिगमन
- परिवर्तनीय क्षेत्रीय इकाई समस्या
- बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन
- बहुभिन्नरूपी सामान्य वितरण
- पियर्सन उत्पाद-पल सहसंबंध गुणांक
- अर्ध-विमान
- भविष्यवाणी अंतराल
- प्रतिगमन सत्यापन
- मजबूत प्रतिगमन
- खंडित प्रतिगमन
- संकेत का प्रक्रमण
- स्टेपवाइज रिग्रेशन
- टैक्सी ज्यामिति
- प्रवृत्ति अनुमान
संदर्भ
- ↑ David A. Freedman (27 April 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.
- ↑ आर। डेनिस कुक;सैनफोर्ड वीसबर्ग आलोचना और प्रतिगमन में प्रभाव विश्लेषण, समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361
- ↑ एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?
- ↑ 4.0 4.1 अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.
- ↑ सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)
- ↑ Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 978-0-7575-1181-3.
- ↑ Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330.
- ↑ फ्रांसिस गैल्टन।आनुवंशिकता के विशिष्ट नियम, प्रकृति 15 (1877), 492-495, 512–514, 532-533।(गैल्टन इस पत्र में उलटफेर शब्द का उपयोग करता है, जो मटर के आकार पर चर्चा करता है।)
- ↑ फ्रांसिस गैल्टन।राष्ट्रपति का पता, धारा एच, नृविज्ञान।(1885) (गैल्टन इस पत्र में प्रतिगमन शब्द का उपयोग करता है, जो मनुष्यों की ऊंचाई पर चर्चा करता है।)
- ↑ Yule, G. Udny (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society. 60 (4): 812–54. doi:10.2307/2979746. JSTOR 2979746.
- ↑ Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). "The Law of Ancestral Heredity". Biometrika. 2 (2): 211–236. doi:10.1093/biomet/2.2.211. JSTOR 2331683.
- ↑ Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.
- ↑ Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth ed.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.
- ↑ Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. doi:10.1214/088342305000000331. JSTOR 20061201.
- ↑ रॉडनी रामचरन।]
- ↑ Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geographically weighted regression: the analysis of spatially varying relationships (Reprint ed.). Chichester, England: John Wiley. ISBN 978-0-471-49616-8.
- ↑ स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।
- ↑ चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। ISBN 981-238-310-7 - [https://books.google.com/books?
- ↑ Good, P. I.; Hardin, J. W. (2009). Common Errors in Statistics (And How to Avoid Them) (3rd ed.). Hoboken, New Jersey: Wiley. p. 211. ISBN 978-0-470-45798-6.
- ↑ YangJing Long (2009). "Human age estimation by metric learning for regression problems" (PDF). Proc. International Conference on Computer Analysis of Images and Patterns: 74–82. Archived from the original (PDF) on 2010-01-08.
अग्रिम पठन
- William H. Kruskal and Judith M. Tanur, ed. (1978), "Linear Hypotheses," International Encyclopedia of Statistics. Free Press, v. 1,
- Evan J. Williams, "I. Regression," pp. 523–41.
- Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.
- Lindley, D.V. (1987). "Regression and correlation analysis," New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
- Birkes, David and Dodge, Y., Alternative Methods of Regression. ISBN 0-471-56881-3
- Chatfield, C. (1993) "Calculating Interval Forecasts," Journal of Business and Economic Statistics, 11. pp. 121–135.
- Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. ISBN 978-0-471-17082-2.
- Fox, J. (1997). Applied Regression Analysis, Linear Models and Related Methods. Sage
- Hardle, W., Applied Nonparametric Regression (1990), ISBN 0-521-42950-1
- Meade, Nigel; Islam, Towhidul (1995). "Prediction intervals for growth curve forecasts". Journal of Forecasting. 14 (5): 413–430. doi:10.1002/for.3980140502.
- A. Sen, M. Srivastava, Regression Analysis — Theory, Methods, and Applications, Springer-Verlag, Berlin, 2011 (4th printing).
- T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Vieweg+Teubner, ISBN 978-3-8348-1022-9.
- Stulp, Freek, and Olivier Sigaud. Many Regression Algorithms, One Unified Model: A Review. Neural Networks, vol. 69, Sept. 2015, pp. 60–79. https://doi.org/10.1016/j.neunet.2015.05.005.
- Malakooti, B. (2013). Operations and Production Systems with Multiple Objectives. John Wiley & Sons.
बाहरी संबंध
- "Regression analysis", Encyclopedia of Mathematics, EMS Press, 2001 [1994]
- Earliest Uses: Regression – basic history and references
- What is multiple regression used for? – Multiple regression
- Regression of Weakly Correlated Data – how linear regression mistakes can appear when Y-range is much smaller than X-range
]