प्रतिगमन विश्लेषण: Difference between revisions
m (45 revisions imported from alpha:प्रतिगमन_विश्लेषण) |
No edit summary |
||
Line 37: | Line 37: | ||
हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है। | हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है। | ||
== प्रतिगमन मॉडल == | == प्रतिगमन मॉडल == | ||
Line 257: | Line 257: | ||
[[Category:CS1|Regression Analysis]] | [[Category:CS1|Regression Analysis]] | ||
[[Category:Commons category link is locally defined|Regression Analysis]] | [[Category:Commons category link is locally defined|Regression Analysis]] | ||
[[Category:Exclude in print|Regression Analysis]] | |||
[[Category:Interwiki category linking templates|Regression Analysis]] | |||
[[Category:Interwiki link templates|Regression Analysis]] | |||
[[Category:Machine Translated Page|Regression Analysis]] | [[Category:Machine Translated Page|Regression Analysis]] | ||
[[Category:Mathematics|Regression Analysis]] | [[Category:Mathematics|Regression Analysis]] | ||
[[Category:Pages with empty portal template|Regression Analysis]] | [[Category:Pages with empty portal template|Regression Analysis]] | ||
[[Category: | [[Category:Pages with script errors|Regression Analysis]] | ||
[[Category:Portal-inline template with redlinked portals|Regression Analysis]] | |||
[[Category:Portal templates with redlinked portals|Regression Analysis]] | |||
[[Category:Templates that add a tracking category|Regression Analysis]] | |||
[[Category:Templates using TemplateData|Regression Analysis]] | |||
[[Category:Wikimedia Commons templates|Regression Analysis]] |
Latest revision as of 09:39, 27 July 2022
सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) को एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की प्रणाली अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए (रैखिक प्रतिगमन देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।
प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।
पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।
दूसरे, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से समायोजित करना चाहिए कि वर्तमान संबंध में नए संदर्भ या दो चर के बीच संबंध के लिए एक कारण स्पष्टीकरण क्यों है। उत्तरार्द्ध बहुत महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की अपेक्षा करते हैं।[1][2]
इतिहास
प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,[3]और गॉस ने 1809 में प्रकाशित किया था।[4]लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,[5] जिसमें गॉस-मार्कोव प्रमेय का एक संस्करण भी शामिल था।
"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।[6][7]गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, [8][9]लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन ने एक अधिक सामान्य सांख्यिकीय संदर्भ में विस्तारित किया था।[10][11]यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। 1922 और 1925 के अपने कार्यों में आर.ए. फिशर द्वारा इस धारणा को कमजोर किया गया था।[12][13][14]फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।
1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।[15]
हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं। प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है।
प्रतिगमन मॉडल
शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,
- अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर के रूप में दर्शाया जाता है।
- स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर के रूप में दर्शाए जाते हैं (जहां डेटा की एक पंक्ति को दर्शाता है)।
- आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते है।
- त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते हैं।
अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।
अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि का एक कार्य है तथा , जिसमें एक योगात्मक त्रुटि शब्द का प्रतिनिधित्व करता है जो या यादृच्छिक सांख्यिकीय शोर के गैर-मॉडल निर्धारकों के लिए खड़ा हो सकता है,
शोधकर्ताओं का लक्ष्य कार्य का अनुमान लगाना है जो डेटा के सबसे करीब से फिट बैठता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप निर्दिष्ट किया जाना चाहिए। कभी-कभी इस फलन का रूप के बीच संबंध के बारे में ज्ञान पर आधारित होता है तथा जो डेटा पर निर्भर नहीं है। यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो चुना जाता है। उदाहरण के लिए, एक साधारण अविभाज्य प्रतिगमन प्रस्तावित कर सकता है यह सुझाव देते हुए कि शोधकर्ता का मानना है डेटा उत्पन्न करने वाली सांख्यिकीय प्रक्रिया के लिए एक उचित सन्निकटन होना चाहिए।
एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, न्यूनतम वर्ग (इसके सबसे सामान्य प्रकार, साधारण कम से कम वर्ग सहित) का मान पाता है यह चुकता त्रुटियों के योग को कम करता है । एक दी गई प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी , आमतौर पर निरूपित डेटा को जनरेट करने वाले सही (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए करते है। इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकता है भविष्यवाणी के लिए या डेटा की व्याख्या करने में मॉडल की सटीकता का आकलन करने के लिए कर सकता है। क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है या अनुमानित मूल्य संदर्भ और उनके लक्ष्यों पर निर्भर करेगा। जैसा कि साधारण कम से कम वर्गों में वर्णित है, न्यूनतम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन सशर्त अपेक्षा का अनुमान लगाता है ।[4] हालांकि, वैकल्पिक वेरिएंट (जैसे,न्यूनतम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं ।
यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए। उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: । मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: । यदि शोधकर्ता के पास केवल पहुंच है डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे। यह डेटा को समान रूप से अच्छी तरह से समझाता है, किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है जिनमें से सभी का नेतृत्व करते हैं और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं। यह समझने के लिए कि अपरिमित रूप से अनेक विकल्प क्यों हैं, ध्यान दें कि की प्रणाली समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम निर्धारित करता है। वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो फिक्स्ड पॉइंट्स से गुजरते हैं।
अधिक आम तौर पर, न्यूनतम वर्गों के मॉडल का अनुमान लगाने के लिए अलग पैरामीटर पर, और एक अलग अलग डेटा बिंदु होना चाहिए। यदि तो आम तौर पर ऐसे मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेंगे। मात्रा प्रतिगमन विश्लेषण में अक्सर प्रकट होता है, और इसे मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है। इसके अलावा, कम से कम वर्ग मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए। जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है,जैसा कि साधारण न्यूनतम वर्गों में चर्चा की गई है, यह शर्त सुनिश्चित करती है कि यह एक उल्टे मैट्रिक्स है और एक उलटा मैट्रिक्स है और इसलिए यह एक अनूठा मौजूद समाधान है, ।
अंतर्निहित धारणाएँ
अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है। वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं। इन धारणाओं में अक्सर शामिल होते हैं:
- नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
- स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
- मॉडल से विचलन का अपेक्षित मान शून्य है, सहसंयोजकों पर सशर्त,
- अवशिष्टों का प्रसरण अवलोकन (समरूपता) में निरंतर है।
- अवशिष्ट एक दूसरे से असंबंधित हैं। गणितीय रूप से, त्रुटियों का प्रसरण-सहप्रसरण मैट्रिक्स विकर्ण है।
कम से कम वर्ग अनुमानक के लिए वांछनीय गुण रखने के लिए कुछ हद तक स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्कोव मान्यताओं का अर्थ है कि पैरामीटर अनुमान निष्पक्ष, सुसंगत और रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल होंगे। व्यवसायी ने वास्तविक दुनिया की सेटिंग में इनमें से कुछ या सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय मान्यताओं के सटीक रूप से धारण करने की संभावना नहीं है। उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल से उचित अनुमान लगा सकते हैं स्वतंत्र चर को त्रुटियों से माप सकते है। विषमलैंगिकता-संगत मानक त्रुटियां के विचरण की अनुमति देती है के मूल्यों को बदलने के लिए । सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के साथ क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या न्यूए-वेस्ट मानक त्रुटियों का उपयोग करके नियंत्रित किया जा सकता है। जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप हों, तो मॉडल का चुनाव कैसे करें? भौगोलिक इकाइयों के महत्वपूर्ण परिणाम हो सकते हैं।[16] अर्थमिति का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग में उचित वास्तविक दुनिया के निष्कर्ष निकालने की अनुमति देता है, जहां शास्त्रीय धारणाएं बिल्कुल सही नहीं होती हैं।
रैखिक प्रतिगमन
रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)। उदाहरण के लिए, मॉडलिंग डेटा बिंदुओं के लिए सरल रेखीय प्रतिगमन में एक स्वतंत्र चर होता है: , और दो पैरामीटर, तथा :
- सीधी रेखा:
बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या स्वतंत्र चर के कार्य होते हैं।
पिछले प्रतिगमन में में एक पद जोड़ने पर यह मिलता है:
- अनुवृत्त (parabola):
यह अभी भी रैखिक प्रतिगमन है, हालांकि दायीं ओर का व्यंजक स्वतंत्र चर में द्विघात है, यह पैरामीटर , तथा में रैखिक है।
दोनों ही मामलों में, एक त्रुटि शब्द है और सबस्क्रिप्ट एक विशेष अवलोकन को अनुक्रमित करता है।
सीधी रेखा के मामले पर ध्यान देते है, जनसंख्या से एक यादृच्छिक नमूने को देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं,
अवशिष्ट, , मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, , और सही मान आश्रित चर का, है। आकलन की एक विधि साधारण न्यूनतम वर्ग है। यह विधि पैरामीटर अनुमान प्राप्त करती है जो चुकता अवशिष्टों के योग को कम करती है,
इस फ़ंक्शन के न्यूनीकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक उत्पन्न करने के लिए हल किया जाता है, ।
सरल प्रतिगमन के मामले में, न्यूनतम वर्ग अनुमान के सूत्र हैं
जहां पे मानों और का माध्य (औसत) है का मतलब है मानों का माध्य है।
इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में निरंतर भिन्नता है, उस भिन्नता का अनुमान इस प्रकार दिया जाता है,
इसे प्रतिगमन का माध्य वर्ग त्रुटि (MSE) कहा जाता है। हर वह नमूना आकार है जो समान डेटा से अनुमानित मॉडल पैरामीटर की संख्या से घटाया जाता है, के लिये रेग्रेसर्स (regressors) या अगर अवरोधन का इस्तेमाल किया जाता है।[17] इस मामले में, तो हर है ।
पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं,
आगे की धारणा के तहत कि जनसंख्या त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है।
सामान्य रैखिक मॉडल
अधिक सामान्य एकाधिक प्रतिगमन मॉडल में स्वतंत्र चर हैं,
जहांपे है अवलोकन पर -th स्वतंत्र चर हैं। यदि पहला स्वतंत्र चर सभी 1 लेता है , , फिर को प्रतीपगमन अवरोधन कहा जाता है।
न्यूनतम वर्ग पैरामीटर अनुमान सामान्य समीकरणों से प्राप्त किए जाते हैं। अवशिष्ट के रूप में लिखा जा सकता है,
सामान्य समीकरण हैं
मैट्रिक्स संकेतन में, सामान्य समीकरणों को लिखा जाता है
जहां का तत्व है , स्तंभ वेक्टर का तत्व है , और यह का तत्व है । इस प्रकार है , है , तथा है ।समाधान है
निदान
एक बार प्रतिगमन मॉडल का निर्माण हो जाने के बाद, मॉडल के फिट होने की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांचों में आर-स्क्वेर्ड, अवशेषों के पैटर्न का विश्लेषण और परिकल्पना परीक्षण शामिल हैं। सांख्यिकीय महत्व को समग्र फिट के एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण किए जा सकते हैं।
इन नैदानिक परीक्षणों की व्याख्या मॉडल की मान्यताओं पर बहुत अधिक निर्भर करती है। हालांकि अवशेषों की जांच का उपयोग किसी मॉडल को अमान्य करने के लिए किया जा सकता है, टी-टेस्ट या एफ-टेस्ट के परिणामों की व्याख्या करना कभी-कभी अधिक कठिन होता है यदि मॉडल की मान्यताओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द का सामान्य वितरण नहीं है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण का पालन नहीं करेंगे और अनुमान को जटिल करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह लागू किया जा सकता है कि परिकल्पना परीक्षण स्पर्शोन्मुख सन्निकटन का उपयोग करके आगे बढ़ सकता है।
सीमित आश्रित चर
सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या वे चर हैं जो केवल एक निश्चित सीमा में गिरने के लिए विवश हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।
प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है।
अरेखीय प्रतिगमन
जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है।
अंतर्वेशन (इन्टरपोलेशन) और बहिर्वेशन (एक्सट्रपलेशन)
प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन (इन्टरपोलेशन) के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को बहिर्वेशन (एक्सट्रपलेशन) के रूप में जाना जाता है। बहिर्वेशन (एक्सट्रपलेशन) करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है। आगे बहिर्वेशन (एक्सट्रपलेशन) डेटा के बाहर चला जाता है, मॉडल के लिए मान्यताओं और नमूना डेटा या वास्तविक मान के बीच अंतर के कारण विफल होने के लिए अधिक जगह होती है।
आम तौर पर यह सलाह दी जाती है[citation needed] कि बहिर्वेशन (एक्सट्रपलेशन) करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मान के साथ होना चाहिए जो अनिश्चितता का प्रतिनिधित्व करता है। इस तरह के अंतराल में तेजी से विस्तार होता है क्योंकि स्वतंत्र चर के मान देखे गए डेटा द्वारा आवृत की गई सीमा से बाहर चले गए हैं।
ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन (एक्सट्रपलेशन) करना नासमझी हो सकती है।[18]
हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन (एक्सट्रपलेशन) विशेष रूप से प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही धारणाओं पर निर्भर है। यहां सर्वोत्तम अभ्यास सलाह[citation needed] यह है कि एक रैखिक-इन-चर और रैखिक-इन-पैरामीटर संबंध को केवल अभिकलन सुविधा के लिए नहीं चुना जाना चाहिए, बल्कि यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए। यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मान की एक निश्चित सीमा से बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल के चयन में किया जा सकता है - भले ही देखे गए डेटासेट में विशेष रूप से ऐसी सीमाओं के पास कोई मान न हो। जब बहिर्वेशन (एक्सट्रपलेशन) पर विचार किया जाता है तो प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस कदम के निहितार्थ बहुत अच्छे हो सकते हैं। कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन "यथार्थवादी" है(या जो ज्ञात है उसके अनुरूप)।
शक्ति और नमूना आकार की गणना
मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई और सहमत तरीके नहीं हैं। गुड और हार्डिन द्वारा अनुमानित एक विधि है, जहां नमूना आकार है, स्वतंत्र चर की संख्या है और वांछित सटीकता तक पहुंचने के लिए आवश्यक अवलोकनों की संख्या है यदि मॉडल में केवल एक स्वतंत्र है।[19]उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बना रहा है जिसमें 1000 रोगी () होते हैं। यदि शोधकर्ता यह निर्णय लेता है कि एक सीधी रेखा (), को ठीक-ठीक परिभाषित करने के लिए पाँच प्रेक्षणों की आवश्यकता है, तो मॉडल द्वारा समर्थित स्वतंत्र चरों की अधिकतम संख्या 4 है, क्योंकि
अन्य तरीके
यद्यपि एक प्रतिगमन मॉडल के मापदंडों का अनुमान आमतौर पर न्यूनतम वर्गों की विधि का उपयोग करके लगाया जाता है, अन्य विधियों का उपयोग किया गया है जिनमें शामिल हैं:
- बायेसियन तरीके, उदाहरण बायेसियन रैखिक प्रतिगमन।
- प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त समझा जाता है।
- न्यूनतम निरपेक्ष विचलन, जो बाहरी लोगों की उपस्थिति में अधिक मजबूत होता है, जिससे मात्रात्मक प्रतिगमन होता है।
- गैर-पैरामीट्रिक प्रतिगमन के लिए बड़ी संख्या में अवलोकन की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।
- परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी।
- डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।[20]
सॉफ्टवेयर
सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन और न्यूनतम वर्गों का उपयोग करके कई प्रतिगमन कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं। अलग-अलग सॉफ़्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि अलग-अलग पैकेजों में अलग-अलग तरीके से लागू की जा सकती है। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशिष्ट प्रतिगमन सॉफ्टवेयर विकसित किया गया है।
यह भी देखें
- एस्कम्बे की चौकड़ी
- वक्र फिटिंग
- अनुमान सिद्धांत
- पूर्वानुमान
- विचरण का अंश अस्पष्टीकृत
- समारोह सन्निकटन
- सामान्यीकृत रैखिक मॉडल
- क्रिगिंग (एक रैखिक कम से कम वर्ग अनुमान एल्गोरिथ्म)
- स्थानीय प्रतिगमन
- परिवर्तनीय क्षेत्रीय इकाई समस्या
- बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन
- बहुभिन्नरूपी सामान्य वितरण
- पियर्सन उत्पाद-पल सहसंबंध गुणांक
- अर्ध-विमान
- भविष्यवाणी अंतराल
- प्रतिगमन सत्यापन
- मजबूत प्रतिगमन
- खंडित प्रतिगमन
- संकेत का प्रक्रमण
- स्टेपवाइज रिग्रेशन
- टैक्सी ज्यामिति
- प्रवृत्ति अनुमान
संदर्भ
- ↑ David A. Freedman (27 April 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.
- ↑ आर। डेनिस कुक;सैनफोर्ड वीसबर्ग आलोचना और प्रतिगमन में प्रभाव विश्लेषण, समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361
- ↑ एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?
- ↑ 4.0 4.1 अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.
- ↑ सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)
- ↑ Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 978-0-7575-1181-3.
- ↑ Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330.
- ↑ फ्रांसिस गैल्टन।आनुवंशिकता के विशिष्ट नियम, प्रकृति 15 (1877), 492-495, 512–514, 532-533।(गैल्टन इस पत्र में उलटफेर शब्द का उपयोग करता है, जो मटर के आकार पर चर्चा करता है।)
- ↑ फ्रांसिस गैल्टन।राष्ट्रपति का पता, धारा एच, नृविज्ञान।(1885) (गैल्टन इस पत्र में प्रतिगमन शब्द का उपयोग करता है, जो मनुष्यों की ऊंचाई पर चर्चा करता है।)
- ↑ Yule, G. Udny (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society. 60 (4): 812–54. doi:10.2307/2979746. JSTOR 2979746.
- ↑ Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). "The Law of Ancestral Heredity". Biometrika. 2 (2): 211–236. doi:10.1093/biomet/2.2.211. JSTOR 2331683.
- ↑ Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.
- ↑ Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth ed.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.
- ↑ Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. doi:10.1214/088342305000000331. JSTOR 20061201.
- ↑ रॉडनी रामचरन।]
- ↑ Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geographically weighted regression: the analysis of spatially varying relationships (Reprint ed.). Chichester, England: John Wiley. ISBN 978-0-471-49616-8.
- ↑ स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।
- ↑ चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। ISBN 981-238-310-7 - [https://books.google.com/books?
- ↑ Good, P. I.; Hardin, J. W. (2009). Common Errors in Statistics (And How to Avoid Them) (3rd ed.). Hoboken, New Jersey: Wiley. p. 211. ISBN 978-0-470-45798-6.
- ↑ YangJing Long (2009). "Human age estimation by metric learning for regression problems" (PDF). Proc. International Conference on Computer Analysis of Images and Patterns: 74–82. Archived from the original (PDF) on 2010-01-08.
अग्रिम पठन
- William H. Kruskal and Judith M. Tanur, ed. (1978), "Linear Hypotheses," International Encyclopedia of Statistics. Free Press, v. 1,
- Evan J. Williams, "I. Regression," pp. 523–41.
- Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.
- Lindley, D.V. (1987). "Regression and correlation analysis," New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
- Birkes, David and Dodge, Y., Alternative Methods of Regression. ISBN 0-471-56881-3
- Chatfield, C. (1993) "Calculating Interval Forecasts," Journal of Business and Economic Statistics, 11. pp. 121–135.
- Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. ISBN 978-0-471-17082-2.
- Fox, J. (1997). Applied Regression Analysis, Linear Models and Related Methods. Sage
- Hardle, W., Applied Nonparametric Regression (1990), ISBN 0-521-42950-1
- Meade, Nigel; Islam, Towhidul (1995). "Prediction intervals for growth curve forecasts". Journal of Forecasting. 14 (5): 413–430. doi:10.1002/for.3980140502.
- A. Sen, M. Srivastava, Regression Analysis — Theory, Methods, and Applications, Springer-Verlag, Berlin, 2011 (4th printing).
- T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Vieweg+Teubner, ISBN 978-3-8348-1022-9.
- Stulp, Freek, and Olivier Sigaud. Many Regression Algorithms, One Unified Model: A Review. Neural Networks, vol. 69, Sept. 2015, pp. 60–79. https://doi.org/10.1016/j.neunet.2015.05.005.
- Malakooti, B. (2013). Operations and Production Systems with Multiple Objectives. John Wiley & Sons.
बाहरी संबंध
- "Regression analysis", Encyclopedia of Mathematics, EMS Press, 2001 [1994]
- Earliest Uses: Regression – basic history and references
- What is multiple regression used for? – Multiple regression
- Regression of Weakly Correlated Data – how linear regression mistakes can appear when Y-range is much smaller than X-range
]