प्रतिगमन विश्लेषण: Difference between revisions

From Vigyanwiki
Line 41: Line 41:
== प्रतिगमन मॉडल ==
== प्रतिगमन मॉडल ==


व्यवहार में, शोधकर्ता पहले एक मॉडल का चयन करते हैं, जिसका वे अनुमान लगाना चाहते हैं और फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण कम से कम वर्गों) का उपयोग करते हैं।प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं:
शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,
*अज्ञात पैरामीटर, अक्सर एक स्केलर या वेक्टर के रूप में निरूपित किया जाता है <math>\beta</math>
*अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर <math>\beta</math> के रूप में दर्शाया जाता है।
*स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर के रूप में निरूपित किए जाते हैं <math>X_i</math> (कहाँ पे <math>i</math> डेटा की एक पंक्ति को दर्शाता है)।
*स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर <math>X_i</math> के रूप में दर्शाए जाते हैं (जहां <math>i</math> डेटा की एक पंक्ति को दर्शाता है)।
*आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर स्केलर का उपयोग करके निरूपित किए जाते हैं <math>Y_i</math>
*आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश <math>Y_i</math> का उपयोग करके दर्शाए जाते है।
*त्रुटि शब्द, जो '' नहीं '' सीधे डेटा में देखे गए हैं और अक्सर स्केलर का उपयोग करके निरूपित किए जाते हैं <math>e_i</math>
*त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश <math>e_i</math> का उपयोग करके दर्शाए जाते हैं।


आवेदन के विभिन्न क्षेत्रों में, विभिन्न शब्दावली का उपयोग आश्रित और स्वतंत्र चर के स्थान पर किया जाता है।
अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।


अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि <math>Y_i</math> का एक कार्य है <math>X_i</math> तथा <math> \beta</math>, साथ <math>e_i</math> एक additive त्रुटि शब्द का प्रतिनिधित्व करना जो अन-मॉडल के लिए खड़े हो सकता है <math>Y_i</math> या यादृच्छिक सांख्यिकीय शोर:
अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि <math>Y_i</math> का एक कार्य है <math>X_i</math> तथा <math> \beta</math>, साथ <math>e_i</math> एक additive त्रुटि शब्द का प्रतिनिधित्व करना जो अन-मॉडल के लिए खड़े हो सकता है <math>Y_i</math> या यादृच्छिक सांख्यिकीय शोर:

Revision as of 11:46, 16 July 2022

लाइन y = 1.5x+2 (दिखाया नहीं गया) के चारों ओर एक गाऊसी वितरण में 50 यादृच्छिक बिंदुओं के लिए प्रतिगमन लाइन।

सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) मिलती है जो एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की विधि अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए (रैखिक प्रतिगमन देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।

प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।

सबसे पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।

दूसरा, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से यह उचित ठहराना चाहिए कि मौजूदा रिश्तों में एक नए संदर्भ के लिए भविष्य कहनेवाला शक्ति क्यों है या दो चर के बीच संबंध में एक कारण व्याख्या क्यों है। उत्तरार्द्ध में विशेष रूप से महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की उम्मीद करते हैं।[1][2]

इतिहास

प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,[3]और गॉस ने 1809 में प्रकाशित किया था।[4]लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से, सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,[5] जिसमें गॉस-मार्कोव प्रमेय का एक संस्करण भी शामिल था।

"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।[6][7]गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, [8][9]लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन ने एक अधिक सामान्य सांख्यिकीय संदर्भ में विस्तारित किया था।[10][11]यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। 1922 और 1925 के अपने कार्यों में आर.ए. फिशर द्वारा इस धारणा को कमजोर किया गया था।[12][13][14]फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।

1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।[15]

हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं, प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है।

प्रतिगमन मॉडल

शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,

  • अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर के रूप में दर्शाया जाता है।
  • स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर के रूप में दर्शाए जाते हैं (जहां डेटा की एक पंक्ति को दर्शाता है)।
  • आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते है।
  • त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते हैं।

अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।

अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि का एक कार्य है तथा , साथ एक additive त्रुटि शब्द का प्रतिनिधित्व करना जो अन-मॉडल के लिए खड़े हो सकता है या यादृच्छिक सांख्यिकीय शोर:

शोधकर्ताओं का लक्ष्य फ़ंक्शन का अनुमान लगाना है यह सबसे बारीकी से डेटा फिट बैठता है।प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप निर्दिष्ट किया जाना चाहिए।कभी -कभी इस फ़ंक्शन का रूप के बीच संबंध के बारे में ज्ञान पर आधारित होता है तथा यह डेटा पर भरोसा नहीं करता है।यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो एक लचीला या सुविधाजनक रूप चुना जाता है।उदाहरण के लिए, एक साधारण अविभाज्य प्रतिगमन प्रस्तावित हो सकता है , यह सुझाव देते हुए कि शोधकर्ता का मानना है डेटा उत्पन्न करने वाली सांख्यिकीय प्रक्रिया के लिए एक उचित सन्निकटन होना।

एक बार शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण करते हैं, प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों का अनुमान लगाने के लिए उपकरण प्रदान करते हैं ।उदाहरण के लिए, कम से कम वर्गों (इसके सबसे सामान्य संस्करण सहित, साधारण कम से कम वर्गों) का मूल्य पाता है यह चुकता त्रुटियों के योग को कम करता है ।एक दिया गया प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी , आमतौर पर निरूपित डेटा उत्पन्न करने वाले सच्चे (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए।इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकते हैं भविष्यवाणी के लिए या डेटा को समझाने में मॉडल की सटीकता का आकलन करने के लिए।क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है या अनुमानित मूल्य संदर्भ और उनके लक्ष्यों पर निर्भर करेगा।जैसा कि साधारण कम से कम वर्गों में वर्णित है, कम से कम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन सशर्त अपेक्षा का अनुमान लगाता है .[4]हालांकि, वैकल्पिक वेरिएंट (जैसे, कम से कम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं

यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए।उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: ।आगे मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: ।यदि शोधकर्ता के पास केवल पहुंच है डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे यह डेटा को समान रूप से अच्छी तरह से समझाता है: किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है , जिनमें से सभी का नेतृत्व करते हैं और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं।यह समझने के लिए कि असीम रूप से कई विकल्प क्यों हैं, ध्यान दें कि सिस्टम समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम करके आंका जाता है।वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो गुजरते हैं फिक्स्ड पॉइंट्स।

अधिक आम तौर पर, कम से कम वर्गों के मॉडल का अनुमान लगाने के लिए अलग पैरामीटर, एक होना चाहिए अलग डेटा बिंदु।यदि , तो आम तौर पर मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेगा।मात्रा प्रतिगमन विश्लेषण में अक्सर दिखाई देता है, और मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है।इसके अलावा, कम से कम वर्गों के मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए।जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है, यह स्थिति यह सुनिश्चित करती है कि एक उल्टे मैट्रिक्स है और इसलिए एक अद्वितीय समाधान है मौजूद।

अंतर्निहित धारणाएँ

Template:Refimprovesection अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है।वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं।इन धारणाओं में अक्सर शामिल होते हैं:

  • नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
  • स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
  • मॉडल से विचलन में शून्य का अपेक्षित मूल्य है, कोवरिएट्स पर सशर्त:
  • अवशिष्टों का विचरण अवलोकन (समरूपता) में निरंतर है।
  • अवशिष्ट एक दूसरे के साथ असंबंधित हैं।गणितीय रूप से, त्रुटियों का विचरण -covariance मैट्रिक्स विकर्ण है।

वांछनीय गुणों के अधिकारी होने के लिए कम से कम-वर्ग अनुमानक के लिए कुछ मुट्ठी भर स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्मोव प्रमेय | गॉस-मेमार्कोव धारणाएं इसका मतलब है कि पैरामीटर अनुमान रैखिक निष्पक्ष अनुमानकों के वर्ग में निष्पक्ष, सुसंगत और कुशल होंगे।।प्रैक्टिशनर्स ने वास्तविक दुनिया की सेटिंग्स में इन सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय धारणाओं को वास्तव में रखने की संभावना नहीं है।उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल्स मॉडल | त्रुटियों-इन-वैरिएबल्स को उचित अनुमान हो सकता है कि स्वतंत्र चर त्रुटियों के साथ मापा जाता है।हेटेरोसेडैस्टिसिटी-संगत मानक त्रुटियां के विचरण की अनुमति देते हैं के मूल्यों को बदलने के लिए ।सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के बीच क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या NEWEY -WEST अनुमानक | Newey -West मानक त्रुटियों का उपयोग करके संभाला जा सकता है।जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप होती हैं, तो मॉडल कैसे करें भौगोलिक इकाइयों के भीतर महत्वपूर्ण परिणाम हो सकते हैं।[16][17]इकोनोमेट्रिक्स का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग्स में उचित वास्तविक दुनिया के निष्कर्ष बनाने की अनुमति देते हैं, जहां शास्त्रीय धारणाएं बिल्कुल नहीं रहती हैं।

रैखिक प्रतिगमन

रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)।उदाहरण के लिए, मॉडलिंग के लिए सरल रैखिक प्रतिगमन में डेटा बिंदु एक स्वतंत्र चर है: , और दो पैरामीटर, तथा :

सीधी रेखा:

कई रैखिक प्रतिगमन में, स्वतंत्र चर के कई स्वतंत्र चर या कार्य हैं।

में एक शब्द जोड़ना पूर्ववर्ती प्रतिगमन देता है:

परबोला:

यह अभी भी रैखिक प्रतिगमन है;हालांकि दाहिने हाथ की ओर की अभिव्यक्ति स्वतंत्र चर में द्विघात है , यह मापदंडों में रैखिक है , तथा दोनों ही मामलों में, एक त्रुटि शब्द और सबस्क्रिप्ट है एक विशेष अवलोकन को अनुक्रमित करता है।

सीधी रेखा के मामले में अपना ध्यान आकर्षित करते हुए: आबादी से एक यादृच्छिक नमूना देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं:

अवशिष्ट, , मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, , और आश्रित चर का सही मूल्य, ।अनुमान की एक विधि साधारण कम से कम वर्ग हैं।यह विधि पैरामीटर अनुमान प्राप्त करती है जो वर्ग अवशिष्टों के योग को कम करती है, SSR:

इस फ़ंक्शन के न्यूनतमकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक प्राप्त करने के लिए हल किया जाता है,

डेटा सेट पर रैखिक प्रतिगमन का चित्रण।

सरल प्रतिगमन के मामले में, कम से कम वर्गों के अनुमानों के लिए सूत्र हैं

कहाँ पे का माध्य (औसत) है मान और का मतलब है मान।

इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में एक निरंतर विचरण होता है, उस विचरण का अनुमान द्वारा दिया जाता है:

इसे प्रतिगमन का माध्य वर्ग त्रुटि (एमएसई) कहा जाता है।हर एक ही डेटा से अनुमानित मॉडल मापदंडों की संख्या से कम नमूना आकार है, के लिये regressors या यदि एक अवरोधन का उपयोग किया जाता है।[18]इस मामले में, तो हर है

पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं

आगे की धारणा के तहत कि जनसंख्या त्रुटि अवधि सामान्य रूप से वितरित की जाती है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकते हैं।

सामान्य रैखिक मॉडल =

अधिक सामान्य कई प्रतिगमन मॉडल में, वहाँ हैं स्वतंत्र प्रभावित करने वाली वस्तुएँ:

कहाँ पे है -th अवलोकन पर -th स्वतंत्र चर। यदि पहला स्वतंत्र चर सभी के लिए मान 1 लेता है , , फिर प्रतिगमन अवरोधन कहा जाता है।

कम से कम वर्ग पैरामीटर अनुमान प्राप्त किए जाते हैं सामान्य समीकरण।अवशिष्ट के रूप में लिखा जा सकता है

सामान्य समीकरण हैं

मैट्रिक्स संकेतन में, सामान्य समीकरणों को लिखा जाता है

जहां का तत्व है , स्तंभ वेक्टर का तत्व है , और यह का तत्व है ।इस प्रकार है , है , तथा है ।समाधान है

निदान =

एक बार एक प्रतिगमन मॉडल का निर्माण होने के बाद, मॉडल के फिट की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांच में आर-स्क्वर्ड, अवशिष्ट और परिकल्पना परीक्षण के पैटर्न का विश्लेषण शामिल है। सांख्यिकीय महत्व को समग्र फिट के एक एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण।

इन नैदानिक ​​परीक्षणों की व्याख्या मॉडल की मान्यताओं पर भारी आराम करती है। यद्यपि अवशिष्टों की जांच का उपयोग एक मॉडल को अमान्य करने के लिए किया जा सकता है, एक टी-टेस्ट या एफ-टेस्ट के परिणामों को कभी-कभी व्याख्या करना अधिक कठिन होता है यदि मॉडल की धारणाओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द में सामान्य वितरण नहीं होता है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण और जटिल अनुमान का पालन नहीं करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह से लागू किया जा सकता है कि परिकल्पना परीक्षण एसिम्प्टोटिक सन्निकटन का उपयोग करके आगे बढ़ सकता है।

सीमित आश्रित चर

सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या केवल एक निश्चित सीमा में गिरने के लिए विवश चर हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।

प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक लाइन के कुछ सबसेट पर झूठ बोलने के लिए सीमित)। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण कम से कम-वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभावना मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए nonlinear मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं। मल्टीवेरिएट प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक विधि है। दो से अधिक मूल्यों के साथ श्रेणीबद्ध चर के लिए बहुराष्ट्रीय लॉगिट है। दो से अधिक मूल्यों के साथ क्रमिक चर के लिए, आदेशित लॉगिट और ऑर्डर किए गए प्रोबिट मॉडल हैं। सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी -कभी मनाया जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीचोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) के आधार पर रैखिक प्रतिगमन है। इस तरह की प्रक्रियाएं आबादी में चर के वितरण के बारे में की गई मान्यताओं में भिन्न होती हैं। यदि चर कम मूल्यों के साथ सकारात्मक है और किसी घटना की घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन रिग्रेशन जैसे मॉडल गिनें या नकारात्मक द्विपद मॉडल का उपयोग किया जा सकता है।

nonlinear प्रतिगमन

जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों के योग को एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए।यह कई जटिलताओं का परिचय देता है जो रैखिक और गैर-रैखिक कम से कम वर्गों के बीच अंतर में संक्षेपित हैं।

प्रक्षेप और एक्सट्रपलेशन

url = http: //www.incertitudes.fr/book.pdf}} </ref>

इस लाइन के ऊपर और नीचे के बिंदुओं के बीच सबसे अच्छा संतुलन sents।बिंदीदार रेखाएं दो चरम रेखाओं का प्रतिनिधित्व करती हैं।पहले घटता अनुमानित मूल्यों का प्रतिनिधित्व करता है।बाहरी घटता एक नए माप के लिए एक भविष्यवाणी का प्रतिनिधित्व करते हैं।[19]प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं।मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मूल्यों की सीमा के भीतर भविष्यवाणी को अनौपचारिक रूप से प्रक्षेप के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को एक्सट्रपलेशन के रूप में जाना जाता है।एक्सट्रपलेशन करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है।आगे एक्सट्रपलेशन डेटा के बाहर जाता है, मॉडल के लिए उतना ही कमरा होता है जो मान्यताओं और नमूना डेटा या सही मूल्यों के बीच अंतर के कारण विफल होता है।

यह आम तौर पर सलाह दी जाती है[citation needed] एक्सट्रपलेशन करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मूल्य के साथ अनिश्चितता का प्रतिनिधित्व करना चाहिए।इस तरह के अंतराल तेजी से विस्तार करते हैं क्योंकि स्वतंत्र चर (ओं) के मान मनाया गया डेटा द्वारा कवर रेंज के बाहर चले गए हैं।

ऐसे कारणों और अन्य लोगों के लिए, कुछ कहते हैं कि यह एक्सट्रपलेशन करने के लिए नासमझी हो सकती है।[20]

हालांकि, यह मॉडलिंग त्रुटियों के पूर्ण सेट को कवर नहीं करता है जो बनाई जा सकती है: विशेष रूप से, वाई और एक्स के बीच संबंध के लिए एक विशेष रूप की धारणा। एक ठीक से आयोजित प्रतिगमन विश्लेषण में एक आकलन शामिल होगा कि ग्रहण किया गया रूप कितना अच्छा हैमनाया गया डेटा द्वारा मेल खाता है, लेकिन यह केवल वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ऐसा कर सकता है।इसका मतलब यह है कि कोई भी एक्सट्रपलेशन प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही मान्यताओं पर विशेष रूप से निर्भर है।यहां सर्वश्रेष्ठ-प्रैक्टिस सलाह[citation needed] यह है कि एक रैखिक-इन-वैरिएबल्स और रैखिक-इन-पैरामीटर संबंध को केवल कम्प्यूटेशनल सुविधा के लिए नहीं चुना जाना चाहिए, लेकिन यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए।यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मानों की एक निश्चित श्रेणी के बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल का चयन करने में किया जा सकता है - भले ही मनाया डेटासेट में विशेष रूप से इस तरह की सीमा के पास कोई मान नहीं है।प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस चरण के निहितार्थों को तब महान हो सकता है जब एक्सट्रपलेशन पर विचार किया जाता है।कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन यथार्थवादी है (या जो ज्ञात है उसके अनुरूप)।

शक्ति और नमूना आकार की गणना

मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई आम तौर पर सहमत तरीके नहीं हैं।अच्छे और हार्डिन द्वारा अनुमानित एक विधि है , कहाँ पे नमूना आकार है, स्वतंत्र चर की संख्या है और यदि मॉडल में केवल एक स्वतंत्र चर था, तो वांछित सटीकता तक पहुंचने के लिए आवश्यक टिप्पणियों की संख्या है।[21]उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल का निर्माण कर रहा है जिसमें 1000 रोगी होते हैं ()।यदि शोधकर्ता यह तय करता है कि एक सीधी रेखा को ठीक करने के लिए पांच टिप्पणियों की आवश्यकता होती है (), फिर स्वतंत्र चर की अधिकतम संख्या मॉडल का समर्थन कर सकता है 4 है, क्योंकि

अन्य तरीके

यद्यपि एक प्रतिगमन मॉडल के मापदंडों को आमतौर पर कम से कम वर्गों की विधि का उपयोग करके अनुमानित किया जाता है, अन्य तरीकों का उपयोग किया गया है:

  • बायेसियन तरीके, उदा।बेयसियन रेखीय प्रतिगमन
  • प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त माना जाता है।[22]* कम से कम निरपेक्ष विचलन, जो आउटलेर की उपस्थिति में अधिक मजबूत है, जिससे क्वांटाइल रिग्रेशन होता है
  • Nonparametric प्रतिगमन, बड़ी संख्या में टिप्पणियों की आवश्यकता है और कम्प्यूटेशनल रूप से गहन है
  • परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी
  • डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।[23]

सॉफ्टवेयर

सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज कम से कम वर्ग प्रतिगमन विश्लेषण और अनुमान प्रदर्शन करते हैं।कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर कम से कम वर्गों का उपयोग करके सरल रैखिक प्रतिगमन और कई प्रतिगमन किया जा सकता है।जबकि कई सांख्यिकीय सॉफ़्टवेयर पैकेज विभिन्न प्रकार के नॉनप्रेमेट्रिक और मजबूत प्रतिगमन का प्रदर्शन कर सकते हैं, इन विधियों को कम मानकीकृत किया जाता है।विभिन्न सॉफ़्टवेयर पैकेज अलग -अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि को अलग -अलग पैकेजों में अलग -अलग तरीके से लागू किया जा सकता है।सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशेष प्रतिगमन सॉफ्टवेयर विकसित किया गया है।

यह भी देखें

  • Anscombe की चौकड़ी
  • वक्र फिटिंग
  • अनुमान सिद्धांत
  • पूर्वानुमान
  • विचरण का अंश अस्पष्टीकृत
  • समारोह सन्निकटन
  • सामान्यीकृत रैखिक मॉडल
  • क्रिगिंग (एक रैखिक कम से कम वर्ग अनुमान एल्गोरिथ्म)
  • स्थानीय प्रतिगमन
  • परिवर्तनीय क्षेत्रीय इकाई समस्या
  • बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन
  • बहुभिन्नरूपी सामान्य वितरण
  • पियर्सन उत्पाद-पल सहसंबंध गुणांक
  • अर्ध-विमान
  • भविष्यवाणी अंतराल
  • प्रतिगमन सत्यापन
  • मजबूत प्रतिगमन
  • खंडित प्रतिगमन
  • संकेत का प्रक्रमण
  • स्टेपवाइज रिग्रेशन
  • टैक्सी ज्यामिति
  • प्रवृत्ति अनुमान

संदर्भ

  1. David A. Freedman (27 April 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.
  2. आर। डेनिस कुक;सैनफोर्ड वीसबर्ग आलोचना और प्रतिगमन में प्रभाव विश्लेषण, समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361
  3. एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?
  4. 4.0 4.1 अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.
  5. सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)
  6. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 978-0-7575-1181-3.
  7. Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330.
  8. फ्रांसिस गैल्टन।आनुवंशिकता के विशिष्ट नियम, प्रकृति 15 (1877), 492-495, 512–514, 532-533।(गैल्टन इस पत्र में उलटफेर शब्द का उपयोग करता है, जो मटर के आकार पर चर्चा करता है।)
  9. फ्रांसिस गैल्टन।राष्ट्रपति का पता, धारा एच, नृविज्ञान।(1885) (गैल्टन इस पत्र में प्रतिगमन शब्द का उपयोग करता है, जो मनुष्यों की ऊंचाई पर चर्चा करता है।)
  10. Yule, G. Udny (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society. 60 (4): 812–54. doi:10.2307/2979746. JSTOR 2979746.
  11. Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). "The Law of Ancestral Heredity". Biometrika. 2 (2): 211–236. doi:10.1093/biomet/2.2.211. JSTOR 2331683.
  12. Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.
  13. Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth ed.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.
  14. Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. doi:10.1214/088342305000000331. JSTOR 20061201.
  15. रॉडनी रामचरन।]
  16. Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geographically weighted regression: the analysis of spatially varying relationships (Reprint ed.). Chichester, England: John Wiley. ISBN 978-0-471-49616-8.
  17. Fotheringham, AS; Wong, DWS (1 January 1991). "The modifiable areal unit problem in multivariate statistical analysis". Environment and Planning A. 23 (7): 1025–1044. doi:10.1068/a231025. S2CID 153979055.
  18. स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।
  19. Rouaud, Mathieu (2013). Probability, Statistics and Estimation (PDF). p. 60.
  20. चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। ISBN 981-238-310-7 - [https://books.google.com/books?
  21. Good, P. I.; Hardin, J. W. (2009). Common Errors in Statistics (And How to Avoid Them) (3rd ed.). Hoboken, New Jersey: Wiley. p. 211. ISBN 978-0-470-45798-6.
  22. Tofallis, C. (2009). "Least Squares Percentage Regression". Journal of Modern Applied Statistical Methods. 7: 526–534. doi:10.2139/ssrn.1406472. SSRN 1406472.
  23. YangJing Long (2009). "Human age estimation by metric learning for regression problems" (PDF). Proc. International Conference on Computer Analysis of Images and Patterns: 74–82. Archived from the original (PDF) on 2010-01-08.

अग्रिम पठन

Evan J. Williams, "I. Regression," pp. 523–41.
Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.

बाहरी संबंध

]