प्रतिगमन विश्लेषण

From Vigyanwiki
लाइन y = 1.5x+2 (दिखाया नहीं गया) के चारों ओर एक गाऊसी वितरण में 50 यादृच्छिक बिंदुओं के लिए प्रतिगमन लाइन।

सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक आश्रित चर (जिसे अक्सर 'परिणाम' या 'प्रतिक्रिया' चर, या मशीन सीखने की भाषा में 'लेबल' कहा जाता है) और एक या अधिक स्वतंत्र चर (जिन्हें अक्सर 'भविष्यवाणियां', 'सहसंयोजक', 'व्याख्यात्मक चर' या 'विशेषताएं' कहा जाता है) के बीच संबंधों का आकलन करने के लिए सांख्यिकीय प्रक्रियाओं का एक समूह है। प्रतिगमन विश्लेषण का सबसे सामान्य रूप रैखिक प्रतिगमन है, जिसमें एक रेखा (या अधिक जटिल रैखिक संयोजन) मिलती है जो एक विशिष्ट गणितीय मानदंड के अनुसार डेटा को सबसे करीब से फिट करती है। उदाहरण के लिए, साधारण न्यूनतम वर्गों की विधि अद्वितीय रेखा (या हाइपरप्लेन) की गणना करती है जो वास्तविक डेटा और उस रेखा (या हाइपरप्लेन) के बीच वर्ग अंतर के योग को कम करती है। विशिष्ट गणितीय कारणों के लिए (रैखिक प्रतिगमन देखें), यह शोधकर्ता को आश्रित चर की नियमबद्ध अपेक्षा (या जनसंख्या औसत मूल्य) का अनुमान लगाने की अनुमति देता है जब स्वतंत्र चर मूल्यों को सेट पर लेते हैं। प्रतिगमन के कम सामान्य रूप वैकल्पिक स्थान मापदंडों (जैसे, मात्रात्मक प्रतिगमन या आवश्यक स्थिति विश्लेषण [1]) का अनुमान लगाने के लिए थोड़ी अलग प्रक्रियाओं का उपयोग करते हैं या गैर-रेखीय मॉडल (जैसे, गैर-पैरामीट्रिक प्रतिगमन) के व्यापक संग्रह में नियमबद्ध अपेक्षा का अनुमान लगाते हैं।

प्रतिगमन विश्लेषण मुख्य रूप से दो वैचारिक रूप से अलग-अलग उद्देश्यों के लिए उपयोग किया जाता है।

सबसे पहले, प्रतिगमन विश्लेषण व्यापक रूप से भविष्यवाणी और पूर्वानुमान के लिए उपयोग किया जाता है, जहां इसके उपयोग का मशीन सीखने के क्षेत्र के साथ काफी हद तक अतिव्यापन है।

दूसरा, कुछ स्थितियों में प्रतिगमन विश्लेषण का उपयोग स्वतंत्र और आश्रित चर के बीच कारण संबंधों का अनुमान लगाने के लिए किया जा सकता है। महत्वपूर्ण रूप से, प्रतिगमन स्वयं केवल एक आश्रित चर और एक निश्चित डेटासेट में स्वतंत्र चर के संग्रह के बीच संबंधों को प्रकट करता है। भविष्यवाणी के लिए प्रतिगमन का उपयोग करने के लिए या क्रमशः कारण संबंधों का अनुमान लगाने के लिए, एक शोधकर्ता को ध्यान से यह उचित ठहराना चाहिए कि मौजूदा रिश्तों में एक नए संदर्भ के लिए भविष्य कहनेवाला शक्ति क्यों है या दो चर के बीच संबंध में एक कारण व्याख्या क्यों है। उत्तरार्द्ध में विशेष रूप से महत्वपूर्ण है जब शोधकर्ता अवलोकन संबंधी डेटा का उपयोग करके कारण संबंधों का अनुमान लगाने की उम्मीद करते हैं।[1][2]

इतिहास

प्रतिगमन का सबसे प्रारंभिक रूप न्यूनतम वर्गों की विधि थी, जिसे लेजेन्ड्रे ने 1805 में,[3]और गॉस ने 1809 में प्रकाशित किया था।[4]लीजेंड्रे और गॉस दोनों ने खगोलीय टिप्पणियों से, सूर्य के बारे में पिंडों की कक्षाओं (ज्यादातर धूमकेतु, लेकिन बाद में तत्कालीन नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की थी। गॉस ने 1821 में न्यूनतम वर्गों के सिद्धांत का एक और विकास प्रकाशित किया,[5] जिसमें गॉस-मार्कोव प्रमेय का एक संस्करण भी शामिल था।

"प्रतिगमन" शब्द 19वीं शताब्दी में फ्रांसिस गैल्टन द्वारा एक जैविक घटना का वर्णन करने के लिए गढ़ा गया था। घटना यह थी कि लंबे पूर्वजों के वंशजों की ऊंचाई सामान्य औसत (एक घटना जिसे माध्य की ओर प्रतिगमन के रूप में भी जाना जाता है) की ओर नीचे की ओर झुकती है।[6][7]गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, [8][9]लेकिन उनके काम को बाद में उडनी यूल और कार्ल पियर्सन ने एक अधिक सामान्य सांख्यिकीय संदर्भ में विस्तारित किया था।[10][11]यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गौसियन माना जाता है। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। 1922 और 1925 के अपने कार्यों में आर.ए. फिशर द्वारा इस धारणा को कमजोर किया गया था।[12][13][14]फिशर ने माना कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में, फिशर की धारणा 1821 के गॉस के निर्माण के करीब है।

1950 और 1960 के दशक में, अर्थशास्त्रियों ने प्रतिगमन की गणना के लिए इलेक्ट्रोमैकेनिकल डेस्क "कैलकुलेटर" का इस्तेमाल किया। 1970 से पहले, एक प्रतिगमन से परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।[15]

हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं, प्रतिगमन जिसमें सहसंबद्ध प्रतिक्रियाएं शामिल हैं जैसे कि समय श्रृंखला और विकास वक्र, प्रतिगमन जिसमें भविष्यवक्ता (स्वतंत्र चर) या प्रतिक्रिया चर वक्र, चित्र, ग्राफ़ या अन्य जटिल डेटा ऑब्जेक्ट हैं, विभिन्न प्रकार के लापता डेटा को समायोजित करने वाली प्रतिगमन विधियां, गैर-पैरामीट्रिक प्रतिगमन, प्रतिगमन के लिए बायेसियन विधियां, प्रतिगमन विधियाँ एक प्रतिगमन में बनी रहती हैं जिसमें पूर्वसूचक चर को त्रुटि के साथ मापा जाता है, प्रतिगमन अवलोकनों की तुलना में अधिक भविष्यवक्ता चर के साथ, और प्रतिगमन के साथ अनुमान लगाया जाता है।

प्रतिगमन मॉडल

शोधकर्ता पहले एक मॉडल का चयन करते हैं फिर उस मॉडल के मापदंडों का अनुमान लगाने के लिए अपनी चुनी हुई विधि (जैसे, साधारण न्यूनतम वर्ग) का उपयोग करते हैं। प्रतिगमन मॉडल में निम्नलिखित घटक शामिल हैं,

  • अज्ञात पैरामीटर, जिसे अक्सर एक अदिश (scalar) या वेक्टर के रूप में दर्शाया जाता है।
  • स्वतंत्र चर, जो डेटा में देखे जाते हैं और अक्सर एक वेक्टर के रूप में दर्शाए जाते हैं (जहां डेटा की एक पंक्ति को दर्शाता है)।
  • आश्रित चर, जो डेटा में देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते है।
  • त्रुटि शब्द, जो सीधे डेटा में नहीं देखे जाते हैं और अक्सर अदिश का उपयोग करके दर्शाए जाते हैं।

अनुप्रयोग के विभिन्न क्षेत्रों में परतंत्र और स्वतंत्र चर के स्थान पर विभिन्न शब्दावली का उपयोग किया जाता है।

अधिकांश प्रतिगमन मॉडल का प्रस्ताव है कि का एक कार्य है तथा , जिसमें एक योगात्मक त्रुटि शब्द का प्रतिनिधित्व करता है जो या यादृच्छिक सांख्यिकीय शोर के गैर-मॉडल निर्धारकों के लिए खड़ा हो सकता है,

शोधकर्ताओं का लक्ष्य फ़ंक्शन का अनुमान लगाना है जो डेटा के सबसे करीब से फिट बैठता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन का रूप निर्दिष्ट किया जाना चाहिए। कभी -कभी इस फ़ंक्शन तथा के बीच संबंध के बारे में जानकारी पर आधारित होता है जो डेटा पर निर्भर नहीं करता है। यदि ऐसा कोई ज्ञान उपलब्ध नहीं है, तो के लिए स्थिति के अनुरूप ढलने  या सुविधाजनक रूप चुना जाता है।उदाहरण के लिए, एक साधारण यूनीवेरिएट रिग्रेशन प्रस्तावित कर सकता है , यह सुझाव देते हुए कि शोधकर्ता का मानना ​​है सांख्यिकीय प्रक्रिया के लिए एक उचित अनुमान के रूप में डेटा उत्पन्न कर रहा है।

एक बार जब शोधकर्ता अपने पसंदीदा सांख्यिकीय मॉडल का निर्धारण कर लेते हैं, तो प्रतिगमन विश्लेषण के विभिन्न रूप मापदंडों का अनुमान लगाने के लिए उपकरण प्रदान करते है। उदाहरण के लिए, कम से कम वर्गों (इसके सबसे सामान्य संस्करण सहित, साधारण कम से कम वर्गों) का मूल्य पाता है यह चुकता त्रुटियों के योग को कम करता है ।एक दिया गया प्रतिगमन विधि अंततः एक अनुमान प्रदान करेगी , आमतौर पर निरूपित डेटा उत्पन्न करने वाले सच्चे (अज्ञात) पैरामीटर मान से अनुमान को अलग करने के लिए।इस अनुमान का उपयोग करते हुए, शोधकर्ता तब फिट किए गए मूल्य का उपयोग कर सकते हैं भविष्यवाणी के लिए या डेटा को समझाने में मॉडल की सटीकता का आकलन करने के लिए।क्या शोधकर्ता आंतरिक रूप से अनुमान में रुचि रखता है या अनुमानित मूल्य संदर्भ और उनके लक्ष्यों पर निर्भर करेगा।जैसा कि साधारण कम से कम वर्गों में वर्णित है, कम से कम वर्गों का व्यापक रूप से उपयोग किया जाता है क्योंकि अनुमानित फ़ंक्शन सशर्त अपेक्षा का अनुमान लगाता है .[4]हालांकि, वैकल्पिक वेरिएंट (जैसे, कम से कम निरपेक्ष विचलन या मात्रात्मक प्रतिगमन) उपयोगी होते हैं जब शोधकर्ता अन्य कार्यों को मॉडल करना चाहते हैं

यह ध्यान रखना महत्वपूर्ण है कि एक प्रतिगमन मॉडल का अनुमान लगाने के लिए पर्याप्त डेटा होना चाहिए।उदाहरण के लिए, मान लीजिए कि एक शोधकर्ता के पास पहुंच है एक आश्रित और दो स्वतंत्र चर के साथ डेटा की पंक्तियाँ: ।आगे मान लीजिए कि शोधकर्ता कम से कम वर्गों के माध्यम से एक द्विभाजित रैखिक मॉडल का अनुमान लगाना चाहता है: ।यदि शोधकर्ता के पास केवल पहुंच है डेटा पॉइंट, तब वे असीम रूप से कई संयोजन पा सकते थे यह डेटा को समान रूप से अच्छी तरह से समझाता है: किसी भी संयोजन को चुना जा सकता है जो संतुष्ट करता है , जिनमें से सभी का नेतृत्व करते हैं और इसलिए वैध समाधान हैं जो वर्ग अवशिष्टों के योग को कम करते हैं। यह समझने के लिए कि असीम रूप से कई विकल्प क्यों हैं, ध्यान दें कि सिस्टम समीकरणों को 3 अज्ञात के लिए हल किया जाना है, जो सिस्टम को कम करके आंका जाता है।वैकल्पिक रूप से, कोई भी असीम रूप से कई 3-आयामी विमानों की कल्पना कर सकता है जो गुजरते हैं फिक्स्ड पॉइंट्स।

अधिक आम तौर पर, कम से कम वर्गों के मॉडल का अनुमान लगाने के लिए अलग पैरामीटर, एक होना चाहिए अलग डेटा बिंदु।यदि , तो आम तौर पर मापदंडों का एक सेट मौजूद नहीं होता है जो डेटा को पूरी तरह से फिट करेगा।मात्रा प्रतिगमन विश्लेषण में अक्सर दिखाई देता है, और मॉडल में स्वतंत्रता की डिग्री के रूप में संदर्भित किया जाता है।इसके अलावा, कम से कम वर्गों के मॉडल का अनुमान लगाने के लिए, स्वतंत्र चर रैखिक रूप से स्वतंत्र होना चाहिए: शेष स्वतंत्र चर को जोड़कर और गुणा करके किसी भी स्वतंत्र चर को फिर से संगठित करने में सक्षम नहीं होना चाहिए।जैसा कि साधारण कम से कम वर्गों में चर्चा की गई है, यह स्थिति यह सुनिश्चित करती है कि एक उल्टे मैट्रिक्स है और इसलिए एक अद्वितीय समाधान है मौजूद।

अंतर्निहित धारणाएँ

अपने आप में, एक प्रतिगमन डेटा का उपयोग करके केवल एक गणना है।वास्तविक दुनिया के संबंधों को मापने वाली एक सार्थक सांख्यिकीय मात्रा के रूप में प्रतिगमन के उत्पादन की व्याख्या करने के लिए, शोधकर्ता अक्सर कई शास्त्रीय मान्यताओं पर भरोसा करते हैं।इन धारणाओं में अक्सर शामिल होते हैं:

  • नमूना बड़े पैमाने पर आबादी का प्रतिनिधि है।
  • स्वतंत्र चर को बिना किसी त्रुटि के मापा जाता है।
  • मॉडल से विचलन का अपेक्षित मान शून्य है, सहसंयोजकों पर सशर्त,
  • अवशिष्टों का प्रसरण अवलोकन (समरूपता) में निरंतर है।
  • अवशिष्ट एक दूसरे से असंबंधित हैं। गणितीय रूप से, त्रुटियों का प्रसरण-सहप्रसरण मैट्रिक्स विकर्ण है

कम से कम वर्ग अनुमानक के लिए वांछनीय गुण रखने के लिए कुछ हद तक स्थितियां पर्याप्त हैं: विशेष रूप से, गॉस-मार्कोव मान्यताओं का अर्थ है कि पैरामीटर अनुमान निष्पक्ष, सुसंगत और रैखिक निष्पक्ष अनुमानकों के वर्ग में कुशल होंगे। व्यवसायी ने वास्तविक दुनिया की सेटिंग में इनमें से कुछ या सभी वांछनीय गुणों को बनाए रखने के लिए कई तरह के तरीके विकसित किए हैं, क्योंकि इन शास्त्रीय मान्यताओं के सटीक रूप से धारण करने की संभावना नहीं है।उदाहरण के लिए, मॉडलिंग त्रुटियों-इन-वेरिएबल से उचित अनुमान लगा सकते हैं स्वतंत्र चर को त्रुटियों से माप सकते है। विषमलैंगिकता-संगत मानक त्रुटियां के विचरण की अनुमति देती है के मूल्यों को बदलने के लिए । सहसंबद्ध त्रुटियां जो डेटा के सबसेट के भीतर मौजूद हैं या विशिष्ट पैटर्न का पालन करती हैं, उन्हें अन्य तकनीकों के साथ क्लस्टर मानक त्रुटियों, भौगोलिक भारित प्रतिगमन, या न्यूए-वेस्ट मानक त्रुटियों का उपयोग करके नियंत्रित किया जा सकता है। जब डेटा की पंक्तियाँ अंतरिक्ष में स्थानों के अनुरूप हों, तो मॉडल का चुनाव कैसे करें? भौगोलिक इकाइयों के महत्वपूर्ण परिणाम हो सकते हैं।[16] अर्थमिति का उपक्षेत्र काफी हद तक विकासशील तकनीकों पर केंद्रित है जो शोधकर्ताओं को वास्तविक दुनिया की सेटिंग में उचित वास्तविक दुनिया के निष्कर्ष निकालने की अनुमति देता है, जहां शास्त्रीय धारणाएं बिल्कुल सही नहीं होती हैं।

रैखिक प्रतिगमन

रैखिक प्रतिगमन में, मॉडल विनिर्देश यह है कि आश्रित चर, मापदंडों का एक रैखिक संयोजन है (लेकिन स्वतंत्र चर में रैखिक होने की आवश्यकता नहीं है)। उदाहरण के लिए, मॉडलिंग डेटा बिंदुओं के लिए सरल रेखीय प्रतिगमन में एक स्वतंत्र चर होता है: , और दो पैरामीटर, तथा :

सीधी रेखा:

बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या स्वतंत्र चर के कार्य होते हैं।

पिछले प्रतिगमन में में एक पद जोड़ने पर यह मिलता है:

अनुवृत्त (parabola):

यह अभी भी रैखिक प्रतिगमन है, हालांकि दायीं ओर का व्यंजक स्वतंत्र चर में द्विघात है, यह पैरामीटर , तथा में रैखिक है।

दोनों ही मामलों में, एक त्रुटि शब्द है और सबस्क्रिप्ट एक विशेष अवलोकन को अनुक्रमित करता है।

सीधी रेखा के मामले पर ध्यान देते है, जनसंख्या से एक यादृच्छिक नमूने को देखते हुए, हम जनसंख्या मापदंडों का अनुमान लगाते हैं और नमूना रैखिक प्रतिगमन मॉडल प्राप्त करते हैं,

अवशिष्ट, , मॉडल द्वारा अनुमानित आश्रित चर के मूल्य के बीच का अंतर है, , और सही मान आश्रित चर का, है।  आकलन की एक विधि साधारण न्यूनतम वर्ग है। यह विधि पैरामीटर अनुमान प्राप्त करती है जो चुकता अवशिष्टों के योग को कम करती है,

इस फ़ंक्शन के न्यूनीकरण के परिणामस्वरूप सामान्य समीकरणों का एक सेट होता है, मापदंडों में एक साथ रैखिक समीकरणों का एक सेट, जो पैरामीटर अनुमानक उत्पन्न करने के लिए हल किया जाता है,

डेटा सेट पर रैखिक प्रतिगमन का चित्रण।

सरल प्रतिगमन के मामले में, न्यूनतम वर्ग अनुमान के सूत्र हैं

जहां पे मानों और का माध्य (औसत) है का मतलब है मानों का माध्य है।

इस धारणा के तहत कि जनसंख्या त्रुटि शब्द में निरंतर भिन्नता है, उस भिन्नता का अनुमान इस प्रकार दिया जाता है,

इसे प्रतिगमन का माध्य वर्ग त्रुटि (MSE) कहा जाता है। हर वह नमूना आकार है जो समान डेटा से अनुमानित मॉडल पैरामीटर की संख्या से घटाया जाता है, के लिये रेग्रेसर्स (regressors) या अगर अवरोधन का इस्तेमाल किया जाता है।[17] इस मामले में, तो हर है

पैरामीटर अनुमानों की मानक त्रुटियां दी गई हैं,

आगे की धारणा के तहत कि जनसंख्या त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, शोधकर्ता इन अनुमानित मानक त्रुटियों का उपयोग आत्मविश्वास अंतराल बनाने और जनसंख्या मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है।

सामान्य रैखिक मॉडल

अधिक सामान्य एकाधिक प्रतिगमन मॉडल में स्वतंत्र चर हैं,

जहांपे है अवलोकन पर -th स्वतंत्र चर हैं। यदि पहला स्वतंत्र चर सभी 1 लेता है , , फिर को प्रतीपगमन अवरोधन कहा जाता है।

न्यूनतम वर्ग पैरामीटर अनुमान सामान्य समीकरणों से प्राप्त किए जाते हैं। अवशिष्ट के रूप में लिखा जा सकता है,

सामान्य समीकरण हैं

मैट्रिक्स संकेतन में, सामान्य समीकरणों को लिखा जाता है

जहां का तत्व है , स्तंभ वेक्टर का तत्व है , और यह का तत्व है ।इस प्रकार है , है , तथा है ।समाधान है

निदान

एक बार प्रतिगमन मॉडल का निर्माण हो जाने के बाद, मॉडल के फिट होने की अच्छाई और अनुमानित मापदंडों के सांख्यिकीय महत्व की पुष्टि करना महत्वपूर्ण हो सकता है। फिट की अच्छाई की आमतौर पर इस्तेमाल की जाने वाली जांचों में आर-स्क्वेर्ड, अवशेषों के पैटर्न का विश्लेषण और परिकल्पना परीक्षण शामिल हैं। सांख्यिकीय महत्व को समग्र फिट के एफ-परीक्षण द्वारा जांचा जा सकता है, इसके बाद व्यक्तिगत मापदंडों के टी-परीक्षण किए जा सकते हैं।

इन नैदानिक ​​परीक्षणों की व्याख्या मॉडल की मान्यताओं पर बहुत अधिक निर्भर करती है। हालांकि अवशेषों की जांच का उपयोग किसी मॉडल को अमान्य करने के लिए किया जा सकता है, टी-टेस्ट या एफ-टेस्ट के परिणामों की व्याख्या करना कभी-कभी अधिक कठिन होता है यदि मॉडल की मान्यताओं का उल्लंघन किया जाता है। उदाहरण के लिए, यदि त्रुटि शब्द का सामान्य वितरण नहीं है, तो छोटे नमूनों में अनुमानित पैरामीटर सामान्य वितरण का पालन नहीं करेंगे और अनुमान को जटिल करेंगे। अपेक्षाकृत बड़े नमूनों के साथ, हालांकि, एक केंद्रीय सीमा प्रमेय को इस तरह लागू किया जा सकता है कि परिकल्पना परीक्षण स्पर्शोन्मुख सन्निकटन का उपयोग करके आगे बढ़ सकता है।

सीमित आश्रित चर

सीमित आश्रित चर, जो प्रतिक्रिया चर हैं जो श्रेणीबद्ध चर हैं या वे चर हैं जो केवल एक निश्चित सीमा में गिरने के लिए विवश हैं, अक्सर अर्थमिति में उत्पन्न होते हैं।

प्रतिक्रिया चर गैर-निरंतर हो सकता है (वास्तविक रेखा के कुछ सबसेट पर झूठ बोलने के लिए "सीमित")। बाइनरी (शून्य या एक) चर के लिए, यदि विश्लेषण न्यूनतम वर्ग रैखिक प्रतिगमन के साथ आगे बढ़ता है, तो मॉडल को रैखिक संभाव्यता मॉडल कहा जाता है। बाइनरी आश्रित चर के लिए अरैखिक मॉडल में प्रोबिट और लॉगिट मॉडल शामिल हैं।बहुभिन्नरूपी प्रोबिट मॉडल कई बाइनरी आश्रित चर और कुछ स्वतंत्र चर के बीच एक संयुक्त संबंध का आकलन करने का एक मानक तरीका है। दो से अधिक मानों वाले श्रेणीबद्ध चर के लिए बहुपद लॉगिट होता है। दो से अधिक मूल्यों वाले क्रमिक चर के लिए, आदेशित लॉगिट और आदेशित प्रोबिट मॉडल होता हैं।सेंसर किए गए प्रतिगमन मॉडल का उपयोग तब किया जा सकता है जब आश्रित चर केवल कभी-कभी माना  जाता है, और हेकमैन सुधार प्रकार के मॉडल का उपयोग तब किया जा सकता है जब नमूना को ब्याज की आबादी से यादृच्छिक रूप से नहीं चुना जाता है। इस तरह की प्रक्रियाओं का एक विकल्प श्रेणीबद्ध चर के बीच पॉलीकोरिक सहसंबंध (या पॉलीसेरियल सहसंबंध) पर आधारित रैखिक प्रतिगमन है। जनसंख्या में चरों के वितरण के बारे में की गई धारणाओं में ऐसी प्रक्रियाएं भिन्न होती हैं। यदि चर कम मान के साथ सकारात्मक है और किसी घटना की पुनरावृत्ति का प्रतिनिधित्व करता है, तो पॉइसन प्रतिगमन या नकारात्मक द्विपद मॉडल जैसे मॉडल का उपयोग किया जा सकता है।

अरेखीय प्रतिगमन

जब मॉडल फ़ंक्शन मापदंडों में रैखिक नहीं होता है, तो वर्गों का योग एक पुनरावृत्त प्रक्रिया द्वारा कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जिन्हें संक्षेप में रैखिक और गैर-रैखिक न्यूनतम वर्गों के बीच अंतर में संक्षेपित किया गया है।

अंतर्वेशन (interpolation) और बहिर्वेशन (extrapolation)

url = http: //www.incertitudes.fr/book.pdf}} </ref>

प्रतिगमन मॉडल X चर के ज्ञात मान दिए गए y चर के मूल्य की भविष्यवाणी करते हैं। मॉडल-फिटिंग के लिए उपयोग किए जाने वाले डेटासेट में मान की सीमा के भीतर की भविष्यवाणी को अनौपचारिक रूप से अंतर्वेशन (interpolation) के रूप में जाना जाता है।डेटा की इस सीमा के बाहर की भविष्यवाणी को बहिर्वेशन (extrapolation) के रूप में जाना जाता है। बहिर्वेशन (extrapolation) करना प्रतिगमन मान्यताओं पर दृढ़ता से निर्भर करता है। आगे बहिर्वेशन (extrapolation) डेटा के बाहर चला जाता है, मॉडल के लिए मान्यताओं और नमूना डेटा या वास्तविक मान के बीच अंतर के कारण विफल होने के लिए अधिक जगह होती है।

आम तौर पर यह सलाह दी जाती है[citation needed] कि बहिर्वेशन (extrapolation) करते समय, किसी को एक भविष्यवाणी अंतराल के साथ आश्रित चर के अनुमानित मान के साथ होना चाहिए जो अनिश्चितता का प्रतिनिधित्व करता है। इस तरह के अंतराल में तेजी से विस्तार होता है क्योंकि स्वतंत्र चर के मान देखे गए डेटा द्वारा आवृत की गई सीमा से बाहर चले गए हैं।

ऐसे कारणों और दूसरों के लिए, कुछ लोग कहते हैं कि बहिर्वेशन (extrapolation) करना नासमझी हो सकती है।[18]

हालांकि, इसमें मॉडलिंग त्रुटियों के पूरे सेट को विशेष रूप से, Yऔर X के बीच संबंध के लिए एक विशेष रूप की धारणा शामिल नहीं किया जा सकता है। एक उचित रूप से आयोजित प्रतिगमन विश्लेषण में यह आकलन शामिल होगा कि प्रेक्षित डेटा द्वारा कल्पित रूप कितनी अच्छी तरह मेल खाता है, लेकिन यह वास्तव में उपलब्ध स्वतंत्र चर के मूल्यों की सीमा के भीतर ही ऐसा कर सकता है। इसका मतलब यह है कि कोई भी बहिर्वेशन (extrapolation) विशेष रूप से प्रतिगमन संबंध के संरचनात्मक रूप के बारे में की जा रही धारणाओं पर निर्भर है। यहां सर्वोत्तम अभ्यास सलाह[citation needed] यह है कि एक रैखिक-इन-चर और रैखिक-इन-पैरामीटर संबंध को केवल अभिकलन सुविधा के लिए नहीं चुना जाना चाहिए, बल्कि यह कि सभी उपलब्ध ज्ञान को एक प्रतिगमन मॉडल के निर्माण में तैनात किया जाना चाहिए। यदि इस ज्ञान में यह तथ्य शामिल है कि आश्रित चर मान की एक निश्चित सीमा से बाहर नहीं जा सकता है, तो इसका उपयोग मॉडल के चयन में किया जा सकता है - भले ही देखे गए डेटासेट में विशेष रूप से ऐसी सीमाओं के पास कोई मान न हो। जब बहिर्वेशन (extrapolation) पर विचार किया जाता है तो प्रतिगमन के लिए एक उपयुक्त कार्यात्मक रूप चुनने के इस कदम के निहितार्थ बहुत अच्छे हो सकते हैं। कम से कम, यह सुनिश्चित कर सकता है कि एक फिट मॉडल से उत्पन्न होने वाला कोई भी एक्सट्रपलेशन "यथार्थवादी" है(या जो ज्ञात है उसके अनुरूप)।

शक्ति और नमूना आकार की गणना

मॉडल में स्वतंत्र चर की संख्या बनाम टिप्पणियों की संख्या से संबंधित कोई और सहमत तरीके नहीं हैं। गुड और हार्डिन द्वारा अनुमानित एक विधि है, जहां नमूना आकार है, स्वतंत्र चर की संख्या है और वांछित सटीकता तक पहुंचने के लिए आवश्यक अवलोकनों की संख्या है यदि मॉडल में केवल एक स्वतंत्र है।[19]उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बना रहा है जिसमें 1000 रोगी () होते हैं। यदि शोधकर्ता यह निर्णय लेता है कि एक सीधी रेखा (), को ठीक-ठीक परिभाषित करने के लिए पाँच प्रेक्षणों की आवश्यकता है, तो मॉडल द्वारा समर्थित स्वतंत्र चरों की अधिकतम संख्या 4 है, क्योंकि

अन्य तरीके

यद्यपि एक प्रतिगमन मॉडल के मापदंडों का अनुमान आमतौर पर न्यूनतम वर्गों की विधि का उपयोग करके लगाया जाता है, अन्य विधियों का उपयोग किया गया है जिनमें शामिल हैं:

  • बायेसियन तरीके, उदाहरण बायेसियन रैखिक प्रतिगमन।
  • प्रतिशत प्रतिगमन, उन स्थितियों के लिए जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त समझा जाता है।
  • न्यूनतम निरपेक्ष विचलन, जो बाहरी लोगों की उपस्थिति में अधिक मजबूत होता है, जिससे मात्रात्मक प्रतिगमन होता है।
  • गैर-पैरामीट्रिक प्रतिगमन के लिए बड़ी संख्या में अवलोकन की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।
  • परिदृश्य अनुकूलन, अंतराल भविष्यवक्ता मॉडल के लिए अग्रणी।
  • डिस्टेंस मीट्रिक लर्निंग, जो किसी दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज से सीखा जाता है।[20]

सॉफ्टवेयर

सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज न्यूनतम वर्ग प्रतिगमन विश्लेषण और अनुमान करते हैं। सरल रैखिक प्रतिगमन औरन्यूनतम वर्गों का उपयोग करके कई प्रतिगमन कुछ स्प्रेडशीट अनुप्रयोगों और कुछ कैलकुलेटर पर किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं। अलग-अलग सॉफ़्टवेयर पैकेज अलग-अलग तरीकों को लागू करते हैं, और किसी दिए गए नाम के साथ एक विधि अलग-अलग पैकेजों में अलग-अलग तरीके से लागू की जा सकती है। सर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विशिष्ट प्रतिगमन सॉफ्टवेयर विकसित किया गया है।

यह भी देखें

  • Anscombe की चौकड़ी
  • वक्र फिटिंग
  • अनुमान सिद्धांत
  • पूर्वानुमान
  • विचरण का अंश अस्पष्टीकृत
  • समारोह सन्निकटन
  • सामान्यीकृत रैखिक मॉडल
  • क्रिगिंग (एक रैखिक कम से कम वर्ग अनुमान एल्गोरिथ्म)
  • स्थानीय प्रतिगमन
  • परिवर्तनीय क्षेत्रीय इकाई समस्या
  • बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन
  • बहुभिन्नरूपी सामान्य वितरण
  • पियर्सन उत्पाद-पल सहसंबंध गुणांक
  • अर्ध-विमान
  • भविष्यवाणी अंतराल
  • प्रतिगमन सत्यापन
  • मजबूत प्रतिगमन
  • खंडित प्रतिगमन
  • संकेत का प्रक्रमण
  • स्टेपवाइज रिग्रेशन
  • टैक्सी ज्यामिति
  • प्रवृत्ति अनुमान

संदर्भ

  1. David A. Freedman (27 April 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.
  2. आर। डेनिस कुक;सैनफोर्ड वीसबर्ग आलोचना और प्रतिगमन में प्रभाव विश्लेषण, समाजशास्त्रीय कार्यप्रणाली, वॉल्यूम।13. (1982), पीपी। 313–361
  3. एड्रियन-मैरी लीजेंड्रे | ए.एम.किंवदंती।[https://books.google.com/books?
  4. 4.0 4.1 अध्याय 1: एग्रिस्ट, जे। डी।, और पिस्केके, जे.एस. (2008)।ज्यादातर हानिरहित अर्थमिति: एक अनुभववादी साथी।प्रिंसटन यूनिवर्सिटी प्रेस.
  5. सी.एफ.गॉस।[Http://books.google.com/books? ।(1821/1823)
  6. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 978-0-7575-1181-3.
  7. Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330.
  8. फ्रांसिस गैल्टन।आनुवंशिकता के विशिष्ट नियम, प्रकृति 15 (1877), 492-495, 512–514, 532-533।(गैल्टन इस पत्र में उलटफेर शब्द का उपयोग करता है, जो मटर के आकार पर चर्चा करता है।)
  9. फ्रांसिस गैल्टन।राष्ट्रपति का पता, धारा एच, नृविज्ञान।(1885) (गैल्टन इस पत्र में प्रतिगमन शब्द का उपयोग करता है, जो मनुष्यों की ऊंचाई पर चर्चा करता है।)
  10. Yule, G. Udny (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society. 60 (4): 812–54. doi:10.2307/2979746. JSTOR 2979746.
  11. Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). "The Law of Ancestral Heredity". Biometrika. 2 (2): 211–236. doi:10.1093/biomet/2.2.211. JSTOR 2331683.
  12. Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.
  13. Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth ed.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.
  14. Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. doi:10.1214/088342305000000331. JSTOR 20061201.
  15. रॉडनी रामचरन।]
  16. Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geographically weighted regression: the analysis of spatially varying relationships (Reprint ed.). Chichester, England: John Wiley. ISBN 978-0-471-49616-8.
  17. स्टील, R.G.D, और Torrie, J. H., सिद्धांतों और प्रक्रियाओं की प्रक्रियाएं जैविक विज्ञान के विशेष संदर्भ के साथ। मैकग्रा हिल, 1960, पृष्ठ 288।
  18. चियांग, सी। एल, (2003) विश्लेषण के सांख्यिकीय तरीके, विश्व वैज्ञानिक। ISBN 981-238-310-7 - [https://books.google.com/books?
  19. Good, P. I.; Hardin, J. W. (2009). Common Errors in Statistics (And How to Avoid Them) (3rd ed.). Hoboken, New Jersey: Wiley. p. 211. ISBN 978-0-470-45798-6.
  20. YangJing Long (2009). "Human age estimation by metric learning for regression problems" (PDF). Proc. International Conference on Computer Analysis of Images and Patterns: 74–82. Archived from the original (PDF) on 2010-01-08.

अग्रिम पठन

Evan J. Williams, "I. Regression," pp. 523–41.
Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.

बाहरी संबंध

]