सामान्यीकृत रैखिक मॉडल: Difference between revisions

From Vigyanwiki
No edit summary
 
(14 intermediate revisions by 3 users not shown)
Line 9: Line 9:
साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के [[रैखिक संयोजन]] के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के [[अपेक्षित मूल्य]] की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।
साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के [[रैखिक संयोजन]] के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के [[अपेक्षित मूल्य]] की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।


हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए ऐसी स्थितियों में जहां प्रतिक्रिया चर के सदैव सकारात्मक और विस्तृत श्रृंखला में परिवर्तित होने की अपेक्षा की जाती है वहां निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप द्वारा (अर्थात घातीय रूप से) भिन्नता होती है यद्यपि निरंतर भिन्न होने के आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में न्यूनता से समुद्र तट पर 1,000 कम [[logit|लोग]] आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट दर्शक प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति की भविष्यवाणी करेंगे। तार्किक रूप से, एक अधिक यथार्थवादी मॉडल इसके बजाय बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर की भविष्यवाणी करेगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री की गिरावट उपस्थिति में कमी की ओर ले जाती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (या [[लॉग-लीनियर मॉडल]] कहा जाता है, क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है)
हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए ऐसी स्थितियों में जहां प्रतिक्रिया चर के सदैव सकारात्मक और विस्तृत श्रृंखला में परिवर्तित होने की अपेक्षा की जाती है वहां निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप द्वारा (अर्थात घातीय रूप से) भिन्नता होती है यद्यपि निरंतर भिन्न होने के आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में न्यूनता से समुद्र तट पर 1,000 कम [[logit|लोग]] आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट दर्शक प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति की भविष्यवाणी करेंगे। इसके स्थान पर एक अधिक यथार्थवादी मॉडल शुद्ध रूप से बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर का अनुमान लगाएगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री के पतन से उपस्थिति में कमी आती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है) या [[लॉग-लीनियर मॉडल]] कहा जाता है।


इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी दिए गए व्यक्ति के समुद्र तट पर तापमान के कार्य के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि 10 डिग्री में बदलाव से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। लेकिन संभाव्यता के मामले में दुगनी संभावना का क्या मतलब है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता (उदाहरण के लिए 50% 100% हो जाता है, 75% 150% हो जाता है, आदि)। बल्कि, यह ऑड्स अनुपात है जो दोगुना हो रहा है: 2:1 ऑड्स से, 4:1 ऑड्स से, 8:1 ऑड्स, आदि। ऐसा मॉडल लॉग-ऑड्स या लॉजिस्टिक रिग्रेशन मॉडल है।
इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी व्यक्ति के समुद्र तट पर तापमान के फलन के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि तापमान में 10 डिग्री के परिवर्तन से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। किन्तु संभाव्यता की स्थिति में "दोगुनी संभावना" का क्या अर्थ है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता। (उदाहरण के लिए 50% का 100% तथा 75% का 150% हो जाता है।) अपितु, यह अनुपात है जो 2:1 अनुपात से, 4:1 अनुपात से, 8:1 अनुपात दोगुना हो रहा है। ऐसा मॉडल लॉग-अनुपात या लॉजिस्टिक रिग्रेशन मॉडल है।


सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर कवर करते हैं, जिसमें मनमाना वितरण होता है ([[सामान्य वितरण]] के स्थान पर) और प्रतिक्रिया चर के एक मनमाना कार्य के लिए (संबंध फलन) भविष्यवाणियों के साथ रैखिक रूप से भिन्न होता है (यह मानने के बजाय कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या के ऊपर के मामले को आमतौर पर पॉइसन वितरण और एक लॉग लिंक के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना की स्थिति को सामान्यतः बर्नौली वितरण (या [[द्विपद वितरण]], बिल्कुल के आधार पर) के साथ तैयार किया जाएगा। समस्या को कैसे व्यक्त किया जाता है) और एक लॉग-ऑड्स (या लॉगिट) संबंध फलन।
सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर आच्छादित करते हैं, जिसमें यादृच्छिक वितरण होता है ([[सामान्य वितरण]] के स्थान पर) और प्रतिक्रिया चर के एक यादृच्छिक कार्य के लिए (संबंध फलन) प्राग्सूचक के साथ रैखिक रूप से भिन्न होता है (यह कल्पना करने स्थान पर कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या की उपर्युक्त स्थिति को विशिष्ट रूप से पॉइसन वितरण और एक लॉग फलन के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना की स्थिति को सामान्यतः बर्नौली वितरण (या [[द्विपद वितरण]], इस बात पर निर्भर करता है कि वास्तव में समस्या को कैसे व्यक्त किया गया है) और एक लॉग-अनुपात (या लॉगिट) संबंध फलन के साथ तैयार किया जाएगा।


== सिंहावलोकन ==
== सिंहावलोकन ==
Line 37: Line 37:


=== प्रायिकता वितरण ===
=== प्रायिकता वितरण ===
वितरणों का विस्तारित घातीय समूह एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें <math>\boldsymbol\theta</math> और <math>\tau</math>, द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है
वितरणों का विस्तारित एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें <math>\boldsymbol\theta</math> और <math>\tau</math> द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है
:<math> f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). \,\!</math>
:<math> f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). \,\!</math>
सामान्यतः परिक्षेपण पैरामीटर <math>\tau</math> ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य <math>h(\mathbf{y},\tau)</math>, <math>\mathbf{b}(\boldsymbol\theta)</math>, <math>\mathbf{T}(\mathbf{y})</math>, <math>A(\boldsymbol\theta)</math> और <math>d(\tau)</math> ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित कई सामान्य वितरण हैं।
सामान्यतः परिक्षेपण पैरामीटर <math>\tau</math> ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य <math>h(\mathbf{y},\tau)</math>, <math>\mathbf{b}(\boldsymbol\theta)</math>, <math>\mathbf{T}(\mathbf{y})</math>, <math>A(\boldsymbol\theta)</math> और <math>d(\tau)</math> ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित अनेक सामान्य वितरण हैं।


यह अदिश <math>\mathbf{y}</math>और <math>\boldsymbol\theta</math> के लिए( इस स्थिति में <math>y</math> और <math>\theta</math> को किया गया है) कम हो जाता है
यह अदिश <math>\mathbf{y}</math> और <math>\boldsymbol\theta</math> के लिए( इस स्थिति में <math>y</math> और <math>\theta</math> को किया गया है) कम हो जाता है
: <math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right). \,\!</math>
: <math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right). \,\!</math>


Line 117: Line 117:
बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं,अर्थात वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या [[ बहुराष्ट्रीय रसद प्रतिगमन |बहुराष्ट्रीय रसद प्रतिगमन]] के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।
बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं,अर्थात वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या [[ बहुराष्ट्रीय रसद प्रतिगमन |बहुराष्ट्रीय रसद प्रतिगमन]] के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।


बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, चाहे एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना। इसी तरह, द्विपद वितरण में, अपेक्षित मान एनपी है , यानी "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।
बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, यद्यपि एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना अधिक होगी। इसी तरह द्विपद वितरण में, अपेक्षित मान एनपी है, अर्थात "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।


श्रेणीबद्ध और बहुपदी वितरण के लिए, प्रागुक्त प्राचल संभावनाओं का के -सदिश है, अतिरिक्त प्रतिबंध के साथ कि सभी संभावनाओं को 1 तक योग किया जाना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।
श्रेणीबद्ध और बहुपदी वितरण के लिए, भविष्यवाणी की जाने वाली पैरामीटर संभावनाओं का एक के-वेक्टर है, जिसमें आगे प्रतिबंध है कि सभी संभावनाओं को 1 तक जोड़ना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।


== अन्वायोजन ==
== अन्वायोजन ==
Line 142: Line 142:
सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।
सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।


=== रेखीय समाश्रयण ===
=== रेखीय प्रतिगमन ===


सामान्यीकृत रैखिक मॉडल का एक सरल, अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रैखिक समाश्रयण है। रैखिक समाश्रयण में, गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है, जो यह नहीं मानता है कि वितरण सामान्य है।
सामान्यीकृत रैखिक मॉडल का एक सरल अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रेखीय प्रतिगमन है। रेखीय प्रतिगमन में गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है, जो यह नहीं मानता है कि वितरण सामान्य है।


यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से, यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।
यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।


सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।
सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।
Line 152: Line 152:
=== बाइनरी डेटा ===
=== बाइनरी डेटा ===
{{See also|युग्मक प्रतिगमन}}
{{See also|युग्मक प्रतिगमन}}
जब प्रतिक्रिया डेटा, वाई , द्विआधारी होते हैं (केवल मान 0 और 1 लेते हैं), वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और ''μ''<sub>i</sub> की व्याख्या तब ''Y''<sub>i</sub> की प्रायिकता, p मान एक पर ले जाती है।
जब प्रतिक्रिया डेटा ''Y'' बाइनरी होते हैं (केवल मान 0 और 1 लेते हैं), तो वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और ''μ''<sub>i</sub> की व्याख्या तब ''Y''<sub>i</sub> की प्रायिकता, p मान एक पर ले जाती है।


द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।
द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।
Line 163: Line 163:


==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन ====
==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन ====
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर <math>[0,1]</math>,हैं। सामान्य सीडीएफ <math>\Phi</math> एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है। इसके संबंध है
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर <math>[0,1]</math> हैं। सामान्य सीडीएफ <math>\Phi</math> एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है। इसके संबंध है


:<math>g(p) = \Phi^{-1}(p).\,\!</math>
:<math>g(p) = \Phi^{-1}(p).\,\!</math>
Line 207: Line 207:


:<math> g(\mu_m) = \eta_m = \beta_{m,0} + X_1 \beta_{m,1} + \cdots + X_p \beta_{m,p} \text{ where } \mu_m = \mathrm{P}(Y = m \mid Y \in \{1,m\} ). \,</math>
:<math> g(\mu_m) = \eta_m = \beta_{m,0} + X_1 \beta_{m,1} + \cdots + X_p \beta_{m,p} \text{ where } \mu_m = \mathrm{P}(Y = m \mid Y \in \{1,m\} ). \,</math>
m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य हैं, और अधिक मापदण्ड अनुमानित किया जाता हैं।
m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य और पैरामीटर अनुमानित हैं।


=== [[डेटा गिनें|डेटा गणना]] ===
=== [[डेटा गिनें|डेटा गणना]] ===
Line 213: Line 213:


:<math>\operatorname{var}(Y_i) = \tau\mu_i,\, </math>
:<math>\operatorname{var}(Y_i) = \tau\mu_i,\, </math>
जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। जब यह नहीं होता है, तो परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों  के रूप में वर्णित किया जाता है ।
जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। इसके ना होने पर परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों के रूप में वर्णित किया जाता है ।


== विस्तारण (एक्सटेंशन) ==
== विस्तारण (एक्सटेंशन) ==
Line 226: Line 226:
  |jstor = 2531734  
  |jstor = 2531734  
}}</ref><ref>{{cite book |last1 = Hardin |first1 = James |last2 = Hilbe |first2 = Joseph |author2-link = Joseph Hilbe |title = सामान्यीकृत अनुमान समीकरण|url = https://archive.org/details/generalizedestim0000hard |url-access = registration |location = London, England |publisher = Chapman and Hall/CRC |year = 2003 |isbn = 1-58488-307-3 }}</ref>
}}</ref><ref>{{cite book |last1 = Hardin |first1 = James |last2 = Hilbe |first2 = Joseph |author2-link = Joseph Hilbe |title = सामान्यीकृत अनुमान समीकरण|url = https://archive.org/details/generalizedestim0000hard |url-access = registration |location = London, England |publisher = Chapman and Hall/CRC |year = 2003 |isbn = 1-58488-307-3 }}</ref>
* [[सामान्यीकृत रैखिक [[मिश्रित मॉडल]]]] जीएलएम का एक विस्तार है जिसमें रैखिक प्राग्वक्ता में यादृच्छिक प्रभाव सम्मिलित हैं, जो एक स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" मापदण्ड अनुमान तब उपयुक्त होते हैं जब केंद्र किसी वैयक्तिक पर एक्स के एक या अधिक घटकों को परिवर्तन करने के प्रभाव का आकलन करने पर होता है। जीएलएमएम को [[बहुस्तरीय मॉडल]] और मिश्रित मॉडल भी कहा जाता है। सामान्यतः जीईई की तुलना में जीएलएमएम को उपयुक्त करना अभिकलनीयतः अधिक जटिल और गहन है।
* [[सामान्यीकृत रैखिक [[मिश्रित मॉडल]]]] जीएलएम का एक विस्तार है जिसमें रैखिक पूर्वसूचक में अनियमित प्रभाव सम्मिलित हैं जो स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों  के परिवर्तन के प्रभाव का आकलन करने पर होता केंद्रित होता है। जीएलएमएम को [[बहुस्तरीय मॉडल]] और मिश्रित मॉडल भी कहा जाता है। सामान्यतः जीएलएमएम को फिट करना जीईई को फिट करने की तुलना में अभिकलनात्मक रूप से अधिक जटिल और गहन है।


=== [[सामान्यीकृत योगात्मक मॉडल]] ===
=== [[सामान्यीकृत योगात्मक मॉडल]] ===
Line 272: Line 272:
{{Authority control}}
{{Authority control}}


{{DEFAULTSORT:Generalized Linear Model}}[[Category: जिवानांकिकी]] [[Category: सामान्यीकृत रैखिक मॉडल | सामान्यीकृत रैखिक मॉडल ]] [[Category: प्रतिगमन मॉडल]]
{{DEFAULTSORT:Generalized Linear Model}}


 
[[Category:Articles with hatnote templates targeting a nonexistent page|Generalized Linear Model]]
 
[[Category:CS1 English-language sources (en)]]
[[Category: Machine Translated Page]]
[[Category:Created On 21/03/2023|Generalized Linear Model]]
[[Category:Created On 21/03/2023]]
[[Category:Lua-based templates|Generalized Linear Model]]
[[Category:Machine Translated Page|Generalized Linear Model]]
[[Category:Pages with empty portal template|Generalized Linear Model]]
[[Category:Pages with script errors|Generalized Linear Model]]
[[Category:Portal-inline template with redlinked portals|Generalized Linear Model]]
[[Category:Templates Vigyan Ready|Generalized Linear Model]]
[[Category:Templates that add a tracking category|Generalized Linear Model]]
[[Category:Templates that generate short descriptions|Generalized Linear Model]]
[[Category:Templates using TemplateData|Generalized Linear Model]]
[[Category:जिवानांकिकी|Generalized Linear Model]]
[[Category:प्रतिगमन मॉडल|Generalized Linear Model]]
[[Category:सामान्यीकृत रैखिक मॉडल| सामान्यीकृत रैखिक मॉडल ]]

Latest revision as of 16:46, 26 April 2023

सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण रेखीय प्रतिगमन का एक नमन्शील सामान्यीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है।

जॉन नेल्डर और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।[1]उन्होंने मॉडल मापदंडों के अधिकतम संभाविता आकलन (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संवेष्टन (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। बायेसियन प्रतिगमन और विचरण-स्थिरीकरण परिवर्तन प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं।

अन्तर्ज्ञान

साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के रैखिक संयोजन के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के अपेक्षित मूल्य की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।

हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए ऐसी स्थितियों में जहां प्रतिक्रिया चर के सदैव सकारात्मक और विस्तृत श्रृंखला में परिवर्तित होने की अपेक्षा की जाती है वहां निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप द्वारा (अर्थात घातीय रूप से) भिन्नता होती है यद्यपि निरंतर भिन्न होने के आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में न्यूनता से समुद्र तट पर 1,000 कम लोग आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट दर्शक प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति की भविष्यवाणी करेंगे। इसके स्थान पर एक अधिक यथार्थवादी मॉडल शुद्ध रूप से बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर का अनुमान लगाएगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री के पतन से उपस्थिति में कमी आती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है) या लॉग-लीनियर मॉडल कहा जाता है।

इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी व्यक्ति के समुद्र तट पर तापमान के फलन के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि तापमान में 10 डिग्री के परिवर्तन से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। किन्तु संभाव्यता की स्थिति में "दोगुनी संभावना" का क्या अर्थ है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता। (उदाहरण के लिए 50% का 100% तथा 75% का 150% हो जाता है।) अपितु, यह अनुपात है जो 2:1 अनुपात से, 4:1 अनुपात से, 8:1 अनुपात दोगुना हो रहा है। ऐसा मॉडल लॉग-अनुपात या लॉजिस्टिक रिग्रेशन मॉडल है।

सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर आच्छादित करते हैं, जिसमें यादृच्छिक वितरण होता है (सामान्य वितरण के स्थान पर) और प्रतिक्रिया चर के एक यादृच्छिक कार्य के लिए (संबंध फलन) प्राग्सूचक के साथ रैखिक रूप से भिन्न होता है (यह कल्पना करने स्थान पर कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या की उपर्युक्त स्थिति को विशिष्ट रूप से पॉइसन वितरण और एक लॉग फलन के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना की स्थिति को सामान्यतः बर्नौली वितरण (या द्विपद वितरण, इस बात पर निर्भर करता है कि वास्तव में समस्या को कैसे व्यक्त किया गया है) और एक लॉग-अनुपात (या लॉगिट) संबंध फलन के साथ तैयार किया जाएगा।

सिंहावलोकन

सामान्यीकृत रैखिक मॉडल (जीएलएम) में आश्रित चर के प्रत्येक परिणाम Y को एक घातीय समूह में एक विशेष वितरण से जनित माना जाता है एवं प्रायिकता वितरण का एक बड़ा वर्ग माना जाता है जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से:

जहां E(Y|X) X पर सशर्त Y का अपेक्षित मान है; Xβ रैखिक प्राग्सूचक है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; g संबंध फलन है।

सामान्यतः इस संरचना में प्रसरण माध्य का एक कार्य V होता है:

यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है।

सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम अर्ध-संभावना या बायेसियन तकनीकों के साथ अनुमानित हैं।

मॉडल घटक

जीएलएम में तीन तत्व होते हैं:

1. मॉडलिंग के लिए उनमें से एक विशेष वितरण जिन्हें संभाव्यता वितरण के घातीय परिवार माना जाता है,
2. एक रैखिक प्राग्सूचक , और
3. एक शृंखला बंध फलन ऐसा है कि .

प्रायिकता वितरण

वितरणों का विस्तारित एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें और द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है

सामान्यतः परिक्षेपण पैरामीटर ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य , , , और ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित अनेक सामान्य वितरण हैं।

यह अदिश और के लिए( इस स्थिति में और को किया गया है) कम हो जाता है

वितरण के माध्य से संबंधित है। अगर तत्समक फलन है, तो वितरण को विहित रूप (या प्राकृतिक रूप) में कहा जाता है। ध्यान दें कि किसी भी वितरण को के रूप में पुनर्लेखन और पुनः रूपांतरण अनप्रयुक्‍त करके विहित रूप में परिवर्तित किया जा सकता है। को नए पैरामीट्रिजेशन के संदर्भ में परिवर्तित करना हमेशा संभव होता है, यद्यपि एकैक फलन नहीं है; घातीय परिवारों पर पृष्ठ में टिप्पणियाँ देखें। यदि, इसके अतिरिक्त तत्समक और ज्ञात है, तो को विहित पैरामीटर (या प्राकृतिक पैरामीटर) कहा जाता है और माध्य से संबंधित होता है।

यह अदिश और के लिए कम हो जाता है

इस परिदृश्य के अंतर्गत वितरण के प्रसरण को प्रदर्शित किया जा सकता है[2]

यह अदिश और के लिए कम हो जाता है


रैखिक प्राग्सूचक

रैखिक प्राग्सूचक वह मात्रा है जो मॉडल में स्वतंत्र चर के विषय में सूचना सम्मिलित करती है। प्रतीक η (ग्रीक वर्णमाला ईटीए(अक्षर)) एक रेखीय प्राग्सूचक को दर्शाता है। यह संबंध फलन के माध्यम से डेटा के अपेक्षित मान से संबंधित है।

η को अज्ञात पैरामीटर 'β' के रैखिक संयोजनों (इस प्रकार "रैखिक") के रूप में व्यक्त किया जाता है। रैखिक संयोजन के गुणांकों को स्वतंत्र चर 'X' के आव्यूह के रूप में दर्शाया जाता है। η इस प्रकार व्यक्त किया जा सकता है


संबंध फलन

संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। सदैव स्पष्ट एवं पूर्ण रूप से परिभाषित विहित संबंध जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है, फलन कहलाता है। हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन।

विहित पैरामीटर के साथ वितरण फलन का उपयोग करते समय विहित संबंध फलन वह फलन है जो , के संदर्भ में को व्यक्त करता है अर्थात । अधिकतर सामान्य वितरणों हेतु माध्य वितरण के घनत्व फलन के मानक रूप के मापदंडों में से एक है और इसके पश्चात वह फ़ंक्शन है जो घनत्व फलन को उसके विहित रूप में योजित करता है, जैसा कि ऊपर परिभाषित किया गया है। विहित संबंध फलन , का उपयोग करते समय जो को के लिए पर्याप्त आंकड़ा होने की अनुमति देता है।

सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)।

विशिष्ट उपयोगों और विहित संबंध कार्यों के साथ सामान्य वितरण
वितरण वितरण सहायता विशिष्ट उपयोग लिंक नाम संबंध फलन, माध्य फलन
सामान्य वास्तविक: रैखिक-प्रतिक्रिया तथ्य तत्समक
घातीय वास्तविक: घातीय-प्रतिक्रिया तथ्य, स्केल पैरामीटर नकारात्मक व्युत्क्रमण
गामा
गाउसी

व्युत्क्रमण

वास्तविक: व्युत्क्रमण
वर्ग
प्वासों पूर्णांक: समय/स्थान की निश्चित मात्रा में घटनाओं की गणना लॉग
बर्नूली पूर्णांक: एकल घटना का परिणाम हाँ/नहीं लॉगआईटी
द्विपद पूर्णांक: N घटनाओं में से हां/नहीं में "हां" की घटनाओं की गणना
श्रेणीकृत पूर्णांक: एकल घटना के-पथ का परिणाम
पूर्णांक का K-वेक्टर: , जहां वेक्टर में ठीक एक तत्व का मान 1 है
बहुपदी पूर्णांक का K-वेक्टर: के-वे घटनाओं में से विभिन्न प्रकार (1 .. के) की कुल N घटनाओं की संख्या

घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है।

बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं,अर्थात वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या बहुराष्ट्रीय रसद प्रतिगमन के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।

बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, यद्यपि एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना अधिक होगी। इसी तरह द्विपद वितरण में, अपेक्षित मान एनपी है, अर्थात "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।

श्रेणीबद्ध और बहुपदी वितरण के लिए, भविष्यवाणी की जाने वाली पैरामीटर संभावनाओं का एक के-वेक्टर है, जिसमें आगे प्रतिबंध है कि सभी संभावनाओं को 1 तक जोड़ना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।

अन्वायोजन

अधिकतम संभाविता

प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है:

जहाँ अवलोकित सूचना आव्यूह (हेसियन आव्यूह नकारात्मक) है और स्कोर फलन (सांख्यिकी) या फ़िशर की स्कोरिंग विधि है:

जहाँ फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं।

बायेसियन तरीके

सामान्यतः पश्च वितरण संवृत रूप में नहीं पाया जा सकता है और इसलिए इसे सामान्यतः लाप्लास सन्निकटन या कुछ प्रकार की मार्कोव श्रृंखला मोंटे कार्लो विधि जैसे गिब्स प्रतिचयन का उपयोग करके अनुमानित किया जाना चाहिए।

उदाहरण

सामान्य रैखिक मॉडल

संभ्रम का एक संभावित बिंदु सामान्यीकृत रैखिक मॉडल और सामान्य रैखिक मॉडल, दो व्यापक सांख्यिकीय मॉडल के बीच अंतर के साथ करना है। सह-प्रवर्तक जॉन नेल्डर ने इस शब्दावली पर खेद व्यक्त किया है।[3]

सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।

रेखीय प्रतिगमन

सामान्यीकृत रैखिक मॉडल का एक सरल अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रेखीय प्रतिगमन है। रेखीय प्रतिगमन में गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है, जो यह नहीं मानता है कि वितरण सामान्य है।

यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।

सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।

बाइनरी डेटा

जब प्रतिक्रिया डेटा Y बाइनरी होते हैं (केवल मान 0 और 1 लेते हैं), तो वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और μi की व्याख्या तब Yi की प्रायिकता, p मान एक पर ले जाती है।

द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।

लॉगिट संबंध फलन

सबसे विशिष्ट संबंध फलन विहित लॉगिट संबंध है:

इस व्यवस्था के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं।

प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन

वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर हैं। सामान्य सीडीएफ एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है। इसके संबंध है

प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित पूर्व वितरण को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है, जबकि एक लॉगिट मॉडल सामान्यतः नहीं।)

समपूरक लॉग-लॉग (सी लॉग-लॉग)

समपूरक लॉग-लॉग फलन का भी उपयोग किया जा सकता है:

यह संबंध फलन असममित है और प्रायः लॉगिट और प्रोबिट संबंध फलन से भिन्न परिणाम देगा।[4] सी लॉग-लॉग मॉडल उन अनुप्रयोगों के अनुरूप होता है जहां हम या तो शून्य परिघटनाओं (जैसे, त्रुटि) या एक या अधिक का निरीक्षण करते हैं, जहां पॉसों वितरण का पालन करने के लिए परिघटनाओं की संख्या मान ली जाती है।[5] पॉसों अवधारणा का अर्थ है कि

जहां μ एक सकारात्मक संख्या है जो परिघटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक परिघटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका समपूरक

और तब

एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ धनात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रेखीय मॉडल बना सकते हैं। यह "सी लॉग-लॉग" परिवर्तन उत्पन्न करता है


तत्समक संबंध

तत्समक संबंध g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए रेखीय संभावना मॉडल प्राप्त करने के लिए भी किया जाता है। यद्यपि, तत्समक संबंध शून्य से कम या एक से अधिक निरर्थक "संभावनाओं" का प्रागुक्त कर सकता है। इसे सी लॉग-लॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फलन) जैसे परिवर्तन का उपयोग करके परिहार किया जा सकता है। तत्समक संबंध का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन  पी = 0.5 के निकट तत्समक संबंध से प्रायः रैखिक अनुकूल होते हैं।

प्रसरण फलन

"अर्ध द्विपद" डेटा के लिए प्रसरण फलन है:

जहां वितरण मापदण्ड τ द्विपद वितरण के लिए यथार्थतः 1 है। वास्तव में, मानक द्विपद संभावना τ विलोपित कर देती है। इसकी उपस्थिति में, मॉडल को "अर्ध द्विपद" कहा जाता है, और संशोधित संभावना को अर्ध -संभावना कहा जाता है, क्योंकि यह सामान्यतः संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ1 से अधिक है, तो मॉडल अतिवितरण प्रदर्शित करता है।

बहुपद प्रतिगमन

प्रतिक्रिया के रूप में एक बहुपदि वितरण की अनुमति देने के लिए द्विपद स्थिति को सरलता से बढ़ाया जा सकता है (साथ ही, सीमित कुल के साथ गणना के लिए एक सामान्यीकृत रैखिक मॉडल)। यह प्रायः दो तरीकों से किया जाता है:

क्रमित प्रतिक्रिया

यदि प्रतिक्रिया चर क्रमिक है, तो मॉडल फलन को इस प्रारूप में रखा जा सकता है:

m > 2 के लिए। विभिन्न संबंध g क्रमिक प्रतिगमन की ओर ले जाते हैं जैसे आनुपातिक ऑड्स मॉडल या क्रमित प्रोबिट मॉडल।

अक्रमित प्रतिक्रिया

यदि प्रतिक्रिया चर एक नाममात्र माप है, या डेटा एक क्रमित मॉडल की धारणाओं को पूरा नहीं करता है, तो निम्न प्रारूप का एक मॉडल उपयुक्त हो सकता है:

m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य और पैरामीटर अनुमानित हैं।

डेटा गणना

सामान्यीकृत रेखीय मॉडलों के एक अन्य उदाहरण में पॉसों प्रतिगमन सम्मिलित है, जो पॉसों वितरण का उपयोग करके डेटा गणना का प्रतिरूपण करते हैं। संबंध विशेष रूप से लघुगणक, विहित संबंध है। विचरण फलन माध्य के समानुपाती होता है

जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। इसके ना होने पर परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों के रूप में वर्णित किया जाता है ।

विस्तारण (एक्सटेंशन)

सहसंबद्ध या संकुल डेटा

मानक जीएलएम मानता है कि अवलोकन असंबद्ध हैं। अवलोकनों के बीच सहसंबंध की अनुमति देने के लिए एक्सटेंशन विकसित किए गए हैं, उदाहरण के लिए अनुदैर्ध्य अध्ययन और गुच्छ अभिकल्पनाओं में होता है:

  • सामान्यीकृत अनुमान समीकरण (जीईई) सहसंबंधों की उत्पत्ति के लिए एक स्पष्ट संभाव्यता मॉडल के उपयोग के बिना टिप्पणियों के बीच सहसंबंध की अनुमति देते हैं, इसलिए कोई स्पष्ट संभावना नहीं है। वे तब उपयुक्त होते हैं जब यादृच्छिक प्रभाव और उनके प्रसरण अंतर्निहित रुचि के नहीं होते हैं, क्योंकि वे इसकी उत्पत्ति की व्याख्या किए बिना सहसंबंध की अनुमति देते हैं। प्रतिगमन मापदंडों के बजाय जनसंख्या पर औसत प्रतिक्रिया ("जनसंख्या-औसत" प्रभाव) का अनुमान लगाने पर ध्यान केंद्रित किया गया है जो किसी वैयक्तिक पर एक्स के एक या अधिक घटकों को परिवर्तन करने के प्रभाव की प्रागुक्ति को सक्षम करेगा। जीईई का उपयोग प्रायः ह्यूबर-व्हाइट मानक त्रुटियों के संयोजन में किया जाता है।[6][7]
  • [[सामान्यीकृत रैखिक मिश्रित मॉडल]] जीएलएम का एक विस्तार है जिसमें रैखिक पूर्वसूचक में अनियमित प्रभाव सम्मिलित हैं जो स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों  के परिवर्तन के प्रभाव का आकलन करने पर होता केंद्रित होता है। जीएलएमएम को बहुस्तरीय मॉडल और मिश्रित मॉडल भी कहा जाता है। सामान्यतः जीएलएमएम को फिट करना जीईई को फिट करने की तुलना में अभिकलनात्मक रूप से अधिक जटिल और गहन है।

सामान्यीकृत योगात्मक मॉडल

सामान्यीकृत योगात्मक मॉडल (जीएएम) जीएलएम का एक और विस्तार है जिसमें रैखिक प्राग्वक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन xis पर प्रयुक्त मसृणकारी फलन का योग है:

मसृणकारी फलन fi का अनुमान डेटा से लगाया जाता है। सामान्यतः इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह अभिकलनीयतः गहन है।[8]

यह भी देखें

संदर्भ

उद्धरण

  1. Nelder, John; Wedderburn, Robert (1972). "सामान्यीकृत रैखिक मॉडल". Journal of the Royal Statistical Society. Series A (General). Blackwell Publishing. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.
  2. McCullagh & Nelder 1989, Chapter 2.
  3. Senn, Stephen (2003). "जॉन नेल्डर के साथ बातचीत". Statistical Science. 18 (1): 118–131. doi:10.1214/ss/1056397489. मुझे संदेह है कि हमें इसके लिए कुछ और फैंसी नाम मिलना चाहिए था जो अटक गया होगा और सामान्य रैखिक मॉडल के साथ भ्रमित नहीं होगा, हालांकि सामान्य और सामान्यीकृत काफी समान नहीं हैं। मैं देख सकता हूं कि क्यों कुछ और सोचना बेहतर होता।
  4. "Complementary Log-log Model" (PDF).
  5. "Which Link Function — Logit, Probit, or Cloglog?". Bayesium Analytics (in English). 2015-08-14. Retrieved 2019-03-17.
  6. Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). "Models for Longitudinal Data: A Generalized Estimating Equation Approach". Biometrics. International Biometric Society. 44 (4): 1049–1060. doi:10.2307/2531734. JSTOR 2531734. PMID 3233245.
  7. Hardin, James; Hilbe, Joseph (2003). सामान्यीकृत अनुमान समीकरण. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3.
  8. Wood 2006.


ग्रन्थसूची


अग्रिम पठन


बाहरी संबंध