सामान्यीकृत रैखिक मॉडल: Difference between revisions
No edit summary |
No edit summary |
||
(34 intermediate revisions by 3 users not shown) | |||
Line 2: | Line 2: | ||
{{Regression bar}} | {{Regression bar}} | ||
सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण [[रेखीय प्रतिगमन]] का एक नमन्शील | सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण [[रेखीय प्रतिगमन]] का एक नमन्शील सामान्यीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है। | ||
[[जॉन नेल्डर]] और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।<ref>{{cite journal | last1= Nelder | first1 = John |author-link = John Nelder | first2 = Robert |last2 = Wedderburn | s2cid = 14154576 |author-link2 = Robert Wedderburn (statistician) | title = सामान्यीकृत रैखिक मॉडल| year=1972 | journal = Journal of the Royal Statistical Society. Series A (General) | volume= 135 |issue=3 | pages=370–384 | doi= 10.2307/2344614 | publisher= Blackwell Publishing | jstor= 2344614 }}</ref> उन्होंने मॉडल मापदंडों के [[अधिकतम संभावना अनुमान|अधिकतम संभाविता आकलन]] (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन | [[जॉन नेल्डर]] और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।<ref>{{cite journal | last1= Nelder | first1 = John |author-link = John Nelder | first2 = Robert |last2 = Wedderburn | s2cid = 14154576 |author-link2 = Robert Wedderburn (statistician) | title = सामान्यीकृत रैखिक मॉडल| year=1972 | journal = Journal of the Royal Statistical Society. Series A (General) | volume= 135 |issue=3 | pages=370–384 | doi= 10.2307/2344614 | publisher= Blackwell Publishing | jstor= 2344614 }}</ref>उन्होंने मॉडल मापदंडों के [[अधिकतम संभावना अनुमान|अधिकतम संभाविता आकलन]] (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संवेष्टन (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। [[बायेसियन प्रतिगमन]] और [[विचरण-स्थिरीकरण परिवर्तन]] प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं। | ||
== अन्तर्ज्ञान == | == अन्तर्ज्ञान == | ||
साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के [[रैखिक संयोजन]] के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के [[अपेक्षित मूल्य]] की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है। | साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के [[रैखिक संयोजन]] के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के [[अपेक्षित मूल्य]] की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है। | ||
हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए | हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए ऐसी स्थितियों में जहां प्रतिक्रिया चर के सदैव सकारात्मक और विस्तृत श्रृंखला में परिवर्तित होने की अपेक्षा की जाती है वहां निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप द्वारा (अर्थात घातीय रूप से) भिन्नता होती है यद्यपि निरंतर भिन्न होने के आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में न्यूनता से समुद्र तट पर 1,000 कम [[logit|लोग]] आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट दर्शक प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति की भविष्यवाणी करेंगे। इसके स्थान पर एक अधिक यथार्थवादी मॉडल शुद्ध रूप से बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर का अनुमान लगाएगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री के पतन से उपस्थिति में कमी आती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है) या [[लॉग-लीनियर मॉडल]] कहा जाता है। | ||
इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी | इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी व्यक्ति के समुद्र तट पर तापमान के फलन के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि तापमान में 10 डिग्री के परिवर्तन से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। किन्तु संभाव्यता की स्थिति में "दोगुनी संभावना" का क्या अर्थ है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता। (उदाहरण के लिए 50% का 100% तथा 75% का 150% हो जाता है।) अपितु, यह अनुपात है जो 2:1 अनुपात से, 4:1 अनुपात से, 8:1 अनुपात दोगुना हो रहा है। ऐसा मॉडल लॉग-अनुपात या लॉजिस्टिक रिग्रेशन मॉडल है। | ||
सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर | सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर आच्छादित करते हैं, जिसमें यादृच्छिक वितरण होता है ([[सामान्य वितरण]] के स्थान पर) और प्रतिक्रिया चर के एक यादृच्छिक कार्य के लिए (संबंध फलन) प्राग्सूचक के साथ रैखिक रूप से भिन्न होता है (यह कल्पना करने स्थान पर कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या की उपर्युक्त स्थिति को विशिष्ट रूप से पॉइसन वितरण और एक लॉग फलन के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना की स्थिति को सामान्यतः बर्नौली वितरण (या [[द्विपद वितरण]], इस बात पर निर्भर करता है कि वास्तव में समस्या को कैसे व्यक्त किया गया है) और एक लॉग-अनुपात (या लॉगिट) संबंध फलन के साथ तैयार किया जाएगा। | ||
== सिंहावलोकन == | == सिंहावलोकन == | ||
सामान्यीकृत रैखिक मॉडल (जीएलएम) में आश्रित चर के प्रत्येक परिणाम '''Y''' को एक [[घातीय परिवार|घातीय समूह]] में एक विशेष [[संभाव्यता वितरण|वितरण]] से जनित माना जाता है एवं [[प्रायिकता वितरण]] का एक बड़ा वर्ग माना जाता है जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से: | |||
: <math>\operatorname{E}(\mathbf{Y}|\mathbf{X}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta}) </math> | : <math>\operatorname{E}(\mathbf{Y}|\mathbf{X}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta}) </math> | ||
जहां E(Y|X) X पर [[सशर्त अपेक्षा|सशर्त]] Y का अपेक्षित मान है; X''β'' ''रैखिक प्राग्सूचक'' है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; ''g'' संबंध फलन है। | जहां E(Y|X) X पर [[सशर्त अपेक्षा|सशर्त]] Y का अपेक्षित मान है; X''β'' ''रैखिक प्राग्सूचक'' है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; ''g'' संबंध फलन है। | ||
इस संरचना में प्रसरण | सामान्यतः इस संरचना में प्रसरण माध्य का एक कार्य V होता है: | ||
:<math> \operatorname{Var}(\mathbf{Y}|\mathbf{X}) = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})). </math> | :<math> \operatorname{Var}(\mathbf{Y}|\mathbf{X}) = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})). </math> | ||
यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है। | |||
सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम [[अर्ध-संभावना]] या बायेसियन तकनीकों के साथ | सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम [[अर्ध-संभावना]] या बायेसियन तकनीकों के साथ अनुमानित हैं। | ||
== मॉडल घटक == | == मॉडल घटक == | ||
Line 37: | Line 37: | ||
=== प्रायिकता वितरण === | === प्रायिकता वितरण === | ||
वितरणों का विस्तारित एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें <math>\boldsymbol\theta</math> और <math>\tau</math> द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है | |||
:<math> f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). \,\!</math> | :<math> f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). \,\!</math> | ||
सामान्यतः परिक्षेपण पैरामीटर <math>\tau</math> | सामान्यतः परिक्षेपण पैरामीटर <math>\tau</math> ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य <math>h(\mathbf{y},\tau)</math>, <math>\mathbf{b}(\boldsymbol\theta)</math>, <math>\mathbf{T}(\mathbf{y})</math>, <math>A(\boldsymbol\theta)</math> और <math>d(\tau)</math> ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित अनेक सामान्य वितरण हैं। | ||
यह अदिश <math>\mathbf{y}</math> और <math>\boldsymbol\theta</math> | यह अदिश <math>\mathbf{y}</math> और <math>\boldsymbol\theta</math> के लिए( इस स्थिति में <math>y</math> और <math>\theta</math> को किया गया है) कम हो जाता है | ||
: <math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right). \,\!</math> | : <math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right). \,\!</math> | ||
Line 63: | Line 63: | ||
=== | === '''संबंध फलन''' === | ||
संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। | संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। सदैव स्पष्ट एवं पूर्ण रूप से परिभाषित विहित संबंध जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है, फलन कहलाता है। हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन। | ||
विहित पैरामीटर <math>\theta</math> के साथ वितरण फलन का उपयोग करते समय विहित संबंध फलन वह फलन है जो <math>\mu</math>, के संदर्भ में <math>\theta</math> को व्यक्त करता है अर्थात <math>\theta = b(\mu)</math>। अधिकतर सामान्य वितरणों हेतु माध्य <math>\mu</math> वितरण के घनत्व फलन के मानक रूप के मापदंडों में से एक है और इसके पश्चात <math>b(\mu)</math> वह फ़ंक्शन है जो घनत्व फलन को उसके विहित रूप में योजित करता है, जैसा कि ऊपर परिभाषित किया गया है। विहित संबंध फलन <math>b(\mu) = \theta = \mathbf{X}\boldsymbol{\beta}</math>, का उपयोग करते समय जो <math>\mathbf{X}^{\rm T} \mathbf{Y}</math> को <math>\boldsymbol{\beta}</math> के लिए पर्याप्त आंकड़ा होने की अनुमति देता है। | |||
सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित | सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)। | ||
{| class="wikitable" style="background:white;" | {| class="wikitable" style="background:white;" | ||
Line 113: | Line 113: | ||
| पूर्णांक का K-वेक्टर: <math>[0,N]</math> || के-वे घटनाओं में से विभिन्न प्रकार (1 .. के) की कुल N घटनाओं की संख्या | | पूर्णांक का K-वेक्टर: <math>[0,N]</math> || के-वे घटनाओं में से विभिन्न प्रकार (1 .. के) की कुल N घटनाओं की संख्या | ||
|} | |} | ||
घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है। | |||
बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के | बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं,अर्थात वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या [[ बहुराष्ट्रीय रसद प्रतिगमन |बहुराष्ट्रीय रसद प्रतिगमन]] के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)। | ||
बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, यद्यपि एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना अधिक होगी। इसी तरह द्विपद वितरण में, अपेक्षित मान एनपी है, अर्थात "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी। | |||
श्रेणीबद्ध और | श्रेणीबद्ध और बहुपदी वितरण के लिए, भविष्यवाणी की जाने वाली पैरामीटर संभावनाओं का एक के-वेक्टर है, जिसमें आगे प्रतिबंध है कि सभी संभावनाओं को 1 तक जोड़ना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है। | ||
== | == अन्वायोजन == | ||
=== अधिकतम | === अधिकतम संभाविता === | ||
प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है: | |||
: <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{J}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math> | : <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{J}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math> | ||
जहाँ <math>\mathcal{J}(\boldsymbol\beta^{(t)})</math>अवलोकित सूचना आव्यूह ([[हेसियन मैट्रिक्स|हेसियन आव्यूह]] नकारात्मक) है और <math>u(\boldsymbol\beta^{(t)})</math> [[स्कोर (सांख्यिकी)|स्कोर फलन (सांख्यिकी)]] या फ़िशर की स्कोरिंग विधि है: | |||
: <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{I}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math> | : <math> \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{I}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}), </math> | ||
जहाँ <math>\mathcal{I}(\boldsymbol\beta^{(t)})</math> फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं। | |||
=== बायेसियन तरीके === | === बायेसियन तरीके === | ||
सामान्यतः [[पश्च वितरण]] संवृत रूप में नहीं पाया जा सकता है और इसलिए इसे सामान्यतः [[लाप्लास सन्निकटन]] या कुछ प्रकार की [[मार्कोव चेन मोंटे कार्लो|मार्कोव श्रृंखला मोंटे कार्लो]] विधि जैसे [[गिब्स नमूनाकरण|गिब्स प्रतिचयन]] का उपयोग करके अनुमानित किया जाना चाहिए। | |||
== उदाहरण == | == उदाहरण == | ||
=== सामान्य रैखिक मॉडल === | === सामान्य रैखिक मॉडल === | ||
{{Further| | {{Further|सामान्य रैखिक मॉडल}} | ||
संभ्रम का एक संभावित बिंदु सामान्यीकृत रैखिक मॉडल और [[सामान्य रैखिक मॉडल]], दो व्यापक सांख्यिकीय मॉडल के बीच अंतर के साथ करना है। सह-प्रवर्तक जॉन नेल्डर ने इस शब्दावली पर खेद व्यक्त किया है।<ref>{{cite journal |last= Senn|first=Stephen |year=2003 |title=जॉन नेल्डर के साथ बातचीत|journal=Statistical Science |volume=18 |issue=1 |pages=118–131 |doi=10.1214/ss/1056397489|quote=मुझे संदेह है कि हमें इसके लिए कुछ और फैंसी नाम मिलना चाहिए था जो अटक गया होगा और सामान्य रैखिक मॉडल के साथ भ्रमित नहीं होगा, हालांकि सामान्य और सामान्यीकृत काफी समान नहीं हैं। मैं देख सकता हूं कि क्यों कुछ और सोचना बेहतर होता।|doi-access=free }}</ref> | |||
सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष | |||
सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)। | |||
=== रेखीय प्रतिगमन === | === रेखीय प्रतिगमन === | ||
सामान्यीकृत रैखिक मॉडल का एक सरल | सामान्यीकृत रैखिक मॉडल का एक सरल अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रेखीय प्रतिगमन है। रेखीय प्रतिगमन में गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है, जो यह नहीं मानता है कि वितरण सामान्य है। | ||
यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है। | |||
सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक | सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है। | ||
=== बाइनरी डेटा === | === बाइनरी डेटा === | ||
{{See also|युग्मक प्रतिगमन}} | {{See also|युग्मक प्रतिगमन}} | ||
जब प्रतिक्रिया डेटा | जब प्रतिक्रिया डेटा ''Y'' बाइनरी होते हैं (केवल मान 0 और 1 लेते हैं), तो वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और ''μ''<sub>i</sub> की व्याख्या तब ''Y''<sub>i</sub> की प्रायिकता, p मान एक पर ले जाती है। | ||
द्विपद | द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं। | ||
==== | ==== लॉगिट संबंध फलन ==== | ||
सबसे विशिष्ट संबंध फलन | सबसे विशिष्ट संबंध फलन विहित लॉगिट संबंध है: | ||
:<math>g(p) = \ln \left( { p \over 1-p } \right).</math> | :<math>g(p) = \ln \left( { p \over 1-p } \right).</math> | ||
इस | इस व्यवस्था के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं। | ||
==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में | ==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन ==== | ||
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण | वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर <math>[0,1]</math> हैं। सामान्य सीडीएफ <math>\Phi</math> एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है। इसके संबंध है | ||
:<math>g(p) = \Phi^{-1}(p).\,\!</math> | :<math>g(p) = \Phi^{-1}(p).\,\!</math> | ||
प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य | प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित [[पूर्व वितरण]] को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है, जबकि एक लॉगिट मॉडल सामान्यतः नहीं।) | ||
==== | ==== समपूरक लॉग-लॉग (सी लॉग-लॉग) ==== | ||
समपूरक लॉग-लॉग फलन का भी उपयोग किया जा सकता है: | |||
:<math>g(p) = \log(-\log(1-p)).</math> | :<math>g(p) = \log(-\log(1-p)).</math> | ||
यह संबंध फलन असममित है और | यह संबंध फलन असममित है और प्रायः लॉगिट और प्रोबिट संबंध फलन से भिन्न परिणाम देगा।<ref>{{Cite web|url=http://www.stat.ualberta.ca/~kcarrier/STAT562/comp_log_log.pdf|title=Complementary Log-log Model}}</ref> सी लॉग-लॉग मॉडल उन अनुप्रयोगों के अनुरूप होता है जहां हम या तो शून्य परिघटनाओं (जैसे, त्रुटि) या एक या अधिक का निरीक्षण करते हैं, जहां पॉसों वितरण का पालन करने के लिए परिघटनाओं की संख्या मान ली जाती है।<ref>{{Cite web|url=https://bayesium.com/which-link-function-logit-probit-or-cloglog/|title=Which Link Function — Logit, Probit, or Cloglog?|date=2015-08-14|website=Bayesium Analytics|language=en-US|access-date=2019-03-17}}</ref> पॉसों अवधारणा का अर्थ है कि | ||
:<math>\Pr(0) = \exp(-\mu),</math> | :<math>\Pr(0) = \exp(-\mu),</math> | ||
जहां μ एक सकारात्मक संख्या है जो | जहां μ एक सकारात्मक संख्या है जो परिघटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक परिघटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका समपूरक | ||
:<math>(1-p) = \Pr(0) = \exp(-\mu),</math> | :<math>(1-p) = \Pr(0) = \exp(-\mu),</math> | ||
Line 179: | Line 180: | ||
:<math>(-\log(1-p)) = \mu.</math> | :<math>(-\log(1-p)) = \mu.</math> | ||
एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ | एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ धनात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रेखीय मॉडल बना सकते हैं। यह "सी लॉग-लॉग" परिवर्तन उत्पन्न करता है | ||
:<math>\log(-\log(1-p)) = \log(\mu).</math> | :<math>\log(-\log(1-p)) = \log(\mu).</math> | ||
==== | ==== तत्समक संबंध ==== | ||
तत्समक संबंध g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए रेखीय संभावना मॉडल प्राप्त करने के लिए भी किया जाता है। यद्यपि, तत्समक संबंध शून्य से कम या एक से अधिक निरर्थक "संभावनाओं" का प्रागुक्त कर सकता है। इसे सी लॉग-लॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फलन) जैसे परिवर्तन का उपयोग करके परिहार किया जा सकता है। तत्समक संबंध का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन पी = 0.5 के निकट तत्समक संबंध से प्रायः रैखिक अनुकूल होते हैं। | |||
==== [[विचरण समारोह]] ==== | ==== [[विचरण समारोह|प्रसरण फलन]] ==== | ||
के लिए | "अर्ध द्विपद" डेटा के लिए प्रसरण फलन है: | ||
:<math>\operatorname{Var}(Y_i)= \tau\mu_i (1-\mu_i)\,\!</math> | :<math>\operatorname{Var}(Y_i)= \tau\mu_i (1-\mu_i)\,\!</math> | ||
जहां | जहां वितरण मापदण्ड τ द्विपद वितरण के लिए यथार्थतः 1 है। वास्तव में, मानक द्विपद संभावना τ विलोपित कर देती है। इसकी उपस्थिति में, मॉडल को "अर्ध द्विपद" कहा जाता है, और संशोधित संभावना को अर्ध -संभावना कहा जाता है, क्योंकि यह सामान्यतः संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ1 से अधिक है, तो मॉडल [[अतिफैलाव|अतिवितरण]] प्रदर्शित करता है। | ||
=== बहुपद प्रतिगमन === | === बहुपद प्रतिगमन === | ||
प्रतिक्रिया के रूप में एक | प्रतिक्रिया के रूप में एक बहुपदि वितरण की अनुमति देने के लिए द्विपद स्थिति को सरलता से बढ़ाया जा सकता है (साथ ही, सीमित कुल के साथ गणना के लिए एक सामान्यीकृत रैखिक मॉडल)। यह प्रायः दो तरीकों से किया जाता है: | ||
==== | ==== क्रमित प्रतिक्रिया ==== | ||
यदि प्रतिक्रिया चर [[क्रमिक डेटा]] है, तो | यदि प्रतिक्रिया चर [[क्रमिक डेटा|क्रमिक]] है, तो मॉडल फलन को इस प्रारूप में रखा जा सकता है: | ||
:<math> g(\mu_m) = \eta_m = \beta_0 + X_1 \beta_1 + \cdots + X_p \beta_p + \gamma_2 + \cdots + \gamma_m = \eta_1 + \gamma_2 + \cdots + \gamma_m \text{ where } \mu_m = \operatorname{P}(Y \leq m). \,</math> | :<math> g(\mu_m) = \eta_m = \beta_0 + X_1 \beta_1 + \cdots + X_p \beta_p + \gamma_2 + \cdots + \gamma_m = \eta_1 + \gamma_2 + \cdots + \gamma_m \text{ where } \mu_m = \operatorname{P}(Y \leq m). \,</math> | ||
m > 2 के लिए। | m > 2 के लिए। विभिन्न संबंध g [[क्रमिक प्रतिगमन]] की ओर ले जाते हैं जैसे आनुपातिक ऑड्स मॉडल या क्रमित प्रोबिट मॉडल। | ||
==== | ==== अक्रमित प्रतिक्रिया ==== | ||
यदि प्रतिक्रिया चर माप | यदि प्रतिक्रिया चर एक नाममात्र माप है, या डेटा एक क्रमित मॉडल की धारणाओं को पूरा नहीं करता है, तो निम्न प्रारूप का एक मॉडल उपयुक्त हो सकता है: | ||
:<math> g(\mu_m) = \eta_m = \beta_{m,0} + X_1 \beta_{m,1} + \cdots + X_p \beta_{m,p} \text{ where } \mu_m = \mathrm{P}(Y = m \mid Y \in \{1,m\} ). \,</math> | :<math> g(\mu_m) = \eta_m = \beta_{m,0} + X_1 \beta_{m,1} + \cdots + X_p \beta_{m,p} \text{ where } \mu_m = \mathrm{P}(Y = m \mid Y \in \{1,m\} ). \,</math> | ||
m > 2 के लिए। विभिन्न | m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य और पैरामीटर अनुमानित हैं। | ||
विचरण फलन माध्य के समानुपाती होता है | === [[डेटा गिनें|डेटा गणना]] === | ||
सामान्यीकृत रेखीय मॉडलों के एक अन्य उदाहरण में पॉसों प्रतिगमन सम्मिलित है, जो पॉसों वितरण का उपयोग करके डेटा गणना का प्रतिरूपण करते हैं। संबंध विशेष रूप से लघुगणक, विहित संबंध है। विचरण फलन माध्य के समानुपाती होता है | |||
:<math>\operatorname{var}(Y_i) = \tau\mu_i,\, </math> | :<math>\operatorname{var}(Y_i) = \tau\mu_i,\, </math> | ||
जहां | जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। इसके ना होने पर परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों के रूप में वर्णित किया जाता है । | ||
== विस्तारण (एक्सटेंशन) == | == विस्तारण (एक्सटेंशन) == | ||
=== सहसंबद्ध या संकुल डेटा === | === सहसंबद्ध या संकुल डेटा === | ||
मानक जीएलएम मानता है कि अवलोकन असंबद्ध हैं। अवलोकनों के बीच सहसंबंध की अनुमति देने के लिए एक्सटेंशन विकसित किए गए हैं, उदाहरण के लिए [[अनुदैर्ध्य अध्ययन]] और | मानक जीएलएम मानता है कि अवलोकन असंबद्ध हैं। अवलोकनों के बीच सहसंबंध की अनुमति देने के लिए एक्सटेंशन विकसित किए गए हैं, उदाहरण के लिए [[अनुदैर्ध्य अध्ययन]] और गुच्छ अभिकल्पनाओं में होता है: | ||
* [[सामान्यीकृत अनुमान समीकरण]] (जीईई) सहसंबंधों की उत्पत्ति के लिए स्पष्ट संभाव्यता मॉडल के उपयोग के बिना | * [[सामान्यीकृत अनुमान समीकरण]] (जीईई) सहसंबंधों की उत्पत्ति के लिए एक स्पष्ट संभाव्यता मॉडल के उपयोग के बिना टिप्पणियों के बीच सहसंबंध की अनुमति देते हैं, इसलिए कोई स्पष्ट [[संभावना]] नहीं है। वे तब उपयुक्त होते हैं जब [[यादृच्छिक प्रभाव]] और उनके प्रसरण अंतर्निहित रुचि के नहीं होते हैं, क्योंकि वे इसकी उत्पत्ति की व्याख्या किए बिना सहसंबंध की अनुमति देते हैं। प्रतिगमन मापदंडों के बजाय जनसंख्या पर औसत प्रतिक्रिया ("जनसंख्या-औसत" प्रभाव) का अनुमान लगाने पर ध्यान केंद्रित किया गया है जो किसी वैयक्तिक पर एक्स के एक या अधिक घटकों को परिवर्तन करने के प्रभाव की प्रागुक्ति को सक्षम करेगा। जीईई का उपयोग प्रायः ह्यूबर-व्हाइट मानक त्रुटियों के संयोजन में किया जाता है।<ref>{{cite journal | ||
|title = Models for Longitudinal Data: A Generalized Estimating Equation Approach |first1 = Scott L. |last1 = Zeger |last2 = Liang |first2 = Kung-Yee |last3 = Albert |first3 = Paul S. |journal = Biometrics |volume = 44 |year = 1988 |pages = 1049–1060 |issue = 4 | |title = Models for Longitudinal Data: A Generalized Estimating Equation Approach |first1 = Scott L. |last1 = Zeger |last2 = Liang |first2 = Kung-Yee |last3 = Albert |first3 = Paul S. |journal = Biometrics |volume = 44 |year = 1988 |pages = 1049–1060 |issue = 4 | ||
|doi = 10.2307/2531734 | |doi = 10.2307/2531734 | ||
Line 227: | Line 226: | ||
|jstor = 2531734 | |jstor = 2531734 | ||
}}</ref><ref>{{cite book |last1 = Hardin |first1 = James |last2 = Hilbe |first2 = Joseph |author2-link = Joseph Hilbe |title = सामान्यीकृत अनुमान समीकरण|url = https://archive.org/details/generalizedestim0000hard |url-access = registration |location = London, England |publisher = Chapman and Hall/CRC |year = 2003 |isbn = 1-58488-307-3 }}</ref> | }}</ref><ref>{{cite book |last1 = Hardin |first1 = James |last2 = Hilbe |first2 = Joseph |author2-link = Joseph Hilbe |title = सामान्यीकृत अनुमान समीकरण|url = https://archive.org/details/generalizedestim0000hard |url-access = registration |location = London, England |publisher = Chapman and Hall/CRC |year = 2003 |isbn = 1-58488-307-3 }}</ref> | ||
* [[सामान्यीकृत रैखिक [[मिश्रित मॉडल]]]] | * [[सामान्यीकृत रैखिक [[मिश्रित मॉडल]]]] जीएलएम का एक विस्तार है जिसमें रैखिक पूर्वसूचक में अनियमित प्रभाव सम्मिलित हैं जो स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों के परिवर्तन के प्रभाव का आकलन करने पर होता केंद्रित होता है। जीएलएमएम को [[बहुस्तरीय मॉडल]] और मिश्रित मॉडल भी कहा जाता है। सामान्यतः जीएलएमएम को फिट करना जीईई को फिट करने की तुलना में अभिकलनात्मक रूप से अधिक जटिल और गहन है। | ||
=== [[सामान्यीकृत योगात्मक मॉडल]] === | === [[सामान्यीकृत योगात्मक मॉडल]] === | ||
सामान्यीकृत योगात्मक मॉडल ( | सामान्यीकृत योगात्मक मॉडल (जीएएम) जीएलएम का एक और विस्तार है जिसमें रैखिक प्राग्वक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन ''x<sub>i</sub>''s पर प्रयुक्त मसृणकारी फलन का योग है: | ||
: <math>\eta = \beta_0 + f_1(x_1) + f_2(x_2) + \cdots \,\!</math> | : <math>\eta = \beta_0 + f_1(x_1) + f_2(x_2) + \cdots \,\!</math> | ||
मसृणकारी फलन f<sub>i</sub> का अनुमान डेटा से लगाया जाता है। सामान्यतः इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह अभिकलनीयतः गहन है।{{sfn|Wood|2006}} | |||
== यह भी देखें == | == यह भी देखें == | ||
Line 273: | Line 272: | ||
{{Authority control}} | {{Authority control}} | ||
{{DEFAULTSORT:Generalized Linear Model}} | {{DEFAULTSORT:Generalized Linear Model}} | ||
[[Category: | [[Category:Articles with hatnote templates targeting a nonexistent page|Generalized Linear Model]] | ||
[[Category:Created On 21/03/2023]] | [[Category:CS1 English-language sources (en)]] | ||
[[Category:Created On 21/03/2023|Generalized Linear Model]] | |||
[[Category:Lua-based templates|Generalized Linear Model]] | |||
[[Category:Machine Translated Page|Generalized Linear Model]] | |||
[[Category:Pages with empty portal template|Generalized Linear Model]] | |||
[[Category:Pages with script errors|Generalized Linear Model]] | |||
[[Category:Portal-inline template with redlinked portals|Generalized Linear Model]] | |||
[[Category:Templates Vigyan Ready|Generalized Linear Model]] | |||
[[Category:Templates that add a tracking category|Generalized Linear Model]] | |||
[[Category:Templates that generate short descriptions|Generalized Linear Model]] | |||
[[Category:Templates using TemplateData|Generalized Linear Model]] | |||
[[Category:जिवानांकिकी|Generalized Linear Model]] | |||
[[Category:प्रतिगमन मॉडल|Generalized Linear Model]] | |||
[[Category:सामान्यीकृत रैखिक मॉडल| सामान्यीकृत रैखिक मॉडल ]] |
Latest revision as of 16:46, 26 April 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण रेखीय प्रतिगमन का एक नमन्शील सामान्यीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है।
जॉन नेल्डर और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।[1]उन्होंने मॉडल मापदंडों के अधिकतम संभाविता आकलन (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संवेष्टन (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। बायेसियन प्रतिगमन और विचरण-स्थिरीकरण परिवर्तन प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं।
अन्तर्ज्ञान
साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के रैखिक संयोजन के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के अपेक्षित मूल्य की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।
हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए ऐसी स्थितियों में जहां प्रतिक्रिया चर के सदैव सकारात्मक और विस्तृत श्रृंखला में परिवर्तित होने की अपेक्षा की जाती है वहां निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप द्वारा (अर्थात घातीय रूप से) भिन्नता होती है यद्यपि निरंतर भिन्न होने के आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में न्यूनता से समुद्र तट पर 1,000 कम लोग आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट दर्शक प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति की भविष्यवाणी करेंगे। इसके स्थान पर एक अधिक यथार्थवादी मॉडल शुद्ध रूप से बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर का अनुमान लगाएगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री के पतन से उपस्थिति में कमी आती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है) या लॉग-लीनियर मॉडल कहा जाता है।
इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी व्यक्ति के समुद्र तट पर तापमान के फलन के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि तापमान में 10 डिग्री के परिवर्तन से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। किन्तु संभाव्यता की स्थिति में "दोगुनी संभावना" का क्या अर्थ है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता। (उदाहरण के लिए 50% का 100% तथा 75% का 150% हो जाता है।) अपितु, यह अनुपात है जो 2:1 अनुपात से, 4:1 अनुपात से, 8:1 अनुपात दोगुना हो रहा है। ऐसा मॉडल लॉग-अनुपात या लॉजिस्टिक रिग्रेशन मॉडल है।
सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर आच्छादित करते हैं, जिसमें यादृच्छिक वितरण होता है (सामान्य वितरण के स्थान पर) और प्रतिक्रिया चर के एक यादृच्छिक कार्य के लिए (संबंध फलन) प्राग्सूचक के साथ रैखिक रूप से भिन्न होता है (यह कल्पना करने स्थान पर कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या की उपर्युक्त स्थिति को विशिष्ट रूप से पॉइसन वितरण और एक लॉग फलन के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना की स्थिति को सामान्यतः बर्नौली वितरण (या द्विपद वितरण, इस बात पर निर्भर करता है कि वास्तव में समस्या को कैसे व्यक्त किया गया है) और एक लॉग-अनुपात (या लॉगिट) संबंध फलन के साथ तैयार किया जाएगा।
सिंहावलोकन
सामान्यीकृत रैखिक मॉडल (जीएलएम) में आश्रित चर के प्रत्येक परिणाम Y को एक घातीय समूह में एक विशेष वितरण से जनित माना जाता है एवं प्रायिकता वितरण का एक बड़ा वर्ग माना जाता है जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से:
जहां E(Y|X) X पर सशर्त Y का अपेक्षित मान है; Xβ रैखिक प्राग्सूचक है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; g संबंध फलन है।
सामान्यतः इस संरचना में प्रसरण माध्य का एक कार्य V होता है:
यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है।
सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम अर्ध-संभावना या बायेसियन तकनीकों के साथ अनुमानित हैं।
मॉडल घटक
जीएलएम में तीन तत्व होते हैं:
- 1. मॉडलिंग के लिए उनमें से एक विशेष वितरण जिन्हें संभाव्यता वितरण के घातीय परिवार माना जाता है,
- 2. एक रैखिक प्राग्सूचक , और
- 3. एक शृंखला बंध फलन ऐसा है कि .
प्रायिकता वितरण
वितरणों का विस्तारित एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें और द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है
सामान्यतः परिक्षेपण पैरामीटर ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य , , , और ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित अनेक सामान्य वितरण हैं।
यह अदिश और के लिए( इस स्थिति में और को किया गया है) कम हो जाता है
वितरण के माध्य से संबंधित है। अगर तत्समक फलन है, तो वितरण को विहित रूप (या प्राकृतिक रूप) में कहा जाता है। ध्यान दें कि किसी भी वितरण को के रूप में पुनर्लेखन और पुनः रूपांतरण अनप्रयुक्त करके विहित रूप में परिवर्तित किया जा सकता है। को नए पैरामीट्रिजेशन के संदर्भ में परिवर्तित करना हमेशा संभव होता है, यद्यपि एकैक फलन नहीं है; घातीय परिवारों पर पृष्ठ में टिप्पणियाँ देखें। यदि, इसके अतिरिक्त तत्समक और ज्ञात है, तो को विहित पैरामीटर (या प्राकृतिक पैरामीटर) कहा जाता है और माध्य से संबंधित होता है।
यह अदिश और के लिए कम हो जाता है
इस परिदृश्य के अंतर्गत वितरण के प्रसरण को प्रदर्शित किया जा सकता है[2]
यह अदिश और के लिए कम हो जाता है
रैखिक प्राग्सूचक
रैखिक प्राग्सूचक वह मात्रा है जो मॉडल में स्वतंत्र चर के विषय में सूचना सम्मिलित करती है। प्रतीक η (ग्रीक वर्णमाला ईटीए(अक्षर)) एक रेखीय प्राग्सूचक को दर्शाता है। यह संबंध फलन के माध्यम से डेटा के अपेक्षित मान से संबंधित है।
η को अज्ञात पैरामीटर 'β' के रैखिक संयोजनों (इस प्रकार "रैखिक") के रूप में व्यक्त किया जाता है। रैखिक संयोजन के गुणांकों को स्वतंत्र चर 'X' के आव्यूह के रूप में दर्शाया जाता है। η इस प्रकार व्यक्त किया जा सकता है
संबंध फलन
संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। सदैव स्पष्ट एवं पूर्ण रूप से परिभाषित विहित संबंध जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है, फलन कहलाता है। हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन।
विहित पैरामीटर के साथ वितरण फलन का उपयोग करते समय विहित संबंध फलन वह फलन है जो , के संदर्भ में को व्यक्त करता है अर्थात । अधिकतर सामान्य वितरणों हेतु माध्य वितरण के घनत्व फलन के मानक रूप के मापदंडों में से एक है और इसके पश्चात वह फ़ंक्शन है जो घनत्व फलन को उसके विहित रूप में योजित करता है, जैसा कि ऊपर परिभाषित किया गया है। विहित संबंध फलन , का उपयोग करते समय जो को के लिए पर्याप्त आंकड़ा होने की अनुमति देता है।
सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)।
वितरण | वितरण सहायता | विशिष्ट उपयोग | लिंक नाम | संबंध फलन, | माध्य फलन |
---|---|---|---|---|---|
सामान्य | वास्तविक: | रैखिक-प्रतिक्रिया तथ्य | तत्समक | ||
घातीय | वास्तविक: | घातीय-प्रतिक्रिया तथ्य, स्केल पैरामीटर | नकारात्मक व्युत्क्रमण | ||
गामा | |||||
गाउसी | वास्तविक: | व्युत्क्रमण वर्ग |
|||
प्वासों | पूर्णांक: | समय/स्थान की निश्चित मात्रा में घटनाओं की गणना | लॉग | ||
बर्नूली | पूर्णांक: | एकल घटना का परिणाम हाँ/नहीं | लॉगआईटी | ||
द्विपद | पूर्णांक: | N घटनाओं में से हां/नहीं में "हां" की घटनाओं की गणना | |||
श्रेणीकृत | पूर्णांक: | एकल घटना के-पथ का परिणाम | |||
पूर्णांक का K-वेक्टर: , जहां वेक्टर में ठीक एक तत्व का मान 1 है | |||||
बहुपदी | पूर्णांक का K-वेक्टर: | के-वे घटनाओं में से विभिन्न प्रकार (1 .. के) की कुल N घटनाओं की संख्या |
घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है।
बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं,अर्थात वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या बहुराष्ट्रीय रसद प्रतिगमन के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।
बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, यद्यपि एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना अधिक होगी। इसी तरह द्विपद वितरण में, अपेक्षित मान एनपी है, अर्थात "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।
श्रेणीबद्ध और बहुपदी वितरण के लिए, भविष्यवाणी की जाने वाली पैरामीटर संभावनाओं का एक के-वेक्टर है, जिसमें आगे प्रतिबंध है कि सभी संभावनाओं को 1 तक जोड़ना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।
अन्वायोजन
अधिकतम संभाविता
प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है:
जहाँ अवलोकित सूचना आव्यूह (हेसियन आव्यूह नकारात्मक) है और स्कोर फलन (सांख्यिकी) या फ़िशर की स्कोरिंग विधि है:
जहाँ फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं।
बायेसियन तरीके
सामान्यतः पश्च वितरण संवृत रूप में नहीं पाया जा सकता है और इसलिए इसे सामान्यतः लाप्लास सन्निकटन या कुछ प्रकार की मार्कोव श्रृंखला मोंटे कार्लो विधि जैसे गिब्स प्रतिचयन का उपयोग करके अनुमानित किया जाना चाहिए।
उदाहरण
सामान्य रैखिक मॉडल
संभ्रम का एक संभावित बिंदु सामान्यीकृत रैखिक मॉडल और सामान्य रैखिक मॉडल, दो व्यापक सांख्यिकीय मॉडल के बीच अंतर के साथ करना है। सह-प्रवर्तक जॉन नेल्डर ने इस शब्दावली पर खेद व्यक्त किया है।[3]
सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।
रेखीय प्रतिगमन
सामान्यीकृत रैखिक मॉडल का एक सरल अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रेखीय प्रतिगमन है। रेखीय प्रतिगमन में गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है, जो यह नहीं मानता है कि वितरण सामान्य है।
यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।
सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।
बाइनरी डेटा
जब प्रतिक्रिया डेटा Y बाइनरी होते हैं (केवल मान 0 और 1 लेते हैं), तो वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और μi की व्याख्या तब Yi की प्रायिकता, p मान एक पर ले जाती है।
द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।
लॉगिट संबंध फलन
सबसे विशिष्ट संबंध फलन विहित लॉगिट संबंध है:
इस व्यवस्था के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं।
प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर हैं। सामान्य सीडीएफ एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है। इसके संबंध है
प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित पूर्व वितरण को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है, जबकि एक लॉगिट मॉडल सामान्यतः नहीं।)
समपूरक लॉग-लॉग (सी लॉग-लॉग)
समपूरक लॉग-लॉग फलन का भी उपयोग किया जा सकता है:
यह संबंध फलन असममित है और प्रायः लॉगिट और प्रोबिट संबंध फलन से भिन्न परिणाम देगा।[4] सी लॉग-लॉग मॉडल उन अनुप्रयोगों के अनुरूप होता है जहां हम या तो शून्य परिघटनाओं (जैसे, त्रुटि) या एक या अधिक का निरीक्षण करते हैं, जहां पॉसों वितरण का पालन करने के लिए परिघटनाओं की संख्या मान ली जाती है।[5] पॉसों अवधारणा का अर्थ है कि
जहां μ एक सकारात्मक संख्या है जो परिघटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक परिघटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका समपूरक
और तब
एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ धनात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रेखीय मॉडल बना सकते हैं। यह "सी लॉग-लॉग" परिवर्तन उत्पन्न करता है
तत्समक संबंध
तत्समक संबंध g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए रेखीय संभावना मॉडल प्राप्त करने के लिए भी किया जाता है। यद्यपि, तत्समक संबंध शून्य से कम या एक से अधिक निरर्थक "संभावनाओं" का प्रागुक्त कर सकता है। इसे सी लॉग-लॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फलन) जैसे परिवर्तन का उपयोग करके परिहार किया जा सकता है। तत्समक संबंध का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन पी = 0.5 के निकट तत्समक संबंध से प्रायः रैखिक अनुकूल होते हैं।
प्रसरण फलन
"अर्ध द्विपद" डेटा के लिए प्रसरण फलन है:
जहां वितरण मापदण्ड τ द्विपद वितरण के लिए यथार्थतः 1 है। वास्तव में, मानक द्विपद संभावना τ विलोपित कर देती है। इसकी उपस्थिति में, मॉडल को "अर्ध द्विपद" कहा जाता है, और संशोधित संभावना को अर्ध -संभावना कहा जाता है, क्योंकि यह सामान्यतः संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ1 से अधिक है, तो मॉडल अतिवितरण प्रदर्शित करता है।
बहुपद प्रतिगमन
प्रतिक्रिया के रूप में एक बहुपदि वितरण की अनुमति देने के लिए द्विपद स्थिति को सरलता से बढ़ाया जा सकता है (साथ ही, सीमित कुल के साथ गणना के लिए एक सामान्यीकृत रैखिक मॉडल)। यह प्रायः दो तरीकों से किया जाता है:
क्रमित प्रतिक्रिया
यदि प्रतिक्रिया चर क्रमिक है, तो मॉडल फलन को इस प्रारूप में रखा जा सकता है:
m > 2 के लिए। विभिन्न संबंध g क्रमिक प्रतिगमन की ओर ले जाते हैं जैसे आनुपातिक ऑड्स मॉडल या क्रमित प्रोबिट मॉडल।
अक्रमित प्रतिक्रिया
यदि प्रतिक्रिया चर एक नाममात्र माप है, या डेटा एक क्रमित मॉडल की धारणाओं को पूरा नहीं करता है, तो निम्न प्रारूप का एक मॉडल उपयुक्त हो सकता है:
m > 2 के लिए। विभिन्न संबंध g बहुपदि लॉगिट या बहुपदि प्रोबिट मॉडल की ओर ले जाते हैं। ये क्रमित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य और पैरामीटर अनुमानित हैं।
डेटा गणना
सामान्यीकृत रेखीय मॉडलों के एक अन्य उदाहरण में पॉसों प्रतिगमन सम्मिलित है, जो पॉसों वितरण का उपयोग करके डेटा गणना का प्रतिरूपण करते हैं। संबंध विशेष रूप से लघुगणक, विहित संबंध है। विचरण फलन माध्य के समानुपाती होता है
जहां वितरण मापदण्ड τ विशेष रूप से ठीक एक पर तय किया जाता है। इसके ना होने पर परिणामी अर्ध-संभावना मॉडल को प्रायः अतिवितरण के साथ पॉसों या अर्ध-पॉसों के रूप में वर्णित किया जाता है ।
विस्तारण (एक्सटेंशन)
सहसंबद्ध या संकुल डेटा
मानक जीएलएम मानता है कि अवलोकन असंबद्ध हैं। अवलोकनों के बीच सहसंबंध की अनुमति देने के लिए एक्सटेंशन विकसित किए गए हैं, उदाहरण के लिए अनुदैर्ध्य अध्ययन और गुच्छ अभिकल्पनाओं में होता है:
- सामान्यीकृत अनुमान समीकरण (जीईई) सहसंबंधों की उत्पत्ति के लिए एक स्पष्ट संभाव्यता मॉडल के उपयोग के बिना टिप्पणियों के बीच सहसंबंध की अनुमति देते हैं, इसलिए कोई स्पष्ट संभावना नहीं है। वे तब उपयुक्त होते हैं जब यादृच्छिक प्रभाव और उनके प्रसरण अंतर्निहित रुचि के नहीं होते हैं, क्योंकि वे इसकी उत्पत्ति की व्याख्या किए बिना सहसंबंध की अनुमति देते हैं। प्रतिगमन मापदंडों के बजाय जनसंख्या पर औसत प्रतिक्रिया ("जनसंख्या-औसत" प्रभाव) का अनुमान लगाने पर ध्यान केंद्रित किया गया है जो किसी वैयक्तिक पर एक्स के एक या अधिक घटकों को परिवर्तन करने के प्रभाव की प्रागुक्ति को सक्षम करेगा। जीईई का उपयोग प्रायः ह्यूबर-व्हाइट मानक त्रुटियों के संयोजन में किया जाता है।[6][7]
- [[सामान्यीकृत रैखिक मिश्रित मॉडल]] जीएलएम का एक विस्तार है जिसमें रैखिक पूर्वसूचक में अनियमित प्रभाव सम्मिलित हैं जो स्पष्ट संभाव्यता मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी "विषय-विशिष्ट" पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों के परिवर्तन के प्रभाव का आकलन करने पर होता केंद्रित होता है। जीएलएमएम को बहुस्तरीय मॉडल और मिश्रित मॉडल भी कहा जाता है। सामान्यतः जीएलएमएम को फिट करना जीईई को फिट करने की तुलना में अभिकलनात्मक रूप से अधिक जटिल और गहन है।
सामान्यीकृत योगात्मक मॉडल
सामान्यीकृत योगात्मक मॉडल (जीएएम) जीएलएम का एक और विस्तार है जिसमें रैखिक प्राग्वक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन xis पर प्रयुक्त मसृणकारी फलन का योग है:
मसृणकारी फलन fi का अनुमान डेटा से लगाया जाता है। सामान्यतः इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह अभिकलनीयतः गहन है।[8]
यह भी देखें
- प्रतिक्रिया मॉडलिंग पद्धति
- सामान्य और सामान्यीकृत रैखिक मॉडल की तुलना
- आंशिक मॉडल
- सामान्यीकृत रैखिक सरणी मॉडल
- जीएलआईएम (सॉफ्टवेयर)
- अर्ध-प्रसरण
- प्राकृत चरघातांकी वर्ग
- ट्वीडी वितरण
- प्रसरण फलन
- वेक्टर सामान्यीकृत रैखिक मॉडल (वीजीएलएम)
संदर्भ
उद्धरण
- ↑ Nelder, John; Wedderburn, Robert (1972). "सामान्यीकृत रैखिक मॉडल". Journal of the Royal Statistical Society. Series A (General). Blackwell Publishing. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.
- ↑ McCullagh & Nelder 1989, Chapter 2.
- ↑ Senn, Stephen (2003). "जॉन नेल्डर के साथ बातचीत". Statistical Science. 18 (1): 118–131. doi:10.1214/ss/1056397489.
मुझे संदेह है कि हमें इसके लिए कुछ और फैंसी नाम मिलना चाहिए था जो अटक गया होगा और सामान्य रैखिक मॉडल के साथ भ्रमित नहीं होगा, हालांकि सामान्य और सामान्यीकृत काफी समान नहीं हैं। मैं देख सकता हूं कि क्यों कुछ और सोचना बेहतर होता।
- ↑ "Complementary Log-log Model" (PDF).
- ↑ "Which Link Function — Logit, Probit, or Cloglog?". Bayesium Analytics (in English). 2015-08-14. Retrieved 2019-03-17.
- ↑ Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). "Models for Longitudinal Data: A Generalized Estimating Equation Approach". Biometrics. International Biometric Society. 44 (4): 1049–1060. doi:10.2307/2531734. JSTOR 2531734. PMID 3233245.
- ↑ Hardin, James; Hilbe, Joseph (2003). सामान्यीकृत अनुमान समीकरण. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3.
- ↑ Wood 2006.
ग्रन्थसूची
- Hastie, T. J.; Tibshirani, R. J. (1990). Generalized Additive Models. Chapman & Hall/CRC. ISBN 978-0-412-34390-2.
- Madsen, Henrik; Thyregod, Poul (2011). Introduction to General and Generalized Linear Models. Chapman & Hall/CRCC. ISBN 978-1-4200-9155-7.
- McCullagh, Peter; Nelder, John (1989). Generalized Linear Models (2nd ed.). Boca Raton, FL: Chapman and Hall/CRC. ISBN 0-412-31760-5.
- Wood, Simon (2006). Generalized Additive Models: An Introduction with R. Chapman & Hall/CRC. ISBN 1-58488-474-6.
अग्रिम पठन
- Dunn, P.K.; Smyth, G.K. (2018). Generalized Linear Models With Examples in R. New York: Springer. doi:10.1007/978-1-4419-0118-7. ISBN 978-1-4419-0118-7.
- Dobson, A.J.; Barnett, A.G. (2008). Introduction to Generalized Linear Models (3rd ed.). Boca Raton, FL: Chapman and Hall/CRC. ISBN 978-1-58488-165-0.
- Hardin, James; Hilbe, Joseph (2007). Generalized Linear Models and Extensions (2nd ed.). College Station: Stata Press. ISBN 978-1-59718-014-6.
बाहरी संबंध
- Media related to Generalized linear models at Wikimedia Commons