सामान्यीकृत रैखिक मॉडल: Difference between revisions

From Vigyanwiki
Line 152: Line 152:
=== बाइनरी डेटा ===
=== बाइनरी डेटा ===
{{See also|युग्मक प्रतिगमन}}
{{See also|युग्मक प्रतिगमन}}
जब प्रतिक्रिया डेटा, वाई, द्विआधारी होते हैं (केवल मान 0 और 1 लेते हैं), वितरण फ़ंक्शन को आम तौर पर बर्नौली वितरण और μ की व्याख्या के लिए चुना जाता है<sub>i</sub> तब Y की प्रायिकता, p, है<sub>i</sub> मान एक ले रहा है।
जब प्रतिक्रिया डेटा, वाई , द्विआधारी होते हैं (केवल मान 0 और 1 लेते हैं), वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और ''μ''<sub>i</sub> की व्याख्या तब ''Y''<sub>i</sub> की प्रायिकता, p मान एक पर ले जाती है।


द्विपद कार्यों के लिए कई लोकप्रिय लिंक कार्य हैं।
द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।


==== लॉग इन संबंध फलन ====
==== लॉगिट संबंध फलन ====
सबसे विशिष्ट संबंध फलन कैनोनिकल लॉगिट लिंक है:
सबसे विशिष्ट संबंध फलन विहित लॉगिट संबंध है:


:<math>g(p) = \ln \left( { p \over 1-p } \right).</math>
:<math>g(p) = \ln \left( { p \over 1-p } \right).</math>
इस सेटअप के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं।
इस व्यवस्था के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं।


==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रोबिट लिंक फंक्शन ====
==== प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन ====
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण समारोह (सीडीएफ) के व्युत्क्रम को लिंक के लिए इस्तेमाल किया जा सकता है क्योंकि सीडीएफ की सीमा है <math>[0,1]</math>, द्विपद माध्य की सीमा। सामान्य वितरण#संचयी वितरण फ़ंक्शन <math>\Phi</math> एक लोकप्रिय विकल्प है और [[प्रोबिट मॉडल]] देता है। इसकी कड़ी है
वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर <math>[0,1]</math>,हैं। सामान्य सीडीएफ <math>\Phi</math> एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है । इसके संबंध है


:<math>g(p) = \Phi^{-1}(p).\,\!</math>
:<math>g(p) = \Phi^{-1}(p).\,\!</math>
प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य स्केलिंग के माध्यम से अवशोषित किया जा सकता है) के लिए इनपुट चर का एक निरंतर स्केलिंग एक फ़ंक्शन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फ़ंक्शन के समान है, लेकिन प्रोबिट लॉग मॉडल की तुलना में कुछ स्थितियों में मॉडल अधिक ट्रैक्टेबल होते हैं। (एक बायेसियन सेटिंग में जिसमें सामान्य रूप से वितरित [[पूर्व वितरण]] को मापदंडों पर रखा जाता है, सामान्य पुरोहितों और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूने का उपयोग करके एक प्रोबिट मॉडल की गणना की जा सकती है, जबकि एक लॉगिट मॉडल आमतौर पर नहीं हो सकता है।)
प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित [[पूर्व वितरण]] को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है , जबकि एक लॉगिट मॉडल सामान्यतः नहीं।)


==== पूरक लॉग-लॉग (क्लॉगलॉग) ====
==== समपूरक लॉग-लॉग (सी लॉग-लॉग) ====
पूरक लॉग-लॉग फ़ंक्शन का भी उपयोग किया जा सकता है:
समपूरक लॉग-लॉग फलन का भी उपयोग किया जा सकता है:
:<math>g(p) = \log(-\log(1-p)).</math>
:<math>g(p) = \log(-\log(1-p)).</math>
यह संबंध फलन असममित है और अक्सर लॉग और प्रोबिट लिंक फ़ंक्शंस से भिन्न परिणाम देगा।<ref>{{Cite web|url=http://www.stat.ualberta.ca/~kcarrier/STAT562/comp_log_log.pdf|title=Complementary Log-log Model}}</ref> क्लॉलॉग मॉडल उन अनुप्रयोगों से मेल खाता है जहां हम शून्य घटनाओं (जैसे, दोष) या एक या अधिक का निरीक्षण करते हैं, जहां प्वासों वितरण का पालन करने के लिए घटनाओं की संख्या मान ली जाती है।<ref>{{Cite web|url=https://bayesium.com/which-link-function-logit-probit-or-cloglog/|title=Which Link Function — Logit, Probit, or Cloglog?|date=2015-08-14|website=Bayesium Analytics|language=en-US|access-date=2019-03-17}}</ref> पोइसन धारणा का मतलब है
यह संबंध फलन असममित है और प्रायः लॉगिट और प्रोबिट संबंध फलन से भिन्न परिणाम देगा।<ref>{{Cite web|url=http://www.stat.ualberta.ca/~kcarrier/STAT562/comp_log_log.pdf|title=Complementary Log-log Model}}</ref> सी लॉग-लॉग मॉडल उन अनुप्रयोगों के अनुरूप होता है जहां हम या तो शून्य परिघटनाओं (जैसे, त्रुटि) या एक या अधिक का निरीक्षण करते हैं, जहां पॉसों वितरण का पालन करने के लिए परिघटनाओं की संख्या मान ली जाती है।<ref>{{Cite web|url=https://bayesium.com/which-link-function-logit-probit-or-cloglog/|title=Which Link Function — Logit, Probit, or Cloglog?|date=2015-08-14|website=Bayesium Analytics|language=en-US|access-date=2019-03-17}}</ref> पॉसों अवधारणा का अर्थ है कि


:<math>\Pr(0) = \exp(-\mu),</math>
:<math>\Pr(0) = \exp(-\mu),</math>
जहां μ एक सकारात्मक संख्या है जो घटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक घटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका पूरक
जहां μ एक सकारात्मक संख्या है जो परिघटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक परिघटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका समपूरक


:<math>(1-p) = \Pr(0) = \exp(-\mu),</math>
:<math>(1-p) = \Pr(0) = \exp(-\mu),</math>
Line 180: Line 180:


:<math>(-\log(1-p)) = \mu.</math>
:<math>(-\log(1-p)) = \mu.</math>
एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ सकारात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रैखिक मॉडल बना सकते हैं। यह क्लॉलॉग परिवर्तन पैदा करता है
एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ धनात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रेखीय मॉडल बना सकते हैं। यह "सी लॉग-लॉग" परिवर्तन उत्पन्न करता है


:<math>\log(-\log(1-p)) = \log(\mu).</math>
:<math>\log(-\log(1-p)) = \log(\mu).</math>




==== पहचान की कड़ी ====
==== तत्समक संबंध ====
पहचान लिंक g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए एक रेखीय संभाव्यता मॉडल प्राप्त करने के लिए भी किया जाता है। हालाँकि, पहचान लिंक शून्य से कम या एक से अधिक की निरर्थक संभावनाओं का अनुमान लगा सकता है। इसे क्लॉलॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फ़ंक्शन) जैसे परिवर्तन का उपयोग करके टाला जा सकता है। पहचान लिंक का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन पी = 0.5 के पास पहचान लिंक से लगभग रैखिक मेल खाते हैं।
तत्समक संबंध g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए रेखीय संभावना मॉडल प्राप्त करने के लिए भी किया जाता है। यद्यपि, तत्समक संबंध शून्य से कम या एक से अधिक निरर्थक "संभावनाओं" का प्रागुक्त कर सकता है। इसे सी लॉग-लॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फलन) जैसे परिवर्तन का उपयोग करके परिहार किया जा सकता है। तत्समक संबंध का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन  पी = 0.5 के निकट तत्समक संबंध से प्रायः रैखिक अनुकूल होते हैं।


==== [[विचरण समारोह]] ====
==== [[विचरण समारोह|प्रसरण फलन]] ====
के लिए विचरण समारोह{{visible anchor|quasibinomial}} डेटा है:
"अर्ध द्विपद" डेटा के लिए प्रसरण फलन है:


:<math>\operatorname{Var}(Y_i)= \tau\mu_i (1-\mu_i)\,\!</math>
:<math>\operatorname{Var}(Y_i)= \tau\mu_i (1-\mu_i)\,\!</math>

Revision as of 09:13, 12 April 2023

सांख्यिकी में, एक सामान्यीकृत रेखीय मॉडल (जीएलएम) साधारण रेखीय प्रतिगमन का एक नमन्शील व्यापकीकरण है। जीएलएम रैखिक प्रतिगमन को 'संबंध फलन' के माध्यम से प्रतिक्रिया चर से संबंधित होने के लिए रैखिक मॉडल की अनुमति देकर और प्रत्येक माप के विचरण के परिमाण को उसके अनुमानित मूल्य के कार्य होने की अनुमति देकर सामान्यीकृत करता है।

जॉन नेल्डर और रॉबर्ट वेडरबर्न द्वारा रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन और पॉइसन प्रतिगमन सहित कई अन्य सांख्यिकीय मॉडल को एकीकृत करने के तरीके के रूप में सामान्यीकृत रैखिक मॉडल सूत्रित किए गए थे।[1] उन्होंने मॉडल मापदंडों के अधिकतम संभाविता आकलन (एमएलई) के लिए पुनरावृत्त रूप से न्यूनतम वर्ग विधि का प्रस्ताव दिया। अनेक सांख्यिकीय अभिकलन संकुल (कंप्यूटिंग पैकेज) पर डिफ़ॉल्ट विधि है इसलिए अधिकतम संभाविता आकलन लोकप्रिय बना हुआ है। बायेसियन प्रतिगमन और विचरण-स्थिरीकरण परिवर्तन प्रतिक्रियाओं के लिए न्यूनतम वर्ग अन्वायोजन सहित अन्य दृष्टिकोण विकसित किए गए हैं।

अन्तर्ज्ञान

साधारण रेखीय प्रतिगमन प्रेक्षित मानों (भविष्यवक्ताओं) के एक समुच्चय के रैखिक संयोजन के रूप में दी गई अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के अपेक्षित मूल्य की पूर्वानुमान करता है। इसका तात्पर्य है कि प्राग्सूचक में निरंतर परिवर्तन से प्रतिक्रिया चर (अर्थात एक रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर किसी भी दिशा में अनिश्चित काल के लिए या किसी भी मात्रा के लिए सामान्यतः एक अच्छे सन्निकटन में भिन्न हो सकता है जो केवल अनुमानित चर जैसे मानव ऊंचाई में भिन्नता की तुलना में अपेक्षाकृत छोटी राशि से भिन्न होता है।

हालाँकि, ये धारणाएँ कुछ प्रकार के प्रतिक्रिया चर के लिए अनुपयुक्त हैं। उदाहरण के लिए, ऐसे मामलों में जहां प्रतिक्रिया चर हमेशा सकारात्मक होने की उम्मीद की जाती है और एक विस्तृत श्रृंखला में बदलती रहती है, निरंतर इनपुट परिवर्तनों से ज्यामितीय रूप से (अर्थात घातीय रूप से) भिन्नता होती है, बजाय निरंतर भिन्न होने के, आउटपुट में परिवर्तन होता है। एक उदाहरण के रूप में, मान लीजिए कि एक रेखीय भविष्यवाणी मॉडल कुछ डेटा (शायद मुख्य रूप से बड़े समुद्र तटों से खींचा गया) से सीखता है कि 10 डिग्री तापमान में कमी से समुद्र तट पर 1,000 कम logit आएंगे। यह मॉडल विभिन्न आकार के समुद्र तटों पर अच्छी तरह से सामान्यीकृत होने की संभावना नहीं है। अधिक विशेष रूप से, समस्या यह है कि यदि आप समुद्र तट के लिए 10 की तापमान गिरावट के साथ नई उपस्थिति की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हैं जो नियमित रूप से 50 समुद्र तट प्राप्त करता है, तो आप -950 के एक असंभव उपस्थिति मूल्य की भविष्यवाणी करेंगे। तार्किक रूप से, एक अधिक यथार्थवादी मॉडल इसके बजाय बढ़ी हुई समुद्र तट की उपस्थिति की निरंतर दर की भविष्यवाणी करेगा (उदाहरण के लिए 10 डिग्री की वृद्धि से समुद्र तट की उपस्थिति दोगुनी हो जाती है, और 10 डिग्री की गिरावट उपस्थिति में कमी की ओर ले जाती है)। इस तरह के एक मॉडल को एक घातीय-प्रतिक्रिया मॉडल (या लॉग-लीनियर मॉडल कहा जाता है, क्योंकि प्रतिक्रिया के लघुगणक को रैखिक रूप से भिन्न होने की भविष्यवाणी की जाती है)।

इसी तरह, एक मॉडल जो हां/नहीं विकल्प (एक बर्नौली वितरण) बनाने की संभावना की भविष्यवाणी करता है, रैखिक-प्रतिक्रिया मॉडल के रूप में भी कम उपयुक्त है, क्योंकि संभावनाएं दोनों सिरों पर बंधी हैं (वे 0 और 1 के बीच होनी चाहिए)। उदाहरण के लिए, एक मॉडल की कल्पना करें जो किसी दिए गए व्यक्ति के समुद्र तट पर तापमान के कार्य के रूप में जाने की संभावना की भविष्यवाणी करता है। उदाहरण के लिए, एक उचित मॉडल भविष्यवाणी कर सकता है कि 10 डिग्री में बदलाव से किसी व्यक्ति के समुद्र तट पर जाने की संभावना दो गुना अधिक या कम हो जाती है। लेकिन संभाव्यता के मामले में दुगनी संभावना का क्या मतलब है? इसका शाब्दिक अर्थ संभाव्यता मान को दोगुना करना नहीं हो सकता (उदाहरण के लिए 50% 100% हो जाता है, 75% 150% हो जाता है, आदि)। बल्कि, यह ऑड्स अनुपात है जो दोगुना हो रहा है: 2:1 ऑड्स से, 4:1 ऑड्स से, 8:1 ऑड्स, आदि। ऐसा मॉडल लॉग-ऑड्स या लॉजिस्टिक रिग्रेशन मॉडल है।

सामान्यीकृत रेखीय मॉडल इन सभी स्थितियों को प्रतिक्रिया चर के लिए अनुमति देकर कवर करते हैं, जिसमें मनमाना वितरण होता है (सामान्य वितरण के बजाय), और प्रतिक्रिया चर के एक मनमाना कार्य के लिए (संबंध फलन) भविष्यवाणियों के साथ रैखिक रूप से भिन्न होता है (यह मानने के बजाय कि प्रतिक्रिया स्वयं रैखिक रूप से भिन्न होनी चाहिए)। उदाहरण के लिए, समुद्र तट पर उपस्थित लोगों की अनुमानित संख्या के ऊपर के मामले को आमतौर पर पॉइसन वितरण और एक लॉग लिंक के साथ तैयार किया जाएगा, जबकि समुद्र तट उपस्थिति की अनुमानित संभावना के मामले को आमतौर पर बर्नौली वितरण (या द्विपद वितरण, बिल्कुल के आधार पर) के साथ तैयार किया जाएगा। समस्या को कैसे व्यक्त किया जाता है) और एक लॉग-ऑड्स (या लॉगिट) संबंध फलन।

सिंहावलोकन

एक सामान्यीकृत रैखिक मॉडल (जीएलएम) में निर्भर चर के प्रत्येक परिणाम Y को एक घातीय परिवार में एक विशेष वितरण से उत्पन्न माना जाता है, प्रायिकता वितरण का एक बड़ा वर्ग जिसमें सामान्य वितरण, द्विपद वितरण, पॉइसन वितरण और गामा सम्मिलित होते हैं। वितरण का माध्य μ, स्वतंत्र चर X पर निर्भर करता है, इसके माध्यम से:

जहां E(Y|X) X पर सशर्त Y का अपेक्षित मान है; Xβ रैखिक प्राग्सूचक है, अज्ञात पैरामीटर्स का एक रैखिक संयोजन β; g संबंध फलन है।

इस संरचना में प्रसरण आमतौर पर माध्य का एक कार्य V होता है:

यह सुविधाजनक है यदि वी वितरण के एक घातीय समूह से आता है परंतु यह हो सकता है कि भिन्नता अनुमानित माप का फंक्शन है।

सामान्यतः अज्ञात पैरामीटर β, अधिकतम संभावना, अधिकतम अर्ध-संभावना या बायेसियन तकनीकों के साथ अनुमान लगाया जाता है।

मॉडल घटक

जीएलएम में तीन तत्व होते हैं:

1. मॉडलिंग के लिए उनमें से एक विशेष वितरण जिन्हें संभाव्यता वितरण के घातीय परिवार माना जाता है,
2. एक रैखिक प्राग्सूचक , और
3. एक शृंखला बंध फलन ऐसा है कि .

प्रायिकता वितरण

वितरणों का विस्तारित घातीय समूह एक घातीय समूह का सामान्यीकरण है तथा वितरणों का घातीय विस्तार मॉडल है और इसमें संभाव्यता वितरण के वे समूह सम्मिलित हैं जिन्हें और , द्वारा परिचालित किया गया है एवं जिनके घनत्व कार्य को f के रूप में व्यक्त किया जा सकता है

सामान्यतः परिक्षेपण पैरामीटर , ज्ञात होता है और वितरण के प्रसरण से संबंधित होता है। कार्य , , , और ज्ञात हैं। इस परिवार में सामान्य, घातीय, गामा, पॉसॉन, बर्नौली और (परीक्षणों की निश्चित संख्या के लिए) द्विपद, बहुपद और ऋणात्मक द्विपद सहित कई सामान्य वितरण हैं।

यह अदिश और के लिए( इस स्थिति में और को किया गया है) कम हो जाता है

वितरण के माध्य से संबंधित है। अगर तत्समक फलन है, तो वितरण को विहित रूप (या प्राकृतिक रूप) में कहा जाता है। ध्यान दें कि किसी भी वितरण को के रूप में पुनर्लेखन और पुनः रूपांतरण अनप्रयुक्‍त करके विहित रूप में परिवर्तित किया जा सकता है। को नए पैरामीट्रिजेशन के संदर्भ में परिवर्तित करना हमेशा संभव होता है, यद्यपि एकैक फलन नहीं है; घातीय परिवारों पर पृष्ठ में टिप्पणियाँ देखें। यदि, इसके अतिरिक्त तत्समक और ज्ञात है, तो को विहित पैरामीटर (या प्राकृतिक पैरामीटर) कहा जाता है और माध्य से संबंधित होता है।

यह अदिश और के लिए कम हो जाता है

इस परिदृश्य के अंतर्गत वितरण के प्रसरण को प्रदर्शित किया जा सकता है[2]

यह अदिश और के लिए कम हो जाता है


रैखिक प्राग्सूचक

रैखिक प्राग्सूचक वह मात्रा है जो मॉडल में स्वतंत्र चर के विषय में सूचना सम्मिलित करती है। प्रतीक η (ग्रीक वर्णमाला ईटीए(अक्षर)) एक रेखीय प्राग्सूचक को दर्शाता है। यह संबंध फलन के माध्यम से डेटा के अपेक्षित मान से संबंधित है।

η को अज्ञात पैरामीटर 'β' के रैखिक संयोजनों (इस प्रकार "रैखिक") के रूप में व्यक्त किया जाता है। रैखिक संयोजन के गुणांकों को स्वतंत्र चर 'X' के आव्यूह के रूप में दर्शाया जाता है। η इस प्रकार व्यक्त किया जा सकता है


लिंक समारोह

संबंध फलन रैखिक प्राग्सूचक और वितरण फलन के माध्य के बीच संबंध प्रदान करता है। सामान्य रूप से उपयोग किए जाने वाले अनेक संबंध फलन हैं और उनके विकल्प को अनेक कारणों से सूचित किया जाता है। सदैव पूर्णतः स्पष्ट रूप से परिभाषित कैनोनिकल संबंध फलन होता है जो प्रतिक्रिया के घनत्व फ़ंक्शन के घातांक से प्राप्त होता है। हालाँकि कुछ स्थितियों में यह बोध होता है कि संबंध फलन के डोमेन को वितरण फलन के माध्य की सीमा से मिलान करने का प्रयास करें या एल्गोरिथम उद्देश्यों के लिए गैर विहित संबंध फलन का उपयोग करें, उदाहरण के लिए बायेसियन प्रोबिट रिग्रेशन।

कैननिकल पैरामीटर के साथ वितरण फलन का उपयोग करते समय कैनोनिकल संबंध फलन वह फलन है जो , के संदर्भ में को व्यक्त करता है अर्थात सबसे आम वितरण के लिए, माध्य वितरण के घनत्व समारोह के मानक रूप में मापदंडों में से एक है, और फिर जैसा कि ऊपर परिभाषित किया गया है, वह फ़ंक्शन है जो घनत्व फ़ंक्शन को उसके विहित रूप में मैप करता है। कैननिकल संबंध फलन , का उपयोग करते समय जो को के लिए पर्याप्त आंकड़ा होने की अनुमति देता है।

सामान्य उपयोग में कई घातीय-पारिवारिक वितरणों की निम्नलिखित तालिका है और सामान्यत: वे डेटा जो विहित संबंध फलन और उनके व्युत्क्रमों के साथ उपयोग किए जाते हैं (कभी-कभी यहां किए गए माध्य फलन के रूप में संदर्भित होते हैं)।

विशिष्ट उपयोगों और विहित संबंध कार्यों के साथ सामान्य वितरण
वितरण वितरण सहायता विशिष्ट उपयोग लिंक नाम संबंध फलन, माध्य फलन
सामान्य वास्तविक: रैखिक-प्रतिक्रिया तथ्य तत्समक
घातीय वास्तविक: घातीय-प्रतिक्रिया तथ्य, स्केल पैरामीटर नकारात्मक व्युत्क्रमण
गामा
गाउसी

व्युत्क्रमण

वास्तविक: व्युत्क्रमण
वर्ग
प्वासों पूर्णांक: समय/स्थान की निश्चित मात्रा में घटनाओं की गणना लॉग
बर्नूली पूर्णांक: एकल घटना का परिणाम हाँ/नहीं लॉगआईटी
द्विपद पूर्णांक: N घटनाओं में से हां/नहीं में "हां" की घटनाओं की गणना
श्रेणीकृत पूर्णांक: एकल घटना के-पथ का परिणाम
पूर्णांक का K-वेक्टर: , जहां वेक्टर में ठीक एक तत्व का मान 1 है
बहुपदी पूर्णांक का K-वेक्टर: के-वे घटनाओं में से विभिन्न प्रकार (1 .. के) की कुल N घटनाओं की संख्या

घातांकी और गामा वितरण के स्थिति में, विहित संबंध फलन का प्रक्षेत्र माध्य की अनुमत सीमा के समान नहीं है। विशेष रूप से, रैखिक प्राग्वक्ता सकारात्मक हो सकता है, जो एक असंभव नकारात्मक माध्य देगा। संभाव्यता को अधिकतम करते समय, परिवर्जन के लिए सावधानी रखनी चाहिए। गैर-विहित संबंध फलन का उपयोग करना एक विकल्प है।

बर्नौली, द्विपद, श्रेणीबद्ध और बहुपद वितरण के स्थिति में, वितरण का समर्थन उसी प्रकार का डेटा नहीं है जैसा कि प्राचल की प्रागुक्त की जा रही है। इन सभी स्थितियों में, प्रागुक्त प्राचल एक या अधिक संभावनाएँ हैं, यानी वास्तविक संख्याएँ परिसर [0,1] में हैं। परिणामी प्रतिदर्श को लॉजिस्टिक रिग्रेशन (या बहुराष्ट्रीय रसद प्रतिगमन के रूप में जाना जाता है, जिसमें बाइनरी वैल्यू के स्थान पर के-वे की प्रागुक्त की जा रही है)।

बर्नौली और द्विपद वितरण के लिए, प्राचल एकल संभावना है, जो एकल वृत्तांत के घटित होने की संभावना को दर्शाता है। बर्नौली सामान्यीकृत रैखिक मॉडल की आधारिक स्थिति को भी संतुष्ट करता है, चाहे एकल परिणाम सदैव 0 या 1 हो, फिर भी अपेक्षित मूल्य एक वास्तविक-मूल्यवान प्रायिकता होगा, अर्थात "हाँ" (या 1) परिणाम की प्राप्ति की संभावना। इसी तरह, द्विपद वितरण में, अपेक्षित मान एनपी है , यानी "हाँ" परिणामों के अपेक्षित अनुपात प्रागुक्त की जाने वाली संभावना होगी।

श्रेणीबद्ध और बहुपदी वितरण के लिए, प्रागुक्त प्राचल संभावनाओं का  के -सदिश है, अतिरिक्त प्रतिबंध के साथ कि सभी संभावनाओं को 1 तक योग किया जाना चाहिए। प्रत्येक संभावना के संभावित मूल्यों में से एक की प्राप्ति की संभावना को इंगित करती है। बहुपदी वितरण के लिए, और श्रेणीबद्ध वितरण के सदिश रूप के लिए, सदिश के तत्वों के अपेक्षित मूल्यों को द्विपद और बर्नौली वितरण के समान प्रागुक्त संभावनाओं से संबंधित किया जा सकता है।

अन्वायोजन

अधिकतम संभाविता

प्ररूप के अद्यतन के साथ पुनरावृत्त रूप से भारित न्यूनतम वर्ग कलनविधि या न्यूटन की विधि का उपयोग करके अधिकतम संभाव्यता का अनुमान लगाया जा सकता है :

जहाँ अवलोकित सूचना आव्यूह (हेसियन आव्यूह नकारात्मक) है और स्कोर फलन (सांख्यिकी) या फ़िशर की स्कोरिंग विधि है:

जहाँ फिशर सूचना आव्यूह है। ध्यान दें कि यदि विहित संबंध फलन का उपयोग किया जाता है तो वे समान होते हैं।

बायेसियन तरीके

सामान्यतः पश्च वितरण संवृत रूप में नहीं पाया जा सकता है और इसलिए इसे सामान्यतः लाप्लास सन्निकटन या कुछ प्रकार की मार्कोव श्रृंखला मोंटे कार्लो विधि जैसे गिब्स प्रतिचयन का उपयोग करके अनुमानित किया जाना चाहिए।

उदाहरण

सामान्य रैखिक मॉडल

संभ्रम का एक संभावित बिंदु सामान्यीकृत रैखिक मॉडल और सामान्य रैखिक मॉडल, दो व्यापक सांख्यिकीय मॉडल के बीच अंतर के साथ करना है। सह-प्रवर्तक जॉन नेल्डर ने इस शब्दावली पर खेद व्यक्त किया है।[3]

सामान्य रेखीय मॉडल को सामान्यीकृत रेखीय मॉडल के एक विशेष स्थिति के रूप में देखा जा सकता है जिसमें पहचान संबंध और सामान्य रूप से वितरित प्रतिक्रियाएं होती हैं। जैसा कि सबसे सटीक प्रेरित परिणाम केवल सामान्य रेखीय मॉडल के लिए प्राप्त होते हैं, सामान्य रेखीय मॉडल में कुछ अधिक समय से ऐतिहासिक विकास हुआ है। गैर-पहचान संबंध वाले सामान्यीकृत रैखिक मॉडल के परिणाम स्पर्शोन्मुख हैं (बड़े नमूनों के साथ सटीकता से काम करने की प्रवृत्ति)।

रेखीय समाश्रयण

सामान्यीकृत रैखिक मॉडल का एक सरल, अधिक महत्वपूर्ण उदाहरण (सामान्य रैखिक मॉडल का भी एक उदाहरण) रैखिक समाश्रयण है । रैखिक समाश्रयण में, गॉस-मार्कोव प्रमेय द्वारा न्यूनतम-वर्ग अनुमानक का उपयोग उचित है , जो यह नहीं मानता है कि वितरण सामान्य है।

यद्यपि, सामान्यीकृत रैखिक मॉडल के परिप्रेक्ष्य से, यह मान लेना उपयोगी है कि वितरण फलन निरंतर विचरण के साथ सामान्य वितरण है और संबंध फलन पहचान है, जो विचरण ज्ञात होने पर विहित संबंध है। इन मान्यताओं के अंतर्गत, न्यूनतम-वर्ग अनुमानक को अधिकतम-संभावना प्राचल अनुमान के रूप में प्राप्त किया जाता है।

सामान्य वितरण के लिए, सामान्यीकृत रैखिक मॉडल में अधिकतम-संभावना अनुमानों के लिए एक सुविधाजनक संवृत रूप अभिव्यक्ति है। अधिकांश अन्य जीएलएम में संवृत रूप अनुमानों का अभाव होता है।

बाइनरी डेटा

जब प्रतिक्रिया डेटा, वाई , द्विआधारी होते हैं (केवल मान 0 और 1 लेते हैं), वितरण फलन को सामान्यतः बर्नौली वितरण के रूप में चुना जाता है और μi की व्याख्या तब Yi की प्रायिकता, p मान एक पर ले जाती है।

द्विपद फलन के लिए कई लोकप्रिय संबंध फलन हैं।

लॉगिट संबंध फलन

सबसे विशिष्ट संबंध फलन विहित लॉगिट संबंध है:

इस व्यवस्था के साथ जीएलएम लॉजिस्टिक रिग्रेशन मॉडल (या लॉगिट मॉडल) हैं।

प्रतिलोम संचयी बंटन फलन के लोकप्रिय विकल्प के रूप में प्रॉबिट संबंध फलन

वैकल्पिक रूप से, किसी भी निरंतर संचयी वितरण फलन (सीडीएफ) के व्युत्क्रम को संबंध के लिए उपयोग किया जा सकता है क्योंकि सीडीएफ की परिसर, द्विपद माध्य की परिसर ,हैं। सामान्य सीडीएफ एक लोकप्रिय विकल्प है और प्रोबिट मॉडल प्रतिफलन करता है । इसके संबंध है

प्रोबिट मॉडल के उपयोग का कारण यह है कि एक सामान्य सीडीएफ (जो सभी मापदंडों के समतुल्य मापन के माध्यम से अवशोषित किया जा सकता है) के लिए निवेश चर का निरंतर मापन एक फलन उत्पन्न करता है जो व्यावहारिक रूप से लॉगिट फलन के समान है, लेकिन प्रोबिट मॉडल लॉगिट मॉडल की तुलना में कुछ स्थितियों में अधिक सुविधाजनक होते हैं। (बायेसियन समायोजन में जिसमें सामान्य रूप से वितरित पूर्व वितरण को मापदंडों पर रखा जाता है, सामान्य प्रथम और सामान्य सीडीएफ संबंध फलन के बीच संबंध का अर्थ है कि गिब्स नमूनाकरण का उपयोग करके प्रोबिट मॉडल की गणना की जा सकती है , जबकि एक लॉगिट मॉडल सामान्यतः नहीं।)

समपूरक लॉग-लॉग (सी लॉग-लॉग)

समपूरक लॉग-लॉग फलन का भी उपयोग किया जा सकता है:

यह संबंध फलन असममित है और प्रायः लॉगिट और प्रोबिट संबंध फलन से भिन्न परिणाम देगा।[4] सी लॉग-लॉग मॉडल उन अनुप्रयोगों के अनुरूप होता है जहां हम या तो शून्य परिघटनाओं (जैसे, त्रुटि) या एक या अधिक का निरीक्षण करते हैं, जहां पॉसों वितरण का पालन करने के लिए परिघटनाओं की संख्या मान ली जाती है।[5] पॉसों अवधारणा का अर्थ है कि

जहां μ एक सकारात्मक संख्या है जो परिघटनाओं की अपेक्षित संख्या को दर्शाती है। यदि पी कम से कम एक परिघटना के साथ टिप्पणियों के अनुपात का प्रतिनिधित्व करता है, तो इसका समपूरक

और तब

एक रैखिक मॉडल को संपूर्ण वास्तविक रेखा पर मान लेने के लिए प्रतिक्रिया चर की आवश्यकता होती है। चूँकि μ धनात्मक होना चाहिए, हम इसे लघुगणक लेकर लागू कर सकते हैं, और log(μ) को एक रेखीय मॉडल बना सकते हैं। यह "सी लॉग-लॉग" परिवर्तन उत्पन्न करता है


तत्समक संबंध

तत्समक संबंध g(p) = p का उपयोग कभी-कभी द्विपद डेटा के लिए रेखीय संभावना मॉडल प्राप्त करने के लिए भी किया जाता है। यद्यपि, तत्समक संबंध शून्य से कम या एक से अधिक निरर्थक "संभावनाओं" का प्रागुक्त कर सकता है। इसे सी लॉग-लॉग, प्रोबिट या लॉगिट (या किसी व्युत्क्रम संचयी वितरण फलन) जैसे परिवर्तन का उपयोग करके परिहार किया जा सकता है। तत्समक संबंध का एक प्राथमिक गुण यह है कि इसे रेखीय गणित का उपयोग करके अनुमान लगाया जा सकता है - और अन्य मानक संबंध फलन  पी = 0.5 के निकट तत्समक संबंध से प्रायः रैखिक अनुकूल होते हैं।

प्रसरण फलन

"अर्ध द्विपद" डेटा के लिए प्रसरण फलन है:

जहां फैलाव पैरामीटर τ द्विपद वितरण के लिए बिल्कुल 1 है। दरअसल, मानक द्विपद संभावना τ को छोड़ देती है। जब यह मौजूद होता है, तो मॉडल को अर्ध-संभावना कहा जाता है, और संशोधित संभावना को अर्ध-संभावना कहा जाता है, क्योंकि यह आम तौर पर संभाव्यता वितरण के किसी भी वास्तविक परिवार से संबंधित संभावना नहीं है। यदि τ 1 से अधिक है, तो कहा जाता है कि मॉडल अतिफैलाव प्रदर्शित करता है।

बहुपद प्रतिगमन

प्रतिक्रिया के रूप में एक बहुराष्ट्रीय वितरण की अनुमति देने के लिए द्विपद मामले को आसानी से बढ़ाया जा सकता है (साथ ही, सीमित कुल के साथ गणना के लिए एक सामान्यीकृत रैखिक मॉडल)। यह आमतौर पर दो तरीकों से किया जाता है:

आदेशित प्रतिक्रिया

यदि प्रतिक्रिया चर क्रमिक डेटा है, तो कोई फॉर्म के मॉडल फ़ंक्शन में फिट हो सकता है:

m > 2 के लिए। अलग-अलग लिंक g ऑर्डर्ड लॉग्स या ऑर्डर किए गए प्रोबिट मॉडल जैसे क्रमिक प्रतिगमन मॉडल की ओर ले जाते हैं।

अव्यवस्थित प्रतिक्रिया

यदि प्रतिक्रिया चर माप का स्तर # नाममात्र स्तर है, या डेटा एक आदेशित मॉडल की धारणाओं को पूरा नहीं करता है, तो कोई निम्न रूप का मॉडल फिट कर सकता है:

m > 2 के लिए। विभिन्न लिंक g बहुराष्ट्रीय लॉगिट या बहुराष्ट्रीय प्रोबिट मॉडल की ओर ले जाते हैं। ये आदेशित प्रतिक्रिया मॉडल की तुलना में अधिक सामान्य हैं, और अधिक पैरामीटर अनुमानित हैं।

डेटा गिनें

सामान्यीकृत रेखीय मॉडलों के एक अन्य उदाहरण में पोइसन प्रतिगमन शामिल है, जो मॉडल पॉइसन वितरण का उपयोग करके डेटा की गणना करते हैं। लिंक आमतौर पर लघुगणक, विहित लिंक है।

विचरण फलन माध्य के समानुपाती होता है

जहां फैलाव पैरामीटर τ आमतौर पर ठीक एक पर तय किया जाता है। जब यह नहीं होता है, तो परिणामी अर्ध-संभावना मॉडल को अक्सर अतिफैलाव या अर्ध-पॉइसन के साथ पॉइसन के रूप में वर्णित किया जाता है।

विस्तारण (एक्सटेंशन)

सहसंबद्ध या संकुल डेटा

मानक जीएलएम मानता है कि अवलोकन असंबद्ध हैं। अवलोकनों के बीच सहसंबंध की अनुमति देने के लिए एक्सटेंशन विकसित किए गए हैं, उदाहरण के लिए अनुदैर्ध्य अध्ययन और क्लस्टर डिज़ाइन में होता है:

  • सामान्यीकृत अनुमान समीकरण (जीईई) सहसंबंधों की उत्पत्ति के लिए स्पष्ट संभाव्यता मॉडल के उपयोग के बिना अवलोकनों के बीच सहसंबंध की अनुमति देते हैं, इसलिए कोई स्पष्ट संभावना नहीं है। वे तब उपयुक्त होते हैं जब यादृच्छिक प्रभाव और उनके प्रसरण अंतर्निहित रुचि के नहीं होते हैं, क्योंकि वे इसकी उत्पत्ति की व्याख्या किए बिना सहसंबंध की अनुमति देते हैं। प्रतिगमन मापदंडों के बजाय जनसंख्या पर औसत प्रतिक्रिया (जनसंख्या-औसत प्रभाव) का अनुमान लगाने पर ध्यान केंद्रित किया जाता है जो किसी दिए गए व्यक्ति पर एक्स के एक या अधिक घटकों को बदलने के प्रभाव की भविष्यवाणी को सक्षम करेगा। जीईई आमतौर पर ह्यूबर-व्हाइट मानक त्रुटियों के संयोजन में उपयोग किया जाता है।[6][7]
  • [[सामान्यीकृत रैखिक मिश्रित मॉडल]] (जीएलएमएम) जीएलएम का एक विस्तार है जिसमें रैखिक भविष्यवक्ता में यादृच्छिक प्रभाव शामिल हैं, जो एक स्पष्ट संभावना मॉडल देता है जो सहसंबंधों की उत्पत्ति की व्याख्या करता है। परिणामी विषय-विशिष्ट पैरामीटर अनुमान तब उपयुक्त होते हैं जब किसी व्यक्ति पर X के एक या अधिक घटकों को बदलने के प्रभाव का अनुमान लगाने पर ध्यान केंद्रित किया जाता है। जीएलएमएम को बहुस्तरीय मॉडल और मिश्रित मॉडल भी कहा जाता है। सामान्य तौर पर, GLMMs को फिट करना GEEs को फिट करने की तुलना में कम्प्यूटेशनल रूप से अधिक जटिल और गहन है।

सामान्यीकृत योगात्मक मॉडल

सामान्यीकृत योगात्मक मॉडल (GAMs) GLMs का एक और विस्तार है जिसमें रैखिक भविष्यवक्ता η सहसंयोजक 'X' में रैखिक होने के लिए प्रतिबंधित नहीं है, लेकिन x पर लागू चौरसाई का योग हैiएस:

चौरसाई कार्य fiआंकड़ों से अनुमान लगाया गया है। सामान्य तौर पर इसके लिए बड़ी संख्या में डेटा बिंदुओं की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से गहन है।[8][9]

यह भी देखें

संदर्भ

उद्धरण

  1. Nelder, John; Wedderburn, Robert (1972). "सामान्यीकृत रैखिक मॉडल". Journal of the Royal Statistical Society. Series A (General). Blackwell Publishing. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.
  2. McCullagh & Nelder 1989, Chapter 2.
  3. Senn, Stephen (2003). "जॉन नेल्डर के साथ बातचीत". Statistical Science. 18 (1): 118–131. doi:10.1214/ss/1056397489. मुझे संदेह है कि हमें इसके लिए कुछ और फैंसी नाम मिलना चाहिए था जो अटक गया होगा और सामान्य रैखिक मॉडल के साथ भ्रमित नहीं होगा, हालांकि सामान्य और सामान्यीकृत काफी समान नहीं हैं। मैं देख सकता हूं कि क्यों कुछ और सोचना बेहतर होता।
  4. "Complementary Log-log Model" (PDF).
  5. "Which Link Function — Logit, Probit, or Cloglog?". Bayesium Analytics (in English). 2015-08-14. Retrieved 2019-03-17.
  6. Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). "Models for Longitudinal Data: A Generalized Estimating Equation Approach". Biometrics. International Biometric Society. 44 (4): 1049–1060. doi:10.2307/2531734. JSTOR 2531734. PMID 3233245.
  7. Hardin, James; Hilbe, Joseph (2003). सामान्यीकृत अनुमान समीकरण. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3.
  8. Hastie & Tibshirani 1990.
  9. Wood 2006.


ग्रन्थसूची


अग्रिम पठन


बाहरी संबंध