बहुपद तार्किक प्रतिगमन: Difference between revisions
(Created page with "{{Short description|Regression for more than two discrete outcomes}} {{Redirect|Multinomial regression|the related Probit procedure|Multinomial probit}} {{Refimprove|date=Nove...") |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Regression for more than two discrete outcomes}} | {{Short description|Regression for more than two discrete outcomes}} | ||
{{Redirect| | {{Redirect|बहुराष्ट्रीय प्रतिगमन|संबंधित संभावना प्रक्रिया|बहुराष्ट्रीय संभावना}} | ||
{{Regression bar}} | {{Regression bar}} | ||
आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।<ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर]] के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, [[स्वतंत्र चर]] का एक | आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।<ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर]] के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, [[स्वतंत्र चर]] का एक समूह दिया जाता है (जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।). | ||
बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुपत्नी LR | बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुपत्नी LR सम्मिलित है,<ref>{{Cite journal | doi = 10.1111/j.1467-9574.1988.tb01238.x| title = पॉलीटॉमस लॉजिस्टिक रिग्रेशन| journal = Statistica Neerlandica| volume = 42| issue = 4| pages = 233–252| year = 1988| last1 = Engel | first1 = J.}}</ref><ref>{{cite book |title=एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस|url=https://archive.org/details/appliedlogisticr00mena |url-access=limited |first=Scott |last=Menard |publisher=SAGE |year=2002 |page=[https://archive.org/details/appliedlogisticr00mena/page/n99 91]|isbn=9780761922087 }}</ref> मल्टीक्लास LR, [[सॉफ्टमैक्स एक्टिवेशन फंक्शन]] रिग्रेशन, मल्टीनोमियल लॉगिट (mlogit), अधिकतम एन्ट्रॉपी (MaxEnt) क्लासिफायरियर, और सशर्त अधिकतम एन्ट्रापी मॉडल।<ref name="malouf">{{cite conference |first=Robert |last=Malouf |year=2002 |url=http://aclweb.org/anthology/W/W02/W02-2018.pdf |title=अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना|conference=Sixth Conf. on Natural Language Learning (CoNLL) |pages=49–55}}</ref> | ||
Line 16: | Line 15: | ||
*विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा? | *विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा? | ||
*फर्म की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक फर्म किस देश में अपना कार्यालय स्थापित करेगी? | *फर्म की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक फर्म किस देश में अपना कार्यालय स्थापित करेगी? | ||
ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में आम तौर पर भविष्यवाणी करने के लिए एक निर्भर चर होता है जो कि वस्तुओं के एक सीमित | ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में आम तौर पर भविष्यवाणी करने के लिए एक निर्भर चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से आदेश नहीं दिया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह (जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग किया जाता है निर्भर चर की भविष्यवाणी करने के लिए। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष समाधान है जो आश्रित चर के प्रत्येक विशेष मूल्य की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मूल्यों को आमतौर पर कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है (उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)। | ||
== अनुमान == | == अनुमान == | ||
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक मामले के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि निर्भर चर को किसी भी मामले के लिए स्वतंत्र चर से पूरी तरह से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस क्लासिफायरियर के विपरीत); हालाँकि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना मुश्किल हो जाता है।<ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref> | बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक मामले के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि निर्भर चर को किसी भी मामले के लिए स्वतंत्र चर से पूरी तरह से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस क्लासिफायरियर के विपरीत); हालाँकि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना मुश्किल हो जाता है।<ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref> | ||
यदि मल्टीनोमियल लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (IIA) की स्वतंत्रता की धारणा पर निर्भर करता है, जो हमेशा वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को काम पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र | यदि मल्टीनोमियल लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (IIA) की स्वतंत्रता की धारणा पर निर्भर करता है, जो हमेशा वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को काम पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देता है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। IIA परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; हालांकि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति अक्सर इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प पेश किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच उदासीन हो सकता है, और इसलिए एक कार प्रदर्शित कर सकता है: नीली बस: लाल बस अंतर अनुपात 1: 0.5: 0.5 का, इस प्रकार कार का 1: 1 अनुपात बनाए रखना: एक परिवर्तित कार को अपनाने के दौरान कोई भी बस: 1: 0.5 का नीली बस अनुपात। यहां लाल बस का विकल्प वास्तव में अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी। | ||
यदि मल्टीनोमियल लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प गायब हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग]]िट या [[ बहुराष्ट्रीय संभावना ]] का उपयोग ऐसे मामलों में किया जा सकता है क्योंकि वे IIA के उल्लंघन की अनुमति देते हैं।<ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref> | यदि मल्टीनोमियल लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प गायब हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग]]िट या [[ बहुराष्ट्रीय संभावना ]] का उपयोग ऐसे मामलों में किया जा सकता है क्योंकि वे IIA के उल्लंघन की अनुमति देते हैं।<ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref> | ||
Line 31: | Line 30: | ||
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान तरीके हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक रिग्रेशन पर लेख सरल लॉजिस्टिक रिग्रेशन के कई समतुल्य फॉर्मूलेशन प्रस्तुत करता है, और इनमें से कई मल्टीनोमियल लॉगिट मॉडल में एनालॉग हैं। | बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान तरीके हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक रिग्रेशन पर लेख सरल लॉजिस्टिक रिग्रेशन के कई समतुल्य फॉर्मूलेशन प्रस्तुत करता है, और इनमें से कई मल्टीनोमियल लॉगिट मॉडल में एनालॉग हैं। | ||
उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फ़ंक्शन का निर्माण करना है जो वजन के एक | उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फ़ंक्शन का निर्माण करना है जो वजन के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद]] का उपयोग करके दिए गए अवलोकन के व्याख्यात्मक चर (विशेषताओं) के साथ [[रैखिक संयोजन]] होता है। : | ||
:<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math> | :<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math> | ||
जहां एक्स<sub>''i''</sub> प्रेक्षण i, 'β' का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है<sub>''k''</sub> परिणाम k, और स्कोर ('X') के अनुरूप वजन (या [[प्रतिगमन गुणांक]]) का एक सदिश है<sub>''i''</sub>, k) श्रेणी k को अवलोकन i निर्दिष्ट करने से जुड़ा स्कोर है। [[असतत पसंद]] सिद्धांत में, जहां अवलोकन लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, स्कोर को उस व्यक्ति से जुड़ी [[उपयोगिता]] माना जाता है जिसे मैं परिणाम k चुन रहा हूं। अनुमानित परिणाम उच्चतम स्कोर वाला है। | जहां एक्स<sub>''i''</sub> प्रेक्षण i, 'β' का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है<sub>''k''</sub> परिणाम k, और स्कोर ('X') के अनुरूप वजन (या [[प्रतिगमन गुणांक]]) का एक सदिश है<sub>''i''</sub>, k) श्रेणी k को अवलोकन i निर्दिष्ट करने से जुड़ा स्कोर है। [[असतत पसंद]] सिद्धांत में, जहां अवलोकन लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, स्कोर को उस व्यक्ति से जुड़ी [[उपयोगिता]] माना जाता है जिसे मैं परिणाम k चुन रहा हूं। अनुमानित परिणाम उच्चतम स्कोर वाला है। | ||
मल्टीनोमियल लॉगिट मॉडल और कई अन्य तरीकों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल सेटअप ([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र ]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम वजन निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से स्कोर की व्याख्या की जाती है। विशेष रूप से, मल्टीनोमियल लॉगिट मॉडल में, स्कोर को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो अवलोकन की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में | मल्टीनोमियल लॉगिट मॉडल और कई अन्य तरीकों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल सेटअप ([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र ]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम वजन निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से स्कोर की व्याख्या की जाती है। विशेष रूप से, मल्टीनोमियल लॉगिट मॉडल में, स्कोर को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो अवलोकन की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित करने का एक सैद्धांतिक तरीका प्रदान करता है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े [[भविष्य कहनेवाला मॉडलिंग]] की कल्पना करें, जो सबमॉडल्स की एक श्रृंखला में टूट जाता है, जहां एक दिए गए सबमॉडल की भविष्यवाणी को दूसरे सबमॉडल के इनपुट के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे सबमॉडल में इनपुट के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% सटीकता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में केवल 0.9 है<sup>5</sup> = 59% सटीकता। यदि प्रत्येक सबमॉडल में 80% सटीकता है, तो समग्र सटीकता 0.8 तक गिर जाती है<sup>5</sup> = 33% सटीकता। इस मुद्दे को [[त्रुटि प्रसार]] के रूप में जाना जाता है और यह वास्तविक दुनिया के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो आमतौर पर कई भागों से बना होता है। केवल एक इष्टतम भविष्यवाणी करने के बजाय प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस मुद्दे को कम करने का एक साधन है।{{Citation needed|reason=Source needed for how exactly the probability estimates of each outcome can help|date=September 2017}} | ||
=== सेटअप === | === सेटअप === | ||
Line 42: | Line 41: | ||
==== डेटा बिंदु ==== | ==== डेटा बिंदु ==== | ||
विशेष रूप से, यह माना जाता है कि हमारे पास एन देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x का एक | विशेष रूप से, यह माना जाता है कि हमारे पास एन देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x का एक समूह होता है<sub>''1,i''</sub> ... एक्स<sub>''M,i''</sub> (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि), और एक संबद्ध श्रेणीबद्ध चर परिणाम Y<sub>''i''</sub> (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और अक्सर गणितीय रूप से प्रत्येक को 1 से K तक मनमाने ढंग से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और अक्सर एन प्रयोगों की टिप्पणियों में उत्पन्न होने के बारे में सोचा जाता है - हालांकि एक प्रयोग में डेटा एकत्र करने से ज्यादा कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नए प्रयोग के परिणाम को एक नए डेटा बिंदु के लिए सही ढंग से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, लेकिन परिणाम नहीं , उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है। | ||
कुछ उदाहरण: | कुछ उदाहरण: | ||
Line 55: | Line 54: | ||
:<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math> | :<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math> | ||
कहाँ <math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का | कहाँ <math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math> (एक पंक्ति वेक्टर) अवलोकन i से जुड़े व्याख्यात्मक चर का समूह है। | ||
=== स्वतंत्र | === स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में === | ||
मल्टीनोमियल लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र | मल्टीनोमियल लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर लॉजिस्टिक रिग्रेशन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को पिवट के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को पिवट के खिलाफ अलग से रिग्रेस किया जाता है। नतीजा। यदि परिणाम K (अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं: | ||
: <math> | : <math> | ||
Line 88: | Line 87: | ||
=== लॉग-लीनियर मॉडल === के रूप में | === लॉग-लीनियर मॉडल === के रूप में | ||
लॉजिस्टिक रिग्रेशन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में | लॉजिस्टिक रिग्रेशन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक रिग्रेशन का सूत्रीकरण सीधे मल्टी-वे रिग्रेशन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त [[सामान्यीकरण कारक]], विभाजन फ़ंक्शन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं: | ||
: <math> | : <math> | ||
Line 94: | Line 93: | ||
</math>. | </math>. | ||
जैसा कि | जैसा कि द्विचर मामले में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है <math>- \ln Z</math> यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह एक [[प्रायिकता वितरण]] बनाता है, यानी कि वे सभी एक के लिए योग करें: | ||
:<math>\sum_{k=1}^{K} \Pr(Y_i=k) = 1</math> | :<math>\sum_{k=1}^{K} \Pr(Y_i=k) = 1</math> | ||
Line 135: | Line 134: | ||
:<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math> | :<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math> | ||
सॉफ्टमैक्स फ़ंक्शन इस प्रकार | सॉफ्टमैक्स फ़ंक्शन इस प्रकार द्विचर लॉजिस्टिक रिग्रेशन में [[रसद समारोह]] के समतुल्य के रूप में कार्य करता है। | ||
ध्यान दें कि सभी नहीं <math>\beta_k</math> गुणांक के वैक्टर विशिष्ट [[पहचान]] योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूरी तरह से निर्धारित हो जाती है। नतीजतन, ही हैं <math>k-1</math> अलग से निर्दिष्ट संभावनाएँ, और इसलिए <math>k-1</math> गुणांक के अलग-अलग पहचाने जाने योग्य वैक्टर। इसे देखने का एक तरीका यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं: | ध्यान दें कि सभी नहीं <math>\beta_k</math> गुणांक के वैक्टर विशिष्ट [[पहचान]] योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूरी तरह से निर्धारित हो जाती है। नतीजतन, ही हैं <math>k-1</math> अलग से निर्दिष्ट संभावनाएँ, और इसलिए <math>k-1</math> गुणांक के अलग-अलग पहचाने जाने योग्य वैक्टर। इसे देखने का एक तरीका यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं: | ||
Line 146: | Line 145: | ||
\end{align} | \end{align} | ||
</math> | </math> | ||
नतीजतन, यह | नतीजतन, यह समूह करने के लिए पारंपरिक है <math>C = -\boldsymbol\beta_K</math> (या वैकल्पिक रूप से, अन्य गुणांक वैक्टरों में से एक)। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के आस-पास पिवोट करने के बराबर है, और यह जांचना कि अन्य सभी K-1 विकल्प कितने बेहतर या खराब हैं, उस विकल्प के सापेक्ष जो हम घूम रहे हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं: | ||
:<math> | :<math> | ||
Line 163: | Line 162: | ||
=== एक अव्यक्त-चर मॉडल === के रूप में | === एक अव्यक्त-चर मॉडल === के रूप में | ||
लॉजिस्टिक रिग्रेशन#टू-वे लेटेंट-वैरिएबल मॉडल| | लॉजिस्टिक रिग्रेशन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक रिग्रेशन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में मल्टीनोमियल लॉजिस्टिक रिग्रेशन तैयार करना भी संभव है। यह सूत्रीकरण असतत पसंद मॉडल के सिद्धांत में आम है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है। | ||
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup> (अर्थात् एक बिना अवलोकन वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है: | कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup> (अर्थात् एक बिना अवलोकन वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है: | ||
Line 198: | Line 197: | ||
</math> | </math> | ||
यहां समझने के लिए कुछ चीजें हैं: | यहां समझने के लिए कुछ चीजें हैं: | ||
# सामान्य तौर पर, अगर <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तब <math>X - Y \sim \operatorname{Logistic}(0,b).</math> यही है, दो [[स्वतंत्र समान रूप से वितरित]] चरम-मूल्य-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक [[स्थान पैरामीटर]] है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण | # सामान्य तौर पर, अगर <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तब <math>X - Y \sim \operatorname{Logistic}(0,b).</math> यही है, दो [[स्वतंत्र समान रूप से वितरित]] चरम-मूल्य-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक [[स्थान पैरामीटर]] है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो चरम-मूल्य वितरण की प्रारंभिक पसंद बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है। | ||
# एक्सट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक [[स्केल पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तब <math>bX \sim \operatorname{Logistic}(0,b).</math> इसका मतलब यह है कि स्केल 1 के स्थान पर एक मनमाने पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन वैक्टरों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मूल्य वितरण (स्थान 0, स्केल 1) का उपयोग मनमाने ढंग से चरम-मूल्य वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। वास्तव में, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल | # एक्सट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक [[स्केल पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तब <math>bX \sim \operatorname{Logistic}(0,b).</math> इसका मतलब यह है कि स्केल 1 के स्थान पर एक मनमाने पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन वैक्टरों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मूल्य वितरण (स्थान 0, स्केल 1) का उपयोग मनमाने ढंग से चरम-मूल्य वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। वास्तव में, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है। | ||
# क्योंकि केवल प्रतिगमन गुणांक के वैक्टर के अंतर का उपयोग किया जाता है, सभी गुणांक वैक्टरों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक वैक्टरों में से केवल K-1 की पहचान की जा सकती है, और अंतिम वाले को मनमाने मूल्य पर | # क्योंकि केवल प्रतिगमन गुणांक के वैक्टर के अंतर का उपयोग किया जाता है, सभी गुणांक वैक्टरों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक वैक्टरों में से केवल K-1 की पहचान की जा सकती है, और अंतिम वाले को मनमाने मूल्य पर समूह किया जा सकता है (उदाहरण के लिए 0)। | ||
वास्तव में उपरोक्त संभावनाओं के मूल्यों को खोजना कुछ कठिन है, और मूल्यों के एक | वास्तव में उपरोक्त संभावनाओं के मूल्यों को खोजना कुछ कठिन है, और मूल्यों के एक समूह के एक विशेष [[आदेश आँकड़ा]] (पहला, यानी अधिकतम) की गणना करने की समस्या है। हालाँकि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं। | ||
== अवरोधन का अनुमान == | == अवरोधन का अनुमान == |
Revision as of 14:17, 11 March 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।[1] यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण निर्भर चर के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है (जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।).
बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुपत्नी LR सम्मिलित है,[2][3] मल्टीक्लास LR, सॉफ्टमैक्स एक्टिवेशन फंक्शन रिग्रेशन, मल्टीनोमियल लॉगिट (mlogit), अधिकतम एन्ट्रॉपी (MaxEnt) क्लासिफायरियर, और सशर्त अधिकतम एन्ट्रापी मॉडल।[4]
पृष्ठभूमि
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर माप का स्तर # नाममात्र माप होता है (समकक्ष श्रेणीबद्ध, जिसका अर्थ है कि यह किसी भी श्रेणी के समूह में आता है जिसे किसी भी सार्थक तरीके से आदेश नहीं दिया जा सकता है) और जिसके लिए इससे अधिक हैं दो श्रेणियां। कुछ उदाहरण होंगे:
- एक कॉलेज के छात्र अपने ग्रेड, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
- विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
- एक हैंड्स-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, स्पीच सिग्नल के विभिन्न गुण दिए गए थे?
- विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
- फर्म की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक फर्म किस देश में अपना कार्यालय स्थापित करेगी?
ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में आम तौर पर भविष्यवाणी करने के लिए एक निर्भर चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से आदेश नहीं दिया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह (जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग किया जाता है निर्भर चर की भविष्यवाणी करने के लिए। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष समाधान है जो आश्रित चर के प्रत्येक विशेष मूल्य की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मूल्यों को आमतौर पर कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है (उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
अनुमान
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक मामले के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि निर्भर चर को किसी भी मामले के लिए स्वतंत्र चर से पूरी तरह से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस क्लासिफायरियर के विपरीत); हालाँकि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना मुश्किल हो जाता है।[5] यदि मल्टीनोमियल लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (IIA) की स्वतंत्रता की धारणा पर निर्भर करता है, जो हमेशा वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को काम पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देता है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। IIA परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; हालांकि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति अक्सर इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प पेश किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच उदासीन हो सकता है, और इसलिए एक कार प्रदर्शित कर सकता है: नीली बस: लाल बस अंतर अनुपात 1: 0.5: 0.5 का, इस प्रकार कार का 1: 1 अनुपात बनाए रखना: एक परिवर्तित कार को अपनाने के दौरान कोई भी बस: 1: 0.5 का नीली बस अनुपात। यहां लाल बस का विकल्प वास्तव में अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।
यदि मल्टीनोमियल लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प गायब हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नेस्टेड लॉगिट या बहुराष्ट्रीय संभावना का उपयोग ऐसे मामलों में किया जा सकता है क्योंकि वे IIA के उल्लंघन की अनुमति देते हैं।[6]
मॉडल
परिचय
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान तरीके हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक रिग्रेशन पर लेख सरल लॉजिस्टिक रिग्रेशन के कई समतुल्य फॉर्मूलेशन प्रस्तुत करता है, और इनमें से कई मल्टीनोमियल लॉगिट मॉडल में एनालॉग हैं।
उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फ़ंक्शन का निर्माण करना है जो वजन के एक समूह से एक अंक बनाता है जो एक डॉट उत्पाद का उपयोग करके दिए गए अवलोकन के व्याख्यात्मक चर (विशेषताओं) के साथ रैखिक संयोजन होता है। :
जहां एक्सi प्रेक्षण i, 'β' का वर्णन करने वाले व्याख्यात्मक चरों का सदिश हैk परिणाम k, और स्कोर ('X') के अनुरूप वजन (या प्रतिगमन गुणांक) का एक सदिश हैi, k) श्रेणी k को अवलोकन i निर्दिष्ट करने से जुड़ा स्कोर है। असतत पसंद सिद्धांत में, जहां अवलोकन लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, स्कोर को उस व्यक्ति से जुड़ी उपयोगिता माना जाता है जिसे मैं परिणाम k चुन रहा हूं। अनुमानित परिणाम उच्चतम स्कोर वाला है।
मल्टीनोमियल लॉगिट मॉडल और कई अन्य तरीकों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल सेटअप (परसेप्ट्रॉन एल्गोरिथ्म, समर्थन वेक्टर यंत्र , रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम वजन निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से स्कोर की व्याख्या की जाती है। विशेष रूप से, मल्टीनोमियल लॉगिट मॉडल में, स्कोर को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो अवलोकन की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित करने का एक सैद्धांतिक तरीका प्रदान करता है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े भविष्य कहनेवाला मॉडलिंग की कल्पना करें, जो सबमॉडल्स की एक श्रृंखला में टूट जाता है, जहां एक दिए गए सबमॉडल की भविष्यवाणी को दूसरे सबमॉडल के इनपुट के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे सबमॉडल में इनपुट के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% सटीकता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में केवल 0.9 है5 = 59% सटीकता। यदि प्रत्येक सबमॉडल में 80% सटीकता है, तो समग्र सटीकता 0.8 तक गिर जाती है5 = 33% सटीकता। इस मुद्दे को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक दुनिया के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो आमतौर पर कई भागों से बना होता है। केवल एक इष्टतम भविष्यवाणी करने के बजाय प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस मुद्दे को कम करने का एक साधन है।[citation needed]
सेटअप
मूल सेटअप रसद प्रतिगमन के समान है, केवल अंतर यह है कि आश्रित चर द्विआधारी चर के बजाय श्रेणीबद्ध चर हैं, अर्थात केवल दो के बजाय K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।
डेटा बिंदु
विशेष रूप से, यह माना जाता है कि हमारे पास एन देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x का एक समूह होता है1,i ... एक्सM,i (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि), और एक संबद्ध श्रेणीबद्ध चर परिणाम Yi (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और अक्सर गणितीय रूप से प्रत्येक को 1 से K तक मनमाने ढंग से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और अक्सर एन प्रयोगों की टिप्पणियों में उत्पन्न होने के बारे में सोचा जाता है - हालांकि एक प्रयोग में डेटा एकत्र करने से ज्यादा कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नए प्रयोग के परिणाम को एक नए डेटा बिंदु के लिए सही ढंग से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, लेकिन परिणाम नहीं , उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।
कुछ उदाहरण:
- देखे गए परिणाम मरीजों के एक समूह में हेपेटाइटिस (संभवत: कोई बीमारी और/या अन्य संबंधित बीमारियों सहित) जैसी बीमारी के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है (लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सी बीमारी एक नए रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
- देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई पार्टी हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं (जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नए मतदाता के संभावित वोट की भविष्यवाणी करना है।
रैखिक भविष्यवक्ता
रेखीय प्रतिगमन के अन्य रूपों की तरह, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फ़ंक्शन का उपयोग करता है संभावना की भविष्यवाणी करने के लिए कि अवलोकन i का परिणाम k है, निम्नलिखित रूप में:
कहाँ mth व्याख्यात्मक चर और kth परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर आम तौर पर आकार एम + 1 के वैक्टर में समूहीकृत होते हैं, ताकि भविष्यवक्ता फ़ंक्शन को अधिक कॉम्पैक्ट रूप से लिखा जा सके:
कहाँ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और (एक पंक्ति वेक्टर) अवलोकन i से जुड़े व्याख्यात्मक चर का समूह है।
स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में
मल्टीनोमियल लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर लॉजिस्टिक रिग्रेशन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को पिवट के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को पिवट के खिलाफ अलग से रिग्रेस किया जाता है। नतीजा। यदि परिणाम K (अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:
- .
इस फॉर्मूलेशन को कंपोज़िशनल_डेटा # एडिटिव_लोग्रेटियो_ट्रांसफ़ॉर्म ट्रांसफ़ॉर्म के रूप में भी जाना जाता है, जो आमतौर पर कंपोज़िशनल डेटा विश्लेषण में उपयोग किया जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:
इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:
- .
हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:
- .
तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।
गुणांक का आकलन
प्रत्येक सदिश β' में अज्ञात पैरामीटरkआम तौर पर संयुक्त रूप से अधिकतम पोस्टीरियरी (एमएपी) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी समाधानों को रोकने के लिए वजन के नियमितीकरण (गणित) का उपयोग करके अधिकतम संभावना का विस्तार है (आमतौर पर एक स्क्वायर रेगुलराइजिंग फ़ंक्शन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, लेकिन अन्य वितरण भी संभव हैं)। समाधान आमतौर पर पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त स्केलिंग का उपयोग करके पाया जाता है,[7] पुनरावृत्त रूप से कम से कम वर्ग (आईआरएलएस),[8] एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से,[4]या विशेष समन्वय वंश एल्गोरिदम द्वारा।[9]
=== लॉग-लीनियर मॉडल === के रूप में
लॉजिस्टिक रिग्रेशन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक रिग्रेशन का सूत्रीकरण सीधे मल्टी-वे रिग्रेशन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फ़ंक्शन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं:
- .
जैसा कि द्विचर मामले में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह एक प्रायिकता वितरण बनाता है, यानी कि वे सभी एक के लिए योग करें:
सामान्य रूप से गुणा करने के बजाय हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:
- .
वितरण के लिए मात्रा Z को विभाजन फ़ंक्शन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फ़ंक्शन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:
इसलिए:
ध्यान दें कि यह कारक इस अर्थ में स्थिर है कि यह Y का कार्य नहीं हैi, जो कि वह चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। हालांकि, यह निश्चित रूप से व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, अज्ञात प्रतिगमन गुणांक β के संबंध मेंk, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।
संभावनाओं के लिए परिणामी समीकरण हैं
- .
या आम तौर पर:
निम्नलिखित कार्य:
सॉफ्टमैक्स फ़ंक्शन के रूप में जाना जाता है। इसका कारण यह है कि मूल्यों को प्रतिपादित करने का प्रभाव उनके बीच मतभेदों को बढ़ा-चढ़ाकर पेश करना है। नतीजतन, जब भी 0 के करीब का मान लौटाएगासभी मूल्यों के अधिकतम से काफी कम है, और अधिकतम मूल्य पर लागू होने पर 1 के करीब मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मूल्य के बेहद करीब न हो। इस प्रकार, सॉफ्टमैक्स फ़ंक्शन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकनी फ़ंक्शन के रूप में व्यवहार करता है (जो आसानी से भेदभाव (गणित), आदि हो सकता है) और जो संकेतक फ़ंक्शन का अनुमान लगाता है
इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं
सॉफ्टमैक्स फ़ंक्शन इस प्रकार द्विचर लॉजिस्टिक रिग्रेशन में रसद समारोह के समतुल्य के रूप में कार्य करता है।
ध्यान दें कि सभी नहीं गुणांक के वैक्टर विशिष्ट पहचान योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूरी तरह से निर्धारित हो जाती है। नतीजतन, ही हैं अलग से निर्दिष्ट संभावनाएँ, और इसलिए गुणांक के अलग-अलग पहचाने जाने योग्य वैक्टर। इसे देखने का एक तरीका यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:
नतीजतन, यह समूह करने के लिए पारंपरिक है (या वैकल्पिक रूप से, अन्य गुणांक वैक्टरों में से एक)। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के आस-पास पिवोट करने के बराबर है, और यह जांचना कि अन्य सभी K-1 विकल्प कितने बेहतर या खराब हैं, उस विकल्प के सापेक्ष जो हम घूम रहे हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:
यह निम्नलिखित समीकरणों की ओर जाता है:
प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अलावा, यह K-1 स्वतंत्र दो-तरफ़ा प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में बिल्कुल वैसा ही है।
=== एक अव्यक्त-चर मॉडल === के रूप में
लॉजिस्टिक रिग्रेशन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक रिग्रेशन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में मल्टीनोमियल लॉजिस्टिक रिग्रेशन तैयार करना भी संभव है। यह सूत्रीकरण असतत पसंद मॉडल के सिद्धांत में आम है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है।
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y हैi,k* (अर्थात् एक बिना अवलोकन वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:
कहाँ यानी एक मानक प्रकार -1 चरम मूल्य वितरण।
इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, मैं परिणाम k चुन रहा हूं, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो पसंद में जाने वाले अन्य अप्रतिबंधित कारकों के लिए जिम्मेदार है। वास्तविक चर का मान तब इन अव्यक्त चरों से एक गैर-यादृच्छिक फैशन में निर्धारित किया जाता है (अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और केवल यदि संबद्ध उपयोगिता (का मान) ) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के बिल्कुल समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:
या समकक्ष:
आइए पहले समीकरण को अधिक बारीकी से देखें, जिसे हम इस प्रकार लिख सकते हैं:
यहां समझने के लिए कुछ चीजें हैं:
- सामान्य तौर पर, अगर और तब यही है, दो स्वतंत्र समान रूप से वितरित चरम-मूल्य-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक स्थान पैरामीटर है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो चरम-मूल्य वितरण की प्रारंभिक पसंद बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है।
- एक्सट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक स्केल पैरामीटर है, जैसे कि यदि तब इसका मतलब यह है कि स्केल 1 के स्थान पर एक मनमाने पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन वैक्टरों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मूल्य वितरण (स्थान 0, स्केल 1) का उपयोग मनमाने ढंग से चरम-मूल्य वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। वास्तव में, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है।
- क्योंकि केवल प्रतिगमन गुणांक के वैक्टर के अंतर का उपयोग किया जाता है, सभी गुणांक वैक्टरों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक वैक्टरों में से केवल K-1 की पहचान की जा सकती है, और अंतिम वाले को मनमाने मूल्य पर समूह किया जा सकता है (उदाहरण के लिए 0)।
वास्तव में उपरोक्त संभावनाओं के मूल्यों को खोजना कुछ कठिन है, और मूल्यों के एक समूह के एक विशेष आदेश आँकड़ा (पहला, यानी अधिकतम) की गणना करने की समस्या है। हालाँकि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।
अवरोधन का अनुमान
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में एक विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।
== प्राकृतिक भाषा प्रसंस्करण == में आवेदन प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग आमतौर पर सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर (आमतौर पर सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। हालांकि, इस तरह के एक मॉडल में सीखना एक सरल बेयस क्लासिफायरियर की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, Naive Bayes क्लासिफायरियर में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण मामला है, जबकि अधिकतम एन्ट्रॉपी क्लासिफायरियर में वज़न, जो आमतौर पर अधिकतम पोस्टीरियरी (MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, होना चाहिए पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।
यह भी देखें
- संभार तन्त्र परावर्तन
- बहुराष्ट्रीय संभावना
संदर्भ
- ↑ Greene, William H. (2012). अर्थमितीय विश्लेषण (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.
- ↑ Engel, J. (1988). "पॉलीटॉमस लॉजिस्टिक रिग्रेशन". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.
- ↑ Menard, Scott (2002). एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस. SAGE. p. 91. ISBN 9780761922087.
- ↑ 4.0 4.1 Malouf, Robert (2002). अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना (PDF). Sixth Conf. on Natural Language Learning (CoNLL). pp. 49–55.
- ↑ Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.
- ↑ Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.
- ↑ Darroch, J.N. & Ratcliff, D. (1972). "लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग". The Annals of Mathematical Statistics. 43 (5): 1470–1480. doi:10.1214/aoms/1177692379.
- ↑ Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. pp. 206–209.
- ↑ Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति" (PDF). Machine Learning. 85 (1–2): 41–75. doi:10.1007/s10994-010-5221-8.