बहुपद तार्किक प्रतिगमन: Difference between revisions
No edit summary |
No edit summary |
||
(9 intermediate revisions by 4 users not shown) | |||
Line 3: | Line 3: | ||
{{Regression bar}} | {{Regression bar}} | ||
आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।<ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर|आश्रित चर]] के विभिन्न संभावित परिणामों की संभावनाओं की | आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ। <ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर|आश्रित चर]] के विभिन्न संभावित परिणामों की संभावनाओं की प्रागुक्ति करने के लिए किया जाता है, [[स्वतंत्र चर]] का एक समूह दिया जाता है(जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकते है। ). | ||
बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें | बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी एलआर,<ref>{{Cite journal | doi = 10.1111/j.1467-9574.1988.tb01238.x| title = पॉलीटॉमस लॉजिस्टिक रिग्रेशन| journal = Statistica Neerlandica| volume = 42| issue = 4| pages = 233–252| year = 1988| last1 = Engel | first1 = J.}}</ref><ref>{{cite book |title=एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस|url=https://archive.org/details/appliedlogisticr00mena |url-access=limited |first=Scott |last=Menard |publisher=SAGE |year=2002 |page=[https://archive.org/details/appliedlogisticr00mena/page/n99 91]|isbn=9780761922087 }}</ref> बहुकक्ष एलआर, [[सॉफ्टमैक्स एक्टिवेशन फंक्शन|सॉफ्टमैक्स]] प्रतिगमन, बहुपद लॉगिट(mलॉगिट), अधिकतम एन्ट्रॉपी( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है। <ref name="malouf">{{cite conference |first=Robert |last=Malouf |year=2002 |url=http://aclweb.org/anthology/W/W02/W02-2018.pdf |title=अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना|conference=Sixth Conf. on Natural Language Learning (CoNLL) |pages=49–55}}</ref> | ||
== पृष्ठाधार == | == पृष्ठाधार == | ||
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर | बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है(समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे: | ||
*एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे? | *एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे? | ||
*विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है? | *विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है? | ||
*एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे? | *एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे? | ||
*विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा? | *विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा? | ||
*व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक | *व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी? | ||
ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः | ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः प्रागुक्ति करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह(जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की प्रागुक्ति करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है(उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)। | ||
== अनुमान == | == अनुमान == | ||
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप | बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से प्रागुक्ति नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है(उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है। <ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref> | ||
यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि | यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों(आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी। | ||
यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य | यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य प्रागुक्ति करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे(उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग|नीडन लॉगिट]] या [[ बहुराष्ट्रीय संभावना |बहुराष्ट्रीय संभावना]] का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं। <ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref> | ||
Line 30: | Line 30: | ||
=== परिचय === | === परिचय === | ||
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप | बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। रसद प्रतिगमन पर लेख सरल रसद प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं। | ||
उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद|बिंदु उत्पाद]] का उपयोग करके दिए गए प्रेक्षण | उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद|बिंदु उत्पाद]] का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर(विशेषताओं) के साथ [[रैखिक संयोजन]] होता है। : | ||
:<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math> | :<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math> | ||
जहां X<sub>''i''</sub> | जहां X<sub>''i''</sub> प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है β<sub>''k''</sub> भार(या [[प्रतिगमन गुणांक]]) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक(X<sub>''i''</sub>, k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। [[असतत पसंद|असतत विकल्प]] सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी [[उपयोगिता]] माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है। | ||
बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था ([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र ]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम भार निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस | बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र |समर्थन सदिश यंत्र]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम भार निर्धारित(प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस प्रकार से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की प्रागुक्ति को एक बड़ी प्रक्रिया में सम्मिलित करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े [[भविष्य कहनेवाला मॉडलिंग|प्रागोक्ति निर्देश]] की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की प्रागुक्ति को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस प्रागुक्ति को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की प्रागुक्ति में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र 0.9<sup>5</sup> = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.8<sup>5</sup> = 33% यथार्थता तक गिर जाती है। इस निर्गम को [[त्रुटि प्रसार]] के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। मात्र एक इष्टतम प्रागुक्ति करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की प्रागुक्ति करना, इस निर्गम को कम करने का एक साधन है। {{Citation needed|reason=Source needed for how exactly the probability estimates of each outcome can help|date=September 2017}} | ||
=== | === व्यवस्थापन === | ||
मूल व्यवस्था रसद प्रतिगमन के समान है, | मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर [[द्विआधारी चर]] के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें। | ||
==== डेटा बिंदु ==== | ==== डेटा बिंदु ==== | ||
विशेष रूप से, यह माना जाता है कि हमारे | विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i(1 से N तक) में M व्याख्यात्मक चर x<sub>''1,i''</sub> ... X<sub>''M,i''</sub>(उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Y<sub>''i''</sub>(उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों(जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक अव्यवस्थिततः रूप से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन प्रयोग के परिणाम को एक नवीन डेटा बिंदु के लिए सही रूप से प्रागुक्ति की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है। | ||
कुछ उदाहरण: | कुछ उदाहरण: | ||
*देखे गए परिणाम | *देखे गए परिणाम रोगियों के एक समूह में [[हेपेटाइटिस|यकृत शोथ]](संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है(लिंग, जाति, आयु, [[रक्तचाप]], विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब प्रागुक्ति करना है कि कौन सा रोग एक नवीन रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है। | ||
*देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई | *देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं(जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की प्रागुक्ति करना है। | ||
==== रैखिक भविष्यवक्ता ==== | ==== रैखिक भविष्यवक्ता ==== | ||
रेखीय प्रतिगमन के अन्य रूपों | रेखीय प्रतिगमन के अन्य रूपों के जैसे, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन <math>f(k,i)</math> का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में: | ||
:<math>f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i} + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},</math> | :<math>f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i} + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},</math> | ||
जहाँ<math>\beta_{m,k}</math> mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके: | |||
:<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math> | :<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math> | ||
जहाँ<math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math>(एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है। | |||
=== स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में === | === स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में === | ||
बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर | बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K(अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं: | ||
: <math> | : <math> | ||
\ln \frac{\Pr(Y_i=k)}{\Pr(Y_i=K)} \,=\, \boldsymbol\beta_k \cdot \mathbf{X}_i \;\;\;\;,\;\;k < K | \ln \frac{\Pr(Y_i=k)}{\Pr(Y_i=K)} \,=\, \boldsymbol\beta_k \cdot \mathbf{X}_i \;\;\;\;,\;\;k < K | ||
</math> | </math> | ||
इस सूत्रीकरण को | इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है: | ||
: <math> | : <math> | ||
Line 72: | Line 72: | ||
इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं: | इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं: | ||
:<math>\Pr(Y_i=K) \,=\, 1- \sum_{k=1}^{K-1} \Pr (Y_i = k) \,=\, 1 - \sum_{k=1}^{K-1}{\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\Rightarrow\;\; \Pr(Y_i=K) \,=\, \frac{1}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}</math> | :<math>\Pr(Y_i=K) \,=\, 1- \sum_{k=1}^{K-1} \Pr (Y_i = k) \,=\, 1 - \sum_{k=1}^{K-1}{\Pr(Y_i=K)}\;e^{\boldsymbol\beta_k \cdot \mathbf{X}_i} \;\;\Rightarrow\;\; \Pr(Y_i=K) \,=\, \frac{1}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}}</math> | ||
हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं: | हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं: | ||
Line 80: | Line 80: | ||
</math>. | </math>. | ||
तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है। | तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है। | ||
=== गुणांक का आकलन === | === गुणांक का आकलन === | ||
प्रत्येक सदिश ''β | प्रत्येक सदिश ''β<sub>k</sub> में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती(प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के [[नियमितीकरण (गणित)|नियमितीकरण(गणित)]] का उपयोग करके अधिकतम संभावना का विस्तार है(सामान्यतः एक वर्ग नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर [[पूर्व वितरण]], परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त प्रवर्धन का उपयोग करके पाया जाता है,<ref>{{Cite journal |title=लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग|author1=Darroch, J.N. |author2=Ratcliff, D. |name-list-style=amp |journal=The Annals of Mathematical Statistics |volume=43 |issue=5 |pages=1470–1480 |year=1972 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177692379 |doi=10.1214/aoms/1177692379|doi-access=free }}</ref> पुनरावृत्त रूप से कम से कम वर्ग(आईआरएलएस),<ref>{{cite book |first=Christopher M. |last=Bishop |year=2006 |title=पैटर्न मान्यता और मशीन प्रवीणता|publisher=Springer |pages=206–209}}</ref> [[एल-बीएफजीएस]] जैसे [[ढाल-आधारित अनुकूलन]] एल्गोरिदम के माध्यम से,<ref name="malouf"/>या विशेष [[समन्वय वंश|समन्वय अवरोहण]] एल्गोरिदम द्वारा। <ref>{{cite journal |first1=Hsiang-Fu |last1=Yu |first2=Fang-Lan |last2=Huang |first3=Chih-Jen |last3=Lin |year=2011 |title=रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति|journal=Machine Learning |volume=85 |issue=1–2 |pages=41–75 |url=http://www.csie.ntu.edu.tw/~cjlin/papers/maxent_dual.pdf |doi=10.1007/s10994-010-5221-8|doi-access=free }}</ref>'' | ||
== लॉग-रेखीय मॉडल के रूप में == | |||
लॉग-रेखीय मॉडल के रूप में द्विचर रसद प्रतिगमन का सूत्रीकरण सीधे बहु-मार्गी प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त [[सामान्यीकरण कारक]], विभाजन फलन(गणित) के लघुगणक का उपयोग करके दिए गए निर्गम को देखने की संभावना के लघुगणक को मॉडल करते हैं: | |||
: <math> | : <math> | ||
Line 95: | Line 93: | ||
</math>. | </math>. | ||
जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है <math>- \ln Z</math> यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह | जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है <math>- \ln Z</math> यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह [[प्रायिकता वितरण]] बनाता है, अर्थात् वे सभी एक के लिए योग करें: | ||
:<math>\sum_{k=1}^{K} \Pr(Y_i=k) = 1</math> | :<math>\sum_{k=1}^{K} \Pr(Y_i=k) = 1</math> | ||
सामान्य रूप से गुणा करने के | सामान्य रूप से गुणा करने के अतिरिक्त हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है: | ||
: <math> | : <math> | ||
Line 104: | Line 102: | ||
</math>. | </math>. | ||
वितरण के लिए मात्रा Z को विभाजन फलन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है: | वितरण के लिए मात्रा Z को विभाजन फलन(गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है: | ||
:<math> | :<math> | ||
Line 112: | Line 110: | ||
:<math>Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}</math> | :<math>Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}</math> | ||
ध्यान दें कि यह कारक इस | ध्यान दें कि यह कारक "निरंतर" इस अर्थ में है कि यह Y<sub>''i''</sub> का कार्य नहीं है, जो चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से अज्ञात प्रतिगमन गुणांक ''β''<sub>''k''</sub> के संबंध में व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, जिसे हमें किसी प्रकार की [[गणितीय अनुकूलन]] प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी। | ||
संभावनाओं के लिए परिणामी समीकरण हैं | संभावनाओं के लिए परिणामी समीकरण हैं | ||
Line 126: | Line 124: | ||
:<math>\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}</math> | :<math>\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}</math> | ||
[[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में जाना जाता है। इसका कारण यह है कि | [[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में जाना जाता है। इसका कारण यह है कि <math>x_1,\ldots,x_n</math> मानों को प्रतिपादित करने का प्रभाव उनके बीच अंतरों को बढ़ा-चढ़ाकर प्रस्तुत करना है। फलस्वरूप, <math>\operatorname{softmax}(k,x_1,\ldots,x_n)</math> 0 के समीप मान लौटाएगा जब भी <math>x_k</math>सभी मानों के अधिकतम से अत्यधिक कम होगा, और अधिकतम मान पर लागू होने पर 1 के समीप मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के अत्यंत समीप न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग [[भारित औसत]] बनाने के लिए किया जा सकता है जो एक चिकने फलन के रूप में व्यवहार करता है(जो सरली से विभेदित(गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है | ||
:<math>f(k) = \begin{cases} | :<math>f(k) = \begin{cases} | ||
Line 136: | Line 134: | ||
:<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math> | :<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math> | ||
सॉफ्टमैक्स फलन इस प्रकार द्विचर | सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद प्रतिगमन में [[रसद समारोह|रसद फलन]] के समतुल्य के रूप में कार्य करता है। | ||
ध्यान दें कि सभी | ध्यान दें कि गुणांक के सभी <math>\beta_k</math> सदिश विशिष्ट रूप से [[पहचान|अभिज्ञेय]] योग्य नहीं हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, शेष सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। फलस्वरूप, मात्र <math>k-1</math> अलग-अलग निर्दिष्ट संभावनाएं हैं, और इसलिए गुणांक के <math>k-1</math> गुणांक के अलग-अलग अभिज्ञेय योग्य सदिश हैं। इसे देखने की विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं: | ||
:<math> | :<math> | ||
Line 147: | Line 145: | ||
\end{align} | \end{align} | ||
</math> | </math> | ||
फलस्वरूप, यह <math>C = -\boldsymbol\beta_K</math>(या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक) समूहित करने के लिए पारंपरिक है। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, हम जिस विकल्प के चारों ओर घूम रहे हैं, उसके सापेक्ष अन्य सभी K-1 विकल्प कितने ठीक या बुरा हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं: | |||
:<math> | :<math> | ||
Line 160: | Line 158: | ||
\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K | \Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K | ||
</math> | </math> | ||
प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के | प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अतिरिक्त, यह K-1 स्वतंत्र दो-पथ प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में पूर्णतः वैसा ही है। | ||
== एक अव्यक्त-चर मॉडल के रूप में == | |||
द्विचर रसद प्रतिगमन के लिए वर्णित दो-पथ अव्यक्त चर मॉडल का पालन करते हुए एक अव्यक्त चर मॉडल के रूप में बहुपद रसद प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय संभावना मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना सरल बनाता है। | |||
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup>(अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है: | |||
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup> (अर्थात् एक बिना प्रेक्षण | |||
: <math> | : <math> | ||
Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K | Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K | ||
</math> | </math> | ||
जहाँ <math>\varepsilon_k \sim \operatorname{EV}_1(0,1),</math> अर्थात् एक मानक प्रकार -1 [[चरम मूल्य वितरण|परम मान वितरण]]। | |||
इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, | इस अव्यक्त चर को डेटा बिंदु i से जुड़ी उपयोगिता के रूप में माना जा सकता है, जो परिणाम k को चुनता है, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए होती है जो पसंद में जाते हैं। वास्तविक चर का मान <math>Y_i</math> तब इन अव्यक्त चरों से एक गैर-यादृच्छिक कार्य प्रणाली में निर्धारित किया जाता है(अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता( <math>Y_{i,k}^{\ast}</math> का मान) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के पूर्णतः समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है: | ||
: <math> | : <math> | ||
Line 188: | Line 185: | ||
\Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K | \Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K | ||
</math> | </math> | ||
आइए | आइए प्रथम समीकरण को अधिक ध्यान से देखें, जिसे हम इस प्रकार लिख सकते हैं: | ||
: <math> | : <math> | ||
Line 199: | Line 196: | ||
</math> | </math> | ||
यहां समझने के लिए कुछ चीजें हैं: | यहां समझने के लिए कुछ चीजें हैं: | ||
# | # सामान्यतः यदि <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तो <math>X - Y \sim \operatorname{Logistic}(0,b)</math>। अर्थात, दो [[स्वतंत्र समान रूप से वितरित]] परम-मान-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां प्रथम पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि प्रथम पैरामीटर एक [[स्थान पैरामीटर]] है, अर्थात् यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका तात्पर्य यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो परम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि यादृच्छिक लगता है, किंचित अधिक समझने योग्य है। | ||
# | # परम-मान या रसद वितरण में दूसरा पैरामीटर एक [[स्केल पैरामीटर|पैमाना पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तो <math>bX \sim \operatorname{Logistic}(0,b)</math>। इसका तात्पर्य यह है कि पैमाना 1 के स्थान पर एक अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके आपूर्ति की जा सकती है। पूर्व बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक परम-मान वितरण(स्थान 0, पैमाना 1) का उपयोग अव्यवस्थिततः रूप से परम-मान वितरण का उपयोग करने पर सामान्यता का कोई क्षति नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-अभिज्ञेय योग्य(इष्टतम गुणांक का कोई एकल समूह नहीं) है। | ||
# क्योंकि | # क्योंकि मात्र प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक यादृच्छिक स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका तात्पर्य यह है कि, लॉग-रेखीय मॉडल के जैसे, गुणांक सदिशों में से मात्र K-1 की अभिज्ञेय की जा सकती है, और अंतिम वाले को अव्यवस्थिततः मान पर समूहित किया जा सकता है(उदाहरण के लिए 0)। | ||
यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के | यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के विशेष [[आदेश आँकड़ा|अनुक्रमित आँकड़े]](प्रथम, अर्थात् अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं। | ||
== अवरोधन का अनुमान == | == अवरोधन का अनुमान == | ||
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग [[विषम अनुपात]] निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में | बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग [[विषम अनुपात]] निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है। | ||
== [[प्राकृतिक भाषा प्रसंस्करण]] == | == [[प्राकृतिक भाषा प्रसंस्करण]] में आवेदन == | ||
प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय | प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय एलआर वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर(सामान्यतः सुविधाओं के रूप में जाना जाता है) की [[सांख्यिकीय स्वतंत्रता]] नहीं मानते हैं। यद्यपि, इस प्रकार के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, सहज बेयस वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण विषय है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में भारित, जो सामान्यतः अधिकतम परवर्ती(MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना। | ||
== यह भी देखें == | == यह भी देखें == | ||
* | * रसद प्रतिगमन | ||
* बहुराष्ट्रीय संभावना | * बहुराष्ट्रीय संभावना | ||
==संदर्भ== | ==संदर्भ== | ||
{{reflist|30em}} | {{reflist|30em}} | ||
[[Category: | [[Category:All articles with unsourced statements]] | ||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category:Articles with unsourced statements from September 2017]] | |||
[[Category:Created On 02/03/2023]] | [[Category:Created On 02/03/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Missing redirects]] | |||
[[Category:Pages with empty portal template]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Portal-inline template with redlinked portals]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:प्रतिगमन मॉडल]] | |||
[[Category:वर्गीकरण एल्गोरिदम]] | |||
[[Category:संभार तन्त्र परावर्तन]] |
Latest revision as of 07:12, 19 March 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ। [1] यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण आश्रित चर के विभिन्न संभावित परिणामों की संभावनाओं की प्रागुक्ति करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है(जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकते है। ).
बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी एलआर,[2][3] बहुकक्ष एलआर, सॉफ्टमैक्स प्रतिगमन, बहुपद लॉगिट(mलॉगिट), अधिकतम एन्ट्रॉपी( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है। [4]
पृष्ठाधार
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है(समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे:
- एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
- विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
- एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे?
- विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
- व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?
ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः प्रागुक्ति करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह(जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की प्रागुक्ति करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है(उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
अनुमान
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से प्रागुक्ति नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है(उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है। [5]
यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों(आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।
यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य प्रागुक्ति करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे(उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नीडन लॉगिट या बहुराष्ट्रीय संभावना का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं। [6]
मॉडल
परिचय
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। रसद प्रतिगमन पर लेख सरल रसद प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।
उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक बिंदु उत्पाद का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर(विशेषताओं) के साथ रैखिक संयोजन होता है। :
जहां Xi प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है βk भार(या प्रतिगमन गुणांक) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक(Xi, k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। असतत विकल्प सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी उपयोगिता माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।
बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था(परसेप्ट्रॉन एल्गोरिथ्म, समर्थन सदिश यंत्र, रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम भार निर्धारित(प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस प्रकार से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की प्रागुक्ति को एक बड़ी प्रक्रिया में सम्मिलित करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े प्रागोक्ति निर्देश की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की प्रागुक्ति को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस प्रागुक्ति को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की प्रागुक्ति में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र 0.95 = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.85 = 33% यथार्थता तक गिर जाती है। इस निर्गम को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। मात्र एक इष्टतम प्रागुक्ति करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की प्रागुक्ति करना, इस निर्गम को कम करने का एक साधन है।[citation needed]
व्यवस्थापन
मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर द्विआधारी चर के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।
डेटा बिंदु
विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i(1 से N तक) में M व्याख्यात्मक चर x1,i ... XM,i(उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Yi(उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों(जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक अव्यवस्थिततः रूप से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन प्रयोग के परिणाम को एक नवीन डेटा बिंदु के लिए सही रूप से प्रागुक्ति की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।
कुछ उदाहरण:
- देखे गए परिणाम रोगियों के एक समूह में यकृत शोथ(संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है(लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब प्रागुक्ति करना है कि कौन सा रोग एक नवीन रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
- देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं(जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की प्रागुक्ति करना है।
रैखिक भविष्यवक्ता
रेखीय प्रतिगमन के अन्य रूपों के जैसे, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में:
जहाँ mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके:
जहाँ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और (एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है।
स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में
बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K(अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:
इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:
इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:
हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:
- .
तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।
गुणांक का आकलन
प्रत्येक सदिश βk में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती(प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के नियमितीकरण(गणित) का उपयोग करके अधिकतम संभावना का विस्तार है(सामान्यतः एक वर्ग नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त प्रवर्धन का उपयोग करके पाया जाता है,[7] पुनरावृत्त रूप से कम से कम वर्ग(आईआरएलएस),[8] एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से,[4]या विशेष समन्वय अवरोहण एल्गोरिदम द्वारा। [9]
लॉग-रेखीय मॉडल के रूप में
लॉग-रेखीय मॉडल के रूप में द्विचर रसद प्रतिगमन का सूत्रीकरण सीधे बहु-मार्गी प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फलन(गणित) के लघुगणक का उपयोग करके दिए गए निर्गम को देखने की संभावना के लघुगणक को मॉडल करते हैं:
- .
जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह प्रायिकता वितरण बनाता है, अर्थात् वे सभी एक के लिए योग करें:
सामान्य रूप से गुणा करने के अतिरिक्त हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:
- .
वितरण के लिए मात्रा Z को विभाजन फलन(गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:
इसलिए:
ध्यान दें कि यह कारक "निरंतर" इस अर्थ में है कि यह Yi का कार्य नहीं है, जो चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से अज्ञात प्रतिगमन गुणांक βk के संबंध में व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।
संभावनाओं के लिए परिणामी समीकरण हैं
- .
या सामान्यतः :
निम्नलिखित कार्य:
सॉफ्टमैक्स फलन के रूप में जाना जाता है। इसका कारण यह है कि मानों को प्रतिपादित करने का प्रभाव उनके बीच अंतरों को बढ़ा-चढ़ाकर प्रस्तुत करना है। फलस्वरूप, 0 के समीप मान लौटाएगा जब भी सभी मानों के अधिकतम से अत्यधिक कम होगा, और अधिकतम मान पर लागू होने पर 1 के समीप मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के अत्यंत समीप न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकने फलन के रूप में व्यवहार करता है(जो सरली से विभेदित(गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है
इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं
सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद प्रतिगमन में रसद फलन के समतुल्य के रूप में कार्य करता है।
ध्यान दें कि गुणांक के सभी सदिश विशिष्ट रूप से अभिज्ञेय योग्य नहीं हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, शेष सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। फलस्वरूप, मात्र अलग-अलग निर्दिष्ट संभावनाएं हैं, और इसलिए गुणांक के गुणांक के अलग-अलग अभिज्ञेय योग्य सदिश हैं। इसे देखने की विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:
फलस्वरूप, यह (या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक) समूहित करने के लिए पारंपरिक है। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, हम जिस विकल्प के चारों ओर घूम रहे हैं, उसके सापेक्ष अन्य सभी K-1 विकल्प कितने ठीक या बुरा हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:
यह निम्नलिखित समीकरणों की ओर जाता है:
प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अतिरिक्त, यह K-1 स्वतंत्र दो-पथ प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में पूर्णतः वैसा ही है।
एक अव्यक्त-चर मॉडल के रूप में
द्विचर रसद प्रतिगमन के लिए वर्णित दो-पथ अव्यक्त चर मॉडल का पालन करते हुए एक अव्यक्त चर मॉडल के रूप में बहुपद रसद प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय संभावना मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना सरल बनाता है।
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y हैi,k*(अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:
जहाँ अर्थात् एक मानक प्रकार -1 परम मान वितरण।
इस अव्यक्त चर को डेटा बिंदु i से जुड़ी उपयोगिता के रूप में माना जा सकता है, जो परिणाम k को चुनता है, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए होती है जो पसंद में जाते हैं। वास्तविक चर का मान तब इन अव्यक्त चरों से एक गैर-यादृच्छिक कार्य प्रणाली में निर्धारित किया जाता है(अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता( का मान) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के पूर्णतः समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:
या समतुल्य :
आइए प्रथम समीकरण को अधिक ध्यान से देखें, जिसे हम इस प्रकार लिख सकते हैं:
यहां समझने के लिए कुछ चीजें हैं:
- सामान्यतः यदि और तो । अर्थात, दो स्वतंत्र समान रूप से वितरित परम-मान-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां प्रथम पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि प्रथम पैरामीटर एक स्थान पैरामीटर है, अर्थात् यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका तात्पर्य यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो परम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि यादृच्छिक लगता है, किंचित अधिक समझने योग्य है।
- परम-मान या रसद वितरण में दूसरा पैरामीटर एक पैमाना पैरामीटर है, जैसे कि यदि तो । इसका तात्पर्य यह है कि पैमाना 1 के स्थान पर एक अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके आपूर्ति की जा सकती है। पूर्व बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक परम-मान वितरण(स्थान 0, पैमाना 1) का उपयोग अव्यवस्थिततः रूप से परम-मान वितरण का उपयोग करने पर सामान्यता का कोई क्षति नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-अभिज्ञेय योग्य(इष्टतम गुणांक का कोई एकल समूह नहीं) है।
- क्योंकि मात्र प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक यादृच्छिक स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका तात्पर्य यह है कि, लॉग-रेखीय मॉडल के जैसे, गुणांक सदिशों में से मात्र K-1 की अभिज्ञेय की जा सकती है, और अंतिम वाले को अव्यवस्थिततः मान पर समूहित किया जा सकता है(उदाहरण के लिए 0)।
यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के विशेष अनुक्रमित आँकड़े(प्रथम, अर्थात् अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।
अवरोधन का अनुमान
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।
प्राकृतिक भाषा प्रसंस्करण में आवेदन
प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय एलआर वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर(सामान्यतः सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। यद्यपि, इस प्रकार के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, सहज बेयस वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण विषय है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में भारित, जो सामान्यतः अधिकतम परवर्ती(MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।
यह भी देखें
- रसद प्रतिगमन
- बहुराष्ट्रीय संभावना
संदर्भ
- ↑ Greene, William H. (2012). अर्थमितीय विश्लेषण (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.
- ↑ Engel, J. (1988). "पॉलीटॉमस लॉजिस्टिक रिग्रेशन". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.
- ↑ Menard, Scott (2002). एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस. SAGE. p. 91. ISBN 9780761922087.
- ↑ 4.0 4.1 Malouf, Robert (2002). अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना (PDF). Sixth Conf. on Natural Language Learning (CoNLL). pp. 49–55.
- ↑ Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.
- ↑ Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.
- ↑ Darroch, J.N. & Ratcliff, D. (1972). "लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग". The Annals of Mathematical Statistics. 43 (5): 1470–1480. doi:10.1214/aoms/1177692379.
- ↑ Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. pp. 206–209.
- ↑ Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति" (PDF). Machine Learning. 85 (1–2): 41–75. doi:10.1007/s10994-010-5221-8.