बहुपद तार्किक प्रतिगमन: Difference between revisions
No edit summary |
No edit summary |
||
Line 3: | Line 3: | ||
{{Regression bar}} | {{Regression bar}} | ||
आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।<ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर|आश्रित चर]] के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, [[स्वतंत्र चर]] का एक समूह दिया जाता है (जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।). | आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।<ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर|आश्रित चर]] के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, [[स्वतंत्र चर]] का एक समूह दिया जाता है(जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।). | ||
बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें | बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी LR,<ref>{{Cite journal | doi = 10.1111/j.1467-9574.1988.tb01238.x| title = पॉलीटॉमस लॉजिस्टिक रिग्रेशन| journal = Statistica Neerlandica| volume = 42| issue = 4| pages = 233–252| year = 1988| last1 = Engel | first1 = J.}}</ref><ref>{{cite book |title=एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस|url=https://archive.org/details/appliedlogisticr00mena |url-access=limited |first=Scott |last=Menard |publisher=SAGE |year=2002 |page=[https://archive.org/details/appliedlogisticr00mena/page/n99 91]|isbn=9780761922087 }}</ref> बहुकक्ष LR, [[सॉफ्टमैक्स एक्टिवेशन फंक्शन|सॉफ्टमैक्स]] प्रतिगमन, बहुपद लॉगिट(mलॉगिट), अधिकतम एन्ट्रॉपी( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है।<ref name="malouf">{{cite conference |first=Robert |last=Malouf |year=2002 |url=http://aclweb.org/anthology/W/W02/W02-2018.pdf |title=अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना|conference=Sixth Conf. on Natural Language Learning (CoNLL) |pages=49–55}}</ref> | ||
== पृष्ठाधार == | == पृष्ठाधार == | ||
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर | बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है(समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे: | ||
*एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे? | *एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे? | ||
*विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है? | *विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है? | ||
*एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे? | *एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे? | ||
*विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा? | *विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा? | ||
*व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक | *व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी? | ||
ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः | ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः भविष्यवाणी करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह(जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की भविष्यवाणी करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है(उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)। | ||
== अनुमान == | == अनुमान == | ||
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप | बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है(उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है।<ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref> | ||
यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि | यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों(आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी। | ||
यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग|नीडन लॉगिट]] या [[ बहुराष्ट्रीय संभावना | बहुराष्ट्रीय संभावना]] का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।<ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref> | यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे(उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग|नीडन लॉगिट]] या [[ बहुराष्ट्रीय संभावना |बहुराष्ट्रीय संभावना]] का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।<ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref> | ||
Line 30: | Line 30: | ||
=== परिचय === | === परिचय === | ||
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप | बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। रसद प्रतिगमन पर लेख सरल रसद प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं। | ||
उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद|बिंदु उत्पाद]] का उपयोग करके दिए गए प्रेक्षण | उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद|बिंदु उत्पाद]] का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर(विशेषताओं) के साथ [[रैखिक संयोजन]] होता है। : | ||
:<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math> | :<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math> | ||
जहां X<sub>''i''</sub> | जहां X<sub>''i''</sub> प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है β<sub>''k''</sub> भार(या [[प्रतिगमन गुणांक]]) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक(X<sub>''i''</sub>, k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। [[असतत पसंद|असतत विकल्प]] सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी [[उपयोगिता]] माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है। | ||
बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था ([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र | समर्थन सदिश यंत्र]] , [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम भार निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस | बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र |समर्थन सदिश यंत्र]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम भार निर्धारित(प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस प्रकार से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े [[भविष्य कहनेवाला मॉडलिंग]] की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की भविष्यवाणी को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र 0.9<sup>5</sup> = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.8<sup>5</sup> = 33% यथार्थता तक गिर जाती है। इस निर्गम को [[त्रुटि प्रसार]] के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। मात्र एक इष्टतम भविष्यवाणी करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस निर्गम को कम करने का एक साधन है।{{Citation needed|reason=Source needed for how exactly the probability estimates of each outcome can help|date=September 2017}} | ||
=== व्यवस्था === | === व्यवस्था === | ||
मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र | मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर [[द्विआधारी चर]] के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें। | ||
==== डेटा बिंदु ==== | ==== डेटा बिंदु ==== | ||
विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x<sub>''1,i''</sub> ... X<sub>''M,i''</sub> (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) | विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i(1 से N तक) में M व्याख्यात्मक चर x<sub>''1,i''</sub> ... X<sub>''M,i''</sub>(उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Y<sub>''i''</sub>(उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों(जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक अव्यवस्थिततः रूप से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन प्रयोग के परिणाम को एक नवीन डेटा बिंदु के लिए सही रूप से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है। | ||
कुछ उदाहरण: | कुछ उदाहरण: | ||
*देखे गए परिणाम रोगियों के एक समूह में | *देखे गए परिणाम रोगियों के एक समूह में [[हेपेटाइटिस|यकृत शोथ]](संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है(लिंग, जाति, आयु, [[रक्तचाप]], विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सा रोग एक नवीन रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है। | ||
*देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं (जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन | *देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं(जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की भविष्यवाणी करना है। | ||
==== रैखिक भविष्यवक्ता ==== | ==== रैखिक भविष्यवक्ता ==== | ||
रेखीय प्रतिगमन के अन्य रूपों | रेखीय प्रतिगमन के अन्य रूपों के जैसे, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन <math>f(k,i)</math> का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में: | ||
:<math>f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i} + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},</math> | :<math>f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i} + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},</math> | ||
जहाँ<math>\beta_{m,k}</math> mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः | जहाँ<math>\beta_{m,k}</math> mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके: | ||
:<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math> | :<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math> | ||
जहाँ<math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math> (एक पंक्ति सदिश) प्रेक्षण | जहाँ<math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math>(एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है। | ||
=== स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में === | === स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में === | ||
बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद | बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K(अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं: | ||
: <math> | : <math> | ||
Line 65: | Line 65: | ||
</math> | </math> | ||
इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले | इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है: | ||
: <math> | : <math> | ||
Line 84: | Line 84: | ||
=== गुणांक का आकलन === | === गुणांक का आकलन === | ||
प्रत्येक सदिश ''β<sub>k</sub> में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम | प्रत्येक सदिश ''β<sub>k</sub> में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती(प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के [[नियमितीकरण (गणित)|नियमितीकरण(गणित)]] का उपयोग करके अधिकतम संभावना का विस्तार है(सामान्यतः एक वर्ग नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर [[पूर्व वितरण]], परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त प्रवर्धन का उपयोग करके पाया जाता है,<ref>{{Cite journal |title=लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग|author1=Darroch, J.N. |author2=Ratcliff, D. |name-list-style=amp |journal=The Annals of Mathematical Statistics |volume=43 |issue=5 |pages=1470–1480 |year=1972 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177692379 |doi=10.1214/aoms/1177692379|doi-access=free }}</ref> पुनरावृत्त रूप से कम से कम वर्ग(आईआरएलएस),<ref>{{cite book |first=Christopher M. |last=Bishop |year=2006 |title=पैटर्न मान्यता और मशीन प्रवीणता|publisher=Springer |pages=206–209}}</ref> [[एल-बीएफजीएस]] जैसे [[ढाल-आधारित अनुकूलन]] एल्गोरिदम के माध्यम से,<ref name="malouf"/>या विशेष [[समन्वय वंश|समन्वय अवरोहण]] एल्गोरिदम द्वारा।<ref>{{cite journal |first1=Hsiang-Fu |last1=Yu |first2=Fang-Lan |last2=Huang |first3=Chih-Jen |last3=Lin |year=2011 |title=रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति|journal=Machine Learning |volume=85 |issue=1–2 |pages=41–75 |url=http://www.csie.ntu.edu.tw/~cjlin/papers/maxent_dual.pdf |doi=10.1007/s10994-010-5221-8|doi-access=free }}</ref>'' | ||
== लॉग-रेखीय मॉडल के रूप में == | == लॉग-रेखीय मॉडल के रूप में == | ||
लॉग-रेखीय मॉडल के रूप में द्विचर रसद | लॉग-रेखीय मॉडल के रूप में द्विचर रसद प्रतिगमन का सूत्रीकरण सीधे बहु-मार्गी प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त [[सामान्यीकरण कारक]], विभाजन फलन(गणित) के लघुगणक का उपयोग करके दिए गए निर्गम को देखने की संभावना के लघुगणक को मॉडल करते हैं: | ||
: <math> | : <math> | ||
Line 93: | Line 93: | ||
</math>. | </math>. | ||
जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है <math>- \ln Z</math> यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह | जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है <math>- \ln Z</math> यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह [[प्रायिकता वितरण]] बनाता है, अर्थात् वे सभी एक के लिए योग करें: | ||
:<math>\sum_{k=1}^{K} \Pr(Y_i=k) = 1</math> | :<math>\sum_{k=1}^{K} \Pr(Y_i=k) = 1</math> | ||
Line 102: | Line 102: | ||
</math>. | </math>. | ||
वितरण के लिए मात्रा Z को विभाजन फलन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है: | वितरण के लिए मात्रा Z को विभाजन फलन(गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है: | ||
:<math> | :<math> | ||
Line 110: | Line 110: | ||
:<math>Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}</math> | :<math>Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}</math> | ||
ध्यान दें कि यह कारक "निरंतर" इस अर्थ में है कि यह | ध्यान दें कि यह कारक "निरंतर" इस अर्थ में है कि यह Y<sub>''i''</sub> का कार्य नहीं है, जो चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से अज्ञात प्रतिगमन गुणांक ''β''<sub>''k''</sub> के संबंध में व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, जिसे हमें किसी प्रकार की [[गणितीय अनुकूलन]] प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी। | ||
संभावनाओं के लिए परिणामी समीकरण हैं | संभावनाओं के लिए परिणामी समीकरण हैं | ||
Line 124: | Line 124: | ||
:<math>\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}</math> | :<math>\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}</math> | ||
[[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में जाना जाता है। इसका कारण यह है कि <math>x_1,\ldots,x_n</math> | [[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में जाना जाता है। इसका कारण यह है कि <math>x_1,\ldots,x_n</math> मानों को प्रतिपादित करने का प्रभाव उनके बीच अंतरों को बढ़ा-चढ़ाकर प्रस्तुत करना है। फलस्वरूप, <math>\operatorname{softmax}(k,x_1,\ldots,x_n)</math> 0 के समीप मान लौटाएगा जब भी <math>x_k</math>सभी मानों के अधिकतम से अत्यधिक कम होगा, और अधिकतम मान पर लागू होने पर 1 के समीप मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के अत्यंत समीप न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग [[भारित औसत]] बनाने के लिए किया जा सकता है जो एक चिकने फलन के रूप में व्यवहार करता है(जो सरली से विभेदित(गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है | ||
:<math>f(k) = \begin{cases} | :<math>f(k) = \begin{cases} | ||
Line 134: | Line 134: | ||
:<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math> | :<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math> | ||
सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद | सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद प्रतिगमन में [[रसद समारोह|रसद फलन]] के समतुल्य के रूप में कार्य करता है। | ||
ध्यान दें कि गुणांक के सभी | ध्यान दें कि गुणांक के सभी <math>\beta_k</math> सदिश विशिष्ट रूप से [[पहचान|अभिज्ञेय]] योग्य नहीं हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, शेष सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। फलस्वरूप, मात्र <math>k-1</math> अलग-अलग निर्दिष्ट संभावनाएं हैं, और इसलिए गुणांक के <math>k-1</math> गुणांक के अलग-अलग अभिज्ञेय योग्य सदिश हैं। इसे देखने की विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं: | ||
:<math> | :<math> | ||
Line 145: | Line 145: | ||
\end{align} | \end{align} | ||
</math> | </math> | ||
फलस्वरूप, यह | फलस्वरूप, यह <math>C = -\boldsymbol\beta_K</math>(या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक) समूहित करने के लिए पारंपरिक है। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, हम जिस विकल्प के चारों ओर घूम रहे हैं, उसके सापेक्ष अन्य सभी K-1 विकल्प कितने ठीक या बुरा हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं: | ||
:<math> | :<math> | ||
Line 158: | Line 158: | ||
\Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K | \Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K | ||
</math> | </math> | ||
प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के | प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अतिरिक्त, यह K-1 स्वतंत्र दो-पथ प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में पूर्णतः वैसा ही है। | ||
== एक अव्यक्त-चर मॉडल के रूप में == | |||
द्विचर रसद प्रतिगमन के लिए वर्णित दो-पथ अव्यक्त चर मॉडल का पालन करते हुए एक अव्यक्त चर मॉडल के रूप में बहुपद रसद प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय संभावना मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना सरल बनाता है। | |||
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup>(अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है: | |||
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup> (अर्थात् एक बिना प्रेक्षण | |||
: <math> | : <math> | ||
Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K | Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K | ||
</math> | </math> | ||
जहाँ<math>\varepsilon_k \sim \operatorname{EV}_1(0,1),</math> अर्थात् एक मानक प्रकार -1 [[चरम मूल्य वितरण| | जहाँ <math>\varepsilon_k \sim \operatorname{EV}_1(0,1),</math> अर्थात् एक मानक प्रकार -1 [[चरम मूल्य वितरण|परम मान वितरण]]। | ||
इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, | इस अव्यक्त चर को डेटा बिंदु i से जुड़ी उपयोगिता के रूप में माना जा सकता है, जो परिणाम k को चुनता है, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए होती है जो पसंद में जाते हैं। वास्तविक चर का मान <math>Y_i</math> तब इन अव्यक्त चरों से एक गैर-यादृच्छिक कार्य प्रणाली में निर्धारित किया जाता है(अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता( <math>Y_{i,k}^{\ast}</math> का मान) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के पूर्णतः समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है: | ||
: <math> | : <math> | ||
Line 186: | Line 185: | ||
\Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K | \Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K | ||
</math> | </math> | ||
आइए | आइए प्रथम समीकरण को अधिक ध्यान से देखें, जिसे हम इस प्रकार लिख सकते हैं: | ||
: <math> | : <math> | ||
Line 197: | Line 196: | ||
</math> | </math> | ||
यहां समझने के लिए कुछ चीजें हैं: | यहां समझने के लिए कुछ चीजें हैं: | ||
# | # सामान्यतः यदि <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तो <math>X - Y \sim \operatorname{Logistic}(0,b)</math>। अर्थात, दो [[स्वतंत्र समान रूप से वितरित]] परम-मान-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां प्रथम पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि प्रथम पैरामीटर एक [[स्थान पैरामीटर]] है, अर्थात् यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका तात्पर्य यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो परम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि यादृच्छिक लगता है, किंचित अधिक समझने योग्य है। | ||
# | # परम-मान या रसद वितरण में दूसरा पैरामीटर एक [[स्केल पैरामीटर|पैमाना पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तो <math>bX \sim \operatorname{Logistic}(0,b)</math>।इसका तात्पर्य यह है कि पैमाना 1 के स्थान पर एक अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके आपूर्ति की जा सकती है। पूर्व बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक परम-मान वितरण(स्थान 0, पैमाना 1) का उपयोग अव्यवस्थिततः रूप से परम-मान वितरण का उपयोग करने पर सामान्यता का कोई क्षति नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-अभिज्ञेय योग्य(इष्टतम गुणांक का कोई एकल समूह नहीं) है। | ||
# क्योंकि मात्र | # क्योंकि मात्र प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक यादृच्छिक स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका तात्पर्य यह है कि, लॉग-रेखीय मॉडल के जैसे, गुणांक सदिशों में से मात्र K-1 की अभिज्ञेय की जा सकती है, और अंतिम वाले को अव्यवस्थिततः मान पर समूहित किया जा सकता है(उदाहरण के लिए 0)। | ||
यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के | यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के विशेष [[आदेश आँकड़ा|अनुक्रमित आँकड़ा]](प्रथम, अर्थात् अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं। | ||
== अवरोधन का अनुमान == | == अवरोधन का अनुमान == | ||
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग [[विषम अनुपात]] निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में | बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग [[विषम अनुपात]] निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है। | ||
== [[प्राकृतिक भाषा प्रसंस्करण]] == | == [[प्राकृतिक भाषा प्रसंस्करण]] में आवेदन == | ||
प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः | प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर(सामान्यतः सुविधाओं के रूप में जाना जाता है) की [[सांख्यिकीय स्वतंत्रता]] नहीं मानते हैं। यद्यपि, इस प्रकार के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, सहज बेयस वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण विषय है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में भारित, जो सामान्यतः अधिकतम परवर्ती(MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना। | ||
== यह भी देखें == | == यह भी देखें == | ||
* | * रसद प्रतिगमन | ||
* बहुराष्ट्रीय संभावना | * बहुराष्ट्रीय संभावना | ||
Revision as of 21:33, 13 March 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।[1] यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण आश्रित चर के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है(जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।).
बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी LR,[2][3] बहुकक्ष LR, सॉफ्टमैक्स प्रतिगमन, बहुपद लॉगिट(mलॉगिट), अधिकतम एन्ट्रॉपी( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है।[4]
पृष्ठाधार
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है(समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे:
- एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
- विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
- एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे?
- विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
- व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?
ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः भविष्यवाणी करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह(जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की भविष्यवाणी करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है(उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
अनुमान
बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है(उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है।[5]
यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों(आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।
यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे(उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नीडन लॉगिट या बहुराष्ट्रीय संभावना का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।[6]
मॉडल
परिचय
बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। रसद प्रतिगमन पर लेख सरल रसद प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।
उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक बिंदु उत्पाद का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर(विशेषताओं) के साथ रैखिक संयोजन होता है। :
जहां Xi प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है βk भार(या प्रतिगमन गुणांक) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक(Xi, k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। असतत विकल्प सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी उपयोगिता माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।
बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था(परसेप्ट्रॉन एल्गोरिथ्म, समर्थन सदिश यंत्र, रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम भार निर्धारित(प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस प्रकार से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े भविष्य कहनेवाला मॉडलिंग की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की भविष्यवाणी को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र 0.95 = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.85 = 33% यथार्थता तक गिर जाती है। इस निर्गम को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। मात्र एक इष्टतम भविष्यवाणी करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस निर्गम को कम करने का एक साधन है।[citation needed]
व्यवस्था
मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर द्विआधारी चर के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।
डेटा बिंदु
विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i(1 से N तक) में M व्याख्यात्मक चर x1,i ... XM,i(उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Yi(उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों(जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक अव्यवस्थिततः रूप से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन प्रयोग के परिणाम को एक नवीन डेटा बिंदु के लिए सही रूप से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।
कुछ उदाहरण:
- देखे गए परिणाम रोगियों के एक समूह में यकृत शोथ(संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है(लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सा रोग एक नवीन रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
- देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं(जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की भविष्यवाणी करना है।
रैखिक भविष्यवक्ता
रेखीय प्रतिगमन के अन्य रूपों के जैसे, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में:
जहाँ mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके:
जहाँ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और (एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है।
स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में
बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K(अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:
इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:
इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:
हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:
- .
तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।
गुणांक का आकलन
प्रत्येक सदिश βk में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती(प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के नियमितीकरण(गणित) का उपयोग करके अधिकतम संभावना का विस्तार है(सामान्यतः एक वर्ग नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त प्रवर्धन का उपयोग करके पाया जाता है,[7] पुनरावृत्त रूप से कम से कम वर्ग(आईआरएलएस),[8] एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से,[4]या विशेष समन्वय अवरोहण एल्गोरिदम द्वारा।[9]
लॉग-रेखीय मॉडल के रूप में
लॉग-रेखीय मॉडल के रूप में द्विचर रसद प्रतिगमन का सूत्रीकरण सीधे बहु-मार्गी प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फलन(गणित) के लघुगणक का उपयोग करके दिए गए निर्गम को देखने की संभावना के लघुगणक को मॉडल करते हैं:
- .
जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह प्रायिकता वितरण बनाता है, अर्थात् वे सभी एक के लिए योग करें:
सामान्य रूप से गुणा करने के अतिरिक्त हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:
- .
वितरण के लिए मात्रा Z को विभाजन फलन(गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:
इसलिए:
ध्यान दें कि यह कारक "निरंतर" इस अर्थ में है कि यह Yi का कार्य नहीं है, जो चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से अज्ञात प्रतिगमन गुणांक βk के संबंध में व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।
संभावनाओं के लिए परिणामी समीकरण हैं
- .
या सामान्यतः :
निम्नलिखित कार्य:
सॉफ्टमैक्स फलन के रूप में जाना जाता है। इसका कारण यह है कि मानों को प्रतिपादित करने का प्रभाव उनके बीच अंतरों को बढ़ा-चढ़ाकर प्रस्तुत करना है। फलस्वरूप, 0 के समीप मान लौटाएगा जब भी सभी मानों के अधिकतम से अत्यधिक कम होगा, और अधिकतम मान पर लागू होने पर 1 के समीप मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के अत्यंत समीप न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकने फलन के रूप में व्यवहार करता है(जो सरली से विभेदित(गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है
इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं
सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद प्रतिगमन में रसद फलन के समतुल्य के रूप में कार्य करता है।
ध्यान दें कि गुणांक के सभी सदिश विशिष्ट रूप से अभिज्ञेय योग्य नहीं हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, शेष सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। फलस्वरूप, मात्र अलग-अलग निर्दिष्ट संभावनाएं हैं, और इसलिए गुणांक के गुणांक के अलग-अलग अभिज्ञेय योग्य सदिश हैं। इसे देखने की विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:
फलस्वरूप, यह (या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक) समूहित करने के लिए पारंपरिक है। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, हम जिस विकल्प के चारों ओर घूम रहे हैं, उसके सापेक्ष अन्य सभी K-1 विकल्प कितने ठीक या बुरा हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:
यह निम्नलिखित समीकरणों की ओर जाता है:
प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अतिरिक्त, यह K-1 स्वतंत्र दो-पथ प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में पूर्णतः वैसा ही है।
एक अव्यक्त-चर मॉडल के रूप में
द्विचर रसद प्रतिगमन के लिए वर्णित दो-पथ अव्यक्त चर मॉडल का पालन करते हुए एक अव्यक्त चर मॉडल के रूप में बहुपद रसद प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय संभावना मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना सरल बनाता है।
कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y हैi,k*(अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:
जहाँ अर्थात् एक मानक प्रकार -1 परम मान वितरण।
इस अव्यक्त चर को डेटा बिंदु i से जुड़ी उपयोगिता के रूप में माना जा सकता है, जो परिणाम k को चुनता है, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए होती है जो पसंद में जाते हैं। वास्तविक चर का मान तब इन अव्यक्त चरों से एक गैर-यादृच्छिक कार्य प्रणाली में निर्धारित किया जाता है(अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता( का मान) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के पूर्णतः समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:
या समतुल्य :
आइए प्रथम समीकरण को अधिक ध्यान से देखें, जिसे हम इस प्रकार लिख सकते हैं:
यहां समझने के लिए कुछ चीजें हैं:
- सामान्यतः यदि और तो । अर्थात, दो स्वतंत्र समान रूप से वितरित परम-मान-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां प्रथम पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि प्रथम पैरामीटर एक स्थान पैरामीटर है, अर्थात् यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका तात्पर्य यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो परम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि यादृच्छिक लगता है, किंचित अधिक समझने योग्य है।
- परम-मान या रसद वितरण में दूसरा पैरामीटर एक पैमाना पैरामीटर है, जैसे कि यदि तो ।इसका तात्पर्य यह है कि पैमाना 1 के स्थान पर एक अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके आपूर्ति की जा सकती है। पूर्व बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक परम-मान वितरण(स्थान 0, पैमाना 1) का उपयोग अव्यवस्थिततः रूप से परम-मान वितरण का उपयोग करने पर सामान्यता का कोई क्षति नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-अभिज्ञेय योग्य(इष्टतम गुणांक का कोई एकल समूह नहीं) है।
- क्योंकि मात्र प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक यादृच्छिक स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका तात्पर्य यह है कि, लॉग-रेखीय मॉडल के जैसे, गुणांक सदिशों में से मात्र K-1 की अभिज्ञेय की जा सकती है, और अंतिम वाले को अव्यवस्थिततः मान पर समूहित किया जा सकता है(उदाहरण के लिए 0)।
यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के विशेष अनुक्रमित आँकड़ा(प्रथम, अर्थात् अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।
अवरोधन का अनुमान
बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।
प्राकृतिक भाषा प्रसंस्करण में आवेदन
प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर(सामान्यतः सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। यद्यपि, इस प्रकार के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, सहज बेयस वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण विषय है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में भारित, जो सामान्यतः अधिकतम परवर्ती(MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।
यह भी देखें
- रसद प्रतिगमन
- बहुराष्ट्रीय संभावना
संदर्भ
- ↑ Greene, William H. (2012). अर्थमितीय विश्लेषण (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.
- ↑ Engel, J. (1988). "पॉलीटॉमस लॉजिस्टिक रिग्रेशन". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.
- ↑ Menard, Scott (2002). एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस. SAGE. p. 91. ISBN 9780761922087.
- ↑ 4.0 4.1 Malouf, Robert (2002). अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना (PDF). Sixth Conf. on Natural Language Learning (CoNLL). pp. 49–55.
- ↑ Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.
- ↑ Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.
- ↑ Darroch, J.N. & Ratcliff, D. (1972). "लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग". The Annals of Mathematical Statistics. 43 (5): 1470–1480. doi:10.1214/aoms/1177692379.
- ↑ Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. pp. 206–209.
- ↑ Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति" (PDF). Machine Learning. 85 (1–2): 41–75. doi:10.1007/s10994-010-5221-8.