बहुपद तार्किक प्रतिगमन: Difference between revisions

Latest revision as of 07:12, 19 March 2023

आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक सांख्यिकीय वर्गीकरण पद्धति है जो बहुवर्गीय वर्गीकरण के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ। ^[1] यही है, यह एक मॉडल है जिसका उपयोग एक श्रेणीबद्ध वितरण आश्रित चर के विभिन्न संभावित परिणामों की संभावनाओं की प्रागुक्‍ति करने के लिए किया जाता है, स्वतंत्र चर का एक समूह दिया जाता है(जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकते है। ).

बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी एलआर,^[2]^[3] बहुकक्ष एलआर, सॉफ्टमैक्स प्रतिगमन, बहुपद लॉगिट(mलॉगिट), अधिकतम एन्ट्रॉपी( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है। ^[4]

पृष्ठाधार

बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है(समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे:

एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे?
विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?

ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः प्रागुक्‍ति करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह(जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की प्रागुक्‍ति करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है(उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।

अनुमान

बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से प्रागुक्‍ति नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से सांख्यिकीय रूप से स्वतंत्र होने की कोई आवश्यकता नहीं है(उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है। ^[5]

यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों(आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।

यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य प्रागुक्‍ति करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे(उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे नीडन लॉगिट या बहुराष्ट्रीय संभावना का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं। ^[6]

मॉडल

परिचय

बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। रसद प्रतिगमन पर लेख सरल रसद प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।

उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक बिंदु उत्पाद का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर(विशेषताओं) के साथ रैखिक संयोजन होता है। :

\operatorname {score} (\mathbf {X} _{i},k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i},

जहां X_i प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है β_k भार(या प्रतिगमन गुणांक) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक(X_i, k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। असतत विकल्प सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी उपयोगिता माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।

बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था(परसेप्ट्रॉन एल्गोरिथ्म, समर्थन सदिश यंत्र, रैखिक विभेदक विश्लेषण, आदि) के बीच का अंतर इष्टतम भार निर्धारित(प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस प्रकार से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की संभावना को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की प्रागुक्‍ति को एक बड़ी प्रक्रिया में सम्मिलित करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े प्रागोक्ति निर्देश की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की प्रागुक्‍ति को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस प्रागुक्‍ति को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की प्रागुक्‍ति में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र 0.9⁵ = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.8⁵ = 33% यथार्थता तक गिर जाती है। इस निर्गम को त्रुटि प्रसार के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। मात्र एक इष्टतम प्रागुक्‍ति करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की प्रागुक्‍ति करना, इस निर्गम को कम करने का एक साधन है।^{[citation needed]}

व्यवस्थापन

मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर द्विआधारी चर के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।

डेटा बिंदु

विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i(1 से N तक) में M व्याख्यात्मक चर x_1,i ... X_M,i(उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Y_i(उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों(जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक अव्यवस्थिततः रूप से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन प्रयोग के परिणाम को एक नवीन डेटा बिंदु के लिए सही रूप से प्रागुक्‍ति की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।

कुछ उदाहरण:

देखे गए परिणाम रोगियों के एक समूह में यकृत शोथ(संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है(लिंग, जाति, आयु, रक्तचाप, विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब प्रागुक्‍ति करना है कि कौन सा रोग एक नवीन रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं(जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की प्रागुक्‍ति करना है।

रैखिक भविष्यवक्ता

रेखीय प्रतिगमन के अन्य रूपों के जैसे, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन $f(k,i)$ का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में:

f(k,i)=\beta _{0,k}+\beta _{1,k}x_{1,i}+\beta _{2,k}x_{2,i}+\cdots +\beta _{M,k}x_{M,i},

जहाँ $\beta _{m,k}$ mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके:

f(k,i)={\boldsymbol {\beta }}_{k}\cdot \mathbf {x} _{i},

जहाँ ${\boldsymbol {\beta }}_{k}$ परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और $\mathbf {x} _{i}$ (एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है।

स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में

बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K(अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:

\ln {\frac {\Pr(Y_{i}=k)}{\Pr(Y_{i}=K)}}\,=\,{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}\;\;\;\;,\;\;k<K

इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:

\Pr(Y_{i}=k)\,=\,{\Pr(Y_{i}=K)}\;e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}\;\;\;\;,\;\;k<K

इस तथ्य का उपयोग करते हुए कि सभी K संभावनाओं का योग एक होना चाहिए, हम पाते हैं:

\Pr(Y_{i}=K)\,=\,1-\sum _{k=1}^{K-1}\Pr(Y_{i}=k)\,=\,1-\sum _{k=1}^{K-1}{\Pr(Y_{i}=K)}\;e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}\;\;\Rightarrow \;\;\Pr(Y_{i}=K)\,=\,{\frac {1}{1+\sum _{k=1}^{K-1}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}}}

हम इसका उपयोग अन्य संभावनाओं को खोजने के लिए कर सकते हैं:

\Pr(Y_{i}=k)={\frac {e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}}{1+\sum _{k=1}^{K-1}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}}}\;\;\;\;,\;\;k<K

.

तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।

गुणांक का आकलन

प्रत्येक सदिश β_k में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती(प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के नियमितीकरण(गणित) का उपयोग करके अधिकतम संभावना का विस्तार है(सामान्यतः एक वर्ग नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर पूर्व वितरण, परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त प्रवर्धन का उपयोग करके पाया जाता है,^[7] पुनरावृत्त रूप से कम से कम वर्ग(आईआरएलएस),^[8] एल-बीएफजीएस जैसे ढाल-आधारित अनुकूलन एल्गोरिदम के माध्यम से,^[4]या विशेष समन्वय अवरोहण एल्गोरिदम द्वारा। ^[9]

लॉग-रेखीय मॉडल के रूप में

लॉग-रेखीय मॉडल के रूप में द्विचर रसद प्रतिगमन का सूत्रीकरण सीधे बहु-मार्गी प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त सामान्यीकरण कारक, विभाजन फलन(गणित) के लघुगणक का उपयोग करके दिए गए निर्गम को देखने की संभावना के लघुगणक को मॉडल करते हैं:

\ln \Pr(Y_{i}=k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}-\ln Z\;\;\;\;,\;\;k\leq K

.

जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है $-\ln Z$ यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह प्रायिकता वितरण बनाता है, अर्थात् वे सभी एक के लिए योग करें:

\sum _{k=1}^{K}\Pr(Y_{i}=k)=1

सामान्य रूप से गुणा करने के अतिरिक्त हमें सामान्यीकरण सुनिश्चित करने के लिए एक शब्द जोड़ने की आवश्यकता है, इसका कारण यह है कि हमने संभावनाओं का लघुगणक लिया है। दोनों पक्षों का घातांक योगात्मक शब्द को गुणक कारक में बदल देता है, जिससे कि संभावना सिर्फ गिब्स उपाय है:

\Pr(Y_{i}=k)={\frac {1}{Z}}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}\;\;\;\;,\;\;k\leq K

.

वितरण के लिए मात्रा Z को विभाजन फलन(गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:

1=\sum _{k=1}^{K}\Pr(Y_{i}=k)\;=\;\sum _{k=1}^{K}{\frac {1}{Z}}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}\;=\;{\frac {1}{Z}}\sum _{k=1}^{K}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}

इसलिए:

Z=\sum _{k=1}^{K}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}

ध्यान दें कि यह कारक "निरंतर" इस अर्थ में है कि यह Y_i का कार्य नहीं है, जो चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से अज्ञात प्रतिगमन गुणांक β_k के संबंध में व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, जिसे हमें किसी प्रकार की गणितीय अनुकूलन प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।

संभावनाओं के लिए परिणामी समीकरण हैं

\Pr(Y_{i}=k)={\frac {e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}}{\sum _{j=1}^{K}e^{{\boldsymbol {\beta }}_{j}\cdot \mathbf {X} _{i}}}}\;\;\;\;,\;\;k\leq K

.

या सामान्यतः :

\Pr(Y_{i}=c)={\frac {e^{{\boldsymbol {\beta }}_{c}\cdot \mathbf {X} _{i}}}{\sum _{j=1}^{K}e^{{\boldsymbol {\beta }}_{j}\cdot \mathbf {X} _{i}}}}

निम्नलिखित कार्य:

\operatorname {softmax} (k,x_{1},\ldots ,x_{n})={\frac {e^{x_{k}}}{\sum _{i=1}^{n}e^{x_{i}}}}

सॉफ्टमैक्स फलन के रूप में जाना जाता है। इसका कारण यह है कि $x_{1},\ldots ,x_{n}$ मानों को प्रतिपादित करने का प्रभाव उनके बीच अंतरों को बढ़ा-चढ़ाकर प्रस्तुत करना है। फलस्वरूप, $\operatorname {softmax} (k,x_{1},\ldots ,x_{n})$ 0 के समीप मान लौटाएगा जब भी $x_{k}$ सभी मानों के अधिकतम से अत्यधिक कम होगा, और अधिकतम मान पर लागू होने पर 1 के समीप मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के अत्यंत समीप न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग भारित औसत बनाने के लिए किया जा सकता है जो एक चिकने फलन के रूप में व्यवहार करता है(जो सरली से विभेदित(गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है

f(k)={\begin{cases}1\;{\textrm {if}}\;k=\operatorname {\arg \max } (x_{1},\ldots ,x_{n}),\\0\;{\textrm {otherwise}}.\end{cases}}

इस प्रकार, हम संभाव्यता समीकरणों को इस प्रकार लिख सकते हैं

\Pr(Y_{i}=c)=\operatorname {softmax} (c,{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i},\ldots ,{\boldsymbol {\beta }}_{K}\cdot \mathbf {X} _{i})

सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद प्रतिगमन में रसद फलन के समतुल्य के रूप में कार्य करता है।

ध्यान दें कि गुणांक के सभी $\beta _{k}$ सदिश विशिष्ट रूप से अभिज्ञेय योग्य नहीं हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, शेष सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। फलस्वरूप, मात्र $k-1$ अलग-अलग निर्दिष्ट संभावनाएं हैं, और इसलिए गुणांक के $k-1$ गुणांक के अलग-अलग अभिज्ञेय योग्य सदिश हैं। इसे देखने की विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:

{\begin{aligned}{\frac {e^{({\boldsymbol {\beta }}_{c}+C)\cdot \mathbf {X} _{i}}}{\sum _{k=1}^{K}e^{({\boldsymbol {\beta }}_{k}+C)\cdot \mathbf {X} _{i}}}}&={\frac {e^{{\boldsymbol {\beta }}_{c}\cdot \mathbf {X} _{i}}e^{C\cdot \mathbf {X} _{i}}}{\sum _{k=1}^{K}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}e^{C\cdot \mathbf {X} _{i}}}}\\&={\frac {e^{C\cdot \mathbf {X} _{i}}e^{{\boldsymbol {\beta }}_{c}\cdot \mathbf {X} _{i}}}{e^{C\cdot \mathbf {X} _{i}}\sum _{k=1}^{K}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}}}\\&={\frac {e^{{\boldsymbol {\beta }}_{c}\cdot \mathbf {X} _{i}}}{\sum _{k=1}^{K}e^{{\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}}}}\end{aligned}}

फलस्वरूप, यह $C=-{\boldsymbol {\beta }}_{K}$ (या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक) समूहित करने के लिए पारंपरिक है। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, हम जिस विकल्प के चारों ओर घूम रहे हैं, उसके सापेक्ष अन्य सभी K-1 विकल्प कितने ठीक या बुरा हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:

{\begin{aligned}{\boldsymbol {\beta }}'_{k}&={\boldsymbol {\beta }}_{k}-{\boldsymbol {\beta }}_{K}\;\;\;,\;k<K\\{\boldsymbol {\beta }}'_{K}&=0\end{aligned}}

यह निम्नलिखित समीकरणों की ओर जाता है:

\Pr(Y_{i}=k)={\frac {e^{{\boldsymbol {\beta }}'_{k}\cdot \mathbf {X} _{i}}}{1+\sum _{j=1}^{K-1}e^{{\boldsymbol {\beta }}'_{j}\cdot \mathbf {X} _{i}}}}\;\;\;\;,\;\;k\leq K

प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अतिरिक्त, यह K-1 स्वतंत्र दो-पथ प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में पूर्णतः वैसा ही है।

एक अव्यक्त-चर मॉडल के रूप में

द्विचर रसद प्रतिगमन के लिए वर्णित दो-पथ अव्यक्त चर मॉडल का पालन करते हुए एक अव्यक्त चर मॉडल के रूप में बहुपद रसद प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय संभावना मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना सरल बनाता है।

कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत अव्यक्त चर Y है_i,k^*(अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:

Y_{i,k}^{\ast }={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}+\varepsilon _{k}\;\;\;\;,\;\;k\leq K

जहाँ $\varepsilon _{k}\sim \operatorname {EV} _{1}(0,1),$ अर्थात् एक मानक प्रकार -1 परम मान वितरण।

इस अव्यक्त चर को डेटा बिंदु i से जुड़ी उपयोगिता के रूप में माना जा सकता है, जो परिणाम k को चुनता है, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए होती है जो पसंद में जाते हैं। वास्तविक चर का मान $Y_{i}$ तब इन अव्यक्त चरों से एक गैर-यादृच्छिक कार्य प्रणाली में निर्धारित किया जाता है(अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता( $Y_{i,k}^{\ast }$ का मान) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के पूर्णतः समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:

{\begin{aligned}\Pr(Y_{i}=1)&=\Pr(Y_{i,1}^{\ast }>Y_{i,2}^{\ast }{\text{ and }}Y_{i,1}^{\ast }>Y_{i,3}^{\ast }{\text{ and }}\cdots {\text{ and }}Y_{i,1}^{\ast }>Y_{i,K}^{\ast })\\\Pr(Y_{i}=2)&=\Pr(Y_{i,2}^{\ast }>Y_{i,1}^{\ast }{\text{ and }}Y_{i,2}^{\ast }>Y_{i,3}^{\ast }{\text{ and }}\cdots {\text{ and }}Y_{i,2}^{\ast }>Y_{i,K}^{\ast })\\\cdots &\\\Pr(Y_{i}=K)&=\Pr(Y_{i,K}^{\ast }>Y_{i,1}^{\ast }{\text{ and }}Y_{i,K}^{\ast }>Y_{i,2}^{\ast }{\text{ and }}\cdots {\text{ and }}Y_{i,K}^{\ast }>Y_{i,K-1}^{\ast })\\\end{aligned}}

या समतुल्य :

\Pr(Y_{i}=k)\;=\;\Pr(\max(Y_{i,1}^{\ast },Y_{i,2}^{\ast },\ldots ,Y_{i,K}^{\ast })=Y_{i,k}^{\ast })\;\;\;\;,\;\;k\leq K

आइए प्रथम समीकरण को अधिक ध्यान से देखें, जिसे हम इस प्रकार लिख सकते हैं:

{\begin{aligned}\Pr(Y_{i}=1)&=\Pr(Y_{i,1}^{\ast }>Y_{i,k}^{\ast }\ \forall \ k=2,\ldots ,K)\\&=\Pr(Y_{i,1}^{\ast }-Y_{i,k}^{\ast }>0\ \forall \ k=2,\ldots ,K)\\&=\Pr({\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}+\varepsilon _{1}-({\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i}+\varepsilon _{k})>0\ \forall \ k=2,\ldots ,K)\\&=\Pr(({\boldsymbol {\beta }}_{1}-{\boldsymbol {\beta }}_{k})\cdot \mathbf {X} _{i}>\varepsilon _{k}-\varepsilon _{1}\ \forall \ k=2,\ldots ,K)\end{aligned}}

यहां समझने के लिए कुछ चीजें हैं:

सामान्यतः यदि $X\sim \operatorname {EV} _{1}(a,b)$ और $Y\sim \operatorname {EV} _{1}(a,b)$ तो $X-Y\sim \operatorname {Logistic} (0,b)$ । अर्थात, दो स्वतंत्र समान रूप से वितरित परम-मान-वितरित चर का अंतर रसद वितरण का अनुसरण करता है, जहां प्रथम पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि प्रथम पैरामीटर एक स्थान पैरामीटर है, अर्थात् यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका तात्पर्य यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो परम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि यादृच्छिक लगता है, किंचित अधिक समझने योग्य है।
परम-मान या रसद वितरण में दूसरा पैरामीटर एक पैमाना पैरामीटर है, जैसे कि यदि $X\sim \operatorname {Logistic} (0,1)$ तो $bX\sim \operatorname {Logistic} (0,b)$ । इसका तात्पर्य यह है कि पैमाना 1 के स्थान पर एक अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके आपूर्ति की जा सकती है। पूर्व बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक परम-मान वितरण(स्थान 0, पैमाना 1) का उपयोग अव्यवस्थिततः रूप से परम-मान वितरण का उपयोग करने पर सामान्यता का कोई क्षति नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-अभिज्ञेय योग्य(इष्टतम गुणांक का कोई एकल समूह नहीं) है।
क्योंकि मात्र प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक यादृच्छिक स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका तात्पर्य यह है कि, लॉग-रेखीय मॉडल के जैसे, गुणांक सदिशों में से मात्र K-1 की अभिज्ञेय की जा सकती है, और अंतिम वाले को अव्यवस्थिततः मान पर समूहित किया जा सकता है(उदाहरण के लिए 0)।

यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के विशेष अनुक्रमित आँकड़े(प्रथम, अर्थात् अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।

अवरोधन का अनुमान

बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग विषम अनुपात निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।

प्राकृतिक भाषा प्रसंस्करण में आवेदन

प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय एलआर वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर(सामान्यतः सुविधाओं के रूप में जाना जाता है) की सांख्यिकीय स्वतंत्रता नहीं मानते हैं। यद्यपि, इस प्रकार के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, सहज बेयस वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण विषय है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में भारित, जो सामान्यतः अधिकतम परवर्ती(MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।

यह भी देखें

रसद प्रतिगमन
बहुराष्ट्रीय संभावना

संदर्भ

↑ Greene, William H. (2012). अर्थमितीय विश्लेषण (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.
↑ Engel, J. (1988). "पॉलीटॉमस लॉजिस्टिक रिग्रेशन". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.
↑ Menard, Scott (2002). एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस. SAGE. p. 91. ISBN 9780761922087.
↑ ^4.0 ^4.1 Malouf, Robert (2002). अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना (PDF). Sixth Conf. on Natural Language Learning (CoNLL). pp. 49–55.
↑ Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.
↑ Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.
↑ Darroch, J.N. & Ratcliff, D. (1972). "लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग". The Annals of Mathematical Statistics. 43 (5): 1470–1480. doi:10.1214/aoms/1177692379.
↑ Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. pp. 206–209.
↑ Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति" (PDF). Machine Learning. 85 (1–2): 41–75. doi:10.1007/s10994-010-5221-8.

[1] Greene, William H. (2012). अर्थमितीय विश्लेषण (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.

[2] Engel, J. (1988). "पॉलीटॉमस लॉजिस्टिक रिग्रेशन". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.

[3] Menard, Scott (2002). एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस. SAGE. p. 91. ISBN 9780761922087.

[malouf-4] 4.0 ^4.1 Malouf, Robert (2002). अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना (PDF). Sixth Conf. on Natural Language Learning (CoNLL). pp. 49–55.

[5] Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.

[6] Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.

[7] Darroch, J.N. & Ratcliff, D. (1972). "लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग". The Annals of Mathematical Statistics. 43 (5): 1470–1480. doi:10.1214/aoms/1177692379.

[8] Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. Springer. pp. 206–209.

[9] Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति" (PDF). Machine Learning. 85 (1–2): 41–75. doi:10.1007/s10994-010-5221-8.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ Line 3: / Line 3: @@
 {{Regression bar}}
-आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ।<ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर|आश्रित चर]] के विभिन्न संभावित परिणामों की संभावनाओं की भविष्यवाणी करने के लिए किया जाता है, [[स्वतंत्र चर]] का एक समूह दिया जाता है (जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकता है।).
+आँकड़ों में, बहुराष्ट्रीय रसद प्रतिगमन एक [[सांख्यिकीय वर्गीकरण]] पद्धति है जो [[बहुवर्गीय वर्गीकरण]] के लिए रसद प्रतिगमन को सामान्यीकृत करता है, अर्थात दो से अधिक संभावित असतत परिणामों के साथ। <ref>{{cite book |last=Greene |first=William H. |author-link=William Greene (economist) |title=अर्थमितीय विश्लेषण|edition=Seventh |location=Boston |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |pages=803–806 }}</ref> यही है, यह एक मॉडल है जिसका उपयोग एक [[श्रेणीबद्ध वितरण]] [[निर्भर चर|आश्रित चर]] के विभिन्न संभावित परिणामों की संभावनाओं की प्रागुक्‍ति करने के लिए किया जाता है, [[स्वतंत्र चर]] का एक समूह दिया जाता है(जो वास्तविक-मानित, द्विचर-मानित, श्रेणीबद्ध-मानित आदि हो सकते है। ).
-बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें  बहुभाजी LR,<ref>{{Cite journal | doi = 10.1111/j.1467-9574.1988.tb01238.x| title = पॉलीटॉमस लॉजिस्टिक रिग्रेशन| journal = Statistica Neerlandica| volume = 42| issue = 4| pages = 233–252| year = 1988| last1 = Engel | first1 = J.}}</ref><ref>{{cite book |title=एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस|url=https://archive.org/details/appliedlogisticr00mena |url-access=limited |first=Scott |last=Menard |publisher=SAGE |year=2002 |page=[https://archive.org/details/appliedlogisticr00mena/page/n99 91]|isbn=9780761922087 }}</ref> बहुकक्ष LR, [[सॉफ्टमैक्स एक्टिवेशन फंक्शन|सॉफ्टमैक्स]]  प्रतिगमन, बहुपद लॉगिट (mलॉगिट), अधिकतम एन्ट्रॉपी ( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित  है।<ref name="malouf">{{cite conference |first=Robert |last=Malouf |year=2002 |url=http://aclweb.org/anthology/W/W02/W02-2018.pdf |title=अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना|conference=Sixth Conf. on Natural Language Learning (CoNLL) |pages=49–55}}</ref>
+बहुराष्ट्रीय रसद प्रतिगमन को कई अन्य नामों से जाना जाता है, जिसमें बहुभाजी एलआर,<ref>{{Cite journal | doi = 10.1111/j.1467-9574.1988.tb01238.x| title = पॉलीटॉमस लॉजिस्टिक रिग्रेशन| journal = Statistica Neerlandica| volume = 42| issue = 4| pages = 233–252| year = 1988| last1 = Engel | first1 = J.}}</ref><ref>{{cite book |title=एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस|url=https://archive.org/details/appliedlogisticr00mena |url-access=limited |first=Scott |last=Menard |publisher=SAGE |year=2002 |page=[https://archive.org/details/appliedlogisticr00mena/page/n99 91]|isbn=9780761922087 }}</ref> बहुकक्ष एलआर, [[सॉफ्टमैक्स एक्टिवेशन फंक्शन|सॉफ्टमैक्स]] प्रतिगमन, बहुपद लॉगिट(mलॉगिट), अधिकतम एन्ट्रॉपी( मैक्सएंट) वर्गीकरणकर्ता, और सशर्त अधिकतम एन्ट्रापी मॉडल सम्मिलित है। <ref name="malouf">{{cite conference |first=Robert |last=Malouf |year=2002 |url=http://aclweb.org/anthology/W/W02/W02-2018.pdf |title=अधिकतम एंट्रॉपी पैरामीटर आकलन के लिए एल्गोरिदम की तुलना|conference=Sixth Conf. on Natural Language Learning (CoNLL) |pages=49–55}}</ref>
 == पृष्ठाधार ==
-बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर  नाममात्र होता है (समतुल्य  श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप  से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे:
+बहुराष्ट्रीय रसद प्रतिगमन का उपयोग तब किया जाता है जब प्रश्न में आश्रित चर नाममात्र होता है(समतुल्य श्रेणीबद्ध, जिसका अर्थ है कि यह श्रेणियों के किसी भी एक समूह में आता है जिसे किसी भी सार्थक रूप से अनुक्रमित नहीं किया जा सकता है) और जिसके लिए दो से अधिक श्रेणियां हैं। कुछ उदाहरण होंगे:
 *एक महाविद्यालय के छात्र अपनी श्रेणी, बताई गई पसंद और नापसंद आदि को देखते हुए कौन सा विषय चुनेंगे?
 *विभिन्न नैदानिक परीक्षणों के परिणामों को देखते हुए, एक व्यक्ति का रक्त प्रकार कौन सा है?
 *एक हैंड्-फ़्री मोबाइल फ़ोन डायलिंग एप्लिकेशन में, किस व्यक्ति का नाम बोला गया था, भाषण संकेत के विभिन्न गुण दिए गए थे?
 *विशेष जनसांख्यिकीय विशेषताओं को देखते हुए कोई व्यक्ति किस उम्मीदवार को वोट देगा?
-*व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक  व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?
+*व्यवसाय की और विभिन्न उम्मीदवार देशों की विशेषताओं को देखते हुए, एक व्यवसाय किस देश में अपना कार्यालय स्थापित करेगी?
-ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः  भविष्यवाणी करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह (जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की भविष्यवाणी करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः  कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है (उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
+ये सभी सांख्यिकीय वर्गीकरण की समस्याएं हैं। उन सभी में सामान्यतः प्रागुक्‍ति करने के लिए एक आश्रित चर होता है जो कि वस्तुओं के एक सीमित समूह से आता है जिसे सार्थक रूप से अनुक्रमित नहीं किया जा सकता है, साथ ही साथ स्वतंत्र चर का एक समूह(जिसे सुविधाओं, स्पष्टीकरण आदि के रूप में भी जाना जाता है), जिसका उपयोग आश्रित चर की प्रागुक्‍ति करने के लिए किया जाता है। बहुराष्ट्रीय रसद प्रतिगमन वर्गीकरण समस्याओं का एक विशेष हल है जो आश्रित चर के प्रत्येक विशेष मान की संभावना का अनुमान लगाने के लिए देखी गई विशेषताओं और कुछ समस्या-विशिष्ट मापदंडों के एक रैखिक संयोजन का उपयोग करता है। किसी दी गई समस्या के लिए मापदंडों के सर्वोत्तम मानों को सामान्यतः कुछ प्रशिक्षण डेटा से निर्धारित किया जाता है(उदाहरण के लिए कुछ लोग जिनके लिए नैदानिक परीक्षण के परिणाम और रक्त प्रकार दोनों ज्ञात हैं, या ज्ञात शब्दों के कुछ उदाहरण बोले जा रहे हैं)।
 == अनुमान ==
-बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप  से भविष्यवाणी नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है (उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल  हो जाता है।<ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref>
+बहुराष्ट्रीय रसद मॉडल मानता है कि डेटा केस-विशिष्ट हैं; अर्थात्, प्रत्येक स्वतंत्र चर का प्रत्येक विषय के लिए एक मान होता है। बहुराष्ट्रीय रसद मॉडल यह भी मानता है कि आश्रित चर को किसी भी विषय के लिए स्वतंत्र चर से पूर्ण रूप से प्रागुक्‍ति नहीं की जा सकती है। अन्य प्रकार के प्रतिगमन के साथ, स्वतंत्र चर को एक दूसरे से [[सांख्यिकीय रूप से स्वतंत्र]] होने की कोई आवश्यकता नहीं है(उदाहरण के लिए, बेयस वर्गीकरणकर्ता के विपरीत); यद्यपि, बहुसंरेखता को अपेक्षाकृत कम माना जाता है, क्योंकि यदि ऐसा नहीं है तो कई चरों के प्रभाव के बीच अंतर करना जटिल हो जाता है। <ref>{{cite book | last = Belsley | first = David | title = Conditioning diagnostics : collinearity and weak data in regression | publisher = Wiley | location = New York | year = 1991 | isbn = 9780471528890 }}</ref>
-यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों (आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि  मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः  इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित  है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार:  नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है,  इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का  अनुपात 1: 0.5  है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।
+यदि बहुपद लॉगिट का उपयोग मॉडल विकल्पों के लिए किया जाता है, तो यह अप्रासंगिक विकल्पों(आईआईए) की स्वतंत्रता की धारणा पर निर्भर करता है, जो सदैव वांछनीय नहीं होता है। यह धारणा बताती है कि एक वर्ग को दूसरे पर वरीयता देने की संभावना अन्य अप्रासंगिक विकल्पों की उपस्थिति या अनुपस्थिति पर निर्भर नहीं करती है। उदाहरण के लिए, यदि साइकिल को अतिरिक्त संभावना के रूप में जोड़ा जाता है तो कार या बस को कार्य पर ले जाने की सापेक्ष संभावनाएँ नहीं बदलतीं। यह K-1 स्वतंत्र द्विचर विकल्पों के एक समूह के रूप में K विकल्पों की पसंद को मॉडल करने की अनुमति देती है, जिसमें एक विकल्प को धुरी के रूप में चुना जाता है और दूसरे K-1 की तुलना में, एक समय में एक। आईआईए परिकल्पना तर्कसंगत विकल्प सिद्धांत में एक मुख्य परिकल्पना है; यद्यपि मनोविज्ञान में कई अध्ययनों से पता चलता है कि चुनाव करते समय व्यक्ति प्रायः इस धारणा का उल्लंघन करते हैं। यदि विकल्प में एक कार और एक नीली बस सम्मिलित है तो समस्या का एक उदाहरण सामने आता है। मान लीजिए कि दोनों के बीच विषम अनुपात 1:1 है। अब यदि लाल बस का विकल्प प्रस्तुत किया जाता है, तो एक व्यक्ति लाल और नीली बस के बीच निरपेक्ष हो सकता है, और इसलिए एक कार: नीली बस: लाल बस का अनुपात 1: 0.5: 0.5 का प्रदर्शन कर सकता है, इस प्रकार एक 1: 1 अनुपात रखता है: किसी भी बस को परिवर्तित कार को अपनाने के समय: नीली बस का अनुपात 1: 0.5 है। यहां लाल बस का विकल्प यथार्थ अप्रासंगिक नहीं था, क्योंकि लाल बस नीले रंग की बस का सही विकल्प थी।
-यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य भविष्यवाणी करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे (उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग|नीडन लॉगिट]] या [[ बहुराष्ट्रीय संभावना | बहुराष्ट्रीय संभावना]] का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं।<ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref>
+यदि बहुपद लॉगिट का उपयोग विकल्पों को मॉडल करने के लिए किया जाता है, तो यह कुछ स्थितियों में विभिन्न विकल्पों के बीच सापेक्ष प्राथमिकताओं पर बहुत अधिक प्रतिबंध लगा सकता है। यह बिंदु विशेष रूप से ध्यान में रखना महत्वपूर्ण है यदि विश्लेषण का उद्देश्य प्रागुक्‍ति करना है कि यदि एक विकल्प अंतर्हित हो जाता है तो विकल्प कैसे बदलेंगे(उदाहरण के लिए यदि एक राजनीतिक उम्मीदवार तीन उम्मीदवारों की दौड़ से हट जाता है)। अन्य मॉडल जैसे [[नेस्टेड लॉग|नीडन लॉगिट]] या [[ बहुराष्ट्रीय संभावना |बहुराष्ट्रीय संभावना]] का उपयोग ऐसे विषयों में किया जा सकता है क्योंकि वे आईआईए के उल्लंघन की अनुमति देते हैं। <ref>{{cite journal |last1=Baltas |first1=G. |last2=Doyle |first2=P. |year=2001 |title=Random Utility Models in Marketing Research: A Survey |journal=[[Journal of Business Research]] |volume=51 |issue=2 |pages=115–125 |doi=10.1016/S0148-2963(99)00058-2 }}</ref>
@@ Line 30: / Line 30: @@
 === परिचय ===
-बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप  हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। लॉजिस्टिक  प्रतिगमन पर लेख सरल लॉजिस्टिक  प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।
+बहुराष्ट्रीय रसद प्रतिगमन अंतर्निहित गणितीय मॉडल का वर्णन करने के लिए कई समान रूप हैं। इससे विभिन्न पाठों में विषय के विभिन्न उपचारों की तुलना करना कठिन हो सकता है। रसद प्रतिगमन पर लेख सरल रसद प्रतिगमन के कई समतुल्य सूत्रीकरण प्रस्तुत करता है, और इनमें से कई बहुपद लॉगिट मॉडल में अनुरूप हैं।
-उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद|बिंदु उत्पाद]] का उपयोग करके दिए गए प्रेक्षण  के व्याख्यात्मक चर (विशेषताओं) के साथ [[रैखिक संयोजन]] होता है। :
+उन सभी के पीछे का विचार, जैसा कि कई अन्य सांख्यिकीय वर्गीकरण तकनीकों में है, एक रैखिक भविष्यवक्ता फलन का निर्माण करना है जो भार के एक समूह से एक अंक बनाता है जो एक [[डॉट उत्पाद|बिंदु उत्पाद]] का उपयोग करके दिए गए प्रेक्षण के व्याख्यात्मक चर(विशेषताओं) के साथ [[रैखिक संयोजन]] होता है।  :
 :<math>\operatorname{score}(\mathbf{X}_i,k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,</math>
-जहां X<sub>''i''</sub>  प्रेक्षण  i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है  β<sub>''k''</sub>  भार (या [[प्रतिगमन गुणांक]]) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक (X<sub>''i''</sub> , k) श्रेणी k को प्रेक्षण   i निर्दिष्ट करने से जुड़ा अंक है। [[असतत पसंद|असतत विकल्प]] सिद्धांत में, जहां प्रेक्षण  लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम  k से जुड़ी [[उपयोगिता]] माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।
+जहां X<sub>''i''</sub> प्रेक्षण i का वर्णन करने वाले व्याख्यात्मक चरों का सदिश है β<sub>''k''</sub> भार(या [[प्रतिगमन गुणांक]]) का एक सदिश है जो परिणाम k के अनुरूप है, और अंक(X<sub>''i''</sub>, k) श्रेणी k को प्रेक्षण i निर्दिष्ट करने से जुड़ा अंक है। [[असतत पसंद|असतत विकल्प]] सिद्धांत में, जहां प्रेक्षण लोगों का प्रतिनिधित्व करते हैं और परिणाम विकल्पों का प्रतिनिधित्व करते हैं, अंक को व्यक्ति i चुनने वाले परिणाम k से जुड़ी [[उपयोगिता]] माना जाता है। अनुमानित परिणाम उच्चतम अंक वाला है।
-बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था ([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र | समर्थन सदिश यंत्र]] , [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम भार निर्धारित (प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस तरह से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण  की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की भविष्यवाणी को एक बड़ी प्रक्रिया में सम्मिलित  करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित  हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े [[भविष्य कहनेवाला मॉडलिंग]] की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की भविष्यवाणी को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस भविष्यवाणी को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की भविष्यवाणी में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र  0.9<sup>5</sup> = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.8<sup>5</sup> = 33% यथार्थता तक गिर जाती है। इस निर्गम को [[त्रुटि प्रसार]] के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः  कई भागों से बना होता है। मात्र  एक इष्टतम भविष्यवाणी करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की भविष्यवाणी करना, इस निर्गम को कम करने का एक साधन है।{{Citation needed|reason=Source needed for how exactly the probability estimates of each outcome can help|date=September 2017}}
+बहुपद लॉगिट मॉडल और कई अन्य विधियों, मॉडल, एल्गोरिदम, आदि के बीच एक ही मूल व्यवस्था([[परसेप्ट्रॉन]] एल्गोरिथ्म, [[ समर्थन वेक्टर यंत्र |समर्थन सदिश यंत्र]], [[रैखिक विभेदक विश्लेषण]], आदि) के बीच का अंतर इष्टतम भार निर्धारित(प्रशिक्षण) करने की प्रक्रिया है। / गुणांक और जिस प्रकार से अंक की व्याख्या की जाती है। विशेष रूप से, बहुपद लॉगिट मॉडल में, अंक को सीधे प्रायिकता मान में परिवर्तित किया जा सकता है, जो प्रेक्षण की मापित विशेषताओं को देखते हुए परिणाम k चुनने की [[संभावना]] को दर्शाता है। यह एक विशेष बहुराष्ट्रीय लॉगिट मॉडल की प्रागुक्‍ति को एक बड़ी प्रक्रिया में सम्मिलित करने की एक सैद्धांतिक विधि प्रदान करती है जिसमें त्रुटि की संभावना के साथ प्रत्येक ऐसी कई भविष्यवाणियां सम्मिलित हो सकती हैं। भविष्यवाणियों के संयोजन के ऐसे साधनों के बिना, त्रुटियाँ कई गुना बढ़ जाती हैं। उदाहरण के लिए, एक बड़े [[भविष्य कहनेवाला मॉडलिंग|प्रागोक्ति निर्देश]] की कल्पना करें, जो उपमाडलों की एक श्रृंखला में टूट जाता है, जहां एक दिए गए उपमाडल की प्रागुक्‍ति को दूसरे उपमाडल के निवेश के रूप में उपयोग किया जाता है, और उस प्रागुक्‍ति को तीसरे उपमाडल में निवेश के रूप में उपयोग किया जाता है, आदि। यदि प्रत्येक उपमॉडल की प्रागुक्‍ति में 90% यथार्थता है, और श्रृंखला में पांच उपमॉडल हैं, तो समग्र मॉडल में मात्र 0.9<sup>5</sup> = 59% यथार्थता है। यदि प्रत्येक उपमाडल में 80% यथार्थता है, तो समग्र यथार्थता 0.8<sup>5</sup> = 33% यथार्थता तक गिर जाती है। इस निर्गम को [[त्रुटि प्रसार]] के रूप में जाना जाता है और यह वास्तविक संसार के भविष्य कहनेवाला मॉडल में एक गंभीर समस्या है, जो सामान्यतः कई भागों से बना होता है। मात्र एक इष्टतम प्रागुक्‍ति करने के अतिरिक्त प्रत्येक संभावित परिणाम की संभावनाओं की प्रागुक्‍ति करना, इस निर्गम को कम करने का एक साधन है। {{Citation needed|reason=Source needed for how exactly the probability estimates of each outcome can help|date=September 2017}}
-=== व्यवस्था ===
+=== व्यवस्थापन ===
-मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र  अंतर यह है कि आश्रित चर [[द्विआधारी चर]] के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र  दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।
+मूल व्यवस्था रसद प्रतिगमन के समान है, मात्र अंतर यह है कि आश्रित चर [[द्विआधारी चर]] के अतिरिक्त श्रेणीबद्ध चर हैं, अर्थात मात्र दो के अतिरिक्त K संभावित परिणाम हैं। निम्नलिखित विवरण कुछ छोटा है; अधिक जानकारी के लिए, रसद प्रतिगमन लेख देखें।
 ==== डेटा बिंदु ====
-विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i (1 से N तक) में M व्याख्यात्मक चर x<sub>''1,i''</sub> ... X<sub>''M,i''</sub> (उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि)  का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Y<sub>''i''</sub> (उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों (जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः  गणितीय रूप से प्रत्येक को 1 से K तक  अव्यवस्थिततः रूप  से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः  N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि  एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन  प्रयोग के परिणाम को एक नवीन  डेटा बिंदु के लिए सही रूप  से भविष्यवाणी की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम , उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।
+विशेष रूप से, यह माना जाता है कि हमारे समीप N देखे गए डेटा बिंदुओं की एक श्रृंखला है। प्रत्येक डेटा बिंदु i(1 से N तक) में M व्याख्यात्मक चर x<sub>''1,i''</sub> ... X<sub>''M,i''</sub>(उर्फ स्वतंत्र चर, पूर्वसूचक चर, सुविधाएँ, आदि) का एक समूह होता है, और एक संबद्ध श्रेणीबद्ध चर परिणाम Y<sub>''i''</sub>(उर्फ आश्रित चर, प्रतिक्रिया चर), जो K संभावित मानों में से एक पर ले सकता है। ये संभावित मान तार्किक रूप से अलग-अलग श्रेणियों(जैसे विभिन्न राजनीतिक दलों, रक्त प्रकार, आदि) का प्रतिनिधित्व करते हैं, और प्रायः गणितीय रूप से प्रत्येक को 1 से K तक अव्यवस्थिततः रूप से निर्दिष्ट करके वर्णित किया जाता है। व्याख्यात्मक चर और परिणाम डेटा बिंदुओं के देखे गए गुणों का प्रतिनिधित्व करते हैं, और प्रायः N प्रयोगों की टिप्पणियों में उत्पन्न होने के विषय में सोचा जाता है - यद्यपि एक प्रयोग में डेटा एकत्र करने से अधिक कुछ नहीं हो सकता है। बहुराष्ट्रीय रसद प्रतिगमन का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो व्याख्यात्मक चर और परिणाम के बीच संबंध की व्याख्या करता है, ताकि एक नवीन प्रयोग के परिणाम को एक नवीन डेटा बिंदु के लिए सही रूप से प्रागुक्‍ति की जा सके, जिसके लिए व्याख्यात्मक चर, परन्तु नहीं परिणाम, उपलब्ध हैं। इस प्रक्रिया में, मॉडल परिणाम पर अलग-अलग व्याख्यात्मक चर के सापेक्ष प्रभाव को समझाने का प्रयास करता है।
 कुछ उदाहरण:
-*देखे गए परिणाम रोगियों के एक समूह में  [[हेपेटाइटिस|यकृत शोथ]] (संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है (लिंग, जाति, आयु, [[रक्तचाप]], विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब भविष्यवाणी करना है कि कौन सा रोग एक नवीन  रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
+*देखे गए परिणाम रोगियों के एक समूह में [[हेपेटाइटिस|यकृत शोथ]](संभवत: कोई रोग और/या अन्य संबंधित रोगों सहित) जैसे रोग के विभिन्न प्रकार हैं, और व्याख्यात्मक चर उन रोगियों की विशेषताएं हो सकती हैं जिन्हें उचित माना जाता है(लिंग, जाति, आयु, [[रक्तचाप]], विभिन्न यकृत-कार्य परीक्षणों के परिणाम, आदि)। लक्ष्य तब प्रागुक्‍ति करना है कि कौन सा रोग एक नवीन रोगी में यकृत से संबंधित लक्षणों का कारण बन रही है।
-*देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं (जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन  मतदाता के संभावित वोट की भविष्यवाणी करना है।
+*देखे गए परिणाम एक चुनाव में लोगों के एक समूह द्वारा चुनी गई दल हैं, और व्याख्यात्मक चर प्रत्येक व्यक्ति की जनसांख्यिकीय विशेषताएं हैं(जैसे लिंग, जाति, आयु, आय, आदि)। लक्ष्य तब दी गई विशेषताओं के साथ एक नवीन मतदाता के संभावित वोट की प्रागुक्‍ति करना है।
 ==== रैखिक भविष्यवक्ता ====
-रेखीय प्रतिगमन के अन्य रूपों की तरह, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन <math>f(k,i)</math> का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण  i का परिणाम k है, निम्नलिखित रूप में:
+रेखीय प्रतिगमन के अन्य रूपों के जैसे, बहुराष्ट्रीय रसद प्रतिगमन एक रेखीय भविष्यवक्ता फलन <math>f(k,i)</math> का उपयोग करता है ताकि का अनुमान लगाया जा सके कि प्रेक्षण i का परिणाम k है, निम्नलिखित रूप में:
 :<math>f(k,i) = \beta_{0,k} + \beta_{1,k} x_{1,i}  + \beta_{2,k} x_{2,i} + \cdots + \beta_{M,k} x_{M,i},</math>
-जहाँ<math>\beta_{m,k}</math> mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः  आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके:
+जहाँ<math>\beta_{m,k}</math> mवां व्याख्यात्मक चर और kवां परिणाम से जुड़ा एक प्रतिगमन गुणांक है। जैसा कि रसद प्रतिगमन लेख में समझाया गया है, प्रतिगमन गुणांक और व्याख्यात्मक चर सामान्यतः आकार m + 1 के सदिश में समूहीकृत होते हैं, ताकि भविष्यवक्ता फलन को अधिक दृढ़तापूर्वक लिखा जा सके:
 :<math>f(k,i) = \boldsymbol\beta_k \cdot \mathbf{x}_i,</math>
-जहाँ<math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math> (एक पंक्ति सदिश) प्रेक्षण  i से जुड़े व्याख्यात्मक चर का समूह है।
+जहाँ<math>\boldsymbol\beta_k</math> परिणाम के साथ जुड़े प्रतिगमन गुणांक का समूह है, और <math>\mathbf{x}_i</math>(एक पंक्ति सदिश) प्रेक्षण i से जुड़े व्याख्यात्मक चर का समूह है।
 === स्वतंत्र द्विचर प्रतिगमन के एक समूह के रूप में ===
-बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर लॉजिस्टिक  प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को  केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को  केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K (अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:
+बहुपद लॉगिट मॉडल पर पहुंचने के लिए, K संभावित परिणामों के लिए, K-1 स्वतंत्र द्विचर रसद प्रतिगमन मॉडल चलाने की कल्पना की जा सकती है, जिसमें एक परिणाम को केंद्रबिंदु के रूप में चुना जाता है और फिर अन्य K-1 परिणामों को केंद्रबिंदु के विरुद्ध अलग से प्रत्यावर्तित किया जाता है। यदि परिणाम K(अंतिम परिणाम) को धुरी के रूप में चुना जाता है, तो K-1 प्रतिगमन समीकरण हैं:
 : <math>
@@ Line 65: / Line 65: @@
 </math>
-इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले  संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:
+इस सूत्रीकरण को सामान्य रूप से संरचनागत डेटा विश्लेषण में उपयोग होने वाले संरचनागत डेटा परिवर्तन के रूप में भी जाना जाता है। यदि हम दोनों पक्षों को प्रतिपादित करते हैं और संभावनाओं को हल करते हैं, तो हमें मिलता है:
 : <math>
@@ Line 80: / Line 80: @@
 </math>.
 तथ्य यह है कि हम कई प्रतिगमन चलाते हैं, यह बताता है कि मॉडल ऊपर वर्णित अप्रासंगिक विकल्पों की स्वतंत्रता की धारणा पर क्यों निर्भर करता है।
 === गुणांक का आकलन ===
-प्रत्येक सदिश ''β<sub>k</sub> में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम  परवर्ती (प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के [[नियमितीकरण (गणित)]] का उपयोग करके अधिकतम संभावना का विस्तार है (सामान्यतः  एक वर्ग  नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर [[पूर्व वितरण]], परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः  पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त स्केलिंग का उपयोग करके पाया जाता है,<ref>{{Cite journal |title=लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग|author1=Darroch, J.N.  |author2=Ratcliff, D.  |name-list-style=amp |journal=The Annals of Mathematical Statistics |volume=43 |issue=5 |pages=1470–1480 |year=1972 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177692379 |doi=10.1214/aoms/1177692379|doi-access=free }}</ref> पुनरावृत्त रूप से कम से कम वर्ग (आईआरएलएस),<ref>{{cite book |first=Christopher M. |last=Bishop |year=2006 |title=पैटर्न मान्यता और मशीन प्रवीणता|publisher=Springer |pages=206–209}}</ref> [[एल-बीएफजीएस]] जैसे [[ढाल-आधारित अनुकूलन]] एल्गोरिदम के माध्यम से,<ref name="malouf"/>या विशेष [[समन्वय वंश]] एल्गोरिदम द्वारा।<ref>{{cite journal |first1=Hsiang-Fu |last1=Yu |first2=Fang-Lan |last2=Huang |first3=Chih-Jen |last3=Lin |year=2011 |title=रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति|journal=Machine Learning |volume=85 |issue=1–2 |pages=41–75 |url=http://www.csie.ntu.edu.tw/~cjlin/papers/maxent_dual.pdf |doi=10.1007/s10994-010-5221-8|doi-access=free }}</ref>''
+प्रत्येक सदिश ''β<sub>k</sub> में अज्ञात पैरामीटर सामान्यतः संयुक्त रूप से अधिकतम परवर्ती(प्रतिचित्र) अनुमान द्वारा अनुमान लगाया जाता है, जो रोग संबंधी हलों को रोकने के लिए भार के [[नियमितीकरण (गणित)|नियमितीकरण(गणित)]] का उपयोग करके अधिकतम संभावना का विस्तार है(सामान्यतः एक वर्ग नियमित फलन, जो शून्य-माध्य गॉसियन वितरण रखने के बराबर है भार पर [[पूर्व वितरण]], परन्तु अन्य वितरण भी संभव हैं)। हल सामान्यतः पुनरावृत्त प्रक्रिया जैसे सामान्यीकृत पुनरावृत्त प्रवर्धन का उपयोग करके पाया जाता है,<ref>{{Cite journal |title=लॉग-लीनियर मॉडल के लिए सामान्यीकृत पुनरावृत्ति स्केलिंग|author1=Darroch, J.N.  |author2=Ratcliff, D.  |name-list-style=amp |journal=The Annals of Mathematical Statistics |volume=43 |issue=5 |pages=1470–1480 |year=1972 |url=http://projecteuclid.org/download/pdf_1/euclid.aoms/1177692379 |doi=10.1214/aoms/1177692379|doi-access=free }}</ref> पुनरावृत्त रूप से कम से कम वर्ग(आईआरएलएस),<ref>{{cite book |first=Christopher M. |last=Bishop |year=2006 |title=पैटर्न मान्यता और मशीन प्रवीणता|publisher=Springer |pages=206–209}}</ref> [[एल-बीएफजीएस]] जैसे [[ढाल-आधारित अनुकूलन]] एल्गोरिदम के माध्यम से,<ref name="malouf"/>या विशेष [[समन्वय वंश|समन्वय अवरोहण]] एल्गोरिदम द्वारा। <ref>{{cite journal |first1=Hsiang-Fu |last1=Yu |first2=Fang-Lan |last2=Huang |first3=Chih-Jen |last3=Lin |year=2011 |title=रसद प्रतिगमन और अधिकतम एन्ट्रापी मॉडल के लिए दोहरी समन्वय वंश पद्धति|journal=Machine Learning |volume=85 |issue=1–2 |pages=41–75 |url=http://www.csie.ntu.edu.tw/~cjlin/papers/maxent_dual.pdf |doi=10.1007/s10994-010-5221-8|doi-access=free }}</ref>''
+== लॉग-रेखीय मॉडल के रूप में ==
-=== लॉग-लीनियर मॉडल === के रूप में
+लॉग-रेखीय मॉडल के रूप में द्विचर रसद प्रतिगमन का सूत्रीकरण सीधे बहु-मार्गी प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त [[सामान्यीकरण कारक]], विभाजन फलन(गणित) के लघुगणक का उपयोग करके दिए गए निर्गम को देखने की संभावना के लघुगणक को मॉडल करते हैं:
-लॉजिस्टिक  प्रतिगमन#लॉग-लीनियर मॉडल|लॉग-लीनियर मॉडल के रूप में द्विचर लॉजिस्टिक  प्रतिगमन का सूत्रीकरण सीधे मल्टी-वे  प्रतिगमन तक बढ़ाया जा सकता है। अर्थात्, हम रैखिक भविष्यवक्ता के साथ-साथ एक अतिरिक्त [[सामान्यीकरण कारक]], विभाजन फलन (गणित) के लघुगणक का उपयोग करके दिए गए आउटपुट को देखने की संभावना के लघुगणक को मॉडल करते हैं:
 : <math>
@@ Line 95: / Line 93: @@
 </math>.
-जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है <math>- \ln Z</math> यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह एक [[प्रायिकता वितरण]] बनाता है, यानी कि वे सभी एक के लिए योग करें:
+जैसा कि द्विचर विषय में होता है, हमें एक अतिरिक्त पद की आवश्यकता होती है <math>- \ln Z</math> यह सुनिश्चित करने के लिए कि संभावनाओं का पूरा समूह [[प्रायिकता वितरण]] बनाता है, अर्थात् वे सभी एक के लिए योग करें:
 :<math>\sum_{k=1}^{K} \Pr(Y_i=k) = 1</math>
@@ Line 104: / Line 102: @@
 </math>.
-वितरण के लिए मात्रा Z को विभाजन फलन (गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:
+वितरण के लिए मात्रा Z को विभाजन फलन(गणित) कहा जाता है। हम उपरोक्त बाधा को लागू करके विभाजन फलन के मान की गणना कर सकते हैं जिसके लिए सभी संभावनाओं को 1 तक जमा करने की आवश्यकता होती है:
 :<math>
@@ Line 112: / Line 110: @@
 :<math>Z = \sum_{k=1}^{K} e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}</math>
-ध्यान दें कि यह कारक इस अर्थ में स्थिर है कि यह Y का कार्य नहीं है<sub>''i''</sub>, जो कि वह चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि , यह निश्चित रूप से व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, अज्ञात प्रतिगमन गुणांक ''β'' के संबंध में<sub>''k''</sub>, जिसे हमें किसी प्रकार की [[गणितीय अनुकूलन]] प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।
+ध्यान दें कि यह कारक "निरंतर" इस अर्थ में है कि यह Y<sub>''i''</sub> का कार्य नहीं है, जो चर है जिस पर संभाव्यता वितरण परिभाषित किया गया है। यद्यपि, यह निश्चित रूप से अज्ञात प्रतिगमन गुणांक ''β''<sub>''k''</sub> के संबंध में व्याख्यात्मक चर के संबंध में स्थिर नहीं है, या महत्वपूर्ण रूप से, जिसे हमें किसी प्रकार की [[गणितीय अनुकूलन]] प्रक्रिया के माध्यम से निर्धारित करने की आवश्यकता होगी।
 संभावनाओं के लिए परिणामी समीकरण हैं
@@ Line 126: / Line 124: @@
 :<math>\operatorname{softmax}(k,x_1,\ldots,x_n) = \frac{e^{x_k}}{\sum_{i=1}^n e^{x_i}}</math>
-[[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में जाना जाता है। इसका कारण यह है कि मानों को प्रतिपादित करने का प्रभाव <math>x_1,\ldots,x_n</math> उनके बीच मतभेदों को बढ़ा-चढ़ाकर प्रस्तुत करना है। नतीजतन, <math>\operatorname{softmax}(k,x_1,\ldots,x_n)</math> जब भी 0 के करीब का मान लौटाएगा<math>x_k</math>सभी मानों के अधिकतम से काफी कम है, और अधिकतम मान पर लागू होने पर 1 के करीब मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के बेहद करीब न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग [[भारित औसत]] बनाने के लिए किया जा सकता है जो एक चिकनी फलन के रूप में व्यवहार करता है (जो आसानी से भेदभाव (गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है
+[[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में जाना जाता है। इसका कारण यह है कि <math>x_1,\ldots,x_n</math> मानों को प्रतिपादित करने का प्रभाव उनके बीच अंतरों को बढ़ा-चढ़ाकर प्रस्तुत करना है। फलस्वरूप, <math>\operatorname{softmax}(k,x_1,\ldots,x_n)</math> 0 के समीप मान लौटाएगा जब भी <math>x_k</math>सभी मानों के अधिकतम से अत्यधिक कम होगा, और अधिकतम मान पर लागू होने पर 1 के समीप मान लौटाएगा, जब तक कि यह अगले-सबसे बड़े मान के अत्यंत समीप न हो। इस प्रकार, सॉफ्टमैक्स फलन का उपयोग [[भारित औसत]] बनाने के लिए किया जा सकता है जो एक चिकने फलन के रूप में व्यवहार करता है(जो सरली से विभेदित(गणित), आदि हो सकता है) और जो संकेतक फलन का अनुमान लगाता है
 :<math>f(k) = \begin{cases}
@@ Line 136: / Line 134: @@
 :<math>\Pr(Y_i=c) = \operatorname{softmax}(c, \boldsymbol\beta_1 \cdot \mathbf{X}_i, \ldots, \boldsymbol\beta_K \cdot \mathbf{X}_i)</math>
-सॉफ्टमैक्स फलन इस प्रकार द्विचर लॉजिस्टिक  प्रतिगमन में [[रसद समारोह]] के समतुल्य के रूप में कार्य करता है।
+सॉफ्टमैक्स फलन इस प्रकार द्विचर रसद प्रतिगमन में [[रसद समारोह|रसद फलन]] के समतुल्य के रूप में कार्य करता है।
-ध्यान दें कि सभी नहीं <math>\beta_k</math> गुणांक के सदिश विशिष्ट [[पहचान]] योग्य हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, बाकी सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप  से निर्धारित हो जाती है। नतीजतन, ही हैं <math>k-1</math> अलग से निर्दिष्ट संभावनाएँ, और इसलिए <math>k-1</math> गुणांक के अलग-अलग पहचाने जाने योग्य सदिश। इसे देखने की एक विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:
+ध्यान दें कि गुणांक के सभी <math>\beta_k</math> सदिश विशिष्ट रूप से [[पहचान|अभिज्ञेय]] योग्य नहीं हैं। यह इस तथ्य के कारण है कि सभी संभावनाओं का योग 1 होना चाहिए, शेष सभी ज्ञात होने के बाद उनमें से एक पूर्ण रूप से निर्धारित हो जाती है। फलस्वरूप, मात्र <math>k-1</math> अलग-अलग निर्दिष्ट संभावनाएं हैं, और इसलिए गुणांक के <math>k-1</math> गुणांक के अलग-अलग अभिज्ञेय योग्य सदिश हैं। इसे देखने की विधि यह है कि यदि हम सभी गुणांक सदिशों में एक स्थिर सदिश जोड़ते हैं, तो समीकरण समान होते हैं:
 :<math>
@@ Line 147: / Line 145: @@
 \end{align}
 </math>
-नतीजतन, यह समूह करने के लिए पारंपरिक है <math>C = -\boldsymbol\beta_K</math> (या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक)। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, और यह जांचना कि अन्य सभी K-1 विकल्प कितने बेहतर या खराब हैं, उस विकल्प के सापेक्ष जो हम घूम रहे हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:
+फलस्वरूप, यह <math>C = -\boldsymbol\beta_K</math>(या वैकल्पिक रूप से, अन्य गुणांक सदिशों में से एक) समूहित करने के लिए पारंपरिक है। अनिवार्य रूप से, हम स्थिरांक समूह करते हैं ताकि एक सदिश 0 हो जाए, और अन्य सभी सदिश उन सदिशों और हमारे द्वारा चुने गए सदिश के बीच के अंतर में रूपांतरित हो जाएं। यह K विकल्पों में से किसी एक के समीप पिवोट करने के बराबर है, हम जिस विकल्प के चारों ओर घूम रहे हैं, उसके सापेक्ष अन्य सभी K-1 विकल्प कितने ठीक या बुरा हैं। गणितीय रूप से, हम गुणांकों को निम्नानुसार रूपांतरित करते हैं:
 :<math>
@@ Line 160: / Line 158: @@
 \Pr(Y_i=k) = \frac{e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}}{1 + \sum_{j=1}^{K-1} e^{\boldsymbol\beta'_j \cdot \mathbf{X}_i}} \;\;\;\;,\;\;k \le K
 </math>
-प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अलावा, यह K-1 स्वतंत्र दो-तरफ़ा प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में बिल्कुल वैसा ही है।
+प्रतिगमन गुणांकों पर प्रमुख प्रतीकों के अतिरिक्त, यह K-1 स्वतंत्र दो-पथ प्रतिगमन के संदर्भ में ऊपर वर्णित मॉडल के रूप में पूर्णतः वैसा ही है।
-=== एक अव्यक्त-चर मॉडल === के रूप में
+== एक अव्यक्त-चर मॉडल के रूप में ==
+द्विचर रसद प्रतिगमन के लिए वर्णित दो-पथ अव्यक्त चर मॉडल का पालन करते हुए एक अव्यक्त चर मॉडल के रूप में बहुपद रसद प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय संभावना मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना सरल बनाता है।
-लॉजिस्टिक  प्रतिगमन#टू-वे लेटेंट-वैरिएबल मॉडल|द्विचर लॉजिस्टिक  प्रतिगमन के लिए वर्णित टू-वे लेटेंट वेरिएबल मॉडल का पालन करते हुए एक लेटेंट वेरिएबल मॉडल के रूप में बहुपद लॉजिस्टिक  प्रतिगमन तैयार करना भी संभव है। यह सूत्रीकरण असतत विकल्प मॉडल के सिद्धांत में सामान्य है, और बहुराष्ट्रीय रसद प्रतिगमन की तुलना संबंधित बहुराष्ट्रीय प्रोबिट मॉडल के साथ-साथ इसे और अधिक जटिल मॉडल तक विस्तारित करना आसान बनाता है।
+कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup>(अर्थात् एक बिना प्रेक्षण वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:
-कल्पना करें कि, प्रत्येक डेटा बिंदु i और संभावित परिणाम k=1,2,...,K के लिए, एक सतत [[अव्यक्त चर]] Y है<sub>''i,k''</sub><sup>*</sup> (अर्थात् एक बिना प्रेक्षण  वाला यादृच्छिक चर) जिसे निम्नानुसार वितरित किया गया है:
 : <math>
 Y_{i,k}^{\ast} = \boldsymbol\beta_k \cdot \mathbf{X}_i + \varepsilon_k \;\;\;\;,\;\;k \le K
 </math>
-जहाँ<math>\varepsilon_k \sim \operatorname{EV}_1(0,1),</math> यानी एक मानक प्रकार -1 [[चरम मूल्य वितरण|चरम मान वितरण]]।
+जहाँ <math>\varepsilon_k \sim \operatorname{EV}_1(0,1),</math> अर्थात् एक मानक प्रकार -1 [[चरम मूल्य वितरण|परम मान वितरण]]।
-इस अव्यक्त चर को डेटा बिंदु से जुड़ी उपयोगिता के रूप में माना जा सकता है, मैं परिणाम k चुन रहा हूं, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए जिम्मेदार है। वास्तविक चर का मान <math>Y_i</math> तब इन अव्यक्त चरों से एक गैर-यादृच्छिक फैशन में निर्धारित किया जाता है (अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र  यदि संबद्ध उपयोगिता (का मान) <math>Y_{i,k}^{\ast}</math>) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के बिल्कुल समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:
+इस अव्यक्त चर को डेटा बिंदु i से जुड़ी उपयोगिता के रूप में माना जा सकता है, जो परिणाम k को चुनता है, जहां प्राप्त उपयोगिता की वास्तविक मात्रा में कुछ यादृच्छिकता है, जो विकल्प में जाने वाले अन्य अप्रतिबंधित कारकों के लिए होती है जो पसंद में जाते हैं। वास्तविक चर का मान <math>Y_i</math> तब इन अव्यक्त चरों से एक गैर-यादृच्छिक कार्य प्रणाली में निर्धारित किया जाता है(अर्थात यादृच्छिकता को देखे गए परिणामों से अव्यक्त चर में ले जाया गया है), जहां परिणाम k को चुना जाता है यदि और मात्र यदि संबद्ध उपयोगिता( <math>Y_{i,k}^{\ast}</math> का मान) अन्य सभी विकल्पों की उपयोगिताओं से अधिक है, अर्थात यदि परिणाम k से जुड़ी उपयोगिता सभी उपयोगिताओं में से अधिकतम है। चूँकि अव्यक्त चर निरंतर परिवर्तनशील होते हैं, दो के पूर्णतः समान मान होने की संभावना 0 होती है, इसलिए हम परिदृश्य को अनदेखा कर देते हैं। वह है:
 : <math>
@@ Line 188: / Line 185: @@
 \Pr(Y_i = k) \;=\; \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{\ast}) \;\;\;\;,\;\;k \le K
 </math>
-आइए पहले समीकरण को अधिक बारीकी से देखें, जिसे हम इस प्रकार लिख सकते हैं:
+आइए प्रथम समीकरण को अधिक ध्यान से देखें, जिसे हम इस प्रकार लिख सकते हैं:
 : <math>
@@ Line 199: / Line 196: @@
 </math>
 यहां समझने के लिए कुछ चीजें हैं:
-# सामान्य तौर पर, अगर <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तब <math>X - Y \sim \operatorname{Logistic}(0,b).</math> यही है, दो [[स्वतंत्र समान रूप से वितरित]] चरम-मान-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां पहला पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि पहला पैरामीटर एक [[स्थान पैरामीटर]] है, यानी यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका मतलब यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित  है, जो चरम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि मनमाना लगता है, कुछ हद तक अधिक समझने योग्य है।
+# सामान्यतः यदि <math>X \sim \operatorname{EV}_1(a,b)</math> और <math>Y \sim \operatorname{EV}_1(a,b)</math> तो <math>X - Y \sim \operatorname{Logistic}(0,b)</math>। अर्थात, दो [[स्वतंत्र समान रूप से वितरित]] परम-मान-वितरित चर का अंतर [[रसद वितरण]] का अनुसरण करता है, जहां प्रथम पैरामीटर महत्वहीन है। यह समझ में आता है क्योंकि प्रथम पैरामीटर एक [[स्थान पैरामीटर]] है, अर्थात् यह माध्य को एक निश्चित राशि से बदलता है, और यदि दो मानों को एक ही राशि से स्थानांतरित किया जाता है, तो उनका अंतर समान रहता है। इसका तात्पर्य यह है कि किसी दिए गए विकल्प की संभावना के अंतर्गत आने वाले सभी संबंधपरक बयानों में रसद वितरण सम्मिलित है, जो परम-मान वितरण की प्रारंभिक विकल्प बनाता है, जो कि यादृच्छिक लगता है, किंचित अधिक समझने योग्य है।
-# Xट्रीम-वैल्यू या लॉजिस्टिक डिस्ट्रीब्यूशन में दूसरा पैरामीटर एक [[स्केल पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तब <math>bX \sim \operatorname{Logistic}(0,b).</math> इसका मतलब यह है कि स्केल 1 के स्थान पर एक  अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके मुआवजा दिया जा सकता है। पिछले बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक चरम-मान वितरण (स्थान 0, स्केल 1) का उपयोग  अव्यवस्थिततः रूप  से चरम-मान वितरण का उपयोग करने पर सामान्यता का कोई नुकसान नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-पहचान योग्य (इष्टतम गुणांक का कोई एकल समूह नहीं) है।
+# परम-मान या रसद वितरण में दूसरा पैरामीटर एक [[स्केल पैरामीटर|पैमाना पैरामीटर]] है, जैसे कि यदि <math>X \sim \operatorname{Logistic}(0,1)</math> तो <math>bX \sim \operatorname{Logistic}(0,b)</math>। इसका तात्पर्य यह है कि पैमाना 1 के स्थान पर एक अव्यवस्थिततः पैमाने के पैरामीटर के साथ एक त्रुटि चर का उपयोग करने के प्रभाव को सभी प्रतिगमन सदिशों को उसी पैमाने से गुणा करके आपूर्ति की जा सकती है। पूर्व बिंदु के साथ, यह दर्शाता है कि त्रुटि चर के लिए मानक परम-मान वितरण(स्थान 0, पैमाना 1) का उपयोग अव्यवस्थिततः रूप से परम-मान वितरण का उपयोग करने पर सामान्यता का कोई क्षति नहीं करता है। यथार्थ, यदि अधिक सामान्य वितरण का उपयोग किया जाता है तो मॉडल गैर-अभिज्ञेय योग्य(इष्टतम गुणांक का कोई एकल समूह नहीं) है।
-# क्योंकि मात्र  प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक मनमाना स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका मतलब यह है कि, लॉग-लीनियर मॉडल की तरह, गुणांक सदिशों में से मात्र  K-1 की पहचान की जा सकती है, और अंतिम वाले को  अव्यवस्थिततः मान पर समूह किया जा सकता है (उदाहरण के लिए 0)।
+# क्योंकि मात्र प्रतिगमन गुणांक के सदिश के अंतर का उपयोग किया जाता है, सभी गुणांक सदिशों के लिए एक यादृच्छिक स्थिरांक जोड़ने से मॉडल पर कोई प्रभाव नहीं पड़ता है। इसका तात्पर्य यह है कि, लॉग-रेखीय मॉडल के जैसे, गुणांक सदिशों में से मात्र K-1 की अभिज्ञेय की जा सकती है, और अंतिम वाले को अव्यवस्थिततः मान पर समूहित किया जा सकता है(उदाहरण के लिए 0)।
-यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के एक विशेष [[आदेश आँकड़ा|अनुक्रमित आँकड़ा]] (पहला, यानी अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।
+यथार्थ उपरोक्त संभावनाओं के मानों को खोजना कुछ कठिन है, और मानों के एक समूह के विशेष [[आदेश आँकड़ा|अनुक्रमित आँकड़े]](प्रथम, अर्थात् अधिकतम) की गणना करने की समस्या है। यद्यपि, यह दिखाया जा सकता है कि परिणामी अभिव्यक्तियाँ उपरोक्त योगों के समान हैं, अर्थात दोनों समान हैं।
 == अवरोधन का अनुमान ==
-बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग [[विषम अनुपात]] निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में एक विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।
+बहुराष्ट्रीय रसद प्रतिगमन का उपयोग करते समय, आश्रित चर की एक श्रेणी को संदर्भ श्रेणी के रूप में चुना जाता है। संदर्भ श्रेणी के अपवाद के साथ आश्रित चर की प्रत्येक श्रेणी के लिए सभी स्वतंत्र चर के लिए अलग-अलग [[विषम अनुपात]] निर्धारित किए जाते हैं, जिसे विश्लेषण से हटा दिया जाता है। घातीय बीटा गुणांक संबंधित स्वतंत्र चर के एक इकाई परिवर्तन से जुड़े संदर्भ श्रेणी की तुलना में विशेष श्रेणी में होने वाले आश्रित चर के अंतर में परिवर्तन का प्रतिनिधित्व करता है।
-== [[प्राकृतिक भाषा प्रसंस्करण]] == में आवेदन
+== [[प्राकृतिक भाषा प्रसंस्करण]] में आवेदन ==
-प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय LR वर्गीकारकों का उपयोग सामान्यतः  सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर (सामान्यतः  सुविधाओं के रूप में जाना जाता है) की [[सांख्यिकीय स्वतंत्रता]] नहीं मानते हैं। यद्यपि , इस तरह के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, Naive Bayes वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण मामला है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में वज़न, जो सामान्यतः  अधिकतम  परवर्ती (MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, होना चाहिए पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।
+प्राकृतिक भाषा प्रसंस्करण में, बहुराष्ट्रीय एलआर वर्गीकारकों का उपयोग सामान्यतः सहज बेयस वर्गीकारकों के विकल्प के रूप में किया जाता है क्योंकि वे भविष्यवाणियों के रूप में सेवा करने वाले यादृच्छिक चर(सामान्यतः सुविधाओं के रूप में जाना जाता है) की [[सांख्यिकीय स्वतंत्रता]] नहीं मानते हैं। यद्यपि, इस प्रकार के एक मॉडल में सीखना एक सरल बेयस वर्गीकरणकर्ता की तुलना में धीमा है, और इस प्रकार सीखने के लिए बहुत बड़ी संख्या में उपयुक्त नहीं हो सकता है। विशेष रूप से, सहज बेयस वर्गीकरणकर्ता में सीखना सुविधाओं और कक्षाओं की सह-घटनाओं की संख्या को गिनने का एक साधारण विषय है, जबकि अधिकतम एन्ट्रॉपी वर्गीकरणकर्ता में भारित, जो सामान्यतः अधिकतम परवर्ती(MAP) अनुमान का उपयोग करके अधिकतम किया जाता है, पुनरावृत्त प्रक्रिया का उपयोग करके सीखा जा सकता है; देखें #गुणांकों का अनुमान लगाना।
 == यह भी देखें ==
-* संभार तन्त्र परावर्तन
+* रसद प्रतिगमन
 * बहुराष्ट्रीय संभावना
 ==संदर्भ==
 {{reflist|30em}}
-[[Category: संभार तन्त्र परावर्तन]] [[Category: वर्गीकरण एल्गोरिदम]] [[Category: प्रतिगमन मॉडल]]
-[[Category: Machine Translated Page]]
+[[Category:All articles with unsourced statements]]
+[[Category:Articles with hatnote templates targeting a nonexistent page]]
+[[Category:Articles with unsourced statements from September 2017]]
 [[Category:Created On 02/03/2023]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Missing redirects]]
+[[Category:Pages with empty portal template]]
+[[Category:Pages with script errors]]
+[[Category:Portal-inline template with redlinked portals]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:प्रतिगमन मॉडल]]
+[[Category:वर्गीकरण एल्गोरिदम]]
+[[Category:संभार तन्त्र परावर्तन]]

Anonymous

Search

बहुपद तार्किक प्रतिगमन: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 07:12, 19 March 2023

Contents

पृष्ठाधार

अनुमान