जनरेटिव मॉडल: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 2: Line 2:
{{About|सांख्यिकीय वर्गीकरण के संदर्भ में सामान्य मॉडल|<nowiki>[[मार्कोव निर्णय प्रक्रियाओं] के जेनेरिक मॉडल]</nowiki>|मार्कोव निर्णय प्रक्रिया#सिम्युलेटर मॉडल|कंप्यूटर ग्राफिक्स और जेनरेटिव कंप्यूटर प्रोग्रामिंग में जेनेरिक मॉडलिंग भाषा (जीएमएल)|पीढ़ीदार मॉडलिंग भाषा|जेनेरिक आर्टिफिशियल इंटेलिजेंस (जेनरेटिव ए.आई.) मॉडल/प्रणाली|उदार कृत्रिम बुद्धि}}
{{About|सांख्यिकीय वर्गीकरण के संदर्भ में सामान्य मॉडल|<nowiki>[[मार्कोव निर्णय प्रक्रियाओं] के जेनेरिक मॉडल]</nowiki>|मार्कोव निर्णय प्रक्रिया#सिम्युलेटर मॉडल|कंप्यूटर ग्राफिक्स और जेनरेटिव कंप्यूटर प्रोग्रामिंग में जेनेरिक मॉडलिंग भाषा (जीएमएल)|पीढ़ीदार मॉडलिंग भाषा|जेनेरिक आर्टिफिशियल इंटेलिजेंस (जेनरेटिव ए.आई.) मॉडल/प्रणाली|उदार कृत्रिम बुद्धि}}


[[सांख्यिकीय वर्गीकरण]] में, दो मुख्य दृष्टिकोणों को जनरेटिव दृष्टिकोण और भेदभावपूर्ण दृष्टिकोण कहा जाता है। [[सांख्यिकीय मॉडल]]िंग की डिग्री में भिन्न, विभिन्न दृष्टिकोणों द्वारा ये गणना [[वर्गीकरण नियम]]शब्दावली असंगत है,{{efn|Three leading sources, {{harvnb|Ng|Jordan|2002}}, {{harvnb|Jebara|2004}}, and {{harvnb|Mitchell|2015}}, give different divisions and definitions.}} लेकिन निम्नलिखित तीन प्रमुख प्रकारों को प्रतिष्ठित किया जा सकता है {{harvtxt|Jebara|2004}}:
[[सांख्यिकीय वर्गीकरण]] में, दो मुख्य दृष्टिकोणों को जनरेटिव दृष्टिकोण और भेदभावपूर्ण दृष्टिकोण कहा जाता है। [[सांख्यिकीय मॉडल]]िंग की डिग्री में भिन्न, विभिन्न दृष्टिकोणों द्वारा ये गणना [[वर्गीकरण नियम]] शब्दावली असंगत है,{{efn|Three leading sources, {{harvnb|Ng|Jordan|2002}}, {{harvnb|Jebara|2004}}, and {{harvnb|Mitchell|2015}}, give different divisions and definitions.}} लेकिन निम्नलिखित तीन प्रमुख प्रकारों को प्रतिष्ठित किया जा सकता है {{harvtxt|जेबरा|2004}} के बाद
# एक जनरेटिव मॉडल [[संयुक्त संभाव्यता वितरण]] का एक सांख्यिकीय मॉडल है <math>P(X, Y)</math> दिए गए नमूदार चर X और [[लक्ष्य चर]] Y पर;<ref name="ngjordan2002generative">{{harvtxt|Ng|Jordan|2002}}: "Generative classifiers learn a model of the joint probability, <math>p(x, y)</math>, of the inputs ''x'' and the label ''y'', and make their predictions by using Bayes rules to calculate <math>p(y\mid x)</math>, and then picking the most likely label ''y''.</ref>
# एक जनरेटिव मॉडल [[संयुक्त संभाव्यता वितरण]] का एक सांख्यिकीय मॉडल है <math>P(X, Y)</math> दिए गए नमूदार चर X और [[लक्ष्य चर]] Y पर;<ref name="ngjordan2002generative">{{harvtxt|Ng|Jordan|2002}}: "Generative classifiers learn a model of the joint probability, <math>p(x, y)</math>, of the inputs ''x'' and the label ''y'', and make their predictions by using Bayes rules to calculate <math>p(y\mid x)</math>, and then picking the most likely label ''y''.</ref>
# एक विवेकशील मॉडल [[सशर्त संभाव्यता]] का एक मॉडल है <math>P(Y\mid X = x)</math> लक्ष्य Y का, एक अवलोकन x दिया गया; और
# एक विवेकशील मॉडल [[सशर्त संभाव्यता]] का एक मॉडल है <math>P(Y\mid X = x)</math> लक्ष्य Y का, एक अवलोकन x दिया गया; और
# संभाव्यता मॉडल का उपयोग किए बिना गणना किए गए क्लासिफायर को भी भेदभावपूर्ण के रूप में शिथिल रूप से संदर्भित किया जाता है।
# संभाव्यता मॉडल का उपयोग किए बिना गणना किए गए वर्गीकृत को भी भेदभावपूर्ण के रूप में शिथिल रूप से संदर्भित किया जाता है।
इन अंतिम दो वर्गों के बीच भेद लगातार नहीं किया जाता है;<ref>{{harvnb|Jebara|2004|loc=2.4 Discriminative Learning}}: "This distinction between conditional learning and discriminative learning is not currently a well established convention in the field."</ref> {{harvtxt|Jebara|2004}} इन तीन वर्गों को जनरेटिव लर्निंग, कंडीशनल लर्निंग और डिस्क्रिमिनेटिव लर्निंग के रूप में संदर्भित करता है, लेकिन {{harvtxt|Ng|Jordan|2002}} केवल दो वर्गों को अलग करता है, उन्हें जनरेटिव क्लासिफायरियर (संयुक्त वितरण) और भेदभावपूर्ण क्लासिफायरियर (सशर्त वितरण या कोई वितरण नहीं) कहते हैं, बाद के दो वर्गों के बीच अंतर नहीं करते।<ref>{{harvnb|Ng|Jordan|2002}}: "Discriminative classifiers model the posterior <math>p(y|x)</math> directly, or learn a direct map from inputs ''x'' to the class labels."</ref> समान रूप से, एक जनरेटिव मॉडल पर आधारित एक क्लासिफायरियर एक जनरेटिव क्लासिफायरियर है, जबकि एक भेदभावपूर्ण मॉडल पर आधारित एक क्लासिफायर एक भेदभावपूर्ण क्लासिफायरियर है, हालांकि यह शब्द [[रैखिक वर्गीकारक]] को भी संदर्भित करता है जो एक मॉडल पर आधारित नहीं हैं।
इन अंतिम दो वर्गों के बीच भेद निरंतर नहीं किया जाता है;<ref>{{harvnb|Jebara|2004|loc=2.4 Discriminative Learning}}: "This distinction between conditional learning and discriminative learning is not currently a well established convention in the field."</ref> {{harvtxt|जेबरा|2004}} इन तीन वर्गों को जनरेटिव लर्निंग, कंडीशनल लर्निंग और भेदभावपूर्ण लर्निंग के रूप में संदर्भित करता है, लेकिन {{harvtxt|एनजी|जॉर्डन|2002}} केवल दो वर्गों को अलग करता है, उन्हें जनरेटिव वर्गीकरणकर्ता (संयुक्त वितरण) और भेदभावपूर्ण वर्गीकरणकर्ता (सशर्त वितरण या कोई वितरण नहीं) कहते हैं, बाद के दो वर्गों के बीच अंतर नहीं करते।<ref name=":0">{{harvnb|Ng|Jordan|2002}}: "Discriminative classifiers model the posterior <math>p(y|x)</math> directly, or learn a direct map from inputs ''x'' to the class labels."</ref> समान रूप से, एक जनरेटिव मॉडल पर आधारित एक वर्गीकरणकर्ता एक जनरेटिव वर्गीकरणकर्ता है, जबकि एक भेदभावपूर्ण मॉडल पर आधारित एक वर्गीकरणकर्ता एक भेदभावपूर्ण वर्गीकरणकर्ता है, चूँकि यह शब्द [[रैखिक वर्गीकारक]] को भी संदर्भित करता है जो एक मॉडल पर आधारित नहीं हैं। '''और भेदभावपूर्ण वर्गीकरणकर्ता (सशर्त वितरण या कोई वितरण नहीं) कहते हैं, बाद के दो वर्गों के बीच अंतर नहीं करते।<ref name=":0" /> समान रूप से, एक जनरेटिव मॉडल पर आधारित एक वर्गीकरणकर्ता एक जनरेटिव वर्गीकरणकर्ता है, जबकि एक भेदभावपूर्ण मॉडल पर आधारित एक वर्गीकरणकर्ता एक भेदभावपूर्ण वर्गीकरणकर्ता है, चूँकि यह शब्द [[रैखिक वर्गीकारक]] को भी संदर्भित करता है जो एक मॉडल पर आधारित नहीं हैं।'''


प्रत्येक के मानक उदाहरण, जो सभी रेखीय वर्गीकारक हैं, हैं:
प्रत्येक के मानक उदाहरण, जो सभी रेखीय वर्गीकारक हैं, हैं:


* जनरेटिव क्लासिफायरियर:
* जनरेटिव वर्गीकरणकर्ता:
** भोले बेयस वर्गीकारक और
** भोले बेयस वर्गीकारक और
** [[रैखिक विभेदक विश्लेषण]]
** [[रैखिक विभेदक विश्लेषण]]
Line 16: Line 16:
** [[संभार तन्त्र परावर्तन]]
** [[संभार तन्त्र परावर्तन]]


वर्गीकरण के लिए आवेदन में, एक अवलोकन ''x'' से एक लेबल ''y'' (या लेबल पर संभाव्यता वितरण) में जाना चाहता है। संभाव्यता वितरण ("'वितरण-मुक्त वर्गीकारक'') का उपयोग किए बिना, कोई भी इसकी सीधे गणना कर सकता है; एक अवलोकन दिए जाने पर एक लेबल की संभावना का अनुमान लगाया जा सकता है, <math>P(Y|X=x)</math> (भेदभावपूर्ण मॉडल), और उस पर आधार वर्गीकरण; या कोई संयुक्त वितरण का अनुमान लगा सकता है <math>P(X, Y)</math> (जेनेरेटिव मॉडल), उस से सशर्त संभाव्यता की गणना करें <math>P(Y|X=x)</math>, और उसके बाद उस पर आधार वर्गीकरण। ये तेजी से अप्रत्यक्ष हैं, लेकिन तेजी से संभाव्य हैं, अधिक डोमेन ज्ञान और संभाव्यता सिद्धांत को लागू करने की अनुमति देते हैं। व्यवहार में विशेष समस्या के आधार पर विभिन्न दृष्टिकोणों का उपयोग किया जाता है, और संकर कई दृष्टिकोणों की ताकत को जोड़ सकते हैं।
वर्गीकरण के लिए आवेदन में, एक अवलोकन ''x'' से एक लेबल ''y'' (या लेबल पर संभाव्यता वितरण) में जाना चाहता है। संभाव्यता वितरण ("'वितरण-मुक्त वर्गीकारक'') का'' उपयोग किए बिना, कोई भी इसकी सीधे गणना कर सकता है; एक अवलोकन दिए जाने पर एक लेबल की संभावना का अनुमान लगाया जा सकता है, <math>P(Y|X=x)</math> (भेदभावपूर्ण मॉडल), और उस पर आधार वर्गीकरण; या कोई संयुक्त वितरण का अनुमान लगा सकता है <math>P(X, Y)</math> (जेनेरेटिव मॉडल), उस से सशर्त संभाव्यता की गणना करें <math>P(Y|X=x)</math>, और उसके बाद उस पर आधार वर्गीकरण। ये तेजी से अप्रत्यक्ष हैं, लेकिन तेजी से संभाव्य हैं, अधिक डोमेन ज्ञान और संभाव्यता सिद्धांत को प्रयुक्त करने की अनुमति देते हैं। व्यवहार में विशेष समस्या के आधार पर विभिन्न दृष्टिकोणों का उपयोग किया जाता है, और संकर कई दृष्टिकोणों की ताकत को जोड़ सकते हैं।


== परिभाषा ==
== परिभाषा ==
एक वैकल्पिक विभाजन इन्हें सममित रूप से परिभाषित करता है:
एक वैकल्पिक विभाजन इन्हें सममित रूप से परिभाषित करता है:


* एक जनरेटिव मॉडल अवलोकनीय 'एक्स' की सशर्त संभावना का एक मॉडल है, जिसे लक्ष्य 'वाई' दिया गया है, प्रतीकात्मक रूप से, <math>P(X\mid Y = y)</math><ref name="mitchell2015generative">{{harvnb|Mitchell|2015}}: "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function <math>f\colon X \to Y</math>, or equivalently, <math>P(Y\mid X)</math>, we use the training data to learn estimates of <math>P(X\mid Y)</math> and <math>P(Y)</math>. New ''X'' examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a ''generative'' classifier, because we can view the distribution <math>P(X\mid Y)</math> as describing how to generate random instances ''X'' conditioned on the target attribute ''Y''.</ref>
* एक जनरेटिव मॉडल अवलोकनीय 'X' की सशर्त संभावना का एक मॉडल है, जिसे लक्ष्य 'Y' दिया गया है, प्रतीकात्मक रूप से, <math>P(X\mid Y = y)</math><ref name="mitchell2015generative">{{harvnb|Mitchell|2015}}: "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function <math>f\colon X \to Y</math>, or equivalently, <math>P(Y\mid X)</math>, we use the training data to learn estimates of <math>P(X\mid Y)</math> and <math>P(Y)</math>. New ''X'' examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a ''generative'' classifier, because we can view the distribution <math>P(X\mid Y)</math> as describing how to generate random instances ''X'' conditioned on the target attribute ''Y''.</ref>
* एक भेदभावपूर्ण मॉडल लक्ष्य 'वाई' की सशर्त संभावना का एक मॉडल है, जिसे एक अवलोकन 'एक्स' दिया गया है, प्रतीकात्मक रूप से, <math>P(Y\mid X = x)</math><ref name="mitchell2015discriminative">{{harvnb|Mitchell|2015}}: "Logistic Regression is a function approximation algorithm that uses training data to directly estimate <math>P(Y\mid X)</math>, in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a ''discriminative'' classifier because we can view the distribution <math>P(Y\mid X)</math> as directly discriminating the value of the target value ''Y'' for any given instance ''X''</ref>
* एक भेदभावपूर्ण मॉडल लक्ष्य 'Y' की सशर्त संभावना का एक मॉडल है, जिसे एक अवलोकन 'X' दिया गया है, प्रतीकात्मक रूप से, <math>P(Y\mid X = x)</math><ref name="mitchell2015discriminative">{{harvnb|Mitchell|2015}}: "Logistic Regression is a function approximation algorithm that uses training data to directly estimate <math>P(Y\mid X)</math>, in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a ''discriminative'' classifier because we can view the distribution <math>P(Y\mid X)</math> as directly discriminating the value of the target value ''Y'' for any given instance ''X''</ref>
सटीक परिभाषा के बावजूद, शब्दावली संवैधानिक है क्योंकि एक जनरेटिव मॉडल का उपयोग यादृच्छिक उदाहरण (परिणाम (संभाव्यता)) उत्पन्न करने के लिए किया जा सकता है, या तो एक अवलोकन और लक्ष्य <math>(x, y)</math>, या एक प्रेक्षण x का लक्ष्य मान y दिया गया है,<ref name="mitchell2015generative"/>जबकि एक विवेकशील मॉडल या भेदभावपूर्ण क्लासिफायरियर (बिना मॉडल के) का उपयोग लक्ष्य चर Y के मान को विभेदित करने के लिए किया जा सकता है, एक अवलोकन x दिया गया है।<ref name="mitchell2015discriminative"/>विक्ट: डिस्क्रिमिनेट (अंतर) और विक्ट: क्लासिफाई के बीच का अंतर सूक्ष्म है, और इन्हें लगातार अलग नहीं किया जाता है। (भेदभाव वर्गीकरण के बराबर होने पर शब्द भेदभावपूर्ण क्लासिफायरियर शब्द बन जाता है।)
सही परिभाषा के अतिरिक्त, शब्दावली संवैधानिक है क्योंकि एक जनरेटिव मॉडल का उपयोग यादृच्छिक उदाहरण (परिणाम (संभाव्यता)) उत्पन्न करने के लिए किया जा सकता है, या तो एक अवलोकन और लक्ष्य <math>(x, y)</math>, या एक प्रेक्षण x का लक्ष्य मान y दिया गया है,<ref name="mitchell2015generative"/> जबकि एक विवेकशील मॉडल या भेदभावपूर्ण वर्गीकरणकर्ता (बिना मॉडल के) का उपयोग लक्ष्य चर Y के मान को विभेदित करने के लिए किया जा सकता है, एक अवलोकन x दिया गया है।<ref name="mitchell2015discriminative"/> विक्ट: डिस्क्रिमिनेट (अंतर) और विक्ट: क्लासिफाई के बीच का अंतर सूक्ष्म है, और इन्हें निरंतर अलग नहीं किया जाता है। (भेदभाव वर्गीकरण के बराबर होने पर शब्द भेदभावपूर्ण वर्गीकरणकर्ता शब्द बन जाता है।)


जनरेटिव मॉडल शब्द का उपयोग उन मॉडलों का वर्णन करने के लिए भी किया जाता है जो आउटपुट वेरिएबल्स के उदाहरणों को ऐसे तरीके से उत्पन्न करते हैं जिनका इनपुट चर के संभावित नमूनों पर संभाव्यता वितरण से कोई स्पष्ट संबंध नहीं है। [[जनरेटिव प्रतिकूल नेटवर्क]], जनरेटिव मॉडल के इस वर्ग के उदाहरण हैं, और मुख्य रूप से संभावित इनपुट के लिए विशेष आउटपुट की समानता से आंका जाता है। ऐसे मॉडल क्लासिफायर नहीं होते हैं।
जनरेटिव मॉडल शब्द का उपयोग उन मॉडलों का वर्णन करने के लिए भी किया जाता है जो आउटपुट वेरिएबल्स के उदाहरणों को ऐसे विधि से उत्पन्न करते हैं जिनका इनपुट चर के संभावित नमूनों पर संभाव्यता वितरण से कोई स्पष्ट संबंध नहीं है। [[जनरेटिव प्रतिकूल नेटवर्क]], जनरेटिव मॉडल के इस वर्ग के उदाहरण हैं, और मुख्य रूप से संभावित इनपुट के लिए विशेष आउटपुट की समानता से आंका जाता है। ऐसे मॉडल वर्गीकरणकर्ता नहीं होते हैं।


=== मॉडलों के बीच संबंध ===
=== मॉडलों के बीच संबंध ===
वर्गीकरण के लिए आवेदन में, अवलोकन योग्य एक्स अक्सर एक निरंतर चर होता है, लक्ष्य वाई आम तौर पर एक [[असतत चर]] होता है जिसमें लेबल का एक परिमित सेट होता है, और सशर्त संभाव्यता <math>P(Y\mid X)</math> एक (गैर-नियतात्मक) [[लक्ष्य समारोह]] के रूप में भी व्याख्या की जा सकती है <math>f\colon X \to Y</math>, X को इनपुट और Y को आउटपुट के रूप में मानते हुए।
वर्गीकरण के लिए आवेदन में, अवलोकन योग्य X अधिकांशतः एक निरंतर चर होता है, लक्ष्य Y सामान्यतः एक [[असतत चर]] होता है जिसमें लेबल का एक परिमित समुच्चय होता है, और सशर्त संभाव्यता <math>P(Y\mid X)</math> एक (गैर-नियतात्मक) [[लक्ष्य समारोह|लक्ष्य फलन]] के रूप में भी व्याख्या की जा सकती है <math>f\colon X \to Y</math>, X को इनपुट और Y को आउटपुट के रूप में मानते हुए।


लेबल के एक सीमित सेट को देखते हुए, जनरेटिव मॉडल की दो परिभाषाएँ निकट से संबंधित हैं। सशर्त वितरण का एक मॉडल <math>P(X\mid Y = y)</math> प्रत्येक लेबल के वितरण का एक मॉडल है, और संयुक्त वितरण का मॉडल लेबल मूल्यों के वितरण के मॉडल के बराबर है <math>P(Y)</math>, साथ में एक लेबल दिए गए प्रेक्षणों के वितरण के साथ, <math>P(X\mid Y)</math>; प्रतीकात्मक रूप से, <math>P(X, Y) = P(X\mid Y)P(Y).</math> इस प्रकार, जबकि संयुक्त संभाव्यता वितरण का एक मॉडल लेबल के वितरण के मॉडल की तुलना में अधिक जानकारीपूर्ण है (लेकिन उनकी सापेक्ष आवृत्तियों के बिना), यह एक अपेक्षाकृत छोटा कदम है, इसलिए ये हमेशा अलग नहीं होते हैं।
लेबल के एक सीमित समुच्चय को देखते हुए, जनरेटिव मॉडल की दो परिभाषाएँ निकट से संबंधित हैं। सशर्त वितरण का एक मॉडल <math>P(X\mid Y = y)</math> प्रत्येक लेबल के वितरण का एक मॉडल है, और संयुक्त वितरण का मॉडल लेबल मूल्यों के वितरण के मॉडल के बराबर है <math>P(Y)</math>, साथ में एक लेबल दिए गए प्रेक्षणों के वितरण के साथ, <math>P(X\mid Y)</math>; प्रतीकात्मक रूप से, <math>P(X, Y) = P(X\mid Y)P(Y).</math> इस प्रकार, जबकि संयुक्त संभाव्यता वितरण का एक मॉडल लेबल के वितरण के मॉडल की तुलना में अधिक जानकारीपूर्ण है (लेकिन उनकी सापेक्ष आवृत्तियों के बिना), यह एक अपेक्षाकृत छोटा कदम है, इसलिए ये हमेशा अलग नहीं होते हैं।


संयुक्त वितरण के एक मॉडल को देखते हुए, <math>P(X, Y)</math>व्यक्तिगत चर के वितरण की गणना [[सीमांत वितरण]] के रूप में की जा सकती है <math>P(X) = \sum_y P(X , Y = y)</math> और <math>P(Y) = \int_x P(Y, X = x)</math> (X को निरंतर मानते हुए, इसलिए इसे एकीकृत करना, और Y को असतत के रूप में, इसलिए इसके ऊपर योग करना), और या तो सशर्त वितरण की गणना सशर्त संभाव्यता की परिभाषा से की जा सकती है: <math>P(X\mid Y)=P(X, Y)/P(Y)</math> और <math>P(Y\mid X)=P(X, Y)/P(X)</math>.
संयुक्त वितरण के एक मॉडल को देखते हुए, <math>P(X, Y)</math>व्यक्तिगत चर के वितरण की गणना [[सीमांत वितरण]] के रूप में की जा सकती '''है।''' <math>P(X) = \sum_y P(X , Y = y)</math> और <math>P(Y) = \int_x P(Y, X = x)</math> (X को निरंतर मानते हुए, इसलिए इसे एकीकृत करना, और Y को असतत के रूप में, इसलिए इसके ऊपर योग करना), और या तो सशर्त वितरण की गणना सशर्त संभाव्यता की परिभाषा से की जा सकती है: <math>P(X\mid Y)=P(X, Y)/P(Y)</math> और <math>P(Y\mid X)=P(X, Y)/P(X)</math>.


एक सशर्त संभाव्यता के एक मॉडल को देखते हुए, और चर X और Y के लिए अनुमानित संभाव्यता वितरण, निरूपित <math>P(X)</math> और <math>P(Y)</math>, बेयस के नियम का उपयोग करके विपरीत सशर्त संभाव्यता का अनुमान लगाया जा सकता है:
एक सशर्त संभाव्यता के एक मॉडल को देखते हुए, और चर X और Y के लिए अनुमानित संभाव्यता वितरण, निरूपित <math>P(X)</math> और <math>P(Y)</math>, बेयस के नियम का उपयोग करके विपरीत सशर्त संभाव्यता का अनुमान लगाया जा सकता है:
Line 40: Line 40:
और के लिए एक भेदभावपूर्ण मॉडल दिया <math>P(Y\mid X)</math>, कोई अनुमान लगा सकता है:
और के लिए एक भेदभावपूर्ण मॉडल दिया <math>P(Y\mid X)</math>, कोई अनुमान लगा सकता है:
:<math>P(X\mid Y) = P(Y\mid X)P(X)/P(Y).</math>
:<math>P(X\mid Y) = P(Y\mid X)P(X)/P(Y).</math>
ध्यान दें कि बेयस का नियम (दूसरे के संदर्भ में एक सशर्त संभाव्यता की गणना) और सशर्त संभावना की परिभाषा (संयुक्त वितरण के संदर्भ में सशर्त संभावना की गणना) को अक्सर साथ ही साथ जोड़ा जाता है।
ध्यान दें कि बेयस का नियम (दूसरे के संदर्भ में एक सशर्त संभाव्यता की गणना) और सशर्त संभावना की परिभाषा (संयुक्त वितरण के संदर्भ में सशर्त संभावना की गणना) को अधिकांशतः साथ ही साथ जोड़ा जाता है।


== भेदभावपूर्ण वर्गीकरणकर्ताओं के साथ तुलना करें ==
== भेदभावपूर्ण वर्गीकरणकर्ताओं के साथ तुलना करें ==
एक जनरेटिव एल्गोरिथम मॉडल करता है कि सिग्नल को वर्गीकृत करने के लिए डेटा कैसे उत्पन्न किया गया था। यह सवाल पूछता है: मेरी पीढ़ी की धारणाओं के आधार पर, किस श्रेणी में इस संकेत को उत्पन्न करने की सबसे अधिक संभावना है? एक विवेकशील एल्गोरिथ्म इस बात की परवाह नहीं करता है कि डेटा कैसे उत्पन्न हुआ था, यह केवल दिए गए सिग्नल को वर्गीकृत करता है। तो, विवेकशील एल्गोरिदम सीखने की कोशिश करते हैं <math>p(y|x)</math> सीधे डेटा से और फिर डेटा को वर्गीकृत करने का प्रयास करें। दूसरी ओर, जनरेटिव एल्गोरिदम सीखने की कोशिश करते हैं <math>p(x,y)</math> जिसे रूपांतरित किया जा सकता है <math>p(y|x)</math> बाद में डेटा को वर्गीकृत करने के लिए। जनरेटिव एल्गोरिदम के फायदों में से एक यह है कि आप इसका उपयोग कर सकते हैं <math>p(x,y)</math> मौजूदा डेटा के समान नया डेटा उत्पन्न करने के लिए। दूसरी ओर, यह साबित हो गया है कि कुछ भेदभावपूर्ण एल्गोरिदम वर्गीकरण कार्यों में कुछ जनरेटिव एल्गोरिदम की तुलना में बेहतर प्रदर्शन करते हैं।<ref>{{harvnb|Ng|Jordan|2002}}</ref>
एक जनरेटिव एल्गोरिथम मॉडल करता है कि सिग्नल को वर्गीकृत करने के लिए डेटा कैसे उत्पन्न किया गया था। यह सवाल पूछता है: मेरी पीढ़ी की धारणाओं के आधार पर, किस श्रेणी में इस संकेत को उत्पन्न करने की सबसे अधिक संभावना है? एक विवेकशील कलन विधि इस बात की परवाह नहीं करता है कि डेटा कैसे उत्पन्न हुआ था, यह केवल दिए गए सिग्नल को वर्गीकृत करता है। तो, विवेकशील कलन विधि सीखने की कोशिश करते हैं <math>p(y|x)</math> सीधे डेटा से और फिर डेटा को वर्गीकृत करने का प्रयास करें। दूसरी ओर, जनरेटिव कलन विधि सीखने की कोशिश करते हैं <math>p(x,y)</math> जिसे रूपांतरित किया जा सकता है <math>p(y|x)</math> बाद में डेटा को वर्गीकृत करने के लिए। जनरेटिव कलन विधि के लाभों में से एक यह है कि आप इसका उपयोग कर सकते हैं <math>p(x,y)</math> उपस्थित डेटा के समान नया डेटा उत्पन्न करने के लिए। दूसरी ओर, यह सिद्ध हो गया है कि कुछ भेदभावपूर्ण कलन विधि वर्गीकरण कार्यों में कुछ जनरेटिव कलन विधि की तुलना में अच्छा प्रदर्शन करते हैं।<ref>{{harvnb|Ng|Jordan|2002}}</ref>
इस तथ्य के बावजूद कि भेदभावपूर्ण मॉडल को देखे गए चर के वितरण को मॉडल करने की आवश्यकता नहीं है, वे आम तौर पर देखे गए और लक्षित चर के बीच जटिल संबंधों को व्यक्त नहीं कर सकते हैं। लेकिन सामान्य तौर पर, वे आवश्यक रूप से [[वर्गीकरण (मशीन लर्निंग)]] और [[प्रतिगमन विश्लेषण]] कार्यों में जनरेटिव मॉडल से बेहतर प्रदर्शन नहीं करते हैं। दो वर्गों को एक ही प्रक्रिया के पूरक या भिन्न विचारों के रूप में देखा जाता है।<ref>{{citation|editor-first=J. M. |editor-last=Bernardo|title=Bayesian statistics 8: proceedings of the eighth Valencia International Meeting, June 2-6, 2006|url={{google books |plainurl=y |id=Vh7vAAAAMAAJ|page=3}}|date=24 September 2007|publisher=Oxford University Press|isbn=978-0-19-921465-5|first1=C. M. |last1=Bishop |first2=J. |last2=Lasserre |contribution=Generative or Discriminative? getting the best of both worlds |pages=3–23}}</ref>
 
इस तथ्य के अतिरिक्त कि भेदभावपूर्ण मॉडल को देखे गए चर के वितरण को मॉडल करने की आवश्यकता नहीं है, वे सामान्यतः देखे गए और लक्षित चर के बीच जटिल संबंधों को व्यक्त नहीं कर सकते हैं। लेकिन सामान्यतः, वे आवश्यक रूप से [[वर्गीकरण (मशीन लर्निंग)]] और [[प्रतिगमन विश्लेषण]] कार्यों में जनरेटिव मॉडल से अच्छा प्रदर्शन नहीं करते हैं। दो वर्गों को एक ही प्रक्रिया के पूरक या भिन्न विचारों के रूप में देखा जाता है।<ref>{{citation|editor-first=J. M. |editor-last=Bernardo|title=Bayesian statistics 8: proceedings of the eighth Valencia International Meeting, June 2-6, 2006|url={{google books |plainurl=y |id=Vh7vAAAAMAAJ|page=3}}|date=24 September 2007|publisher=Oxford University Press|isbn=978-0-19-921465-5|first1=C. M. |last1=Bishop |first2=J. |last2=Lasserre |contribution=Generative or Discriminative? getting the best of both worlds |pages=3–23}}</ref>
 




== दीप जनरेटिव मॉडल ==
== दीप जनरेटिव मॉडल ==
गहरी शिक्षा के उदय के साथ, विधियों का एक नया परिवार, जिसे गहन जनरेटिव मॉडल (डीजीएम) कहा जाता है,<ref name="auto1">{{Cite web|url=https://www.microsoft.com/en-us/research/blog/a-deep-generative-model-trifecta-three-advances-that-work-towards-harnessing-large-scale-power/|title=Scaling up—researchers advance large-scale deep generative models|website=[[Microsoft]] |date=April 9, 2020}}</ref><ref name="auto">{{Cite web|url=https://openai.com/blog/generative-models/|title=जनरेटिव मॉडल|date=June 16, 2016|website=OpenAI}}</ref><ref name="auto2">{{cite book |last=Tomczak |first=Jakub |date=2022 |title=डीप जनरेटिव मॉडलिंग|url=https://link.springer.com/book/10.1007/978-3-030-93158-2 |location=Cham |publisher=Springer |page=197 |doi=10.1007/978-3-030-93158-2 |isbn=978-3-030-93157-5|s2cid=246946335 }}</ref> जनरेटिव मॉडल और गहरे तंत्रिका नेटवर्क के संयोजन के माध्यम से बनता है। तंत्रिका नेटवर्क के पैमाने में वृद्धि आम तौर पर प्रशिक्षण डेटा के पैमाने में वृद्धि के साथ होती है, जिनमें से दोनों अच्छे प्रदर्शन के लिए आवश्यक हैं।<ref>{{Cite arXiv |eprint = 2001.08361|last1 = Kaplan|first1 = Jared|last2 = McCandlish|first2 = Sam|last3 = Henighan|first3 = Tom|last4 = Brown|first4 = Tom B.|last5 = Chess|first5 = Benjamin|last6 = Child|first6 = Rewon|last7 = Gray|first7 = Scott|last8 = Radford|first8 = Alec|last9 = Wu|first9 = Jeffrey|last10 = Amodei|first10 = Dario|title = तंत्रिका भाषा मॉडल के लिए स्केलिंग कानून|year = 2020|class = stat.ML}}</ref>
गहरी शिक्षा के उदय के साथ, विधियों का एक नया परिवार, जिसे गहन जनरेटिव मॉडल (डीजीएम) कहा जाता है,<ref name="auto1">{{Cite web|url=https://www.microsoft.com/en-us/research/blog/a-deep-generative-model-trifecta-three-advances-that-work-towards-harnessing-large-scale-power/|title=Scaling up—researchers advance large-scale deep generative models|website=[[Microsoft]] |date=April 9, 2020}}</ref><ref name="auto">{{Cite web|url=https://openai.com/blog/generative-models/|title=जनरेटिव मॉडल|date=June 16, 2016|website=OpenAI}}</ref><ref name="auto2">{{cite book |last=Tomczak |first=Jakub |date=2022 |title=डीप जनरेटिव मॉडलिंग|url=https://link.springer.com/book/10.1007/978-3-030-93158-2 |location=Cham |publisher=Springer |page=197 |doi=10.1007/978-3-030-93158-2 |isbn=978-3-030-93157-5|s2cid=246946335 }}</ref> जनरेटिव मॉडल और गहरे तंत्रिका नेटवर्क के संयोजन के माध्यम से बनता है। तंत्रिका नेटवर्क के पैमाने में वृद्धि सामान्यतः प्रशिक्षण डेटा के पैमाने में वृद्धि के साथ होती है, जिनमें से दोनों अच्छे प्रदर्शन के लिए आवश्यक हैं।<ref>{{Cite arXiv |eprint = 2001.08361|last1 = Kaplan|first1 = Jared|last2 = McCandlish|first2 = Sam|last3 = Henighan|first3 = Tom|last4 = Brown|first4 = Tom B.|last5 = Chess|first5 = Benjamin|last6 = Child|first6 = Rewon|last7 = Gray|first7 = Scott|last8 = Radford|first8 = Alec|last9 = Wu|first9 = Jeffrey|last10 = Amodei|first10 = Dario|title = तंत्रिका भाषा मॉडल के लिए स्केलिंग कानून|year = 2020|class = stat.ML}}</ref>
लोकप्रिय DGM में Autoencoder#Variational Autoencoder (VAE) (VAE), जनरेटिव एडवरसैरियल नेटवर्क (GANs), और ऑटो-रिग्रेसिव मॉडल शामिल हैं। हाल ही में, बहुत बड़े गहरे जनरेटिव मॉडल बनाने का चलन रहा है।<ref name="auto1"/>उदाहरण के लिए, [[GPT-3]] और इसके पूर्ववर्ती [[GPT-2]],<ref>{{Cite web|url=https://openai.com/blog/better-language-models/|title=बेहतर भाषा मॉडल और उनके निहितार्थ|date=February 14, 2019|website=OpenAI}}</ref> ऑटो-रिग्रेसिव न्यूरल लैंग्वेज मॉडल हैं जिनमें अरबों पैरामीटर होते हैं, BigGAN<ref>{{Cite arXiv |eprint = 1809.11096|last1 = Brock|first1 = Andrew|last2 = Donahue|first2 = Jeff|last3 = Simonyan|first3 = Karen|title = उच्च निष्ठा प्राकृतिक छवि संश्लेषण के लिए बड़े पैमाने पर GAN प्रशिक्षण|year = 2018|class = cs.LG}}</ref> और वीक्यू-वीएई<ref>{{Cite arXiv |eprint = 1906.00446|last1 = Razavi|first1 = Ali|last2 = van den Oord|first2 = Aaron|last3 = Vinyals|first3 = Oriol|title = Generating Diverse High-Fidelity Images with VQ-VAE-2|year = 2019|class = cs.LG}}</ref> जिनका उपयोग छवि निर्माण के लिए किया जाता है जिसमें सैकड़ों लाखों पैरामीटर हो सकते हैं, और ज्यूकबॉक्स संगीत ऑडियो के लिए एक बहुत बड़ा जनरेटिव मॉडल है जिसमें अरबों पैरामीटर शामिल हैं।<ref>{{Cite web|url=https://openai.com/blog/jukebox/|title=ज्यूकबॉक्स|date=April 30, 2020|website=OpenAI}}</ref>
 
लोकप्रिय डीजीएम में ऑटोएन्कोडर # वेरिएशनल ऑटोएन्कोडर (वीएई) (वीएई), जनरेटिव एडवरसैरियल नेटवर्क (GANs), और ऑटो-रिग्रेसिव मॉडल सम्मिलित हैं। हाल ही में, बहुत बड़े गहरे जनरेटिव मॉडल बनाने का चलन रहा है।<ref name="auto1" /> उदाहरण के लिए, [[GPT-3]] और इसके पूर्ववर्ती [[GPT-2]],<ref>{{Cite web|url=https://openai.com/blog/better-language-models/|title=बेहतर भाषा मॉडल और उनके निहितार्थ|date=February 14, 2019|website=OpenAI}}</ref> ऑटो-रिग्रेसिव न्यूरल भाषा मॉडल हैं जिनमें अरबों पैरामीटर होते हैं, BigGAN<ref>{{Cite arXiv |eprint = 1809.11096|last1 = Brock|first1 = Andrew|last2 = Donahue|first2 = Jeff|last3 = Simonyan|first3 = Karen|title = उच्च निष्ठा प्राकृतिक छवि संश्लेषण के लिए बड़े पैमाने पर GAN प्रशिक्षण|year = 2018|class = cs.LG}}</ref> और VQ-VAE<ref>{{Cite arXiv |eprint = 1906.00446|last1 = Razavi|first1 = Ali|last2 = van den Oord|first2 = Aaron|last3 = Vinyals|first3 = Oriol|title = Generating Diverse High-Fidelity Images with VQ-VAE-2|year = 2019|class = cs.LG}}</ref> जिनका उपयोग छवि निर्माण के लिए किया जाता है जिसमें सैकड़ों लाखों पैरामीटर हो सकते हैं, और ज्यूकबॉक्स संगीत ऑडियो के लिए एक बहुत बड़ा जनरेटिव मॉडल है जिसमें अरबों पैरामीटर सम्मिलित हैं।<ref>{{Cite web|url=https://openai.com/blog/jukebox/|title=ज्यूकबॉक्स|date=April 30, 2020|website=OpenAI}}</ref>
 




Line 61: Line 65:
* [[छिपा हुआ मार्कोव मॉडल]]
* [[छिपा हुआ मार्कोव मॉडल]]
* [[स्टोकेस्टिक संदर्भ-मुक्त व्याकरण]] | संभाव्य संदर्भ-मुक्त व्याकरण
* [[स्टोकेस्टिक संदर्भ-मुक्त व्याकरण]] | संभाव्य संदर्भ-मुक्त व्याकरण
* [[बायेसियन नेटवर्क]] (जैसे Naive Bayes, [[Autoregressive model]])
* [[बायेसियन नेटवर्क]] (जैसे नैवी बेयस, [[Autoregressive model|ऑटोरेग्रेसिव मॉडल]])
* औसत एक-निर्भरता आकलनकर्ता
* औसत एक-निर्भरता आकलनकर्ता
* [[अव्यक्त डिरिचलेट आवंटन]]
* [[अव्यक्त डिरिचलेट आवंटन]]
* [[बोल्ट्जमैन मशीन]] (जैसे [[प्रतिबंधित बोल्ट्जमैन मशीन]], [[गहरा विश्वास नेटवर्क]])
* [[बोल्ट्जमैन मशीन]] (जैसे [[प्रतिबंधित बोल्ट्जमैन मशीन]], [[गहरा विश्वास नेटवर्क]])
* Autoencoder#Variational autoencoder (VAE)
* ऑटोएन्कोडर # वेरिएशनल ऑटोएन्कोडर (वीएई)
* [[जनरेटिव प्रतिकूल नेटवर्क]]
* [[जनरेटिव प्रतिकूल नेटवर्क]]
* [[प्रवाह आधारित जनरेटिव मॉडल]]
* [[प्रवाह आधारित जनरेटिव मॉडल]]
Line 71: Line 75:
* [[प्रसार मॉडल]]
* [[प्रसार मॉडल]]


यदि देखा गया डेटा सही मायने में जनरेटिव मॉडल से नमूना लिया गया है, तो जनरेटिव मॉडल के पैरामीटर को [[अधिकतम संभावना अनुमान]] में फ़िट करना एक सामान्य तरीका है। हालांकि, चूंकि अधिकांश सांख्यिकीय मॉडल वास्तविक वितरण के लिए केवल अनुमान हैं, यदि मॉडल का अनुप्रयोग दूसरों के ज्ञात मूल्यों पर सशर्त चर के सबसेट के बारे में अनुमान लगाना है, तो यह तर्क दिया जा सकता है कि सन्निकटन हल करने के लिए आवश्यक से अधिक अनुमान लगाता है। हाथ में समस्या। ऐसे मामलों में, विवेकपूर्ण मॉडल (नीचे देखें) का उपयोग करके सशर्त घनत्व कार्यों को सीधे मॉडल करना अधिक सटीक हो सकता है, हालांकि एप्लिकेशन-विशिष्ट विवरण अंततः निर्धारित करेंगे कि किसी विशेष मामले में कौन सा दृष्टिकोण सबसे उपयुक्त है।
यदि देखा गया डेटा सही मायने में जनरेटिव मॉडल से नमूना लिया गया है, तो जनरेटिव मॉडल के पैरामीटर को [[अधिकतम संभावना अनुमान]] में फ़िट करना एक सामान्य विधि है। '''चूँकि''', चूंकि अधिकांश सांख्यिकीय मॉडल वास्तविक वितरण के लिए केवल अनुमान हैं, यदि मॉडल का अनुप्रयोग दूसरों के ज्ञात मूल्यों पर सशर्त चर के सबसमुच्चय के बारे में अनुमान लगाना है, तो यह तर्क दिया जा सकता है कि सन्निकटन हल करने के लिए आवश्यक से अधिक अनुमान लगाता है। हाथ में समस्या। ऐसे स्थितियों में, विवेकपूर्ण मॉडल (नीचे देखें) का उपयोग करके सशर्त घनत्व कार्यों को सीधे मॉडल करना अधिक सही हो सकता है, चूँकि एप्लिकेशन-विशिष्ट विवरण अंततः निर्धारित करेंगे कि किसी विशेष स्थितियों में कौन सा दृष्टिकोण सबसे उपयुक्त है।


=== भेदभावपूर्ण मॉडल ===
=== भेदभावपूर्ण मॉडल ===
Line 86: Line 90:


=== सरल उदाहरण ===
=== सरल उदाहरण ===
मान लीजिए इनपुट डेटा है <math>x \in \{1, 2\}</math>, के लिए लेबल का सेट <math>x</math> है <math>y \in \{0, 1\}</math>, और निम्नलिखित 4 डेटा बिंदु हैं:
मान लीजिए इनपुट डेटा है <math>x \in \{1, 2\}</math>, के लिए लेबल का समुच्चय <math>x</math> है <math>y \in \{0, 1\}</math>, और निम्नलिखित 4 डेटा बिंदु हैं:
<math>(x,y) = \{(1,0), (1,1), (2,0), (2,0)\}</math>
<math>(x,y) = \{(1,0), (1,1), (2,0), (2,0)\}</math>
उपरोक्त डेटा के लिए, संयुक्त संभाव्यता वितरण का अनुमान लगाना <math>p(x,y)</math> अनुभवजन्य माप से निम्नलिखित होगा:
उपरोक्त डेटा के लिए, संयुक्त संभाव्यता वितरण का अनुमान लगाना <math>p(x,y)</math> अनुभवजन्य माप से निम्नलिखित होगा:
{| class="wikitable"
{| class="wikitable"
|-
|-
! !! <math>y=0
! !! <math>y=0
</math>!! <math>y=1
</math>
!<math>y=1
</math>
</math>
|-
|-
| <math>x=1
| <math>x=1
</math> || <math>1/4
</math>|| <math>1/4
</math> ||<math>1/4
</math>||<math>1/4
</math>
</math>
|-
|-
| <math>x=2
| <math>x=2
</math> || <math>2/4
</math>|| <math>2/4
</math> || <math>0
</math>|| <math>0
</math>
</math>
|}
|}
Line 108: Line 114:
{| class="wikitable"
{| class="wikitable"
|-
|-
! !! <math>y=0
! !! <math>y=0
</math> !! <math>y=1
</math>
!<math>y=1
</math>
</math>
|-
|-
Line 127: Line 134:


=== पाठ पीढ़ी ===
=== पाठ पीढ़ी ===
{{harvtxt|Shannon|1948}} एक उदाहरण देता है जिसमें अंग्रेजी शब्द जोड़े की आवृत्तियों की एक तालिका का उपयोग प्रतिनिधित्व के साथ शुरू होने वाले वाक्य को उत्पन्न करने के लिए किया जाता है और तेजी से एक अच्छा है; जो कि उचित अंग्रेजी नहीं है, लेकिन जो तालिका को शब्द जोड़े से शब्द त्रिक आदि में स्थानांतरित करने के रूप में तेजी से इसका अनुमान लगाएगा।
{{harvtxt|शैनन|1948}} एक उदाहरण देता है जिसमें अंग्रेजी शब्द जोड़े की आवृत्तियों की एक तालिका का उपयोग प्रतिनिधित्व के साथ प्रारंभ होने वाले वाक्य को उत्पन्न करने के लिए किया जाता है और तेजी से एक अच्छा है; जो कि उचित अंग्रेजी नहीं है, लेकिन जो तालिका को शब्द जोड़े से शब्द त्रिक आदि में स्थानांतरित करने के रूप में तेजी से इसका अनुमान लगाएगा।


== यह भी देखें ==
== यह भी देखें ==

Revision as of 23:59, 5 May 2023

सांख्यिकीय वर्गीकरण में, दो मुख्य दृष्टिकोणों को जनरेटिव दृष्टिकोण और भेदभावपूर्ण दृष्टिकोण कहा जाता है। सांख्यिकीय मॉडलिंग की डिग्री में भिन्न, विभिन्न दृष्टिकोणों द्वारा ये गणना वर्गीकरण नियम शब्दावली असंगत है,[lower-alpha 1] लेकिन निम्नलिखित तीन प्रमुख प्रकारों को प्रतिष्ठित किया जा सकता है जेबरा (2004) के बाद

  1. एक जनरेटिव मॉडल संयुक्त संभाव्यता वितरण का एक सांख्यिकीय मॉडल है दिए गए नमूदार चर X और लक्ष्य चर Y पर;[1]
  2. एक विवेकशील मॉडल सशर्त संभाव्यता का एक मॉडल है लक्ष्य Y का, एक अवलोकन x दिया गया; और
  3. संभाव्यता मॉडल का उपयोग किए बिना गणना किए गए वर्गीकृत को भी भेदभावपूर्ण के रूप में शिथिल रूप से संदर्भित किया जाता है।

इन अंतिम दो वर्गों के बीच भेद निरंतर नहीं किया जाता है;[2] जेबरा (2004) इन तीन वर्गों को जनरेटिव लर्निंग, कंडीशनल लर्निंग और भेदभावपूर्ण लर्निंग के रूप में संदर्भित करता है, लेकिन एनजी & जॉर्डन (2002) केवल दो वर्गों को अलग करता है, उन्हें जनरेटिव वर्गीकरणकर्ता (संयुक्त वितरण) और भेदभावपूर्ण वर्गीकरणकर्ता (सशर्त वितरण या कोई वितरण नहीं) कहते हैं, बाद के दो वर्गों के बीच अंतर नहीं करते।[3] समान रूप से, एक जनरेटिव मॉडल पर आधारित एक वर्गीकरणकर्ता एक जनरेटिव वर्गीकरणकर्ता है, जबकि एक भेदभावपूर्ण मॉडल पर आधारित एक वर्गीकरणकर्ता एक भेदभावपूर्ण वर्गीकरणकर्ता है, चूँकि यह शब्द रैखिक वर्गीकारक को भी संदर्भित करता है जो एक मॉडल पर आधारित नहीं हैं। और भेदभावपूर्ण वर्गीकरणकर्ता (सशर्त वितरण या कोई वितरण नहीं) कहते हैं, बाद के दो वर्गों के बीच अंतर नहीं करते।[3] समान रूप से, एक जनरेटिव मॉडल पर आधारित एक वर्गीकरणकर्ता एक जनरेटिव वर्गीकरणकर्ता है, जबकि एक भेदभावपूर्ण मॉडल पर आधारित एक वर्गीकरणकर्ता एक भेदभावपूर्ण वर्गीकरणकर्ता है, चूँकि यह शब्द रैखिक वर्गीकारक को भी संदर्भित करता है जो एक मॉडल पर आधारित नहीं हैं।

प्रत्येक के मानक उदाहरण, जो सभी रेखीय वर्गीकारक हैं, हैं:

वर्गीकरण के लिए आवेदन में, एक अवलोकन x से एक लेबल y (या लेबल पर संभाव्यता वितरण) में जाना चाहता है। संभाव्यता वितरण ("'वितरण-मुक्त वर्गीकारक) का उपयोग किए बिना, कोई भी इसकी सीधे गणना कर सकता है; एक अवलोकन दिए जाने पर एक लेबल की संभावना का अनुमान लगाया जा सकता है, (भेदभावपूर्ण मॉडल), और उस पर आधार वर्गीकरण; या कोई संयुक्त वितरण का अनुमान लगा सकता है (जेनेरेटिव मॉडल), उस से सशर्त संभाव्यता की गणना करें , और उसके बाद उस पर आधार वर्गीकरण। ये तेजी से अप्रत्यक्ष हैं, लेकिन तेजी से संभाव्य हैं, अधिक डोमेन ज्ञान और संभाव्यता सिद्धांत को प्रयुक्त करने की अनुमति देते हैं। व्यवहार में विशेष समस्या के आधार पर विभिन्न दृष्टिकोणों का उपयोग किया जाता है, और संकर कई दृष्टिकोणों की ताकत को जोड़ सकते हैं।

परिभाषा

एक वैकल्पिक विभाजन इन्हें सममित रूप से परिभाषित करता है:

  • एक जनरेटिव मॉडल अवलोकनीय 'X' की सशर्त संभावना का एक मॉडल है, जिसे लक्ष्य 'Y' दिया गया है, प्रतीकात्मक रूप से, [4]
  • एक भेदभावपूर्ण मॉडल लक्ष्य 'Y' की सशर्त संभावना का एक मॉडल है, जिसे एक अवलोकन 'X' दिया गया है, प्रतीकात्मक रूप से, [5]

सही परिभाषा के अतिरिक्त, शब्दावली संवैधानिक है क्योंकि एक जनरेटिव मॉडल का उपयोग यादृच्छिक उदाहरण (परिणाम (संभाव्यता)) उत्पन्न करने के लिए किया जा सकता है, या तो एक अवलोकन और लक्ष्य , या एक प्रेक्षण x का लक्ष्य मान y दिया गया है,[4] जबकि एक विवेकशील मॉडल या भेदभावपूर्ण वर्गीकरणकर्ता (बिना मॉडल के) का उपयोग लक्ष्य चर Y के मान को विभेदित करने के लिए किया जा सकता है, एक अवलोकन x दिया गया है।[5] विक्ट: डिस्क्रिमिनेट (अंतर) और विक्ट: क्लासिफाई के बीच का अंतर सूक्ष्म है, और इन्हें निरंतर अलग नहीं किया जाता है। (भेदभाव वर्गीकरण के बराबर होने पर शब्द भेदभावपूर्ण वर्गीकरणकर्ता शब्द बन जाता है।)

जनरेटिव मॉडल शब्द का उपयोग उन मॉडलों का वर्णन करने के लिए भी किया जाता है जो आउटपुट वेरिएबल्स के उदाहरणों को ऐसे विधि से उत्पन्न करते हैं जिनका इनपुट चर के संभावित नमूनों पर संभाव्यता वितरण से कोई स्पष्ट संबंध नहीं है। जनरेटिव प्रतिकूल नेटवर्क, जनरेटिव मॉडल के इस वर्ग के उदाहरण हैं, और मुख्य रूप से संभावित इनपुट के लिए विशेष आउटपुट की समानता से आंका जाता है। ऐसे मॉडल वर्गीकरणकर्ता नहीं होते हैं।

मॉडलों के बीच संबंध

वर्गीकरण के लिए आवेदन में, अवलोकन योग्य X अधिकांशतः एक निरंतर चर होता है, लक्ष्य Y सामान्यतः एक असतत चर होता है जिसमें लेबल का एक परिमित समुच्चय होता है, और सशर्त संभाव्यता एक (गैर-नियतात्मक) लक्ष्य फलन के रूप में भी व्याख्या की जा सकती है , X को इनपुट और Y को आउटपुट के रूप में मानते हुए।

लेबल के एक सीमित समुच्चय को देखते हुए, जनरेटिव मॉडल की दो परिभाषाएँ निकट से संबंधित हैं। सशर्त वितरण का एक मॉडल प्रत्येक लेबल के वितरण का एक मॉडल है, और संयुक्त वितरण का मॉडल लेबल मूल्यों के वितरण के मॉडल के बराबर है , साथ में एक लेबल दिए गए प्रेक्षणों के वितरण के साथ, ; प्रतीकात्मक रूप से, इस प्रकार, जबकि संयुक्त संभाव्यता वितरण का एक मॉडल लेबल के वितरण के मॉडल की तुलना में अधिक जानकारीपूर्ण है (लेकिन उनकी सापेक्ष आवृत्तियों के बिना), यह एक अपेक्षाकृत छोटा कदम है, इसलिए ये हमेशा अलग नहीं होते हैं।

संयुक्त वितरण के एक मॉडल को देखते हुए, व्यक्तिगत चर के वितरण की गणना सीमांत वितरण के रूप में की जा सकती है। और (X को निरंतर मानते हुए, इसलिए इसे एकीकृत करना, और Y को असतत के रूप में, इसलिए इसके ऊपर योग करना), और या तो सशर्त वितरण की गणना सशर्त संभाव्यता की परिभाषा से की जा सकती है: और .

एक सशर्त संभाव्यता के एक मॉडल को देखते हुए, और चर X और Y के लिए अनुमानित संभाव्यता वितरण, निरूपित और , बेयस के नियम का उपयोग करके विपरीत सशर्त संभाव्यता का अनुमान लगाया जा सकता है:

उदाहरण के लिए, के लिए एक जनरेटिव मॉडल दिया , कोई अनुमान लगा सकता है:

और के लिए एक भेदभावपूर्ण मॉडल दिया , कोई अनुमान लगा सकता है:

ध्यान दें कि बेयस का नियम (दूसरे के संदर्भ में एक सशर्त संभाव्यता की गणना) और सशर्त संभावना की परिभाषा (संयुक्त वितरण के संदर्भ में सशर्त संभावना की गणना) को अधिकांशतः साथ ही साथ जोड़ा जाता है।

भेदभावपूर्ण वर्गीकरणकर्ताओं के साथ तुलना करें

एक जनरेटिव एल्गोरिथम मॉडल करता है कि सिग्नल को वर्गीकृत करने के लिए डेटा कैसे उत्पन्न किया गया था। यह सवाल पूछता है: मेरी पीढ़ी की धारणाओं के आधार पर, किस श्रेणी में इस संकेत को उत्पन्न करने की सबसे अधिक संभावना है? एक विवेकशील कलन विधि इस बात की परवाह नहीं करता है कि डेटा कैसे उत्पन्न हुआ था, यह केवल दिए गए सिग्नल को वर्गीकृत करता है। तो, विवेकशील कलन विधि सीखने की कोशिश करते हैं सीधे डेटा से और फिर डेटा को वर्गीकृत करने का प्रयास करें। दूसरी ओर, जनरेटिव कलन विधि सीखने की कोशिश करते हैं जिसे रूपांतरित किया जा सकता है बाद में डेटा को वर्गीकृत करने के लिए। जनरेटिव कलन विधि के लाभों में से एक यह है कि आप इसका उपयोग कर सकते हैं उपस्थित डेटा के समान नया डेटा उत्पन्न करने के लिए। दूसरी ओर, यह सिद्ध हो गया है कि कुछ भेदभावपूर्ण कलन विधि वर्गीकरण कार्यों में कुछ जनरेटिव कलन विधि की तुलना में अच्छा प्रदर्शन करते हैं।[6]

इस तथ्य के अतिरिक्त कि भेदभावपूर्ण मॉडल को देखे गए चर के वितरण को मॉडल करने की आवश्यकता नहीं है, वे सामान्यतः देखे गए और लक्षित चर के बीच जटिल संबंधों को व्यक्त नहीं कर सकते हैं। लेकिन सामान्यतः, वे आवश्यक रूप से वर्गीकरण (मशीन लर्निंग) और प्रतिगमन विश्लेषण कार्यों में जनरेटिव मॉडल से अच्छा प्रदर्शन नहीं करते हैं। दो वर्गों को एक ही प्रक्रिया के पूरक या भिन्न विचारों के रूप में देखा जाता है।[7]


दीप जनरेटिव मॉडल

गहरी शिक्षा के उदय के साथ, विधियों का एक नया परिवार, जिसे गहन जनरेटिव मॉडल (डीजीएम) कहा जाता है,[8][9][10] जनरेटिव मॉडल और गहरे तंत्रिका नेटवर्क के संयोजन के माध्यम से बनता है। तंत्रिका नेटवर्क के पैमाने में वृद्धि सामान्यतः प्रशिक्षण डेटा के पैमाने में वृद्धि के साथ होती है, जिनमें से दोनों अच्छे प्रदर्शन के लिए आवश्यक हैं।[11]

लोकप्रिय डीजीएम में ऑटोएन्कोडर # वेरिएशनल ऑटोएन्कोडर (वीएई) (वीएई), जनरेटिव एडवरसैरियल नेटवर्क (GANs), और ऑटो-रिग्रेसिव मॉडल सम्मिलित हैं। हाल ही में, बहुत बड़े गहरे जनरेटिव मॉडल बनाने का चलन रहा है।[8] उदाहरण के लिए, GPT-3 और इसके पूर्ववर्ती GPT-2,[12] ऑटो-रिग्रेसिव न्यूरल भाषा मॉडल हैं जिनमें अरबों पैरामीटर होते हैं, BigGAN[13] और VQ-VAE[14] जिनका उपयोग छवि निर्माण के लिए किया जाता है जिसमें सैकड़ों लाखों पैरामीटर हो सकते हैं, और ज्यूकबॉक्स संगीत ऑडियो के लिए एक बहुत बड़ा जनरेटिव मॉडल है जिसमें अरबों पैरामीटर सम्मिलित हैं।[15]


प्रकार

जनरेटिव मॉडल

जनरेटिव मॉडल के प्रकार हैं:

यदि देखा गया डेटा सही मायने में जनरेटिव मॉडल से नमूना लिया गया है, तो जनरेटिव मॉडल के पैरामीटर को अधिकतम संभावना अनुमान में फ़िट करना एक सामान्य विधि है। चूँकि, चूंकि अधिकांश सांख्यिकीय मॉडल वास्तविक वितरण के लिए केवल अनुमान हैं, यदि मॉडल का अनुप्रयोग दूसरों के ज्ञात मूल्यों पर सशर्त चर के सबसमुच्चय के बारे में अनुमान लगाना है, तो यह तर्क दिया जा सकता है कि सन्निकटन हल करने के लिए आवश्यक से अधिक अनुमान लगाता है। हाथ में समस्या। ऐसे स्थितियों में, विवेकपूर्ण मॉडल (नीचे देखें) का उपयोग करके सशर्त घनत्व कार्यों को सीधे मॉडल करना अधिक सही हो सकता है, चूँकि एप्लिकेशन-विशिष्ट विवरण अंततः निर्धारित करेंगे कि किसी विशेष स्थितियों में कौन सा दृष्टिकोण सबसे उपयुक्त है।

भेदभावपूर्ण मॉडल

उदाहरण

सरल उदाहरण

मान लीजिए इनपुट डेटा है , के लिए लेबल का समुच्चय है , और निम्नलिखित 4 डेटा बिंदु हैं:

उपरोक्त डेटा के लिए, संयुक्त संभाव्यता वितरण का अनुमान लगाना अनुभवजन्य माप से निम्नलिखित होगा:

जबकि निम्नलिखित होगा:


पाठ पीढ़ी

शैनन (1948) एक उदाहरण देता है जिसमें अंग्रेजी शब्द जोड़े की आवृत्तियों की एक तालिका का उपयोग प्रतिनिधित्व के साथ प्रारंभ होने वाले वाक्य को उत्पन्न करने के लिए किया जाता है और तेजी से एक अच्छा है; जो कि उचित अंग्रेजी नहीं है, लेकिन जो तालिका को शब्द जोड़े से शब्द त्रिक आदि में स्थानांतरित करने के रूप में तेजी से इसका अनुमान लगाएगा।

यह भी देखें

टिप्पणियाँ

  1. Three leading sources, Ng & Jordan 2002, Jebara 2004, and Mitchell 2015, give different divisions and definitions.


संदर्भ

  1. Ng & Jordan (2002): "Generative classifiers learn a model of the joint probability, , of the inputs x and the label y, and make their predictions by using Bayes rules to calculate , and then picking the most likely label y.
  2. Jebara 2004, 2.4 Discriminative Learning: "This distinction between conditional learning and discriminative learning is not currently a well established convention in the field."
  3. 3.0 3.1 Ng & Jordan 2002: "Discriminative classifiers model the posterior directly, or learn a direct map from inputs x to the class labels."
  4. 4.0 4.1 Mitchell 2015: "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function , or equivalently, , we use the training data to learn estimates of and . New X examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a generative classifier, because we can view the distribution as describing how to generate random instances X conditioned on the target attribute Y.
  5. 5.0 5.1 Mitchell 2015: "Logistic Regression is a function approximation algorithm that uses training data to directly estimate , in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a discriminative classifier because we can view the distribution as directly discriminating the value of the target value Y for any given instance X
  6. Ng & Jordan 2002
  7. Bishop, C. M.; Lasserre, J. (24 September 2007), "Generative or Discriminative? getting the best of both worlds", in Bernardo, J. M. (ed.), Bayesian statistics 8: proceedings of the eighth Valencia International Meeting, June 2-6, 2006, Oxford University Press, pp. 3–23, ISBN 978-0-19-921465-5
  8. 8.0 8.1 "Scaling up—researchers advance large-scale deep generative models". Microsoft. April 9, 2020.
  9. "जनरेटिव मॉडल". OpenAI. June 16, 2016.
  10. Tomczak, Jakub (2022). डीप जनरेटिव मॉडलिंग. Cham: Springer. p. 197. doi:10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5. S2CID 246946335.
  11. Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "तंत्रिका भाषा मॉडल के लिए स्केलिंग कानून". arXiv:2001.08361 [stat.ML].
  12. "बेहतर भाषा मॉडल और उनके निहितार्थ". OpenAI. February 14, 2019.
  13. Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). "उच्च निष्ठा प्राकृतिक छवि संश्लेषण के लिए बड़े पैमाने पर GAN प्रशिक्षण". arXiv:1809.11096 [cs.LG].
  14. Razavi, Ali; van den Oord, Aaron; Vinyals, Oriol (2019). "Generating Diverse High-Fidelity Images with VQ-VAE-2". arXiv:1906.00446 [cs.LG].
  15. "ज्यूकबॉक्स". OpenAI. April 30, 2020.


बाहरी संबंध