जनरेटिव मॉडल
सांख्यिकीय वर्गीकरण में, दो मुख्य दृष्टिकोणों को जनरेटिव दृष्टिकोण और भेदभावपूर्ण दृष्टिकोण कहा जाता है। सांख्यिकीय मॉडल की डिग्री में भिन्न, विभिन्न दृष्टिकोणों द्वारा ये गणना वर्गीकरण नियम शब्दावली असंगत है,[lower-alpha 1] लेकिन निम्नलिखित तीन प्रमुख प्रकारों को प्रतिष्ठित किया जा सकता है लेकिन जेबरा (2004) के बाद
- जनरेटिव मॉडल संयुक्त संभाव्यता वितरण का सांख्यिकीय मॉडल है दिए गए नमूदार चर X और लक्ष्य चर Y पर;[1]
- विवेकशील मॉडल सशर्त संभाव्यता का मॉडल है लक्ष्य Y का, अवलोकन x दिया गया; और
- संभाव्यता मॉडल का उपयोग किए बिना गणना किए गए वर्गीकृत को भी भेदभावपूर्ण के रूप में शिथिल रूप से संदर्भित किया जाता है।
इन अंतिम दो वर्गों के बीच भेद निरंतर नहीं किया जाता है;[2] जेबरा (2004) इन तीन वर्गों को जनरेटिव लर्निंग, कंडीशनल लर्निंग और भेदभावपूर्ण लर्निंग के रूप में संदर्भित करता है, लेकिन एनजी & जॉर्डन (2002) केवल दो वर्गों को अलग करता है, उन्हें जनरेटिव वर्गीकरणकर्ता (संयुक्त वितरण) और भेदभावपूर्ण वर्गीकरणकर्ता (सशर्त वितरण या कोई वितरण नहीं) कहते हैं, बाद के दो वर्गों के बीच अंतर नहीं करते।[3] समान रूप से, जनरेटिव मॉडल पर आधारित वर्गीकरणकर्ता जनरेटिव वर्गीकरणकर्ता है, जबकि भेदभावपूर्ण मॉडल पर आधारित वर्गीकरणकर्ता भेदभावपूर्ण वर्गीकरणकर्ता है, चूँकि यह शब्द रैखिक वर्गीकारक को भी संदर्भित करता है जो मॉडल पर आधारित नहीं हैं।
प्रत्येक के मानक उदाहरण, जो सभी रेखीय वर्गीकारक हैं, हैं:
- जनरेटिव वर्गीकरणकर्ता:
- भोले बेयस वर्गीकारक और
- रैखिक विभेदक विश्लेषण
- भेदभावपूर्ण मॉडल:
वर्गीकरण के लिए आवेदन में, अवलोकन x से लेबल y (या लेबल पर संभाव्यता वितरण) में जाना चाहता है। संभाव्यता वितरण ("'वितरण-मुक्त वर्गीकारक) का उपयोग किए बिना, कोई भी इसकी सीधे गणना कर सकता है; अवलोकन दिए जाने पर लेबल की संभावना का अनुमान लगाया जा सकता है, (भेदभावपूर्ण मॉडल), और उस पर आधार वर्गीकरण; या कोई संयुक्त वितरण का अनुमान लगा सकता है (जेनेरेटिव मॉडल), उस से सशर्त संभाव्यता की गणना करें , और उसके बाद उस पर आधार वर्गीकरण। ये तेजी से अप्रत्यक्ष हैं, लेकिन तेजी से संभाव्य हैं, अधिक डोमेन ज्ञान और संभाव्यता सिद्धांत को प्रयुक्त करने की अनुमति देते हैं। व्यवहार में विशेष समस्या के आधार पर विभिन्न दृष्टिकोणों का उपयोग किया जाता है, और संकर कई दृष्टिकोणों की ताकत को जोड़ सकते हैं।
परिभाषा
वैकल्पिक विभाजन इन्हें सममित रूप से परिभाषित करता है:
- जनरेटिव मॉडल अवलोकनीय 'X' की सशर्त संभावना का मॉडल है, जिसे लक्ष्य 'Y' दिया गया है, प्रतीकात्मक रूप से, [4]
- भेदभावपूर्ण मॉडल लक्ष्य 'Y' की सशर्त संभावना का मॉडल है, जिसे अवलोकन 'X' दिया गया है, प्रतीकात्मक रूप से, [5]
सही परिभाषा के अतिरिक्त, शब्दावली संवैधानिक है क्योंकि जनरेटिव मॉडल का उपयोग यादृच्छिक उदाहरण (परिणाम (संभाव्यता)) उत्पन्न करने के लिए किया जा सकता है, या तो अवलोकन और लक्ष्य , या प्रेक्षण x का लक्ष्य मान y दिया गया है,[4] जबकि विवेकशील मॉडल या भेदभावपूर्ण वर्गीकरणकर्ता (बिना मॉडल के) का उपयोग लक्ष्य चर Y के मान को विभेदित करने के लिए किया जा सकता है, अवलोकन x दिया गया है।[5] विक्ट: डिस्क्रिमिनेट (अंतर) और विक्ट: क्लासिफाई के बीच का अंतर सूक्ष्म है, और इन्हें निरंतर अलग नहीं किया जाता है। (भेदभाव वर्गीकरण के बराबर होने पर शब्द भेदभावपूर्ण वर्गीकरणकर्ता शब्द बन जाता है।)
जनरेटिव मॉडल शब्द का उपयोग उन मॉडलों का वर्णन करने के लिए भी किया जाता है जो आउटपुट वेरिएबल्स के उदाहरणों को ऐसे विधि से उत्पन्न करते हैं जिनका इनपुट चर के संभावित नमूनों पर संभाव्यता वितरण से कोई स्पष्ट संबंध नहीं है। जनरेटिव प्रतिकूल नेटवर्क, जनरेटिव मॉडल के इस वर्ग के उदाहरण हैं, और मुख्य रूप से संभावित इनपुट के लिए विशेष आउटपुट की समानता से आंका जाता है। ऐसे मॉडल वर्गीकरणकर्ता नहीं होते हैं।
मॉडलों के बीच संबंध
वर्गीकरण के लिए आवेदन में, अवलोकन योग्य X अधिकांशतः निरंतर चर होता है, लक्ष्य Y सामान्यतः असतत चर होता है जिसमें लेबल का परिमित समुच्चय होता है, और सशर्त संभाव्यता (गैर-नियतात्मक) लक्ष्य फलन के रूप में भी व्याख्या की जा सकती है , X को इनपुट और Y को आउटपुट के रूप में मानते हुए।
लेबल के सीमित समुच्चय को देखते हुए, जनरेटिव मॉडल की दो परिभाषाएँ निकट से संबंधित हैं। सशर्त वितरण का मॉडल प्रत्येक लेबल के वितरण का मॉडल है, और संयुक्त वितरण का मॉडल लेबल मूल्यों के वितरण के मॉडल के बराबर है , साथ में लेबल दिए गए प्रेक्षणों के वितरण के साथ, ; प्रतीकात्मक रूप से, इस प्रकार, जबकि संयुक्त संभाव्यता वितरण का मॉडल लेबल के वितरण के मॉडल की तुलना में अधिक जानकारीपूर्ण है (लेकिन उनकी सापेक्ष आवृत्तियों के बिना), यह अपेक्षाकृत छोटा कदम है, इसलिए ये हमेशा अलग नहीं होते हैं।
संयुक्त वितरण के मॉडल को देखते हुए, व्यक्तिगत चर के वितरण की गणना सीमांत वितरण के रूप में की जा सकती है। और (X को निरंतर मानते हुए, इसलिए इसे एकीकृत करना, और Y को असतत के रूप में, इसलिए इसके ऊपर योग करना), और या तो सशर्त वितरण की गणना सशर्त संभाव्यता की परिभाषा से की जा सकती है: और .
सशर्त संभाव्यता के मॉडल को देखते हुए, और चर X और Y के लिए अनुमानित संभाव्यता वितरण, निरूपित और , बेयस के नियम का उपयोग करके विपरीत सशर्त संभाव्यता का अनुमान लगाया जा सकता है:
उदाहरण के लिए, के लिए जनरेटिव मॉडल दिया , कोई अनुमान लगा सकता है:
और के लिए भेदभावपूर्ण मॉडल दिया , कोई अनुमान लगा सकता है:
ध्यान दें कि बेयस का नियम (दूसरे के संदर्भ में सशर्त संभाव्यता की गणना) और सशर्त संभावना की परिभाषा (संयुक्त वितरण के संदर्भ में सशर्त संभावना की गणना) को अधिकांशतः साथ ही साथ जोड़ा जाता है।
भेदभावपूर्ण वर्गीकरणकर्ताओं के साथ तुलना करें
जनरेटिव एल्गोरिथम मॉडल करता है कि सिग्नल को वर्गीकृत करने के लिए डेटा कैसे उत्पन्न किया गया था। यह सवाल पूछता है: मेरी पीढ़ी की धारणाओं के आधार पर, किस श्रेणी में इस संकेत को उत्पन्न करने की सबसे अधिक संभावना है? विवेकशील कलन विधि इस बात की परवाह नहीं करता है कि डेटा कैसे उत्पन्न हुआ था, यह केवल दिए गए सिग्नल को वर्गीकृत करता है। तो, विवेकशील कलन विधि सीखने की कोशिश करते हैं सीधे डेटा से और फिर डेटा को वर्गीकृत करने का प्रयास करें। दूसरी ओर, जनरेटिव कलन विधि सीखने की कोशिश करते हैं जिसे रूपांतरित किया जा सकता है बाद में डेटा को वर्गीकृत करने के लिए। जनरेटिव कलन विधि के लाभों में से एक यह है कि आप इसका उपयोग कर सकते हैं उपस्थित डेटा के समान नया डेटा उत्पन्न करने के लिए। दूसरी ओर, यह सिद्ध हो गया है कि कुछ भेदभावपूर्ण कलन विधि वर्गीकरण कार्यों में कुछ जनरेटिव कलन विधि की तुलना में अच्छा प्रदर्शन करते हैं।[6]
इस तथ्य के अतिरिक्त कि भेदभावपूर्ण मॉडल को देखे गए चर के वितरण को मॉडल करने की आवश्यकता नहीं है, वे सामान्यतः देखे गए और लक्षित चर के बीच जटिल संबंधों को व्यक्त नहीं कर सकते हैं। लेकिन सामान्यतः, वे आवश्यक रूप से वर्गीकरण (मशीन लर्निंग) और प्रतिगमन विश्लेषण कार्यों में जनरेटिव मॉडल से अच्छा प्रदर्शन नहीं करते हैं। दो वर्गों को एक ही प्रक्रिया के पूरक या भिन्न विचारों के रूप में देखा जाता है।[7]
दीप जनरेटिव मॉडल
गहरी शिक्षा के उदय के साथ, विधियों का नया परिवार, जिसे गहन जनरेटिव मॉडल (डीजीएम) कहा जाता है,[8][9][10] जनरेटिव मॉडल और गहरे तंत्रिका नेटवर्क के संयोजन के माध्यम से बनता है। तंत्रिका नेटवर्क के पैमाने में वृद्धि सामान्यतः प्रशिक्षण डेटा के पैमाने में वृद्धि के साथ होती है, जिनमें से दोनों अच्छे प्रदर्शन के लिए आवश्यक हैं।[11]
लोकप्रिय डीजीएम में ऑटोएन्कोडर वेरिएशनल ऑटोएन्कोडर (वीएई) (वीएई), जनरेटिव एडवरसैरियल नेटवर्क (GANs), और ऑटो-रिग्रेसिव मॉडल सम्मिलित हैं। हाल ही में, बहुत बड़े गहरे जनरेटिव मॉडल बनाने का चलन रहा है।[8] उदाहरण के लिए, GPT-3 और इसके पूर्ववर्ती GPT-2,[12] ऑटो-रिग्रेसिव न्यूरल भाषा मॉडल हैं जिनमें अरबों पैरामीटर होते हैं, BigGAN[13] और VQ-VAE[14] जिनका उपयोग छवि निर्माण के लिए किया जाता है जिसमें सैकड़ों लाखों पैरामीटर हो सकते हैं, और ज्यूकबॉक्स संगीत ऑडियो के लिए बहुत बड़ा जनरेटिव मॉडल है जिसमें अरबों पैरामीटर सम्मिलित हैं।[15]
प्रकार
जनरेटिव मॉडल
जनरेटिव मॉडल के प्रकार हैं:
- गाऊसी मिश्रण मॉडल (और अन्य प्रकार के मिश्रण मॉडल)
- छिपा हुआ मार्कोव मॉडल
- स्टोकेस्टिक संदर्भ-मुक्त व्याकरण संभाव्य संदर्भ-मुक्त व्याकरण
- बायेसियन नेटवर्क (जैसे नैवी बेयस, ऑटोरेग्रेसिव मॉडल)
- औसत एक-निर्भरता आकलनकर्ता
- अव्यक्त डिरिचलेट आवंटन
- बोल्ट्जमैन मशीन (जैसे प्रतिबंधित बोल्ट्जमैन मशीन, गहरा विश्वास नेटवर्क)
- ऑटोएन्कोडर वेरिएशनल ऑटोएन्कोडर (वीएई)
- जनरेटिव प्रतिकूल नेटवर्क
- प्रवाह आधारित जनरेटिव मॉडल
- ऊर्जा आधारित मॉडल
- प्रसार मॉडल
यदि देखा गया डेटा सही मायने में जनरेटिव मॉडल से नमूना लिया गया है, तो जनरेटिव मॉडल के पैरामीटर को अधिकतम संभावना अनुमान में फ़िट करना सामान्य विधि है।, चूंकि अधिकांश सांख्यिकीय मॉडल वास्तविक वितरण के लिए केवल अनुमान हैं, यदि मॉडल का अनुप्रयोग दूसरों के ज्ञात मूल्यों पर सशर्त चर के सबसमुच्चय के बारे में अनुमान लगाना है, तो यह तर्क दिया जा सकता है कि सन्निकटन हल करने के लिए आवश्यक से अधिक अनुमान लगाता है। हाथ में समस्या। ऐसे स्थितियों में, विवेकपूर्ण मॉडल (नीचे देखें) का उपयोग करके सशर्त घनत्व कार्यों को सीधे मॉडल करना अधिक सही हो सकता है, चूँकि एप्लिकेशन-विशिष्ट विवरण अंततः निर्धारित करेंगे कि किसी विशेष स्थितियों में कौन सा दृष्टिकोण सबसे उपयुक्त है।
भेदभावपूर्ण मॉडल
- k-निकटतम पड़ोसी एल्गोरिथम
- संभार तन्त्र परावर्तन
- समर्थन वेक्टर मशीन
- निर्णय ट्री लर्निंग
- यादृच्छिक वन
- अधिकतम-एन्ट्रॉपी मार्कोव मॉडल
- सशर्त यादृच्छिक क्षेत्र
उदाहरण
सरल उदाहरण
मान लीजिए इनपुट डेटा है , के लिए लेबल का समुच्चय है , और निम्नलिखित 4 डेटा बिंदु हैं:
उपरोक्त डेटा के लिए, संयुक्त संभाव्यता वितरण का अनुमान लगाना अनुभवजन्य माप से निम्नलिखित होगा:
जबकि निम्नलिखित होगा:
पाठ पीढ़ी
शैनन (1948) उदाहरण देता है जिसमें अंग्रेजी शब्द जोड़े की आवृत्तियों की तालिका का उपयोग प्रतिनिधित्व के साथ प्रारंभ होने वाले वाक्य को उत्पन्न करने के लिए किया जाता है और तेजी से अच्छा है; जो कि उचित अंग्रेजी नहीं है, लेकिन जो तालिका को शब्द जोड़े से शब्द त्रिक आदि में स्थानांतरित करने के रूप में तेजी से इसका अनुमान लगाएगा।
यह भी देखें
- भेदभावपूर्ण मॉडल
- ग्राफिकल मॉडल
टिप्पणियाँ
- ↑ Three leading sources, Ng & Jordan 2002, Jebara 2004, and Mitchell 2015, give different divisions and definitions.
संदर्भ
- ↑ Ng & Jordan (2002): "Generative classifiers learn a model of the joint probability, , of the inputs x and the label y, and make their predictions by using Bayes rules to calculate , and then picking the most likely label y.
- ↑ Jebara 2004, 2.4 Discriminative Learning: "This distinction between conditional learning and discriminative learning is not currently a well established convention in the field."
- ↑ Ng & Jordan 2002: "Discriminative classifiers model the posterior directly, or learn a direct map from inputs x to the class labels."
- ↑ 4.0 4.1 Mitchell 2015: "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function , or equivalently, , we use the training data to learn estimates of and . New X examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a generative classifier, because we can view the distribution as describing how to generate random instances X conditioned on the target attribute Y.
- ↑ 5.0 5.1 Mitchell 2015: "Logistic Regression is a function approximation algorithm that uses training data to directly estimate , in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a discriminative classifier because we can view the distribution as directly discriminating the value of the target value Y for any given instance X
- ↑ Ng & Jordan 2002
- ↑ Bishop, C. M.; Lasserre, J. (24 September 2007), "Generative or Discriminative? getting the best of both worlds", in Bernardo, J. M. (ed.), Bayesian statistics 8: proceedings of the eighth Valencia International Meeting, June 2-6, 2006, Oxford University Press, pp. 3–23, ISBN 978-0-19-921465-5
- ↑ 8.0 8.1 "Scaling up—researchers advance large-scale deep generative models". Microsoft. April 9, 2020.
- ↑ "जनरेटिव मॉडल". OpenAI. June 16, 2016.
- ↑ Tomczak, Jakub (2022). डीप जनरेटिव मॉडलिंग. Cham: Springer. p. 197. doi:10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5. S2CID 246946335.
- ↑ Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "तंत्रिका भाषा मॉडल के लिए स्केलिंग कानून". arXiv:2001.08361 [stat.ML].
- ↑ "बेहतर भाषा मॉडल और उनके निहितार्थ". OpenAI. February 14, 2019.
- ↑ Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). "उच्च निष्ठा प्राकृतिक छवि संश्लेषण के लिए बड़े पैमाने पर GAN प्रशिक्षण". arXiv:1809.11096 [cs.LG].
- ↑ Razavi, Ali; van den Oord, Aaron; Vinyals, Oriol (2019). "Generating Diverse High-Fidelity Images with VQ-VAE-2". arXiv:1906.00446 [cs.LG].
- ↑ "ज्यूकबॉक्स". OpenAI. April 30, 2020.
बाहरी संबंध
- Shannon, C. E. (1948). "A Mathematical Theory of Communication" (PDF). Bell System Technical Journal. 27 (July, October): 379–423, 623–656. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429.
- Mitchell, Tom M. (2015). "3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression" (PDF). Machine Learning.
- Ng, Andrew Y.; Jordan, Michael I. (2002). "On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes" (PDF). Advances in Neural Information Processing Systems.
- Jebara, Tony (2004). Machine Learning: Discriminative and Generative. The Springer International Series in Engineering and Computer Science. Kluwer Academic (Springer). ISBN 978-1-4020-7647-3.
- Jebara, Tony (2002). Discriminative, generative, and imitative learning (PhD). Massachusetts Institute of Technology. hdl:1721.1/8323., (mirror, mirror), published as book (above)
- Code accompanying the book (Tomczak, Jakub (2022). Deep Generative Modeling. Cham: Springer. p. 197. doi:10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5. S2CID 246946335.): "Introductory examples". GitHub. Retrieved October 21, 2022.