फ़ीचर लर्निंग: Difference between revisions
Line 6: | Line 6: | ||
फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है। | फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है। | ||
* पर्यवेक्षित फ़ीचर सीखना में, लेबल इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े | * पर्यवेक्षित फ़ीचर सीखना में, लेबल इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े सम्मिलित होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।<ref>Stuart J. Russell, Peter Norvig (2010) ''[[Artificial Intelligence: A Modern Approach]], Third Edition'', Prentice Hall {{ISBN|978-0-13-604259-4}}.</ref> इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में [[कृत्रिम तंत्रिका नेटवर्क]], [[मल्टीलेयर परसेप्ट्रॉन]] और (पर्यवेक्षित) [[शब्दकोश सीखना]] सम्मिलित हैं। | ||
* [[ बिना पर्यवेक्षण के सीखना | अनपर्यवेक्षित फ़ीचर]] में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ सीखा जाता है।<ref>Hinton, Geoffrey; Sejnowski, Terrence (1999). ''Unsupervised Learning: Foundations of Neural Computation''. MIT Press. {{ISBN|978-0-262-58168-4}}.</ref> उदाहरणों में शब्दकोश सीखना, [[स्वतंत्र घटक विश्लेषण]], [[मैट्रिक्स अपघटन]] <ref>{{cite conference | * [[ बिना पर्यवेक्षण के सीखना | अनपर्यवेक्षित फ़ीचर]] में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ सीखा जाता है।<ref>Hinton, Geoffrey; Sejnowski, Terrence (1999). ''Unsupervised Learning: Foundations of Neural Computation''. MIT Press. {{ISBN|978-0-262-58168-4}}.</ref> उदाहरणों में शब्दकोश सीखना, [[स्वतंत्र घटक विश्लेषण]], [[मैट्रिक्स अपघटन]] <ref>{{cite conference | ||
|author1=Nathan Srebro |author2=Jason D. M. Rennie |author3=Tommi S. Jaakkola | |author1=Nathan Srebro |author2=Jason D. M. Rennie |author3=Tommi S. Jaakkola | ||
Line 12: | Line 12: | ||
|conference=[[Conference on Neural Information Processing Systems|NIPS]] | |conference=[[Conference on Neural Information Processing Systems|NIPS]] | ||
|year=2004 | |year=2004 | ||
}}</ref> और [[क्लस्टर विश्लेषण]] के विभिन्न रूप | }}</ref> और [[क्लस्टर विश्लेषण]] के विभिन्न रूप सम्मिलित हैं।<ref name="coates2011"/><ref>{{cite conference | ||
|last1 = Csurka |first1 = Gabriella | |last1 = Csurka |first1 = Gabriella | ||
|last2 = Dance |first2 = Christopher C. | |last2 = Dance |first2 = Christopher C. | ||
Line 23: | Line 23: | ||
|url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf | |url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf | ||
}}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref> | }}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref> | ||
* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] | * [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] सम्मिलित हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" /> | ||
== पर्यवेक्षित == | == पर्यवेक्षित == | ||
पर्यवेक्षित फ़ीचर सीखना लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में | पर्यवेक्षित फ़ीचर सीखना लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में सम्मिलित हैं: | ||
=== पर्यवेक्षित शब्दकोश सीखना === | === पर्यवेक्षित शब्दकोश सीखना === | ||
शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और वजन पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)। | शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और वजन पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)। | ||
पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह<ref>{{cite journal|last1=Mairal|first1=Julien|last2=Bach|first2=Francis|last3=Ponce|first3=Jean|last4=Sapiro|first4=Guillermo|last5=Zisserman|first5=Andrew|title=पर्यवेक्षित शब्दकोश सीखना|journal=Advances in Neural Information Processing Systems|date=2009}}</ref> पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण | पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह<ref>{{cite journal|last1=Mairal|first1=Julien|last2=Bach|first2=Francis|last3=Ponce|first3=Jean|last4=Sapiro|first4=Guillermo|last5=Zisserman|first5=Andrew|title=पर्यवेक्षित शब्दकोश सीखना|journal=Advances in Neural Information Processing Systems|date=2009}}</ref> पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण सम्मिलित होता है। | ||
=== [[तंत्रिका नेटवर्क]]=== | === [[तंत्रिका नेटवर्क]]=== | ||
Line 46: | Line 46: | ||
के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के [[केन्द्रक]] का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।<ref name="coates2011"/> क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (एक तकनीक जिसका उपयोग [[रेडियल आधार फ़ंक्शन नेटवर्क]] को प्रशिक्षित करने के लिए किया गया है<ref name="schwenker">{{cite journal |last1=Schwenker |first1=Friedhelm |last2=Kestler |first2=Hans A. |last3=Palm |first3=Günther |title=रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण|journal=Neural Networks |volume=14 |issue=4–5 |pages=439–458 |year=2001 |citeseerx = 10.1.1.109.312 |doi=10.1016/s0893-6080(01)00027-2|pmid=11411631 }}</ref>) के माध्यम से परिवर्तित करने के बाद कोट्स और [[एंड्रयू एनजी|एनजी]] ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार [[विरल कोडिंग]] एल्गोरिदम के समान व्यवहार करते हैं।<ref name=Coates2012>{{cite encyclopedia |last1 = Coates |first1 = Adam |last2 = Ng |first2 = Andrew Y. |title=K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व|encyclopedia=Neural Networks: Tricks of the Trade |year = 2012 |publisher=Springer |editor=G. Montavon, G. B. Orr and [[Klaus-Robert Müller|K.-R. Müller]]}}</ref> | के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के [[केन्द्रक]] का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।<ref name="coates2011"/> क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (एक तकनीक जिसका उपयोग [[रेडियल आधार फ़ंक्शन नेटवर्क]] को प्रशिक्षित करने के लिए किया गया है<ref name="schwenker">{{cite journal |last1=Schwenker |first1=Friedhelm |last2=Kestler |first2=Hans A. |last3=Palm |first3=Günther |title=रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण|journal=Neural Networks |volume=14 |issue=4–5 |pages=439–458 |year=2001 |citeseerx = 10.1.1.109.312 |doi=10.1016/s0893-6080(01)00027-2|pmid=11411631 }}</ref>) के माध्यम से परिवर्तित करने के बाद कोट्स और [[एंड्रयू एनजी|एनजी]] ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार [[विरल कोडिंग]] एल्गोरिदम के समान व्यवहार करते हैं।<ref name=Coates2012>{{cite encyclopedia |last1 = Coates |first1 = Adam |last2 = Ng |first2 = Andrew Y. |title=K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व|encyclopedia=Neural Networks: Tricks of the Trade |year = 2012 |publisher=Springer |editor=G. Montavon, G. B. Orr and [[Klaus-Robert Müller|K.-R. Müller]]}}</ref> | ||
बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो- | बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो- कूटलेखक और आरबीएम से बेहतर प्रदर्शन करता है।<ref name="coates2011" /> के- का अर्थ [[प्राकृतिक भाषा प्रसंस्करण|एनएलपी]] के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से [[नामित-इकाई पहचान]] के लिए,<ref>{{cite conference |title=भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग|author1=Dekang Lin |author2=Xiaoyun Wu |conference=Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP |pages=1030–1038 |year=2009 |url=http://wmmks.csie.ncku.edu.tw/ACL-IJCNLP-2009/ACLIJCNLP/pdf/ACLIJCNLP116.pdf}}</ref> वहां, यह [[ भूरा क्लस्टरिंग |ब्राउन क्लस्टरिंग]] के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।<ref name="turian">{{cite conference |author1=Joseph Turian |author2=Lev Ratinov |author3=Yoshua Bengio |title=Word representations: a simple and general method for semi-supervised learning |conference=Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics |year=2010 |url=http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |access-date=2014-02-22 |archive-url=https://web.archive.org/web/20140226202823/http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |archive-date=2014-02-26 |url-status=dead }}</ref> | ||
=== प्रमुख घटक विश्लेषण === | === प्रमुख घटक विश्लेषण === | ||
Line 88: | Line 88: | ||
|archive-date = 2017-08-13 | |archive-date = 2017-08-13 | ||
|url-status = dead | |url-status = dead | ||
}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662| url = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> आरबीएम को अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल|बाइनरी चर]] का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे | }}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662| url = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> आरबीएम को अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल|बाइनरी चर]] का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे सम्मिलित होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन|बोल्ट्ज़मैन मशीनों]] का विशेष मामला है जिसमें इंट्रा-नोड संपर्क की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा वजन से जुड़ा होता है। संपर्क के साथ वजन [[ऊर्जा समारोह|ऊर्जा फ़ंक्शन]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है। | ||
आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/> | आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/> | ||
Line 95: | Line 95: | ||
=== ऑटोएन्कोडर === | === ऑटोएन्कोडर === | ||
'''ऑटोएन्कोडर''' और एक डिकोडर से युक्त | '''ऑटोएन्कोडर''' और एक डिकोडर से युक्त ऑटो कूटलेखक गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है<ref name = Hinton2006/> जहां कूटलेखक इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में कूटलेखक से निकाले गए सुविधा का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में कूटलेखक और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में सम्मिलित मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते। | ||
== स्व-पर्यवेक्षित == | == स्व-पर्यवेक्षित == | ||
स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण [[ ढतला हुआ वंश |सूचना संकेत]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय गैर- लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। | स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण [[ ढतला हुआ वंश |सूचना संकेत]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय गैर- लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" />प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" />जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" /> | ||
एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" /> | एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" /> | ||
विभिन्न तौर-तरीकों | विभिन्न तौर-तरीकों के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" /> | ||
=== पाठ === | |||
[[Word2vec]] एक शब्द एम्बेडिंग तकनीक है जो पाठ के एक बड़े संग्रह में स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है।<ref name=":4">{{cite arXiv |last1=Mikolov |first1=Tomas |last2=Chen |first2=Kai |last3=Corrado |first3=Greg |last4=Dean |first4=Jeffrey |date=2013-09-06 |title=वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान|class=cs.CL |eprint=1301.3781 }}</ref> मॉडल में शब्द वेक्टर अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव।<ref name=":2" /> पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है।<ref name=":4" /> दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है।<ref name=":3" /> Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं।<ref name=":0" /> जीपीटी संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द की भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित देता है,<ref>[https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf "Improving Language Understanding by Generative Pre-Training"] (PDF). Retrieved October 10, 2022.</ref> जबकि बीईआरटी (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को पृथक करता है।<ref name=":7">{{Cite journal |last1=Devlin |first1=Jacob |last2=Chang |first2=Ming-Wei |last3=Lee |first3=Kenton |last4=Toutanova |first4=Kristina |date=June 2019 |title=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding |url=https://aclanthology.org/N19-1423 |journal=Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) |location=Minneapolis, Minnesota |publisher=Association for Computational Linguistics |pages=4171–4186 |doi=10.18653/v1/N19-1423|s2cid=52967399 }}</ref> | |||
अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में [[वाक्य एम्बेडिंग]] या पैराग्राफ जैसी बड़ी पाठ संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं।<ref name=":0" /> [[Doc2Vec]] शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में सामान्य प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।<ref>{{Cite journal |last1=Le |first1=Quoc |last2=Mikolov |first2=Tomas |date=2014-06-18 |title=वाक्यों और दस्तावेज़ों का वितरित प्रतिनिधित्व|url=https://proceedings.mlr.press/v32/le14.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1188–1196|arxiv=1405.4053 }}</ref> | |||
=== छवि === | |||
छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है, जिनमें परिवर्तन,<ref>Spyros Gidaris, Praveer Singh, and Nikos Komodakis. [https://openreview.net/pdf?id=S1v4N2l0- Unsupervised representation learning by predicting image rotations.] In ICLR, 2018.</ref> चित्रकारी,<ref name=":5">{{Cite journal |last1=Pathak |first1=Deepak |last2=Krahenbuhl |first2=Philipp |last3=Donahue |first3=Jeff |last4=Darrell |first4=Trevor |last5=Efros |first5=Alexei A. |date=2016 |title=Context Encoders: Feature Learning by Inpainting |url=https://openaccess.thecvf.com/content_cvpr_2016/html/Pathak_Context_Encoders_Feature_CVPR_2016_paper.html |pages=2536–2544|arxiv=1604.07379 }}</ref> पैच भेदभाव<ref name=":6">{{Cite journal |last1=Chen |first1=Ting |last2=Kornblith |first2=Simon |last3=Norouzi |first3=Mohammad |last4=Hinton |first4=Geoffrey |date=2020-11-21 |title=दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा|url=https://proceedings.mlr.press/v119/chen20j.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1597–1607}}</ref> और क्लस्टरिंग सम्मिलित हैं।<ref>{{Cite journal |last1=Mathilde |first1=Caron |last2=Ishan |first2=Misra |last3=Julien |first3=Mairal |last4=Priya |first4=Goyal |last5=Piotr |first5=Bojanowski |last6=Armand |first6=Joulin |date=2020 |title=कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा|url=https://proceedings.neurips.cc/paper/2020/hash/70feb62b69f16e0238f741fab228fec2-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.09882 }}</ref> | |||
सामान्य दृष्टिकोण के उदाहरण प्रसंग कूटलेखक हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] सीएनएन वास्तुकला को प्रशिक्षित करते हैं,<ref name=":5" /> और आईजीपीटी, जो छवि प्रस्ताव को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2|जीपीटी-2]] भाषा मॉडल वास्तुकला लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref> | |||
'''कई''' अन्य स्व-पर्यवेक्षित विधियां [[ स्याम देश के नेटवर्क | स्याम देश के नेटवर्क]] का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।<ref>{{Cite journal |last1=Chen |first1=Xinlei |last2=He |first2=Kaiming |date=2021 |title=सरल स्याम देश प्रतिनिधित्व सीखने की खोज|url=https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.html |language=en |pages=15750–15758|arxiv=2011.10566 }}</ref> सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो [[अवशिष्ट तंत्रिका नेटवर्क]] कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।<ref name=":6" />बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।<ref>{{Cite journal |last1=Jean-Bastien |first1=Grill |last2=Florian |first2=Strub |last3=Florent |first3=Altché |last4=Corentin |first4=Tallec |last5=Pierre |first5=Richemond |last6=Elena |first6=Buchatskaya |last7=Carl |first7=Doersch |last8=Bernardo |first8=Avila Pires |last9=Zhaohan |first9=Guo |last10=Mohammad |first10=Gheshlaghi Azar |last11=Bilal |first11=Piot |last12=koray |first12=kavukcuoglu |last13=Remi |first13=Munos |last14=Michal |first14=Valko |date=2020 |title=बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण|url=https://proceedings.neurips.cc/paper/2020/hash/f3ada80d5c4ee70142b17b8192b2958e-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33}}</ref> | |||
[[ | |||
Line 122: | Line 121: | ||
=== वीडियो === | === वीडियो === | ||
नकाबपोश भविष्यवाणी में समान परिणामों के साथ<ref>{{Cite journal |last1=Luo |first1=Dezhao |last2=Liu |first2=Chang |last3=Zhou |first3=Yu |last4=Yang |first4=Dongbao |last5=Ma |first5=Can |last6=Ye |first6=Qixiang |last7=Wang |first7=Weiping |date=2020-04-03 |title=स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया|url=https://ojs.aaai.org/index.php/AAAI/article/view/6840 |journal=Proceedings of the AAAI Conference on Artificial Intelligence |language=en |volume=34 |issue=7 |pages=11701–11708 |doi=10.1609/aaai.v34i07.6840 |s2cid=209531629 |issn=2374-3468|doi-access=free }}</ref> और क्लस्टरिंग,<ref>{{Cite journal |last1=Humam |first1=Alwassel |last2=Dhruv |first2=Mahajan |last3=Bruno |first3=Korbar |last4=Lorenzo |first4=Torresani |last5=Bernard |first5=Ghanem |last6=Du |first6=Tran |date=2020 |title=क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण|url=https://proceedings.neurips.cc/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=1911.12667 }}</ref> वीडियो प्रतिनिधित्व सीखने के दृष्टिकोण प्रायः छवि तकनीकों के समान होते हैं लेकिन अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी | नकाबपोश भविष्यवाणी में समान परिणामों के साथ<ref>{{Cite journal |last1=Luo |first1=Dezhao |last2=Liu |first2=Chang |last3=Zhou |first3=Yu |last4=Yang |first4=Dongbao |last5=Ma |first5=Can |last6=Ye |first6=Qixiang |last7=Wang |first7=Weiping |date=2020-04-03 |title=स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया|url=https://ojs.aaai.org/index.php/AAAI/article/view/6840 |journal=Proceedings of the AAAI Conference on Artificial Intelligence |language=en |volume=34 |issue=7 |pages=11701–11708 |doi=10.1609/aaai.v34i07.6840 |s2cid=209531629 |issn=2374-3468|doi-access=free }}</ref> और क्लस्टरिंग,<ref>{{Cite journal |last1=Humam |first1=Alwassel |last2=Dhruv |first2=Mahajan |last3=Bruno |first3=Korbar |last4=Lorenzo |first4=Torresani |last5=Bernard |first5=Ghanem |last6=Du |first6=Tran |date=2020 |title=क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण|url=https://proceedings.neurips.cc/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=1911.12667 }}</ref> वीडियो प्रतिनिधित्व सीखने के दृष्टिकोण प्रायः छवि तकनीकों के समान होते हैं लेकिन अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी सम्मिलित है, जो वीडियो क्लिप को मास्क करता है और क्लिप विकल्पों के एक सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक फेरबदल सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3 डी-सीएनएन को प्रशिक्षित करता है।<ref>{{Cite book |last1=Xu |first1=Dejing |last2=Xiao |first2=Jun |last3=Zhao |first3=Zhou |last4=Shao |first4=Jian |last5=Xie |first5=Di |last6=Zhuang |first6=Yueting |title=2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) |chapter=Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction |date=June 2019 |chapter-url=https://ieeexplore.ieee.org/document/8953292 |pages=10326–10335 |doi=10.1109/CVPR.2019.01058|isbn=978-1-7281-3293-8 |s2cid=195504152 }}</ref> | ||
Line 130: | Line 129: | ||
=== मल्टीमॉडल === | === मल्टीमॉडल === | ||
स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।<ref name=":0" />दृष्टिकोण आम तौर पर एक अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,<ref name=":9">{{Cite journal |last1=Zellers |first1=Rowan |last2=Lu |first2=Jiasen |last3=Lu |first3=Ximing |last4=Yu |first4=Youngjae |last5=Zhao |first5=Yanpeng |last6=Salehi |first6=Mohammadreza |last7=Kusupati |first7=Aditya |last8=Hessel |first8=Jack |last9=Farhadi |first9=Ali |last10=Choi |first10=Yejin |date=2022 |title=MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound |url=https://openaccess.thecvf.com/content/CVPR2022/html/Zellers_MERLOT_Reserve_Neural_Script_Knowledge_Through_Vision_and_Language_and_CVPR_2022_paper.html |language=en |pages=16375–16387|arxiv=2201.02639 }}</ref> या छवियों का वर्णन करने के लिए लिखे गए कैप्शन।<रेफ नाम = रैडफोर्ड 8748-8763 >{{Cite journal |last1=Radford |first1=Alec |last2=Kim |first2=Jong Wook |last3=Hallacy |first3=Chris |last4=Ramesh |first4=Aditya |last5=Goh |first5=Gabriel |last6=Agarwal |first6=Sandhini |last7=Sastry |first7=Girish |last8=Askell |first8=Amanda |last9=Mishkin |first9=Pamela |last10=Clark |first10=Jack |last11=Krueger |first11=Gretchen |last12=Sutskever |first12=Ilya |date=2021-07-01 |title=प्राकृतिक भाषा पर्यवेक्षण से हस्तांतरणीय दृश्य मॉडल सीखना|url=https://proceedings.mlr.press/v139/radford21a.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=8748–8763|arxiv=2103.00020 }}</ref> CLIP एक विपरीत हानि का उपयोग करके छवि-कैप्शन जोड़े के एक बड़े डेटासेट से छवि और पाठ एन्कोडिंग को संरेखित करने के लिए प्रशिक्षण द्वारा एक संयुक्त छवि-पाठ प्रतिनिधित्व स्थान का निर्माण करता है। <ref नाम = रैडफोर्ड 8748-8763 /> MERLOT रिजर्व 3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के एक बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए एक ट्रांसफार्मर-आधारित | स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।<ref name=":0" />दृष्टिकोण आम तौर पर एक अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,<ref name=":9">{{Cite journal |last1=Zellers |first1=Rowan |last2=Lu |first2=Jiasen |last3=Lu |first3=Ximing |last4=Yu |first4=Youngjae |last5=Zhao |first5=Yanpeng |last6=Salehi |first6=Mohammadreza |last7=Kusupati |first7=Aditya |last8=Hessel |first8=Jack |last9=Farhadi |first9=Ali |last10=Choi |first10=Yejin |date=2022 |title=MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound |url=https://openaccess.thecvf.com/content/CVPR2022/html/Zellers_MERLOT_Reserve_Neural_Script_Knowledge_Through_Vision_and_Language_and_CVPR_2022_paper.html |language=en |pages=16375–16387|arxiv=2201.02639 }}</ref> या छवियों का वर्णन करने के लिए लिखे गए कैप्शन।<रेफ नाम = रैडफोर्ड 8748-8763 >{{Cite journal |last1=Radford |first1=Alec |last2=Kim |first2=Jong Wook |last3=Hallacy |first3=Chris |last4=Ramesh |first4=Aditya |last5=Goh |first5=Gabriel |last6=Agarwal |first6=Sandhini |last7=Sastry |first7=Girish |last8=Askell |first8=Amanda |last9=Mishkin |first9=Pamela |last10=Clark |first10=Jack |last11=Krueger |first11=Gretchen |last12=Sutskever |first12=Ilya |date=2021-07-01 |title=प्राकृतिक भाषा पर्यवेक्षण से हस्तांतरणीय दृश्य मॉडल सीखना|url=https://proceedings.mlr.press/v139/radford21a.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=8748–8763|arxiv=2103.00020 }}</ref> CLIP एक विपरीत हानि का उपयोग करके छवि-कैप्शन जोड़े के एक बड़े डेटासेट से छवि और पाठ एन्कोडिंग को संरेखित करने के लिए प्रशिक्षण द्वारा एक संयुक्त छवि-पाठ प्रतिनिधित्व स्थान का निर्माण करता है। <ref नाम = रैडफोर्ड 8748-8763 /> MERLOT रिजर्व 3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के एक बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए एक ट्रांसफार्मर-आधारित कूटलेखक को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी नकाबपोश भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण।<ref name=":9" /> | ||
मल्टीमॉडल शिक्षण प्रतिनिधित्व मॉडल आम तौर पर विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण प्रायः शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट कुत्ते को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और तदनुसार एक कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन किया जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच एक अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि पाठ से छवि निर्माण के लिए [[DALL-E]]|DALLE-2 में।<ref>{{cite arXiv |last1=Ramesh |first1=Aditya |last2=Dhariwal |first2=Prafulla |last3=Nichol |first3=Alex |last4=Chu |first4=Casey |last5=Chen |first5=Mark |date=2022-04-12 |title=सीएलआईपी लेटेंट्स के साथ पदानुक्रमित पाठ-सशर्त छवि निर्माण|class=cs.CV |eprint=2204.06125 }}</ref> | मल्टीमॉडल शिक्षण प्रतिनिधित्व मॉडल आम तौर पर विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण प्रायः शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट कुत्ते को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और तदनुसार एक कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन किया जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच एक अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि पाठ से छवि निर्माण के लिए [[DALL-E]]|DALLE-2 में।<ref>{{cite arXiv |last1=Ramesh |first1=Aditya |last2=Dhariwal |first2=Prafulla |last3=Nichol |first3=Alex |last4=Chu |first4=Casey |last5=Chen |first5=Mark |date=2022-04-12 |title=सीएलआईपी लेटेंट्स के साथ पदानुक्रमित पाठ-सशर्त छवि निर्माण|class=cs.CV |eprint=2204.06125 }}</ref> | ||
Line 142: | Line 141: | ||
* शब्द एम्बेडिंग | * शब्द एम्बेडिंग | ||
* [[वेक्टर परिमाणीकरण]] | * [[वेक्टर परिमाणीकरण]] | ||
* [[वैरिएशनल ऑटोएनकोडर]] | * [[वैरिएशनल ऑटोएनकोडर|वैरिएशनल ऑटो कूटलेखक]] | ||
==संदर्भ== | ==संदर्भ== |
Revision as of 23:49, 6 August 2023
Part of a series on |
Machine learning and data mining |
---|
यंत्र अधिगम में, फीचर सीखना या प्रतिनिधित्व सीखना[2] तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।
फ़ीचर सीखना इस तथ्य से प्रेरित है कि सांख्यिकीय वर्गीकरण जैसे मशीन सीखना कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है।
फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।
- पर्यवेक्षित फ़ीचर सीखना में, लेबल इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े सम्मिलित होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।[3] इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में कृत्रिम तंत्रिका नेटवर्क, मल्टीलेयर परसेप्ट्रॉन और (पर्यवेक्षित) शब्दकोश सीखना सम्मिलित हैं।
- अनपर्यवेक्षित फ़ीचर में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ सीखा जाता है।[4] उदाहरणों में शब्दकोश सीखना, स्वतंत्र घटक विश्लेषण, मैट्रिक्स अपघटन [5] और क्लस्टर विश्लेषण के विभिन्न रूप सम्मिलित हैं।[6][7][8]
- स्व-पर्यवेक्षित फीचर सीखना में, फीचर को अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।[9] शास्त्रीय उदाहरणों में शब्द एम्बेडिंग और ऑटोएन्कोडर सम्मिलित हैं।[10][11] एसएसएल को तब से CNNs और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।[9]
पर्यवेक्षित
पर्यवेक्षित फ़ीचर सीखना लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में सम्मिलित हैं:
पर्यवेक्षित शब्दकोश सीखना
शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और वजन पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)।
पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह[12] पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण सम्मिलित होता है।
तंत्रिका नेटवर्क
तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।
बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला सियामी नेटवर्क है।
अपर्यवेक्षित
अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य प्रायः कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह अर्ध-पर्यवेक्षित शिक्षण के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।[13][14] निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।
के- का अर्थ है क्लस्टरिंग
के-का अर्थ क्लस्टरिंग वेक्टर परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से समूहित करती है कि प्रत्येक वेक्टर निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या कम्प्यूटेशनल रूप से एनपी हार्ड है, तथापि उप-इष्टतम लालची एल्गोरिदम विकसित किए गए हैं।
के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के केन्द्रक का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।[6] क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (एक तकनीक जिसका उपयोग रेडियल आधार फ़ंक्शन नेटवर्क को प्रशिक्षित करने के लिए किया गया है[15]) के माध्यम से परिवर्तित करने के बाद कोट्स और एनजी ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार विरल कोडिंग एल्गोरिदम के समान व्यवहार करते हैं।[16]
बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो- कूटलेखक और आरबीएम से बेहतर प्रदर्शन करता है।[6] के- का अर्थ एनएलपी के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से नामित-इकाई पहचान के लिए,[17] वहां, यह ब्राउन क्लस्टरिंग के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।[14]
प्रमुख घटक विश्लेषण
प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।
पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें आइजन्वेक्टर पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।
पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।
स्थानीय रैखिक एम्बेडिंग
स्थानीय रैखिक एम्बेडिंग (एलएलई) उच्च-आयाम इनपुट (बिना लेबल लगा) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए एक गैर-रेखीय सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।[18][19] एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।
एलएलई में दो प्रमुख चरण होते हैं। पहला चरण "पड़ोसी-संरक्षण" के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिथम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (अर्थात, इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है। इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े भार का योग एक तक होता है। दूसरा चरण "आयाम में कमी" के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।
पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के "आंतरिक ज्यामितीय गुणों" को कैप्चर करते हैं।[19] यह माना जाता है कि मूल डेटा चिकनी निम्न-आयामी कई गुना पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए "आंतरिक ज्यामितीय गुणों" के भी मैनिफोल्ड पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।
स्वतंत्र घटक विश्लेषण
स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की तकनीक है।[20] गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक गाऊसी वितरण वितरण का पालन करते हैं तो वजन विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।
अपर्यवेक्षित शब्दकोश सीखना
अपर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अपर्यवेक्षित शब्दकोश सीखने का एक उदाहरण विरल शब्दकोश सीखना है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को सीखना है। अधिक पूर्ण शब्दकोशों को सीखने के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।[21] अहरोन एट अल और अन्य तत्वों का एक शब्दकोश सीखने के लिए प्रस्तावित एल्गोरिथ्म K-SVD जो विरल प्रतिनिधित्व को सक्षम बनाता है।[22]
बहुपरत/गहरा वास्तुकला
जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।[23] ये वास्तुकला प्रायः वितरित प्रतिनिधित्व की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है।
प्रतिबंधित बोल्ट्ज़मैन मशीन
प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग की जाती है।[6][24] आरबीएम को अप्रत्यक्ष द्विदलीय ग्राफ द्वारा दर्शाया जा सकता है जिसमें बाइनरी चर का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे सम्मिलित होते हैं। यह अधिक सामान्य बोल्ट्ज़मैन मशीनों का विशेष मामला है जिसमें इंट्रा-नोड संपर्क की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा वजन से जुड़ा होता है। संपर्क के साथ वजन ऊर्जा फ़ंक्शन को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का संयुक्त वितरण तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।[clarification needed] ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।
आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। जेफ्री हिंटन के विरोधाभासी विचलन (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।[24]
सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम[25] को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक नियमितीकरण शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है .
ऑटोएन्कोडर
ऑटोएन्कोडर और एक डिकोडर से युक्त ऑटो कूटलेखक गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है[24] जहां कूटलेखक इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में कूटलेखक से निकाले गए सुविधा का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में कूटलेखक और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में सम्मिलित मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः स्टोकेस्टिक ग्रेडिएंट डिसेंट विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।
स्व-पर्यवेक्षित
स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण सूचना संकेत के लिए स्पष्ट लेबल पर निर्भर होने के बजाय गैर- लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।[9]प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।[26] विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।[9]जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।[26]
एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।[11]संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।[9]किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।[11]
विभिन्न तौर-तरीकों के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।[9]
पाठ
Word2vec एक शब्द एम्बेडिंग तकनीक है जो पाठ के एक बड़े संग्रह में स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है।[27] मॉडल में शब्द वेक्टर अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव।[26] पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है।[27] दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है।[10] Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं।[9] जीपीटी संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द की भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित देता है,[28] जबकि बीईआरटी (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को पृथक करता है।[29] अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में वाक्य एम्बेडिंग या पैराग्राफ जैसी बड़ी पाठ संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं।[9] Doc2Vec शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में सामान्य प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।[30]
छवि
छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है, जिनमें परिवर्तन,[31] चित्रकारी,[32] पैच भेदभाव[33] और क्लस्टरिंग सम्मिलित हैं।[34] सामान्य दृष्टिकोण के उदाहरण प्रसंग कूटलेखक हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए एलेक्सनेट सीएनएन वास्तुकला को प्रशिक्षित करते हैं,[32] और आईजीपीटी, जो छवि प्रस्ताव को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर जीपीटी-2 भाषा मॉडल वास्तुकला लागू करता है।[35]
कई अन्य स्व-पर्यवेक्षित विधियां स्याम देश के नेटवर्क का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।[36] सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो अवशिष्ट तंत्रिका नेटवर्क कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।[33]बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।[37]
ग्राफ़
कई ग्राफ़ (कंप्यूटर विज्ञान) प्रतिनिधित्व सीखने की तकनीकों का लक्ष्य समग्र टोपोलॉजिकल ग्राफ़ सिद्धांत के आधार पर प्रत्येक वर्टेक्स (ग्राफ़ सिद्धांत) का एक एम्बेडेड प्रतिनिधित्व तैयार करना है।[38] node2vec एसोसिएशन के माप के रूप में ग्राफ़ के माध्यम से यादृच्छिक चलने में सह-घटना का उपयोग करके Word2vec प्रशिक्षण तकनीक को ग्राफ़ में नोड्स तक विस्तारित करता है।[39] एक अन्य दृष्टिकोण ग्राफ़ के भीतर संबंधित संरचनाओं के प्रतिनिधित्व के बीच पारस्परिक जानकारी, समानता का एक उपाय, को अधिकतम करना है।[9]एक उदाहरण डीप ग्राफ इन्फोमैक्स है, जो प्रत्येक नोड के चारों ओर एक "पैच" के प्रतिनिधित्व और पूरे ग्राफ के सारांश प्रतिनिधित्व के बीच पारस्परिक जानकारी के आधार पर विरोधाभासी स्व-पर्यवेक्षण का उपयोग करता है। मल्टीग्राफ प्रशिक्षण सेटिंग में ग्राफ़ प्रतिनिधित्व को किसी अन्य ग्राफ़ के प्रतिनिधित्व के साथ जोड़कर, या एकल ग्राफ़ प्रशिक्षण में दूषित पैच प्रतिनिधित्व को जोड़कर नकारात्मक नमूने प्राप्त किए जाते हैं।[40]
वीडियो
नकाबपोश भविष्यवाणी में समान परिणामों के साथ[41] और क्लस्टरिंग,[42] वीडियो प्रतिनिधित्व सीखने के दृष्टिकोण प्रायः छवि तकनीकों के समान होते हैं लेकिन अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी सम्मिलित है, जो वीडियो क्लिप को मास्क करता है और क्लिप विकल्पों के एक सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक फेरबदल सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3 डी-सीएनएन को प्रशिक्षित करता है।[43]
ऑडियो
स्व-पर्यवेक्षित प्रतिनिधित्व तकनीकों को कई ऑडियो डेटा प्रारूपों पर भी लागू किया गया है, विशेष रूप से भाषण प्रसंस्करण के लिए।[9]Wav2vec 2.0 टेम्पोरल कन्वोल्यूशनल तंत्रिका नेटवर्क के माध्यम से तरंग को टाइमस्टेप्स में विभाजित करता है, और फिर एक विपरीत हानि का उपयोग करके यादृच्छिक टाइमस्टेप्स की छिपी हुई भविष्यवाणी पर एक ट्रांसफार्मर (मशीन सीखना मॉडल) को प्रशिक्षित करता है।[44] यह BERT (भाषा मॉडल) के समान है, वीडियो के लिए कई SSL दृष्टिकोणों को छोड़कर, मॉडल संपूर्ण शब्द शब्दावली के बजाय विकल्पों के एक सेट में से चयन करता है।[29][44]
मल्टीमॉडल
स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।[9]दृष्टिकोण आम तौर पर एक अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,[45] या छवियों का वर्णन करने के लिए लिखे गए कैप्शन।<रेफ नाम = रैडफोर्ड 8748-8763 >Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela; Clark, Jack; Krueger, Gretchen; Sutskever, Ilya (2021-07-01). "प्राकृतिक भाषा पर्यवेक्षण से हस्तांतरणीय दृश्य मॉडल सीखना". International Conference on Machine Learning (in English). PMLR: 8748–8763. arXiv:2103.00020.</ref> CLIP एक विपरीत हानि का उपयोग करके छवि-कैप्शन जोड़े के एक बड़े डेटासेट से छवि और पाठ एन्कोडिंग को संरेखित करने के लिए प्रशिक्षण द्वारा एक संयुक्त छवि-पाठ प्रतिनिधित्व स्थान का निर्माण करता है। Cite error: Invalid <ref>
tag; invalid names, e.g. too many MERLOT रिजर्व 3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के एक बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए एक ट्रांसफार्मर-आधारित कूटलेखक को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी नकाबपोश भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण।[45]
मल्टीमॉडल शिक्षण प्रतिनिधित्व मॉडल आम तौर पर विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण प्रायः शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट कुत्ते को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और तदनुसार एक कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन किया जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच एक अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि पाठ से छवि निर्माण के लिए DALL-E|DALLE-2 में।[46]
यह भी देखें
- स्वचालित मशीन सीखना (ऑटोएमएल)
- ध्यान लगा के पढ़ना या सीखना
- फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
- सुविधा निकालना
- शब्द एम्बेडिंग
- वेक्टर परिमाणीकरण
- वैरिएशनल ऑटो कूटलेखक
संदर्भ
- ↑ Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. ISBN 0-262-03561-8. OCLC 955778308.
- ↑ Y. Bengio; A. Courville; P. Vincent (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
- ↑ Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 978-0-13-604259-4.
- ↑ Hinton, Geoffrey; Sejnowski, Terrence (1999). Unsupervised Learning: Foundations of Neural Computation. MIT Press. ISBN 978-0-262-58168-4.
- ↑ Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. NIPS.
- ↑ 6.0 6.1 6.2 6.3 Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). Int'l Conf. on AI and Statistics (AISTATS). Archived from the original (PDF) on 2017-08-13. Retrieved 2014-11-24.
- ↑ Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual categorization with bags of keypoints (PDF). ECCV Workshop on Statistical Learning in Computer Vision.
- ↑ Daniel Jurafsky; James H. Martin (2009). भाषण और भाषा प्रसंस्करण. Pearson Education International. pp. 145–146.
- ↑ 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 Ericsson, Linus; Gouk, Henry; Loy, Chen Change; Hospedales, Timothy M. (May 2022). "Self-Supervised Representation Learning: Introduction, advances, and challenges". IEEE Signal Processing Magazine. 39 (3): 42–62. arXiv:2110.09327. Bibcode:2022ISPM...39c..42E. doi:10.1109/MSP.2021.3134634. ISSN 1558-0792. S2CID 239017006.
- ↑ 10.0 10.1 Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S; Dean, Jeff (2013). "शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना". Advances in Neural Information Processing Systems. Curran Associates, Inc. 26. arXiv:1310.4546.
- ↑ 11.0 11.1 11.2 Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. ISBN 0-262-03561-8. OCLC 955778308.
- ↑ Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo; Zisserman, Andrew (2009). "पर्यवेक्षित शब्दकोश सीखना". Advances in Neural Information Processing Systems.
- ↑ Percy Liang (2005). प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण (PDF) (M. Eng.). MIT. pp. 44–52.
- ↑ 14.0 14.1 Joseph Turian; Lev Ratinov; Yoshua Bengio (2010). Word representations: a simple and general method for semi-supervised learning (PDF). Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Archived from the original (PDF) on 2014-02-26. Retrieved 2014-02-22.
- ↑ Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण". Neural Networks. 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312. doi:10.1016/s0893-6080(01)00027-2. PMID 11411631.
- ↑ Coates, Adam; Ng, Andrew Y. (2012). "K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व". In G. Montavon, G. B. Orr and K.-R. Müller (ed.). Neural Networks: Tricks of the Trade. Springer.
- ↑ Dekang Lin; Xiaoyun Wu (2009). भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग (PDF). Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP. pp. 1030–1038.
- ↑ Roweis, Sam T; Saul, Lawrence K (2000). "स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी". Science. New Series. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. JSTOR 3081722. PMID 11125150. S2CID 5987139.
- ↑ 19.0 19.1 Saul, Lawrence K; Roweis, Sam T (2000). "स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय".
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Hyvärinen, Aapo; Oja, Erkki (2000). "Independent Component Analysis: Algorithms and Applications". Neural Networks. 13 (4): 411–430. doi:10.1016/s0893-6080(00)00026-5. PMID 10946390. S2CID 11959218.
- ↑ Lee, Honglak; Battle, Alexis; Raina, Rajat; Ng, Andrew Y (2007). "कुशल विरल कोडिंग एल्गोरिदम". Advances in Neural Information Processing Systems.
- ↑ Aharon, Michal; Elad, Michael; Bruckstein, Alfred (2006). "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation". IEEE Trans. Signal Process. 54 (11): 4311–4322. Bibcode:2006ITSP...54.4311A. doi:10.1109/TSP.2006.881199. S2CID 7477309.
- ↑ Bengio, Yoshua (2009). "एआई के लिए डीप आर्किटेक्चर सीखना". Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006. S2CID 207178999.
- ↑ 24.0 24.1 24.2 Hinton, G. E.; Salakhutdinov, R. R. (2006). "तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना" (PDF). Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
- ↑ Lee, Honglak; Ekanadham, Chaitanya; Andrew, Ng (2008). "Sparse deep belief net model for visual area V2". Advances in Neural Information Processing Systems.
- ↑ 26.0 26.1 26.2 Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie (2021). "Self-supervised Learning: Generative or Contrastive". IEEE Transactions on Knowledge and Data Engineering. 35 (1): 857–876. arXiv:2006.08218. doi:10.1109/TKDE.2021.3090866. ISSN 1558-2191. S2CID 219687051.
- ↑ 27.0 27.1 Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-09-06). "वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान". arXiv:1301.3781 [cs.CL].
- ↑ "Improving Language Understanding by Generative Pre-Training" (PDF). Retrieved October 10, 2022.
- ↑ 29.0 29.1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (June 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 4171–4186. doi:10.18653/v1/N19-1423. S2CID 52967399.
- ↑ Le, Quoc; Mikolov, Tomas (2014-06-18). "वाक्यों और दस्तावेज़ों का वितरित प्रतिनिधित्व". International Conference on Machine Learning (in English). PMLR: 1188–1196. arXiv:1405.4053.
- ↑ Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. In ICLR, 2018.
- ↑ 32.0 32.1 Pathak, Deepak; Krahenbuhl, Philipp; Donahue, Jeff; Darrell, Trevor; Efros, Alexei A. (2016). "Context Encoders: Feature Learning by Inpainting": 2536–2544. arXiv:1604.07379.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ 33.0 33.1 Chen, Ting; Kornblith, Simon; Norouzi, Mohammad; Hinton, Geoffrey (2020-11-21). "दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा". International Conference on Machine Learning (in English). PMLR: 1597–1607.
- ↑ Mathilde, Caron; Ishan, Misra; Julien, Mairal; Priya, Goyal; Piotr, Bojanowski; Armand, Joulin (2020). "कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.09882.
- ↑ Chen, Mark; Radford, Alec; Child, Rewon; Wu, Jeffrey; Jun, Heewoo; Luan, David; Sutskever, Ilya (2020-11-21). "पिक्सेल से जेनरेटिव प्रीट्रेनिंग". International Conference on Machine Learning (in English). PMLR: 1691–1703.
- ↑ Chen, Xinlei; He, Kaiming (2021). "सरल स्याम देश प्रतिनिधित्व सीखने की खोज" (in English): 15750–15758. arXiv:2011.10566.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Jean-Bastien, Grill; Florian, Strub; Florent, Altché; Corentin, Tallec; Pierre, Richemond; Elena, Buchatskaya; Carl, Doersch; Bernardo, Avila Pires; Zhaohan, Guo; Mohammad, Gheshlaghi Azar; Bilal, Piot; koray, kavukcuoglu; Remi, Munos; Michal, Valko (2020). "बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण". Advances in Neural Information Processing Systems (in English). 33.
- ↑ Cai, HongYun; Zheng, Vincent W.; Chang, Kevin Chen-Chuan (September 2018). "A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications". IEEE Transactions on Knowledge and Data Engineering. 30 (9): 1616–1637. arXiv:1709.07604. doi:10.1109/TKDE.2018.2807452. ISSN 1558-2191. S2CID 13999578.
- ↑ Grover, Aditya; Leskovec, Jure (2016-08-13). "node2vec: Scalable Feature Learning for Networks". Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD '16. New York, NY, USA: Association for Computing Machinery. 2016: 855–864. doi:10.1145/2939672.2939754. ISBN 978-1-4503-4232-2. PMC 5108654. PMID 27853626.
- ↑ Velikovi, P., Fedus, W., Hamilton, W. L., Li, P., Bengio, Y., and Hjelm, R. D. Deep Graph InfoMax. In International Conference on Learning Representations (ICLR’2019), 2019.
- ↑ Luo, Dezhao; Liu, Chang; Zhou, Yu; Yang, Dongbao; Ma, Can; Ye, Qixiang; Wang, Weiping (2020-04-03). "स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया". Proceedings of the AAAI Conference on Artificial Intelligence (in English). 34 (7): 11701–11708. doi:10.1609/aaai.v34i07.6840. ISSN 2374-3468. S2CID 209531629.
- ↑ Humam, Alwassel; Dhruv, Mahajan; Bruno, Korbar; Lorenzo, Torresani; Bernard, Ghanem; Du, Tran (2020). "क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण". Advances in Neural Information Processing Systems (in English). 33. arXiv:1911.12667.
- ↑ Xu, Dejing; Xiao, Jun; Zhao, Zhou; Shao, Jian; Xie, Di; Zhuang, Yueting (June 2019). "Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction". 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 10326–10335. doi:10.1109/CVPR.2019.01058. ISBN 978-1-7281-3293-8. S2CID 195504152.
- ↑ 44.0 44.1 Alexei, Baevski; Yuhao, Zhou; Abdelrahman, Mohamed; Michael, Auli (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.11477.
- ↑ 45.0 45.1 Zellers, Rowan; Lu, Jiasen; Lu, Ximing; Yu, Youngjae; Zhao, Yanpeng; Salehi, Mohammadreza; Kusupati, Aditya; Hessel, Jack; Farhadi, Ali; Choi, Yejin (2022). "MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound" (in English): 16375–16387. arXiv:2201.02639.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "सीएलआईपी लेटेंट्स के साथ पदानुक्रमित पाठ-सशर्त छवि निर्माण". arXiv:2204.06125 [cs.CV].