फ़ीचर लर्निंग: Difference between revisions

From Vigyanwiki
No edit summary
 
(37 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{short description|Set of learning techniques in machine learning}}
{{short description|Set of learning techniques in machine learning}}
{{Machine learning|Problems}}
{{Machine learning|Problems}}
[[File:Feature Learning Diagram.png|thumb|354x354px|डाउनस्ट्रीम कार्यों के लिए मशीन सीखना में फ़ीचर सीखना प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या पाठ, या डेटा के लिए [[फ़ीचर (मशीन लर्निंग)|फ़ीचर (मशीन सीखना)]] के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर सीखने का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।<ref>Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref>]][[ यंत्र अधिगम |यंत्र अधिगम]] में, फीचर सीखना या प्रतिनिधित्व  सीखना<ref name="pami">{{cite journal |author1=Y. Bengio |author2=A. Courville |author3=P. Vincent |title=Representation Learning: A Review and New Perspectives |journal= IEEE Transactions on Pattern Analysis and Machine Intelligence|year=2013|doi=10.1109/tpami.2013.50 |pmid=23787338 |volume=35 |issue=8 |pages=1798–1828|arxiv=1206.5538 |s2cid=393948 }}</ref> तकनीकों का एक सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह मैन्युअल [[फ़ीचर इंजीनियरिंग]] की जगह लेता है और मशीन को फ़ीचर सीखने और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।
[[File:Feature Learning Diagram.png|thumb|354x354px|डाउनस्ट्रीम कार्यों के लिए मशीन लर्निंगमें फ़ीचर लर्निंग प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या टेक्स्ट , या डेटा के लिए [[फ़ीचर (मशीन लर्निंग)|फ़ीचर (मशीन लर्निंग)]] के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर लर्निंग का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।<ref>Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref>]][[ यंत्र अधिगम |मशीन लर्निंग]] में, '''फीचर लर्निंग''' या '''प्रतिनिधित्व  लर्निंग'''<ref name="pami">{{cite journal |author1=Y. Bengio |author2=A. Courville |author3=P. Vincent |title=Representation Learning: A Review and New Perspectives |journal= IEEE Transactions on Pattern Analysis and Machine Intelligence|year=2013|doi=10.1109/tpami.2013.50 |pmid=23787338 |volume=35 |issue=8 |pages=1798–1828|arxiv=1206.5538 |s2cid=393948 }}</ref> तकनीकों का सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह नियमावली [[फ़ीचर इंजीनियरिंग]] की जगह लेता है और मशीन को फ़ीचर लर्निंग और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।


फ़ीचर सीखना इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण]] जैसे मशीन सीखना कार्यों के लिए अक्सर ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और कम्प्यूटेशनल रूप से सुविधाजनक हो।  तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिदमिक रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी सुविधाओं या अभ्यावेदन की खोज करना विकल्प है।
फ़ीचर लर्निंग इस तथ्य से प्रेरित है कि [[सांख्यिकीय वर्गीकरण|वर्गीकरण]] जैसे मशीन लर्निंग कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और संगणनात्मक रूप से सुविधाजनक हो।  तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिथम रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी फ़ीचर या अभ्यावेदन की खोज करना विकल्प है।


फीचर सीखना या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।
फीचर लर्निंग या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।
* पर्यवेक्षित फ़ीचर सीखना में, लेबल इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े शामिल होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।<ref>Stuart J. Russell, Peter Norvig (2010) ''[[Artificial Intelligence: A Modern Approach]], Third Edition'', Prentice Hall {{ISBN|978-0-13-604259-4}}.</ref> इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में [[कृत्रिम तंत्रिका नेटवर्क]], [[मल्टीलेयर परसेप्ट्रॉन]] और (पर्यवेक्षित) [[शब्दकोश सीखना]] शामिल हैं।
* पर्यवेक्षित फ़ीचर लर्निंग में, लेबल किए गए इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े सम्मिलित होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।<ref>Stuart J. Russell, Peter Norvig (2010) ''[[Artificial Intelligence: A Modern Approach]], Third Edition'', Prentice Hall {{ISBN|978-0-13-604259-4}}.</ref> इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में [[कृत्रिम तंत्रिका नेटवर्क|पर्यवेक्षित तंत्रिका तंत्र]], [[मल्टीलेयर परसेप्ट्रॉन]] और (पर्यवेक्षित) [[शब्दकोश सीखना|शब्दकोश लर्निंग]] सम्मिलित हैं।
* [[ बिना पर्यवेक्षण के सीखना | अनपर्यवेक्षित फ़ीचर]] में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ सीखा जाता है।<ref>Hinton, Geoffrey; Sejnowski, Terrence (1999). ''Unsupervised Learning: Foundations of Neural Computation''. MIT Press. {{ISBN|978-0-262-58168-4}}.</ref> उदाहरणों में शब्दकोश सीखना, [[स्वतंत्र घटक विश्लेषण]], [[मैट्रिक्स अपघटन]] <ref>{{cite conference
* [[ बिना पर्यवेक्षण के सीखना |अपर्यवेक्षित फ़ीचर]] लर्निंग में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ फ़ीचर सीखा जाता है।<ref>Hinton, Geoffrey; Sejnowski, Terrence (1999). ''Unsupervised Learning: Foundations of Neural Computation''. MIT Press. {{ISBN|978-0-262-58168-4}}.</ref> उदाहरणों में शब्दकोश लर्निंग, [[स्वतंत्र घटक विश्लेषण]], [[मैट्रिक्स अपघटन]] <ref>{{cite conference
|author1=Nathan Srebro |author2=Jason D. M. Rennie |author3=Tommi S. Jaakkola
|author1=Nathan Srebro |author2=Jason D. M. Rennie |author3=Tommi S. Jaakkola
|title=Maximum-Margin Matrix Factorization
|title=Maximum-Margin Matrix Factorization
|conference=[[Conference on Neural Information Processing Systems|NIPS]]
|conference=[[Conference on Neural Information Processing Systems|NIPS]]
|year=2004
|year=2004
}}</ref> और [[क्लस्टर विश्लेषण]] के विभिन्न रूप शामिल हैं।<ref name="coates2011"/><ref>{{cite conference
}}</ref> और [[क्लस्टर विश्लेषण]] के विभिन्न रूप सम्मिलित हैं।<ref name="coates2011"/><ref>{{cite conference
|last1 = Csurka |first1 = Gabriella
|last1 = Csurka |first1 = Gabriella
|last2 = Dance |first2 = Christopher C.
|last2 = Dance |first2 = Christopher C.
Line 23: Line 23:
|url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf
|url = https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/csurka-eccv-04.pdf
}}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref>
}}</ref><ref name="jurafsky">{{cite book |title=भाषण और भाषा प्रसंस्करण|author1=Daniel Jurafsky|author-link=Daniel Jurafsky|author2=James H. Martin |publisher=Pearson Education International |year=2009 |pages=145–146}}</ref>
* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फीचर  सीखना में, फीचर को  अपर्यवेक्षित सीखना जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ग्रेडिएंट डिसेंट जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को सीखने में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> शास्त्रीय उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर ]] शामिल हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> एसएसएल को तब से [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर जैसे गहरे तंत्रिका नेटवर्क  आर्किटेक्चर के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" />
* [[ स्व-पर्यवेक्षित शिक्षण | स्व-पर्यवेक्षित]] फ़ीचर लर्निंग में, विशेषताएँ को  अपर्यवेक्षित लर्निंग जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ढतला हुआ वंश जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को लर्निंग में सक्षम बनाता है।<ref name=":0">{{Cite journal |last1=Ericsson |first1=Linus |last2=Gouk |first2=Henry |last3=Loy |first3=Chen Change |last4=Hospedales |first4=Timothy M. |date=May 2022 |title=Self-Supervised Representation Learning: Introduction, advances, and challenges |url=https://ieeexplore.ieee.org/document/9770283 |journal=IEEE Signal Processing Magazine |volume=39 |issue=3 |pages=42–62 |doi=10.1109/MSP.2021.3134634 |arxiv=2110.09327 |bibcode=2022ISPM...39c..42E |s2cid=239017006 |issn=1558-0792}}</ref> प्राचीन उदाहरणों में [[शब्द एम्बेडिंग]] और [[ ऑटोएन्कोडर |स्वतः कूटलेखन]] सम्मिलित हैं।<ref name=":3">{{Cite journal |last1=Mikolov |first1=Tomas |last2=Sutskever |first2=Ilya |last3=Chen |first3=Kai |last4=Corrado |first4=Greg S |last5=Dean |first5=Jeff |date=2013 |title=शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना|url=https://proceedings.neurips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html |journal=Advances in Neural Information Processing Systems |publisher=Curran Associates, Inc. |volume=26|arxiv=1310.4546 }}</ref><ref name=":1">Goodfellow, Ian (2016). ''Deep learning''. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. {{ISBN|0-262-03561-8}}. {{OCLC|955778308}}.</ref> तब से एसएसएल को [[संवादात्मक तंत्रिका नेटवर्क|CNNs]] और ट्रांसफॉर्मर जैसे गहरे तंत्रिका तंत्र वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।<ref name=":0" />


== पर्यवेक्षित ==
== पर्यवेक्षित ==
पर्यवेक्षित फ़ीचर सीखना लेबल किए गए डेटा से फ़ीचर सीखना है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में सीखने की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए फीडबैक के रूप में उपयोग किया जा सकता है। दृष्टिकोण में शामिल हैं:
पर्यवेक्षित फ़ीचर लर्निंग लेबल किए गए डेटा से फ़ीचर लर्निंग है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में लर्निंग की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए प्रतिपुष्टि के रूप में उपयोग किया जा सकता है। दृष्टिकोण में सम्मिलित हैं:


=== पर्यवेक्षित शब्दकोश सीखना ===
=== पर्यवेक्षित शब्दकोश लर्निंग===
शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारित योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए वजन पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और वजन पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य वजन होते हैं)।
शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारी योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए भार पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और भार पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य भार होते हैं)।


पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह<ref>{{cite journal|last1=Mairal|first1=Julien|last2=Bach|first2=Francis|last3=Ponce|first3=Jean|last4=Sapiro|first4=Guillermo|last5=Zisserman|first5=Andrew|title=पर्यवेक्षित शब्दकोश सीखना|journal=Advances in Neural Information Processing Systems|date=2009}}</ref> पर्यवेक्षित शब्दकोश सीखने की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए वजन और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश सीखने को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण शामिल होता है।
पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह<ref>{{cite journal|last1=Mairal|first1=Julien|last2=Bach|first2=Francis|last3=Ponce|first3=Jean|last4=Sapiro|first4=Guillermo|last5=Zisserman|first5=Andrew|title=पर्यवेक्षित शब्दकोश सीखना|journal=Advances in Neural Information Processing Systems|date=2009}}</ref> पर्यवेक्षित शब्दकोश लर्निंग की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए भार और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश लर्निंग को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण सम्मिलित होता है।


=== [[तंत्रिका नेटवर्क]]===
=== [[तंत्रिका नेटवर्क|तंत्रिका तंत्र]]===
तंत्रिका नेटवर्क सीखने के एल्गोरिदम का परिवार है जो अंतर-जुड़े नोड्स की कई परतों वाले "नेटवर्क" का उपयोग करता है। यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध वजन होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए कम्प्यूटेशनल नियमों को परिभाषित करता है। तंत्रिका नेटवर्क से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।
तंत्रिका तंत्र लर्निंग के एल्गोरिदम का परिवार है जो "तंत्र" का उपयोग करता है। जिसमें अंतर-जुड़े नोड्स की कई परतों वाले यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध भार होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए संगणनात्मक नियमों को परिभाषित करता है। तंत्रिका तंत्र से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।


बहुपरत तंत्रिका नेटवर्क का उपयोग फीचर सीखना करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क आर्किटेक्चर [[स्याम देश का तंत्रिका नेटवर्क|सियामी नेटवर्क]] है।
बहुपरत तंत्रिका तंत्र का उपयोग फ़ीचर लर्निंग करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला [[स्याम देश का तंत्रिका नेटवर्क|सियामी नेटवर्क]] है।


==अपर्यवेक्षित==
==अपर्यवेक्षित==
अनसुपरवाइज़्ड फ़ीचर सीखना, बिना लेबल वाले डेटा से फ़ीचर सीखना है। बिना पर्यवेक्षित फीचर सीखने का लक्ष्य अक्सर कम-आयामी सुविधाओं की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फीचर सीखना को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई सुविधाओं को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।
अपर्यवेक्षित फ़ीचर लर्निंग, बिना लेबल वाले डेटा से फ़ीचर लर्निंग है। बिना पर्यवेक्षित फ़ीचर लर्निंग का लक्ष्य प्रायः कम-आयामी फ़ीचर की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फ़ीचर लर्निंग को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह [[अर्ध-पर्यवेक्षित शिक्षण]] के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई फ़ीचर को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।<ref name="liang">{{cite thesis |type=M. Eng. |author=Percy Liang |year=2005 |title=प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण|publisher=[[Massachusetts Institute of Technology|MIT]] |url=http://people.csail.mit.edu/pliang/papers/meng-thesis.pdf |pages=44–52}}</ref><ref name="turian"/> निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।


=== के- का अर्थ है क्लस्टरिंग ===
=== के- का अर्थ है क्लस्टरिंग ===
के-का अर्थ क्लस्टरिंग वेक्टर परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से समूहित करती है कि प्रत्येक वेक्टर निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या कम्प्यूटेशनल रूप से [[ एनपी कठिन | एनपी हार्ड]] है, तथापि उप-इष्टतम [[लालची एल्गोरिदम]] विकसित किए गए हैं।
के-का अर्थ क्लस्टरिंग सदिश परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से वर्गीकृत करती है कि प्रत्येक सदिश निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या संगणनात्मक रूप से [[ एनपी कठिन |एनपी हार्ड]] है, तथापि उप-इष्टतम [[लालची एल्गोरिदम]] विकसित किए गए हैं।


के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर सुविधाओं का उत्पादन करने के लिए इन क्लस्टर के [[केन्द्रक]] का उपयोग किया जा सकता है। इन सुविधाओं को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।<ref name="coates2011"/> क्लस्टर की दूरी को सुविधाओं के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (एक तकनीक जिसका उपयोग [[रेडियल आधार फ़ंक्शन नेटवर्क]] को प्रशिक्षित करने के लिए किया गया है<ref name="schwenker">{{cite journal |last1=Schwenker |first1=Friedhelm |last2=Kestler |first2=Hans A. |last3=Palm |first3=Günther |title=रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण|journal=Neural Networks |volume=14 |issue=4–5 |pages=439–458 |year=2001 |citeseerx = 10.1.1.109.312 |doi=10.1016/s0893-6080(01)00027-2|pmid=11411631 }}</ref>) के माध्यम से परिवर्तित करने के बाद कोट्स और [[एंड्रयू एनजी|एनजी]] ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार [[विरल कोडिंग]] एल्गोरिदम के समान व्यवहार करते हैं।<ref name=Coates2012>{{cite encyclopedia |last1 = Coates |first1 = Adam |last2 = Ng |first2 = Andrew Y. |title=K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व|encyclopedia=Neural Networks: Tricks of the Trade |year = 2012 |publisher=Springer |editor=G. Montavon, G. B. Orr and [[Klaus-Robert Müller|K.-R. Müller]]}}</ref>
के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर फ़ीचर का उत्पादन करने के लिए इन क्लस्टर के [[केन्द्रक]] का उपयोग किया जा सकता है। इन फ़ीचर को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फ़ीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।<ref name="coates2011"/> क्लस्टर की दूरी को फ़ीचर के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (तकनीक जिसका उपयोग [[रेडियल आधार फ़ंक्शन नेटवर्क]] को प्रशिक्षित करने के लिए किया गया है<ref name="schwenker">{{cite journal |last1=Schwenker |first1=Friedhelm |last2=Kestler |first2=Hans A. |last3=Palm |first3=Günther |title=रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण|journal=Neural Networks |volume=14 |issue=4–5 |pages=439–458 |year=2001 |citeseerx = 10.1.1.109.312 |doi=10.1016/s0893-6080(01)00027-2|pmid=11411631 }}</ref>) k माध्यम से परिवर्तित करने के बाद कोट्स और [[एंड्रयू एनजी|एनजी]] ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार [[विरल कोडिंग]] एल्गोरिदम के समान व्यवहार करते हैं।<ref name=Coates2012>{{cite encyclopedia |last1 = Coates |first1 = Adam |last2 = Ng |first2 = Andrew Y. |title=K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व|encyclopedia=Neural Networks: Tricks of the Trade |year = 2012 |publisher=Springer |editor=G. Montavon, G. B. Orr and [[Klaus-Robert Müller|K.-R. Müller]]}}</ref>


बिना पर्यवेक्षित फीचर सीखने के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो-एनकोडर और आरबीएम से बेहतर प्रदर्शन करता है।<ref name="coates2011" /> के- का अर्थ [[प्राकृतिक भाषा प्रसंस्करण|एनएलपी]] के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से [[नामित-इकाई पहचान]] के लिए,<ref>{{cite conference |title=भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग|author1=Dekang Lin |author2=Xiaoyun Wu |conference=Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP |pages=1030–1038 |year=2009 |url=http://wmmks.csie.ncku.edu.tw/ACL-IJCNLP-2009/ACLIJCNLP/pdf/ACLIJCNLP116.pdf}}</ref> वहां, यह [[ भूरा क्लस्टरिंग |ब्राउन क्लस्टरिंग]] के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।<ref name="turian">{{cite conference |author1=Joseph Turian |author2=Lev Ratinov |author3=Yoshua Bengio |title=Word representations: a simple and general method for semi-supervised learning |conference=Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics |year=2010 |url=http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |access-date=2014-02-22 |archive-url=https://web.archive.org/web/20140226202823/http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |archive-date=2014-02-26 |url-status=dead }}</ref>
बिना पर्यवेक्षित फ़ीचर लर्निंग के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो- एन्कोडर और आरबीएम से बेहतर प्रदर्शन करता है।<ref name="coates2011" /> के- का अर्थ [[प्राकृतिक भाषा प्रसंस्करण|एनएलपी]] के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से [[नामित-इकाई पहचान]] के लिए,<ref>{{cite conference |title=भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग|author1=Dekang Lin |author2=Xiaoyun Wu |conference=Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP |pages=1030–1038 |year=2009 |url=http://wmmks.csie.ncku.edu.tw/ACL-IJCNLP-2009/ACLIJCNLP/pdf/ACLIJCNLP116.pdf}}</ref> वहां, यह [[ भूरा क्लस्टरिंग |ब्राउन क्लस्टरिंग]] के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।<ref name="turian">{{cite conference |author1=Joseph Turian |author2=Lev Ratinov |author3=Yoshua Bengio |title=Word representations: a simple and general method for semi-supervised learning |conference=Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics |year=2010 |url=http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |access-date=2014-02-22 |archive-url=https://web.archive.org/web/20140226202823/http://www.newdesign.aclweb.org/anthology/P/P10/P10-1040.pdf |archive-date=2014-02-26 |url-status=dead }}</ref>


=== प्रमुख घटक विश्लेषण ===
=== प्रमुख घटक विश्लेषण ===
प्रमुख घटक विश्लेषण (पीसीए) का उपयोग अक्सर आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के एक लेबल रहित सेट को देखते हुए, डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की केटी पंक्ति है kth इनपुट डेटा वेक्टर को नमूना माध्य और इनपुट के नमूना सहप्रसरण द्वारा स्थानांतरित किए गए है (अर्थात, डेटा वेक्टर से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनवेक्टर हैं। ये पी एकवचन वेक्टर इनपुट डेटा से सीखे गए फ़ीचर वेक्टर हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।
प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के लेबल रहित सेट को देखते हुए, पीसीए डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की kth पंक्ति है kth इनपुट डेटा सदिश को नमूना माध्य और इनपुट के नमूना माध्य द्वारा स्थानांतरित किए गए है (अर्थात, डेटा सदिश से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनसदिश हैं। ये पी एकवचन सदिश इनपुट डेटा से सीखे गए फ़ीचर सदिश हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।


पीसीए एक रैखिक सुविधा सीखने का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें [[eigenvector|आइजन्वेक्टर]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन वेक्टर को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन वेक्टर के रूप में पाया जाता है।
पीसीए रैखिक फ़ीचर लर्निंग का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (''i-1'')वें [[eigenvector|आइजन्सदिश]] पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन सदिश को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन सदिश के रूप में पाया जाता है।


पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।
पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।


=== स्थानीय रैखिक एम्बेडिंग ===
=== स्थानीय रैखिक एम्बेडिंग ===
[[अरेखीय आयामीता में कमी]] (एलएलई) उच्च-आयाम इनपुट (अनलेबल) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व '''उत्पन्न''' करने के लिए एक नॉनलाइनियर सीखने का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।<ref name="RowSau00">{{cite journal|last1=Roweis|first1=Sam T|last2=Saul|first2=Lawrence K|title=स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी|journal=Science |series=New Series|date=2000|volume=290|issue=5500|pages=2323–2326|doi=10.1126/science.290.5500.2323|jstor=3081722|pmid=11125150|bibcode=2000Sci...290.2323R|s2cid=5987139 }}</ref><ref name="SauRow00">{{cite journal|last1=Saul|first1=Lawrence K|last2=Roweis|first2=Sam T|title=स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय|date=2000|url=http://www.cs.toronto.edu/~roweis/lle/publications.html}}</ref> एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।
[[अरेखीय आयामीता में कमी|स्थानीय रैखिक एम्बेडिंग]] (एलएलई) उच्च-आयाम इनपुट (बिना लेबल लगा) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए गैर-रेखीय लर्निंग का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।<ref name="RowSau00">{{cite journal|last1=Roweis|first1=Sam T|last2=Saul|first2=Lawrence K|title=स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी|journal=Science |series=New Series|date=2000|volume=290|issue=5500|pages=2323–2326|doi=10.1126/science.290.5500.2323|jstor=3081722|pmid=11125150|bibcode=2000Sci...290.2323R|s2cid=5987139 }}</ref><ref name="SauRow00">{{cite journal|last1=Saul|first1=Lawrence K|last2=Roweis|first2=Sam T|title=स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय|date=2000|url=http://www.cs.toronto.edu/~roweis/lle/publications.html}}</ref> एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।


एलएलई में दो प्रमुख चरण होते हैं। पहला चरण पड़ोसी-संरक्षण के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी एल्गोरिदम डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (यानी, एक इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम वजन पाया जाता है, इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े वजन का योग एक तक होता है। दूसरा चरण आयाम में कमी के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित वजन का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित वजन के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।
एलएलई में दो प्रमुख चरण होते हैं। पहला चरण "पड़ोसी-संरक्षण" के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (अर्थात, इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम भार पाया जाता है। इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े भार का योग एक तक होता है। दूसरा चरण "आयाम में कमी" के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित भार का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित भार के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।


पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के आंतरिक ज्यामितीय गुणों को कैप्चर करते हैं।<ref name="SauRow00"/>यह माना जाता है कि मूल डेटा एक चिकनी निम्न-आयामी [[ कई गुना ]] पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए आंतरिक ज्यामितीय गुणों के भी मैनिफोल्ड पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।
पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के "आंतरिक ज्यामितीय गुणों" को कैप्चर करते हैं।<ref name="SauRow00"/> यह माना जाता है कि मूल डेटा चिकनी निम्न-आयामी [[ कई गुना |कई गुना]] पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए "आंतरिक ज्यामितीय गुणों" के भी कई गुना पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।


=== स्वतंत्र घटक विश्लेषण ===
=== स्वतंत्र घटक विश्लेषण ===
स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की एक तकनीक है।<ref>{{cite journal|last1=Hyvärinen|first1=Aapo|last2=Oja|first2=Erkki|title=Independent Component Analysis: Algorithms and Applications|journal=Neural Networks|date=2000|volume=13|issue=4|pages=411–430|doi= 10.1016/s0893-6080(00)00026-5|pmid=10946390|s2cid=11959218 }}</ref> गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक [[सामान्य वितरण]] वितरण का पालन करते हैं तो वजन विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।
स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के '''भारित''' योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की तकनीक है।<ref>{{cite journal|last1=Hyvärinen|first1=Aapo|last2=Oja|first2=Erkki|title=Independent Component Analysis: Algorithms and Applications|journal=Neural Networks|date=2000|volume=13|issue=4|pages=411–430|doi= 10.1016/s0893-6080(00)00026-5|pmid=10946390|s2cid=11959218 }}</ref> गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक [[सामान्य वितरण|गाऊसी वितरण]] वितरण का पालन करते हैं तो भार विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।


=== अप्रशिक्षित शब्दकोश सीखना ===
=== अपर्यवेक्षित शब्दकोश लर्निंग===


बिना पर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अनपर्यवेक्षित शब्दकोश सीखने का एक उदाहरण [[विरल शब्दकोश सीखना]] है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को सीखना है। अधिक पूर्ण शब्दकोशों को सीखने के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।<ref>{{cite journal|last1=Lee|first1=Honglak|last2=Battle|first2=Alexis|last3=Raina|first3=Rajat|last4=Ng|first4=Andrew Y|title=कुशल विरल कोडिंग एल्गोरिदम|journal=Advances in Neural Information Processing Systems|date=2007}}</ref> [[मीकल अहरोन]] और अन्य। तत्वों का एक शब्दकोश सीखने के लिए प्रस्तावित एल्गोरिथ्म [[K-SVD]] जो विरल प्रतिनिधित्व को सक्षम बनाता है।<ref>{{cite journal|last1=Aharon|first1=Michal|author1-link=Michal Aharon|last2=Elad|first2=Michael|last3=Bruckstein|first3=Alfred|title=K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation|journal=IEEE Trans. Signal Process.|date=2006|volume=54|issue=11|pages=4311–4322|doi=10.1109/TSP.2006.881199|bibcode=2006ITSP...54.4311A|s2cid=7477309 }}</ref>
अपर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अपर्यवेक्षित शब्दकोश लर्निंग का एक उदाहरण [[विरल शब्दकोश सीखना|विरल शब्दकोश लर्निंग]] है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को लर्निंग है। अधिक पूर्ण शब्दकोशों को लर्निंग के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।<ref>{{cite journal|last1=Lee|first1=Honglak|last2=Battle|first2=Alexis|last3=Raina|first3=Rajat|last4=Ng|first4=Andrew Y|title=कुशल विरल कोडिंग एल्गोरिदम|journal=Advances in Neural Information Processing Systems|date=2007}}</ref> [[मीकल अहरोन|अहरोन]] एट अल और अन्य तत्वों का एक शब्दकोश लर्निंग के लिए प्रस्तावित एल्गोरिथ्म [[K-SVD]] जो विरल प्रतिनिधित्व को सक्षम बनाता है।<ref>{{cite journal|last1=Aharon|first1=Michal|author1-link=Michal Aharon|last2=Elad|first2=Michael|last3=Bruckstein|first3=Alfred|title=K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation|journal=IEEE Trans. Signal Process.|date=2006|volume=54|issue=11|pages=4311–4322|doi=10.1109/TSP.2006.881199|bibcode=2006ITSP...54.4311A|s2cid=7477309 }}</ref>


 
== बहुपरत/गहरा वास्तुकला ==
== बहुपरत/गहरा आर्किटेक्चर ==
जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला लर्निंग के नोड्स की कई परतों को ढेर करके फ़ीचर लर्निंग के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये वास्तुकला प्रायः [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है।
 
जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला सीखने के नोड्स की कई परतों को ढेर करके फीचर सीखने के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।<ref>{{cite journal|last1=Bengio|first1=Yoshua|title=एआई के लिए डीप आर्किटेक्चर सीखना|journal=Foundations and Trends in Machine Learning|date=2009|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|s2cid=207178999 }}</ref> ये आर्किटेक्चर अक्सर [[वितरित प्रतिनिधित्व]] की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी सुविधा या प्रतिनिधित्व है।


=== [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] ===
=== [[प्रतिबंधित बोल्ट्ज़मैन मशीन]] ===
प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) का उपयोग अक्सर बहुपरत शिक्षण आर्किटेक्चर के लिए बिल्डिंग ब्लॉक के रूप में किया जाता है।<ref name="coates2011">{{cite conference
प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग की जाती है।<ref name="coates2011">{{cite conference
|last1 = Coates
|last1 = Coates
|first1 = Adam
|first1 = Adam
Line 90: Line 88:
|archive-date = 2017-08-13
|archive-date = 2017-08-13
|url-status = dead
|url-status = dead
}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid =  16873662| url  = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> एक आरबीएम को एक अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल]] अव्यक्त वैरिएबल का एक समूह, दृश्यमान वैरिएबल का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे शामिल होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन]] का एक विशेष मामला है जिसमें इंट्रा-नोड कनेक्शन की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा एक वजन से जुड़ा होता है। कनेक्शन के साथ वजन एक [[ऊर्जा समारोह]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की सुविधा प्रदान करती है।
}}</ref><ref name = Hinton2006>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना| doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid =  16873662| url  = http://www.cs.toronto.edu/~hinton/science.pdf| bibcode = 2006Sci...313..504H | s2cid = 1658773 }}</ref> आरबीएम को अप्रत्यक्ष [[द्विदलीय ग्राफ]] द्वारा दर्शाया जा सकता है जिसमें [[बाइनरी वैरिएबल|बाइनरी चर]] का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे सम्मिलित होते हैं। यह अधिक सामान्य [[बोल्ट्ज़मान मशीन|बोल्ट्ज़मैन मशीनों]] का विशेष मामला है जिसमें इंट्रा-नोड संपर्क की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा भार से जुड़ा होता है। संपर्क के साथ भार [[ऊर्जा समारोह|ऊर्जा फ़ंक्शन]] को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का [[संयुक्त वितरण]] तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।{{Clarify|reason=visible hidden?|date=June 2017}} ऐसी सशर्त स्वतंत्रता गणना की फ़ीचर प्रदान करती है।


आरबीएम को बिना पर्यवेक्षित फीचर सीखने के लिए सिंगल लेयर आर्किटेक्चर के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके वजन को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/>
आरबीएम को बिना पर्यवेक्षित फ़ीचर लर्निंग के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फ़ीचर डिटेक्टरों के अनुरूप होते हैं। [[जेफ्री हिंटन]] के [[विरोधाभासी विचलन]] (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके भार को प्रशिक्षित किया जा सकता है।<ref name = Hinton2006/>


सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)]] शब्द जोड़ा जाए, जो एक छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है <math>p</math>.
सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम<ref name = Lee2008>{{cite journal|last1=Lee|first1=Honglak|last2=Ekanadham|first2=Chaitanya|last3=Andrew|first3=Ng|title=Sparse deep belief net model for visual area V2|journal=Advances in Neural Information Processing Systems|date=2008}}</ref> को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक [[नियमितीकरण (गणित)|नियमितीकरण]] शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है <math>p</math>.


=== ऑटोएन्कोडर ===
=== ऑटोएन्कोडर ===
एक एनकोडर और एक डिकोडर से युक्त ऑटोएनकोडर गहन शिक्षण आर्किटेक्चर के लिए एक प्रतिमान है। एक उदाहरण हिंटन और सलाखुतदीनोव द्वारा प्रदान किया गया है<ref name = Hinton2006/>जहां एनकोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एनकोडर से निकाले गए फीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। एनकोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। आर्किटेक्चर में शामिल मापदंडों को मूल रूप से एक लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था: फीचर डिटेक्टरों की एक परत सीखने के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण आमतौर पर [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।
एन्कोडर और डिकोडर से युक्त ऑटोएन्कोडर गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा उदाहरण प्रदान किया गया है<ref name = Hinton2006/> जहां एन्कोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फ़ीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एन्कोडर से निकाले गए फ़ीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में एन्कोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में सम्मिलित मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फ़ीचर डिटेक्टरों की परत लर्निंग के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः [[स्टोकेस्टिक ग्रेडिएंट डिसेंट|स्टोकेस्टिक ढाल चढ़ाई]] विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।


== स्व-पर्यवेक्षित ==
== स्व-पर्यवेक्षित ==
स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण [[ ढतला हुआ वंश ]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय बिना लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा सुविधाओं को सीखना है। इस दृष्टिकोण ने गहरे फीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका नेटवर्क आर्किटेक्चर और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" />प्रशिक्षण कार्य आम तौर पर या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा आम तौर पर आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" />जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" />
स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण [[ ढतला हुआ वंश |सूचना संकेत]] के लिए स्पष्ट लेबल पर निर्भर होने के बजाय गैर- लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा फ़ीचर को लर्निंग है। इस दृष्टिकोण ने गहरे फ़ीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका तंत्र वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।<ref name=":0" /> प्रशिक्षण कार्य सामान्यतः या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।<ref name=":2">{{Cite journal |last1=Liu |first1=Xiao |last2=Zhang |first2=Fanjin |last3=Hou |first3=Zhenyu |last4=Mian |first4=Li |last5=Wang |first5=Zhaoyu |last6=Zhang |first6=Jing |last7=Tang |first7=Jie |date=2021 |title=Self-supervised Learning: Generative or Contrastive |url=https://ieeexplore.ieee.org/document/9462394 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=35 |issue=1 |pages=857–876 |doi=10.1109/TKDE.2021.3090866 |arxiv=2006.08218 |s2cid=219687051 |issn=1558-2191}}</ref> विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा सामान्यतः आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।<ref name=":0" /> जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।<ref name=":2" />


एक निश्चित डेटा प्रकार (जैसे पाठ, छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" />संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका नेटवर्क प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी सुविधाओं के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" />किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता आमतौर पर पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" />
एक निश्चित डेटा प्रकार (जैसे टेक्स्ट , छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व लर्निंग के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।<ref name=":1" /> संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका तंत्र प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी फ़ीचर के एक सेट में परिवर्तित करने में सक्षम है।<ref name=":0" /> किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।<ref name=":1" />


विभिन्न तौर-तरीकों (मानव-कंप्यूटर इंटरैक्शन) के प्रतिनिधित्व सीखने में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो अक्सर अन्य डेटा प्रकारों में स्थानांतरित होने से पहले पाठ या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" />
विभिन्न तौर-तरीकों के प्रतिनिधित्व लर्निंग में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले टेक्स्ट  या छवि में सफल अनुप्रयोग दिखाती हैं।<ref name=":0" />


=== टेक्स्ट ===
[[Word2vec]] एक शब्द एम्बेडिंग तकनीक है जो टेक्स्ट  के एक बड़े संग्रह में स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है।<ref name=":4">{{cite arXiv |last1=Mikolov |first1=Tomas |last2=Chen |first2=Kai |last3=Corrado |first3=Greg |last4=Dean |first4=Jeffrey |date=2013-09-06 |title=वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान|class=cs.CL |eprint=1301.3781 }}</ref> मॉडल में शब्द सदिश अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव।<ref name=":2" /> पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है।<ref name=":4" /> दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है।<ref name=":3" /> Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं।<ref name=":0" /> जीपीटी संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द की भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित देता है,<ref>[https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf "Improving Language Understanding by Generative Pre-Training"] (PDF). Retrieved October 10, 2022.</ref> जबकि बीईआरटी (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को पृथक करता है।<ref name=":7">{{Cite journal |last1=Devlin |first1=Jacob |last2=Chang |first2=Ming-Wei |last3=Lee |first3=Kenton |last4=Toutanova |first4=Kristina |date=June 2019 |title=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding |url=https://aclanthology.org/N19-1423 |journal=Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) |location=Minneapolis, Minnesota |publisher=Association for Computational Linguistics |pages=4171–4186 |doi=10.18653/v1/N19-1423|s2cid=52967399 }}</ref>


अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में [[वाक्य एम्बेडिंग]] या पैराग्राफ जैसी बड़ी टेक्स्ट संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं।<ref name=":0" /> [[Doc2Vec]] शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में  सामान्य प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।<ref>{{Cite journal |last1=Le |first1=Quoc |last2=Mikolov |first2=Tomas |date=2014-06-18 |title=वाक्यों और दस्तावेज़ों का वितरित प्रतिनिधित्व|url=https://proceedings.mlr.press/v32/le14.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1188–1196|arxiv=1405.4053 }}</ref>


=== पाठ ===
=== छवि ===
[[Word2vec]] एक शब्द एम्बेडिंग तकनीक है जो पाठ के एक बड़े संग्रह में एक स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है।<ref name=":4">{{cite arXiv |last1=Mikolov |first1=Tomas |last2=Chen |first2=Kai |last3=Corrado |first3=Greg |last4=Dean |first4=Jeffrey |date=2013-09-06 |title=वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान|class=cs.CL |eprint=1301.3781 }}</ref> मॉडल में शब्द वेक्टर अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव।<ref name=":2" />पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है।<ref name=":4" />दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है।<ref name=":3" />Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं।<ref name=":0" />संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित ट्रांसफार्मर प्रीट्रेन,<ref>[https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf "Improving Language Understanding by Generative Pre-Training"] (PDF). Retrieved October 10, 2022.</ref> जबकि BERT (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को मास्क करता है।<ref name=":7">{{Cite journal |last1=Devlin |first1=Jacob |last2=Chang |first2=Ming-Wei |last3=Lee |first3=Kenton |last4=Toutanova |first4=Kristina |date=June 2019 |title=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding |url=https://aclanthology.org/N19-1423 |journal=Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) |location=Minneapolis, Minnesota |publisher=Association for Computational Linguistics |pages=4171–4186 |doi=10.18653/v1/N19-1423|s2cid=52967399 }}</ref>
छवि प्रतिनिधित्व लर्निंग के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है, जिनमें परिवर्तन,<ref>Spyros Gidaris, Praveer Singh, and Nikos Komodakis. [https://openreview.net/pdf?id=S1v4N2l0- Unsupervised representation learning by predicting image rotations.] In ICLR, 2018.</ref> चित्रकारी,<ref name=":5">{{Cite journal |last1=Pathak |first1=Deepak |last2=Krahenbuhl |first2=Philipp |last3=Donahue |first3=Jeff |last4=Darrell |first4=Trevor |last5=Efros |first5=Alexei A. |date=2016 |title=Context Encoders: Feature Learning by Inpainting |url=https://openaccess.thecvf.com/content_cvpr_2016/html/Pathak_Context_Encoders_Feature_CVPR_2016_paper.html |pages=2536–2544|arxiv=1604.07379 }}</ref> पैच भेदभाव<ref name=":6">{{Cite journal |last1=Chen |first1=Ting |last2=Kornblith |first2=Simon |last3=Norouzi |first3=Mohammad |last4=Hinton |first4=Geoffrey |date=2020-11-21 |title=दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा|url=https://proceedings.mlr.press/v119/chen20j.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1597–1607}}</ref> और क्लस्टरिंग सम्मिलित हैं।<ref>{{Cite journal |last1=Mathilde |first1=Caron |last2=Ishan |first2=Misra |last3=Julien |first3=Mairal |last4=Priya |first4=Goyal |last5=Piotr |first5=Bojanowski |last6=Armand |first6=Joulin |date=2020 |title=कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा|url=https://proceedings.neurips.cc/paper/2020/hash/70feb62b69f16e0238f741fab228fec2-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.09882 }}</ref>
अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में [[वाक्य एम्बेडिंग]] या पैराग्राफ जैसी बड़ी पाठ संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं।<ref name=":0" />[[Doc2Vec]] शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में जेनेरिक प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।<ref>{{Cite journal |last1=Le |first1=Quoc |last2=Mikolov |first2=Tomas |date=2014-06-18 |title=वाक्यों और दस्तावेज़ों का वितरित प्रतिनिधित्व|url=https://proceedings.mlr.press/v32/le14.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1188–1196|arxiv=1405.4053 }}</ref>
 


=== छवि ===
सामान्य दृष्टिकोण के उदाहरण प्रसंग  एन्कोडर हैं, जो इनपुट के रूप में अप्रत्यक्ष छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] सीएनएन वास्तुकला को प्रशिक्षित करते हैं,<ref name=":5" /> और आईजीपीटी, जो छवि प्रस्ताव को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2|जीपीटी-2]] भाषा मॉडल वास्तुकला लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref>
छवि प्रतिनिधित्व सीखने के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है,<ref>Spyros Gidaris, Praveer Singh, and Nikos Komodakis. [https://openreview.net/pdf?id=S1v4N2l0- Unsupervised representation learning by predicting image rotations.] In ICLR, 2018.</ref> चित्रकारी,<ref name=":5">{{Cite journal |last1=Pathak |first1=Deepak |last2=Krahenbuhl |first2=Philipp |last3=Donahue |first3=Jeff |last4=Darrell |first4=Trevor |last5=Efros |first5=Alexei A. |date=2016 |title=Context Encoders: Feature Learning by Inpainting |url=https://openaccess.thecvf.com/content_cvpr_2016/html/Pathak_Context_Encoders_Feature_CVPR_2016_paper.html |pages=2536–2544|arxiv=1604.07379 }}</ref> पैच भेदभाव<ref name=":6">{{Cite journal |last1=Chen |first1=Ting |last2=Kornblith |first2=Simon |last3=Norouzi |first3=Mohammad |last4=Hinton |first4=Geoffrey |date=2020-11-21 |title=दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा|url=https://proceedings.mlr.press/v119/chen20j.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1597–1607}}</ref> और क्लस्टरिंग.<ref>{{Cite journal |last1=Mathilde |first1=Caron |last2=Ishan |first2=Misra |last3=Julien |first3=Mairal |last4=Priya |first4=Goyal |last5=Piotr |first5=Bojanowski |last6=Armand |first6=Joulin |date=2020 |title=कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा|url=https://proceedings.neurips.cc/paper/2020/hash/70feb62b69f16e0238f741fab228fec2-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.09882 }}</ref>
जेनेरिक दृष्टिकोण के उदाहरण कॉन्टेक्स्ट एनकोडर हैं, जो इनपुट के रूप में नकाबपोश छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए [[एलेक्सनेट]] कन्वोल्यूशनल  तंत्रिका नेटवर्क आर्किटेक्चर को प्रशिक्षित करते हैं।<ref name=":5" />और iGPT, जो छवि रिज़ॉल्यूशन को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर [[GPT-2]] भाषा मॉडल आर्किटेक्चर लागू करता है।<ref>{{Cite journal |last1=Chen |first1=Mark |last2=Radford |first2=Alec |last3=Child |first3=Rewon |last4=Wu |first4=Jeffrey |last5=Jun |first5=Heewoo |last6=Luan |first6=David |last7=Sutskever |first7=Ilya |date=2020-11-21 |title=पिक्सेल से जेनरेटिव प्रीट्रेनिंग|url=https://proceedings.mlr.press/v119/chen20s.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=1691–1703}}</ref>
कई अन्य स्व-पर्यवेक्षित विधियां [[ स्याम देश के नेटवर्क ]] का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।<ref>{{Cite journal |last1=Chen |first1=Xinlei |last2=He |first2=Kaiming |date=2021 |title=सरल स्याम देश प्रतिनिधित्व सीखने की खोज|url=https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.html |language=en |pages=15750–15758|arxiv=2011.10566 }}</ref> सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो [[अवशिष्ट तंत्रिका नेटवर्क]] कन्वोल्यूशनल तंत्रिका नेटवर्क के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।<ref name=":6" />बूटस्ट्रैप योर ओन लेटेंट (BYOL) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ एक दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।<ref>{{Cite journal |last1=Jean-Bastien |first1=Grill |last2=Florian |first2=Strub |last3=Florent |first3=Altché |last4=Corentin |first4=Tallec |last5=Pierre |first5=Richemond |last6=Elena |first6=Buchatskaya |last7=Carl |first7=Doersch |last8=Bernardo |first8=Avila Pires |last9=Zhaohan |first9=Guo |last10=Mohammad |first10=Gheshlaghi Azar |last11=Bilal |first11=Piot |last12=koray |first12=kavukcuoglu |last13=Remi |first13=Munos |last14=Michal |first14=Valko |date=2020 |title=बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण|url=https://proceedings.neurips.cc/paper/2020/hash/f3ada80d5c4ee70142b17b8192b2958e-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33}}</ref>


कई अन्य स्व-पर्यवेक्षित विधियां [[ स्याम देश के नेटवर्क |सियामी नेटवर्क]] का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।<ref>{{Cite journal |last1=Chen |first1=Xinlei |last2=He |first2=Kaiming |date=2021 |title=सरल स्याम देश प्रतिनिधित्व सीखने की खोज|url=https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.html |language=en |pages=15750–15758|arxiv=2011.10566 }}</ref> सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो [[अवशिष्ट तंत्रिका नेटवर्क|रेसनेट]] सीएनएन के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।<ref name=":6" /> बूटस्ट्रैप योर ओन लेटेंट (बीवाईओएल) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ  दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।<ref>{{Cite journal |last1=Jean-Bastien |first1=Grill |last2=Florian |first2=Strub |last3=Florent |first3=Altché |last4=Corentin |first4=Tallec |last5=Pierre |first5=Richemond |last6=Elena |first6=Buchatskaya |last7=Carl |first7=Doersch |last8=Bernardo |first8=Avila Pires |last9=Zhaohan |first9=Guo |last10=Mohammad |first10=Gheshlaghi Azar |last11=Bilal |first11=Piot |last12=koray |first12=kavukcuoglu |last13=Remi |first13=Munos |last14=Michal |first14=Valko |date=2020 |title=बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण|url=https://proceedings.neurips.cc/paper/2020/hash/f3ada80d5c4ee70142b17b8192b2958e-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33}}</ref>


=== ग्राफ़ ===
=== ग्राफ़ ===
कई [[ग्राफ़ (कंप्यूटर विज्ञान)]] प्रतिनिधित्व सीखने की तकनीकों का लक्ष्य समग्र टोपोलॉजिकल ग्राफ़ सिद्धांत के आधार पर प्रत्येक [[वर्टेक्स (ग्राफ़ सिद्धांत)]] का एक एम्बेडेड प्रतिनिधित्व तैयार करना है।<ref>{{Cite journal |last1=Cai |first1=HongYun |last2=Zheng |first2=Vincent W. |last3=Chang |first3=Kevin Chen-Chuan |date=September 2018 |title=A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications |url=https://ieeexplore.ieee.org/document/8294302 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=30 |issue=9 |pages=1616–1637 |doi=10.1109/TKDE.2018.2807452 |arxiv=1709.07604 |s2cid=13999578 |issn=1558-2191}}</ref> [[node2vec]] एसोसिएशन के माप के रूप में ग्राफ़ के माध्यम से यादृच्छिक चलने में सह-घटना का उपयोग करके Word2vec प्रशिक्षण तकनीक को ग्राफ़ में नोड्स तक विस्तारित करता है।<ref>{{Cite journal |last1=Grover |first1=Aditya |last2=Leskovec |first2=Jure |date=2016-08-13 |title=node2vec: Scalable Feature Learning for Networks |url=https://doi.org/10.1145/2939672.2939754 |journal=Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining |series=KDD '16 |volume=2016 |location=New York, NY, USA |publisher=Association for Computing Machinery |pages=855–864 |doi=10.1145/2939672.2939754 |isbn=978-1-4503-4232-2 |pmc=5108654 |pmid=27853626}}</ref> एक अन्य दृष्टिकोण ग्राफ़ के भीतर संबंधित संरचनाओं के प्रतिनिधित्व के बीच पारस्परिक जानकारी, समानता का एक उपाय, को अधिकतम करना है।<ref name=":0" />एक उदाहरण डीप ग्राफ इन्फोमैक्स है, जो प्रत्येक नोड के चारों ओर एक "पैच" के प्रतिनिधित्व और पूरे ग्राफ के सारांश प्रतिनिधित्व के बीच पारस्परिक जानकारी के आधार पर विरोधाभासी स्व-पर्यवेक्षण का उपयोग करता है। मल्टीग्राफ प्रशिक्षण सेटिंग में ग्राफ़ प्रतिनिधित्व को किसी अन्य ग्राफ़ के प्रतिनिधित्व के साथ जोड़कर, या एकल ग्राफ़ प्रशिक्षण में दूषित पैच प्रतिनिधित्व को जोड़कर नकारात्मक नमूने प्राप्त किए जाते हैं।<ref>Velikovi, P., Fedus, W., Hamilton, W. L., Li, P., Bengio, Y., and Hjelm, R. D. [https://openreview.net/pdf?id=rklz9iAcKQ Deep Graph InfoMax.] In International Conference on Learning Representations (ICLR’2019), 2019.</ref>
कई [[ग्राफ़ (कंप्यूटर विज्ञान)|ग्राफ़]] प्रतिनिधित्व लर्निंग की तकनीकों का लक्ष्य समग्र नेटवर्क टोपोलॉजिकल ग्राफ़ सिद्धांत के आधार पर प्रत्येक [[वर्टेक्स (ग्राफ़ सिद्धांत)|नोड]] का एक एम्बेडेड प्रतिनिधित्व तैयार करना है।<ref>{{Cite journal |last1=Cai |first1=HongYun |last2=Zheng |first2=Vincent W. |last3=Chang |first3=Kevin Chen-Chuan |date=September 2018 |title=A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications |url=https://ieeexplore.ieee.org/document/8294302 |journal=IEEE Transactions on Knowledge and Data Engineering |volume=30 |issue=9 |pages=1616–1637 |doi=10.1109/TKDE.2018.2807452 |arxiv=1709.07604 |s2cid=13999578 |issn=1558-2191}}</ref> [[node2vec|नोड2वेक]] एसोसिएशन के माप के रूप में ग्राफ़ के माध्यम से यादृच्छिक चलने में सह-घटना का उपयोग करके वर्ड2वेक प्रशिक्षण तकनीक को ग्राफ़ में नोड्स तक विस्तारित करता है।<ref>{{Cite journal |last1=Grover |first1=Aditya |last2=Leskovec |first2=Jure |date=2016-08-13 |title=node2vec: Scalable Feature Learning for Networks |url=https://doi.org/10.1145/2939672.2939754 |journal=Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining |series=KDD '16 |volume=2016 |location=New York, NY, USA |publisher=Association for Computing Machinery |pages=855–864 |doi=10.1145/2939672.2939754 |isbn=978-1-4503-4232-2 |pmc=5108654 |pmid=27853626}}</ref> अन्य दृष्टिकोण ग्राफ़ के भीतर संबंधित संरचनाओं के प्रतिनिधित्व के बीच पारस्परिक जानकारी, समानता का एक उपाय, को अधिकतम करना है।<ref name=":0" /> उदाहरण डीप ग्राफ इन्फोमैक्स है, जो प्रत्येक नोड के चारों ओर "पैच" के प्रतिनिधित्व और पूरे ग्राफ के सारांश प्रतिनिधित्व के बीच पारस्परिक जानकारी के आधार पर विरोधाभासी स्व-पर्यवेक्षण का उपयोग करता है। मल्टीग्राफ प्रशिक्षण सेटिंग में ग्राफ़ प्रतिनिधित्व को किसी अन्य ग्राफ़ के प्रतिनिधित्व के साथ जोड़कर, या एकल ग्राफ़ प्रशिक्षण में दूषित पैच प्रतिनिधित्व को जोड़कर नकारात्मक नमूने प्राप्त किए जाते हैं।<ref>Velikovi, P., Fedus, W., Hamilton, W. L., Li, P., Bengio, Y., and Hjelm, R. D. [https://openreview.net/pdf?id=rklz9iAcKQ Deep Graph InfoMax.] In International Conference on Learning Representations (ICLR’2019), 2019.</ref>
 


=== वीडियो ===
=== वीडियो ===
नकाबपोश भविष्यवाणी में समान परिणामों के साथ<ref>{{Cite journal |last1=Luo |first1=Dezhao |last2=Liu |first2=Chang |last3=Zhou |first3=Yu |last4=Yang |first4=Dongbao |last5=Ma |first5=Can |last6=Ye |first6=Qixiang |last7=Wang |first7=Weiping |date=2020-04-03 |title=स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया|url=https://ojs.aaai.org/index.php/AAAI/article/view/6840 |journal=Proceedings of the AAAI Conference on Artificial Intelligence |language=en |volume=34 |issue=7 |pages=11701–11708 |doi=10.1609/aaai.v34i07.6840 |s2cid=209531629 |issn=2374-3468|doi-access=free }}</ref> और क्लस्टरिंग,<ref>{{Cite journal |last1=Humam |first1=Alwassel |last2=Dhruv |first2=Mahajan |last3=Bruno |first3=Korbar |last4=Lorenzo |first4=Torresani |last5=Bernard |first5=Ghanem |last6=Du |first6=Tran |date=2020 |title=क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण|url=https://proceedings.neurips.cc/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=1911.12667 }}</ref> वीडियो प्रतिनिधित्व सीखने के दृष्टिकोण अक्सर छवि तकनीकों के समान होते हैं लेकिन अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी शामिल है, जो वीडियो क्लिप को मास्क करता है और क्लिप विकल्पों के एक सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक फेरबदल सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3 डी-सीएनएन को प्रशिक्षित करता है।<ref>{{Cite book |last1=Xu |first1=Dejing |last2=Xiao |first2=Jun |last3=Zhao |first3=Zhou |last4=Shao |first4=Jian |last5=Xie |first5=Di |last6=Zhuang |first6=Yueting |title=2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) |chapter=Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction |date=June 2019 |chapter-url=https://ieeexplore.ieee.org/document/8953292 |pages=10326–10335 |doi=10.1109/CVPR.2019.01058|isbn=978-1-7281-3293-8 |s2cid=195504152 }}</ref>
अप्रत्यक्ष भविष्यवाणी<ref>{{Cite journal |last1=Luo |first1=Dezhao |last2=Liu |first2=Chang |last3=Zhou |first3=Yu |last4=Yang |first4=Dongbao |last5=Ma |first5=Can |last6=Ye |first6=Qixiang |last7=Wang |first7=Weiping |date=2020-04-03 |title=स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया|url=https://ojs.aaai.org/index.php/AAAI/article/view/6840 |journal=Proceedings of the AAAI Conference on Artificial Intelligence |language=en |volume=34 |issue=7 |pages=11701–11708 |doi=10.1609/aaai.v34i07.6840 |s2cid=209531629 |issn=2374-3468|doi-access=free }}</ref> और क्लस्टरिंग में समान परिणामों के साथ,<ref>{{Cite journal |last1=Humam |first1=Alwassel |last2=Dhruv |first2=Mahajan |last3=Bruno |first3=Korbar |last4=Lorenzo |first4=Torresani |last5=Bernard |first5=Ghanem |last6=Du |first6=Tran |date=2020 |title=क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण|url=https://proceedings.neurips.cc/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=1911.12667 }}</ref> वीडियो प्रतिनिधित्व लर्निंग के दृष्टिकोण प्रायः छवि तकनीकों के समान होते हैं परंतु अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी सम्मिलित है, जो वीडियो क्लिप को पृथक करता है और क्लिप विकल्पों के सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक अलग सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3डी-सीएनएन को प्रशिक्षित करते है।<ref>{{Cite book |last1=Xu |first1=Dejing |last2=Xiao |first2=Jun |last3=Zhao |first3=Zhou |last4=Shao |first4=Jian |last5=Xie |first5=Di |last6=Zhuang |first6=Yueting |title=2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) |chapter=Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction |date=June 2019 |chapter-url=https://ieeexplore.ieee.org/document/8953292 |pages=10326–10335 |doi=10.1109/CVPR.2019.01058|isbn=978-1-7281-3293-8 |s2cid=195504152 }}</ref>
 


=== ऑडियो ===
=== ऑडियो ===
स्व-पर्यवेक्षित प्रतिनिधित्व तकनीकों को कई ऑडियो डेटा प्रारूपों पर भी लागू किया गया है, विशेष रूप से [[भाषण प्रसंस्करण]] के लिए।<ref name=":0" />Wav2vec 2.0 टेम्पोरल कन्वोल्यूशनल  तंत्रिका नेटवर्क के माध्यम से [[ तरंग ]] को टाइमस्टेप्स में विभाजित करता है, और फिर एक विपरीत हानि का उपयोग करके यादृच्छिक टाइमस्टेप्स की छिपी हुई भविष्यवाणी पर एक ट्रांसफार्मर (मशीन सीखना मॉडल) को प्रशिक्षित करता है।<ref name=":8">{{Cite journal |last1=Alexei |first1=Baevski |last2=Yuhao |first2=Zhou |last3=Abdelrahman |first3=Mohamed |last4=Michael |first4=Auli |date=2020 |title=wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations |url=https://proceedings.neurips.cc/paper/2020/hash/92d1e1eb1cd6f9fba3227870bb6d7f07-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.11477 }}</ref> यह BERT (भाषा मॉडल) के समान है, वीडियो के लिए कई SSL दृष्टिकोणों को छोड़कर, मॉडल संपूर्ण शब्द शब्दावली के बजाय विकल्पों के एक सेट में से चयन करता है।<ref name=":7" /><ref name=":8" />
स्व-पर्यवेक्षित प्रतिनिधित्व तकनीकों को कई ऑडियो डेटा प्रारूपों पर भी लागू किया गया है, विशेष रूप से [[भाषण प्रसंस्करण]] के लिए।<ref name=":0" /> Wav2vec 2.0 अस्थायी कनवल्शन तंत्रिका तंत्र के माध्यम से ऑडियो [[ तरंग |तरंग]] को टाइमस्टेप में विभाजित करता है, और फिर विपरीत हानि का उपयोग करके यादृच्छिक टाइमस्टेप्स की छिपी हुई भविष्यवाणी पर ट्रांसफार्मर (मशीन लर्निंग मॉडल) को प्रशिक्षित करता है।<ref name=":8">{{Cite journal |last1=Alexei |first1=Baevski |last2=Yuhao |first2=Zhou |last3=Abdelrahman |first3=Mohamed |last4=Michael |first4=Auli |date=2020 |title=wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations |url=https://proceedings.neurips.cc/paper/2020/hash/92d1e1eb1cd6f9fba3227870bb6d7f07-Abstract.html |journal=Advances in Neural Information Processing Systems |language=en |volume=33|arxiv=2006.11477 }}</ref> यह बीईआरटी भाषा मॉडल के समान है, वीडियो के लिए कई एसएसएल दृष्टिकोणों को छोड़कर, मॉडल संपूर्ण शब्द शब्दावली के बजाय विकल्पों के एक सेट में से चयन करता है।<ref name=":7" /><ref name=":8" />


=== बहुविध ===
स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।<ref name=":0" /> दृष्टिकोण सामान्यतः अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,<ref name=":9">{{Cite journal |last1=Zellers |first1=Rowan |last2=Lu |first2=Jiasen |last3=Lu |first3=Ximing |last4=Yu |first4=Youngjae |last5=Zhao |first5=Yanpeng |last6=Salehi |first6=Mohammadreza |last7=Kusupati |first7=Aditya |last8=Hessel |first8=Jack |last9=Farhadi |first9=Ali |last10=Choi |first10=Yejin |date=2022 |title=MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound |url=https://openaccess.thecvf.com/content/CVPR2022/html/Zellers_MERLOT_Reserve_Neural_Script_Knowledge_Through_Vision_and_Language_and_CVPR_2022_paper.html |language=en |pages=16375–16387|arxiv=2201.02639 }}</ref> या छवियों का वर्णन करने के लिए लिखे गए कैप्शन। सीएलआईपी कंट्रास्टिव हानि का उपयोग करके शीर्षक जोड़े के बड़े डेटासेट से छवि और टेक्स्ट संकेतीकरण को संरेखित करने के लिए प्रशिक्षण द्वारा संयुक्त छवि-टेक्स्ट प्रतिनिधित्व स्थान का तैयार करता है। एमईआरएलओटी रिजर्व <ref name="Radford 8748–8763">{{Cite journal |last1=Radford |first1=Alec |last2=Kim |first2=Jong Wook |last3=Hallacy |first3=Chris |last4=Ramesh |first4=Aditya |last5=Goh |first5=Gabriel |last6=Agarwal |first6=Sandhini |last7=Sastry |first7=Girish |last8=Askell |first8=Amanda |last9=Mishkin |first9=Pamela |last10=Clark |first10=Jack |last11=Krueger |first11=Gretchen |last12=Sutskever |first12=Ilya |date=2021-07-01 |title=Learning Transferable Visual Models From Natural Language Supervision |url=https://proceedings.mlr.press/v139/radford21a.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=8748–8763|arxiv=2103.00020 }}</ref>3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए ट्रांसफार्मर-आधारित एन्कोडर को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी अप्रत्यक्ष भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, के साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण के साथ<ref name=":9" />


=== मल्टीमॉडल ===
बहुविध प्रतिनिधित्व मॉडल सामान्यतः विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण प्रायः शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट  "कुत्ते" को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और इसलिए कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन दिया जा सकता है। स्वीरों के साथ जोड़ा जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि टेक्स्ट से छवि पीढ़ी के लिए [[DALL-E]]-2 में।<ref>{{cite arXiv |last1=Ramesh |first1=Aditya |last2=Dhariwal |first2=Prafulla |last3=Nichol |first3=Alex |last4=Chu |first4=Casey |last5=Chen |first5=Mark |date=2022-04-12 |title=Hierarchical Text-Conditional Image Generation with CLIP Latents |class=cs.CV |eprint=2204.06125 }}</ref>
स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।<ref name=":0" />दृष्टिकोण आम तौर पर एक अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,<ref name=":9">{{Cite journal |last1=Zellers |first1=Rowan |last2=Lu |first2=Jiasen |last3=Lu |first3=Ximing |last4=Yu |first4=Youngjae |last5=Zhao |first5=Yanpeng |last6=Salehi |first6=Mohammadreza |last7=Kusupati |first7=Aditya |last8=Hessel |first8=Jack |last9=Farhadi |first9=Ali |last10=Choi |first10=Yejin |date=2022 |title=MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound |url=https://openaccess.thecvf.com/content/CVPR2022/html/Zellers_MERLOT_Reserve_Neural_Script_Knowledge_Through_Vision_and_Language_and_CVPR_2022_paper.html |language=en |pages=16375–16387|arxiv=2201.02639 }}</ref> या छवियों का वर्णन करने के लिए लिखे गए कैप्शन।<रेफ नाम = रैडफोर्ड 8748-8763 >{{Cite journal |last1=Radford |first1=Alec |last2=Kim |first2=Jong Wook |last3=Hallacy |first3=Chris |last4=Ramesh |first4=Aditya |last5=Goh |first5=Gabriel |last6=Agarwal |first6=Sandhini |last7=Sastry |first7=Girish |last8=Askell |first8=Amanda |last9=Mishkin |first9=Pamela |last10=Clark |first10=Jack |last11=Krueger |first11=Gretchen |last12=Sutskever |first12=Ilya |date=2021-07-01 |title=प्राकृतिक भाषा पर्यवेक्षण से हस्तांतरणीय दृश्य मॉडल सीखना|url=https://proceedings.mlr.press/v139/radford21a.html |journal=International Conference on Machine Learning |language=en |publisher=PMLR |pages=8748–8763|arxiv=2103.00020 }}</ref> CLIP एक विपरीत हानि का उपयोग करके छवि-कैप्शन जोड़े के एक बड़े डेटासेट से छवि और पाठ एन्कोडिंग को संरेखित करने के लिए प्रशिक्षण द्वारा एक संयुक्त छवि-पाठ प्रतिनिधित्व स्थान का निर्माण करता है। <ref नाम = रैडफोर्ड 8748-8763 /> MERLOT रिजर्व 3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के एक बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए एक ट्रांसफार्मर-आधारित एनकोडर को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी नकाबपोश भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण।<ref name=":9" />
== गतिक प्रतिनिधित्व लर्निंग ==
गतिक प्रतिनिधित्व लर्निंग के तरीके[48] गतिक नेटवर्क जैसे गतिक प्रणालियों के लिए गुप्त एम्बेडिंग उत्पन्न करते हैं। चूँकि विशेष रैखिक परिवर्तनों के तहत विशेष दूरी के कार्य अपरिवर्तनीय होते हैं, एम्बेडिंग वैक्टर के विभिन्न सेट वास्तव में समान/समान जानकारी का प्रतिनिधित्व कर सकते हैं। इसलिए, गतिक प्रणाली के लिए, इसके एम्बेडिंग में अस्थायी अंतर को प्रणाली में मनमाने परिवर्तनों और/या वास्तविक परिवर्तनों के कारण एम्बेडिंग के गलत संरेखण द्वारा समझाया जा सकता है [49]। इसलिए, सामान्यतः बोलते हुए, गतिक प्रतिनिधित्व लर्निंग के तरीकों के माध्यम से सीखे गए अस्थायी एम्बेडिंग का किसी भी नकली परिवर्तन के लिए निरीक्षण किया जाना चाहिए और परिणामी गतिक विश्लेषण से पहले संरेखित किया जाना चाहिए।


मल्टीमॉडल शिक्षण प्रतिनिधित्व मॉडल आम तौर पर विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण अक्सर शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट कुत्ते को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और तदनुसार एक कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन किया जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच एक अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि पाठ से छवि निर्माण के लिए [[DALL-E]]|DALLE-2 में।<ref>{{cite arXiv |last1=Ramesh |first1=Aditya |last2=Dhariwal |first2=Prafulla |last3=Nichol |first3=Alex |last4=Chu |first4=Casey |last5=Chen |first5=Mark |date=2022-04-12 |title=सीएलआईपी लेटेंट्स के साथ पदानुक्रमित पाठ-सशर्त छवि निर्माण|class=cs.CV |eprint=2204.06125 }}</ref>
== यह भी देखें ==
 
* [[स्वचालित मशीन लर्निंग|स्वचालित मशीन लर्निंग]] (ऑटोएमएल)
 
* ध्यान लगा के पढ़ना या लर्निंग
==यह भी देखें==
* [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)|फ़ीचर पहचान (कंप्यूटर विज़न)]]
* [[स्वचालित मशीन लर्निंग|स्वचालित मशीन सीखना]] (ऑटोएमएल)
* [[सुविधा निकालना|विशेषता निकालना]]
* ध्यान लगा के पढ़ना या सीखना
* शब्द अंत: स्थापन
* [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]]
* [[वेक्टर परिमाणीकरण|सदिश परिमाणीकरण]]
* [[सुविधा निकालना]]
* [[वैरिएशनल ऑटोएनकोडर|वैरिएशनल ऑटो  एन्कोडर]]
* शब्द एम्बेडिंग
* [[वेक्टर परिमाणीकरण]]
* [[वैरिएशनल ऑटोएनकोडर]]


==संदर्भ==
==संदर्भ==
{{Reflist|30em}}
{{Reflist|30em}}
[[Category: यंत्र अधिगम]]


[[Category: Machine Translated Page]]
[[Category:Articles with invalid date parameter in template]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 errors]]
[[Category:Created On 26/07/2023]]
[[Category:Created On 26/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with reference errors]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Template documentation pages|Short description/doc]]
[[Category:Templates Translated in Hindi]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia articles needing clarification from June 2017]]

Latest revision as of 17:01, 26 October 2023

डाउनस्ट्रीम कार्यों के लिए मशीन लर्निंगमें फ़ीचर लर्निंग प्रतिमान का आरेख, जिसे या तो कच्चे डेटा जैसे छवियों या टेक्स्ट , या डेटा के लिए फ़ीचर (मशीन लर्निंग) के प्रारंभिक सेट पर लागू किया जा सकता है। फ़ीचर लर्निंग का उद्देश्य सीधे डेटा इनपुट किए जाने की तुलना में तेज़ प्रशिक्षण या कार्य-विशिष्ट सेटिंग्स में बेहतर प्रदर्शन करना है।[1]

मशीन लर्निंग में, फीचर लर्निंग या प्रतिनिधित्व लर्निंग[2] तकनीकों का सेट है जो प्रणाली को कच्चे डेटा से फ़ीचर का पता लगाने या वर्गीकरण के लिए आवश्यक प्रतिनिधित्व को स्वचालित रूप से खोजने की अनुमति देता है। यह नियमावली फ़ीचर इंजीनियरिंग की जगह लेता है और मशीन को फ़ीचर लर्निंग और किसी विशिष्ट कार्य को करने के लिए उनका उपयोग करने की अनुमति देता है।

फ़ीचर लर्निंग इस तथ्य से प्रेरित है कि वर्गीकरण जैसे मशीन लर्निंग कार्यों के लिए प्रायः ऐसे इनपुट की आवश्यकता होती है जो प्रक्रिया के लिए गणितीय और संगणनात्मक रूप से सुविधाजनक हो। तथापि, वास्तविक दुनिया के डेटा जैसे कि चित्र, वीडियो और सेंसर डेटा विशिष्ट विशेषताओं को एल्गोरिथम रूप से परिभाषित करने के प्रयासों के लिए उपयुक्त नहीं हैं। स्पष्ट एल्गोरिदम पर भरोसा किए बिना, परीक्षा के माध्यम से ऐसी फ़ीचर या अभ्यावेदन की खोज करना विकल्प है।

फीचर लर्निंग या तो पर्यवेक्षित, बिना पर्यवेक्षित या स्व-पर्यवेक्षित हो सकती है।

  • पर्यवेक्षित फ़ीचर लर्निंग में, लेबल किए गए इनपुट डेटा का उपयोग करके फ़ीचर सीखा जाता है। लेबल किए गए डेटा में इनपुट-लेबल जोड़े सम्मिलित होते हैं जहां मॉडल को इनपुट दिया जाता है और इसे सही उत्तर के रूप में जमीनी सच्चाई लेबल प्रस्तुत करना होगा।[3] इसका उपयोग मॉडल के साथ फीचर प्रतिनिधित्व उत्पन्न करने के लिए किया जा सकता है जिसके परिणामस्वरूप उच्च लेबल भविष्यवाणी सटीकता प्राप्त होती है। उदाहरणों में पर्यवेक्षित तंत्रिका तंत्र, मल्टीलेयर परसेप्ट्रॉन और (पर्यवेक्षित) शब्दकोश लर्निंग सम्मिलित हैं।
  • अपर्यवेक्षित फ़ीचर लर्निंग में, डेटासेट में बिंदुओं के बीच संबंध का विश्लेषण करके बिना लेबल वाले इनपुट डेटा के साथ फ़ीचर सीखा जाता है।[4] उदाहरणों में शब्दकोश लर्निंग, स्वतंत्र घटक विश्लेषण, मैट्रिक्स अपघटन [5] और क्लस्टर विश्लेषण के विभिन्न रूप सम्मिलित हैं।[6][7][8]
  • स्व-पर्यवेक्षित फ़ीचर लर्निंग में, विशेषताएँ को अपर्यवेक्षित लर्निंग जैसे अनलेबल डेटा का उपयोग करके सीखा जाता है, तथापि प्रत्येक डेटा बिंदु से इनपुट-लेबल जोड़े का निर्माण किया जाता है, जो ढतला हुआ वंश जैसे पर्यवेक्षित तरीकों के माध्यम से डेटा की संरचना को लर्निंग में सक्षम बनाता है।[9] प्राचीन उदाहरणों में शब्द एम्बेडिंग और स्वतः कूटलेखन सम्मिलित हैं।[10][11] तब से एसएसएल को CNNs और ट्रांसफॉर्मर जैसे गहरे तंत्रिका तंत्र वास्तुकला के उपयोग के माध्यम से कई तौर-तरीकों पर लागू किया गया है।[9]

पर्यवेक्षित

पर्यवेक्षित फ़ीचर लर्निंग लेबल किए गए डेटा से फ़ीचर लर्निंग है। डेटा लेबल प्रणाली को एक त्रुटि शब्द की गणना करने की अनुमति देता है, जिस डिग्री तक प्रणाली लेबल का उत्पादन करने में विफल रहता है, जिसे बाद में लर्निंग की प्रक्रिया को सही करने (त्रुटि को कम करने/कम करने) के लिए प्रतिपुष्टि के रूप में उपयोग किया जा सकता है। दृष्टिकोण में सम्मिलित हैं:

पर्यवेक्षित शब्दकोश लर्निंग

शब्दकोश शिक्षण इनपुट डेटा से प्रतिनिधि तत्वों का सेट (शब्दकोश) विकसित करता है ताकि प्रत्येक डेटा बिंदु को प्रतिनिधि तत्वों के भारी योग के रूप में दर्शाया जा सके। औसत प्रतिनिधित्व त्रुटि (इनपुट डेटा पर) को कम करके, विरलता को सक्षम करने के लिए भार पर एल 1 नियमितीकरण के साथ शब्दकोश तत्व और भार पाया जा सकता है (अर्थात, प्रत्येक डेटा बिंदु के प्रतिनिधित्व में केवल कुछ गैर-शून्य भार होते हैं)।

पर्यवेक्षित शब्दकोश शिक्षण, शब्दकोश तत्वों को अनुकूलित करने के लिए इनपुट डेटा और लेबल की अंतर्निहित संरचना दोनों का उपयोग करता है। उदाहरण के लिए, यह[12] पर्यवेक्षित शब्दकोश लर्निंग की तकनीक इनपुट डेटा के आधार पर शब्दकोश तत्वों, डेटा बिंदुओं का प्रतिनिधित्व करने के लिए भार और वर्गीकरणकर्ता के मापदंडों को संयुक्त रूप से अनुकूलित करके वर्गीकरण समस्याओं पर शब्दकोश लर्निंग को लागू करती है। विशेष रूप से, न्यूनतमकरण समस्या तैयार की जाती है, जहां उद्देश्य फ़ंक्शन में वर्गीकरण त्रुटि, प्रतिनिधित्व त्रुटि, प्रत्येक डेटा बिंदु के लिए प्रतिनिधित्व भार पर एल 1 नियमितीकरण (डेटा के विरल प्रतिनिधित्व को सक्षम करने के लिए), और वर्गीकरणकर्ता के मापदंडों पर एक एल 2 नियमितीकरण सम्मिलित होता है।

तंत्रिका तंत्र

तंत्रिका तंत्र लर्निंग के एल्गोरिदम का परिवार है जो "तंत्र" का उपयोग करता है। जिसमें अंतर-जुड़े नोड्स की कई परतों वाले यह पशु तंत्रिका तंत्र से प्रेरित है, जहां नोड्स को न्यूरॉन्स के रूप में देखा जाता है और किनारों को सिनैप्स के रूप में देखा जाता है। प्रत्येक किनारे का संबद्ध भार होता है, और नेटवर्क नेटवर्क की इनपुट परत से आउटपुट परत तक इनपुट डेटा को पास करने के लिए संगणनात्मक नियमों को परिभाषित करता है। तंत्रिका तंत्र से जुड़ा नेटवर्क फ़ंक्शन इनपुट और आउटपुट परतों के बीच संबंध को दर्शाता है, जिसे वज़न द्वारा पैरामीटर किया जाता है। उचित रूप से परिभाषित नेटवर्क फ़ंक्शंस के साथ, नेटवर्क फ़ंक्शन (वज़न) पर लागत फ़ंक्शन को कम करके विभिन्न शिक्षण कार्य किए जा सकते हैं।

बहुपरत तंत्रिका तंत्र का उपयोग फ़ीचर लर्निंग करने के लिए किया जा सकता है, क्योंकि वे छिपी हुई परत पर अपने इनपुट का प्रतिनिधित्व सीखते हैं, जिसे बाद में आउटपुट परत पर वर्गीकरण या प्रतिगमन के लिए उपयोग किया जाता है। इस प्रकार का सबसे लोकप्रिय नेटवर्क वास्तुकला सियामी नेटवर्क है।

अपर्यवेक्षित

अपर्यवेक्षित फ़ीचर लर्निंग, बिना लेबल वाले डेटा से फ़ीचर लर्निंग है। बिना पर्यवेक्षित फ़ीचर लर्निंग का लक्ष्य प्रायः कम-आयामी फ़ीचर की खोज करना होता है जो उच्च-आयामी इनपुट डेटा के अंतर्निहित कुछ संरचना को पकड़ते हैं। जब फ़ीचर लर्निंग को बिना पर्यवेक्षित तरीके से किया जाता है, तो यह अर्ध-पर्यवेक्षित शिक्षण के रूप को सक्षम बनाता है, जहां एक लेबल रहित डेटासेट से सीखी गई फ़ीचर को लेबल रहित डेटासेट के साथ पर्यवेक्षित सेटिंग में प्रदर्शन में सुधार करने के लिए नियोजित किया जाता है।[13][14] निम्नलिखित में कई दृष्टिकोण प्रस्तुत किए गए हैं।

के- का अर्थ है क्लस्टरिंग

के-का अर्थ क्लस्टरिंग सदिश परिमाणीकरण के लिए दृष्टिकोण है। विशेष रूप से, n वैक्टरों के सेट को देखते हुए, k- का अर्थ क्लस्टरिंग उन्हें k क्लस्टर्स (अर्थात, सबसेट) में इस तरह से वर्गीकृत करती है कि प्रत्येक सदिश निकटतम माध्य वाले क्लस्टर से संबंधित हो। समस्या संगणनात्मक रूप से एनपी हार्ड है, तथापि उप-इष्टतम लालची एल्गोरिदम विकसित किए गए हैं।

के-का अर्थ क्लस्टरिंग का उपयोग बिना लेबल वाले इनपुट के सेट को k क्लस्टर में समूहित करने के लिए किया जा सकता है, और फिर फ़ीचर का उत्पादन करने के लिए इन क्लस्टर के केन्द्रक का उपयोग किया जा सकता है। इन फ़ीचर को कई तरीकों से तैयार किया जा सकता है। सबसे सरल है प्रत्येक नमूने में k बाइनरी फीचर्स जोड़ना, जहां प्रत्येक फ़ीचर j का मान एक है यदि k- का अर्थ द्वारा सीखा गया jth सेंट्रोइड विचाराधीन नमूने के सबसे करीब है।[6] क्लस्टर की दूरी को फ़ीचर के रूप में उपयोग करना भी संभव है, शायद उन्हें रेडियल आधार फ़ंक्शन (तकनीक जिसका उपयोग रेडियल आधार फ़ंक्शन नेटवर्क को प्रशिक्षित करने के लिए किया गया है[15]) k माध्यम से परिवर्तित करने के बाद कोट्स और एनजी ने ध्यान दिया कि के- का अर्थ के कुछ प्रकार विरल कोडिंग एल्गोरिदम के समान व्यवहार करते हैं।[16]

बिना पर्यवेक्षित फ़ीचर लर्निंग के तरीकों के तुलनात्मक मूल्यांकन में, कोट्स, ली और एनजी ने पाया कि उपयुक्त परिवर्तन के साथ के- का अर्थ क्लस्टरिंग छवि वर्गीकरण कार्य पर हाल ही में आविष्कार किए गए ऑटो- एन्कोडर और आरबीएम से बेहतर प्रदर्शन करता है।[6] के- का अर्थ एनएलपी के क्षेत्र में प्रदर्शन में भी सुधार करता है, विशेष रूप से नामित-इकाई पहचान के लिए,[17] वहां, यह ब्राउन क्लस्टरिंग के साथ-साथ वितरित शब्द प्रतिनिधित्व (जिसे तंत्रिका शब्द एम्बेडिंग के रूप में भी जाना जाता है) के साथ प्रतिस्पर्धा करता है।[14]

प्रमुख घटक विश्लेषण

प्रमुख घटक विश्लेषण (पीसीए) का उपयोग प्रायः आयाम में कमी के लिए किया जाता है। एन इनपुट डेटा वैक्टर के लेबल रहित सेट को देखते हुए, पीसीए डेटा मैट्रिक्स के पी सबसे बड़े एकवचन मानों के अनुरूप पी (जो इनपुट डेटा के आयाम से बहुत छोटा है) सही एकवचन वैक्टर उत्पन्न करता है, जहां डेटा मैट्रिक्स की kth पंक्ति है kth इनपुट डेटा सदिश को नमूना माध्य और इनपुट के नमूना माध्य द्वारा स्थानांतरित किए गए है (अर्थात, डेटा सदिश से नमूना माध्य घटाना)। समान रूप से, ये एकवचन वैक्टर इनपुट वैक्टर के नमूना सहप्रसरण मैट्रिक्स के पी सबसे बड़े आइगेनवैल्यू के अनुरूप आइजेनसदिश हैं। ये पी एकवचन सदिश इनपुट डेटा से सीखे गए फ़ीचर सदिश हैं, और वे उन दिशाओं का प्रतिनिधित्व करते हैं जिनके साथ डेटा में सबसे बड़ी विविधताएं हैं।

पीसीए रैखिक फ़ीचर लर्निंग का दृष्टिकोण है क्योंकि पी एकवचन वैक्टर डेटा मैट्रिक्स के रैखिक कार्य हैं। एकल वैक्टर को पुनरावृत्तियों के साथ एक सरल एल्गोरिदम के माध्यम से उत्पन्न किया जा सकता है। Ith पुनरावृत्ति में, (i-1)वें आइजन्सदिश पर डेटा मैट्रिक्स का प्रक्षेपण घटाया जाता है, और ith एकवचन सदिश को अवशिष्ट डेटा मैट्रिक्स के सबसे बड़े एकवचन के अनुरूप सही एकवचन सदिश के रूप में पाया जाता है।

पीसीए की कई सीमाएँ हैं। सबसे पहले, यह माना जाता है कि बड़े अंतर वाली दिशाएँ सबसे अधिक रुचिकर होती हैं, जो कि स्थिति नहीं हो सकता है। पीसीए केवल मूल डेटा के ऑर्थोगोनल परिवर्तनों पर निर्भर करता है, और यह डेटा के केवल पहले और दूसरे क्रम के क्षणों का शोषण करता है, जो डेटा वितरण को अच्छी तरह से चित्रित नहीं कर सकता है। इसके अलावा, पीसीए प्रभावी रूप से केवल तभी आयाम को कम कर सकता है जब इनपुट डेटा वैक्टर सहसंबद्ध होते हैं (जिसके परिणामस्वरूप कुछ प्रमुख आइगेनवैल्यू होते हैं)।

स्थानीय रैखिक एम्बेडिंग

स्थानीय रैखिक एम्बेडिंग (एलएलई) उच्च-आयाम इनपुट (बिना लेबल लगा) से निम्न-आयामी पड़ोसी-संरक्षण प्रतिनिधित्व उत्पन्न करने के लिए गैर-रेखीय लर्निंग का दृष्टिकोण है। यह दृष्टिकोण रोविस और शाऊल (2000) द्वारा प्रस्तावित किया गया था।[18][19] एलएलई का सामान्य विचार मूल डेटा सेट में पड़ोस के कुछ ज्यामितीय गुणों को बनाए रखते हुए निचले-आयामी बिंदुओं का उपयोग करके मूल उच्च-आयामी डेटा का पुनर्निर्माण करना है।

एलएलई में दो प्रमुख चरण होते हैं। पहला चरण "पड़ोसी-संरक्षण" के लिए है, जहां प्रत्येक इनपुट डेटा बिंदु Xi को K-निकटतम पड़ोसी डेटा बिंदुओं के भारित योग के रूप में पुनर्निर्मित किया जाता है, और औसत वर्ग पुनर्निर्माण त्रुटि (अर्थात, इनपुट बिंदु और उसके पुनर्निर्माण के बीच अंतर) को कम करके इष्टतम भार पाया जाता है। इस बाधा के तहत कि प्रत्येक बिंदु से जुड़े भार का योग एक तक होता है। दूसरा चरण "आयाम में कमी" के लिए है, निचले-आयामी स्थान में वैक्टर की तलाश करके जो पहले चरण में अनुकूलित भार का उपयोग करके प्रतिनिधित्व त्रुटि को कम करता है। ध्यान दें कि पहले चरण में, वज़न को निश्चित डेटा के साथ अनुकूलित किया जाता है, जिसे न्यूनतम वर्ग समस्या के रूप में हल किया जा सकता है। दूसरे चरण में, निचले-आयामी बिंदुओं को निश्चित भार के साथ अनुकूलित किया जाता है, जिसे विरल आइगेनवैल्यू अपघटन के माध्यम से हल किया जा सकता है।

पहले चरण में प्राप्त पुनर्निर्माण भार इनपुट डेटा में पड़ोस के "आंतरिक ज्यामितीय गुणों" को कैप्चर करते हैं।[19] यह माना जाता है कि मूल डेटा चिकनी निम्न-आयामी कई गुना पर होता है, और मूल डेटा के भार द्वारा कैप्चर किए गए "आंतरिक ज्यामितीय गुणों" के भी कई गुना पर होने की उम्मीद है। यही कारण है कि एलएलई के दूसरे चरण में समान भार का उपयोग किया जाता है। पीसीए की तुलना में, एलएलई अंतर्निहित डेटा संरचना का दोहन करने में अधिक शक्तिशाली है।

स्वतंत्र घटक विश्लेषण

स्वतंत्र घटक विश्लेषण (आईसीए) स्वतंत्र गैर-गॉसियन घटकों के भारित योग का उपयोग करके डेटा प्रतिनिधित्व बनाने की तकनीक है।[20] गैर-गाऊसी की धारणा इसलिए लगाई गई है क्योंकि जब सभी घटक गाऊसी वितरण वितरण का पालन करते हैं तो भार विशिष्ट रूप से निर्धारित नहीं किया जा सकता है।

अपर्यवेक्षित शब्दकोश लर्निंग

अपर्यवेक्षित शब्दकोश शिक्षण डेटा लेबल का उपयोग नहीं करता है और शब्दकोश तत्वों को अनुकूलित करने के लिए डेटा की अंतर्निहित संरचना का उपयोग करता है। अपर्यवेक्षित शब्दकोश लर्निंग का एक उदाहरण विरल शब्दकोश लर्निंग है, जिसका उद्देश्य बिना लेबल वाले इनपुट डेटा से डेटा प्रतिनिधित्व के लिए आधार कार्यों (शब्दकोश तत्वों) को लर्निंग है। अधिक पूर्ण शब्दकोशों को लर्निंग के लिए विरल कोडिंग लागू की जा सकती है, जहां शब्दकोश तत्वों की संख्या इनपुट डेटा के आयाम से बड़ी है।[21] अहरोन एट अल और अन्य तत्वों का एक शब्दकोश लर्निंग के लिए प्रस्तावित एल्गोरिथ्म K-SVD जो विरल प्रतिनिधित्व को सक्षम बनाता है।[22]

बहुपरत/गहरा वास्तुकला

जैविक तंत्रिका तंत्र की पदानुक्रमित वास्तुकला लर्निंग के नोड्स की कई परतों को ढेर करके फ़ीचर लर्निंग के लिए गहन शिक्षण वास्तुकला को प्रेरित करती है।[23] ये वास्तुकला प्रायः वितरित प्रतिनिधित्व की धारणा के आधार पर डिज़ाइन किए जाते हैं: मनाया गया डेटा कई स्तरों पर कई अलग-अलग कारकों की बातचीत से उत्पन्न होता है। गहन शिक्षण वास्तुकला में, प्रत्येक मध्यवर्ती परत के आउटपुट को मूल इनपुट डेटा के प्रतिनिधित्व के रूप में देखा जा सकता है। प्रत्येक स्तर पिछले स्तर द्वारा उत्पादित प्रतिनिधित्व को इनपुट के रूप में उपयोग करता है, और आउटपुट के रूप में नए प्रतिनिधित्व उत्पन्न करता है, जिसे बाद में उच्च स्तरों पर फीड किया जाता है। निचली परत पर इनपुट कच्चा डेटा है, और अंतिम परत का आउटपुट अंतिम निम्न-आयामी विशेषता या प्रतिनिधित्व है।

प्रतिबंधित बोल्ट्ज़मैन मशीन

प्रतिबंधित बोल्ट्ज़मैन मशीनें (आरबीएम) प्रायः बहुपरत शिक्षण वास्तुकला के लिए बिल्डिंग ब्लॉक के रूप में उपयोग की जाती है।[6][24] आरबीएम को अप्रत्यक्ष द्विदलीय ग्राफ द्वारा दर्शाया जा सकता है जिसमें बाइनरी चर का समूह, दृश्यमान चर का एक समूह और छिपे हुए और दृश्यमान नोड्स को जोड़ने वाले किनारे सम्मिलित होते हैं। यह अधिक सामान्य बोल्ट्ज़मैन मशीनों का विशेष मामला है जिसमें इंट्रा-नोड संपर्क की कोई बाधा नहीं है। आरबीएम में प्रत्येक किनारा भार से जुड़ा होता है। संपर्क के साथ भार ऊर्जा फ़ंक्शन को परिभाषित करता है, जिसके आधार पर दृश्य और छिपे हुए नोड्स का संयुक्त वितरण तैयार किया जा सकता है। आरबीएम की टोपोलॉजी के आधार पर, छिपे हुए (दृश्यमान) चर स्वतंत्र होते हैं, दृश्यमान (छिपे हुए) चर पर आधारित होते हैं।[clarification needed] ऐसी सशर्त स्वतंत्रता गणना की फ़ीचर प्रदान करती है।

आरबीएम को बिना पर्यवेक्षित फ़ीचर लर्निंग के लिए एकल लेयर वास्तुकला के रूप में देखा जा सकता है। विशेष रूप से, दृश्यमान चर इनपुट डेटा के अनुरूप होते हैं, और छिपे हुए चर फ़ीचर डिटेक्टरों के अनुरूप होते हैं। जेफ्री हिंटन के विरोधाभासी विचलन (सीडी) एल्गोरिदम का उपयोग करके दृश्यमान चर की संभावना को अधिकतम करके भार को प्रशिक्षित किया जा सकता है।[24]

सामान्य प्रशिक्षण में आरबीएम अधिकतमीकरण समस्या को हल करके गैर-विरल प्रतिनिधित्व का परिणाम देता है। विरल आरबीएम[25] को विरल प्रतिनिधित्व को सक्षम करने के लिए प्रस्तावित किया गया था। विचार यह है कि डेटा संभावना के उद्देश्य फ़ंक्शन में एक नियमितीकरण शब्द जोड़ा जाए, जो छोटे स्थिरांक से अपेक्षित छिपे हुए चर के विचलन को दंडित करता है .

ऑटोएन्कोडर

एन्कोडर और डिकोडर से युक्त ऑटोएन्कोडर गहन शिक्षण वास्तुकला के लिए एक प्रतिमान है। उदाहरण हिंटन और सलाखुतदीनोव द्वारा उदाहरण प्रदान किया गया है[24] जहां एन्कोडर इनपुट के रूप में कच्चे डेटा (जैसे, छवि) का उपयोग करता है और आउटपुट के रूप में फ़ीचर या प्रतिनिधित्व का उत्पादन करता है और डिकोडर इनपुट के रूप में एन्कोडर से निकाले गए फ़ीचर का उपयोग करता है और आउटपुट के रूप में मूल इनपुट कच्चे डेटा का पुनर्निर्माण करता है। आउटपुट के रूप में एन्कोडर और डिकोडर का निर्माण आरबीएम की कई परतों को स्टैक करके किया जाता है। वास्तुकला में सम्मिलित मापदंडों को मूल रूप से लालची एल्गोरिदम परत-दर-परत तरीके से प्रशिक्षित किया गया था फ़ीचर डिटेक्टरों की परत लर्निंग के बाद, उन्हें संबंधित आरबीएम को प्रशिक्षित करने के लिए दृश्यमान चर के रूप में तैयार किया जाता है। वर्तमान दृष्टिकोण सामान्यतः स्टोकेस्टिक ढाल चढ़ाई विधियों के साथ एंड-टू-एंड प्रशिक्षण लागू करते हैं। प्रशिक्षण को तब तक दोहराया जा सकता है जब तक कि कुछ रुकने के मानदंड पूरे नहीं हो जाते।

स्व-पर्यवेक्षित

स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षण सूचना संकेत के लिए स्पष्ट लेबल पर निर्भर होने के बजाय गैर- लेबल वाले डेटा की संरचना पर प्रशिक्षण द्वारा फ़ीचर को लर्निंग है। इस दृष्टिकोण ने गहरे फ़ीचर प्रतिनिधित्व का उत्पादन करने के लिए गहरे तंत्रिका तंत्र वास्तुकला और बड़े गैर-लेबल वाले डेटासेट के संयुक्त उपयोग को सक्षम किया है।[9] प्रशिक्षण कार्य सामान्यतः या तो विरोधाभासी, जनरेटिव या दोनों की कक्षाओं के अंतर्गत आते हैं।[26] विरोधाभासी प्रतिनिधित्व शिक्षण संबंधित डेटा जोड़े के लिए अभ्यावेदन को प्रशिक्षित करता है, जिन्हें सकारात्मक नमूने कहा जाता है, जबकि बिना किसी संबंध वाले जोड़े, जिन्हें नकारात्मक नमूने कहा जाता है, को विपरीत किया जाता है। विनाशकारी पतन को रोकने के लिए नकारात्मक नमूनों का एक बड़ा हिस्सा सामान्यतः आवश्यक होता है, जो तब होता है जब सभी इनपुट एक ही प्रतिनिधित्व में मैप किए जाते हैं।[9] जनरेटिव प्रतिनिधित्व शिक्षण मॉडल को या तो प्रतिबंधित इनपुट से मेल खाने या कम आयामी प्रतिनिधित्व से पूर्ण इनपुट का पुनर्निर्माण करने के लिए सही डेटा उत्पन्न करने का कार्य करता है।[26]

एक निश्चित डेटा प्रकार (जैसे टेक्स्ट , छवि, ऑडियो, वीडियो) के स्व-पर्यवेक्षित प्रतिनिधित्व लर्निंग के लिए एक सामान्य सेटअप, सामान्य संदर्भ के बड़े डेटासेट, बिना लेबल वाले डेटा का उपयोग करके मॉडल को पूर्व-प्रशिक्षित करना है।[11] संदर्भ के आधार पर, इसका परिणाम या तो सामान्य डेटा खंडों (जैसे शब्द) के लिए अभ्यावेदन का एक सेट है, जिसमें नए डेटा को तोड़ा जा सकता है, या एक तंत्रिका तंत्र प्रत्येक नए डेटा बिंदु (जैसे छवि) को कम आयामी फ़ीचर के एक सेट में परिवर्तित करने में सक्षम है।[9] किसी भी स्थिति में, आउटपुट प्रस्तुतियों का उपयोग कई अलग-अलग समस्या सेटिंग्स में आरंभीकरण के रूप में किया जा सकता है जहां लेबल किया गया डेटा सीमित हो सकता है। विशिष्ट कार्यों के लिए मॉडल का विशेषज्ञता सामान्यतः पर्यवेक्षित शिक्षण के साथ किया जाता है, या तो सिग्नल के रूप में लेबल के साथ मॉडल/अभ्यावेदन को ठीक करके, या अभ्यावेदन को फ्रीज करके और एक अतिरिक्त मॉडल को प्रशिक्षित करके जो उन्हें इनपुट के रूप में लेता है।[11]

विभिन्न तौर-तरीकों के प्रतिनिधित्व लर्निंग में उपयोग के लिए कई स्व-पर्यवेक्षित प्रशिक्षण योजनाएं विकसित की गई हैं, जो प्रायः अन्य डेटा प्रकारों में स्थानांतरित होने से पहले टेक्स्ट या छवि में सफल अनुप्रयोग दिखाती हैं।[9]

टेक्स्ट

Word2vec एक शब्द एम्बेडिंग तकनीक है जो टेक्स्ट के एक बड़े संग्रह में स्लाइडिंग विंडो में प्रत्येक शब्द और उसके पड़ोसी शब्दों पर आत्म-पर्यवेक्षण के माध्यम से शब्दों का प्रतिनिधित्व करना सीखती है।[27] मॉडल में शब्द सदिश अभ्यावेदन तैयार करने के लिए दो संभावित प्रशिक्षण योजनाएं हैं, एक जनरेटिव और एक कंट्रास्टिव।[26] पहला शब्द भविष्यवाणी है जिसमें प्रत्येक पड़ोसी शब्द को इनपुट के रूप में दिया गया है।[27] दूसरा पड़ोसी शब्दों के लिए प्रतिनिधित्व समानता और शब्दों के यादृच्छिक जोड़े के लिए प्रतिनिधित्व असमानता पर प्रशिक्षण है।[10] Word2vec की एक सीमा यह है कि केवल डेटा की जोड़ीदार सह-घटना संरचना का उपयोग किया जाता है, न कि संदर्भ शब्दों के क्रम या संपूर्ण सेट का। हाल के ट्रांसफार्मर-आधारित प्रतिनिधित्व शिक्षण दृष्टिकोण शब्द भविष्यवाणी कार्यों के साथ इसे हल करने का प्रयास करते हैं।[9] जीपीटी संदर्भ के रूप में पूर्व इनपुट शब्दों का उपयोग करके अगले शब्द की भविष्यवाणी पर जेनरेटिव पूर्व-प्रशिक्षित देता है,[28] जबकि बीईआरटी (भाषा मॉडल) द्विदिशात्मक संदर्भ प्रदान करने के लिए यादृच्छिक टोकन को पृथक करता है।[29]

अन्य स्व-पर्यवेक्षित तकनीकें इनपुट डेटा में वाक्य एम्बेडिंग या पैराग्राफ जैसी बड़ी टेक्स्ट संरचनाओं के लिए अभ्यावेदन ढूंढकर शब्द एम्बेडिंग का विस्तार करती हैं।[9] Doc2Vec शब्द भविष्यवाणी कार्य में पैराग्राफ के आधार पर एक अतिरिक्त इनपुट जोड़कर Word2vec में सामान्य प्रशिक्षण दृष्टिकोण का विस्तार करता है, और इसलिए इसका उद्देश्य पैराग्राफ स्तर के संदर्भ का प्रतिनिधित्व करना है।[30]

छवि

छवि प्रतिनिधित्व लर्निंग के क्षेत्र ने परिवर्तन सहित कई अलग-अलग स्व-पर्यवेक्षित प्रशिक्षण तकनीकों को नियोजित किया है, जिनमें परिवर्तन,[31] चित्रकारी,[32] पैच भेदभाव[33] और क्लस्टरिंग सम्मिलित हैं।[34]

सामान्य दृष्टिकोण के उदाहरण प्रसंग एन्कोडर हैं, जो इनपुट के रूप में अप्रत्यक्ष छवि को देखते हुए हटाए गए छवि क्षेत्र को उत्पन्न करने के लिए एलेक्सनेट सीएनएन वास्तुकला को प्रशिक्षित करते हैं,[32] और आईजीपीटी, जो छवि प्रस्ताव को कम करने के बाद पिक्सेल भविष्यवाणी पर प्रशिक्षण द्वारा छवियों पर जीपीटी-2 भाषा मॉडल वास्तुकला लागू करता है।[35]

कई अन्य स्व-पर्यवेक्षित विधियां सियामी नेटवर्क का उपयोग करती हैं, जो विभिन्न संवर्द्धन के माध्यम से छवि के विभिन्न दृश्य उत्पन्न करती हैं जिन्हें फिर समान प्रतिनिधित्व के लिए संरेखित किया जाता है। चुनौती ढहने वाले समाधानों से बचने की है जहां मॉडल सभी छवियों को एक ही प्रतिनिधित्व में एन्कोड करता है।[36] सिमसीएलआर एक विरोधाभासी दृष्टिकोण है जो रेसनेट सीएनएन के साथ छवि प्रतिनिधित्व उत्पन्न करने के लिए नकारात्मक उदाहरणों का उपयोग करता है।[33] बूटस्ट्रैप योर ओन लेटेंट (बीवाईओएल) मॉडल मापदंडों की धीमी गति से चलती औसत के साथ दृश्य को एन्कोड करके नकारात्मक नमूनों की आवश्यकता को हटा देता है क्योंकि उन्हें प्रशिक्षण के दौरान संशोधित किया जा रहा है।[37]

ग्राफ़

कई ग्राफ़ प्रतिनिधित्व लर्निंग की तकनीकों का लक्ष्य समग्र नेटवर्क टोपोलॉजिकल ग्राफ़ सिद्धांत के आधार पर प्रत्येक नोड का एक एम्बेडेड प्रतिनिधित्व तैयार करना है।[38] नोड2वेक एसोसिएशन के माप के रूप में ग्राफ़ के माध्यम से यादृच्छिक चलने में सह-घटना का उपयोग करके वर्ड2वेक प्रशिक्षण तकनीक को ग्राफ़ में नोड्स तक विस्तारित करता है।[39] अन्य दृष्टिकोण ग्राफ़ के भीतर संबंधित संरचनाओं के प्रतिनिधित्व के बीच पारस्परिक जानकारी, समानता का एक उपाय, को अधिकतम करना है।[9] उदाहरण डीप ग्राफ इन्फोमैक्स है, जो प्रत्येक नोड के चारों ओर "पैच" के प्रतिनिधित्व और पूरे ग्राफ के सारांश प्रतिनिधित्व के बीच पारस्परिक जानकारी के आधार पर विरोधाभासी स्व-पर्यवेक्षण का उपयोग करता है। मल्टीग्राफ प्रशिक्षण सेटिंग में ग्राफ़ प्रतिनिधित्व को किसी अन्य ग्राफ़ के प्रतिनिधित्व के साथ जोड़कर, या एकल ग्राफ़ प्रशिक्षण में दूषित पैच प्रतिनिधित्व को जोड़कर नकारात्मक नमूने प्राप्त किए जाते हैं।[40]

वीडियो

अप्रत्यक्ष भविष्यवाणी[41] और क्लस्टरिंग में समान परिणामों के साथ,[42] वीडियो प्रतिनिधित्व लर्निंग के दृष्टिकोण प्रायः छवि तकनीकों के समान होते हैं परंतु अतिरिक्त सीखी गई संरचना के रूप में वीडियो फ्रेम के अस्थायी अनुक्रम का उपयोग करना चाहिए। उदाहरणों में वीसीपी सम्मिलित है, जो वीडियो क्लिप को पृथक करता है और क्लिप विकल्पों के सेट को देखते हुए सही को चुनने के लिए प्रशिक्षित करता है, और जू एट अल, जो वीडियो क्लिप के एक अलग सेट को देखते हुए मूल क्रम की पहचान करने के लिए एक 3डी-सीएनएन को प्रशिक्षित करते है।[43]

ऑडियो

स्व-पर्यवेक्षित प्रतिनिधित्व तकनीकों को कई ऑडियो डेटा प्रारूपों पर भी लागू किया गया है, विशेष रूप से भाषण प्रसंस्करण के लिए।[9] Wav2vec 2.0 अस्थायी कनवल्शन तंत्रिका तंत्र के माध्यम से ऑडियो तरंग को टाइमस्टेप में विभाजित करता है, और फिर विपरीत हानि का उपयोग करके यादृच्छिक टाइमस्टेप्स की छिपी हुई भविष्यवाणी पर ट्रांसफार्मर (मशीन लर्निंग मॉडल) को प्रशिक्षित करता है।[44] यह बीईआरटी भाषा मॉडल के समान है, वीडियो के लिए कई एसएसएल दृष्टिकोणों को छोड़कर, मॉडल संपूर्ण शब्द शब्दावली के बजाय विकल्पों के एक सेट में से चयन करता है।[29][44]

बहुविध

स्व-पर्यवेक्षित शिक्षण का उपयोग कई डेटा प्रकारों के संयुक्त प्रतिनिधित्व को विकसित करने के लिए भी किया गया है।[9] दृष्टिकोण सामान्यतः अंतर्निहित लेबल के रूप में तौर-तरीकों के बीच कुछ प्राकृतिक या मानव-व्युत्पन्न संबंध पर निर्भर करते हैं, उदाहरण के लिए विशिष्ट ध्वनियों वाले जानवरों या वस्तुओं के वीडियो क्लिप,[45] या छवियों का वर्णन करने के लिए लिखे गए कैप्शन। सीएलआईपी कंट्रास्टिव हानि का उपयोग करके शीर्षक जोड़े के बड़े डेटासेट से छवि और टेक्स्ट संकेतीकरण को संरेखित करने के लिए प्रशिक्षण द्वारा संयुक्त छवि-टेक्स्ट प्रतिनिधित्व स्थान का तैयार करता है। एमईआरएलओटी रिजर्व [46]3 संयुक्त पूर्व-प्रशिक्षण कार्यों के माध्यम से वीडियो के बड़े डेटासेट से ऑडियो, उपशीर्षक और वीडियो फ्रेम को संयुक्त रूप से प्रस्तुत करने के लिए ट्रांसफार्मर-आधारित एन्कोडर को प्रशिक्षित करता है: वीडियो फ्रेम और आसपास दिए गए ऑडियो या टेक्स्ट खंडों की विरोधाभासी अप्रत्यक्ष भविष्यवाणी ऑडियो और टेक्स्ट संदर्भ, के साथ ही उनके संबंधित कैप्शन के साथ वीडियो फ्रेम के विपरीत संरेखण के साथ[45]

बहुविध प्रतिनिधित्व मॉडल सामान्यतः विभिन्न तौर-तरीकों में प्रतिनिधित्व के प्रत्यक्ष पत्राचार को मानने में असमर्थ होते हैं, क्योंकि सटीक संरेखण प्रायः शोर या अस्पष्ट हो सकता है। उदाहरण के लिए, टेक्स्ट  "कुत्ते" को कुत्तों की कई अलग-अलग तस्वीरों के साथ जोड़ा जा सकता है, और इसलिए कुत्ते की तस्वीर को अलग-अलग डिग्री की विशिष्टता के साथ कैप्शन दिया जा सकता है। स्वीरों के साथ जोड़ा जा सकता है। इस सीमा का अर्थ है कि डाउनस्ट्रीम कार्यों को इष्टतम प्रदर्शन प्राप्त करने के लिए तौर-तरीकों के बीच अतिरिक्त जेनरेटिव मैपिंग नेटवर्क की आवश्यकता हो सकती है, जैसे कि टेक्स्ट से छवि पीढ़ी के लिए DALL-E-2 में।[47]

गतिक प्रतिनिधित्व लर्निंग

गतिक प्रतिनिधित्व लर्निंग के तरीके[48] गतिक नेटवर्क जैसे गतिक प्रणालियों के लिए गुप्त एम्बेडिंग उत्पन्न करते हैं। चूँकि विशेष रैखिक परिवर्तनों के तहत विशेष दूरी के कार्य अपरिवर्तनीय होते हैं, एम्बेडिंग वैक्टर के विभिन्न सेट वास्तव में समान/समान जानकारी का प्रतिनिधित्व कर सकते हैं। इसलिए, गतिक प्रणाली के लिए, इसके एम्बेडिंग में अस्थायी अंतर को प्रणाली में मनमाने परिवर्तनों और/या वास्तविक परिवर्तनों के कारण एम्बेडिंग के गलत संरेखण द्वारा समझाया जा सकता है [49]। इसलिए, सामान्यतः बोलते हुए, गतिक प्रतिनिधित्व लर्निंग के तरीकों के माध्यम से सीखे गए अस्थायी एम्बेडिंग का किसी भी नकली परिवर्तन के लिए निरीक्षण किया जाना चाहिए और परिणामी गतिक विश्लेषण से पहले संरेखित किया जाना चाहिए।

यह भी देखें

संदर्भ

  1. Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 524–534. ISBN 0-262-03561-8. OCLC 955778308.
  2. Y. Bengio; A. Courville; P. Vincent (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
  3. Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 978-0-13-604259-4.
  4. Hinton, Geoffrey; Sejnowski, Terrence (1999). Unsupervised Learning: Foundations of Neural Computation. MIT Press. ISBN 978-0-262-58168-4.
  5. Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. NIPS.
  6. 6.0 6.1 6.2 6.3 Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). Int'l Conf. on AI and Statistics (AISTATS). Archived from the original (PDF) on 2017-08-13. Retrieved 2014-11-24.
  7. Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual categorization with bags of keypoints (PDF). ECCV Workshop on Statistical Learning in Computer Vision.
  8. Daniel Jurafsky; James H. Martin (2009). भाषण और भाषा प्रसंस्करण. Pearson Education International. pp. 145–146.
  9. 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 Ericsson, Linus; Gouk, Henry; Loy, Chen Change; Hospedales, Timothy M. (May 2022). "Self-Supervised Representation Learning: Introduction, advances, and challenges". IEEE Signal Processing Magazine. 39 (3): 42–62. arXiv:2110.09327. Bibcode:2022ISPM...39c..42E. doi:10.1109/MSP.2021.3134634. ISSN 1558-0792. S2CID 239017006.
  10. 10.0 10.1 Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S; Dean, Jeff (2013). "शब्दों और वाक्यांशों का वितरित प्रतिनिधित्व और उनकी संरचना". Advances in Neural Information Processing Systems. Curran Associates, Inc. 26. arXiv:1310.4546.
  11. 11.0 11.1 11.2 Goodfellow, Ian (2016). Deep learning. Yoshua Bengio, Aaron Courville. Cambridge, Massachusetts. pp. 499–516. ISBN 0-262-03561-8. OCLC 955778308.
  12. Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo; Zisserman, Andrew (2009). "पर्यवेक्षित शब्दकोश सीखना". Advances in Neural Information Processing Systems.
  13. Percy Liang (2005). प्राकृतिक भाषा के लिए अर्ध-पर्यवेक्षित शिक्षण (PDF) (M. Eng.). MIT. pp. 44–52.
  14. 14.0 14.1 Joseph Turian; Lev Ratinov; Yoshua Bengio (2010). Word representations: a simple and general method for semi-supervised learning (PDF). Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Archived from the original (PDF) on 2014-02-26. Retrieved 2014-02-22.
  15. Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "रेडियल-आधार-फ़ंक्शन नेटवर्क के लिए तीन सीखने के चरण". Neural Networks. 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312. doi:10.1016/s0893-6080(01)00027-2. PMID 11411631.
  16. Coates, Adam; Ng, Andrew Y. (2012). "K-साधनों के साथ सीखने की सुविधा का प्रतिनिधित्व". In G. Montavon, G. B. Orr and K.-R. Müller (ed.). Neural Networks: Tricks of the Trade. Springer.
  17. Dekang Lin; Xiaoyun Wu (2009). भेदभावपूर्ण सीखने के लिए वाक्यांश क्लस्टरिंग (PDF). Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP. pp. 1030–1038.
  18. Roweis, Sam T; Saul, Lawrence K (2000). "स्थानीय रूप से रैखिक एंबेडिंग द्वारा गैर-रेखीय आयाम में कमी". Science. New Series. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. JSTOR 3081722. PMID 11125150. S2CID 5987139.
  19. 19.0 19.1 Saul, Lawrence K; Roweis, Sam T (2000). "स्थानीय रूप से रैखिक एंबेडिंग का एक परिचय". {{cite journal}}: Cite journal requires |journal= (help)
  20. Hyvärinen, Aapo; Oja, Erkki (2000). "Independent Component Analysis: Algorithms and Applications". Neural Networks. 13 (4): 411–430. doi:10.1016/s0893-6080(00)00026-5. PMID 10946390. S2CID 11959218.
  21. Lee, Honglak; Battle, Alexis; Raina, Rajat; Ng, Andrew Y (2007). "कुशल विरल कोडिंग एल्गोरिदम". Advances in Neural Information Processing Systems.
  22. Aharon, Michal; Elad, Michael; Bruckstein, Alfred (2006). "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation". IEEE Trans. Signal Process. 54 (11): 4311–4322. Bibcode:2006ITSP...54.4311A. doi:10.1109/TSP.2006.881199. S2CID 7477309.
  23. Bengio, Yoshua (2009). "एआई के लिए डीप आर्किटेक्चर सीखना". Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006. S2CID 207178999.
  24. 24.0 24.1 24.2 Hinton, G. E.; Salakhutdinov, R. R. (2006). "तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना" (PDF). Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
  25. Lee, Honglak; Ekanadham, Chaitanya; Andrew, Ng (2008). "Sparse deep belief net model for visual area V2". Advances in Neural Information Processing Systems.
  26. 26.0 26.1 26.2 Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie (2021). "Self-supervised Learning: Generative or Contrastive". IEEE Transactions on Knowledge and Data Engineering. 35 (1): 857–876. arXiv:2006.08218. doi:10.1109/TKDE.2021.3090866. ISSN 1558-2191. S2CID 219687051.
  27. 27.0 27.1 Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-09-06). "वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान". arXiv:1301.3781 [cs.CL].
  28. "Improving Language Understanding by Generative Pre-Training" (PDF). Retrieved October 10, 2022.
  29. 29.0 29.1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (June 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 4171–4186. doi:10.18653/v1/N19-1423. S2CID 52967399.
  30. Le, Quoc; Mikolov, Tomas (2014-06-18). "वाक्यों और दस्तावेज़ों का वितरित प्रतिनिधित्व". International Conference on Machine Learning (in English). PMLR: 1188–1196. arXiv:1405.4053.
  31. Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. In ICLR, 2018.
  32. 32.0 32.1 Pathak, Deepak; Krahenbuhl, Philipp; Donahue, Jeff; Darrell, Trevor; Efros, Alexei A. (2016). "Context Encoders: Feature Learning by Inpainting": 2536–2544. arXiv:1604.07379. {{cite journal}}: Cite journal requires |journal= (help)
  33. 33.0 33.1 Chen, Ting; Kornblith, Simon; Norouzi, Mohammad; Hinton, Geoffrey (2020-11-21). "दृश्य प्रस्तुतियों की विरोधाभासी शिक्षा के लिए एक सरल रूपरेखा". International Conference on Machine Learning (in English). PMLR: 1597–1607.
  34. Mathilde, Caron; Ishan, Misra; Julien, Mairal; Priya, Goyal; Piotr, Bojanowski; Armand, Joulin (2020). "कंट्रास्टिंग क्लस्टर असाइनमेंट द्वारा दृश्य विशेषताओं की बिना पर्यवेक्षित शिक्षा". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.09882.
  35. Chen, Mark; Radford, Alec; Child, Rewon; Wu, Jeffrey; Jun, Heewoo; Luan, David; Sutskever, Ilya (2020-11-21). "पिक्सेल से जेनरेटिव प्रीट्रेनिंग". International Conference on Machine Learning (in English). PMLR: 1691–1703.
  36. Chen, Xinlei; He, Kaiming (2021). "सरल स्याम देश प्रतिनिधित्व सीखने की खोज" (in English): 15750–15758. arXiv:2011.10566. {{cite journal}}: Cite journal requires |journal= (help)
  37. Jean-Bastien, Grill; Florian, Strub; Florent, Altché; Corentin, Tallec; Pierre, Richemond; Elena, Buchatskaya; Carl, Doersch; Bernardo, Avila Pires; Zhaohan, Guo; Mohammad, Gheshlaghi Azar; Bilal, Piot; koray, kavukcuoglu; Remi, Munos; Michal, Valko (2020). "बूटस्ट्रैप योर ओन लेटेंट - स्व-पर्यवेक्षित शिक्षण के लिए एक नया दृष्टिकोण". Advances in Neural Information Processing Systems (in English). 33.
  38. Cai, HongYun; Zheng, Vincent W.; Chang, Kevin Chen-Chuan (September 2018). "A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications". IEEE Transactions on Knowledge and Data Engineering. 30 (9): 1616–1637. arXiv:1709.07604. doi:10.1109/TKDE.2018.2807452. ISSN 1558-2191. S2CID 13999578.
  39. Grover, Aditya; Leskovec, Jure (2016-08-13). "node2vec: Scalable Feature Learning for Networks". Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD '16. New York, NY, USA: Association for Computing Machinery. 2016: 855–864. doi:10.1145/2939672.2939754. ISBN 978-1-4503-4232-2. PMC 5108654. PMID 27853626.
  40. Velikovi, P., Fedus, W., Hamilton, W. L., Li, P., Bengio, Y., and Hjelm, R. D. Deep Graph InfoMax. In International Conference on Learning Representations (ICLR’2019), 2019.
  41. Luo, Dezhao; Liu, Chang; Zhou, Yu; Yang, Dongbao; Ma, Can; Ye, Qixiang; Wang, Weiping (2020-04-03). "स्व-पर्यवेक्षित अनुपात-अस्थायी शिक्षण के लिए वीडियो बंद करने की प्रक्रिया". Proceedings of the AAAI Conference on Artificial Intelligence (in English). 34 (7): 11701–11708. doi:10.1609/aaai.v34i07.6840. ISSN 2374-3468. S2CID 209531629.
  42. Humam, Alwassel; Dhruv, Mahajan; Bruno, Korbar; Lorenzo, Torresani; Bernard, Ghanem; Du, Tran (2020). "क्रॉस-मोडल ऑडियो-वीडियो क्लस्टरिंग द्वारा स्व-पर्यवेक्षित शिक्षण". Advances in Neural Information Processing Systems (in English). 33. arXiv:1911.12667.
  43. Xu, Dejing; Xiao, Jun; Zhao, Zhou; Shao, Jian; Xie, Di; Zhuang, Yueting (June 2019). "Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction". 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 10326–10335. doi:10.1109/CVPR.2019.01058. ISBN 978-1-7281-3293-8. S2CID 195504152.
  44. 44.0 44.1 Alexei, Baevski; Yuhao, Zhou; Abdelrahman, Mohamed; Michael, Auli (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations". Advances in Neural Information Processing Systems (in English). 33. arXiv:2006.11477.
  45. 45.0 45.1 Zellers, Rowan; Lu, Jiasen; Lu, Ximing; Yu, Youngjae; Zhao, Yanpeng; Salehi, Mohammadreza; Kusupati, Aditya; Hessel, Jack; Farhadi, Ali; Choi, Yejin (2022). "MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound" (in English): 16375–16387. arXiv:2201.02639. {{cite journal}}: Cite journal requires |journal= (help)
  46. Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela; Clark, Jack; Krueger, Gretchen; Sutskever, Ilya (2021-07-01). "Learning Transferable Visual Models From Natural Language Supervision". International Conference on Machine Learning (in English). PMLR: 8748–8763. arXiv:2103.00020.
  47. Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125 [cs.CV].