फीडफॉरवर्ड न्यूरल नेटवर्क: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(20 intermediate revisions by 3 users not shown)
Line 1: Line 1:
[[Image:Feed forward neural net.gif|right|thumb|300px|फीडफॉरवर्ड नेटवर्क में, सूचना हमेशा दिशा में चलती है; यह कभी पीछे नहीं हटता।]]'''फीडफॉर्वर्ड न्यूरल नेटवर्क''' (FNN) कृत्रिम न्यूरल नेटवर्क है, जिसमें ग्रंथि के बीच सम्बन्ध चक्र नहीं बनाते हैं।<ref name=Zell1994p73>{{cite book |last=Zell |first=Andreas |year=1994 |title=तंत्रिका नेटवर्क का अनुकरण|trans-title=Simulation of Neural Networks |language=German |edition=1st |publisher=Addison-Wesley |page=73 |isbn=3-89319-554-8}}</ref> जैसे, यह अपने वंशज से अलग है: आवर्तक [[तंत्रिका नेटवर्क]]।
[[Image:Feed forward neural net.gif|right|thumb|300px|फीडफॉरवर्ड नेटवर्क में, सूचना सदैव दिशा में चलती है; यह कभी पीछे नहीं हटता।]]'''फीडफॉर्वर्ड न्यूरल नेटवर्क''' (FNN) कृत्रिम न्यूरल नेटवर्क है, जिसमें ग्रंथि के बीच सम्बन्ध चक्र नहीं बनाते हैं।<ref name=Zell1994p73>{{cite book |last=Zell |first=Andreas |year=1994 |title=तंत्रिका नेटवर्क का अनुकरण|trans-title=Simulation of Neural Networks |language=German |edition=1st |publisher=Addison-Wesley |page=73 |isbn=3-89319-554-8}}</ref> जैसे, यह अपने वंश से भिन्न है: आवर्तक [[तंत्रिका नेटवर्क|न्यूरल नेटवर्क]]।


फीडफॉर्वर्ड न्यूरल नेटवर्क तैयार किया गया पहला और सरल प्रकार का [[आवर्तक तंत्रिका नेटवर्क]] था।<ref>{{Cite journal|date=2015-01-01|title=Deep learning in neural networks: An overview|journal=Neural Networks|language=en|volume=61|pages=85–117|doi=10.1016/j.neunet.2014.09.003|issn=0893-6080|arxiv=1404.7828|last1=Schmidhuber|first1=Jürgen|pmid=25462637|s2cid=11715509}}</ref> इस नेटवर्क में, जानकारी केवल एक दिशा में आगे बढ़ती है - इनपुट ग्रंथि से, छिपे हुए ग्रंथि के माध्यम से और आउटपुट ग्रंथि के लिए। नेटवर्क में कोई चक्र या लूप नहीं हैं।<ref name=Zell1994p73 />
फीडफॉर्वर्ड न्यूरल नेटवर्क तैयार किया गया पहला और सरल प्रकार का [[आवर्तक तंत्रिका नेटवर्क|आवर्तक न्यूरल नेटवर्क]] था।<ref>{{Cite journal|date=2015-01-01|title=Deep learning in neural networks: An overview|journal=Neural Networks|language=en|volume=61|pages=85–117|doi=10.1016/j.neunet.2014.09.003|issn=0893-6080|arxiv=1404.7828|last1=Schmidhuber|first1=Jürgen|pmid=25462637|s2cid=11715509}}</ref> इस नेटवर्क में, जानकारी केवल एक दिशा में आगे बढ़ती है - निविष्ट ग्रंथि से, छिपे हुए ग्रंथि के माध्यम से और उत्पादन  ग्रंथि के लिए नेटवर्क में कोई चक्र या लूप नहीं हैं।<ref name=Zell1994p73 />
== रैखिक तंत्रिका नेटवर्क ==
== रैखिक न्यूरल नेटवर्क ==


फीडफॉरवर्ड न्यूरल नेटवर्क का सबसे सरल प्रकार रैखिक नेटवर्क है, जिसमें आउटपुट ग्रंथि की परत होती है, इनपुट सीधे आउटपुट को भार की श्रृंखला के माध्यम से सिंचित किया जाता है। भार और इनपुट के उत्पादों का योग प्रत्येक ग्रंथि में गणना की जाती है। इन परिकलित आउटपुट और दिए गए लक्ष्य मानों के बीच माध्य त्रुटियाँ भार में समायोजन करके न्यूनतम की जाती हैं। इस प्रविधि को कम से कम वर्गों या रैखिक प्रतिगमन की विधि के रूप में दो सदियों से जाना जाता है। ग्रहों की गति की भविष्यवाणी के लिए [[एड्रियन मैरी लीजेंड्रे]] (1805) और [[गॉस]] (1795) द्वारा बिंदुओं के समूह के लिए अच्छा मोटा रैखिक फिट खोजने के साधन के रूप में इसका उपयोग किया गया था।<ref name="legendre1805">Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares"</ref><ref name="gauss1795">{{cite journal |first=Stephen M. |last=Stigler |year=1981 |title=गॉस और कम से कम वर्गों का आविष्कार|journal=Ann. Stat. |volume=9 |issue=3 |pages=465–474 |doi=10.1214/aos/1176345451 |doi-access=free }}</ref><ref name=brertscher>{{cite book |last=Bretscher |first=Otto |title=अनुप्रयोगों के साथ रेखीय बीजगणित|edition=3rd |publisher=Prentice Hall |year=1995 |location=Upper Saddle River, NJ}}</ref><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref><ref name=stigler>
फीडफॉरवर्ड न्यूरल नेटवर्क का सबसे सरल प्रकार रैखिक नेटवर्क है, जिसमें उत्पादन  ग्रंथि की परत होती है, निविष्ट सीधे उत्पादन  को भार की श्रृंखला के माध्यम से सिंचित किया जाता है। भार और निविष्ट के उत्पादों का योग प्रत्येक ग्रंथि में गणना की जाती है। इन परिकलित उत्पादन  और दिए गए लक्ष्य मानों के बीच माध्य त्रुटियाँ भार में समायोजन करके न्यूनतम की जाती हैं। इस प्रविधि को कम से कम वर्गों या रैखिक प्रतिगमन की विधि के रूप में दो सदियों से जाना जाता है। ग्रहों की गति की भविष्यवाणी के लिए [[एड्रियन मैरी लीजेंड्रे]] (1805) और [[गॉस]] (1795) द्वारा बिंदुओं के समूह के लिए अच्छा मोटा रैखिक योग्य खोजने के साधन के रूप में इसका उपयोग किया गया था।<ref name="legendre1805">Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares"</ref><ref name="gauss1795">{{cite journal |first=Stephen M. |last=Stigler |year=1981 |title=गॉस और कम से कम वर्गों का आविष्कार|journal=Ann. Stat. |volume=9 |issue=3 |pages=465–474 |doi=10.1214/aos/1176345451 |doi-access=free }}</ref><ref name=brertscher>{{cite book |last=Bretscher |first=Otto |title=अनुप्रयोगों के साथ रेखीय बीजगणित|edition=3rd |publisher=Prentice Hall |year=1995 |location=Upper Saddle River, NJ}}</ref><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref><ref name=stigler>
{{cite book |last = Stigler
{{cite book |last = Stigler
  |first      = Stephen M.
  |first      = Stephen M.
Line 19: Line 19:
{{main|परसेप्ट्रॉन}}
{{main|परसेप्ट्रॉन}}


एकल परत [[परसेप्ट्रॉन]] रैखिक तंत्रिका नेटवर्क को थ्रेसहोल्ड फ़ंक्शन के साथ जोड़ता है। यदि आउटपुट मान कुछ सीमा (सामान्यतः 0) से ऊपर है, तो न्यूरॉन सक्रिय हो जाता है और सक्रिय मान (सामान्यतः 1) ले लेता है; अन्यथा यह निष्क्रिय मान (सामान्यतः -1) लेता है। इस प्रकार के सक्रियण कार्य वाले न्यूरॉन्स को अधिकांशतः रैखिक थ्रेशोल्ड इकाइयां कहा जाता है। साहित्य में शब्द परसेप्ट्रॉन अधिकांशतः इन इकाइयों में से केवल से मिलकर नेटवर्क को संदर्भित करता है। इसी प्रकार के "न्यूरॉन्स" को 1920 के दशक में [[आइसिंग मॉडल]] के लिए [[अर्नस्ट इसिंग]] और [[विलियम लेनज़]] द्वारा और 1940 के दशक में [[ वॉरेन मैककुलोच |वॉरेन मैककुलोच]] और [[वाल्टर पिट्स]] द्वारा भौतिकी में वर्णित किया गया था <ref name="brush67">{{cite journal |doi=10.1103/RevModPhys.39.883|title=लेनज़-आइज़िंग मॉडल का इतिहास|year=1967|last1=Brush|first1=Stephen G.|journal=Reviews of Modern Physics|volume=39|issue=4|pages=883–893|bibcode=1967RvMP...39..883B}}</ref> ।
एकल परत [[परसेप्ट्रॉन]] रैखिक न्यूरल नेटवर्क को सीमा फलन के साथ जोड़ता है। यदि उत्पादन  मान कुछ सीमा (सामान्यतः 0) से ऊपर है, तो न्यूरॉन सक्रिय हो जाता है और सक्रिय मान (सामान्यतः 1) ले लेता है; अन्यथा यह निष्क्रिय मान (सामान्यतः -1) लेता है। इस प्रकार के सक्रियण कार्य वाले न्यूरॉन्स को अधिकांशतः रैखिक थ्रेशोल्ड इकाइयां कहा जाता है। साहित्य में शब्द परसेप्ट्रॉन अधिकांशतः इन इकाइयों में से केवल से मिलकर नेटवर्क को संदर्भित करता है। इसी प्रकार के "न्यूरॉन्स" को 1920 के दशक में [[आइसिंग मॉडल]] के लिए [[अर्नस्ट इसिंग]] और [[विलियम लेनज़]] द्वारा और 1940 के दशक में [[ वॉरेन मैककुलोच |वॉरेन मैककुलोच]] और [[वाल्टर पिट्स]] द्वारा भौतिकी में वर्णित किया गया था <ref name="brush67">{{cite journal |doi=10.1103/RevModPhys.39.883|title=लेनज़-आइज़िंग मॉडल का इतिहास|year=1967|last1=Brush|first1=Stephen G.|journal=Reviews of Modern Physics|volume=39|issue=4|pages=883–893|bibcode=1967RvMP...39..883B}}</ref> ।


सक्रिय और निष्क्रिय अवस्थाओं के लिए किसी भी मान का उपयोग करके परसेप्ट्रॉन बनाया जा सकता है जब तक कि थ्रेशोल्ड मान दोनों के बीच स्थित हो।
सक्रिय और निष्क्रिय अवस्थाओं के लिए किसी भी मान का उपयोग करके परसेप्ट्रॉन बनाया जा सकता है जब तक कि थ्रेशोल्ड मान दोनों के बीच स्थित हो।


परसेप्ट्रॉन को साधारण सीखने का एल्गोरिथम द्वारा प्रशिक्षित किया जा सकता है जिसे सामान्यतः [[डेल्टा नियम]] कहा जाता है। यह परिकलित आउटपुट और नमूना आउटपुट डेटा के बीच त्रुटियों की गणना करता है और इसका उपयोग भार में समायोजन करने के लिए करता है, इस प्रकार [[प्रवणता अवरोहण]] का एक रूप लागू करता है।
परसेप्ट्रॉन को साधारण सीखने का एल्गोरिथम द्वारा प्रशिक्षित किया जा सकता है जिसे सामान्यतः [[डेल्टा नियम]] कहा जाता है। यह परिकलित उत्पादन  और नमूना उत्पादन  डेटा के बीच त्रुटियों की गणना करता है और इसका उपयोग भार में समायोजन करने के लिए करता है, इस प्रकार [[प्रवणता अवरोहण]] का एक रूप लागू करता है।


एकल परत परसेप्ट्रॉन केवल [[रैखिक रूप से वियोज्य]] पैटर्न सीखने में सक्षम हैं, 1969 में [[परसेप्ट्रॉन (पुस्तक)]] नामक प्रसिद्ध [[ प्रबंध |प्रबंध]] में, [[मार्विन मिंस्की]] और [[सीमोर पैपर्ट]] ने दिखाया कि एकल-परत परसेप्ट्रॉन नेटवर्क के लिए विशेष सीखना असंभव था। तथापि, यह ज्ञात था कि मल्टी-लेयर परसेप्ट्रॉन (MLPs) किसी भी संभावित बूलियन फ़ंक्शन को उत्पन्न करने में सक्षम हैं। उदाहरण के लिए, पहले से ही 1967 में, शुनिची अमारी<ref name="Amari1967">{{cite journal |last1=Amari |first1=Shun'ichi |author-link=Shun'ichi Amari|title=अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत|journal= IEEE Transactions |date=1967 |volume=EC |issue=16 |pages=279-307}}</ref><ref name=DLhistory />[[ स्टोकेस्टिक ग्रेडिएंट डिसेंट | स्टोकेस्टिक ग्रेडिएंट डिसेंट]] द्वारा एमएलपी को प्रशिक्षित किया।<ref name="robbins1951">{{Cite journal | last1 = Robbins | first1 = H. | author-link = Herbert Robbins| last2 = Monro | first2 = S. | doi = 10.1214/aoms/1177729586 | title = एक स्टोकेस्टिक सन्निकटन विधि| journal = The Annals of Mathematical Statistics | volume = 22 | issue = 3 | pages = 400 | year = 1951 | doi-access = free }}</ref> हालांकि सिंगल थ्रेसहोल्ड इकाइयां अपनी कम्प्यूटेशनल पावर में काफी सीमित है, यह दिखाया गया है कि समांतर थ्रेसहोल्ड इकाइयों के नेटवर्क वास्तविक संख्याओं के कॉम्पैक्ट अंतराल से अंतराल [-1,1] में यूनिवर्सल सन्निकटन प्रमेय कर सकते हैं। यह परिणाम पीटर ऑउर, [[हेरोल्ड बर्गस्टीनर]] और [[वोल्फगैंग मास]] में पाया जा सकता है, बहुत ही सरल सार्वभौमिक सन्निकटन के लिए सीखने का नियम जिसमें परसेप्ट्रॉन की परत होती है।<ref name=Auer2008>{{cite journal | first = Peter | last = Auer | author2 = Harald Burgsteiner | author3 = Wolfgang Maass | url = http://www.igi.tugraz.at/harry/psfiles/biopdelta-07.pdf | title = परसेप्ट्रॉन की एक परत से युक्त बहुत ही सरल सार्वभौमिक सन्निकटन के लिए एक सीखने का नियम| journal = Neural Networks | volume = 21 | issue = 5 | pages = 786–795 | year = 2008 | doi = 10.1016/j.neunet.2007.12.036 | pmid = 18249524 | access-date = 2009-09-08 | archive-url = https://web.archive.org/web/20110706095227/http://www.igi.tugraz.at/harry/psfiles/biopdelta-07.pdf | archive-date = 2011-07-06 | url-status = dead }}</ref>
एकल परत परसेप्ट्रॉन केवल [[रैखिक रूप से वियोज्य]] प्रतिरूप सीखने में सक्षम हैं, 1969 में [[परसेप्ट्रॉन (पुस्तक)]] नामक प्रसिद्ध [[ प्रबंध |प्रबंध]] में, [[मार्विन मिंस्की]] और [[सीमोर पैपर्ट]] ने दिखाया कि एकल-परत परसेप्ट्रॉन नेटवर्क के लिए विशेष सीखना असंभव था। तथापि, यह ज्ञात था कि बहु परत परसेप्ट्रॉन (एमएलपी s) किसी भी संभावित बूलियन फलन को उत्पन्न करने में सक्षम हैं। उदाहरण के लिए, पहले से ही 1967 में, शुनिची अमारी<ref name="Amari1967">{{cite journal |last1=Amari |first1=Shun'ichi |author-link=Shun'ichi Amari|title=अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत|journal= IEEE Transactions |date=1967 |volume=EC |issue=16 |pages=279-307}}</ref><ref name=DLhistory />[[ स्टोकेस्टिक ग्रेडिएंट डिसेंट | प्रसंभाव्यता प्रवणता अवरोहण]] द्वारा एमएलपी को प्रशिक्षित किया।<ref name="robbins1951">{{Cite journal | last1 = Robbins | first1 = H. | author-link = Herbert Robbins| last2 = Monro | first2 = S. | doi = 10.1214/aoms/1177729586 | title = एक स्टोकेस्टिक सन्निकटन विधि| journal = The Annals of Mathematical Statistics | volume = 22 | issue = 3 | pages = 400 | year = 1951 | doi-access = free }}</ref> चूंकि एकल सीमा इकाइयां अपनी कम्प्यूटेशनल शक्ति में अधिक सीमित है, यह दिखाया गया है कि समांतर सीमा इकाइयों के नेटवर्क वास्तविक संख्याओं के सुगठित अंतराल से अंतराल [-1,1] में सार्वभौमिक सन्निकटन प्रमेय कर सकते हैं। यह परिणाम पीटर ऑउर, [[हेरोल्ड बर्गस्टीनर]] और [[वोल्फगैंग मास]] में पाया जा सकता है, बहुत ही सरल सार्वभौमिक सन्निकटन के लिए सीखने का नियम जिसमें परसेप्ट्रॉन की परत होती है।<ref name=Auer2008>{{cite journal | first = Peter | last = Auer | author2 = Harald Burgsteiner | author3 = Wolfgang Maass | url = http://www.igi.tugraz.at/harry/psfiles/biopdelta-07.pdf | title = परसेप्ट्रॉन की एक परत से युक्त बहुत ही सरल सार्वभौमिक सन्निकटन के लिए एक सीखने का नियम| journal = Neural Networks | volume = 21 | issue = 5 | pages = 786–795 | year = 2008 | doi = 10.1016/j.neunet.2007.12.036 | pmid = 18249524 | access-date = 2009-09-08 | archive-url = https://web.archive.org/web/20110706095227/http://www.igi.tugraz.at/harry/psfiles/biopdelta-07.pdf | archive-date = 2011-07-06 | url-status = dead }}</ref> एकल परत न्यूरल नेटवर्क [[स्टेप फंक्शन|स्टेप]] फलन के अतिरिक्त निरंतर उत्पादन  की गणना कर सकता है। सामान्य विकल्प तथाकथित [[तार्किक फलन]] है:
एकल परत न्यूरल नेटवर्क [[ समारोह की ओर कदम बढ़ाएं |समारोह की ओर कदम बढ़ाएं]] के बजाय निरंतर आउटपुट की गणना कर सकता है। सामान्य विकल्प तथाकथित [[रसद समारोह]] है:


: <math>f(x) = \frac{1}{1+e^{-x}}</math>
: <math>f(x) = \frac{1}{1+e^{-x}}</math>
इस विकल्प के साथ, एकल परत नेटवर्क [[ संभार तन्त्र परावर्तन |संभार तन्त्र परावर्तन]] मॉडल के समान है, जो [[सांख्यिकीय मॉडल]]िंग में व्यापक रूप से उपयोग किया जाता है। लॉजिस्टिक फ़ंक्शन [[सिग्मॉइड फ़ंक्शन]] नामक कार्यों के परिवार में से है क्योंकि उनके एस-आकार के ग्राफ़ ग्रीक अक्षर [[सिग्मा]] के अंतिम-अक्षर के निचले मामले से मिलते जुलते हैं। इसका निरंतर व्युत्पन्न है, जो इसे [[backpropagation]] में उपयोग करने की अनुमति देता है। यह फ़ंक्शन भी पसंद किया जाता है क्योंकि इसके व्युत्पन्न की गणना आसानी से की जाती है:
इस विकल्प के साथ, एकल परत नेटवर्क [[ संभार तन्त्र परावर्तन |संभार तन्त्र परावर्तन]] मॉडल के समान है, जो [[सांख्यिकीय मॉडल]] में व्यापक रूप से उपयोग किया जाता है। तार्किक फलन [[सिग्मॉइड फ़ंक्शन|सिग्मॉइड]] फलन नामक कार्यों के परिवार में से है क्योंकि उनके S-आकार के ग्राफ़ ग्रीक अक्षर [[सिग्मा]] के अंतिम-अक्षर के निचले स्थितियों से मिलते जुलते हैं। इसका निरंतर व्युत्पन्न है, जो इसे [[backpropagation|पश्च प्रसारण]] में उपयोग करने की अनुमति देता है। यह फलन भी पसंद किया जाता है क्योंकि इसके व्युत्पन्न की गणना आसानी से की जाती है:


: <math>f'(x) = f(x)(1-f(x))</math>.
: <math>f'(x) = f(x)(1-f(x))</math>.


(यह तथ्य कि <math>f</math> [[श्रृंखला नियम]] को लागू करके उपरोक्त अंतर समीकरण को आसानी से दिखाया जा सकता है।)
यह तथ्य कि <math>f</math> [[श्रृंखला नियम]] को लागू करके उपरोक्त अंतर समीकरण को आसानी से दिखाया जा सकता है।


यदि एकल परत न्यूरल नेटवर्क एक्टिवेशन फंक्शन [[मॉड्यूलर अंकगणित]] 1 है, तो यह नेटवर्क न्यूरॉन के साथ XOR समस्या को हल कर सकता है।
यदि एकल परत न्यूरल नेटवर्क सक्रियण फलन [[मॉड्यूलर अंकगणित]] 1 है, तो यह नेटवर्क न्यूरॉन के साथ एक्सओआर समस्या को हल कर सकता है।
: <math>f(x) = x\mod 1</math>
: <math>f(x) = x\mod 1</math>
: <math>f'(x) = 1</math>
: <math>f'(x) = 1</math>
== बहु परत परसेप्ट्रॉन ==
{{main|बहुपरत परसेप्ट्रॉन}}
[[Image:XOR perceptron net.png|thumb|right|250px|एक्सओआर की गणना करने में सक्षम दो-परत न्यूरल नेटवर्क। न्यूरॉन्स के भीतर की संख्या प्रत्येक न्यूरॉन की स्पष्ट सीमा का प्रतिनिधित्व करती है (जिसे ध्यान से विचार किया जा सकता है जिससे कि सभी न्यूरॉन्स की ही सीमा हो, सामान्यतः 1)। संख्याएँ जो तीरों को त्रुटिहीन करती हैं, निविष्ट के भार का प्रतिनिधित्व करती हैं। यह नेट मानता है कि यदि सीमा तक नहीं पहुंचा है, तो शून्य (-1 नहीं) उत्पादन  है। ध्यान दें कि निविष्ट की निचली परत को सदैव वास्तविक न्यूरल नेटवर्क परत नहीं माना जाता है]]नेटवर्क के इस वर्ग में कम्प्यूटेशनल इकाइयों की कई परतें होती हैं, जो सामान्यतः फीड-फॉरवर्ड प्रणालियों से परस्पर जुड़ी होती हैं। परत में प्रत्येक न्यूरॉन ने बाद की परत के न्यूरॉन्स से सम्बन्ध निर्देशित किया है। कई अनुप्रयोगों में इन नेटवर्कों की इकाइयां सिग्मॉइड फलन को सक्रियण फलन के रूप में लागू करती हैं। चूंकि सिग्मोइडल सक्रियण कार्यों में छोटी सी सीमा के बाहर बहुत छोटे व्युत्पन्न मूल्य होते हैं और गायब होने वाली ढाल समस्या के कारण गहरे न्यूरल नेटवर्क में अच्छी प्रकार से काम नहीं करते हैं।


न्यूरल नेटवर्क के लिए सार्वभौमिक सन्निकटन प्रमेय<ref name="Cybenko1989">Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function ''[[Mathematics of Control, Signals, and Systems]]'', 2(4), 303–314.</ref> बताता है कि प्रत्येक निरंतर कार्य जो वास्तविक संख्याओं के अंतराल को वास्तविक संख्याओं के कुछ उत्पादन  अंतराल के लिए मानचित्रित करता है, केवल छिपी हुई परत के साथ बहु-परत परसेप्ट्रॉन द्वारा निरंकुश ढंग से निकटता से अनुमान लगाया जा सकता है। यह परिणाम सक्रियण कार्यों की विस्तृत श्रृंखला के लिए है, उदाहरण, सिग्मोइडल कार्यों के लिए।


== मल्टी-लेयर परसेप्ट्रॉन ==
बहु परत नेटवर्क विभिन्न प्रकार की सीखने की प्रविधियों का उपयोग करते हैं। पहला [[ध्यान लगा के पढ़ना या सीखना]] एमएलपी 1965 में [[एलेक्सी ग्रिगोरविच इवाखेंको]] और वैलेन्टिन लैपा द्वारा प्रकाशित किया गया था।<ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=साइबरनेटिक भविष्यवाणी करने वाले उपकरण|last=Ivakhnenko|first=A. G.|author-link=Alexey Grigorevich Ivakhnenko|publisher=CCM Information Corporation|year=1973}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=साइबरनेटिक्स और पूर्वानुमान तकनीक|last2=Grigorʹevich Lapa|first2=Valentin|author-link=Alexey Grigorevich Ivakhnenko|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}}</ref><ref name=DLhistory />उन्होंने अपनी एमएलपी परत को परत दर परत प्रशिक्षित किया, जब तक शेष त्रुटि स्वीकार्य नहीं थी, तब तक परतों को जोड़ते हुए, अलग सत्यापन समूह की सहायता से लगातार अनावश्यक छिपी हुई इकाइयों की छंटाई करते रहे।<ref name=DLhistory />
{{main|Multilayer perceptron}}
[[Image:XOR perceptron net.png|thumb|right|250px|XOR की गणना करने में सक्षम दो-परत तंत्रिका नेटवर्क। न्यूरॉन्स के भीतर की संख्या प्रत्येक न्यूरॉन की स्पष्ट दहलीज का प्रतिनिधित्व करती है (जिसे फैक्टर आउट किया जा सकता है ताकि सभी न्यूरॉन्स की ही सीमा हो, सामान्यतः 1)। संख्याएँ जो तीरों को एनोटेट करती हैं, इनपुट के भार का प्रतिनिधित्व करती हैं। यह नेट मानता है कि यदि दहलीज तक नहीं पहुंचा है, तो शून्य (-1 नहीं) आउटपुट है। ध्यान दें कि इनपुट की निचली परत को हमेशा वास्तविक तंत्रिका नेटवर्क परत नहीं माना जाता है]]नेटवर्क के इस वर्ग में कम्प्यूटेशनल इकाइयों की कई परतें होती हैं, जो सामान्यतः फीड-फॉरवर्ड तरीके से परस्पर जुड़ी होती हैं। परत में प्रत्येक न्यूरॉन ने बाद की परत के न्यूरॉन्स से सम्बन्ध निर्देशित किया है। कई अनुप्रयोगों में इन नेटवर्कों की इकाइयां सिग्मॉइड फ़ंक्शन को सक्रियण फ़ंक्शन के रूप में लागू करती हैं। हालांकि सिग्मोइडल सक्रियण कार्यों में छोटी सी सीमा के बाहर बहुत छोटे व्युत्पन्न मूल्य होते हैं और गायब होने वाली ढाल समस्या के कारण गहरे तंत्रिका नेटवर्क में अच्छी प्रकार से काम नहीं करते हैं।


तंत्रिका नेटवर्क के लिए सार्वभौमिक सन्निकटन प्रमेय<ref name="Cybenko1989">Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function ''[[Mathematics of Control, Signals, and Systems]]'', 2(4), 303–314.</ref> बताता है कि प्रत्येक निरंतर कार्य जो वास्तविक संख्याओं के अंतराल को वास्तविक संख्याओं के कुछ आउटपुट अंतराल के लिए मानचित्रित करता है, केवल छिपी हुई परत के साथ बहु-परत परसेप्ट्रॉन द्वारा मनमाने ढंग से निकटता से अनुमान लगाया जा सकता है। यह परिणाम सक्रियण कार्यों की विस्तृत श्रृंखला के लिए है, उदा। सिग्मोइडल कार्यों के लिए।
स्टोचैस्टिक प्रवणता अवरोहण द्वारा प्रशिक्षित पहला डीप सीखने का एमएलपी<ref name="robbins1951" />1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।<ref name="Amari1967" />अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग प्रतिरूप कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ पांच परत एमएलपी आंतरिक प्रतिनिधित्व सीखा।<ref name=DLhistory />


मल्टी-लेयर नेटवर्क विभिन्न प्रकार की सीखने की तकनीकों का उपयोग करते हैं। पहला [[ध्यान लगा के पढ़ना या सीखना]] एमएलपी 1965 में [[एलेक्सी ग्रिगोरविच इवाखेंको]] और वैलेन्टिन लैपा द्वारा प्रकाशित किया गया था।<ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=साइबरनेटिक भविष्यवाणी करने वाले उपकरण|last=Ivakhnenko|first=A. G.|author-link=Alexey Grigorevich Ivakhnenko|publisher=CCM Information Corporation|year=1973}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=साइबरनेटिक्स और पूर्वानुमान तकनीक|last2=Grigorʹevich Lapa|first2=Valentin|author-link=Alexey Grigorevich Ivakhnenko|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}}</ref><ref name=DLhistory />उन्होंने अपनी MLP परत को परत दर परत प्रशिक्षित किया, जब तक शेष त्रुटि स्वीकार्य नहीं थी, तब तक परतों को जोड़ते हुए, अलग सत्यापन समूह की मदद से लगातार अनावश्यक छिपी हुई इकाइयों की छंटाई करते रहे।<ref name=DLhistory />
आज, एमएलपी के प्रशिक्षण के लिए सबसे लोकप्रिय विधि पश्च प्रसारण है। 1962 में [[फ्रैंक रोसेनब्लैट]] द्वारा शब्दावली [[बैक प्रचार|पश्च प्रसारण]] त्रुटियाँ की प्रारंभिक की गई थी,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=न्यूरोडायनामिक्स के सिद्धांत|year=1962|publisher=Spartan, New York}}</ref><ref name=DLhistory />किन्तु वह यह नहीं जानता था कि इसे कैसे लागू किया जाए, चूंकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था<ref name="kelley1960">{{cite journal|last1=Kelley|first1=Henry J.|author-link=Henry J. Kelley|year=1960|title=इष्टतम उड़ान पथों का क्रमिक सिद्धांत|journal=ARS Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282}}</ref> पहले से ही 1960 में [[नियंत्रण सिद्धांत]] के संदर्भ में।<ref name=DLhistory />आधुनिक पश्च-प्रचार वास्तव में [[सेप्पो लिनैनमा]] का स्वचालित विभेदन (1970) का सामान्य उत्क्रम प्रणाली है जो स्थिर विभेदी कार्यों के असतत जुड़े नेटवर्क के लिए है।<ref name="lin1970">{{cite thesis|first=Seppo|last=Linnainmaa|author-link=Seppo Linnainmaa|year=1970|type=Masters|title=स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व|language=fi|publisher=University of Helsinki|pages=6–7}}</ref><ref name="lin1976">{{cite journal|last1=Linnainmaa|first1=Seppo|author-link=Seppo Linnainmaa|year=1976|title=संचित गोलाई त्रुटि का टेलर विस्तार|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|s2cid=122357351}}</ref> यह श्रृंखला नियम का कुशल अनुप्रयोग है (1673 में [[गॉटफ्रीड विल्हेम लीबनिज]] द्वारा व्युत्पन्न)<ref name="leibniz1676">{{Cite book|last=Leibniz|first=Gottfried Wilhelm Freiherr von|url=https://books.google.com/books?id=bOIGAAAAYAAJ&q=leibniz+altered+manuscripts&pg=PA90|title=The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir)|date=1920|publisher=Open court publishing Company|language=en}}</ref><ref>{{cite journal|url= https://scholarworks.umt.edu/tme/vol7/iss2/10/ |title=श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब|journal=The Mathematics Enthusiast |year=2010 |volume=7 |pages=321–332 |issue=2 |first1=Omar Hernández |last1=Rodríguez |first2=Jorge M. |last2=López Fernández |doi=10.54870/1551-3440.1191 |s2cid=29739148 |access-date=2019-08-04|doi-access=free }}</ref> अलग-अलग ग्रंथि के नेटवर्क के लिए।<ref name=DLhistory />1982 में, [[पॉल वर्बोस]] ने एमएलपी के लिए उस प्रकार से वापस प्रसार लागू किया जो मानक बन गया है।<ref name="werbos1982">{{Cite book|title=सिस्टम मॉडलिंग और अनुकूलन|last=Werbos|first=Paul|publisher=Springer|year=1982|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis|author-link=Paul Werbos|chapter-url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|access-date=2 July 2017|archive-date=14 April 2016|archive-url=https://web.archive.org/web/20160414055503/http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|url-status=live}}</ref><ref name=DLhistory />1985 में, डेविड ई. रुमेलहार्ट एट अल प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया।<ref name="rumelhart1986">Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "[https://apps.dtic.mil/dtic/tr/fulltext/u2/a164453.pdf Learning Internal Representations by Error Propagation]". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.</ref> बाद के दशकों में कई सुधार लागू किए गए हैं।<ref name=DLhistory />


स्टोचैस्टिक ग्रेडिएंट डिसेंट द्वारा प्रशिक्षित पहला डीप सीखने का एमएलपी<ref name="robbins1951" />1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।<ref name="Amari1967" />अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ पांच परत एमएलपी सीखा ज्ञान प्रतिनिधित्व।<ref name=DLhistory />
वापस प्रसार के पर्यन्त , कुछ पूर्वनिर्धारित त्रुटि-फलन के मान की गणना करने के लिए उत्पादन  मानों की तुलना सही उत्तर से की जाती है। त्रुटि तब नेटवर्क के माध्यम से वापस फीड की जाती है। इस जानकारी का उपयोग करते हुए, एल्गोरिथ्म प्रत्येक सम्बन्ध के भार को कुछ छोटी राशि से त्रुटि फलन के मान को कम करने के लिए समायोजित करता है। पर्याप्त रूप से बड़ी संख्या में प्रशिक्षण चक्रों के लिए इस प्रक्रिया को दोहराने के बाद, नेटवर्क सामान्यतः किसी ऐसी स्थिति में परिवर्तित हो जाएगा जहां गणना की त्रुटि छोटी है। इस स्थितियों में कोई कहेगा कि नेटवर्क ने निश्चित लक्ष्य कार्य सीखा है। भार को ठीक से समायोजित करने के लिए, गैर-रैखिक [[अनुकूलन (गणित)]] के लिए सामान्य विधि लागू होती है जिसे [[ऑगस्टिन-लुई कॉची]] के कारण प्रवणता अवरोहण कहा जाता है, जिसने पहली बार 1847 में इसका सुझाव दिया था।<ref name="cauchy1847">{{cite journal |first=C. |last=Lemaréchal |author-link=Claude Lemaréchal |title=कौची और ढाल विधि|journal=Doc Math Extra |pages=251–254 |year=2012 |url=https://www.math.uni-bielefeld.de/documenta/vol-ismp/40_lemarechal-claude.pdf }}</ref> इसके लिए, नेटवर्क नेटवर्क भार के संबंध में त्रुटि फलन के व्युत्पन्न की गणना करता है और भार को इस प्रकार बदलता है कि त्रुटि कम हो जाती है (इस प्रकार त्रुटि फलन की सतह पर नीचे की ओर जा रहा है)। इस कारण से, पश्च प्रसारण केवल अलग-अलग सक्रियण कार्यों वाले नेटवर्क पर ही लागू किया जा सकता है।


आज, एमएलपी के प्रशिक्षण के लिए सबसे लोकप्रिय तरीका बैक-प्रचार है। 1962 में [[फ्रैंक रोसेनब्लैट]] द्वारा शब्दावली [[बैक प्रचार]] एरर्स की शुरुआत की गई थी,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=न्यूरोडायनामिक्स के सिद्धांत|year=1962|publisher=Spartan, New York}}</ref><ref name=DLhistory />लेकिन वह यह नहीं जानता था कि इसे कैसे लागू किया जाए, हालांकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था<ref name="kelley1960">{{cite journal|last1=Kelley|first1=Henry J.|author-link=Henry J. Kelley|year=1960|title=इष्टतम उड़ान पथों का क्रमिक सिद्धांत|journal=ARS Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282}}</ref> पहले से ही 1960 में [[नियंत्रण सिद्धांत]] के संदर्भ में।<ref name=DLhistory />आधुनिक पश्च-प्रचार वास्तव में [[सेप्पो लिनैनमा]] का स्वचालित विभेदन (1970) का सामान्य रिवर्स मोड है जो नेस्टेड विभेदी कार्य कार्यों के असतत जुड़े नेटवर्क के लिए है।<ref name="lin1970">{{cite thesis|first=Seppo|last=Linnainmaa|author-link=Seppo Linnainmaa|year=1970|type=Masters|title=स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व|language=fi|publisher=University of Helsinki|pages=6–7}}</ref><ref name="lin1976">{{cite journal|last1=Linnainmaa|first1=Seppo|author-link=Seppo Linnainmaa|year=1976|title=संचित गोलाई त्रुटि का टेलर विस्तार|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|s2cid=122357351}}</ref> यह श्रृंखला नियम का कुशल अनुप्रयोग है (1673 में [[गॉटफ्रीड विल्हेम लीबनिज]] द्वारा व्युत्पन्न)<ref name="leibniz1676">{{Cite book|last=Leibniz|first=Gottfried Wilhelm Freiherr von|url=https://books.google.com/books?id=bOIGAAAAYAAJ&q=leibniz+altered+manuscripts&pg=PA90|title=The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir)|date=1920|publisher=Open court publishing Company|language=en}}</ref><ref>{{cite journal|url= https://scholarworks.umt.edu/tme/vol7/iss2/10/ |title=श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब|journal=The Mathematics Enthusiast |year=2010 |volume=7 |pages=321–332 |issue=2 |first1=Omar Hernández |last1=Rodríguez |first2=Jorge M. |last2=López Fernández |doi=10.54870/1551-3440.1191 |s2cid=29739148 |access-date=2019-08-04|doi-access=free }}</ref>) अलग-अलग ग्रंथि के नेटवर्क के लिए।<ref name=DLhistory />1982 में, [[पॉल वर्बोस]] ने MLPs के लिए उस प्रकार से बैकप्रॉपैगैशन लागू किया जो मानक बन गया है।<ref name="werbos1982">{{Cite book|title=सिस्टम मॉडलिंग और अनुकूलन|last=Werbos|first=Paul|publisher=Springer|year=1982|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis|author-link=Paul Werbos|chapter-url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|access-date=2 July 2017|archive-date=14 April 2016|archive-url=https://web.archive.org/web/20160414055503/http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|url-status=live}}</ref><ref name=DLhistory />1985 में, डेविड ई. रुमेलहार्ट एट अल। प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया।<ref name="rumelhart1986">Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "[https://apps.dtic.mil/dtic/tr/fulltext/u2/a164453.pdf Learning Internal Representations by Error Propagation]". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.</ref> बाद के दशकों में कई सुधार लागू किए गए हैं।<ref name=DLhistory />
सामान्यतः सामान्य तौर पर, नेटवर्क को अच्छा प्रदर्शन करने के लिए सिखाने की समस्या, यहां तक ​​कि उन नमूनों पर भी जो प्रशिक्षण नमूने के रूप में उपयोग नहीं किए गए थे, एक बहुत ही सूक्ष्म अंक है जिसके लिए अतिरिक्त प्रविधियों की आवश्यकता होती है। यह उन स्थितियों के लिए विशेष रूप से महत्वपूर्ण है जहां बहुत सीमित संख्या में प्रशिक्षण नमूने उपलब्ध हैं।<ref name=Balabin_2007>{{cite journal |journal=[[Chemometrics and Intelligent Laboratory Systems|Chemometr Intell Lab]] |volume = 88 |issue = 2 |pages = 183–188 |doi=10.1016/j.chemolab.2007.04.006 |title=गैसोलीन गुणों की भविष्यवाणी के लिए निकट अवरक्त (एनआईआर) स्पेक्ट्रोस्कोपी डेटा के आधार पर रैखिक और गैर-रैखिक अंशांकन मॉडल की तुलना|year=2007 |author1=Roman M. Balabin |author2=Ravilya Z. Safieva |author3=Ekaterina I. Lomakina |author1-link = Roman Balabin }</ref> खतरा यह है कि नेटवर्क प्रशिक्षण डेटा को ओवरफिट कर रहा है और डेटा उत्पन्न करने वाली वास्तविक सांख्यिकीय प्रक्रिया को पकड़ने में विफल रहता है। [[ कम्प्यूटेशनल सीखने का सिद्धांत |कम्प्यूटेशनल सीखने का सिद्धांत]] सीमित मात्रा में डेटा पर प्रशिक्षण वर्गीकरणकर्ता से संबंधित है। न्यूरल नेटवर्क के संदर्भ में सरल [[अनुमानी]], जिसे प्रारंभिक रोक कहा जाता है, अधिकांशतः यह सुनिश्चित करता है कि नेटवर्क उन उदाहरणों को अच्छी प्रकार से सामान्य करेगा जो प्रशिक्षण समूह में नहीं हैं।


बैकप्रोपैगेशन के दौरान, कुछ पूर्वनिर्धारित त्रुटि-फ़ंक्शन के मान की गणना करने के लिए आउटपुट मानों की तुलना सही उत्तर से की जाती है। त्रुटि तब नेटवर्क के माध्यम से वापस फीड की जाती है। इस जानकारी का उपयोग करते हुए, एल्गोरिथ्म प्रत्येक सम्बन्ध के भार को कुछ छोटी राशि से त्रुटि फ़ंक्शन के मान को कम करने के लिए समायोजित करता है। पर्याप्त रूप से बड़ी संख्या में प्रशिक्षण चक्रों के लिए इस प्रक्रिया को दोहराने के बाद, नेटवर्क सामान्यतः किसी ऐसी स्थिति में परिवर्तित हो जाएगा जहां गणना की त्रुटि छोटी है। इस मामले में, कोई कहेगा कि नेटवर्क ने निश्चित लक्ष्य कार्य सीखा है। भार को ठीक से समायोजित करने के लिए, गैर-रैखिक [[अनुकूलन (गणित)]] के लिए सामान्य विधि लागू होती है जिसे [[ऑगस्टिन-लुई कॉची]] के कारण ग्रेडिएंट डिसेंट कहा जाता है, जिसने पहली बार 1847 में इसका सुझाव दिया था।<ref name="cauchy1847">{{cite journal |first=C. |last=Lemaréchal |author-link=Claude Lemaréchal |title=कौची और ढाल विधि|journal=Doc Math Extra |pages=251–254 |year=2012 |url=https://www.math.uni-bielefeld.de/documenta/vol-ismp/40_lemarechal-claude.pdf }}</ref> इसके लिए, नेटवर्क नेटवर्क भार के संबंध में त्रुटि फ़ंक्शन के व्युत्पन्न की गणना करता है, और भार को इस प्रकार बदलता है कि त्रुटि कम हो जाती है (इस प्रकार त्रुटि फ़ंक्शन की सतह पर डाउनहिल जा रहा है)। इस कारण से, बैक-प्रचार केवल अलग-अलग सक्रियण कार्यों वाले नेटवर्क पर ही लागू किया जा सकता है।
पश्च-प्रचार एल्गोरिथम की अन्य विशिष्ट समस्याएं अभिसरण की गति और [[स्थानीय न्यूनतम]] त्रुटि फलन में समाप्त होने की संभावना है। आज, व्यावहारिक प्रणालियों हैं जो बहु-परत परसेप्ट्रॉन में पश्च प्रसारण को कई [[ यंत्र अधिगम |यंत्र अधिगम]] कार्यों के लिए पसंद का उपकरण बनाते हैं।


सामान्य तौर पर, नेटवर्क को अच्छा प्रदर्शन करने के लिए सिखाने की समस्या, उन नमूनों पर भी जो प्रशिक्षण नमूने के रूप में उपयोग नहीं किए गए थे, बहुत ही सूक्ष्म मुद्दा है जिसके लिए अतिरिक्त तकनीकों की आवश्यकता होती है। यह उन मामलों के लिए विशेष रूप से महत्वपूर्ण है जहां बहुत सीमित संख्या में प्रशिक्षण नमूने उपलब्ध हैं।<ref name=Balabin_2007>{{cite journal |journal=[[Chemometrics and Intelligent Laboratory Systems|Chemometr Intell Lab]] |volume = 88 |issue = 2 |pages = 183–188 |doi=10.1016/j.chemolab.2007.04.006 |title=गैसोलीन गुणों की भविष्यवाणी के लिए निकट अवरक्त (एनआईआर) स्पेक्ट्रोस्कोपी डेटा के आधार पर रैखिक और गैर-रैखिक अंशांकन मॉडल की तुलना|year=2007 |author1=Roman M. Balabin |author2=Ravilya Z. Safieva |author3=Ekaterina I. Lomakina |author1-link = Roman Balabin }</ref> खतरा यह है कि नेटवर्क प्रशिक्षण डेटा को ओवरफिट कर रहा है और डेटा उत्पन्न करने वाली वास्तविक सांख्यिकीय प्रक्रिया को पकड़ने में विफल रहता है। [[ कम्प्यूटेशनल सीखने का सिद्धांत |कम्प्यूटेशनल सीखने का सिद्धांत]] सीमित मात्रा में डेटा पर प्रशिक्षण क्लासिफायर से संबंधित है। तंत्रिका नेटवर्क के संदर्भ में सरल [[अनुमानी]], जिसे शुरुआती रोक कहा जाता है, अधिकांशतः यह सुनिश्चित करता है कि नेटवर्क उन उदाहरणों को अच्छी प्रकार से सामान्य करेगा जो प्रशिक्षण समूह में नहीं हैं।
कोई भी किसी मध्यस्थ द्वारा संचालित स्वतंत्र न्यूरल नेटवर्क की श्रृंखला का उपयोग कर सकता है, समान व्यवहार जो मस्तिष्क में होता है। ये न्यूरॉन्स अलग-अलग प्रदर्शन कर सकते हैं और बड़े कार्य को संभाल सकते हैं और परिणाम अंत में संयुक्त हो सकते हैं।<ref>{{cite journal|last1=Tahmasebi|first1=Pejman|last2=Hezarkhani|first2=Ardeshir|title=ग्रेड अनुमान के लिए एक मॉड्यूलर फीडफॉरवर्ड न्यूरल नेटवर्क का अनुप्रयोग|journal=Natural Resources Research|date=21 January 2011|volume=20|issue=1|pages=25–32|doi=10.1007/s11053-011-9135-3|s2cid=45997840|url=https://www.researchgate.net/publication/225535280}}</ref>
 
पश्च-प्रचार एल्गोरिथम की अन्य विशिष्ट समस्याएं अभिसरण की गति और [[स्थानीय न्यूनतम]] त्रुटि फ़ंक्शन में समाप्त होने की संभावना है। आज, व्यावहारिक तरीके हैं जो बहु-परत परसेप्ट्रॉन में बैक-प्रचार को कई [[ यंत्र अधिगम |यंत्र अधिगम]] कार्यों के लिए पसंद का उपकरण बनाते हैं।
 
कोई भी किसी मध्यस्थ द्वारा संचालित स्वतंत्र तंत्रिका नेटवर्क की श्रृंखला का उपयोग कर सकता है, समान व्यवहार जो मस्तिष्क में होता है। ये न्यूरॉन्स अलग-अलग प्रदर्शन कर सकते हैं और बड़े कार्य को संभाल सकते हैं, और परिणाम अंत में संयुक्त हो सकते हैं।<ref>{{cite journal|last1=Tahmasebi|first1=Pejman|last2=Hezarkhani|first2=Ardeshir|title=ग्रेड अनुमान के लिए एक मॉड्यूलर फीडफॉरवर्ड न्यूरल नेटवर्क का अनुप्रयोग|journal=Natural Resources Research|date=21 January 2011|volume=20|issue=1|pages=25–32|doi=10.1007/s11053-011-9135-3|s2cid=45997840|url=https://www.researchgate.net/publication/225535280}}</ref>
== अन्य फीडफॉरवर्ड नेटवर्क ==
== अन्य फीडफॉरवर्ड नेटवर्क ==
अधिक आम तौर पर, किसी भी निर्देशित चक्रीय ग्राफ का उपयोग फीडफॉर्वर्ड नेटवर्क के लिए किया जा सकता है, जिसमें कुछ ग्रंथि (बिना माता-पिता के) इनपुट के रूप में नामित होते हैं, और कुछ ग्रंथि (बिना बच्चों के) आउटपुट के रूप में नामित होते हैं। इन्हें बहुपरत नेटवर्क के रूप में देखा जा सकता है जहां कुछ किनारे परतों को छोड़ देते हैं, या तो परतों को आउटपुट से पीछे की ओर या इनपुट से आगे की ओर गिनते हैं। विभिन्न सक्रियण कार्यों का उपयोग किया जा सकता है, और भार के बीच संबंध हो सकते हैं, जैसे [[दृढ़ तंत्रिका नेटवर्क]] में।
अधिक सामान्यतः किसी भी निर्देशित चक्रीय ग्राफ का उपयोग फीडफॉर्वर्ड नेटवर्क के लिए किया जा सकता है, जिसमें कुछ ग्रंथि (बिना माता-पिता के) निविष्ट के रूप में नामित होते हैं और कुछ ग्रंथि (बिना बच्चों के) उत्पादन  के रूप में नामित होते हैं। इन्हें बहुपरत नेटवर्क के रूप में देखा जा सकता है जहां कुछ किनारे परतों को छोड़ देते हैं, तो परतों को उत्पादन से पीछे की ओर या निविष्ट से आगे की ओर गिनते हैं। विभिन्न सक्रियण कार्यों का उपयोग किया जा सकता है और भार के बीच संबंध हो सकते हैं, जैसे [[दृढ़ तंत्रिका नेटवर्क|दृढ़ न्यूरल नेटवर्क]] में होते हैं।


अन्य फीडफॉर्वर्ड नेटवर्क के उदाहरणों में [[रेडियल आधार समारोह नेटवर्क]] शामिल हैं, जो अलग सक्रियण फ़ंक्शन का उपयोग करते हैं।
अन्य फीडफॉर्वर्ड नेटवर्क के उदाहरणों में [[रेडियल आधार फलन|रेडियल आधार फलन नेटवर्क]] सम्मलित हैं, जो अलग सक्रियण फलन का उपयोग करते हैं।


कभी-कभी मल्टी-लेयर परसेप्ट्रॉन का उपयोग किसी भी फीडफॉरवर्ड न्यूरल नेटवर्क को संदर्भित करने के लिए शिथिल रूप से किया जाता है, जबकि अन्य मामलों में यह विशिष्ट लोगों तक ही सीमित होता है (उदाहरण के लिए, विशिष्ट सक्रियण कार्यों के साथ, या पूरी प्रकार से जुड़ी हुई परतों के साथ, या परसेप्ट्रॉन एल्गोरिथम द्वारा प्रशिक्षित)
कभी-कभी बहु परत परसेप्ट्रॉन का उपयोग किसी भी फीडफॉरवर्ड न्यूरल नेटवर्क को संदर्भित करने के लिए शिथिल रूप से किया जाता है, जबकि अन्य स्थितियों में यह विशिष्ट लोगों तक ही सीमित होता है (उदाहरण के लिए, विशिष्ट सक्रियण कार्यों के साथ, पूरी प्रकार से जुड़ी हुई परतों के साथ, परसेप्ट्रॉन एल्गोरिथम द्वारा प्रशिक्षित है।)


== यह भी देखें ==
== यह भी देखें ==
* [[हॉपफील्ड नेटवर्क]]
* [[हॉपफील्ड नेटवर्क]]
* संवेदी तंत्रिका नेटवर्क
* संवेदी न्यूरल नेटवर्क
* [[फीडफॉरवर्ड नियंत्रण)]]नियंत्रण)|फीड-फॉरवर्ड
* [[फीडफॉरवर्ड नियंत्रण)|फीडफॉरवर्ड नियंत्रण]]
* पश्चप्रचार
* पश्चप्रचार
* [[आरप्रॉप]]
* [[आरप्रॉप]]
Line 83: Line 80:


{{Differentiable computing}}
{{Differentiable computing}}
[[Category: तंत्रिका नेटवर्क आर्किटेक्चर]]


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 maint]]
[[Category:CS1 suomi-language sources (fi)]]
[[Category:Collapse templates]]
[[Category:Created On 02/05/2023]]
[[Category:Created On 02/05/2023]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with broken file links]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:तंत्रिका नेटवर्क आर्किटेक्चर]]

Latest revision as of 17:27, 16 May 2023

फीडफॉरवर्ड नेटवर्क में, सूचना सदैव दिशा में चलती है; यह कभी पीछे नहीं हटता।

फीडफॉर्वर्ड न्यूरल नेटवर्क (FNN) कृत्रिम न्यूरल नेटवर्क है, जिसमें ग्रंथि के बीच सम्बन्ध चक्र नहीं बनाते हैं।[1] जैसे, यह अपने वंश से भिन्न है: आवर्तक न्यूरल नेटवर्क

फीडफॉर्वर्ड न्यूरल नेटवर्क तैयार किया गया पहला और सरल प्रकार का आवर्तक न्यूरल नेटवर्क था।[2] इस नेटवर्क में, जानकारी केवल एक दिशा में आगे बढ़ती है - निविष्ट ग्रंथि से, छिपे हुए ग्रंथि के माध्यम से और उत्पादन ग्रंथि के लिए नेटवर्क में कोई चक्र या लूप नहीं हैं।[1]

रैखिक न्यूरल नेटवर्क

फीडफॉरवर्ड न्यूरल नेटवर्क का सबसे सरल प्रकार रैखिक नेटवर्क है, जिसमें उत्पादन ग्रंथि की परत होती है, निविष्ट सीधे उत्पादन को भार की श्रृंखला के माध्यम से सिंचित किया जाता है। भार और निविष्ट के उत्पादों का योग प्रत्येक ग्रंथि में गणना की जाती है। इन परिकलित उत्पादन और दिए गए लक्ष्य मानों के बीच माध्य त्रुटियाँ भार में समायोजन करके न्यूनतम की जाती हैं। इस प्रविधि को कम से कम वर्गों या रैखिक प्रतिगमन की विधि के रूप में दो सदियों से जाना जाता है। ग्रहों की गति की भविष्यवाणी के लिए एड्रियन मैरी लीजेंड्रे (1805) और गॉस (1795) द्वारा बिंदुओं के समूह के लिए अच्छा मोटा रैखिक योग्य खोजने के साधन के रूप में इसका उपयोग किया गया था।[3][4][5][6][7]

एकल परत परसेप्ट्रॉन

एकल परत परसेप्ट्रॉन रैखिक न्यूरल नेटवर्क को सीमा फलन के साथ जोड़ता है। यदि उत्पादन मान कुछ सीमा (सामान्यतः 0) से ऊपर है, तो न्यूरॉन सक्रिय हो जाता है और सक्रिय मान (सामान्यतः 1) ले लेता है; अन्यथा यह निष्क्रिय मान (सामान्यतः -1) लेता है। इस प्रकार के सक्रियण कार्य वाले न्यूरॉन्स को अधिकांशतः रैखिक थ्रेशोल्ड इकाइयां कहा जाता है। साहित्य में शब्द परसेप्ट्रॉन अधिकांशतः इन इकाइयों में से केवल से मिलकर नेटवर्क को संदर्भित करता है। इसी प्रकार के "न्यूरॉन्स" को 1920 के दशक में आइसिंग मॉडल के लिए अर्नस्ट इसिंग और विलियम लेनज़ द्वारा और 1940 के दशक में वॉरेन मैककुलोच और वाल्टर पिट्स द्वारा भौतिकी में वर्णित किया गया था [8]

सक्रिय और निष्क्रिय अवस्थाओं के लिए किसी भी मान का उपयोग करके परसेप्ट्रॉन बनाया जा सकता है जब तक कि थ्रेशोल्ड मान दोनों के बीच स्थित हो।

परसेप्ट्रॉन को साधारण सीखने का एल्गोरिथम द्वारा प्रशिक्षित किया जा सकता है जिसे सामान्यतः डेल्टा नियम कहा जाता है। यह परिकलित उत्पादन और नमूना उत्पादन डेटा के बीच त्रुटियों की गणना करता है और इसका उपयोग भार में समायोजन करने के लिए करता है, इस प्रकार प्रवणता अवरोहण का एक रूप लागू करता है।

एकल परत परसेप्ट्रॉन केवल रैखिक रूप से वियोज्य प्रतिरूप सीखने में सक्षम हैं, 1969 में परसेप्ट्रॉन (पुस्तक) नामक प्रसिद्ध प्रबंध में, मार्विन मिंस्की और सीमोर पैपर्ट ने दिखाया कि एकल-परत परसेप्ट्रॉन नेटवर्क के लिए विशेष सीखना असंभव था। तथापि, यह ज्ञात था कि बहु परत परसेप्ट्रॉन (एमएलपी s) किसी भी संभावित बूलियन फलन को उत्पन्न करने में सक्षम हैं। उदाहरण के लिए, पहले से ही 1967 में, शुनिची अमारी[9][6] प्रसंभाव्यता प्रवणता अवरोहण द्वारा एमएलपी को प्रशिक्षित किया।[10] चूंकि एकल सीमा इकाइयां अपनी कम्प्यूटेशनल शक्ति में अधिक सीमित है, यह दिखाया गया है कि समांतर सीमा इकाइयों के नेटवर्क वास्तविक संख्याओं के सुगठित अंतराल से अंतराल [-1,1] में सार्वभौमिक सन्निकटन प्रमेय कर सकते हैं। यह परिणाम पीटर ऑउर, हेरोल्ड बर्गस्टीनर और वोल्फगैंग मास में पाया जा सकता है, बहुत ही सरल सार्वभौमिक सन्निकटन के लिए सीखने का नियम जिसमें परसेप्ट्रॉन की परत होती है।[11] एकल परत न्यूरल नेटवर्क स्टेप फलन के अतिरिक्त निरंतर उत्पादन की गणना कर सकता है। सामान्य विकल्प तथाकथित तार्किक फलन है:

इस विकल्प के साथ, एकल परत नेटवर्क संभार तन्त्र परावर्तन मॉडल के समान है, जो सांख्यिकीय मॉडल में व्यापक रूप से उपयोग किया जाता है। तार्किक फलन सिग्मॉइड फलन नामक कार्यों के परिवार में से है क्योंकि उनके S-आकार के ग्राफ़ ग्रीक अक्षर सिग्मा के अंतिम-अक्षर के निचले स्थितियों से मिलते जुलते हैं। इसका निरंतर व्युत्पन्न है, जो इसे पश्च प्रसारण में उपयोग करने की अनुमति देता है। यह फलन भी पसंद किया जाता है क्योंकि इसके व्युत्पन्न की गणना आसानी से की जाती है:

.

यह तथ्य कि श्रृंखला नियम को लागू करके उपरोक्त अंतर समीकरण को आसानी से दिखाया जा सकता है।

यदि एकल परत न्यूरल नेटवर्क सक्रियण फलन मॉड्यूलर अंकगणित 1 है, तो यह नेटवर्क न्यूरॉन के साथ एक्सओआर समस्या को हल कर सकता है।

बहु परत परसेप्ट्रॉन

एक्सओआर की गणना करने में सक्षम दो-परत न्यूरल नेटवर्क। न्यूरॉन्स के भीतर की संख्या प्रत्येक न्यूरॉन की स्पष्ट सीमा का प्रतिनिधित्व करती है (जिसे ध्यान से विचार किया जा सकता है जिससे कि सभी न्यूरॉन्स की ही सीमा हो, सामान्यतः 1)। संख्याएँ जो तीरों को त्रुटिहीन करती हैं, निविष्ट के भार का प्रतिनिधित्व करती हैं। यह नेट मानता है कि यदि सीमा तक नहीं पहुंचा है, तो शून्य (-1 नहीं) उत्पादन है। ध्यान दें कि निविष्ट की निचली परत को सदैव वास्तविक न्यूरल नेटवर्क परत नहीं माना जाता है

नेटवर्क के इस वर्ग में कम्प्यूटेशनल इकाइयों की कई परतें होती हैं, जो सामान्यतः फीड-फॉरवर्ड प्रणालियों से परस्पर जुड़ी होती हैं। परत में प्रत्येक न्यूरॉन ने बाद की परत के न्यूरॉन्स से सम्बन्ध निर्देशित किया है। कई अनुप्रयोगों में इन नेटवर्कों की इकाइयां सिग्मॉइड फलन को सक्रियण फलन के रूप में लागू करती हैं। चूंकि सिग्मोइडल सक्रियण कार्यों में छोटी सी सीमा के बाहर बहुत छोटे व्युत्पन्न मूल्य होते हैं और गायब होने वाली ढाल समस्या के कारण गहरे न्यूरल नेटवर्क में अच्छी प्रकार से काम नहीं करते हैं।

न्यूरल नेटवर्क के लिए सार्वभौमिक सन्निकटन प्रमेय[12] बताता है कि प्रत्येक निरंतर कार्य जो वास्तविक संख्याओं के अंतराल को वास्तविक संख्याओं के कुछ उत्पादन अंतराल के लिए मानचित्रित करता है, केवल छिपी हुई परत के साथ बहु-परत परसेप्ट्रॉन द्वारा निरंकुश ढंग से निकटता से अनुमान लगाया जा सकता है। यह परिणाम सक्रियण कार्यों की विस्तृत श्रृंखला के लिए है, उदाहरण, सिग्मोइडल कार्यों के लिए।

बहु परत नेटवर्क विभिन्न प्रकार की सीखने की प्रविधियों का उपयोग करते हैं। पहला ध्यान लगा के पढ़ना या सीखना एमएलपी 1965 में एलेक्सी ग्रिगोरविच इवाखेंको और वैलेन्टिन लैपा द्वारा प्रकाशित किया गया था।[13][14][6]उन्होंने अपनी एमएलपी परत को परत दर परत प्रशिक्षित किया, जब तक शेष त्रुटि स्वीकार्य नहीं थी, तब तक परतों को जोड़ते हुए, अलग सत्यापन समूह की सहायता से लगातार अनावश्यक छिपी हुई इकाइयों की छंटाई करते रहे।[6]

स्टोचैस्टिक प्रवणता अवरोहण द्वारा प्रशिक्षित पहला डीप सीखने का एमएलपी[10]1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।[9]अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग प्रतिरूप कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ पांच परत एमएलपी आंतरिक प्रतिनिधित्व सीखा।[6]

आज, एमएलपी के प्रशिक्षण के लिए सबसे लोकप्रिय विधि पश्च प्रसारण है। 1962 में फ्रैंक रोसेनब्लैट द्वारा शब्दावली पश्च प्रसारण त्रुटियाँ की प्रारंभिक की गई थी,[15][6]किन्तु वह यह नहीं जानता था कि इसे कैसे लागू किया जाए, चूंकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था[16] पहले से ही 1960 में नियंत्रण सिद्धांत के संदर्भ में।[6]आधुनिक पश्च-प्रचार वास्तव में सेप्पो लिनैनमा का स्वचालित विभेदन (1970) का सामान्य उत्क्रम प्रणाली है जो स्थिर विभेदी कार्यों के असतत जुड़े नेटवर्क के लिए है।[17][18] यह श्रृंखला नियम का कुशल अनुप्रयोग है (1673 में गॉटफ्रीड विल्हेम लीबनिज द्वारा व्युत्पन्न)[19][20] अलग-अलग ग्रंथि के नेटवर्क के लिए।[6]1982 में, पॉल वर्बोस ने एमएलपी के लिए उस प्रकार से वापस प्रसार लागू किया जो मानक बन गया है।[21][6]1985 में, डेविड ई. रुमेलहार्ट एट अल प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया।[22] बाद के दशकों में कई सुधार लागू किए गए हैं।[6]

वापस प्रसार के पर्यन्त , कुछ पूर्वनिर्धारित त्रुटि-फलन के मान की गणना करने के लिए उत्पादन मानों की तुलना सही उत्तर से की जाती है। त्रुटि तब नेटवर्क के माध्यम से वापस फीड की जाती है। इस जानकारी का उपयोग करते हुए, एल्गोरिथ्म प्रत्येक सम्बन्ध के भार को कुछ छोटी राशि से त्रुटि फलन के मान को कम करने के लिए समायोजित करता है। पर्याप्त रूप से बड़ी संख्या में प्रशिक्षण चक्रों के लिए इस प्रक्रिया को दोहराने के बाद, नेटवर्क सामान्यतः किसी ऐसी स्थिति में परिवर्तित हो जाएगा जहां गणना की त्रुटि छोटी है। इस स्थितियों में कोई कहेगा कि नेटवर्क ने निश्चित लक्ष्य कार्य सीखा है। भार को ठीक से समायोजित करने के लिए, गैर-रैखिक अनुकूलन (गणित) के लिए सामान्य विधि लागू होती है जिसे ऑगस्टिन-लुई कॉची के कारण प्रवणता अवरोहण कहा जाता है, जिसने पहली बार 1847 में इसका सुझाव दिया था।[23] इसके लिए, नेटवर्क नेटवर्क भार के संबंध में त्रुटि फलन के व्युत्पन्न की गणना करता है और भार को इस प्रकार बदलता है कि त्रुटि कम हो जाती है (इस प्रकार त्रुटि फलन की सतह पर नीचे की ओर जा रहा है)। इस कारण से, पश्च प्रसारण केवल अलग-अलग सक्रियण कार्यों वाले नेटवर्क पर ही लागू किया जा सकता है।

सामान्यतः सामान्य तौर पर, नेटवर्क को अच्छा प्रदर्शन करने के लिए सिखाने की समस्या, यहां तक ​​कि उन नमूनों पर भी जो प्रशिक्षण नमूने के रूप में उपयोग नहीं किए गए थे, एक बहुत ही सूक्ष्म अंक है जिसके लिए अतिरिक्त प्रविधियों की आवश्यकता होती है। यह उन स्थितियों के लिए विशेष रूप से महत्वपूर्ण है जहां बहुत सीमित संख्या में प्रशिक्षण नमूने उपलब्ध हैं।[24] खतरा यह है कि नेटवर्क प्रशिक्षण डेटा को ओवरफिट कर रहा है और डेटा उत्पन्न करने वाली वास्तविक सांख्यिकीय प्रक्रिया को पकड़ने में विफल रहता है। कम्प्यूटेशनल सीखने का सिद्धांत सीमित मात्रा में डेटा पर प्रशिक्षण वर्गीकरणकर्ता से संबंधित है। न्यूरल नेटवर्क के संदर्भ में सरल अनुमानी, जिसे प्रारंभिक रोक कहा जाता है, अधिकांशतः यह सुनिश्चित करता है कि नेटवर्क उन उदाहरणों को अच्छी प्रकार से सामान्य करेगा जो प्रशिक्षण समूह में नहीं हैं।

पश्च-प्रचार एल्गोरिथम की अन्य विशिष्ट समस्याएं अभिसरण की गति और स्थानीय न्यूनतम त्रुटि फलन में समाप्त होने की संभावना है। आज, व्यावहारिक प्रणालियों हैं जो बहु-परत परसेप्ट्रॉन में पश्च प्रसारण को कई यंत्र अधिगम कार्यों के लिए पसंद का उपकरण बनाते हैं।

कोई भी किसी मध्यस्थ द्वारा संचालित स्वतंत्र न्यूरल नेटवर्क की श्रृंखला का उपयोग कर सकता है, समान व्यवहार जो मस्तिष्क में होता है। ये न्यूरॉन्स अलग-अलग प्रदर्शन कर सकते हैं और बड़े कार्य को संभाल सकते हैं और परिणाम अंत में संयुक्त हो सकते हैं।[25]

अन्य फीडफॉरवर्ड नेटवर्क

अधिक सामान्यतः किसी भी निर्देशित चक्रीय ग्राफ का उपयोग फीडफॉर्वर्ड नेटवर्क के लिए किया जा सकता है, जिसमें कुछ ग्रंथि (बिना माता-पिता के) निविष्ट के रूप में नामित होते हैं और कुछ ग्रंथि (बिना बच्चों के) उत्पादन के रूप में नामित होते हैं। इन्हें बहुपरत नेटवर्क के रूप में देखा जा सकता है जहां कुछ किनारे परतों को छोड़ देते हैं, तो परतों को उत्पादन से पीछे की ओर या निविष्ट से आगे की ओर गिनते हैं। विभिन्न सक्रियण कार्यों का उपयोग किया जा सकता है और भार के बीच संबंध हो सकते हैं, जैसे दृढ़ न्यूरल नेटवर्क में होते हैं।

अन्य फीडफॉर्वर्ड नेटवर्क के उदाहरणों में रेडियल आधार फलन नेटवर्क सम्मलित हैं, जो अलग सक्रियण फलन का उपयोग करते हैं।

कभी-कभी बहु परत परसेप्ट्रॉन का उपयोग किसी भी फीडफॉरवर्ड न्यूरल नेटवर्क को संदर्भित करने के लिए शिथिल रूप से किया जाता है, जबकि अन्य स्थितियों में यह विशिष्ट लोगों तक ही सीमित होता है (उदाहरण के लिए, विशिष्ट सक्रियण कार्यों के साथ, पूरी प्रकार से जुड़ी हुई परतों के साथ, परसेप्ट्रॉन एल्गोरिथम द्वारा प्रशिक्षित है।)

यह भी देखें

संदर्भ

  1. 1.0 1.1 Zell, Andreas (1994). तंत्रिका नेटवर्क का अनुकरण [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.{{cite book}}: CS1 maint: unrecognized language (link)
  2. Schmidhuber, Jürgen (2015-01-01). "Deep learning in neural networks: An overview". Neural Networks (in English). 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. ISSN 0893-6080. PMID 25462637. S2CID 11715509.
  3. Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares"
  4. Stigler, Stephen M. (1981). "गॉस और कम से कम वर्गों का आविष्कार". Ann. Stat. 9 (3): 465–474. doi:10.1214/aos/1176345451.
  5. Bretscher, Otto (1995). अनुप्रयोगों के साथ रेखीय बीजगणित (3rd ed.). Upper Saddle River, NJ: Prentice Hall.
  6. 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
  7. Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN 0-674-40340-1.
  8. Brush, Stephen G. (1967). "लेनज़-आइज़िंग मॉडल का इतिहास". Reviews of Modern Physics. 39 (4): 883–893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883.
  9. 9.0 9.1 Amari, Shun'ichi (1967). "अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत". IEEE Transactions. EC (16): 279–307.
  10. 10.0 10.1 Robbins, H.; Monro, S. (1951). "एक स्टोकेस्टिक सन्निकटन विधि". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
  11. Auer, Peter; Harald Burgsteiner; Wolfgang Maass (2008). "परसेप्ट्रॉन की एक परत से युक्त बहुत ही सरल सार्वभौमिक सन्निकटन के लिए एक सीखने का नियम" (PDF). Neural Networks. 21 (5): 786–795. doi:10.1016/j.neunet.2007.12.036. PMID 18249524. Archived from the original (PDF) on 2011-07-06. Retrieved 2009-09-08.
  12. Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function Mathematics of Control, Signals, and Systems, 2(4), 303–314.
  13. Ivakhnenko, A. G. (1973). साइबरनेटिक भविष्यवाणी करने वाले उपकरण. CCM Information Corporation.
  14. Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). साइबरनेटिक्स और पूर्वानुमान तकनीक. American Elsevier Pub. Co.
  15. Rosenblatt, Frank (1962). न्यूरोडायनामिक्स के सिद्धांत. Spartan, New York.
  16. Kelley, Henry J. (1960). "इष्टतम उड़ान पथों का क्रमिक सिद्धांत". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
  17. Linnainmaa, Seppo (1970). स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व (Masters) (in suomi). University of Helsinki. pp. 6–7.
  18. Linnainmaa, Seppo (1976). "संचित गोलाई त्रुटि का टेलर विस्तार". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
  19. Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (in English). Open court publishing Company.
  20. Rodríguez, Omar Hernández; López Fernández, Jorge M. (2010). "श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब". The Mathematics Enthusiast. 7 (2): 321–332. doi:10.54870/1551-3440.1191. S2CID 29739148. Retrieved 2019-08-04.
  21. Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). सिस्टम मॉडलिंग और अनुकूलन. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
  22. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
  23. Lemaréchal, C. (2012). "कौची और ढाल विधि" (PDF). Doc Math Extra: 251–254.
  24. {{cite journal |journal=Chemometr Intell Lab |volume = 88 |issue = 2 |pages = 183–188 |doi=10.1016/j.chemolab.2007.04.006 |title=गैसोलीन गुणों की भविष्यवाणी के लिए निकट अवरक्त (एनआईआर) स्पेक्ट्रोस्कोपी डेटा के आधार पर रैखिक और गैर-रैखिक अंशांकन मॉडल की तुलना|year=2007 |author1=Roman M. Balabin |author2=Ravilya Z. Safieva |author3=Ekaterina I. Lomakina |author1-link = Roman Balabin }
  25. Tahmasebi, Pejman; Hezarkhani, Ardeshir (21 January 2011). "ग्रेड अनुमान के लिए एक मॉड्यूलर फीडफॉरवर्ड न्यूरल नेटवर्क का अनुप्रयोग". Natural Resources Research. 20 (1): 25–32. doi:10.1007/s11053-011-9135-3. S2CID 45997840.


बाहरी संबंध