फीडफॉरवर्ड न्यूरल नेटवर्क
फीडफॉर्वर्ड न्यूरल नेटवर्क (FNN) कृत्रिम न्यूरल नेटवर्क है, जिसमें ग्रंथि के बीच सम्बन्ध चक्र नहीं बनाते हैं।[1] जैसे, यह अपने वंशज से अलग है: आवर्तक तंत्रिका नेटवर्क।
फीडफॉर्वर्ड न्यूरल नेटवर्क तैयार किया गया पहला और सरल प्रकार का आवर्तक तंत्रिका नेटवर्क था।[2] इस नेटवर्क में, जानकारी केवल एक दिशा में आगे बढ़ती है - इनपुट ग्रंथि से, छिपे हुए ग्रंथि के माध्यम से और आउटपुट ग्रंथि के लिए। नेटवर्क में कोई चक्र या लूप नहीं हैं।[1]
रैखिक तंत्रिका नेटवर्क
फीडफॉरवर्ड न्यूरल नेटवर्क का सबसे सरल प्रकार रैखिक नेटवर्क है, जिसमें आउटपुट ग्रंथि की परत होती है, इनपुट सीधे आउटपुट को भार की श्रृंखला के माध्यम से सिंचित किया जाता है। भार और इनपुट के उत्पादों का योग प्रत्येक ग्रंथि में गणना की जाती है। इन परिकलित आउटपुट और दिए गए लक्ष्य मानों के बीच माध्य त्रुटियाँ भार में समायोजन करके न्यूनतम की जाती हैं। इस प्रविधि को कम से कम वर्गों या रैखिक प्रतिगमन की विधि के रूप में दो सदियों से जाना जाता है। ग्रहों की गति की भविष्यवाणी के लिए एड्रियन मैरी लीजेंड्रे (1805) और गॉस (1795) द्वारा बिंदुओं के समूह के लिए अच्छा मोटा रैखिक फिट खोजने के साधन के रूप में इसका उपयोग किया गया था।[3][4][5][6][7]
एकल परत परसेप्ट्रॉन
एकल परत परसेप्ट्रॉन रैखिक तंत्रिका नेटवर्क को थ्रेसहोल्ड फ़ंक्शन के साथ जोड़ता है। यदि आउटपुट मान कुछ सीमा (सामान्यतः 0) से ऊपर है, तो न्यूरॉन सक्रिय हो जाता है और सक्रिय मान (सामान्यतः 1) ले लेता है; अन्यथा यह निष्क्रिय मान (सामान्यतः -1) लेता है। इस प्रकार के सक्रियण कार्य वाले न्यूरॉन्स को अधिकांशतः रैखिक थ्रेशोल्ड इकाइयां कहा जाता है। साहित्य में शब्द परसेप्ट्रॉन अधिकांशतः इन इकाइयों में से केवल से मिलकर नेटवर्क को संदर्भित करता है। इसी प्रकार के "न्यूरॉन्स" को 1920 के दशक में आइसिंग मॉडल के लिए अर्नस्ट इसिंग और विलियम लेनज़ द्वारा और 1940 के दशक में वॉरेन मैककुलोच और वाल्टर पिट्स द्वारा भौतिकी में वर्णित किया गया था [8] ।
सक्रिय और निष्क्रिय अवस्थाओं के लिए किसी भी मान का उपयोग करके परसेप्ट्रॉन बनाया जा सकता है जब तक कि थ्रेशोल्ड मान दोनों के बीच स्थित हो।
परसेप्ट्रॉन को साधारण सीखने का एल्गोरिथम द्वारा प्रशिक्षित किया जा सकता है जिसे सामान्यतः डेल्टा नियम कहा जाता है। यह परिकलित आउटपुट और नमूना आउटपुट डेटा के बीच त्रुटियों की गणना करता है और इसका उपयोग भार में समायोजन करने के लिए करता है, इस प्रकार प्रवणता अवरोहण का एक रूप लागू करता है।
एकल परत परसेप्ट्रॉन केवल रैखिक रूप से वियोज्य पैटर्न सीखने में सक्षम हैं, 1969 में परसेप्ट्रॉन (पुस्तक) नामक प्रसिद्ध प्रबंध में, मार्विन मिंस्की और सीमोर पैपर्ट ने दिखाया कि एकल-परत परसेप्ट्रॉन नेटवर्क के लिए विशेष सीखना असंभव था। तथापि, यह ज्ञात था कि मल्टी-लेयर परसेप्ट्रॉन (MLPs) किसी भी संभावित बूलियन फ़ंक्शन को उत्पन्न करने में सक्षम हैं। उदाहरण के लिए, पहले से ही 1967 में, शुनिची अमारी[9][6] स्टोकेस्टिक ग्रेडिएंट डिसेंट द्वारा एमएलपी को प्रशिक्षित किया।[10] हालांकि सिंगल थ्रेसहोल्ड इकाइयां अपनी कम्प्यूटेशनल पावर में काफी सीमित है, यह दिखाया गया है कि समांतर थ्रेसहोल्ड इकाइयों के नेटवर्क वास्तविक संख्याओं के कॉम्पैक्ट अंतराल से अंतराल [-1,1] में यूनिवर्सल सन्निकटन प्रमेय कर सकते हैं। यह परिणाम पीटर ऑउर, हेरोल्ड बर्गस्टीनर और वोल्फगैंग मास में पाया जा सकता है, बहुत ही सरल सार्वभौमिक सन्निकटन के लिए सीखने का नियम जिसमें परसेप्ट्रॉन की परत होती है।[11] एकल परत न्यूरल नेटवर्क समारोह की ओर कदम बढ़ाएं के बजाय निरंतर आउटपुट की गणना कर सकता है। सामान्य विकल्प तथाकथित रसद समारोह है:
इस विकल्प के साथ, एकल परत नेटवर्क संभार तन्त्र परावर्तन मॉडल के समान है, जो सांख्यिकीय मॉडलिंग में व्यापक रूप से उपयोग किया जाता है। लॉजिस्टिक फ़ंक्शन सिग्मॉइड फ़ंक्शन नामक कार्यों के परिवार में से है क्योंकि उनके एस-आकार के ग्राफ़ ग्रीक अक्षर सिग्मा के अंतिम-अक्षर के निचले मामले से मिलते जुलते हैं। इसका निरंतर व्युत्पन्न है, जो इसे backpropagation में उपयोग करने की अनुमति देता है। यह फ़ंक्शन भी पसंद किया जाता है क्योंकि इसके व्युत्पन्न की गणना आसानी से की जाती है:
- .
(यह तथ्य कि श्रृंखला नियम को लागू करके उपरोक्त अंतर समीकरण को आसानी से दिखाया जा सकता है।)
यदि एकल परत न्यूरल नेटवर्क एक्टिवेशन फंक्शन मॉड्यूलर अंकगणित 1 है, तो यह नेटवर्क न्यूरॉन के साथ XOR समस्या को हल कर सकता है।
मल्टी-लेयर परसेप्ट्रॉन
नेटवर्क के इस वर्ग में कम्प्यूटेशनल इकाइयों की कई परतें होती हैं, जो सामान्यतः फीड-फॉरवर्ड तरीके से परस्पर जुड़ी होती हैं। परत में प्रत्येक न्यूरॉन ने बाद की परत के न्यूरॉन्स से सम्बन्ध निर्देशित किया है। कई अनुप्रयोगों में इन नेटवर्कों की इकाइयां सिग्मॉइड फ़ंक्शन को सक्रियण फ़ंक्शन के रूप में लागू करती हैं। हालांकि सिग्मोइडल सक्रियण कार्यों में छोटी सी सीमा के बाहर बहुत छोटे व्युत्पन्न मूल्य होते हैं और गायब होने वाली ढाल समस्या के कारण गहरे तंत्रिका नेटवर्क में अच्छी प्रकार से काम नहीं करते हैं।
तंत्रिका नेटवर्क के लिए सार्वभौमिक सन्निकटन प्रमेय[12] बताता है कि प्रत्येक निरंतर कार्य जो वास्तविक संख्याओं के अंतराल को वास्तविक संख्याओं के कुछ आउटपुट अंतराल के लिए मानचित्रित करता है, केवल छिपी हुई परत के साथ बहु-परत परसेप्ट्रॉन द्वारा मनमाने ढंग से निकटता से अनुमान लगाया जा सकता है। यह परिणाम सक्रियण कार्यों की विस्तृत श्रृंखला के लिए है, उदा। सिग्मोइडल कार्यों के लिए।
मल्टी-लेयर नेटवर्क विभिन्न प्रकार की सीखने की तकनीकों का उपयोग करते हैं। पहला ध्यान लगा के पढ़ना या सीखना एमएलपी 1965 में एलेक्सी ग्रिगोरविच इवाखेंको और वैलेन्टिन लैपा द्वारा प्रकाशित किया गया था।[13][14][6]उन्होंने अपनी MLP परत को परत दर परत प्रशिक्षित किया, जब तक शेष त्रुटि स्वीकार्य नहीं थी, तब तक परतों को जोड़ते हुए, अलग सत्यापन समूह की मदद से लगातार अनावश्यक छिपी हुई इकाइयों की छंटाई करते रहे।[6]
स्टोचैस्टिक ग्रेडिएंट डिसेंट द्वारा प्रशिक्षित पहला डीप सीखने का एमएलपी[10]1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।[9]अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ पांच परत एमएलपी सीखा ज्ञान प्रतिनिधित्व।[6]
आज, एमएलपी के प्रशिक्षण के लिए सबसे लोकप्रिय तरीका बैक-प्रचार है। 1962 में फ्रैंक रोसेनब्लैट द्वारा शब्दावली बैक प्रचार एरर्स की शुरुआत की गई थी,[15][6]लेकिन वह यह नहीं जानता था कि इसे कैसे लागू किया जाए, हालांकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था[16] पहले से ही 1960 में नियंत्रण सिद्धांत के संदर्भ में।[6]आधुनिक पश्च-प्रचार वास्तव में सेप्पो लिनैनमा का स्वचालित विभेदन (1970) का सामान्य रिवर्स मोड है जो नेस्टेड विभेदी कार्य कार्यों के असतत जुड़े नेटवर्क के लिए है।[17][18] यह श्रृंखला नियम का कुशल अनुप्रयोग है (1673 में गॉटफ्रीड विल्हेम लीबनिज द्वारा व्युत्पन्न)[19][20]) अलग-अलग ग्रंथि के नेटवर्क के लिए।[6]1982 में, पॉल वर्बोस ने MLPs के लिए उस प्रकार से बैकप्रॉपैगैशन लागू किया जो मानक बन गया है।[21][6]1985 में, डेविड ई. रुमेलहार्ट एट अल। प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया।[22] बाद के दशकों में कई सुधार लागू किए गए हैं।[6]
बैकप्रोपैगेशन के दौरान, कुछ पूर्वनिर्धारित त्रुटि-फ़ंक्शन के मान की गणना करने के लिए आउटपुट मानों की तुलना सही उत्तर से की जाती है। त्रुटि तब नेटवर्क के माध्यम से वापस फीड की जाती है। इस जानकारी का उपयोग करते हुए, एल्गोरिथ्म प्रत्येक सम्बन्ध के भार को कुछ छोटी राशि से त्रुटि फ़ंक्शन के मान को कम करने के लिए समायोजित करता है। पर्याप्त रूप से बड़ी संख्या में प्रशिक्षण चक्रों के लिए इस प्रक्रिया को दोहराने के बाद, नेटवर्क सामान्यतः किसी ऐसी स्थिति में परिवर्तित हो जाएगा जहां गणना की त्रुटि छोटी है। इस मामले में, कोई कहेगा कि नेटवर्क ने निश्चित लक्ष्य कार्य सीखा है। भार को ठीक से समायोजित करने के लिए, गैर-रैखिक अनुकूलन (गणित) के लिए सामान्य विधि लागू होती है जिसे ऑगस्टिन-लुई कॉची के कारण ग्रेडिएंट डिसेंट कहा जाता है, जिसने पहली बार 1847 में इसका सुझाव दिया था।[23] इसके लिए, नेटवर्क नेटवर्क भार के संबंध में त्रुटि फ़ंक्शन के व्युत्पन्न की गणना करता है, और भार को इस प्रकार बदलता है कि त्रुटि कम हो जाती है (इस प्रकार त्रुटि फ़ंक्शन की सतह पर डाउनहिल जा रहा है)। इस कारण से, बैक-प्रचार केवल अलग-अलग सक्रियण कार्यों वाले नेटवर्क पर ही लागू किया जा सकता है।
सामान्य तौर पर, नेटवर्क को अच्छा प्रदर्शन करने के लिए सिखाने की समस्या, उन नमूनों पर भी जो प्रशिक्षण नमूने के रूप में उपयोग नहीं किए गए थे, बहुत ही सूक्ष्म मुद्दा है जिसके लिए अतिरिक्त तकनीकों की आवश्यकता होती है। यह उन मामलों के लिए विशेष रूप से महत्वपूर्ण है जहां बहुत सीमित संख्या में प्रशिक्षण नमूने उपलब्ध हैं।[24] खतरा यह है कि नेटवर्क प्रशिक्षण डेटा को ओवरफिट कर रहा है और डेटा उत्पन्न करने वाली वास्तविक सांख्यिकीय प्रक्रिया को पकड़ने में विफल रहता है। कम्प्यूटेशनल सीखने का सिद्धांत सीमित मात्रा में डेटा पर प्रशिक्षण क्लासिफायर से संबंधित है। तंत्रिका नेटवर्क के संदर्भ में सरल अनुमानी, जिसे शुरुआती रोक कहा जाता है, अधिकांशतः यह सुनिश्चित करता है कि नेटवर्क उन उदाहरणों को अच्छी प्रकार से सामान्य करेगा जो प्रशिक्षण समूह में नहीं हैं।
पश्च-प्रचार एल्गोरिथम की अन्य विशिष्ट समस्याएं अभिसरण की गति और स्थानीय न्यूनतम त्रुटि फ़ंक्शन में समाप्त होने की संभावना है। आज, व्यावहारिक तरीके हैं जो बहु-परत परसेप्ट्रॉन में बैक-प्रचार को कई यंत्र अधिगम कार्यों के लिए पसंद का उपकरण बनाते हैं।
कोई भी किसी मध्यस्थ द्वारा संचालित स्वतंत्र तंत्रिका नेटवर्क की श्रृंखला का उपयोग कर सकता है, समान व्यवहार जो मस्तिष्क में होता है। ये न्यूरॉन्स अलग-अलग प्रदर्शन कर सकते हैं और बड़े कार्य को संभाल सकते हैं, और परिणाम अंत में संयुक्त हो सकते हैं।[25]
अन्य फीडफॉरवर्ड नेटवर्क
अधिक आम तौर पर, किसी भी निर्देशित चक्रीय ग्राफ का उपयोग फीडफॉर्वर्ड नेटवर्क के लिए किया जा सकता है, जिसमें कुछ ग्रंथि (बिना माता-पिता के) इनपुट के रूप में नामित होते हैं, और कुछ ग्रंथि (बिना बच्चों के) आउटपुट के रूप में नामित होते हैं। इन्हें बहुपरत नेटवर्क के रूप में देखा जा सकता है जहां कुछ किनारे परतों को छोड़ देते हैं, या तो परतों को आउटपुट से पीछे की ओर या इनपुट से आगे की ओर गिनते हैं। विभिन्न सक्रियण कार्यों का उपयोग किया जा सकता है, और भार के बीच संबंध हो सकते हैं, जैसे दृढ़ तंत्रिका नेटवर्क में।
अन्य फीडफॉर्वर्ड नेटवर्क के उदाहरणों में रेडियल आधार समारोह नेटवर्क शामिल हैं, जो अलग सक्रियण फ़ंक्शन का उपयोग करते हैं।
कभी-कभी मल्टी-लेयर परसेप्ट्रॉन का उपयोग किसी भी फीडफॉरवर्ड न्यूरल नेटवर्क को संदर्भित करने के लिए शिथिल रूप से किया जाता है, जबकि अन्य मामलों में यह विशिष्ट लोगों तक ही सीमित होता है (उदाहरण के लिए, विशिष्ट सक्रियण कार्यों के साथ, या पूरी प्रकार से जुड़ी हुई परतों के साथ, या परसेप्ट्रॉन एल्गोरिथम द्वारा प्रशिक्षित)।
यह भी देखें
- हॉपफील्ड नेटवर्क
- संवेदी तंत्रिका नेटवर्क
- फीडफॉरवर्ड नियंत्रण)नियंत्रण)|फीड-फॉरवर्ड
- पश्चप्रचार
- आरप्रॉप
संदर्भ
- ↑ 1.0 1.1 Zell, Andreas (1994). तंत्रिका नेटवर्क का अनुकरण [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.
{{cite book}}
: CS1 maint: unrecognized language (link) - ↑ Schmidhuber, Jürgen (2015-01-01). "Deep learning in neural networks: An overview". Neural Networks (in English). 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. ISSN 0893-6080. PMID 25462637. S2CID 11715509.
- ↑ Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares"
- ↑ Stigler, Stephen M. (1981). "गॉस और कम से कम वर्गों का आविष्कार". Ann. Stat. 9 (3): 465–474. doi:10.1214/aos/1176345451.
- ↑ Bretscher, Otto (1995). अनुप्रयोगों के साथ रेखीय बीजगणित (3rd ed.). Upper Saddle River, NJ: Prentice Hall.
- ↑ 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
- ↑ Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN 0-674-40340-1.
- ↑ Brush, Stephen G. (1967). "लेनज़-आइज़िंग मॉडल का इतिहास". Reviews of Modern Physics. 39 (4): 883–893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883.
- ↑ 9.0 9.1 Amari, Shun'ichi (1967). "अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत". IEEE Transactions. EC (16): 279–307.
- ↑ 10.0 10.1 Robbins, H.; Monro, S. (1951). "एक स्टोकेस्टिक सन्निकटन विधि". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
- ↑ Auer, Peter; Harald Burgsteiner; Wolfgang Maass (2008). "परसेप्ट्रॉन की एक परत से युक्त बहुत ही सरल सार्वभौमिक सन्निकटन के लिए एक सीखने का नियम" (PDF). Neural Networks. 21 (5): 786–795. doi:10.1016/j.neunet.2007.12.036. PMID 18249524. Archived from the original (PDF) on 2011-07-06. Retrieved 2009-09-08.
- ↑ Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function Mathematics of Control, Signals, and Systems, 2(4), 303–314.
- ↑ Ivakhnenko, A. G. (1973). साइबरनेटिक भविष्यवाणी करने वाले उपकरण. CCM Information Corporation.
- ↑ Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). साइबरनेटिक्स और पूर्वानुमान तकनीक. American Elsevier Pub. Co.
- ↑ Rosenblatt, Frank (1962). न्यूरोडायनामिक्स के सिद्धांत. Spartan, New York.
- ↑ Kelley, Henry J. (1960). "इष्टतम उड़ान पथों का क्रमिक सिद्धांत". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
- ↑ Linnainmaa, Seppo (1970). स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व (Masters) (in suomi). University of Helsinki. pp. 6–7.
- ↑ Linnainmaa, Seppo (1976). "संचित गोलाई त्रुटि का टेलर विस्तार". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
- ↑ Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (in English). Open court publishing Company.
- ↑ Rodríguez, Omar Hernández; López Fernández, Jorge M. (2010). "श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब". The Mathematics Enthusiast. 7 (2): 321–332. doi:10.54870/1551-3440.1191. S2CID 29739148. Retrieved 2019-08-04.
- ↑ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). सिस्टम मॉडलिंग और अनुकूलन. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
- ↑ Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
- ↑ Lemaréchal, C. (2012). "कौची और ढाल विधि" (PDF). Doc Math Extra: 251–254.
- ↑ {{cite journal |journal=Chemometr Intell Lab |volume = 88 |issue = 2 |pages = 183–188 |doi=10.1016/j.chemolab.2007.04.006 |title=गैसोलीन गुणों की भविष्यवाणी के लिए निकट अवरक्त (एनआईआर) स्पेक्ट्रोस्कोपी डेटा के आधार पर रैखिक और गैर-रैखिक अंशांकन मॉडल की तुलना|year=2007 |author1=Roman M. Balabin |author2=Ravilya Z. Safieva |author3=Ekaterina I. Lomakina |author1-link = Roman Balabin }
- ↑ Tahmasebi, Pejman; Hezarkhani, Ardeshir (21 January 2011). "ग्रेड अनुमान के लिए एक मॉड्यूलर फीडफॉरवर्ड न्यूरल नेटवर्क का अनुप्रयोग". Natural Resources Research. 20 (1): 25–32. doi:10.1007/s11053-011-9135-3. S2CID 45997840.