बहुपरत परसेप्ट्रॉन: Difference between revisions
No edit summary |
No edit summary |
||
Line 15: | Line 15: | ||
पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा तार्किक कार्य है, जो आकार में समान है किन्तु 0 से 1 तक है। यहां <math>y_i</math> का उत्पादन है <math>i</math>वें नोड (न्यूरॉन) और <math>v_i</math> निविष्ट संयोजन का भारित योग है। संशोधक (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य सम्मलित हैं (पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का अन्य वर्ग, [[रेडियल आधार नेटवर्क]] में उपयोग किया जाता है )। | पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा तार्किक कार्य है, जो आकार में समान है किन्तु 0 से 1 तक है। यहां <math>y_i</math> का उत्पादन है <math>i</math>वें नोड (न्यूरॉन) और <math>v_i</math> निविष्ट संयोजन का भारित योग है। संशोधक (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य सम्मलित हैं (पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का अन्य वर्ग, [[रेडियल आधार नेटवर्क]] में उपयोग किया जाता है )। | ||
[[ | [[गहन विद्वता]] के हालिया विकास में अवग्रह से संबंधित [[संख्यात्मक स्थिरता|संख्यात्मक समस्याओं]] को दूर करने के संभावित विधियों के रूप में [[संशोधित रैखिक इकाई]] (ReLU) का अधिक बार उपयोग किया जाता है। | ||
[[ | |||
=== परतें === | === परतें === |
Revision as of 12:26, 7 May 2023
Part of a series on |
Machine learning and data mining |
---|
बहुपरत परसेप्ट्रॉन (एमएलपी) फीडफॉरवर्ड न्यूरल नेटवर्क कृत्रिम तंत्रिका नेटवर्क (एएनएन) का पूरी तरह से जुड़ा हुआ वर्ग है। एमएलपी शब्द का प्रयोग अस्पष्ट रूप से किया जाता है, कभी-कभी शिथिल रूप से किसी भी फीडफॉरवर्ड एएनएन का अर्थ होता है, कभी-कभी कड़ाई से परसेप्ट्रॉन की कई परतों से बने नेटवर्क को संदर्भित करने के लिए (प्रवेशद्वार सक्रियण के साथ); देखना § शब्दावली। बहुपरत परसेप्ट्रॉन को कभी-कभी बोलचाल की भाषा में "वेनिला" तंत्रिका नेटवर्क के रूप में संदर्भित किया जाता है, विशेष रूप से जब उनके पास एक ही छिपी हुई परत होती है।[1]
एमएलपी में नोड की कम से कम तीन परत होती हैं: निविष्ट परत, छिपी हुई परत और उत्पादन परत । निविष्ट नोड को छोड़कर प्रत्येक नोड न्यूरॉन है, जो गैर-रैखिक सक्रियण फलन का उपयोग करता है। एमएलपी श्रृंखला नियम का उपयोग करता है[2]आधारित पर्यवेक्षित शिक्षण प्रविधि जिसे प्रशिक्षण के लिए पश्च प्रसारण या स्वचालित भेदभाव का उत्क्रम प्रणाली कहा जाता है।[3][4][5][6][7] इसकी कई परतें और गैर-रैखिक सक्रियण एमएलपी को रेखीय परसेप्ट्रॉन से अलग करते हैं। यह ऐसे डेटा को अलग कर सकता है जो रैखिक रैखिक रूप से वियोज्य नहीं है।[8]
सिद्धांत
सक्रियण फलन
यदि बहुपरत परसेप्ट्रॉन में सभी न्यूरॉन्स का रेखीय सक्रियण कार्य होता है, अर्थात, रेखीय कार्य जो भारित निविष्ट को प्रत्येक न्यूरॉन के उत्पादन में मैप करता है, तो रैखिक बीजगणित से पता चलता है कि किसी भी संख्या में परतों को दो-परत निविष्ट में घटाया जा सकता है- उत्पादन मॉडल। एमएलपी में कुछ न्यूरॉन गैर-रैखिक सक्रियण फलन का उपयोग करते हैं जिसे जैविक न्यूरॉन्स की संभावित कार्रवाई, या फायरिंग की आवृत्ति को मॉडल करने के लिए विकसित किया गया था।
दो ऐतिहासिक रूप से सामान्य सक्रियण कार्य दोनों अवग्रह हैं, और इनके द्वारा वर्णित हैं
- .
पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा तार्किक कार्य है, जो आकार में समान है किन्तु 0 से 1 तक है। यहां का उत्पादन है वें नोड (न्यूरॉन) और निविष्ट संयोजन का भारित योग है। संशोधक (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य सम्मलित हैं (पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का अन्य वर्ग, रेडियल आधार नेटवर्क में उपयोग किया जाता है )।
गहन विद्वता के हालिया विकास में अवग्रह से संबंधित संख्यात्मक समस्याओं को दूर करने के संभावित विधियों के रूप में संशोधित रैखिक इकाई (ReLU) का अधिक बार उपयोग किया जाता है।
परतें
एमएलपी में तीन या अधिक परतें ( निविष्ट और या अधिक छिपी हुई परतों के साथ उत्पादन परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं, परत में प्रत्येक नोड निश्चित वजन से जुड़ता है अगली परत में हर नोड के लिए।
सीखना
अपेक्षित परिणाम की तुलना में उत्पादन में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद भारित संयोजन को बदलकर परसेप्ट्रॉन में सीखना होता है। यह पर्यवेक्षित सीखने का उदाहरण है, और इसे बैकप्रोपैजेशन के माध्यम से किया जाता है, रैखिक परसेप्ट्रॉन में कम से कम औसत वर्ग फ़िल्टर का सामान्यीकरण।
हम उत्पादन नोड में त्रुटि की डिग्री का प्रतिनिधित्व कर सकते हैं में वें डेटा बिंदु (प्रशिक्षण उदाहरण) द्वारा , कहाँ के लिए वांछित लक्ष्य मान है नोड पर वें डेटा बिंदु , और नोड पर परसेप्ट्रॉन द्वारा उत्पादित मूल्य है जब वें डेटा बिंदु को निविष्ट के रूप में दिया जाता है।
नोड भार तब सुधार के आधार पर समायोजित किया जा सकता है जो पूरे उत्पादन में त्रुटि को कम करता है वें डेटा बिंदु, द्वारा दिया गया
- .
ढाल वंश का उपयोग करना, प्रत्येक वजन में परिवर्तन है
कहाँ पिछले न्यूरॉन का उत्पादन है , और सीखने की दर है, जिसे यह सुनिश्चित करने के लिए चुना जाता है कि वज़न बिना किसी दोलन के प्रतिक्रिया में जल्दी से परिवर्तित हो जाए। पिछले अभिव्यक्ति में, त्रुटि के आंशिक व्युत्पन्न को दर्शाता है भारित योग के अनुसार न्यूरॉन के निविष्ट संयोजन की .
गणना की जाने वाली व्युत्पत्ति प्रेरित स्थानीय क्षेत्र पर निर्भर करती है , जो स्वयं भिन्न होता है। यह साबित करना आसान है कि उत्पादन नोड के लिए इस व्युत्पन्न को सरल बनाया जा सकता है
कहाँ ऊपर वर्णित सक्रियण फलन का व्युत्पन्न है, जो स्वयं भिन्न नहीं होता है। वजन में छिपे हुए नोड में परिवर्तन के लिए विश्लेषण अधिक कठिन है, किन्तु यह दिखाया जा सकता है कि प्रासंगिक व्युत्पन्न है
- .
यह वजन में बदलाव पर निर्भर करता है वें नोड्स, जो उत्पादन परत का प्रतिनिधित्व करते हैं। इसलिए छिपी हुई परत भार को बदलने के लिए, ्टिवेशन फंक्शन के डेरिभारित िव के अनुसार भारित उत्पादन परत में बदलाव होता है, और इसलिए यह एल्गोरिथम ्टिवेशन फंक्शन के बैकप्रॉपैगेशन का प्रतिनिधित्व करता है।[9]
शब्दावली
बहुपरत परसेप्ट्रॉन शब्द ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। बल्कि, इसमें कई परसेप्ट्रॉन होते हैं जो परतों में व्यवस्थित होते हैं। विकल्प बहुपरत परसेप्ट्रॉन नेटवर्क है। इसके अलावा, एमएलपी परसेप्ट्रॉन सख्त संभव अर्थों में परसेप्ट्रॉन नहीं हैं। ट्रू परसेप्ट्रॉन औपचारिक रूप से कृत्रिम न्यूरॉन्स का विशेष मामला है जो थ्रेसहोल्ड ्टिवेशन फलन जैसे हैवीसाइड स्टेप फंक्शन का उपयोग करता है। एमएलपी परसेप्ट्रॉन मनमाने ढंग से सक्रियण कार्यों को नियोजित कर सकते हैं। सच्चा परसेप्ट्रॉन बाइनरी वर्गीकरण करता है, एमएलपी न्यूरॉन अपने सक्रियण कार्य के आधार पर या तो वर्गीकरण या प्रतिगमन करने के लिए स्वतंत्र है।
बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड / परतों की प्रकृति के संबंध में लागू किया गया था, जो मनमाने ढंग से परिभाषित कृत्रिम न्यूरॉन्स से बना हो सकता है, न कि विशेष रूप से परसेप्ट्रॉन से। यह व्याख्या सामान्य रूप से कृत्रिम न्यूरॉन के अर्थ के लिए परसेप्ट्रॉन की परिभाषा को ढीला करने से बचाती है।
इतिहास
फ्रैंक रोसेनब्लैट, जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था,[10] 3 परतों के साथ एमएलपी भी पेश किया: निविष्ट परत, यादृच्छिक वजन वाली छिपी हुई परत जो नहीं सीखी, और उत्पादन परत।[11][12] चूँकि केवल उत्पादन परत में लर्निंग संयोजन था, यह अभी तक डीप लर्निंग नहीं था। इसे बाद में अत्यधिक सीखने की मशीन कहा जाने लगा।[13][12]
डेटा प्रबंधन की समूह विधि के रूप में 1965 में एलेक्सी ग्रिगोरविच इवाखेंको और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।[14][15][12]
स्टोकेस्टिक ग्रेडिएंट डिसेंट द्वारा प्रशिक्षित पहला डीप लर्निंग एमएलपी[16] 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।[17][12]अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ पांच परत एमएलपी सीखा ज्ञान प्रतिनिधित्व।[12]
1970 में, सेप्पो लिनैनमा ने नेस्टेड विभेदक कार्य फंक्शन के असतत कनेक्टेड नेटवर्क के स्वत: विभेदन के लिए सामान्य विधि प्रकाशित की।[3][18] इसे बैकप्रोपैगेशन या स्वत: भेदभाव के उत्क्रम प्रणाली के रूप में जाना जाने लगा। यह 1673 में गॉटफ्रीड विल्हेम लीबनिज द्वारा प्राप्त श्रृंखला नियम का कुशल अनुप्रयोग है।[2][19] अलग-अलग नोड के नेटवर्क के लिए।[12] शब्दावली बैक-प्रोपेगेटिंग एरर वास्तव में 1962 में खुद रोसेनब्लैट द्वारा पेश की गई थी,[11] किन्तु उसे नहीं पता था कि इसे कैसे लागू किया जाए,[12]हालांकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था[4] पहले से ही 1960 में नियंत्रण सिद्धांत के संदर्भ में।[12]1982 में, पॉल वर्बोस ने एमएलपीs के लिए उस तरह से बैकप्रॉपैगैशन लागू किया जो मानक बन गया है।[6][12]1985 में, डेविड ई. रुमेलहार्ट एट अल। प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया।[7]बाद के दशकों में कई सुधार लागू किए गए हैं।[12]
2021 के अंत तक, स्किप संयोजन और परत नॉर्मलाइजेशन के साथ दो एमएलपी को मिलाकर बहुत ही सरल एनएन आर्किटेक्चर को डिजाइन किया गया और एमएलपी-मिक्सर कहा गया; 19 से 431 मिलियन मापदंडों की विशेषता वाली इसकी प्राप्तियों को इमेज नेट और समान छवि वर्गीकरण कार्यों के समान आकार के दृश्य ट्रांसफार्मर के बराबर दिखाया गया था।[20]
अनुप्रयोग
एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो अक्सर फिटनेस सन्निकटन जैसी अत्यंत कम्प्यूटेशनल जटिलता सिद्धांत समस्याओं के लिए अनुमानित समाधान की अनुमति देता है।
एमएलपीs यूनिवर्सल फंक्शन सन्निकटन हैं जैसा कि यूनिवर्सल सन्निकटन प्रमेय द्वारा दिखाया गया है। साइबेंको का प्रमेय,[8]इसलिए उनका उपयोग प्रतिगमन विश्लेषण द्वारा गणितीय मॉडल बनाने के लिए किया जा सकता है। जैसा कि सांख्यिकीय वर्गीकरण प्रतिगमन विश्लेषण का विशेष मामला है जब प्रतिक्रिया चर श्रेणीबद्ध चर होता है, एमएलपी अच्छे क्लासिफायर एल्गोरिदम बनाते हैं।
एमएलपीs 1980 के दशक में लोकप्रिय मशीन लर्निंग समाधान थे, जो वाक् पहचान, छवि पहचान और मशीन अनुवाद सॉफ़्टवेयर जैसे विविध क्षेत्रों में अनुप्रयोग खोजते थे।[21] किन्तु उसके बाद बहुत सरल (और संबंधित) से कड़ी प्रतिस्पर्धा का सामना करना पड़ा[22]) समर्थन वेक्टर यंत्र डीप लर्निंग की सफलताओं के कारण बैकप्रॉपैगेशन नेटवर्क में रुचि लौट आई।
संदर्भ
- ↑ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.
- ↑ 2.0 2.1 Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (in English). Open court publishing Company.
- ↑ 3.0 3.1 Linnainmaa, Seppo (1970). स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व (Masters) (in suomi). University of Helsinki. pp. 6–7.
- ↑ 4.0 4.1 Kelley, Henry J. (1960). "इष्टतम उड़ान पथों का क्रमिक सिद्धांत". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
- ↑ Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961
- ↑ 6.0 6.1 Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). सिस्टम मॉडलिंग और अनुकूलन. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
- ↑ 7.0 7.1 Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
- ↑ 8.0 8.1 Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function Mathematics of Control, Signals, and Systems, 2(4), 303–314.
- ↑ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1.
- ↑ Rosenblatt, Frank (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029.
- ↑ 11.0 11.1 Rosenblatt, Frank (1962). न्यूरोडायनामिक्स के सिद्धांत. Spartan, New York.
- ↑ 12.0 12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9 Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
- ↑ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Extreme learning machine: theory and applications". Neurocomputing. 70 (1): 489–501. CiteSeerX 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126.
- ↑ Ivakhnenko, A. G. (1973). साइबरनेटिक भविष्यवाणी करने वाले उपकरण. CCM Information Corporation.
- ↑ Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). साइबरनेटिक्स और पूर्वानुमान तकनीक. American Elsevier Pub. Co.
- ↑ Robbins, H.; Monro, S. (1951). "एक स्टोकेस्टिक सन्निकटन विधि". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
- ↑ Amari, Shun'ichi (1967). "अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत". IEEE Transactions. EC (16): 279–307.
- ↑ Linnainmaa, Seppo (1976). "संचित गोलाई त्रुटि का टेलर विस्तार". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
- ↑ Rodríguez, Omar Hernández; López Fernández, Jorge M. (2010). "श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब". The Mathematics Enthusiast. 7 (2): 321–332. doi:10.54870/1551-3440.1191. S2CID 29739148. Retrieved 2019-08-04.
- ↑ https://paperswithcode.com/paper/mlp-mixer-an-all-mlp-architecture-for-vision
- ↑ Neural networks. II. What are they and why is everybody so interested in them now?; Wasserman, P.D.; Schwartz, T.; Page(s): 10-15; IEEE Expert, 1988, Volume 3, Issue 1
- ↑ R. Collobert and S. Bengio (2004). Links between Perceptrons, MLPs and SVMs. Proc. Int'l Conf. on Machine Learning (ICML).