बहुपरत परसेप्ट्रॉन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{Machine learning|Artificial neural network}}
{{Machine learning|Artificial neural network}}


मल्टीलेयर [[परसेप्ट्रॉन]] (MLP) [[फीडफॉरवर्ड न्यूरल नेटवर्क]] [[ कृत्रिम तंत्रिका नेटवर्क |कृत्रिम तंत्रिका नेटवर्क]] (ANN) का पूरी तरह से जुड़ा हुआ वर्ग है। एमएलपी शब्द का प्रयोग अस्पष्ट रूप से किया जाता है, कभी-कभी शिथिल रूप से ''किसी भी'' फीडफॉरवर्ड एएनएन का अर्थ होता है, कभी-कभी कड़ाई से परसेप्ट्रॉन की कई परतों से बने नेटवर्क को संदर्भित करने के लिए (थ्रेशोल्ड सक्रियण के साथ); देखना {{slink||Terminology}}. बहुपरत परसेप्ट्रॉन को कभी-कभी बोलचाल की भाषा में वेनिला न्यूरल नेटवर्क के रूप में संदर्भित किया जाता है, खासकर जब उनके पास एक ही छिपी हुई परत होती है।<ref>Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.</ref>
मल्टीलेयर [[परसेप्ट्रॉन]] (MLP) [[फीडफॉरवर्ड न्यूरल नेटवर्क]] [[ कृत्रिम तंत्रिका नेटवर्क |कृत्रिम तंत्रिका नेटवर्क]] (ANN) का पूरी तरह से जुड़ा हुआ वर्ग है। एमएलपी शब्द का प्रयोग अस्पष्ट रूप से किया जाता है, कभी-कभी शिथिल रूप से ''किसी भी'' फीडफॉरवर्ड एएनएन का अर्थ होता है, कभी-कभी कड़ाई से परसेप्ट्रॉन की कई परतों से बने नेटवर्क को संदर्भित करने के लिए (थ्रेशोल्ड सक्रियण के साथ); देखना {{slink||Terminology}}. बहुपरत परसेप्ट्रॉन को कभी-कभी बोलचाल की भाषा में वेनिला न्यूरल नेटवर्क के रूप में संदर्भित किया जाता है, खासकर जब उनके पास   ही छिपी हुई परत होती है।<ref>Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.</ref>
एक MLP में नोड्स की कम से कम तीन परत (डीप लर्निंग) होती हैं: एक इनपुट लेयर, एक हिडन लेयर और एक आउटपुट लेयर। इनपुट नोड्स को छोड़कर, प्रत्येक नोड एक न्यूरॉन है जो एक गैर-रैखिक सक्रियण फ़ंक्शन का उपयोग करता है। एमएलपी एक [[श्रृंखला नियम]] का उपयोग करता है<ref name="leibniz1676" />आधारित पर्यवेक्षित शिक्षण तकनीक जिसे प्रशिक्षण के लिए [[backpropagation]] या [[स्वचालित भेदभाव]] का रिवर्स मोड कहा जाता है।<ref name="lin1970" /><ref name="kelley1960" /><ref>Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961</ref><ref name="werbos1982" /><ref name="rumelhart1986">Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "[https://apps.dtic.mil/dtic/tr/fulltext/u2/a164453.pdf Learning Internal Representations by Error Propagation]". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.</ref> इसकी कई परतें और गैर-रैखिक सक्रियण MLP को एक रेखीय परसेप्ट्रॉन से अलग करते हैं। यह ऐसे डेटा को अलग कर सकता है जो [[रैखिक पृथक्करण]]ीयता नहीं है।<ref name="Cybenko1989">Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function ''[[Mathematics of Control, Signals, and Systems]]'', 2(4), 303–314.</ref>
MLP में नोड्स की कम से कम तीन परत (डीप लर्निंग) होती हैं:   इनपुट लेयर,   हिडन लेयर और   आउटपुट लेयर। इनपुट नोड्स को छोड़कर, प्रत्येक नोड   न्यूरॉन है जो   गैर-रैखिक सक्रियण फ़ंक्शन का उपयोग करता है। एमएलपी   [[श्रृंखला नियम]] का उपयोग करता है<ref name="leibniz1676" />आधारित पर्यवेक्षित शिक्षण तकनीक जिसे प्रशिक्षण के लिए [[backpropagation]] या [[स्वचालित भेदभाव]] का रिवर्स मोड कहा जाता है।<ref name="lin1970" /><ref name="kelley1960" /><ref>Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961</ref><ref name="werbos1982" /><ref name="rumelhart1986">Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "[https://apps.dtic.mil/dtic/tr/fulltext/u2/a164453.pdf Learning Internal Representations by Error Propagation]". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.</ref> इसकी कई परतें और गैर-रैखिक सक्रियण MLP को   रेखीय परसेप्ट्रॉन से अलग करते हैं। यह ऐसे डेटा को अलग कर सकता है जो [[रैखिक पृथक्करण]]ीयता नहीं है।<ref name="Cybenko1989">Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function ''[[Mathematics of Control, Signals, and Systems]]'', 2(4), 303–314.</ref>
== सिद्धांत ==
== सिद्धांत ==


=== सक्रियण समारोह ===
=== सक्रियण समारोह ===
यदि एक बहुपरत परसेप्ट्रॉन में सभी न्यूरॉन्स में एक रेखीय सक्रियण कार्य होता है, अर्थात, एक रेखीय कार्य जो प्रत्येक न्यूरॉन के आउटपुट के लिए [[सिनैप्टिक वजन]] को मैप करता है, तो रैखिक बीजगणित से पता चलता है कि किसी भी संख्या में परतों को दो-परत इनपुट में घटाया जा सकता है- आउटपुट मॉडल। एमएलपी में कुछ न्यूरॉन एक गैर-रैखिक सक्रियण फ़ंक्शन का उपयोग करते हैं जिसे जैविक न्यूरॉन्स की [[कार्यवाही संभावना]], या फायरिंग की आवृत्ति को मॉडल करने के लिए विकसित किया गया था।
यदि   बहुपरत परसेप्ट्रॉन में सभी न्यूरॉन्स में   रेखीय सक्रियण कार्य होता है, अर्थात,   रेखीय कार्य जो प्रत्येक न्यूरॉन के आउटपुट के लिए [[सिनैप्टिक वजन]] को मैप करता है, तो रैखिक बीजगणित से पता चलता है कि किसी भी संख्या में परतों को दो-परत इनपुट में घटाया जा सकता है- आउटपुट मॉडल। एमएलपी में कुछ न्यूरॉन   गैर-रैखिक सक्रियण फ़ंक्शन का उपयोग करते हैं जिसे जैविक न्यूरॉन्स की [[कार्यवाही संभावना]], या फायरिंग की आवृत्ति को मॉडल करने के लिए विकसित किया गया था।


दो ऐतिहासिक रूप से सामान्य सक्रियण कार्य दोनों [[सिग्मोइड]]्स हैं, और इनके द्वारा वर्णित हैं
दो ऐतिहासिक रूप से सामान्य सक्रियण कार्य दोनों [[सिग्मोइड]]्स हैं, और इनके द्वारा वर्णित हैं
Line 12: Line 12:
:<math>y(v_i) = \tanh(v_i) ~~ \textrm{and} ~~ y(v_i) = (1+e^{-v_i})^{-1}</math>.
:<math>y(v_i) = \tanh(v_i) ~~ \textrm{and} ~~ y(v_i) = (1+e^{-v_i})^{-1}</math>.


पहला एक अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा रसद कार्य है, जो आकार में समान है लेकिन 0 से 1 तक है। यहां <math>y_i</math> का आउटपुट है <math>i</math>वें नोड (न्यूरॉन) और <math>v_i</math> इनपुट कनेक्शन का भारित योग है। रेक्टीफायर (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य शामिल हैं ([[रेडियल आधार नेटवर्क]] में उपयोग किया जाता है, पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का एक अन्य वर्ग)।
पहला   अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा रसद कार्य है, जो आकार में समान है लेकिन 0 से 1 तक है। यहां <math>y_i</math> का आउटपुट है <math>i</math>वें नोड (न्यूरॉन) और <math>v_i</math> इनपुट कनेक्शन का भारित योग है। रेक्टीफायर (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य शामिल हैं ([[रेडियल आधार नेटवर्क]] में उपयोग किया जाता है, पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का   अन्य वर्ग)।


[[ध्यान लगा के पढ़ना या सीखना]] के हाल के विकास में [[ शुद्ध करनेवाला (तंत्रिका नेटवर्क) |शुद्ध करनेवाला (तंत्रिका नेटवर्क)]] | रेक्टिफाइड लीनियर यूनिट (ReLU) का उपयोग सिग्मोइड्स से संबंधित न्यूमेरिकल [[ लुप्त हो रही ढाल समस्या |लुप्त हो रही ढाल समस्या]] को दूर करने के संभावित तरीकों में से एक के रूप में अधिक बार किया जाता है।
[[ध्यान लगा के पढ़ना या सीखना]] के हाल के विकास में [[ शुद्ध करनेवाला (तंत्रिका नेटवर्क) |शुद्ध करनेवाला (तंत्रिका नेटवर्क)]] | रेक्टिफाइड लीनियर यूनिट (ReLU) का उपयोग सिग्मोइड्स से संबंधित न्यूमेरिकल [[ लुप्त हो रही ढाल समस्या |लुप्त हो रही ढाल समस्या]] को दूर करने के संभावित तरीकों में से   के रूप में अधिक बार किया जाता है।


=== परतें ===
=== परतें ===
{{main|Layer (deep learning)}}
{{main|Layer (deep learning)}}
MLP में तीन या अधिक परतें (एक इनपुट और एक या अधिक छिपी हुई परतों के साथ एक आउटपुट परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं, एक परत में प्रत्येक नोड एक निश्चित वजन से जुड़ता है <math>w_{ij}</math> अगली परत में हर नोड के लिए।
MLP में तीन या अधिक परतें ( इनपुट और   या अधिक छिपी हुई परतों के साथ   आउटपुट परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं,   परत में प्रत्येक नोड   निश्चित वजन से जुड़ता है <math>w_{ij}</math> अगली परत में हर नोड के लिए।


=== सीखना ===
=== सीखना ===
अपेक्षित परिणाम की तुलना में आउटपुट में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद कनेक्शन वेट को बदलकर परसेप्ट्रॉन में सीखना होता है। यह पर्यवेक्षित सीखने का एक उदाहरण है, और इसे बैकप्रोपैजेशन के माध्यम से किया जाता है, रैखिक परसेप्ट्रॉन में [[कम से कम औसत वर्ग फ़िल्टर]] का एक सामान्यीकरण।
अपेक्षित परिणाम की तुलना में आउटपुट में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद कनेक्शन वेट को बदलकर परसेप्ट्रॉन में सीखना होता है। यह पर्यवेक्षित सीखने का   उदाहरण है, और इसे बैकप्रोपैजेशन के माध्यम से किया जाता है, रैखिक परसेप्ट्रॉन में [[कम से कम औसत वर्ग फ़िल्टर]] का   सामान्यीकरण।


हम आउटपुट नोड में त्रुटि की डिग्री का प्रतिनिधित्व कर सकते हैं <math>j</math> में <math>n</math>वें डेटा बिंदु (प्रशिक्षण उदाहरण) द्वारा <math>e_j(n)=d_j(n)-y_j(n)</math>, कहाँ <math>d_j(n)</math> के लिए वांछित लक्ष्य मान है <math>n</math>नोड पर वें डेटा बिंदु <math>j</math>, और <math>y_j(n)</math> नोड पर परसेप्ट्रॉन द्वारा उत्पादित मूल्य है <math>j</math> जब <math>n</math>वें डेटा बिंदु को इनपुट के रूप में दिया जाता है।
हम आउटपुट नोड में त्रुटि की डिग्री का प्रतिनिधित्व कर सकते हैं <math>j</math> में <math>n</math>वें डेटा बिंदु (प्रशिक्षण उदाहरण) द्वारा <math>e_j(n)=d_j(n)-y_j(n)</math>, कहाँ <math>d_j(n)</math> के लिए वांछित लक्ष्य मान है <math>n</math>नोड पर वें डेटा बिंदु <math>j</math>, और <math>y_j(n)</math> नोड पर परसेप्ट्रॉन द्वारा उत्पादित मूल्य है <math>j</math> जब <math>n</math>वें डेटा बिंदु को इनपुट के रूप में दिया जाता है।
Line 37: Line 37:


:<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = e_j(n)\phi^\prime (v_j(n))</math>
:<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = e_j(n)\phi^\prime (v_j(n))</math>
कहाँ <math>\phi^\prime</math> ऊपर वर्णित सक्रियण फ़ंक्शन का व्युत्पन्न है, जो स्वयं भिन्न नहीं होता है। वजन में एक छिपे हुए नोड में परिवर्तन के लिए विश्लेषण अधिक कठिन है, लेकिन यह दिखाया जा सकता है कि प्रासंगिक व्युत्पन्न है
कहाँ <math>\phi^\prime</math> ऊपर वर्णित सक्रियण फ़ंक्शन का व्युत्पन्न है, जो स्वयं भिन्न नहीं होता है। वजन में   छिपे हुए नोड में परिवर्तन के लिए विश्लेषण अधिक कठिन है, लेकिन यह दिखाया जा सकता है कि प्रासंगिक व्युत्पन्न है


:<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = \phi^\prime (v_j(n))\sum_k -\frac{\partial\mathcal{E}(n)}{\partial v_k(n)} w_{kj}(n)</math>.
:<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = \phi^\prime (v_j(n))\sum_k -\frac{\partial\mathcal{E}(n)}{\partial v_k(n)} w_{kj}(n)</math>.


यह वजन में बदलाव पर निर्भर करता है <math>k</math>वें नोड्स, जो आउटपुट परत का प्रतिनिधित्व करते हैं। इसलिए हिडन लेयर वेट को बदलने के लिए, एक्टिवेशन फंक्शन के डेरिवेटिव के अनुसार आउटपुट लेयर वेट में बदलाव होता है, और इसलिए यह एल्गोरिथम एक्टिवेशन फंक्शन के बैकप्रॉपैगेशन का प्रतिनिधित्व करता है।<ref>{{cite book |last=Haykin |first=Simon |author-link=Simon Haykin |title=Neural Networks: A Comprehensive Foundation |edition=2 |year=1998 |publisher=Prentice Hall |isbn=0-13-273350-1 }}</ref>
यह वजन में बदलाव पर निर्भर करता है <math>k</math>वें नोड्स, जो आउटपुट परत का प्रतिनिधित्व करते हैं। इसलिए हिडन लेयर वेट को बदलने के लिए, ्टिवेशन फंक्शन के डेरिवेटिव के अनुसार आउटपुट लेयर वेट में बदलाव होता है, और इसलिए यह एल्गोरिथम ्टिवेशन फंक्शन के बैकप्रॉपैगेशन का प्रतिनिधित्व करता है।<ref>{{cite book |last=Haykin |first=Simon |author-link=Simon Haykin |title=Neural Networks: A Comprehensive Foundation |edition=2 |year=1998 |publisher=Prentice Hall |isbn=0-13-273350-1 }}</ref>
== शब्दावली ==
== शब्दावली ==


मल्टीलेयर परसेप्ट्रॉन शब्द एक ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। बल्कि, इसमें कई परसेप्ट्रॉन होते हैं जो परतों में व्यवस्थित होते हैं। एक विकल्प मल्टीलेयर परसेप्ट्रॉन नेटवर्क है। इसके अलावा, एमएलपी परसेप्ट्रॉन सख्त संभव अर्थों में परसेप्ट्रॉन नहीं हैं। ट्रू परसेप्ट्रॉन औपचारिक रूप से कृत्रिम न्यूरॉन्स का एक विशेष मामला है जो थ्रेसहोल्ड एक्टिवेशन फ़ंक्शन जैसे [[हैवीसाइड स्टेप फंक्शन]] का उपयोग करता है। एमएलपी परसेप्ट्रॉन मनमाने ढंग से सक्रियण कार्यों को नियोजित कर सकते हैं। एक सच्चा परसेप्ट्रॉन बाइनरी वर्गीकरण करता है, एक एमएलपी न्यूरॉन अपने सक्रियण कार्य के आधार पर या तो वर्गीकरण या प्रतिगमन करने के लिए स्वतंत्र है।
मल्टीलेयर परसेप्ट्रॉन शब्द   ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। बल्कि, इसमें कई परसेप्ट्रॉन होते हैं जो परतों में व्यवस्थित होते हैं।   विकल्प मल्टीलेयर परसेप्ट्रॉन नेटवर्क है। इसके अलावा, एमएलपी परसेप्ट्रॉन सख्त संभव अर्थों में परसेप्ट्रॉन नहीं हैं। ट्रू परसेप्ट्रॉन औपचारिक रूप से कृत्रिम न्यूरॉन्स का   विशेष मामला है जो थ्रेसहोल्ड ्टिवेशन फ़ंक्शन जैसे [[हैवीसाइड स्टेप फंक्शन]] का उपयोग करता है। एमएलपी परसेप्ट्रॉन मनमाने ढंग से सक्रियण कार्यों को नियोजित कर सकते हैं।   सच्चा परसेप्ट्रॉन बाइनरी वर्गीकरण करता है,   एमएलपी न्यूरॉन अपने सक्रियण कार्य के आधार पर या तो वर्गीकरण या प्रतिगमन करने के लिए स्वतंत्र है।


बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड्स / परतों की प्रकृति के संबंध में लागू किया गया था, जो मनमाने ढंग से परिभाषित कृत्रिम न्यूरॉन्स से बना हो सकता है, न कि विशेष रूप से परसेप्ट्रॉन से। यह व्याख्या सामान्य रूप से एक कृत्रिम न्यूरॉन के अर्थ के लिए परसेप्ट्रॉन की परिभाषा को ढीला करने से बचाती है।
बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड्स / परतों की प्रकृति के संबंध में लागू किया गया था, जो मनमाने ढंग से परिभाषित कृत्रिम न्यूरॉन्स से बना हो सकता है, न कि विशेष रूप से परसेप्ट्रॉन से। यह व्याख्या सामान्य रूप से   कृत्रिम न्यूरॉन के अर्थ के लिए परसेप्ट्रॉन की परिभाषा को ढीला करने से बचाती है।


== इतिहास ==
== इतिहास ==


[[फ्रैंक रोसेनब्लैट]], जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था,<ref>{{cite journal|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain|journal=Psychological Review|year=1958|volume=65|pages=386–408|doi=10.1037/h0042519|pmid=13602029|issue=6|citeseerx=10.1.1.588.3775}}</ref> 3 परतों के साथ एक एमएलपी भी पेश किया: एक इनपुट परत, यादृच्छिक वजन वाली एक छिपी हुई परत जो नहीं सीखी, और एक आउटपुट परत।<ref name="rosenblatt1962"/><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref> चूँकि केवल आउटपुट लेयर में लर्निंग कनेक्शन था, यह अभी तक डीप लर्निंग नहीं था। इसे बाद में [[ अत्यधिक सीखने की मशीन |अत्यधिक सीखने की मशीन]] कहा जाने लगा।<ref name="huang2006">{{cite journal |last1=Huang |first1=Guang-Bin |first2=Qin-Yu |last2=Zhu |first3=Chee-Kheong |last3=Siew |title=Extreme learning machine: theory and applications |journal=Neurocomputing |volume=70 |issue=1 |year=2006 |pages=489–501 |doi=10.1016/j.neucom.2005.12.126 |citeseerx=10.1.1.217.3692}}</ref><ref name=DLhistory />
[[फ्रैंक रोसेनब्लैट]], जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था,<ref>{{cite journal|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain|journal=Psychological Review|year=1958|volume=65|pages=386–408|doi=10.1037/h0042519|pmid=13602029|issue=6|citeseerx=10.1.1.588.3775}}</ref> 3 परतों के साथ   एमएलपी भी पेश किया:   इनपुट परत, यादृच्छिक वजन वाली   छिपी हुई परत जो नहीं सीखी, और   आउटपुट परत।<ref name="rosenblatt1962"/><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref> चूँकि केवल आउटपुट लेयर में लर्निंग कनेक्शन था, यह अभी तक डीप लर्निंग नहीं था। इसे बाद में [[ अत्यधिक सीखने की मशीन |अत्यधिक सीखने की मशीन]] कहा जाने लगा।<ref name="huang2006">{{cite journal |last1=Huang |first1=Guang-Bin |first2=Qin-Yu |last2=Zhu |first3=Chee-Kheong |last3=Siew |title=Extreme learning machine: theory and applications |journal=Neurocomputing |volume=70 |issue=1 |year=2006 |pages=489–501 |doi=10.1016/j.neucom.2005.12.126 |citeseerx=10.1.1.217.3692}}</ref><ref name=DLhistory />


डेटा प्रबंधन की समूह विधि के रूप में 1965 में [[एलेक्सी ग्रिगोरविच इवाखेंको]] और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।<ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=साइबरनेटिक भविष्यवाणी करने वाले उपकरण|last=Ivakhnenko|first=A. G.|author-link=Alexey Grigorevich Ivakhnenko|publisher=CCM Information Corporation|year=1973}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=साइबरनेटिक्स और पूर्वानुमान तकनीक|last2=Grigorʹevich Lapa|first2=Valentin|author-link=Alexey Grigorevich Ivakhnenko|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}}</ref><ref name=DLhistory />
डेटा प्रबंधन की समूह विधि के रूप में 1965 में [[एलेक्सी ग्रिगोरविच इवाखेंको]] और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।<ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=साइबरनेटिक भविष्यवाणी करने वाले उपकरण|last=Ivakhnenko|first=A. G.|author-link=Alexey Grigorevich Ivakhnenko|publisher=CCM Information Corporation|year=1973}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=साइबरनेटिक्स और पूर्वानुमान तकनीक|last2=Grigorʹevich Lapa|first2=Valentin|author-link=Alexey Grigorevich Ivakhnenko|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}}</ref><ref name=DLhistory />


[[ स्टोकेस्टिक ग्रेडिएंट डिसेंट | स्टोकेस्टिक ग्रेडिएंट डिसेंट]] द्वारा प्रशिक्षित पहला डीप लर्निंग एमएलपी<ref name="robbins1951">{{Cite journal | last1 = Robbins | first1 = H. | author-link = Herbert Robbins| last2 = Monro | first2 = S. | doi = 10.1214/aoms/1177729586 | title = एक स्टोकेस्टिक सन्निकटन विधि| journal = The Annals of Mathematical Statistics | volume = 22 | issue = 3 | pages = 400 | year = 1951 | doi-access = free }}</ref> 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।<ref name="Amari1967">{{cite journal |last1=Amari |first1=Shun'ichi |author-link=Shun'ichi Amari|title=अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत|journal= IEEE Transactions |date=1967 |volume=EC |issue=16 |pages=279-307}}</ref><ref name=DLhistory />अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ एक पांच परत एमएलपी सीखा ज्ञान प्रतिनिधित्व।<ref name=DLhistory />
[[ स्टोकेस्टिक ग्रेडिएंट डिसेंट | स्टोकेस्टिक ग्रेडिएंट डिसेंट]] द्वारा प्रशिक्षित पहला डीप लर्निंग एमएलपी<ref name="robbins1951">{{Cite journal | last1 = Robbins | first1 = H. | author-link = Herbert Robbins| last2 = Monro | first2 = S. | doi = 10.1214/aoms/1177729586 | title = एक स्टोकेस्टिक सन्निकटन विधि| journal = The Annals of Mathematical Statistics | volume = 22 | issue = 3 | pages = 400 | year = 1951 | doi-access = free }}</ref> 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।<ref name="Amari1967">{{cite journal |last1=Amari |first1=Shun'ichi |author-link=Shun'ichi Amari|title=अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत|journal= IEEE Transactions |date=1967 |volume=EC |issue=16 |pages=279-307}}</ref><ref name=DLhistory />अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ   पांच परत एमएलपी सीखा ज्ञान प्रतिनिधित्व।<ref name=DLhistory />


1970 में, [[सेप्पो लिनैनमा]] ने नेस्टेड [[विभेदक कार्य]] फंक्शन के असतत कनेक्टेड नेटवर्क के स्वत: विभेदन के लिए सामान्य विधि प्रकाशित की।<ref name="lin1970">{{cite thesis|first=Seppo|last=Linnainmaa|author-link=Seppo Linnainmaa|year=1970|type=Masters|title=स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व|language=fi|publisher=University of Helsinki|pages=6–7}}</ref><ref name="lin1976">{{cite journal|last1=Linnainmaa|first1=Seppo|author-link=Seppo Linnainmaa|year=1976|title=संचित गोलाई त्रुटि का टेलर विस्तार|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|s2cid=122357351}}</ref> इसे बैकप्रोपैगेशन या स्वत: भेदभाव के रिवर्स मोड के रूप में जाना जाने लगा। यह 1673 में [[गॉटफ्रीड विल्हेम लीबनिज]] द्वारा प्राप्त श्रृंखला नियम का एक कुशल अनुप्रयोग है।<ref name="leibniz1676">{{Cite book|last=Leibniz|first=Gottfried Wilhelm Freiherr von|url=https://books.google.com/books?id=bOIGAAAAYAAJ&q=leibniz+altered+manuscripts&pg=PA90|title=The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir)|date=1920|publisher=Open court publishing Company|language=en}}</ref><ref>{{cite journal|url= https://scholarworks.umt.edu/tme/vol7/iss2/10/ |title=श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब|journal=The Mathematics Enthusiast |year=2010 |volume=7 |pages=321–332 |issue=2 |first1=Omar Hernández |last1=Rodríguez |first2=Jorge M. |last2=López Fernández |doi=10.54870/1551-3440.1191 |s2cid=29739148 |access-date=2019-08-04|doi-access=free }}</ref> अलग-अलग नोड्स के नेटवर्क के लिए।<ref name=DLhistory />  
1970 में, [[सेप्पो लिनैनमा]] ने नेस्टेड [[विभेदक कार्य]] फंक्शन के असतत कनेक्टेड नेटवर्क के स्वत: विभेदन के लिए सामान्य विधि प्रकाशित की।<ref name="lin1970">{{cite thesis|first=Seppo|last=Linnainmaa|author-link=Seppo Linnainmaa|year=1970|type=Masters|title=स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व|language=fi|publisher=University of Helsinki|pages=6–7}}</ref><ref name="lin1976">{{cite journal|last1=Linnainmaa|first1=Seppo|author-link=Seppo Linnainmaa|year=1976|title=संचित गोलाई त्रुटि का टेलर विस्तार|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|s2cid=122357351}}</ref> इसे बैकप्रोपैगेशन या स्वत: भेदभाव के रिवर्स मोड के रूप में जाना जाने लगा। यह 1673 में [[गॉटफ्रीड विल्हेम लीबनिज]] द्वारा प्राप्त श्रृंखला नियम का   कुशल अनुप्रयोग है।<ref name="leibniz1676">{{Cite book|last=Leibniz|first=Gottfried Wilhelm Freiherr von|url=https://books.google.com/books?id=bOIGAAAAYAAJ&q=leibniz+altered+manuscripts&pg=PA90|title=The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir)|date=1920|publisher=Open court publishing Company|language=en}}</ref><ref>{{cite journal|url= https://scholarworks.umt.edu/tme/vol7/iss2/10/ |title=श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब|journal=The Mathematics Enthusiast |year=2010 |volume=7 |pages=321–332 |issue=2 |first1=Omar Hernández |last1=Rodríguez |first2=Jorge M. |last2=López Fernández |doi=10.54870/1551-3440.1191 |s2cid=29739148 |access-date=2019-08-04|doi-access=free }}</ref> अलग-अलग नोड्स के नेटवर्क के लिए।<ref name=DLhistory />  
शब्दावली बैक-प्रोपेगेटिंग एरर वास्तव में 1962 में खुद रोसेनब्लैट द्वारा पेश की गई थी,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=न्यूरोडायनामिक्स के सिद्धांत|year=1962|publisher=Spartan, New York}}</ref> लेकिन उसे नहीं पता था कि इसे कैसे लागू किया जाए,<ref name=DLhistory />हालांकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था<ref name="kelley1960">{{cite journal|last1=Kelley|first1=Henry J.|author-link=Henry J. Kelley|year=1960|title=इष्टतम उड़ान पथों का क्रमिक सिद्धांत|journal=ARS Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282}}</ref> पहले से ही 1960 में [[नियंत्रण सिद्धांत]] के संदर्भ में।<ref name=DLhistory />1982 में, [[पॉल वर्बोस]] ने MLPs के लिए उस तरह से बैकप्रॉपैगैशन लागू किया जो मानक बन गया है।<ref name="werbos1982">{{Cite book|title=सिस्टम मॉडलिंग और अनुकूलन|last=Werbos|first=Paul|publisher=Springer|year=1982|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis|author-link=Paul Werbos|chapter-url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|access-date=2 July 2017|archive-date=14 April 2016|archive-url=https://web.archive.org/web/20160414055503/http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|url-status=live}}</ref><ref name=DLhistory />1985 में, डेविड ई. रुमेलहार्ट एट अल। तकनीक का एक प्रायोगिक विश्लेषण प्रकाशित किया।<ref name="rumelhart1986" />बाद के दशकों में कई सुधार लागू किए गए हैं।<ref name=DLhistory />
शब्दावली बैक-प्रोपेगेटिंग एरर वास्तव में 1962 में खुद रोसेनब्लैट द्वारा पेश की गई थी,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=न्यूरोडायनामिक्स के सिद्धांत|year=1962|publisher=Spartan, New York}}</ref> लेकिन उसे नहीं पता था कि इसे कैसे लागू किया जाए,<ref name=DLhistory />हालांकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था<ref name="kelley1960">{{cite journal|last1=Kelley|first1=Henry J.|author-link=Henry J. Kelley|year=1960|title=इष्टतम उड़ान पथों का क्रमिक सिद्धांत|journal=ARS Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282}}</ref> पहले से ही 1960 में [[नियंत्रण सिद्धांत]] के संदर्भ में।<ref name=DLhistory />1982 में, [[पॉल वर्बोस]] ने MLPs के लिए उस तरह से बैकप्रॉपैगैशन लागू किया जो मानक बन गया है।<ref name="werbos1982">{{Cite book|title=सिस्टम मॉडलिंग और अनुकूलन|last=Werbos|first=Paul|publisher=Springer|year=1982|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis|author-link=Paul Werbos|chapter-url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|access-date=2 July 2017|archive-date=14 April 2016|archive-url=https://web.archive.org/web/20160414055503/http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|url-status=live}}</ref><ref name=DLhistory />1985 में, डेविड ई. रुमेलहार्ट एट अल। तकनीक का   प्रायोगिक विश्लेषण प्रकाशित किया।<ref name="rumelhart1986" />बाद के दशकों में कई सुधार लागू किए गए हैं।<ref name=DLhistory />


2021 के अंत तक, स्किप कनेक्शन और लेयर नॉर्मलाइजेशन के साथ दो एमएलपी को मिलाकर एक बहुत ही सरल एनएन आर्किटेक्चर को डिजाइन किया गया और एमएलपी-मिक्सर कहा गया; 19 से 431 मिलियन मापदंडों की विशेषता वाली इसकी प्राप्तियों को [[ इमेज नेट |इमेज नेट]] और समान [[छवि वर्गीकरण]] कार्यों के समान आकार के [[दृश्य ट्रांसफार्मर]] के बराबर दिखाया गया था।<ref>https://paperswithcode.com/paper/mlp-mixer-an-all-mlp-architecture-for-vision</ref>
2021 के अंत तक, स्किप कनेक्शन और लेयर नॉर्मलाइजेशन के साथ दो एमएलपी को मिलाकर   बहुत ही सरल एनएन आर्किटेक्चर को डिजाइन किया गया और एमएलपी-मिक्सर कहा गया; 19 से 431 मिलियन मापदंडों की विशेषता वाली इसकी प्राप्तियों को [[ इमेज नेट |इमेज नेट]] और समान [[छवि वर्गीकरण]] कार्यों के समान आकार के [[दृश्य ट्रांसफार्मर]] के बराबर दिखाया गया था।<ref>https://paperswithcode.com/paper/mlp-mixer-an-all-mlp-architecture-for-vision</ref>
== अनुप्रयोग ==
== अनुप्रयोग ==
एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो अक्सर फिटनेस सन्निकटन जैसी अत्यंत [[कम्प्यूटेशनल जटिलता सिद्धांत]] समस्याओं के लिए अनुमानित समाधान की अनुमति देता है।
एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो अक्सर फिटनेस सन्निकटन जैसी अत्यंत [[कम्प्यूटेशनल जटिलता सिद्धांत]] समस्याओं के लिए अनुमानित समाधान की अनुमति देता है।


MLPs यूनिवर्सल फंक्शन सन्निकटन हैं जैसा कि यूनिवर्सल सन्निकटन प्रमेय द्वारा दिखाया गया है। साइबेंको का प्रमेय,<ref name="Cybenko1989"/>इसलिए उनका उपयोग [[प्रतिगमन विश्लेषण]] द्वारा गणितीय मॉडल बनाने के लिए किया जा सकता है। जैसा कि [[सांख्यिकीय वर्गीकरण]] प्रतिगमन विश्लेषण का एक विशेष मामला है जब प्रतिक्रिया चर श्रेणीबद्ध चर होता है, एमएलपी अच्छे क्लासिफायर एल्गोरिदम बनाते हैं।
MLPs यूनिवर्सल फंक्शन सन्निकटन हैं जैसा कि यूनिवर्सल सन्निकटन प्रमेय द्वारा दिखाया गया है। साइबेंको का प्रमेय,<ref name="Cybenko1989"/>इसलिए उनका उपयोग [[प्रतिगमन विश्लेषण]] द्वारा गणितीय मॉडल बनाने के लिए किया जा सकता है। जैसा कि [[सांख्यिकीय वर्गीकरण]] प्रतिगमन विश्लेषण का   विशेष मामला है जब प्रतिक्रिया चर श्रेणीबद्ध चर होता है, एमएलपी अच्छे क्लासिफायर एल्गोरिदम बनाते हैं।


MLPs 1980 के दशक में एक लोकप्रिय मशीन लर्निंग समाधान थे, जो [[वाक् पहचान]], [[छवि पहचान]] और [[मशीन अनुवाद]] सॉफ़्टवेयर जैसे विविध क्षेत्रों में अनुप्रयोग खोजते थे।<ref>Neural networks. II. What are they and why is everybody so interested in them now?; Wasserman, P.D.; Schwartz, T.; Page(s): 10-15; IEEE Expert, 1988, Volume 3, Issue 1</ref> लेकिन उसके बाद बहुत सरल (और संबंधित) से कड़ी प्रतिस्पर्धा का सामना करना पड़ा<ref>R. Collobert and S. Bengio (2004). Links between Perceptrons, MLPs and SVMs. Proc. Int'l Conf. on Machine Learning (ICML).</ref>) [[समर्थन वेक्टर यंत्र]] डीप लर्निंग की सफलताओं के कारण बैकप्रॉपैगेशन नेटवर्क में रुचि लौट आई।
MLPs 1980 के दशक में   लोकप्रिय मशीन लर्निंग समाधान थे, जो [[वाक् पहचान]], [[छवि पहचान]] और [[मशीन अनुवाद]] सॉफ़्टवेयर जैसे विविध क्षेत्रों में अनुप्रयोग खोजते थे।<ref>Neural networks. II. What are they and why is everybody so interested in them now?; Wasserman, P.D.; Schwartz, T.; Page(s): 10-15; IEEE Expert, 1988, Volume 3, Issue 1</ref> लेकिन उसके बाद बहुत सरल (और संबंधित) से कड़ी प्रतिस्पर्धा का सामना करना पड़ा<ref>R. Collobert and S. Bengio (2004). Links between Perceptrons, MLPs and SVMs. Proc. Int'l Conf. on Machine Learning (ICML).</ref>) [[समर्थन वेक्टर यंत्र]] डीप लर्निंग की सफलताओं के कारण बैकप्रॉपैगेशन नेटवर्क में रुचि लौट आई।


== संदर्भ ==
== संदर्भ ==

Revision as of 11:21, 7 May 2023

मल्टीलेयर परसेप्ट्रॉन (MLP) फीडफॉरवर्ड न्यूरल नेटवर्क कृत्रिम तंत्रिका नेटवर्क (ANN) का पूरी तरह से जुड़ा हुआ वर्ग है। एमएलपी शब्द का प्रयोग अस्पष्ट रूप से किया जाता है, कभी-कभी शिथिल रूप से किसी भी फीडफॉरवर्ड एएनएन का अर्थ होता है, कभी-कभी कड़ाई से परसेप्ट्रॉन की कई परतों से बने नेटवर्क को संदर्भित करने के लिए (थ्रेशोल्ड सक्रियण के साथ); देखना § Terminology. बहुपरत परसेप्ट्रॉन को कभी-कभी बोलचाल की भाषा में वेनिला न्यूरल नेटवर्क के रूप में संदर्भित किया जाता है, खासकर जब उनके पास ही छिपी हुई परत होती है।[1] MLP में नोड्स की कम से कम तीन परत (डीप लर्निंग) होती हैं: इनपुट लेयर, हिडन लेयर और आउटपुट लेयर। इनपुट नोड्स को छोड़कर, प्रत्येक नोड न्यूरॉन है जो गैर-रैखिक सक्रियण फ़ंक्शन का उपयोग करता है। एमएलपी श्रृंखला नियम का उपयोग करता है[2]आधारित पर्यवेक्षित शिक्षण तकनीक जिसे प्रशिक्षण के लिए backpropagation या स्वचालित भेदभाव का रिवर्स मोड कहा जाता है।[3][4][5][6][7] इसकी कई परतें और गैर-रैखिक सक्रियण MLP को रेखीय परसेप्ट्रॉन से अलग करते हैं। यह ऐसे डेटा को अलग कर सकता है जो रैखिक पृथक्करणीयता नहीं है।[8]

सिद्धांत

सक्रियण समारोह

यदि बहुपरत परसेप्ट्रॉन में सभी न्यूरॉन्स में रेखीय सक्रियण कार्य होता है, अर्थात, रेखीय कार्य जो प्रत्येक न्यूरॉन के आउटपुट के लिए सिनैप्टिक वजन को मैप करता है, तो रैखिक बीजगणित से पता चलता है कि किसी भी संख्या में परतों को दो-परत इनपुट में घटाया जा सकता है- आउटपुट मॉडल। एमएलपी में कुछ न्यूरॉन गैर-रैखिक सक्रियण फ़ंक्शन का उपयोग करते हैं जिसे जैविक न्यूरॉन्स की कार्यवाही संभावना, या फायरिंग की आवृत्ति को मॉडल करने के लिए विकसित किया गया था।

दो ऐतिहासिक रूप से सामान्य सक्रियण कार्य दोनों सिग्मोइड्स हैं, और इनके द्वारा वर्णित हैं

.

पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा रसद कार्य है, जो आकार में समान है लेकिन 0 से 1 तक है। यहां का आउटपुट है वें नोड (न्यूरॉन) और इनपुट कनेक्शन का भारित योग है। रेक्टीफायर (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य शामिल हैं (रेडियल आधार नेटवर्क में उपयोग किया जाता है, पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का अन्य वर्ग)।

ध्यान लगा के पढ़ना या सीखना के हाल के विकास में शुद्ध करनेवाला (तंत्रिका नेटवर्क) | रेक्टिफाइड लीनियर यूनिट (ReLU) का उपयोग सिग्मोइड्स से संबंधित न्यूमेरिकल लुप्त हो रही ढाल समस्या को दूर करने के संभावित तरीकों में से के रूप में अधिक बार किया जाता है।

परतें

MLP में तीन या अधिक परतें ( इनपुट और या अधिक छिपी हुई परतों के साथ आउटपुट परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं, परत में प्रत्येक नोड निश्चित वजन से जुड़ता है अगली परत में हर नोड के लिए।

सीखना

अपेक्षित परिणाम की तुलना में आउटपुट में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद कनेक्शन वेट को बदलकर परसेप्ट्रॉन में सीखना होता है। यह पर्यवेक्षित सीखने का उदाहरण है, और इसे बैकप्रोपैजेशन के माध्यम से किया जाता है, रैखिक परसेप्ट्रॉन में कम से कम औसत वर्ग फ़िल्टर का सामान्यीकरण।

हम आउटपुट नोड में त्रुटि की डिग्री का प्रतिनिधित्व कर सकते हैं में वें डेटा बिंदु (प्रशिक्षण उदाहरण) द्वारा , कहाँ के लिए वांछित लक्ष्य मान है नोड पर वें डेटा बिंदु , और नोड पर परसेप्ट्रॉन द्वारा उत्पादित मूल्य है जब वें डेटा बिंदु को इनपुट के रूप में दिया जाता है।

नोड भार तब सुधार के आधार पर समायोजित किया जा सकता है जो पूरे आउटपुट में त्रुटि को कम करता है वें डेटा बिंदु, द्वारा दिया गया

.

ढाल वंश का उपयोग करना, प्रत्येक वजन में परिवर्तन है

कहाँ पिछले न्यूरॉन का आउटपुट है , और सीखने की दर है, जिसे यह सुनिश्चित करने के लिए चुना जाता है कि वज़न बिना किसी दोलन के प्रतिक्रिया में जल्दी से परिवर्तित हो जाए। पिछले अभिव्यक्ति में, त्रुटि के आंशिक व्युत्पन्न को दर्शाता है भारित योग के अनुसार न्यूरॉन के इनपुट कनेक्शन की .

गणना की जाने वाली व्युत्पत्ति प्रेरित स्थानीय क्षेत्र पर निर्भर करती है , जो स्वयं भिन्न होता है। यह साबित करना आसान है कि आउटपुट नोड के लिए इस व्युत्पन्न को सरल बनाया जा सकता है

कहाँ ऊपर वर्णित सक्रियण फ़ंक्शन का व्युत्पन्न है, जो स्वयं भिन्न नहीं होता है। वजन में छिपे हुए नोड में परिवर्तन के लिए विश्लेषण अधिक कठिन है, लेकिन यह दिखाया जा सकता है कि प्रासंगिक व्युत्पन्न है

.

यह वजन में बदलाव पर निर्भर करता है वें नोड्स, जो आउटपुट परत का प्रतिनिधित्व करते हैं। इसलिए हिडन लेयर वेट को बदलने के लिए, ्टिवेशन फंक्शन के डेरिवेटिव के अनुसार आउटपुट लेयर वेट में बदलाव होता है, और इसलिए यह एल्गोरिथम ्टिवेशन फंक्शन के बैकप्रॉपैगेशन का प्रतिनिधित्व करता है।[9]

शब्दावली

मल्टीलेयर परसेप्ट्रॉन शब्द ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। बल्कि, इसमें कई परसेप्ट्रॉन होते हैं जो परतों में व्यवस्थित होते हैं। विकल्प मल्टीलेयर परसेप्ट्रॉन नेटवर्क है। इसके अलावा, एमएलपी परसेप्ट्रॉन सख्त संभव अर्थों में परसेप्ट्रॉन नहीं हैं। ट्रू परसेप्ट्रॉन औपचारिक रूप से कृत्रिम न्यूरॉन्स का विशेष मामला है जो थ्रेसहोल्ड ्टिवेशन फ़ंक्शन जैसे हैवीसाइड स्टेप फंक्शन का उपयोग करता है। एमएलपी परसेप्ट्रॉन मनमाने ढंग से सक्रियण कार्यों को नियोजित कर सकते हैं। सच्चा परसेप्ट्रॉन बाइनरी वर्गीकरण करता है, एमएलपी न्यूरॉन अपने सक्रियण कार्य के आधार पर या तो वर्गीकरण या प्रतिगमन करने के लिए स्वतंत्र है।

बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड्स / परतों की प्रकृति के संबंध में लागू किया गया था, जो मनमाने ढंग से परिभाषित कृत्रिम न्यूरॉन्स से बना हो सकता है, न कि विशेष रूप से परसेप्ट्रॉन से। यह व्याख्या सामान्य रूप से कृत्रिम न्यूरॉन के अर्थ के लिए परसेप्ट्रॉन की परिभाषा को ढीला करने से बचाती है।

इतिहास

फ्रैंक रोसेनब्लैट, जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था,[10] 3 परतों के साथ एमएलपी भी पेश किया: इनपुट परत, यादृच्छिक वजन वाली छिपी हुई परत जो नहीं सीखी, और आउटपुट परत।[11][12] चूँकि केवल आउटपुट लेयर में लर्निंग कनेक्शन था, यह अभी तक डीप लर्निंग नहीं था। इसे बाद में अत्यधिक सीखने की मशीन कहा जाने लगा।[13][12]

डेटा प्रबंधन की समूह विधि के रूप में 1965 में एलेक्सी ग्रिगोरविच इवाखेंको और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।[14][15][12]

स्टोकेस्टिक ग्रेडिएंट डिसेंट द्वारा प्रशिक्षित पहला डीप लर्निंग एमएलपी[16] 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।[17][12]अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक दो परिवर्तनीय परतों के साथ पांच परत एमएलपी सीखा ज्ञान प्रतिनिधित्व।[12]

1970 में, सेप्पो लिनैनमा ने नेस्टेड विभेदक कार्य फंक्शन के असतत कनेक्टेड नेटवर्क के स्वत: विभेदन के लिए सामान्य विधि प्रकाशित की।[3][18] इसे बैकप्रोपैगेशन या स्वत: भेदभाव के रिवर्स मोड के रूप में जाना जाने लगा। यह 1673 में गॉटफ्रीड विल्हेम लीबनिज द्वारा प्राप्त श्रृंखला नियम का कुशल अनुप्रयोग है।[2][19] अलग-अलग नोड्स के नेटवर्क के लिए।[12] शब्दावली बैक-प्रोपेगेटिंग एरर वास्तव में 1962 में खुद रोसेनब्लैट द्वारा पेश की गई थी,[11] लेकिन उसे नहीं पता था कि इसे कैसे लागू किया जाए,[12]हालांकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था[4] पहले से ही 1960 में नियंत्रण सिद्धांत के संदर्भ में।[12]1982 में, पॉल वर्बोस ने MLPs के लिए उस तरह से बैकप्रॉपैगैशन लागू किया जो मानक बन गया है।[6][12]1985 में, डेविड ई. रुमेलहार्ट एट अल। तकनीक का प्रायोगिक विश्लेषण प्रकाशित किया।[7]बाद के दशकों में कई सुधार लागू किए गए हैं।[12]

2021 के अंत तक, स्किप कनेक्शन और लेयर नॉर्मलाइजेशन के साथ दो एमएलपी को मिलाकर बहुत ही सरल एनएन आर्किटेक्चर को डिजाइन किया गया और एमएलपी-मिक्सर कहा गया; 19 से 431 मिलियन मापदंडों की विशेषता वाली इसकी प्राप्तियों को इमेज नेट और समान छवि वर्गीकरण कार्यों के समान आकार के दृश्य ट्रांसफार्मर के बराबर दिखाया गया था।[20]

अनुप्रयोग

एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो अक्सर फिटनेस सन्निकटन जैसी अत्यंत कम्प्यूटेशनल जटिलता सिद्धांत समस्याओं के लिए अनुमानित समाधान की अनुमति देता है।

MLPs यूनिवर्सल फंक्शन सन्निकटन हैं जैसा कि यूनिवर्सल सन्निकटन प्रमेय द्वारा दिखाया गया है। साइबेंको का प्रमेय,[8]इसलिए उनका उपयोग प्रतिगमन विश्लेषण द्वारा गणितीय मॉडल बनाने के लिए किया जा सकता है। जैसा कि सांख्यिकीय वर्गीकरण प्रतिगमन विश्लेषण का विशेष मामला है जब प्रतिक्रिया चर श्रेणीबद्ध चर होता है, एमएलपी अच्छे क्लासिफायर एल्गोरिदम बनाते हैं।

MLPs 1980 के दशक में लोकप्रिय मशीन लर्निंग समाधान थे, जो वाक् पहचान, छवि पहचान और मशीन अनुवाद सॉफ़्टवेयर जैसे विविध क्षेत्रों में अनुप्रयोग खोजते थे।[21] लेकिन उसके बाद बहुत सरल (और संबंधित) से कड़ी प्रतिस्पर्धा का सामना करना पड़ा[22]) समर्थन वेक्टर यंत्र डीप लर्निंग की सफलताओं के कारण बैकप्रॉपैगेशन नेटवर्क में रुचि लौट आई।

संदर्भ

  1. Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.
  2. 2.0 2.1 Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (in English). Open court publishing Company.
  3. 3.0 3.1 Linnainmaa, Seppo (1970). स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व (Masters) (in suomi). University of Helsinki. pp. 6–7.
  4. 4.0 4.1 Kelley, Henry J. (1960). "इष्टतम उड़ान पथों का क्रमिक सिद्धांत". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
  5. Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961
  6. 6.0 6.1 Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). सिस्टम मॉडलिंग और अनुकूलन. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
  7. 7.0 7.1 Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
  8. 8.0 8.1 Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function Mathematics of Control, Signals, and Systems, 2(4), 303–314.
  9. Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1.
  10. Rosenblatt, Frank (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029.
  11. 11.0 11.1 Rosenblatt, Frank (1962). न्यूरोडायनामिक्स के सिद्धांत. Spartan, New York.
  12. 12.0 12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9 Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
  13. Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Extreme learning machine: theory and applications". Neurocomputing. 70 (1): 489–501. CiteSeerX 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126.
  14. Ivakhnenko, A. G. (1973). साइबरनेटिक भविष्यवाणी करने वाले उपकरण. CCM Information Corporation.
  15. Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). साइबरनेटिक्स और पूर्वानुमान तकनीक. American Elsevier Pub. Co.
  16. Robbins, H.; Monro, S. (1951). "एक स्टोकेस्टिक सन्निकटन विधि". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
  17. Amari, Shun'ichi (1967). "अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत". IEEE Transactions. EC (16): 279–307.
  18. Linnainmaa, Seppo (1976). "संचित गोलाई त्रुटि का टेलर विस्तार". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
  19. Rodríguez, Omar Hernández; López Fernández, Jorge M. (2010). "श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब". The Mathematics Enthusiast. 7 (2): 321–332. doi:10.54870/1551-3440.1191. S2CID 29739148. Retrieved 2019-08-04.
  20. https://paperswithcode.com/paper/mlp-mixer-an-all-mlp-architecture-for-vision
  21. Neural networks. II. What are they and why is everybody so interested in them now?; Wasserman, P.D.; Schwartz, T.; Page(s): 10-15; IEEE Expert, 1988, Volume 3, Issue 1
  22. R. Collobert and S. Bengio (2004). Links between Perceptrons, MLPs and SVMs. Proc. Int'l Conf. on Machine Learning (ICML).


बाहरी संबंध