बहुपरत परसेप्ट्रॉन: Difference between revisions
No edit summary |
No edit summary |
||
(15 intermediate revisions by 4 users not shown) | |||
Line 1: | Line 1: | ||
'''बहुपरत परसेप्ट्रॉन (एमएलपी)''' [[फीडफॉरवर्ड न्यूरल नेटवर्क]] [[ कृत्रिम तंत्रिका नेटवर्क |कृत्रिम तंत्रिका नेटवर्क]] (एएनएन) का पूरी तरह से जुड़ा हुआ वर्ग है। एमएलपी शब्द का प्रयोग अस्पष्ट रूप से किया जाता है, कभी-कभी शिथिल रूप से किसी भी फीडफॉरवर्ड एएनएन का अर्थ होता है, कभी-कभी कड़ाई से परसेप्ट्रॉन की कई परतों से बने नेटवर्क को संदर्भित करने के लिए (प्रवेशद्वार सक्रियण के साथ); देखना {{slink|| शब्दावली}}। बहुपरत परसेप्ट्रॉन को कभी-कभी बोलचाल की भाषा में "वेनिला" तंत्रिका नेटवर्क के रूप में संदर्भित किया जाता है, विशेष रूप से जब उनके पास एक ही छिपी हुई परत होती है।<ref>Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.</ref> | |||
एमएलपी में नोड की कम से कम तीन परत होती हैं: निविष्ट परत, छिपी हुई परत और उत्पादन परत है। निविष्ट नोड को छोड़कर प्रत्येक नोड न्यूरॉन है, जो गैर-रैखिक सक्रियण फलन का उपयोग करता है। एमएलपी [[श्रृंखला नियम]] का उपयोग करता है<ref name="leibniz1676" />आधारित पर्यवेक्षित शिक्षण प्रविधि जिसे प्रशिक्षण के लिए [[पश्च प्रसारण]] या [[स्वचालित भेदभाव]] का उत्क्रम प्रणाली कहा जाता है।<ref name="lin1970" /><ref name="kelley1960" /><ref>Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961</ref><ref name="werbos1982" /><ref name="rumelhart1986">Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "[https://apps.dtic.mil/dtic/tr/fulltext/u2/a164453.pdf Learning Internal Representations by Error Propagation]". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.</ref> इसकी कई परतें और गैर-रैखिक सक्रियण एमएलपी को रेखीय परसेप्ट्रॉन से अलग करते हैं। यह ऐसे डेटा को अलग कर सकता है जो रैखिक रैखिक रूप से वियोज्य नहीं है।<ref name="Cybenko1989">Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function ''[[Mathematics of Control, Signals, and Systems]]'', 2(4), 303–314.</ref> | |||
एमएलपी में नोड की कम से कम तीन परत होती हैं: निविष्ट परत, छिपी हुई परत और उत्पादन परत | |||
== सिद्धांत == | == सिद्धांत == | ||
Line 13: | Line 11: | ||
:<math>y(v_i) = \tanh(v_i) ~~ \textrm{and} ~~ y(v_i) = (1+e^{-v_i})^{-1}</math>. | :<math>y(v_i) = \tanh(v_i) ~~ \textrm{and} ~~ y(v_i) = (1+e^{-v_i})^{-1}</math>. | ||
पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा तार्किक कार्य है, जो आकार में समान है किन्तु 0 से 1 तक है। यहां <math>y_i</math> का उत्पादन है <math>i</math>वें नोड (न्यूरॉन) और <math>v_i</math> निविष्ट | पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा तार्किक कार्य है, जो आकार में समान है किन्तु 0 से 1 तक है। यहां <math>y_i</math> का उत्पादन है <math>i</math>वें नोड (न्यूरॉन) और <math>v_i</math> निविष्ट संयोजन का भारित योग है। संशोधक (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य सम्मलित हैं (पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का अन्य वर्ग, [[रेडियल आधार नेटवर्क]] में उपयोग किया जाता है )। | ||
[[ | [[गहन विद्वता]] के हालिया विकास में अवग्रह से संबंधित [[संख्यात्मक स्थिरता|संख्यात्मक समस्याओं]] को दूर करने के संभावित विधियों के रूप में [[संशोधित रैखिक इकाई]] (ReLU) का अधिक बार उपयोग किया जाता है। | ||
=== परतें === | === परतें === | ||
{{main| | {{main|परत (गहरी शिक्षा)}} | ||
एमएलपी में तीन या अधिक परतें ( निविष्ट और या अधिक छिपी हुई परतों के साथ उत्पादन परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं, परत में | |||
एमएलपी में तीन या अधिक परतें ( निविष्ट और या अधिक छिपी हुई परतों के साथ उत्पादन परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं, अगली परत में हर नोड के लिए <math>w_{ij}</math> परत में प्रत्येक नोड निश्चित भार से जुड़ता है। | |||
=== सीखना === | === सीखना === | ||
अपेक्षित परिणाम की तुलना में उत्पादन में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद | अपेक्षित परिणाम की तुलना में उत्पादन में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद भारित संयोजन को बदलकर परसेप्ट्रॉन में सीखना होता है। यह पर्यवेक्षित सीखने का उदाहरण है, और इसे बैकप्रोपैजेशन के माध्यम से किया जाता है, रैखिक परसेप्ट्रॉन में [[कम से कम औसत वर्ग फ़िल्टर]] का सामान्यीकरण। | ||
हम उत्पादन नोड में त्रुटि की डिग्री | हम उत्पादन नोड में त्रुटि की डिग्री <math>j</math> का प्रतिनिधित्व कर सकते हैं <math>n</math>वें डेटा बिंदु में (प्रशिक्षण उदाहरण) द्वारा <math>e_j(n)=d_j(n)-y_j(n)</math>, जहाँ <math>d_j(n)</math> के लिए वांछित लक्ष्य मान है <math>j</math> नोड पर <math>n</math>वें डेटा बिंदु और <math>y_j(n)</math> नोड पर परसेप्ट्रॉन द्वारा उत्पादित मूल्य है <math>j</math> जब <math>n</math>वें डेटा बिंदु को निविष्ट के रूप में दिया जाता है। | ||
नोड भार तब सुधार के आधार पर समायोजित किया जा सकता है जो पूरे उत्पादन में त्रुटि को कम करता है <math>n</math>वें डेटा बिंदु, द्वारा दिया गया | नोड भार तब सुधार के आधार पर समायोजित किया जा सकता है जो पूरे उत्पादन में त्रुटि को कम करता है <math>n</math>वें डेटा बिंदु, द्वारा दिया गया | ||
Line 30: | Line 29: | ||
:<math>\mathcal{E}(n)=\frac{1}{2}\sum_{\text{output node }j} e_j^2(n)</math>. | :<math>\mathcal{E}(n)=\frac{1}{2}\sum_{\text{output node }j} e_j^2(n)</math>. | ||
[[प्रवणता अवरोहण]] का उपयोग करना, प्रत्येक भार में परिवर्तन <math>w_{ij}</math> है | |||
:<math>\Delta w_{ji} (n) = -\eta\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} y_i(n)</math> | :<math>\Delta w_{ji} (n) = -\eta\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} y_i(n)</math> | ||
जहाँ <math>y_i(n)</math> पिछले न्यूरॉन का उत्पादन है <math>i</math>, और <math>\eta</math> [[सीखने की दर]] है, जिसे यह सुनिश्चित करने के लिए चुना जाता है कि भार रहित किसी दोलन के प्रतिक्रिया में जल्दी से परिवर्तित हो जाए। पिछले अभिव्यक्ति में, <math>\frac{\partial\mathcal{E}(n)}{\partial v_j(n)}</math> न्यूरॉन <math>i</math> के निविष्ट संयोजन की भारित योग <math>\mathcal{E}(n)</math> केअनुसार त्रुटि <math>v_j(n)</math> के आंशिक व्युत्पन्न को दर्शाता है | |||
गणना की जाने वाली व्युत्पत्ति प्रेरित स्थानीय क्षेत्र | गणना की जाने वाली व्युत्पत्ति प्रेरित स्थानीय क्षेत्र <math>v_j</math> पर निर्भर करती है , जो स्वयं भिन्न होता है। यह सिद्ध करना सरल है कि उत्पादन नोड के लिए इस व्युत्पन्न को सरल बनाया जा सकता है | ||
:<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = e_j(n)\phi^\prime (v_j(n))</math> | :<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = e_j(n)\phi^\prime (v_j(n))</math> | ||
जहाँ <math>\phi^\prime</math> ऊपर वर्णित सक्रियण फलन का व्युत्पन्न है, जो स्वयं भिन्न नहीं होता है। भार में छिपे हुए नोड में परिवर्तन के लिए विश्लेषण अधिक कठिन है, किन्तु यह दिखाया जा सकता है कि प्रासंगिक व्युत्पन्न है | |||
:<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = \phi^\prime (v_j(n))\sum_k -\frac{\partial\mathcal{E}(n)}{\partial v_k(n)} w_{kj}(n)</math>. | :<math>-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = \phi^\prime (v_j(n))\sum_k -\frac{\partial\mathcal{E}(n)}{\partial v_k(n)} w_{kj}(n)</math>. | ||
यह | यह भार में बदलाव पर निर्भर करता है <math>k</math>वें नोड, जो उत्पादन परत का प्रतिनिधित्व करते हैं। इसलिए छिपी हुई परत भार को बदलने के लिए,सक्रियण फलन के व्युत्पन्न के अनुसार भारित उत्पादन परत में बदलाव होता है और इसलिए यह कलन विधि सक्रियण फलन के पश्च प्रसारण का प्रतिनिधित्व करता है।<ref>{{cite book |last=Haykin |first=Simon |author-link=Simon Haykin |title=Neural Networks: A Comprehensive Foundation |edition=2 |year=1998 |publisher=Prentice Hall |isbn=0-13-273350-1 }}</ref> | ||
== शब्दावली == | == शब्दावली == | ||
बहुपरत परसेप्ट्रॉन शब्द ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। | बहुपरत परसेप्ट्रॉन शब्द ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। जबकि, इसमें कई परसेप्ट्रॉन होते हैं जो परतों में व्यवस्थित होते हैं। विकल्प बहुपरत परसेप्ट्रॉन नेटवर्क है। इसके अतिरिक्त, एमएलपी परसेप्ट्रॉन सख्त संभव अर्थों में परसेप्ट्रॉन नहीं हैं। सही परसेप्ट्रॉन औपचारिक रूप से कृत्रिम न्यूरॉन्स का विशेष अवस्था है जो सीमा सक्रियण फलन जैसे [[हैवीसाइड स्टेप फंक्शन|हैवीसाइड स्टेप]] फलन का उपयोग करता है। एमएलपी परसेप्ट्रॉन निरंकुश ढंग से सक्रियण कार्यों को नियोजित कर सकते हैं। सच्चा परसेप्ट्रॉन द्विआधारी वर्गीकरण करता है, एमएलपी न्यूरॉन अपने सक्रियण कार्य के आधार पर या तो वर्गीकरण या प्रतिगमन करने के लिए स्वतंत्र है। | ||
बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड / परतों की प्रकृति के संबंध में लागू किया गया था, जो | बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड / परतों की प्रकृति के संबंध में लागू किया गया था, जो निरंकुश ढंग से परिभाषित कृत्रिम न्यूरॉन्स से बना हो सकता है, न कि विशेष रूप से परसेप्ट्रॉन से। यह व्याख्या सामान्य रूप से कृत्रिम न्यूरॉन के अर्थ के लिए परसेप्ट्रॉन की परिभाषा को ढीला करने से बचाती है। | ||
== इतिहास == | == इतिहास == | ||
[[फ्रैंक रोसेनब्लैट]], जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था,<ref>{{cite journal|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain|journal=Psychological Review|year=1958|volume=65|pages=386–408|doi=10.1037/h0042519|pmid=13602029|issue=6|citeseerx=10.1.1.588.3775}}</ref> 3 परतों के साथ एमएलपी भी | [[फ्रैंक रोसेनब्लैट]], जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था,<ref>{{cite journal|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain|journal=Psychological Review|year=1958|volume=65|pages=386–408|doi=10.1037/h0042519|pmid=13602029|issue=6|citeseerx=10.1.1.588.3775}}</ref> 3 परतों के साथ एमएलपी भी प्रस्तुत किया: निविष्ट परत, छिपी हुई परत जिसमें यादृच्छिक भार होते हैं जो सीखते नहीं थे और उत्पादन परत।<ref name="rosenblatt1962"/><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref> चूँकि केवल उत्पादन परत में सीखना संयोजन था, यह अभी तक सीखना संयोजन नहीं था। इसे बाद में [[ अत्यधिक सीखने की मशीन |अत्यधिक सीखने की मशीन]] कहा जाने लगा।<ref name="huang2006">{{cite journal |last1=Huang |first1=Guang-Bin |first2=Qin-Yu |last2=Zhu |first3=Chee-Kheong |last3=Siew |title=Extreme learning machine: theory and applications |journal=Neurocomputing |volume=70 |issue=1 |year=2006 |pages=489–501 |doi=10.1016/j.neucom.2005.12.126 |citeseerx=10.1.1.217.3692}}</ref><ref name=DLhistory /> | ||
डेटा प्रबंधन की समूह विधि के रूप में 1965 में [[एलेक्सी ग्रिगोरविच इवाखेंको]] और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।<ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=साइबरनेटिक भविष्यवाणी करने वाले उपकरण|last=Ivakhnenko|first=A. G.|author-link=Alexey Grigorevich Ivakhnenko|publisher=CCM Information Corporation|year=1973}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=साइबरनेटिक्स और पूर्वानुमान तकनीक|last2=Grigorʹevich Lapa|first2=Valentin|author-link=Alexey Grigorevich Ivakhnenko|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}}</ref><ref name=DLhistory /> | डेटा प्रबंधन की समूह विधि के रूप में 1965 में [[एलेक्सी ग्रिगोरविच इवाखेंको]] और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।<ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=साइबरनेटिक भविष्यवाणी करने वाले उपकरण|last=Ivakhnenko|first=A. G.|author-link=Alexey Grigorevich Ivakhnenko|publisher=CCM Information Corporation|year=1973}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=साइबरनेटिक्स और पूर्वानुमान तकनीक|last2=Grigorʹevich Lapa|first2=Valentin|author-link=Alexey Grigorevich Ivakhnenko|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}}</ref><ref name=DLhistory /> | ||
[[ स्टोकेस्टिक ग्रेडिएंट डिसेंट | | [[ स्टोकेस्टिक ग्रेडिएंट डिसेंट | प्रसंभात्य प्रवणता अवरोहण]] द्वारा प्रशिक्षित पहला सीखना संयोजन एमएलपी<ref name="robbins1951">{{Cite journal | last1 = Robbins | first1 = H. | author-link = Herbert Robbins| last2 = Monro | first2 = S. | doi = 10.1214/aoms/1177729586 | title = एक स्टोकेस्टिक सन्निकटन विधि| journal = The Annals of Mathematical Statistics | volume = 22 | issue = 3 | pages = 400 | year = 1951 | doi-access = free }}</ref> 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।<ref name="Amari1967">{{cite journal |last1=Amari |first1=Shun'ichi |author-link=Shun'ichi Amari|title=अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत|journal= IEEE Transactions |date=1967 |volume=EC |issue=16 |pages=279-307}}</ref><ref name=DLhistory />अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक आंतरिक अभ्यावेदन सीखने वाली दो परिवर्तनीय परतों के साथ एक पांच परत एमएलपी हैं।<ref name=DLhistory /> | ||
1970 में, [[सेप्पो लिनैनमा]] ने नेस्टेड [[विभेदक कार्य]] | 1970 में, [[सेप्पो लिनैनमा]] ने नेस्टेड [[विभेदक कार्य]] फलन के असतत संयोजित नेटवर्क के स्वत: विभेदन के लिए सामान्य विधि प्रकाशित की।<ref name="lin1970">{{cite thesis|first=Seppo|last=Linnainmaa|author-link=Seppo Linnainmaa|year=1970|type=Masters|title=स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व|language=fi|publisher=University of Helsinki|pages=6–7}}</ref><ref name="lin1976">{{cite journal|last1=Linnainmaa|first1=Seppo|author-link=Seppo Linnainmaa|year=1976|title=संचित गोलाई त्रुटि का टेलर विस्तार|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|s2cid=122357351}}</ref> इसे पश्च प्रसारण स्वत: भेदभाव के उत्क्रम प्रणाली के रूप में जाना जाने लगा। यह 1673 में [[गॉटफ्रीड विल्हेम लीबनिज]] द्वारा प्राप्त श्रृंखला नियम का कुशल अनुप्रयोग है, <ref name="leibniz1676">{{Cite book|last=Leibniz|first=Gottfried Wilhelm Freiherr von|url=https://books.google.com/books?id=bOIGAAAAYAAJ&q=leibniz+altered+manuscripts&pg=PA90|title=The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir)|date=1920|publisher=Open court publishing Company|language=en}}</ref><ref>{{cite journal|url= https://scholarworks.umt.edu/tme/vol7/iss2/10/ |title=श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब|journal=The Mathematics Enthusiast |year=2010 |volume=7 |pages=321–332 |issue=2 |first1=Omar Hernández |last1=Rodríguez |first2=Jorge M. |last2=López Fernández |doi=10.54870/1551-3440.1191 |s2cid=29739148 |access-date=2019-08-04|doi-access=free }}</ref> अलग-अलग नोड के नेटवर्क के लिए।<ref name=DLhistory /> शब्दावली पश्च प्रसारण त्रुटि वास्तव में 1962 में वह स्वयं रोसेनब्लैट द्वारा प्रस्तुत की गई थी,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Frank Rosenblatt|title=न्यूरोडायनामिक्स के सिद्धांत|year=1962|publisher=Spartan, New York}}</ref> किन्तु उसे नहीं पता था कि इसे कैसे लागू किया जाए,<ref name=DLhistory />चूंकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था<ref name="kelley1960">{{cite journal|last1=Kelley|first1=Henry J.|author-link=Henry J. Kelley|year=1960|title=इष्टतम उड़ान पथों का क्रमिक सिद्धांत|journal=ARS Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282}}</ref> पहले से ही 1960 में [[नियंत्रण सिद्धांत]] के संदर्भ में।<ref name=DLhistory />1982 में, [[पॉल वर्बोस]] ने एमएलपी के लिए उस तरह से पश्चप्रचार लागू किया जो मानक बन गया है।<ref name="werbos1982">{{Cite book|title=सिस्टम मॉडलिंग और अनुकूलन|last=Werbos|first=Paul|publisher=Springer|year=1982|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis|author-link=Paul Werbos|chapter-url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|access-date=2 July 2017|archive-date=14 April 2016|archive-url=https://web.archive.org/web/20160414055503/http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|url-status=live}}</ref><ref name=DLhistory />1985 में, डेविड ई. रुमेलहार्ट एट अल प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया।<ref name="rumelhart1986" />बाद के दशकों में कई सुधार लागू किए गए हैं।<ref name=DLhistory /> | ||
शब्दावली | |||
2021 के अंत तक, स्किप | 2021 के अंत तक, स्किप संयोजन और परत सामान्यीकरण के साथ दो एमएलपी को मिलाकर बहुत ही सरल एनएन आर्किटेक्चर को रचना किया गया और एमएलपी-मिश्रण कहा गया। 19 से 431 मिलियन मापदंडों की विशेषता वाली इसकी प्राप्तियों को [[ इमेज नेट |इमेज नेट]] और समान [[छवि वर्गीकरण]] कार्यों के समान आकार के [[दृश्य ट्रांसफार्मर|दृश्य परिवर्तक]] के बराबर दिखाया गया था।<ref>https://paperswithcode.com/paper/mlp-mixer-an-all-mlp-architecture-for-vision</ref> | ||
== अनुप्रयोग == | == अनुप्रयोग == | ||
एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो | एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो अधिकांशतः उपयुक्तता सन्निकटन जैसी अत्यंत [[कम्प्यूटेशनल जटिलता सिद्धांत]] समस्याओं के लिए अनुमानित समाधान की अनुमति देता है। | ||
एमएलपी सार्वभौमिक फलन सन्निकटन हैं जैसा कि सार्वभौमिक सन्निकटन प्रमेय द्वारा दिखाया गया है। साइबेंको की प्रमेय,<ref name="Cybenko1989"/>इसलिए उनका उपयोग [[प्रतिगमन विश्लेषण]] द्वारा गणितीय मॉडल बनाने के लिए किया जा सकता है। जैसा कि [[सांख्यिकीय वर्गीकरण]] प्रतिगमन विश्लेषण का विशेष अवस्था है जब प्रतिक्रिया चर श्रेणीबद्ध चर होता है, एमएलपी अच्छे वर्गीकरणकर्ता एल्गोरिदम बनाते हैं। | |||
एमएलपी 1980 के दशक में लोकप्रिय यंत्र अधिगम समाधान थे, जो [[वाक् पहचान]], [[छवि पहचान]] और [[मशीन अनुवाद]] सॉफ़्टवेयर जैसे विविध क्षेत्रों में अनुप्रयोग खोजते थे।<ref>Neural networks. II. What are they and why is everybody so interested in them now?; Wasserman, P.D.; Schwartz, T.; Page(s): 10-15; IEEE Expert, 1988, Volume 3, Issue 1</ref> किन्तु उसके बाद बहुत सरल और संबंधित कड़ी से प्रतिस्पर्धा का सामना करना पड़ा<ref>R. Collobert and S. Bengio (2004). Links between Perceptrons, MLPs and SVMs. Proc. Int'l Conf. on Machine Learning (ICML).</ref> [[समर्थन वेक्टर यंत्र]] अधिगम संयोजन की सफलताओं के कारण पश्च प्रसारण नेटवर्क में रुचि लौट आई। | |||
== संदर्भ == | == संदर्भ == | ||
Line 76: | Line 74: | ||
* [http://neuroph.sourceforge.net/ Neuroph Studio documentation, implements this algorithm and a few others]. | * [http://neuroph.sourceforge.net/ Neuroph Studio documentation, implements this algorithm and a few others]. | ||
[[de:Perzeptron#Mehrlagiges Perzeptron]] | [[de:Perzeptron#Mehrlagiges Perzeptron]] | ||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category:CS1 English-language sources (en)]] | |||
[[Category: | [[Category:CS1 suomi-language sources (fi)]] | ||
[[Category:Collapse templates]] | |||
[[Category:Created On 02/05/2023]] | [[Category:Created On 02/05/2023]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Sidebars with styles needing conversion]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Translated in Hindi]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates generating microformats]] | |||
[[Category:Templates that are not mobile friendly]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Wikipedia metatemplates]] | |||
[[Category:तंत्रिका नेटवर्क आर्किटेक्चर]] | |||
[[Category:वर्गीकरण एल्गोरिदम]] |
Latest revision as of 16:20, 18 September 2023
बहुपरत परसेप्ट्रॉन (एमएलपी) फीडफॉरवर्ड न्यूरल नेटवर्क कृत्रिम तंत्रिका नेटवर्क (एएनएन) का पूरी तरह से जुड़ा हुआ वर्ग है। एमएलपी शब्द का प्रयोग अस्पष्ट रूप से किया जाता है, कभी-कभी शिथिल रूप से किसी भी फीडफॉरवर्ड एएनएन का अर्थ होता है, कभी-कभी कड़ाई से परसेप्ट्रॉन की कई परतों से बने नेटवर्क को संदर्भित करने के लिए (प्रवेशद्वार सक्रियण के साथ); देखना § शब्दावली। बहुपरत परसेप्ट्रॉन को कभी-कभी बोलचाल की भाषा में "वेनिला" तंत्रिका नेटवर्क के रूप में संदर्भित किया जाता है, विशेष रूप से जब उनके पास एक ही छिपी हुई परत होती है।[1]
एमएलपी में नोड की कम से कम तीन परत होती हैं: निविष्ट परत, छिपी हुई परत और उत्पादन परत है। निविष्ट नोड को छोड़कर प्रत्येक नोड न्यूरॉन है, जो गैर-रैखिक सक्रियण फलन का उपयोग करता है। एमएलपी श्रृंखला नियम का उपयोग करता है[2]आधारित पर्यवेक्षित शिक्षण प्रविधि जिसे प्रशिक्षण के लिए पश्च प्रसारण या स्वचालित भेदभाव का उत्क्रम प्रणाली कहा जाता है।[3][4][5][6][7] इसकी कई परतें और गैर-रैखिक सक्रियण एमएलपी को रेखीय परसेप्ट्रॉन से अलग करते हैं। यह ऐसे डेटा को अलग कर सकता है जो रैखिक रैखिक रूप से वियोज्य नहीं है।[8]
सिद्धांत
सक्रियण फलन
यदि बहुपरत परसेप्ट्रॉन में सभी न्यूरॉन्स का रेखीय सक्रियण कार्य होता है, अर्थात, रेखीय कार्य जो भारित निविष्ट को प्रत्येक न्यूरॉन के उत्पादन में मैप करता है, तो रैखिक बीजगणित से पता चलता है कि किसी भी संख्या में परतों को दो-परत निविष्ट में घटाया जा सकता है- उत्पादन मॉडल। एमएलपी में कुछ न्यूरॉन गैर-रैखिक सक्रियण फलन का उपयोग करते हैं जिसे जैविक न्यूरॉन्स की संभावित कार्रवाई, या फायरिंग की आवृत्ति को मॉडल करने के लिए विकसित किया गया था।
दो ऐतिहासिक रूप से सामान्य सक्रियण कार्य दोनों अवग्रह हैं, और इनके द्वारा वर्णित हैं
- .
पहला अतिपरवलयिक स्पर्शरेखा है जो -1 से 1 तक है, जबकि दूसरा तार्किक कार्य है, जो आकार में समान है किन्तु 0 से 1 तक है। यहां का उत्पादन है वें नोड (न्यूरॉन) और निविष्ट संयोजन का भारित योग है। संशोधक (तंत्रिका नेटवर्क) कार्यों सहित वैकल्पिक सक्रियण कार्यों का प्रस्ताव किया गया है। अधिक विशिष्ट सक्रियण कार्यों में रेडियल आधार कार्य सम्मलित हैं (पर्यवेक्षित तंत्रिका नेटवर्क मॉडल का अन्य वर्ग, रेडियल आधार नेटवर्क में उपयोग किया जाता है )।
गहन विद्वता के हालिया विकास में अवग्रह से संबंधित संख्यात्मक समस्याओं को दूर करने के संभावित विधियों के रूप में संशोधित रैखिक इकाई (ReLU) का अधिक बार उपयोग किया जाता है।
परतें
एमएलपी में तीन या अधिक परतें ( निविष्ट और या अधिक छिपी हुई परतों के साथ उत्पादन परत) होती हैं, जो गैर-सक्रिय रूप से सक्रिय होती हैं। चूंकि एमएलपी पूरी तरह से जुड़े हुए हैं, अगली परत में हर नोड के लिए परत में प्रत्येक नोड निश्चित भार से जुड़ता है।
सीखना
अपेक्षित परिणाम की तुलना में उत्पादन में त्रुटि की मात्रा के आधार पर डेटा के प्रत्येक टुकड़े को संसाधित करने के बाद भारित संयोजन को बदलकर परसेप्ट्रॉन में सीखना होता है। यह पर्यवेक्षित सीखने का उदाहरण है, और इसे बैकप्रोपैजेशन के माध्यम से किया जाता है, रैखिक परसेप्ट्रॉन में कम से कम औसत वर्ग फ़िल्टर का सामान्यीकरण।
हम उत्पादन नोड में त्रुटि की डिग्री का प्रतिनिधित्व कर सकते हैं वें डेटा बिंदु में (प्रशिक्षण उदाहरण) द्वारा , जहाँ के लिए वांछित लक्ष्य मान है नोड पर वें डेटा बिंदु और नोड पर परसेप्ट्रॉन द्वारा उत्पादित मूल्य है जब वें डेटा बिंदु को निविष्ट के रूप में दिया जाता है।
नोड भार तब सुधार के आधार पर समायोजित किया जा सकता है जो पूरे उत्पादन में त्रुटि को कम करता है वें डेटा बिंदु, द्वारा दिया गया
- .
प्रवणता अवरोहण का उपयोग करना, प्रत्येक भार में परिवर्तन है
जहाँ पिछले न्यूरॉन का उत्पादन है , और सीखने की दर है, जिसे यह सुनिश्चित करने के लिए चुना जाता है कि भार रहित किसी दोलन के प्रतिक्रिया में जल्दी से परिवर्तित हो जाए। पिछले अभिव्यक्ति में, न्यूरॉन के निविष्ट संयोजन की भारित योग केअनुसार त्रुटि के आंशिक व्युत्पन्न को दर्शाता है
गणना की जाने वाली व्युत्पत्ति प्रेरित स्थानीय क्षेत्र पर निर्भर करती है , जो स्वयं भिन्न होता है। यह सिद्ध करना सरल है कि उत्पादन नोड के लिए इस व्युत्पन्न को सरल बनाया जा सकता है
जहाँ ऊपर वर्णित सक्रियण फलन का व्युत्पन्न है, जो स्वयं भिन्न नहीं होता है। भार में छिपे हुए नोड में परिवर्तन के लिए विश्लेषण अधिक कठिन है, किन्तु यह दिखाया जा सकता है कि प्रासंगिक व्युत्पन्न है
- .
यह भार में बदलाव पर निर्भर करता है वें नोड, जो उत्पादन परत का प्रतिनिधित्व करते हैं। इसलिए छिपी हुई परत भार को बदलने के लिए,सक्रियण फलन के व्युत्पन्न के अनुसार भारित उत्पादन परत में बदलाव होता है और इसलिए यह कलन विधि सक्रियण फलन के पश्च प्रसारण का प्रतिनिधित्व करता है।[9]
शब्दावली
बहुपरत परसेप्ट्रॉन शब्द ऐसे परसेप्ट्रॉन को संदर्भित नहीं करता है जिसमें कई परतें हों। जबकि, इसमें कई परसेप्ट्रॉन होते हैं जो परतों में व्यवस्थित होते हैं। विकल्प बहुपरत परसेप्ट्रॉन नेटवर्क है। इसके अतिरिक्त, एमएलपी परसेप्ट्रॉन सख्त संभव अर्थों में परसेप्ट्रॉन नहीं हैं। सही परसेप्ट्रॉन औपचारिक रूप से कृत्रिम न्यूरॉन्स का विशेष अवस्था है जो सीमा सक्रियण फलन जैसे हैवीसाइड स्टेप फलन का उपयोग करता है। एमएलपी परसेप्ट्रॉन निरंकुश ढंग से सक्रियण कार्यों को नियोजित कर सकते हैं। सच्चा परसेप्ट्रॉन द्विआधारी वर्गीकरण करता है, एमएलपी न्यूरॉन अपने सक्रियण कार्य के आधार पर या तो वर्गीकरण या प्रतिगमन करने के लिए स्वतंत्र है।
बहुपरत परसेप्ट्रॉन शब्द को बाद में नोड / परतों की प्रकृति के संबंध में लागू किया गया था, जो निरंकुश ढंग से परिभाषित कृत्रिम न्यूरॉन्स से बना हो सकता है, न कि विशेष रूप से परसेप्ट्रॉन से। यह व्याख्या सामान्य रूप से कृत्रिम न्यूरॉन के अर्थ के लिए परसेप्ट्रॉन की परिभाषा को ढीला करने से बचाती है।
इतिहास
फ्रैंक रोसेनब्लैट, जिन्होंने 1958 में परसेप्ट्रॉन प्रकाशित किया था,[10] 3 परतों के साथ एमएलपी भी प्रस्तुत किया: निविष्ट परत, छिपी हुई परत जिसमें यादृच्छिक भार होते हैं जो सीखते नहीं थे और उत्पादन परत।[11][12] चूँकि केवल उत्पादन परत में सीखना संयोजन था, यह अभी तक सीखना संयोजन नहीं था। इसे बाद में अत्यधिक सीखने की मशीन कहा जाने लगा।[13][12]
डेटा प्रबंधन की समूह विधि के रूप में 1965 में एलेक्सी ग्रिगोरविच इवाखेंको और वैलेन्टिन लैपा द्वारा पहली गहन शिक्षण एमएलपी प्रकाशित की गई थी।[14][15][12]
प्रसंभात्य प्रवणता अवरोहण द्वारा प्रशिक्षित पहला सीखना संयोजन एमएलपी[16] 1967 में शुनिची अमारी द्वारा प्रकाशित किया गया था।[17][12]अमारी के छात्र सैटो द्वारा किए गए कंप्यूटर प्रयोगों में, गैर-रैखिक रूप से अलग-अलग पैटर्न कक्षाओं को वर्गीकृत करने के लिए आवश्यक आंतरिक अभ्यावेदन सीखने वाली दो परिवर्तनीय परतों के साथ एक पांच परत एमएलपी हैं।[12]
1970 में, सेप्पो लिनैनमा ने नेस्टेड विभेदक कार्य फलन के असतत संयोजित नेटवर्क के स्वत: विभेदन के लिए सामान्य विधि प्रकाशित की।[3][18] इसे पश्च प्रसारण स्वत: भेदभाव के उत्क्रम प्रणाली के रूप में जाना जाने लगा। यह 1673 में गॉटफ्रीड विल्हेम लीबनिज द्वारा प्राप्त श्रृंखला नियम का कुशल अनुप्रयोग है, [2][19] अलग-अलग नोड के नेटवर्क के लिए।[12] शब्दावली पश्च प्रसारण त्रुटि वास्तव में 1962 में वह स्वयं रोसेनब्लैट द्वारा प्रस्तुत की गई थी,[11] किन्तु उसे नहीं पता था कि इसे कैसे लागू किया जाए,[12]चूंकि हेनरी जे. केली के पास पश्चप्रचार का निरंतर अग्रदूत था[4] पहले से ही 1960 में नियंत्रण सिद्धांत के संदर्भ में।[12]1982 में, पॉल वर्बोस ने एमएलपी के लिए उस तरह से पश्चप्रचार लागू किया जो मानक बन गया है।[6][12]1985 में, डेविड ई. रुमेलहार्ट एट अल प्रविधि का प्रायोगिक विश्लेषण प्रकाशित किया।[7]बाद के दशकों में कई सुधार लागू किए गए हैं।[12]
2021 के अंत तक, स्किप संयोजन और परत सामान्यीकरण के साथ दो एमएलपी को मिलाकर बहुत ही सरल एनएन आर्किटेक्चर को रचना किया गया और एमएलपी-मिश्रण कहा गया। 19 से 431 मिलियन मापदंडों की विशेषता वाली इसकी प्राप्तियों को इमेज नेट और समान छवि वर्गीकरण कार्यों के समान आकार के दृश्य परिवर्तक के बराबर दिखाया गया था।[20]
अनुप्रयोग
एमएलपी समस्याओं को हल करने की उनकी क्षमता के लिए अनुसंधान में उपयोगी होते हैं, जो अधिकांशतः उपयुक्तता सन्निकटन जैसी अत्यंत कम्प्यूटेशनल जटिलता सिद्धांत समस्याओं के लिए अनुमानित समाधान की अनुमति देता है।
एमएलपी सार्वभौमिक फलन सन्निकटन हैं जैसा कि सार्वभौमिक सन्निकटन प्रमेय द्वारा दिखाया गया है। साइबेंको की प्रमेय,[8]इसलिए उनका उपयोग प्रतिगमन विश्लेषण द्वारा गणितीय मॉडल बनाने के लिए किया जा सकता है। जैसा कि सांख्यिकीय वर्गीकरण प्रतिगमन विश्लेषण का विशेष अवस्था है जब प्रतिक्रिया चर श्रेणीबद्ध चर होता है, एमएलपी अच्छे वर्गीकरणकर्ता एल्गोरिदम बनाते हैं।
एमएलपी 1980 के दशक में लोकप्रिय यंत्र अधिगम समाधान थे, जो वाक् पहचान, छवि पहचान और मशीन अनुवाद सॉफ़्टवेयर जैसे विविध क्षेत्रों में अनुप्रयोग खोजते थे।[21] किन्तु उसके बाद बहुत सरल और संबंधित कड़ी से प्रतिस्पर्धा का सामना करना पड़ा[22] समर्थन वेक्टर यंत्र अधिगम संयोजन की सफलताओं के कारण पश्च प्रसारण नेटवर्क में रुचि लौट आई।
संदर्भ
- ↑ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.
- ↑ 2.0 2.1 Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (in English). Open court publishing Company.
- ↑ 3.0 3.1 Linnainmaa, Seppo (1970). स्थानीय राउंडिंग त्रुटियों के टेलर विस्तार के रूप में एल्गोरिथम की संचयी राउंडिंग त्रुटि का प्रतिनिधित्व (Masters) (in suomi). University of Helsinki. pp. 6–7.
- ↑ 4.0 4.1 Kelley, Henry J. (1960). "इष्टतम उड़ान पथों का क्रमिक सिद्धांत". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
- ↑ Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961
- ↑ 6.0 6.1 Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). सिस्टम मॉडलिंग और अनुकूलन. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
- ↑ 7.0 7.1 Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
- ↑ 8.0 8.1 Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function Mathematics of Control, Signals, and Systems, 2(4), 303–314.
- ↑ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1.
- ↑ Rosenblatt, Frank (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029.
- ↑ 11.0 11.1 Rosenblatt, Frank (1962). न्यूरोडायनामिक्स के सिद्धांत. Spartan, New York.
- ↑ 12.0 12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9 Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
- ↑ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Extreme learning machine: theory and applications". Neurocomputing. 70 (1): 489–501. CiteSeerX 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126.
- ↑ Ivakhnenko, A. G. (1973). साइबरनेटिक भविष्यवाणी करने वाले उपकरण. CCM Information Corporation.
- ↑ Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). साइबरनेटिक्स और पूर्वानुमान तकनीक. American Elsevier Pub. Co.
- ↑ Robbins, H.; Monro, S. (1951). "एक स्टोकेस्टिक सन्निकटन विधि". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
- ↑ Amari, Shun'ichi (1967). "अनुकूली पैटर्न वर्गीकारक का एक सिद्धांत". IEEE Transactions. EC (16): 279–307.
- ↑ Linnainmaa, Seppo (1976). "संचित गोलाई त्रुटि का टेलर विस्तार". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
- ↑ Rodríguez, Omar Hernández; López Fernández, Jorge M. (2010). "श्रृंखला नियम के उपदेशों पर एक लाक्षणिक प्रतिबिंब". The Mathematics Enthusiast. 7 (2): 321–332. doi:10.54870/1551-3440.1191. S2CID 29739148. Retrieved 2019-08-04.
- ↑ https://paperswithcode.com/paper/mlp-mixer-an-all-mlp-architecture-for-vision
- ↑ Neural networks. II. What are they and why is everybody so interested in them now?; Wasserman, P.D.; Schwartz, T.; Page(s): 10-15; IEEE Expert, 1988, Volume 3, Issue 1
- ↑ R. Collobert and S. Bengio (2004). Links between Perceptrons, MLPs and SVMs. Proc. Int'l Conf. on Machine Learning (ICML).