दिष्टकारी (तंत्रिका नेटवर्क)
Part of a series on |
Machine learning and data mining |
---|
कृत्रिम तंत्रिका नेटवर्क के संदर्भ में, रेक्टिफायर या ReLU (रेक्टिफाइड लीनियर यूनिट) सक्रियण फ़ंक्शन[1][2] एक सक्रियण फ़ंक्शन है जिसे इसके तर्क के सकारात्मक भाग के रूप में परिभाषित किया गया है:
Failed to parse (Conversion error. Server ("cli") reported: "SyntaxError: Expected [, ;!_#%$&], [a-zA-Z], or [{}|] but "श" found.in 1:61"): {\displaystyle f(x) = x^+ = \max(0, x) = \frac{x+|x|}{2} = \शुरुआत{मामले} x और \text{if } x > 0, \\ 0 और \पाठ{अन्यथा}. \end{मामले}</गणित> | गणित>f'(x) = \begin{cases} 1 और \text{if } x > 0, \\ 0 और \text{if } x < 0. \end{मामले}</गणित> |} जहां x न्यूरॉन का इनपुट है। इसे [[रैंप समारोह]] के रूप में भी जाना जाता है और यह [[ विद्युत अभियन्त्रण ]] में आधे-तरंग सुधार के अनुरूप है। यह सक्रियण फ़ंक्शन 1969 में [[कुनिहिको फुकुशिमा]] द्वारा पदानुक्रमित तंत्रिका नेटवर्क में दृश्य सुविधा निष्कर्षण के संदर्भ में पेश किया गया था।<ref name="Fukushima1969">{{cite journal |first1=K. |last1=Fukushima |title=एनालॉग थ्रेशोल्ड तत्वों के बहुस्तरीय नेटवर्क द्वारा दृश्य सुविधा निष्कर्षण|journal=IEEE Transactions on Systems Science and Cybernetics |volume=5 |issue=4 |date=1969 |pages=322–333 |doi=10.1109/TSSC.1969.300225}}</ref><ref name="Fukushima1982">{{cite journal |first1=K. |last1=Fukushima |first2=S. |last2=Miyake |title= Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition |journal=In Competition and Cooperation in Neural Nets |series=Lecture Notes in Biomathematics |date=1982 |volume=45 |publisher=Springer |pages=267–285 |doi=10.1007/978-3-642-46466-9_18 |isbn=978-3-540-11574-8}}</ref><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेटेड इतिहास|class=cs.NE|eprint=2212.11279}}</ref> बाद में यह तर्क दिया गया कि इसमें मजबूत [[जैविक]] प्रेरणाएँ और गणितीय औचित्य हैं।<ref name="Hahnloser2000">{{cite journal |first1=R. |last1=Hahnloser |first2=R. |last2=Sarpeshkar |first3=M. A. |last3=Mahowald |first4=R. J. |last4=Douglas |first5=H. S. |last5=Seung |title=डिजिटल चयन और एनालॉग प्रवर्धन कॉर्टेक्स-प्रेरित सिलिकॉन सर्किट में सह-अस्तित्व में हैं|journal=[[Nature (journal)|Nature]] |volume=405 |issue= 6789|year=2000 |pages=947–951 |doi=10.1038/35016072 |pmid=10879535 |bibcode=2000Natur.405..947H |s2cid=4399014 }}</ref><ref name="Hahnloser2001">{{cite conference |first1=R. |last1=Hahnloser |first2=H. S. |last2=Seung |year=2001 |title=सममित थ्रेशोल्ड-रैखिक नेटवर्क में अनुमत और निषिद्ध सेट|conference=NIPS 2001}}</ref> 2011 में यह पाया गया कि यह गहरे नेटवर्क के बेहतर प्रशिक्षण को सक्षम बनाता है,<ref name="glorot2011">{{cite conference |author1=Xavier Glorot |author2=Antoine Bordes |author3=[[Yoshua Bengio]] |year=2011 |title=गहरे विरल दिष्टकारी तंत्रिका नेटवर्क|url=http://jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf |conference=AISTATS |quote=Rectifier and softplus activation functions. The second one is a smooth version of the first. }}</ref> 2011 से पहले व्यापक रूप से उपयोग किए जाने वाले सक्रियण कार्यों की तुलना में, उदाहरण के लिए, [[लॉजिस्टिक फ़ंक्शन]] (जो संभाव्यता सिद्धांत से प्रेरित है; [[ संभार तन्त्र परावर्तन ]] देखें) और यह अधिक व्यावहारिक है<ref>{{cite encyclopedia |authors=[[Yann LeCun]], [[Leon Bottou]], Genevieve B. Orr and [[Klaus-Robert Müller]] |year=1998 |url=http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf |title=कुशल बैकप्रॉप|editor1=G. Orr |editor2=K. Müller |encyclopedia=Neural Networks: Tricks of the Trade |publisher=Springer}}</ref> समकक्ष, [[अतिशयोक्तिपूर्ण स्पर्शरेखा]]। दिष्टकारी है, {{as of|2017|lc=y}}, गहन शिक्षण के लिए सबसे लोकप्रिय सक्रियण फ़ंक्शन।<ref>{{cite arXiv |last1=Ramachandran |first1=Prajit |last2=Barret |first2=Zoph |last3=Quoc |first3=V. Le |date=October 16, 2017 |title=सक्रियण फ़ंक्शंस की खोज|eprint=1710.05941 |class=cs.NE}}</ref> रेक्टिफाइड रैखिक इकाइयां [[कंप्यूटर दृष्टि]] में अनुप्रयोग ढूंढती हैं<ref name="glorot2011"/>और [[वाक् पहचान]]<ref name="tothl2013">{{cite conference |authors=László Tóth |year=2013 |title=डीप स्पार्स रेक्टिफायर न्यूरल नेटवर्क के साथ फोन की पहचान|conference=[[International Conference on Acoustics, Speech and Signal Processing|ICASSP]] |url=http://www.inf.u-szeged.hu/~tothl/pubs/ICASSP2013.pdf}}</ref><ref name="maas2014">Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). [https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf Rectifier Nonlinearities Improve Neural Network Acoustic Models].</ref> गहन शिक्षण और [[कम्प्यूटेशनल तंत्रिका विज्ञान]] का उपयोग करना।<ref name="hansel2002">{{cite journal |first1=D. |last1=Hansel |first2=C. |last2=van Vreeswijk |title=कैट विज़ुअल कॉर्टेक्स में ओरिएंटेशन ट्यूनिंग के विपरीत परिवर्तन में शोर कैसे योगदान देता है|journal=[[J. Neurosci.]] |volume=22 |issue= 12|year=2002 |pages=5118–5128 |doi=10.1523/JNEUROSCI.22-12-05118.2002 |pmid= 12077207 |pmc=6757721 }}</ref><ref>{{Cite journal |doi = 10.1103/PhysRevX.5.041030 |volume = 5 |issue = 4 |pages = 041030 |last1 = Kadmon |first1 = Jonathan |last2 = Sompolinsky |first2 = Haim |title = रैंडम न्यूरोनल नेटवर्क में अराजकता की ओर संक्रमण|journal = Physical Review X |date = 2015-11-19 |arxiv = 1508.06486 |bibcode = 2015PhRvX...5d1030K |s2cid = 7813832}}</ref><ref>{{Cite arXiv |last1 = Engelken |first1 = Rainer |last2 = Wolf |first2 = Fred |last3 = Abbott |first3 = L. F. |title = अराजक आवर्तक तंत्रिका नेटवर्क का ल्यपुनोव स्पेक्ट्रा|date = 2020-06-03 |class = nlin.CD |eprint=2006.02427}}</ref> {{TOC limit}} == लाभ == * विरल सक्रियण: उदाहरण के लिए, यादृच्छिक रूप से आरंभ किए गए नेटवर्क में, केवल लगभग 50% छिपी हुई इकाइयाँ सक्रिय होती हैं (एक गैर-शून्य आउटपुट होता है)। * बेहतर ग्रेडिएंट प्रसार: दोनों दिशाओं में संतृप्त सिग्मोइडल सक्रियण कार्यों की तुलना में कम गायब होने वाली ग्रेडिएंट समस्या।<ref name="glorot2011" />* कुशल गणना: केवल तुलना, जोड़ और गुणा। * स्केल-अपरिवर्तनीय: <math>\max(0, ax) = a \max(0, x) \text{ for } a \geq 0} . तंत्रिका अमूर्त पिरामिड में विशिष्ट उत्तेजना और अनिर्दिष्ट अवरोध को अलग करने के लिए सुधारात्मक सक्रियण कार्यों का उपयोग किया गया था, जिसे कई कंप्यूटर दृष्टि कार्यों को सीखने के लिए पर्यवेक्षित तरीके से प्रशिक्षित किया गया था।[3] 2011 में,[4]गैर-रैखिकता के रूप में रेक्टिफायर का उपयोग बिना पर्यवेक्षण के सीखना प्री-ट्रेनिंग की आवश्यकता के बिना गहन पर्यवेक्षित अध्ययन न्यूरल नेटवर्क को प्रशिक्षित करने में सक्षम बनाता है। सिग्मॉइड फ़ंक्शन या समान सक्रियण फ़ंक्शंस की तुलना में रेक्टिफाइड रैखिक इकाइयाँ, बड़े और जटिल डेटासेट पर गहरे तंत्रिका आर्किटेक्चर के तेज़ और प्रभावी प्रशिक्षण की अनुमति देती हैं। संभावित समस्याएँ
वेरिएंटटुकड़े-टुकड़े-रैखिक वेरिएंटलीक ReLUजब इकाई सक्रिय नहीं होती है तो लीकी ReLUs एक छोटे, सकारात्मक ग्रेडिएंट की अनुमति देते हैं,[5]लुप्त हो रही ग्रेडिएंट समस्या को कम करने में मदद करना।
पैरामीट्रिक ReLUपैरामीट्रिक ReLUs (PReLUs) रिसाव के गुणांक को एक पैरामीटर में बनाकर इस विचार को आगे ले जाते हैं जिसे अन्य तंत्रिका-नेटवर्क मापदंडों के साथ सीखा जाता है।[6]
ध्यान दें कि ≤ 1 के लिए, यह इसके बराबर है और इस प्रकार इसका मैक्सआउट नेटवर्क से संबंध है।[6]
अन्य गैर-रैखिक वेरिएंटगाऊसी-त्रुटि रैखिक इकाई (GELU)GELU रेक्टिफायर का एक सहज सन्निकटन है:
जहां Φ(x) मानक सामान्य वितरण का संचयी वितरण फ़ंक्शन है। यह सक्रियण फ़ंक्शन इस आलेख के प्रारंभ में दिए गए चित्र में दिखाया गया है। जब x < 0 होता है तो इसमें एक गैर-मोनोटोनिक "बम्प" होता है और यह BERT_(भाषा_मॉडल) जैसे मॉडलों के लिए डिफ़ॉल्ट सक्रियण के रूप में कार्य करता है।[7]
सिलुSiLU (सिग्मॉइड लीनियर यूनिट) या स्विश फ़ंक्शन[8]यह एक और सहज सन्निकटन है, जिसे सबसे पहले GELU पेपर में गढ़ा गया था:[7]
कहाँ सिग्मॉइड फ़ंक्शन है. सॉफ्टप्लसरेक्टिफायर का सहज सन्निकटन विश्लेषणात्मक कार्य है
जिसे सॉफ्टप्लस कहा जाता है[9][4]या स्मूथरेलू फ़ंक्शन।[10] बड़े नकारात्मक के लिए यह मोटे तौर पर है , तो 0 से ठीक ऊपर, जबकि बड़े सकारात्मक के लिए यह मोटे तौर पर है , तो बस ऊपर . एक तीक्ष्णता पैरामीटर शामिल किया जा सकता है:
सॉफ्टप्लस का व्युत्पन्न लॉजिस्टिक फ़ंक्शन है। लॉजिस्टिक सिग्मॉइड फ़ंक्शन रेक्टिफायर के व्युत्पन्न, हेविसाइड स्टेप फ़ंक्शन का एक सहज अनुमान है। सिंगल-वेरिएबल सॉफ्टप्लस का बहुपरिवर्तनीय सामान्यीकरण LogSumExp है जिसमें पहला तर्क शून्य पर सेट है: LogSumExp फ़ंक्शन है और इसका ग्रेडिएंट सॉफ्टमैक्स फ़ंक्शन है; शून्य पर सेट किए गए पहले तर्क के साथ सॉफ्टमैक्स लॉजिस्टिक फ़ंक्शन का बहुपरिवर्तनीय सामान्यीकरण है। मशीन लर्निंग में LogSumExp और Softmax दोनों का उपयोग किया जाता है। ईएलयूघातीय रैखिक इकाइयाँ माध्य सक्रियणों को शून्य के करीब बनाने का प्रयास करती हैं, जिससे सीखने की गति बढ़ती है। यह दिखाया गया है कि ELUs ReLUs की तुलना में उच्च वर्गीकरण सटीकता प्राप्त कर सकते हैं।[11]
इन सूत्रों में, एक हाइपरपैरामीटर (मशीन लर्निंग) है | हाइपर-पैरामीटर जिसे बाधा के साथ ट्यून किया जाना है . ELU को स्थानांतरित ReLU (SReLU) के एक सुचारू संस्करण के रूप में देखा जा सकता है, जिसका स्वरूप है , की वही व्याख्या दी गई है . मिशमिश फ़ंक्शन का उपयोग रेक्टिफायर के सुचारू सन्निकटन के रूप में भी किया जा सकता है।[8] इसे इस प्रकार परिभाषित किया गया है कहाँ अतिशयोक्तिपूर्ण स्पर्शज्या है, और सॉफ्टप्लस फ़ंक्शन है। मिश गैर-एकरस और स्व-गेटेड है।[12] यह स्विश (फ़ंक्शन) से प्रेरित था, जो स्वयं ReLU का एक प्रकार था।[12]
स्क्वायरप्लसस्क्वायरप्लस[13] कार्य है कहाँ एक हाइपरपैरामीटर है जो पास के घुमावदार क्षेत्र का आकार निर्धारित करता है . (उदाहरण के लिए, देना ReLU उत्पन्न करता है, और देता है धात्विक माध्य फलन प्राप्त होता है।) स्क्वायरप्लस सॉफ्टप्लस के साथ कई गुण साझा करता है: यह मोनोटोनिक फ़ंक्शन है, सख्ती से सकारात्मक (गणित), 0 के रूप में पहुंचता है , पहचान के रूप में दृष्टिकोण करता है , और है सुचारू कार्य. हालाँकि, स्क्वायरप्लस की गणना केवल बीजगणितीय कार्यों का उपयोग करके की जा सकती है, जिससे यह उन सेटिंग्स के लिए उपयुक्त है जहां कम्प्यूटेशनल संसाधन या निर्देश सेट सीमित हैं। इसके अतिरिक्त, स्क्वेयरप्लस को संख्यात्मक स्थिरता सुनिश्चित करने के लिए किसी विशेष विचार की आवश्यकता नहीं होती है बड़ी है। यह भी देखें
संदर्भ
|