दिष्टकारी (तंत्रिका नेटवर्क)

From Vigyanwiki
Revision as of 15:45, 8 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Activation function}} {{Machine learning}} Image:ReLU_and_GELU.svg|thumb|ReLU रेक्टिफायर (नीला) और GELU (हरा) क...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
ReLU रेक्टिफायर (नीला) और GELU (हरा) का प्लॉट पास में कार्य करता है x = 0

कृत्रिम तंत्रिका नेटवर्क के संदर्भ में, रेक्टिफायर या ReLU (रेक्टिफाइड लीनियर यूनिट) सक्रियण फ़ंक्शन[1][2] एक सक्रियण फ़ंक्शन है जिसे इसके तर्क के सकारात्मक भाग के रूप में परिभाषित किया गया है:

Failed to parse (Conversion error. Server ("cli") reported: "SyntaxError: Expected [, ;!_#%$&], [a-zA-Z], or [{}|] but "श" found.in 1:61"): {\displaystyle f(x) = x^+ = \max(0, x) = \frac{x+|x|}{2} = \शुरुआत{मामले} x और \text{if } x > 0, \\ 0 और \पाठ{अन्यथा}. \end{मामले}</गणित> | गणित>f'(x) = \begin{cases} 1 और \text{if } x > 0, \\ 0 और \text{if } x < 0. \end{मामले}</गणित> |} जहां x न्यूरॉन का इनपुट है। इसे [[रैंप समारोह]] के रूप में भी जाना जाता है और यह [[ विद्युत अभियन्त्रण ]] में आधे-तरंग सुधार के अनुरूप है। यह सक्रियण फ़ंक्शन 1969 में [[कुनिहिको फुकुशिमा]] द्वारा पदानुक्रमित तंत्रिका नेटवर्क में दृश्य सुविधा निष्कर्षण के संदर्भ में पेश किया गया था।<ref name="Fukushima1969">{{cite journal |first1=K. |last1=Fukushima |title=एनालॉग थ्रेशोल्ड तत्वों के बहुस्तरीय नेटवर्क द्वारा दृश्य सुविधा निष्कर्षण|journal=IEEE Transactions on Systems Science and Cybernetics |volume=5 |issue=4 |date=1969 |pages=322–333 |doi=10.1109/TSSC.1969.300225}}</ref><ref name="Fukushima1982">{{cite journal |first1=K. |last1=Fukushima |first2=S. |last2=Miyake |title= Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition |journal=In Competition and Cooperation in Neural Nets |series=Lecture Notes in Biomathematics |date=1982 |volume=45 |publisher=Springer |pages=267–285 |doi=10.1007/978-3-642-46466-9_18 |isbn=978-3-540-11574-8}}</ref><ref name=DLhistory>{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेटेड इतिहास|class=cs.NE|eprint=2212.11279}}</ref> बाद में यह तर्क दिया गया कि इसमें मजबूत [[जैविक]] प्रेरणाएँ और गणितीय औचित्य हैं।<ref name="Hahnloser2000">{{cite journal |first1=R. |last1=Hahnloser |first2=R. |last2=Sarpeshkar |first3=M. A. |last3=Mahowald |first4=R. J. |last4=Douglas |first5=H. S. |last5=Seung |title=डिजिटल चयन और एनालॉग प्रवर्धन कॉर्टेक्स-प्रेरित सिलिकॉन सर्किट में सह-अस्तित्व में हैं|journal=[[Nature (journal)|Nature]] |volume=405 |issue= 6789|year=2000 |pages=947–951 |doi=10.1038/35016072 |pmid=10879535 |bibcode=2000Natur.405..947H |s2cid=4399014 }}</ref><ref name="Hahnloser2001">{{cite conference |first1=R. |last1=Hahnloser |first2=H. S. |last2=Seung |year=2001 |title=सममित थ्रेशोल्ड-रैखिक नेटवर्क में अनुमत और निषिद्ध सेट|conference=NIPS 2001}}</ref> 2011 में यह पाया गया कि यह गहरे नेटवर्क के बेहतर प्रशिक्षण को सक्षम बनाता है,<ref name="glorot2011">{{cite conference |author1=Xavier Glorot |author2=Antoine Bordes |author3=[[Yoshua Bengio]] |year=2011 |title=गहरे विरल दिष्टकारी तंत्रिका नेटवर्क|url=http://jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf |conference=AISTATS |quote=Rectifier and softplus activation functions. The second one is a smooth version of the first. }}</ref> 2011 से पहले व्यापक रूप से उपयोग किए जाने वाले सक्रियण कार्यों की तुलना में, उदाहरण के लिए, [[लॉजिस्टिक फ़ंक्शन]] (जो संभाव्यता सिद्धांत से प्रेरित है; [[ संभार तन्त्र परावर्तन ]] देखें) और यह अधिक व्यावहारिक है<ref>{{cite encyclopedia |authors=[[Yann LeCun]], [[Leon Bottou]], Genevieve B. Orr and [[Klaus-Robert Müller]] |year=1998 |url=http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf |title=कुशल बैकप्रॉप|editor1=G. Orr |editor2=K. Müller |encyclopedia=Neural Networks: Tricks of the Trade |publisher=Springer}}</ref> समकक्ष, [[अतिशयोक्तिपूर्ण स्पर्शरेखा]]। दिष्टकारी है, {{as of|2017|lc=y}}, गहन शिक्षण के लिए सबसे लोकप्रिय सक्रियण फ़ंक्शन।<ref>{{cite arXiv |last1=Ramachandran |first1=Prajit |last2=Barret |first2=Zoph |last3=Quoc |first3=V. Le |date=October 16, 2017 |title=सक्रियण फ़ंक्शंस की खोज|eprint=1710.05941 |class=cs.NE}}</ref> रेक्टिफाइड रैखिक इकाइयां [[कंप्यूटर दृष्टि]] में अनुप्रयोग ढूंढती हैं<ref name="glorot2011"/>और [[वाक् पहचान]]<ref name="tothl2013">{{cite conference |authors=László Tóth |year=2013 |title=डीप स्पार्स रेक्टिफायर न्यूरल नेटवर्क के साथ फोन की पहचान|conference=[[International Conference on Acoustics, Speech and Signal Processing|ICASSP]] |url=http://www.inf.u-szeged.hu/~tothl/pubs/ICASSP2013.pdf}}</ref><ref name="maas2014">Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). [https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf Rectifier Nonlinearities Improve Neural Network Acoustic Models].</ref> गहन शिक्षण और [[कम्प्यूटेशनल तंत्रिका विज्ञान]] का उपयोग करना।<ref name="hansel2002">{{cite journal |first1=D. |last1=Hansel |first2=C. |last2=van Vreeswijk |title=कैट विज़ुअल कॉर्टेक्स में ओरिएंटेशन ट्यूनिंग के विपरीत परिवर्तन में शोर कैसे योगदान देता है|journal=[[J. Neurosci.]] |volume=22 |issue= 12|year=2002 |pages=5118–5128 |doi=10.1523/JNEUROSCI.22-12-05118.2002 |pmid= 12077207 |pmc=6757721 }}</ref><ref>{{Cite journal |doi = 10.1103/PhysRevX.5.041030 |volume = 5 |issue = 4 |pages = 041030 |last1 = Kadmon |first1 = Jonathan |last2 = Sompolinsky |first2 = Haim |title = रैंडम न्यूरोनल नेटवर्क में अराजकता की ओर संक्रमण|journal = Physical Review X |date = 2015-11-19 |arxiv = 1508.06486 |bibcode = 2015PhRvX...5d1030K |s2cid = 7813832}}</ref><ref>{{Cite arXiv |last1 = Engelken |first1 = Rainer |last2 = Wolf |first2 = Fred |last3 = Abbott |first3 = L. F. |title = अराजक आवर्तक तंत्रिका नेटवर्क का ल्यपुनोव स्पेक्ट्रा|date = 2020-06-03 |class = nlin.CD |eprint=2006.02427}}</ref> {{TOC limit}} == लाभ == * विरल सक्रियण: उदाहरण के लिए, यादृच्छिक रूप से आरंभ किए गए नेटवर्क में, केवल लगभग 50% छिपी हुई इकाइयाँ सक्रिय होती हैं (एक गैर-शून्य आउटपुट होता है)। * बेहतर ग्रेडिएंट प्रसार: दोनों दिशाओं में संतृप्त सिग्मोइडल सक्रियण कार्यों की तुलना में कम गायब होने वाली ग्रेडिएंट समस्या।<ref name="glorot2011" />* कुशल गणना: केवल तुलना, जोड़ और गुणा। * स्केल-अपरिवर्तनीय: <math>\max(0, ax) = a \max(0, x) \text{ for } a \geq 0} .

तंत्रिका अमूर्त पिरामिड में विशिष्ट उत्तेजना और अनिर्दिष्ट अवरोध को अलग करने के लिए सुधारात्मक सक्रियण कार्यों का उपयोग किया गया था, जिसे कई कंप्यूटर दृष्टि कार्यों को सीखने के लिए पर्यवेक्षित तरीके से प्रशिक्षित किया गया था।[3] 2011 में,[4]गैर-रैखिकता के रूप में रेक्टिफायर का उपयोग बिना पर्यवेक्षण के सीखना प्री-ट्रेनिंग की आवश्यकता के बिना गहन पर्यवेक्षित अध्ययन न्यूरल नेटवर्क को प्रशिक्षित करने में सक्षम बनाता है। सिग्मॉइड फ़ंक्शन या समान सक्रियण फ़ंक्शंस की तुलना में रेक्टिफाइड रैखिक इकाइयाँ, बड़े और जटिल डेटासेट पर गहरे तंत्रिका आर्किटेक्चर के तेज़ और प्रभावी प्रशिक्षण की अनुमति देती हैं।

संभावित समस्याएँ

  • शून्य पर अभेद्य; हालाँकि, यह कहीं और भिन्न है, और शून्य पर व्युत्पन्न का मान मनमाने ढंग से 0 या 1 चुना जा सकता है।
  • शून्य केन्द्रित नहीं.
  • असीमित.
  • मरती हुई ReLU समस्या: ReLU (सुधारित रैखिक इकाई) न्यूरॉन्स को कभी-कभी ऐसी स्थिति में धकेल दिया जा सकता है जहां वे अनिवार्य रूप से सभी इनपुट के लिए निष्क्रिय हो जाते हैं। इस अवस्था में, कोई भी ग्रेडिएंट न्यूरॉन के माध्यम से पीछे की ओर प्रवाहित नहीं होता है, और इसलिए न्यूरॉन हमेशा के लिए निष्क्रिय अवस्था में फंस जाता है और मर जाता है। यह लुप्त हो रही ग्रेडिएंट समस्या का एक रूप है। कुछ मामलों में, नेटवर्क में बड़ी संख्या में न्यूरॉन्स मृत अवस्था में फंस सकते हैं, जिससे प्रभावी रूप से मॉडल क्षमता कम हो सकती है। यह समस्या आम तौर पर तब उत्पन्न होती है जब सीखने की दर बहुत अधिक निर्धारित की जाती है। इसके बजाय लीकी ReLUs का उपयोग करके इसे कम किया जा सकता है, जो x <0 के लिए एक छोटा सा सकारात्मक ढलान निर्दिष्ट करता है; हालाँकि, प्रदर्शन कम हो गया है।

वेरिएंट

टुकड़े-टुकड़े-रैखिक वेरिएंट

लीक ReLU

जब इकाई सक्रिय नहीं होती है तो लीकी ReLUs एक छोटे, सकारात्मक ग्रेडिएंट की अनुमति देते हैं,[5]लुप्त हो रही ग्रेडिएंट समस्या को कम करने में मदद करना।


पैरामीट्रिक ReLU

पैरामीट्रिक ReLUs (PReLUs) रिसाव के गुणांक को एक पैरामीटर में बनाकर इस विचार को आगे ले जाते हैं जिसे अन्य तंत्रिका-नेटवर्क मापदंडों के साथ सीखा जाता है।[6]

ध्यान दें कि ≤ 1 के लिए, यह इसके बराबर है

और इस प्रकार इसका मैक्सआउट नेटवर्क से संबंध है।[6]


अन्य गैर-रैखिक वेरिएंट

गाऊसी-त्रुटि रैखिक इकाई (GELU)

GELU रेक्टिफायर का एक सहज सन्निकटन है:

जहां Φ(x) मानक सामान्य वितरण का संचयी वितरण फ़ंक्शन है। यह सक्रियण फ़ंक्शन इस आलेख के प्रारंभ में दिए गए चित्र में दिखाया गया है। जब x < 0 होता है तो इसमें एक गैर-मोनोटोनिक "बम्प" होता है और यह BERT_(भाषा_मॉडल) जैसे मॉडलों के लिए डिफ़ॉल्ट सक्रियण के रूप में कार्य करता है।[7]


सिलु

SiLU (सिग्मॉइड लीनियर यूनिट) या स्विश फ़ंक्शन[8]यह एक और सहज सन्निकटन है, जिसे सबसे पहले GELU पेपर में गढ़ा गया था:[7]

कहाँ सिग्मॉइड फ़ंक्शन है.

सॉफ्टप्लस

रेक्टिफायर का सहज सन्निकटन विश्लेषणात्मक कार्य है

जिसे सॉफ्टप्लस कहा जाता है[9][4]या स्मूथरेलू फ़ंक्शन।[10] बड़े नकारात्मक के लिए यह मोटे तौर पर है , तो 0 से ठीक ऊपर, जबकि बड़े सकारात्मक के लिए यह मोटे तौर पर है , तो बस ऊपर .

एक तीक्ष्णता पैरामीटर शामिल किया जा सकता है:

सॉफ्टप्लस का व्युत्पन्न लॉजिस्टिक फ़ंक्शन है।

लॉजिस्टिक सिग्मॉइड फ़ंक्शन रेक्टिफायर के व्युत्पन्न, हेविसाइड स्टेप फ़ंक्शन का एक सहज अनुमान है।

सिंगल-वेरिएबल सॉफ्टप्लस का बहुपरिवर्तनीय सामान्यीकरण LogSumExp है जिसमें पहला तर्क शून्य पर सेट है:

LogSumExp फ़ंक्शन है

और इसका ग्रेडिएंट सॉफ्टमैक्स फ़ंक्शन है; शून्य पर सेट किए गए पहले तर्क के साथ सॉफ्टमैक्स लॉजिस्टिक फ़ंक्शन का बहुपरिवर्तनीय सामान्यीकरण है। मशीन लर्निंग में LogSumExp और Softmax दोनों का उपयोग किया जाता है।

ईएलयू

घातीय रैखिक इकाइयाँ माध्य सक्रियणों को शून्य के करीब बनाने का प्रयास करती हैं, जिससे सीखने की गति बढ़ती है। यह दिखाया गया है कि ELUs ReLUs की तुलना में उच्च वर्गीकरण सटीकता प्राप्त कर सकते हैं।[11]

इन सूत्रों में, एक हाइपरपैरामीटर (मशीन लर्निंग) है | हाइपर-पैरामीटर जिसे बाधा के साथ ट्यून किया जाना है .

ELU को स्थानांतरित ReLU (SReLU) के एक सुचारू संस्करण के रूप में देखा जा सकता है, जिसका स्वरूप है , की वही व्याख्या दी गई है .

मिश

मिश फ़ंक्शन का उपयोग रेक्टिफायर के सुचारू सन्निकटन के रूप में भी किया जा सकता है।[8] इसे इस प्रकार परिभाषित किया गया है

कहाँ अतिशयोक्तिपूर्ण स्पर्शज्या है, और सॉफ्टप्लस फ़ंक्शन है।

मिश गैर-एकरस और स्व-गेटेड है।[12] यह स्विश (फ़ंक्शन) से प्रेरित था, जो स्वयं ReLU का एक प्रकार था।[12]


स्क्वायरप्लस

स्क्वायरप्लस[13] कार्य है

कहाँ एक हाइपरपैरामीटर है जो पास के घुमावदार क्षेत्र का आकार निर्धारित करता है . (उदाहरण के लिए, देना ReLU उत्पन्न करता है, और देता है धात्विक माध्य फलन प्राप्त होता है।) स्क्वायरप्लस सॉफ्टप्लस के साथ कई गुण साझा करता है: यह मोनोटोनिक फ़ंक्शन है, सख्ती से सकारात्मक (गणित), 0 के रूप में पहुंचता है , पहचान के रूप में दृष्टिकोण करता है , और है सुचारू कार्य. हालाँकि, स्क्वायरप्लस की गणना केवल बीजगणितीय कार्यों का उपयोग करके की जा सकती है, जिससे यह उन सेटिंग्स के लिए उपयुक्त है जहां कम्प्यूटेशनल संसाधन या निर्देश सेट सीमित हैं। इसके अतिरिक्त, स्क्वेयरप्लस को संख्यात्मक स्थिरता सुनिश्चित करने के लिए किसी विशेष विचार की आवश्यकता नहीं होती है बड़ी है।

यह भी देखें

संदर्भ

  1. Brownlee, Jason (8 January 2019). "रेक्टिफाइड लीनियर यूनिट (ReLU) का एक संक्षिप्त परिचय". Machine Learning Mastery. Retrieved 8 April 2021.
  2. Liu, Danqing (30 November 2017). "ReLU के लिए एक व्यावहारिक मार्गदर्शिका". Medium (in English). Retrieved 8 April 2021.
  3. Behnke, Sven (2003). छवि व्याख्या के लिए पदानुक्रमित तंत्रिका नेटवर्क. Lecture Notes in Computer Science. Vol. 2766. Springer. doi:10.1007/b11963. ISBN 978-3-540-40722-5. S2CID 1304548.
  4. 4.0 4.1 Cite error: Invalid <ref> tag; no text was provided for refs named glorot2011
  5. Cite error: Invalid <ref> tag; no text was provided for refs named maas2014
  6. 6.0 6.1 He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification". arXiv:1502.01852 [cs.CV].
  7. 7.0 7.1 Hendrycks, Dan; Gimpel, Kevin (2016). "गाऊसी त्रुटि रैखिक इकाइयाँ (GELUs)". arXiv:1606.08415 [cs.LG].
  8. 8.0 8.1 Diganta Misra (23 Aug 2019), Mish: A Self Regularized Non-Monotonic Activation Function (PDF), arXiv:1908.08681v1, retrieved 26 March 2022.
  9. Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; Garcia, René (2000-01-01). "Incorporating second-order functional knowledge for better option pricing" (PDF). Proceedings of the 13th International Conference on Neural Information Processing Systems (NIPS'00). MIT Press: 451–457. Since the sigmoid h has a positive first derivative, its primitive, which we call softplus, is convex.
  10. "Smooth Rectifier Linear Unit (SmoothReLU) Forward Layer". Developer Guide for Intel Data Analytics Acceleration Library (in English). 2017. Retrieved 2018-12-04.
  11. Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). "एक्सपोनेंशियल लीनियर यूनिट्स (ईएलयू) द्वारा तेज़ और सटीक डीप नेटवर्क लर्निंग". arXiv:1511.07289 [cs.LG].
  12. 12.0 12.1 Shaw, Sweta (2020-05-10). "प्रयोगों की तुलना में सक्रियण कार्य". W&B (in English). Retrieved 2022-07-11.
  13. Barron, Jonathan T. (22 December 2021). "Squareplus: A Softplus-Like Algebraic Rectifier". arXiv:2112.11687 [cs.NE].