स्विश फलन

From Vigyanwiki

स्विश फलन एक फलन (गणित) है जिसे निम्नानुसार परिभाषित किया गया है:

स्विश समारोह
[1]

जहां β या तो स्थिर है या मॉडल के आधार पर प्रशिक्षित करने योग्य पैरामीटर है। β= 1 के लिए, फलन सिग्मॉइड लीनियर यूनिट के बराबर हो जाता है[2] या SiLU, पहली बार 2016 में दिष्टकारी (रेक्टिफायर) के साथ प्रस्तावित किया गया था। SiLU को बाद में 2017 में सिग्मॉइड-वेटेड लीनियर यूनिट (SiL) फलन के रूप में सुदृढीकरण सीखने में उपयोग किया गया था।[3][1] SiLU / SiL को इसकी प्रारंभिक खोज के एक साल बाद फिर से स्विश के रूप में फिर से खोजा गया, मूल रूप से सीखने योग्य पैरामीटर β के बिना प्रस्तावित किया गया था, ताकि β निहित रूप से 1 के बराबर हो। फिर सीखने योग्य पैरामीटर β के साथ सक्रियता का प्रस्ताव देने के लिए स्विश पेपर को अपडेट किया गया, हालांकि शोधकर्ता प्रायः β= 1 देते हैं और सीखने योग्य पैरामीटर β का उपयोग नहीं करते हैं। β = 0 के लिए, फलन स्केल किए गए रैखिक फलन f(x) = x/2 में बदल जाता है।[1]β→ ∞ के साथ, सिग्मॉइड फलन घटक 0-1 फलन बिंदुवार पहुंचता है, इसलिए स्वाइप ReLU फलन बिंदुवार पहुंचता है। इस प्रकार, इसे एक स्मूथिंग फलन के रूप में देखा जा सकता है जो एक रेखीय फलन और ReLU फलन के बीच गैर-रैखिक रूप से प्रक्षेपित होता है।[1] यह फलन गैर-एकरसता का उपयोग करता है और हो सकता है कि इस संपत्ति के साथ मिश जैसे अन्य सक्रियण फलन के प्रस्ताव को प्रभावित किया हो।[4]

घनात्मक मूल्यों पर विचार करते समय, स्विश[5] में परिभाषित सिग्मॉइड संकोचन फलन का एक विशेष मामला है (इस संदर्भ के समीकरण (3) द्वारा दिए गए दोहरे पैरामीटरयुक्त सिग्मॉइड संकोचन फॉर्म देखें)।

अनुप्रयोगसहायता

2017 में, ImageNet (इमेज नेट) डेटा पर विश्लेषण करने के बाद, गूगल के शोधकर्ताओं ने संकेत दिया कि ReLU और सिग्मॉइड फ़ंक्शंस की तुलना में कृत्रिम तंत्रिका नेटवर्क (आर्टिफिशियल न्यूरल नेटवर्क) में सक्रियण फलन के रूप में इस फलन का उपयोग करने से प्रदर्शन में सुधार होता है।[1] ऐसा माना जाता है कि सुधार का एक कारण यह है कि स्विश फलन बैकप्रॉपैगेशन के समय लुप्त होने वाली ग्रेडिएंट समस्या को कम करने में करता है।[6]

संदर्भ

  1. 1.0 1.1 1.2 1.3 1.4 Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (2017-10-27). "Searching for Activation Functions". arXiv:1710.05941v2 [cs.NE].
  2. Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Linear Units (GELUs)". arXiv:1606.08415 [cs.LG].
  3. Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017-11-02). "Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning". arXiv:1702.03118v3 [cs.LG].
  4. Misra, Diganta (2019). "Mish: A Self Regularized Non-Monotonic Neural Activation Function". arXiv:1908.08681 [cs.LG].
  5. Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Gregoire (March 2008). "गैर-पैरामीट्रिक अनुमान के लिए चिकना सिग्मॉइड तरंगिका संकोचन". 2008 IEEE International Conference on Acoustics, Speech and Signal Processing: 3265–3268. doi:10.1109/ICASSP.2008.4518347. ISBN 978-1-4244-1483-3. S2CID 9959057.
  6. Serengil, Sefik Ilkin (2018-08-21). "Swish as Neural Networks Activation Function". Machine Learning, Math. Archived from the original on 2020-06-18. Retrieved 2020-06-18.