लर्निंग रेट

From Vigyanwiki
Revision as of 09:35, 9 August 2023 by alpha>Mahima Patel

यंत्र अधिगम और सांख्यिकी में, गणितीय अनुकूलन में सीखने की दर एक हाइपरपैरामीटर (मशीन लर्निंग) है जो न्यूनतम हानि फ़ंक्शन की ओर बढ़ते हुए प्रत्येक पुनरावृत्ति पर चरण आकार निर्धारित करता है।[1] चूँकि यह प्रभावित करता है कि नई अर्जित जानकारी किस हद तक पुरानी जानकारी से आगे निकल जाती है, यह रूपक रूप से उस गति का प्रतिनिधित्व करता है जिस पर मशीन लर्निंग मॉडल सीखता है। अनुकूली नियंत्रण साहित्य में, सीखने की दर को आमतौर पर लाभ के रूप में जाना जाता है।[2] सीखने की दर निर्धारित करने में, अभिसरण की दर और ओवरशूट (संकेत) के बीच एक व्यापार-बंद होता है। जबकि वंश दिशा आमतौर पर हानि फ़ंक्शन के ढतला हुआ वंश से निर्धारित होती है, सीखने की दर यह निर्धारित करती है कि उस दिशा में कितना बड़ा कदम उठाया गया है। बहुत अधिक सीखने की दर सीखने को न्यूनतम स्तर से ऊपर ले जाएगी, लेकिन बहुत कम सीखने की दर या तो एकत्रित होने में बहुत अधिक समय लेगी या अवांछनीय स्थानीय न्यूनतम में फंस जाएगी।[3] तेजी से अभिसरण प्राप्त करने के लिए, दोलनों को रोकने और अवांछनीय स्थानीय मिनीमा में फंसने से रोकने के लिए सीखने की दर अक्सर प्रशिक्षण के दौरान या तो सीखने की दर अनुसूची के अनुसार या अनुकूली सीखने की दर का उपयोग करके भिन्न होती है।[4] सीखने की दर और इसका समायोजन भी प्रति पैरामीटर भिन्न हो सकता है, इस स्थिति में यह एक विकर्ण मैट्रिक्स है जिसे न्यूटन की विधि में हेस्सियन मैट्रिक्स के व्युत्क्रमणीय मैट्रिक्स के अनुमान के रूप में व्याख्या किया जा सकता है। न्यूटन की विधि।[5] सीखने की दर अर्ध-न्यूटन विधियों और संबंधित अनुकूलन एल्गोरिदम में सटीक रेखा खोज द्वारा निर्धारित चरण लंबाई से संबंधित है।[6][7]

सीखने की दर अनुसूची

प्रारंभिक दर को सिस्टम डिफ़ॉल्ट के रूप में छोड़ा जा सकता है या कई तकनीकों का उपयोग करके चुना जा सकता है।[8] सीखने की दर अनुसूची सीखने के दौरान सीखने की दर को बदल देती है और इसे अक्सर युगों/पुनरावृत्तियों के बीच बदला जाता है। यह मुख्य रूप से दो मापदंडों के साथ किया जाता है: क्षय और गति। सीखने की दर के कई अलग-अलग शेड्यूल हैं लेकिन सबसे आम समय-आधारित, चरण-आधारित और घातीय हैं।[4]

क्षय सीखने को एक अच्छी जगह पर व्यवस्थित करने और दोलनों से बचने का कार्य करता है, एक ऐसी स्थिति जो तब उत्पन्न हो सकती है जब बहुत अधिक निरंतर सीखने की दर सीखने को न्यूनतम से आगे और पीछे कूदती है, और एक हाइपरपैरामीटर द्वारा नियंत्रित होती है।

संवेग एक पहाड़ी से लुढ़कती हुई गेंद के समान है; हम चाहते हैं कि गेंद पहाड़ी के सबसे निचले बिंदु (सबसे कम त्रुटि के अनुरूप) पर स्थिर हो। जब त्रुटि लागत प्रवणता लंबे समय तक एक ही दिशा में जा रही हो तो मोमेंटम सीखने की गति बढ़ाता है (सीखने की दर बढ़ाता है) और छोटे धक्कों को 'रोल ओवर' करके स्थानीय मिनीमा से भी बचाता है। संवेग को गेंद के द्रव्यमान के अनुरूप एक हाइपरपैरामीटर द्वारा नियंत्रित किया जाता है जिसे मैन्युअल रूप से चुना जाना चाहिए - बहुत अधिक और गेंद मिनिमा पर लुढ़क जाएगी जिसे हम ढूंढना चाहते हैं, बहुत कम और यह अपने उद्देश्य को पूरा नहीं करेगा। स्टोकेस्टिक ग्रेडिएंट डीसेंट#मोमेंटम क्षय की तुलना में अधिक जटिल है, लेकिन इसे अक्सर मुश्किल जैसे गहन शिक्षण पुस्तकालयों के साथ बनाया जाता है।

समय-आधारित शिक्षण कार्यक्रम पिछली बार की पुनरावृत्ति की सीखने की दर के आधार पर सीखने की दर को बदलते हैं। क्षय में फैक्टरिंग सीखने की दर के लिए गणितीय सूत्र है:

कहाँ सीखने की दर है, एक क्षय पैरामीटर है और पुनरावृत्ति चरण है.

चरण-आधारित शिक्षण कार्यक्रम कुछ पूर्वनिर्धारित चरणों के अनुसार सीखने की दर को बदलता है। क्षय अनुप्रयोग सूत्र को यहाँ इस प्रकार परिभाषित किया गया है:

कहाँ पुनरावृत्ति पर सीखने की दर है , प्रारंभिक सीखने की दर है, प्रत्येक गिरावट पर सीखने की दर कितनी बदलनी चाहिए (0.5 आधे से मेल खाती है) और गिरावट की दर से मेल खाती है, या कितनी बार दर को कम किया जाना चाहिए (10 प्रत्येक 10 पुनरावृत्तियों में एक गिरावट से मेल खाती है)। फर्श और छत के कार्य कार्य () यहां 1 से छोटे सभी मानों के लिए इसके इनपुट का मान घटाकर 0 कर दिया गया है।

घातीय शिक्षण कार्यक्रम चरण-आधारित के समान हैं, लेकिन चरणों के बजाय, घटते घातीय फ़ंक्शन का उपयोग किया जाता है। क्षय में गुणनखंडन का गणितीय सूत्र है:

कहाँ एक क्षय पैरामीटर है.

अनुकूली सीखने की दर

सीखने की दर के शेड्यूल के साथ समस्या यह है कि वे सभी हाइपरपैरामीटर पर निर्भर करते हैं जिन्हें प्रत्येक दिए गए सीखने के सत्र के लिए मैन्युअल रूप से चुना जाना चाहिए और हाथ में समस्या या उपयोग किए गए मॉडल के आधार पर काफी भिन्न हो सकते हैं। इससे निपटने के लिए, कई अलग-अलग प्रकार के अनुकूली एल्गोरिथ्म ग्रेडिएंट डिसेंट एल्गोरिदम हैं जैसे स्टोचैस्टिक ग्रेडिएंट डिसेंट #AdaGrad, Adadelta, स्टोचैस्टिक ग्रेडिएंट डिसेंट #RMSProp, और स्टोचैस्टिक ग्रेडिएंट डिसेंट #एडम।[9] जो आम तौर पर केरस जैसे गहन शिक्षण पुस्तकालयों में निर्मित होते हैं।[10]

यह भी देखें

संदर्भ

  1. Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. p. 247. ISBN 978-0-262-01802-9.
  2. Delyon, Bernard (2000). "Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory". Unpublished Lecture Notes. Université de Rennes. CiteSeerX 10.1.1.29.4428.
  3. Buduma, Nikhil; Locascio, Nicholas (2017). Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms. O'Reilly. p. 21. ISBN 978-1-4919-2558-4.
  4. 4.0 4.1 Patterson, Josh; Gibson, Adam (2017). "Understanding Learning Rates". Deep Learning : A Practitioner's Approach. O'Reilly. pp. 258–263. ISBN 978-1-4919-1425-0.
  5. Ruder, Sebastian (2017). "ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन". arXiv:1609.04747 [cs.LG].
  6. Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. p. 25. ISBN 1-4020-7553-7.
  7. Dixon, L. C. W. (1972). "The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms". गैर-रेखीय अनुकूलन के लिए संख्यात्मक तरीके. London: Academic Press. pp. 149–170. ISBN 0-12-455650-7.
  8. Smith, Leslie N. (4 April 2017). "तंत्रिका नेटवर्क के प्रशिक्षण के लिए चक्रीय सीखने की दरें". arXiv:1506.01186 [cs.CV].
  9. Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Retrieved 10 April 2021. {{cite book}}: |website= ignored (help)
  10. Brownlee, Jason (22 January 2019). "डीप लर्निंग न्यूरल नेटवर्क को प्रशिक्षित करते समय सीखने की दर को कैसे कॉन्फ़िगर करें". Machine Learning Mastery. Retrieved 4 January 2021.


अग्रिम पठन


बाहरी संबंध

  • de Freitas, Nando (February 12, 2015). "Optimization". Deep Learning Lecture 6. University of Oxford – via YouTube.