लर्निंग रेट: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Tuning parameter (hyperparameter) in optimization}} {{Machine learning bar}} यंत्र अधिगम और सांख्यिकी म...")
 
No edit summary
 
(5 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{short description|Tuning parameter (hyperparameter) in optimization}}
{{short description|Tuning parameter (hyperparameter) in optimization}}
{{Machine learning bar}}
{{Machine learning bar}}
[[ यंत्र अधिगम ]] और सांख्यिकी में, [[गणितीय अनुकूलन]] में सीखने की दर एक [[हाइपरपैरामीटर (मशीन लर्निंग)]] है जो न्यूनतम हानि फ़ंक्शन की ओर बढ़ते हुए प्रत्येक पुनरावृत्ति पर चरण आकार निर्धारित करता है।<ref>{{cite book |first=Kevin P. |last=Murphy |title=Machine Learning: A Probabilistic Perspective |location=Cambridge |publisher=MIT Press |year=2012 |isbn=978-0-262-01802-9 |page=247 |url=https://books.google.com/books?id=NZP6AQAAQBAJ&pg=PA247 }}</ref> चूँकि यह प्रभावित करता है कि नई अर्जित जानकारी किस हद तक पुरानी जानकारी से आगे निकल जाती है, यह रूपक रूप से उस गति का प्रतिनिधित्व करता है जिस पर मशीन लर्निंग मॉडल सीखता है। [[अनुकूली नियंत्रण]] साहित्य में, सीखने की दर को आमतौर पर लाभ के रूप में जाना जाता है।<ref>{{cite journal |first=Bernard |last=Delyon |title=Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory |journal=Unpublished Lecture Notes |date=2000 |publisher=Université de Rennes |citeseerx=10.1.1.29.4428 }}</ref>
[[ यंत्र अधिगम | मशीन लर्निंग]] और सांख्यिकी में, [[गणितीय अनुकूलन|अल्गोरिथम ऑप्टिमाइजेशन]] में '''लर्निंग रेट''' एक [[हाइपरपैरामीटर (मशीन लर्निंग)]] है जो मिनिमम लॉस फ़ंक्शन की ओर बढ़ते हुए प्रत्येक इटरएशन पर स्टेप साइज़ निर्धारित करता है।<ref>{{cite book |first=Kevin P. |last=Murphy |title=Machine Learning: A Probabilistic Perspective |location=Cambridge |publisher=MIT Press |year=2012 |isbn=978-0-262-01802-9 |page=247 |url=https://books.google.com/books?id=NZP6AQAAQBAJ&pg=PA247 }}</ref> चूँकि यह इनफ्लुएंस करता है कि नई अर्जित जानकारी पुरानी जानकारी को ओवरराइड कर देती है, यह मेटाफोरिकली उस मोमेंटम को रिप्रेजेंट करता है जिस पर मशीन लर्निंग मॉडल सीखता है। [[अनुकूली नियंत्रण|अडाप्टिव कण्ट्रोल]] लिटरेचर में, लर्निंग रेट को सामान्यतः '''गेन''' के रूप में जाना जाता है।<ref>{{cite journal |first=Bernard |last=Delyon |title=Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory |journal=Unpublished Lecture Notes |date=2000 |publisher=Université de Rennes |citeseerx=10.1.1.29.4428 }}</ref>
सीखने की दर निर्धारित करने में, अभिसरण की दर और [[ ओवरशूट (संकेत) ]] के बीच एक व्यापार-बंद होता है। जबकि वंश दिशा आमतौर पर हानि फ़ंक्शन के [[ढतला हुआ वंश]] से निर्धारित होती है, सीखने की दर यह निर्धारित करती है कि उस दिशा में कितना बड़ा कदम उठाया गया है। बहुत अधिक सीखने की दर सीखने को न्यूनतम स्तर से ऊपर ले जाएगी, लेकिन बहुत कम सीखने की दर या तो एकत्रित होने में बहुत अधिक समय लेगी या अवांछनीय स्थानीय न्यूनतम में फंस जाएगी।<ref>{{cite book |first1=Nikhil |last1=Buduma |first2=Nicholas |last2=Locascio |year=2017 |title=Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms |publisher=O'Reilly |isbn=978-1-4919-2558-4 |page=21 }}</ref>
तेजी से अभिसरण प्राप्त करने के लिए, दोलनों को रोकने और अवांछनीय स्थानीय मिनीमा में फंसने से रोकने के लिए सीखने की दर अक्सर प्रशिक्षण के दौरान या तो सीखने की दर अनुसूची के अनुसार या अनुकूली सीखने की दर का उपयोग करके भिन्न होती है।<ref name="variablelearningrate">{{cite book |title=Deep Learning : A Practitioner's Approach |first1=Josh |last1=Patterson |first2=Adam |last2=Gibson |publisher=O'Reilly |year=2017 |chapter=Understanding Learning Rates |pages=258–263 |isbn=978-1-4919-1425-0 }}</ref> सीखने की दर और इसका समायोजन भी प्रति पैरामीटर भिन्न हो सकता है, इस स्थिति में यह एक [[विकर्ण मैट्रिक्स]] है जिसे न्यूटन की विधि में [[ हेस्सियन मैट्रिक्स ]] के व्युत्क्रमणीय मैट्रिक्स के अनुमान के रूप में व्याख्या किया जा सकता है। न्यूटन की विधि।<ref>{{cite arXiv |first=Sebastian |last=Ruder |title=ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन|date=2017 |class=cs.LG |eprint=1609.04747 }}</ref> सीखने की दर [[अर्ध-न्यूटन विधि]]यों और संबंधित अनुकूलन एल्गोरिदम में सटीक रेखा खोज द्वारा निर्धारित चरण लंबाई से संबंधित है।<ref>{{cite book |first=Y. |last=Nesterov |title=Introductory Lectures on Convex Optimization: A Basic Course |location=Boston |publisher=Kluwer |year=2004 |isbn=1-4020-7553-7 |page=25 |url=https://books.google.com/books?id=2-ElBQAAQBAJ&pg=PA25 }}</ref><ref>{{cite book |first=L. C. W. |last=Dixon |chapter=The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms |title=गैर-रेखीय अनुकूलन के लिए संख्यात्मक तरीके|location=London |publisher=Academic Press |year=1972 |isbn=0-12-455650-7 |pages=149–170 }}</ref>


लर्निंग रेट सेटिंग करने में, कन्वर्जेन्स की रेट और [[ ओवरशूट (संकेत) |ओवरशूट]] के मध्य एक ट्रेड-ऑफ़ होता है। जबकि डिसेंट डायरेक्शन सामान्यतः लॉस फ़ंक्शन के [[ढतला हुआ वंश|ग्रेडिएंट]] से निर्धारित होती है, लर्निंग रेट यह निर्धारित करती है कि उस डायरेक्शन में कितना बड़ा स्टेप लिया है। बहुत हाई लर्निंग रेट लर्निंग जम्प को मिनिमम स्तर से ऊपर ले जाएगी, लेकिन बहुत लो लर्निंग रेट या तो कनवर्ज होने में बहुत अधिक समय लेगी या अनडिजायरेबल लोकल मिनिमम में स्टक हो जाएगी।<ref>{{cite book |first1=Nikhil |last1=Buduma |first2=Nicholas |last2=Locascio |year=2017 |title=Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms |publisher=O'Reilly |isbn=978-1-4919-2558-4 |page=21 }}</ref>


== सीखने की दर अनुसूची ==
फास्टर कन्वर्जेन्स प्राप्त करने के लिए, ऑस्किलेशन को रोकने और अनडिजायरेबल लोकल मिनीमा में स्टक से रोकने के लिए लर्निंग रेट अधिकांशतः ट्रेंनिग के समय या तो लर्निंग रेट शेड्यूल के अनुसार या अडाप्टिव लर्निंग रेट का उपयोग करके भिन्न होती है।<ref name="variablelearningrate">{{cite book |title=Deep Learning : A Practitioner's Approach |first1=Josh |last1=Patterson |first2=Adam |last2=Gibson |publisher=O'Reilly |year=2017 |chapter=Understanding Learning Rates |pages=258–263 |isbn=978-1-4919-1425-0 }}</ref> लर्निंग रेट और इसका एडजस्टमेंट भी प्रति पैरामीटर भिन्न हो सकता है, इस स्थिति में यह एक [[विकर्ण मैट्रिक्स|डायगोनल मैट्रिक्स]] होता है जिसे न्यूटन की विधि में [[ हेस्सियन मैट्रिक्स |हेस्सियन मैट्रिक्स]] के इन्वेर्स मैट्रिक्स के एप्रोक्सीमेशन में व्याख्या किया जा सकती है।<ref>{{cite arXiv |first=Sebastian |last=Ruder |title=ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन|date=2017 |class=cs.LG |eprint=1609.04747 }}</ref> लर्निंग रेट [[अर्ध-न्यूटन विधि|कुअसी-न्यूटन मेथड्स]]और संबंधित ऑप्टिमाइजेशन एल्गोरिदम में एक्साक्ट लाइन सर्च द्वारा निर्धारित स्टेप लेंग्थ से संबंधित होती है।<ref>{{cite book |first=Y. |last=Nesterov |title=Introductory Lectures on Convex Optimization: A Basic Course |location=Boston |publisher=Kluwer |year=2004 |isbn=1-4020-7553-7 |page=25 |url=https://books.google.com/books?id=2-ElBQAAQBAJ&pg=PA25 }}</ref><ref>{{cite book |first=L. C. W. |last=Dixon |chapter=The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms |title=गैर-रेखीय अनुकूलन के लिए संख्यात्मक तरीके|location=London |publisher=Academic Press |year=1972 |isbn=0-12-455650-7 |pages=149–170 }}</ref>
प्रारंभिक दर को सिस्टम डिफ़ॉल्ट के रूप में छोड़ा जा सकता है या कई तकनीकों का उपयोग करके चुना जा सकता है।<ref>{{cite arXiv |last1=Smith |first1=Leslie N. |title=तंत्रिका नेटवर्क के प्रशिक्षण के लिए चक्रीय सीखने की दरें|date=4 April 2017 |class=cs.CV |eprint=1506.01186 }}</ref> सीखने की दर अनुसूची सीखने के दौरान सीखने की दर को बदल देती है और इसे अक्सर युगों/पुनरावृत्तियों के बीच बदला जाता है। यह मुख्य रूप से दो मापदंडों के साथ किया जाता है: क्षय और गति। सीखने की दर के कई अलग-अलग शेड्यूल हैं लेकिन सबसे आम समय-आधारित, चरण-आधारित और घातीय हैं।<ref name="variablelearningrate" />


क्षय सीखने को एक अच्छी जगह पर व्यवस्थित करने और दोलनों से बचने का कार्य करता है, एक ऐसी स्थिति जो तब उत्पन्न हो सकती है जब बहुत अधिक निरंतर सीखने की दर सीखने को न्यूनतम से आगे और पीछे कूदती है, और एक हाइपरपैरामीटर द्वारा नियंत्रित होती है।
== लर्निंग रेट शेड्यूल ==
इनिशियल रेट को सिस्टम डिफ़ॉल्ट के रूप में लेफ्ट किया जा सकता है या कई तकनीकों का उपयोग करके सेलेक्ट किया जा सकता है।<ref>{{cite arXiv |last1=Smith |first1=Leslie N. |title=तंत्रिका नेटवर्क के प्रशिक्षण के लिए चक्रीय सीखने की दरें|date=4 April 2017 |class=cs.CV |eprint=1506.01186 }}</ref> लर्निंग रेट शेड्यूल सीखने के समय लर्निंग रेट को बदल देती है और इसे अधिकांशतः इपॉक्स/ इटरएशन के मध्य बदला जाता है। यह मुख्य रूप से दो पैरामीटर के साथ किया जाता है: '''डिके''' और '''मोमेंटम'''। लर्निंग रेट के कई भिन्न-भिन्न शेड्यूल हैं लेकिन सबसे कॉमन '''टाइम-बेस्ड''', '''स्टेप-बेस्ड''' और '''एक्सपोनेंशियल''' हैं।<ref name="variablelearningrate" />


संवेग एक पहाड़ी से लुढ़कती हुई गेंद के समान है; हम चाहते हैं कि गेंद पहाड़ी के सबसे निचले बिंदु (सबसे कम त्रुटि के अनुरूप) पर स्थिर हो। जब त्रुटि लागत प्रवणता लंबे समय तक एक ही दिशा में जा रही हो तो मोमेंटम सीखने की गति बढ़ाता है (सीखने की दर बढ़ाता है) और छोटे धक्कों को 'रोल ओवर' करके स्थानीय मिनीमा से भी बचाता है। संवेग को गेंद के द्रव्यमान के अनुरूप एक हाइपरपैरामीटर द्वारा नियंत्रित किया जाता है जिसे मैन्युअल रूप से चुना जाना चाहिए - बहुत अधिक और गेंद मिनिमा पर लुढ़क जाएगी जिसे हम ढूंढना चाहते हैं, बहुत कम और यह अपने उद्देश्य को पूरा नहीं करेगा। स्टोकेस्टिक ग्रेडिएंट डीसेंट#मोमेंटम क्षय की तुलना में अधिक जटिल है, लेकिन इसे अक्सर [[ मुश्किल ]] जैसे गहन शिक्षण पुस्तकालयों के साथ बनाया जाता है।
डिके लर्निंग नाईस प्लेस पर सेटल करने और ऑस्किलेशन से बचने का कार्य करता है, एक ऐसी स्थिति जो तब उत्पन्न हो सकती है जब बहुत हाई कांस्टेंट लर्निंग रेट सीखने को मिनिमम से आगे और पीछे जम्प करती है, और एक हाइपरपैरामीटर द्वारा कण्ट्रोल होती है।


समय-आधारित शिक्षण कार्यक्रम पिछली बार की पुनरावृत्ति की सीखने की दर के आधार पर सीखने की दर को बदलते हैं। क्षय में फैक्टरिंग सीखने की दर के लिए गणितीय सूत्र है:
मोमेंटम एक हिल से रोल करती हुई गेंद के समान होता है; हम चाहते हैं कि गेंद हिल के सबसे निचले बिंदु (सबसे कम एरर के अनुरूप) पर स्थिर हो। जब त्रुटि लागत प्रवणता लंबे समय तक एक ही डायरेक्शन में जा रही हो तो मोमेंटम सीखने की गति को बढ़ाता है (लर्निंग रेट बढ़ाता है) और स्माल बम्प्स को 'रोल ओवर' करके लोकल मिनीमा से भी बचाता है। मोमेंटम को गेंद के द्रव्यमान के अनुरूप एक हाइपरपैरामीटर द्वारा नियंत्रित किया जाता है जिसे मैन्युअल रूप से चुना जाना चाहिए - बहुत अधिक और गेंद मिनिमा पर रोल कर जाएगी जिसे हम ढूंढना चाहते हैं, बहुत कम और यह अपने उद्देश्य को पूरा नहीं करेगा। स्टोकेस्टिक ग्रेडिएंट डीसेंट मोमेंटम डिके की तुलना में अधिक समष्टि होता है, लेकिन इसे अधिकांशतः [[ मुश्किल |केरस]] जैसे डीप लर्निंग लाइब्रेरी के साथ बनाया जाता है।
 
टाइम-बेस्ड लर्निंग शेड्यूल पिछली बार की इटरएशन की लर्निंग रेट के आधार पर लर्निंग रेट को बदलते हैं। डिके में फैक्टरिंग लर्निंग रेट के लिए गणितीय सूत्र निम्न प्रकार है:


<math>\eta_{n+1} = \frac{\eta_n }{1+dn}</math>
<math>\eta_{n+1} = \frac{\eta_n }{1+dn}</math>
कहाँ <math>\eta</math> सीखने की दर है, <math>d</math> एक क्षय पैरामीटर है और <math>n</math> पुनरावृत्ति चरण है.


चरण-आधारित शिक्षण कार्यक्रम कुछ पूर्वनिर्धारित चरणों के अनुसार सीखने की दर को बदलता है। क्षय अनुप्रयोग सूत्र को यहाँ इस प्रकार परिभाषित किया गया है:
जहाँ <math>\eta</math> लर्निंग रेट है, <math>d</math> एक डिके पैरामीटर है और <math>n</math> इटरएशन स्टेप है।
 
स्टेप-बेस्ड लर्निंग शेड्यूल कुछ प्रीडिफाइंड स्टेपों के अनुसार लर्निंग रेट को बदलता है। डिके अनुप्रयोग सूत्र को यहाँ इस प्रकार परिभाषित किया गया है:


<math>\eta_{n} = \eta_0d^{\left\lfloor\frac{1+n}{r}\right\rfloor}</math>
<math>\eta_{n} = \eta_0d^{\left\lfloor\frac{1+n}{r}\right\rfloor}</math>
कहाँ <math>\eta_{n}</math> पुनरावृत्ति पर सीखने की दर है <math>n</math>, <math>\eta_0</math> प्रारंभिक सीखने की दर है, <math>d</math> प्रत्येक गिरावट पर सीखने की दर कितनी बदलनी चाहिए (0.5 आधे से मेल खाती है) और <math>r</math> गिरावट की दर से मेल खाती है, या कितनी बार दर को कम किया जाना चाहिए (10 प्रत्येक 10 पुनरावृत्तियों में एक गिरावट से मेल खाती है)। [[फर्श और छत के कार्य]] कार्य (<math>\lfloor\dots\rfloor</math>) यहां 1 से छोटे सभी मानों के लिए इसके इनपुट का मान घटाकर 0 कर दिया गया है।


घातीय शिक्षण कार्यक्रम चरण-आधारित के समान हैं, लेकिन चरणों के बजाय, घटते घातीय फ़ंक्शन का उपयोग किया जाता है। क्षय में गुणनखंडन का गणितीय सूत्र है:
जहाँ <math>\eta_{n}</math> इटरएशन पर लर्निंग रेट है, <math>n</math>, <math>\eta_0</math> प्रारंभिक लर्निंग रेट है, <math>d</math> प्रत्येक ड्राप पर लर्निंग रेट कितनी बदलनी चाहिए (0.5 आधे से मैच करती है) और <math>r</math> ड्राप रेट से मैच करती है, या कितनी बार रेट को कम किया जाना चाहिए (10 प्रत्येक 10 इटरएशन में एक ड्राप से मैच करती है)। [[फर्श और छत के कार्य|फ्लोर फंक्शन]] (<math>\lfloor\dots\rfloor</math>) यहां 1 से छोटे सभी मानों के लिए इसके इनपुट का मान घटाकर 0 कर दिया गया है।
 
एक्सपोनेंशियल लर्निंग शेड्यूल स्टेप-बेस्ड के समान हैं, लेकिन स्टेपों के अतिरिक्त, डिक्रीजिंग एक्सपोनेंशियल फ़ंक्शन का उपयोग किया जाता है। डिके में गुणनखंडन का गणितीय सूत्र निम्न प्रकार है:


<math>\eta_{n} = \eta_0e^{-dn}</math>
<math>\eta_{n} = \eta_0e^{-dn}</math>
कहाँ <math>d</math> एक क्षय पैरामीटर है.


==अनुकूली सीखने की दर==
जहाँ <math>d</math> एक डिके पैरामीटर है।
सीखने की दर के शेड्यूल के साथ समस्या यह है कि वे सभी हाइपरपैरामीटर पर निर्भर करते हैं जिन्हें प्रत्येक दिए गए सीखने के सत्र के लिए मैन्युअल रूप से चुना जाना चाहिए और हाथ में समस्या या उपयोग किए गए मॉडल के आधार पर काफी भिन्न हो सकते हैं। इससे निपटने के लिए, कई अलग-अलग प्रकार के [[अनुकूली एल्गोरिथ्म]] ग्रेडिएंट डिसेंट एल्गोरिदम हैं जैसे स्टोचैस्टिक ग्रेडिएंट डिसेंट #AdaGrad, Adadelta, स्टोचैस्टिक ग्रेडिएंट डिसेंट #RMSProp, और स्टोचैस्टिक ग्रेडिएंट डिसेंट #एडम।<ref>{{cite book |last1=Murphy |first1=Kevin |title=Probabilistic Machine Learning: An Introduction |url=https://probml.github.io/pml-book/book1.html |website=Probabilistic Machine Learning: An Introduction |access-date=10 April 2021 |date=2021 |publisher=MIT Press}}</ref> जो आम तौर पर केरस जैसे गहन शिक्षण पुस्तकालयों में निर्मित होते हैं।<ref>{{cite web |last1=Brownlee |first1=Jason |title=डीप लर्निंग न्यूरल नेटवर्क को प्रशिक्षित करते समय सीखने की दर को कैसे कॉन्फ़िगर करें|url=https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/ |website=Machine Learning Mastery |access-date=4 January 2021 |date=22 January 2019}}</ref>


==अडाप्टिव लर्निंग रेट==
लर्निंग रेट के शेड्यूल के साथ समस्या यह है कि वे सभी हाइपरपैरामीटर पर निर्भर करते हैं जिन्हें प्रत्येक दिए गए लर्निंग सेशन के लिए मैन्युअल रूप से चुना जाना चाहिए और हैण्ड में समस्या या उपयोग किए गए मॉडल के आधार पर अत्यधिकता भिन्न हो सकते हैं। इससे कॉम्बैट के लिए, कई भिन्न-भिन्न प्रकार के [[अनुकूली एल्गोरिथ्म|अडाप्टिव एल्गोरिथ्म]] ग्रेडिएंट डिसेंट एल्गोरिदम होते हैं जैसे जैसे कि एडाग्रेड, एडाडेल्टा, आरएमएसप्रॉप और एडम।<ref>{{cite book |last1=Murphy |first1=Kevin |title=Probabilistic Machine Learning: An Introduction |url=https://probml.github.io/pml-book/book1.html |website=Probabilistic Machine Learning: An Introduction |access-date=10 April 2021 |date=2021 |publisher=MIT Press}}</ref> जो सामान्यतः पर केरस जैसे डीप लर्निंग लाइब्रेरी में बनाए जाते हैं।<ref>{{cite web |last1=Brownlee |first1=Jason |title=डीप लर्निंग न्यूरल नेटवर्क को प्रशिक्षित करते समय सीखने की दर को कैसे कॉन्फ़िगर करें|url=https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/ |website=Machine Learning Mastery |access-date=4 January 2021 |date=22 January 2019}}</ref>


==यह भी देखें==
== यह भी देखें ==
{{Div col|colwidth=20em}}
{{Div col|colwidth=20em}}
*हाइपरपैरामीटर (मशीन लर्निंग)
*हाइपरपैरामीटर (मशीन लर्निंग)
*[[हाइपरपैरामीटर अनुकूलन]]
*[[हाइपरपैरामीटर ऑप्टिमाइजेशन]]
*[[स्टोकेस्टिक ग्रेडिएंट डिसेंट]]
*[[स्टोकेस्टिक ग्रेडिएंट डिसेंट]]
*[[परिवर्तनीय मीट्रिक विधियाँ]]
*[[वेरिएबल मीट्रिक मेथड्स]]
*[[ओवरफिटिंग]]
*[[ओवरफिटिंग]]
*[[ पश्चप्रचार ]]
*[[ बैकप्रोपेगेशन ]]
*[[ऑटोएमएल]]
*[[ऑटोएमएल]]
*[[मॉडल चयन]]
*[[मॉडल सिलेक्शन]]
*स्वयं ट्यूनिंग
*सेल्फ ट्यूनिंग
{{Div col end}}
{{Div col end}}


==संदर्भ==
==संरेट्भ==
{{Reflist}}
{{Reflist}}


Line 56: Line 59:
==बाहरी संबंध==
==बाहरी संबंध==
*{{cite web |first=Nando |last=de Freitas |title=Optimization |work=Deep Learning Lecture 6 |location=University of Oxford |date=February 12, 2015 |url=https://www.youtube.com/watch?v=0qUAb94CpOw&list=PLE6Wd9FR--EfW8dtjAuPoTuPcqmOV53Fu&index=9 |via=[[YouTube]] }}
*{{cite web |first=Nando |last=de Freitas |title=Optimization |work=Deep Learning Lecture 6 |location=University of Oxford |date=February 12, 2015 |url=https://www.youtube.com/watch?v=0qUAb94CpOw&list=PLE6Wd9FR--EfW8dtjAuPoTuPcqmOV53Fu&index=9 |via=[[YouTube]] }}
[[Category: यंत्र अधिगम]] [[Category: मॉडल चयन]] [[Category: अनुकूलन एल्गोरिदम और विधियाँ]]


[[Category: Machine Translated Page]]
[[Category:Created On 25/07/2023]]
[[Category:Created On 25/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Multi-column templates]]
[[Category:Pages using div col with small parameter]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Translated in Hindi]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Templates using under-protected Lua modules]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:अनुकूलन एल्गोरिदम और विधियाँ]]
[[Category:मॉडल चयन]]
[[Category:यंत्र अधिगम]]

Latest revision as of 16:14, 22 August 2023

मशीन लर्निंग और सांख्यिकी में, अल्गोरिथम ऑप्टिमाइजेशन में लर्निंग रेट एक हाइपरपैरामीटर (मशीन लर्निंग) है जो मिनिमम लॉस फ़ंक्शन की ओर बढ़ते हुए प्रत्येक इटरएशन पर स्टेप साइज़ निर्धारित करता है।[1] चूँकि यह इनफ्लुएंस करता है कि नई अर्जित जानकारी पुरानी जानकारी को ओवरराइड कर देती है, यह मेटाफोरिकली उस मोमेंटम को रिप्रेजेंट करता है जिस पर मशीन लर्निंग मॉडल सीखता है। अडाप्टिव कण्ट्रोल लिटरेचर में, लर्निंग रेट को सामान्यतः गेन के रूप में जाना जाता है।[2]

लर्निंग रेट सेटिंग करने में, कन्वर्जेन्स की रेट और ओवरशूट के मध्य एक ट्रेड-ऑफ़ होता है। जबकि डिसेंट डायरेक्शन सामान्यतः लॉस फ़ंक्शन के ग्रेडिएंट से निर्धारित होती है, लर्निंग रेट यह निर्धारित करती है कि उस डायरेक्शन में कितना बड़ा स्टेप लिया है। बहुत हाई लर्निंग रेट लर्निंग जम्प को मिनिमम स्तर से ऊपर ले जाएगी, लेकिन बहुत लो लर्निंग रेट या तो कनवर्ज होने में बहुत अधिक समय लेगी या अनडिजायरेबल लोकल मिनिमम में स्टक हो जाएगी।[3]

फास्टर कन्वर्जेन्स प्राप्त करने के लिए, ऑस्किलेशन को रोकने और अनडिजायरेबल लोकल मिनीमा में स्टक से रोकने के लिए लर्निंग रेट अधिकांशतः ट्रेंनिग के समय या तो लर्निंग रेट शेड्यूल के अनुसार या अडाप्टिव लर्निंग रेट का उपयोग करके भिन्न होती है।[4] लर्निंग रेट और इसका एडजस्टमेंट भी प्रति पैरामीटर भिन्न हो सकता है, इस स्थिति में यह एक डायगोनल मैट्रिक्स होता है जिसे न्यूटन की विधि में हेस्सियन मैट्रिक्स के इन्वेर्स मैट्रिक्स के एप्रोक्सीमेशन में व्याख्या किया जा सकती है।[5] लर्निंग रेट कुअसी-न्यूटन मेथड्सऔर संबंधित ऑप्टिमाइजेशन एल्गोरिदम में एक्साक्ट लाइन सर्च द्वारा निर्धारित स्टेप लेंग्थ से संबंधित होती है।[6][7]

लर्निंग रेट शेड्यूल

इनिशियल रेट को सिस्टम डिफ़ॉल्ट के रूप में लेफ्ट किया जा सकता है या कई तकनीकों का उपयोग करके सेलेक्ट किया जा सकता है।[8] लर्निंग रेट शेड्यूल सीखने के समय लर्निंग रेट को बदल देती है और इसे अधिकांशतः इपॉक्स/ इटरएशन के मध्य बदला जाता है। यह मुख्य रूप से दो पैरामीटर के साथ किया जाता है: डिके और मोमेंटम। लर्निंग रेट के कई भिन्न-भिन्न शेड्यूल हैं लेकिन सबसे कॉमन टाइम-बेस्ड, स्टेप-बेस्ड और एक्सपोनेंशियल हैं।[4]

डिके लर्निंग नाईस प्लेस पर सेटल करने और ऑस्किलेशन से बचने का कार्य करता है, एक ऐसी स्थिति जो तब उत्पन्न हो सकती है जब बहुत हाई कांस्टेंट लर्निंग रेट सीखने को मिनिमम से आगे और पीछे जम्प करती है, और एक हाइपरपैरामीटर द्वारा कण्ट्रोल होती है।

मोमेंटम एक हिल से रोल करती हुई गेंद के समान होता है; हम चाहते हैं कि गेंद हिल के सबसे निचले बिंदु (सबसे कम एरर के अनुरूप) पर स्थिर हो। जब त्रुटि लागत प्रवणता लंबे समय तक एक ही डायरेक्शन में जा रही हो तो मोमेंटम सीखने की गति को बढ़ाता है (लर्निंग रेट बढ़ाता है) और स्माल बम्प्स को 'रोल ओवर' करके लोकल मिनीमा से भी बचाता है। मोमेंटम को गेंद के द्रव्यमान के अनुरूप एक हाइपरपैरामीटर द्वारा नियंत्रित किया जाता है जिसे मैन्युअल रूप से चुना जाना चाहिए - बहुत अधिक और गेंद मिनिमा पर रोल कर जाएगी जिसे हम ढूंढना चाहते हैं, बहुत कम और यह अपने उद्देश्य को पूरा नहीं करेगा। स्टोकेस्टिक ग्रेडिएंट डीसेंट मोमेंटम डिके की तुलना में अधिक समष्टि होता है, लेकिन इसे अधिकांशतः केरस जैसे डीप लर्निंग लाइब्रेरी के साथ बनाया जाता है।

टाइम-बेस्ड लर्निंग शेड्यूल पिछली बार की इटरएशन की लर्निंग रेट के आधार पर लर्निंग रेट को बदलते हैं। डिके में फैक्टरिंग लर्निंग रेट के लिए गणितीय सूत्र निम्न प्रकार है:

जहाँ लर्निंग रेट है, एक डिके पैरामीटर है और इटरएशन स्टेप है।

स्टेप-बेस्ड लर्निंग शेड्यूल कुछ प्रीडिफाइंड स्टेपों के अनुसार लर्निंग रेट को बदलता है। डिके अनुप्रयोग सूत्र को यहाँ इस प्रकार परिभाषित किया गया है:

जहाँ इटरएशन पर लर्निंग रेट है, , प्रारंभिक लर्निंग रेट है, प्रत्येक ड्राप पर लर्निंग रेट कितनी बदलनी चाहिए (0.5 आधे से मैच करती है) और ड्राप रेट से मैच करती है, या कितनी बार रेट को कम किया जाना चाहिए (10 प्रत्येक 10 इटरएशन में एक ड्राप से मैच करती है)। फ्लोर फंक्शन () यहां 1 से छोटे सभी मानों के लिए इसके इनपुट का मान घटाकर 0 कर दिया गया है।

एक्सपोनेंशियल लर्निंग शेड्यूल स्टेप-बेस्ड के समान हैं, लेकिन स्टेपों के अतिरिक्त, डिक्रीजिंग एक्सपोनेंशियल फ़ंक्शन का उपयोग किया जाता है। डिके में गुणनखंडन का गणितीय सूत्र निम्न प्रकार है:

जहाँ एक डिके पैरामीटर है।

अडाप्टिव लर्निंग रेट

लर्निंग रेट के शेड्यूल के साथ समस्या यह है कि वे सभी हाइपरपैरामीटर पर निर्भर करते हैं जिन्हें प्रत्येक दिए गए लर्निंग सेशन के लिए मैन्युअल रूप से चुना जाना चाहिए और हैण्ड में समस्या या उपयोग किए गए मॉडल के आधार पर अत्यधिकता भिन्न हो सकते हैं। इससे कॉम्बैट के लिए, कई भिन्न-भिन्न प्रकार के अडाप्टिव एल्गोरिथ्म ग्रेडिएंट डिसेंट एल्गोरिदम होते हैं जैसे जैसे कि एडाग्रेड, एडाडेल्टा, आरएमएसप्रॉप और एडम।[9] जो सामान्यतः पर केरस जैसे डीप लर्निंग लाइब्रेरी में बनाए जाते हैं।[10]

यह भी देखें

संरेट्भ

  1. Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. p. 247. ISBN 978-0-262-01802-9.
  2. Delyon, Bernard (2000). "Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory". Unpublished Lecture Notes. Université de Rennes. CiteSeerX 10.1.1.29.4428.
  3. Buduma, Nikhil; Locascio, Nicholas (2017). Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms. O'Reilly. p. 21. ISBN 978-1-4919-2558-4.
  4. 4.0 4.1 Patterson, Josh; Gibson, Adam (2017). "Understanding Learning Rates". Deep Learning : A Practitioner's Approach. O'Reilly. pp. 258–263. ISBN 978-1-4919-1425-0.
  5. Ruder, Sebastian (2017). "ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन एल्गोरिदम का अवलोकन". arXiv:1609.04747 [cs.LG].
  6. Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. p. 25. ISBN 1-4020-7553-7.
  7. Dixon, L. C. W. (1972). "The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms". गैर-रेखीय अनुकूलन के लिए संख्यात्मक तरीके. London: Academic Press. pp. 149–170. ISBN 0-12-455650-7.
  8. Smith, Leslie N. (4 April 2017). "तंत्रिका नेटवर्क के प्रशिक्षण के लिए चक्रीय सीखने की दरें". arXiv:1506.01186 [cs.CV].
  9. Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Retrieved 10 April 2021. {{cite book}}: |website= ignored (help)
  10. Brownlee, Jason (22 January 2019). "डीप लर्निंग न्यूरल नेटवर्क को प्रशिक्षित करते समय सीखने की दर को कैसे कॉन्फ़िगर करें". Machine Learning Mastery. Retrieved 4 January 2021.


अग्रिम पठन


बाहरी संबंध

  • de Freitas, Nando (February 12, 2015). "Optimization". Deep Learning Lecture 6. University of Oxford – via YouTube.