हाइपरपैरामीटर अनुकूलन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{Short description|Machine learning problem}}
{{Short description|Machine learning problem}}
[[ यंत्र अधिगम | यंत्र अधिगम]] में, हाइपरपैरामीटर ऑप्टिमाइज़ेशन<ref>Matthias Feurer and Frank Hutter. [https://link.springer.com/content/pdf/10.1007%2F978-3-030-05318-5_1.pdf Hyperparameter optimization]. In: ''AutoML: Methods, Systems, Challenges'', pages 3–38.</ref> या ट्यूनिंग लर्निंग एल्गोरिथम के लिए इष्टतम हाइपर[[पैरामीटर]] (मशीन लर्निंग) का सेट चुनने की समस्या है। हाइपरपैरामीटर पैरामीटर है जिसका मान सीखने की प्रक्रिया को नियंत्रित करने के लिए उपयोग किया जाता है। इसके विपरीत, अन्य मापदंडों (आमतौर पर नोड भार) के मान सीखे जाते हैं।
[[ यंत्र अधिगम |यंत्र अधिगम]] में '''हाइपरपैरामीटर अनुकूलन'''<ref>Matthias Feurer and Frank Hutter. [https://link.springer.com/content/pdf/10.1007%2F978-3-030-05318-5_1.pdf Hyperparameter optimization]. In: ''AutoML: Methods, Systems, Challenges'', pages 3–38.</ref> या ट्यूनिंग लर्निंग एल्गोरिथम के लिए इष्टतम हाइपर[[पैरामीटर]] मशीन लर्निंग के लिए समुच्चय चुने जाने की प्रमुख समस्या है। हाइपरपैरामीटर ऐसा पैरामीटर है जिसका मान ज्ञात करने की प्रक्रिया को नियंत्रित करने के लिए इसका उपयोग किया जाता है। इसके विपरीत, अन्य मापदंडों के लिए सामान्यतः नोड भार के मान उपयोग किए जाते हैं।


एक ही तरह के मशीन लर्निंग मॉडल को अलग-अलग डेटा पैटर्न को सामान्य बनाने के लिए अलग-अलग बाधाओं, भार या सीखने की दरों की आवश्यकता हो सकती है। इन उपायों को हाइपरपरमेटर्स कहा जाता है, और इन्हें ट्यून करना पड़ता है ताकि मॉडल मशीन सीखने की समस्या को बेहतर ढंग से हल कर सके। हाइपरपैरामीटर ऑप्टिमाइज़ेशन हाइपरपरमेटर्स का टपल ढूंढता है जो इष्टतम मॉडल उत्पन्न करता है जो दिए गए स्वतंत्र डेटा पर पूर्वनिर्धारित हानि फ़ंक्शन को कम करता है।<ref name=abs1502.02127>{{cite arXiv |eprint=1502.02127|last1=Claesen|first1=Marc|title=मशीन लर्निंग में हाइपरपैरामीटर खोज|author2=Bart De Moor|class=cs.LG|year=2015}}</ref> ऑब्जेक्टिव फ़ंक्शन हाइपरपरमेटर्स का टपल लेता है और संबंधित नुकसान लौटाता है।<ref name=abs1502.02127/>क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन का उपयोग अक्सर इस सामान्यीकरण प्रदर्शन का अनुमान लगाने के लिए किया जाता है।<ref name="bergstra">{{cite journal|last1=Bergstra|first1=James|last2=Bengio|first2=Yoshua|year=2012|title=हाइपर-पैरामीटर अनुकूलन के लिए यादृच्छिक खोज|url=http://jmlr.csail.mit.edu/papers/volume13/bergstra12a/bergstra12a.pdf|journal=Journal of Machine Learning Research|volume=13|pages=281–305}}</ref>
एक ही प्रकार की मशीन लर्निंग के प्रारूप को अलग-अलग डेटा के प्रारूप को सामान्य बनाने के लिए अलग-अलग बाधाओं के लिए उसके भार या ज्ञात करने की दरों की आवश्यकता होती हैं। इन उपायों को हाइपरपरमेटर्स कहा जाता है, और इन्हें ट्यून करना पड़ता है जिससे कि प्रारूप मशीन लर्निंग की समस्या को उत्तम विधि से हल किया जा सके। हाइपरपैरामीटर अनुकूलन हाइपरपरमेटर्स का टपल ढूंढता है जो इष्टतम प्रारूप उत्पन्न करता है तथा जो दिए गए स्वतंत्र डेटा पर पूर्वनिर्धारित हानि से फलन को कम करता है।<ref name=abs1502.02127>{{cite arXiv |eprint=1502.02127|last1=Claesen|first1=Marc|title=मशीन लर्निंग में हाइपरपैरामीटर खोज|author2=Bart De Moor|class=cs.LG|year=2015}}</ref> ऑब्जेक्टिव फलन हाइपरपरमेटर्स का टपल लेता है और संबंधित हानि लौटाता है।<ref name=abs1502.02127/>क्रॉस-वैलिडेशन (सांख्यिकी) या क्रॉस-वैलिडेशन का उपयोग अधिकांशतः इस सामान्यीकरण प्रदर्शन का अनुमान लगाने के लिए किया जाता है।<ref name="bergstra">{{cite journal|last1=Bergstra|first1=James|last2=Bengio|first2=Yoshua|year=2012|title=हाइपर-पैरामीटर अनुकूलन के लिए यादृच्छिक खोज|url=http://jmlr.csail.mit.edu/papers/volume13/bergstra12a/bergstra12a.pdf|journal=Journal of Machine Learning Research|volume=13|pages=281–305}}</ref>
== दृष्टिकोण ==
== दृष्टिकोण ==


[[File:Hyperparameter Optimization using Grid Search.svg|thumb|दो हाइपरपैरामीटर के विभिन्न मानों में ग्रिड खोज। प्रत्येक हाइपरपरमीटर के लिए, 10 अलग-अलग मानों पर विचार किया जाता है, इसलिए कुल 100 अलग-अलग संयोजनों का मूल्यांकन और तुलना की जाती है। नीले समोच्च मजबूत परिणामों वाले क्षेत्रों को दर्शाते हैं, जबकि लाल खराब परिणामों वाले क्षेत्रों को दर्शाते हैं।]]
[[File:Hyperparameter Optimization using Grid Search.svg|thumb|दो हाइपरपैरामीटर के विभिन्न मानों में ग्रिड सर्च। प्रत्येक हाइपरपरमीटर के लिए, 10 अलग-अलग मानों पर विचार किया जाता है, इसलिए कुल 100 अलग-अलग संयोजनों का मूल्यांकन और तुलना की जाती है। नीले समोच्च मजबूत परिणामों वाले क्षेत्रों को दर्शाते हैं, जबकि लाल खराब परिणामों वाले क्षेत्रों को दर्शाते हैं।]]


=== ग्रिड खोज ===
=== ग्रिड सर्च ===
हाइपरपरमीटर ऑप्टिमाइज़ेशन करने का पारंपरिक तरीका ग्रिड सर्च या पैरामीटर स्वीप रहा है, जो सीखने के एल्गोरिदम के हाइपरपेरामीटर स्पेस के मैन्युअल रूप से निर्दिष्ट सबसेट के माध्यम से केवल [[क्रूर-बल खोज]] है। ग्रिड खोज एल्गोरिथ्म को कुछ प्रदर्शन मीट्रिक द्वारा निर्देशित किया जाना चाहिए, जिसे आमतौर पर क्रॉस-सत्यापन (सांख्यिकी) द्वारा मापा जाता है। प्रशिक्षण सेट पर क्रॉस-सत्यापन<ref>Chin-Wei Hsu, Chih-Chung Chang and Chih-Jen Lin (2010). [http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf A practical guide to support vector classification]. Technical Report, [[National Taiwan University]].</ref>
हाइपरपरमीटर अनुकूलन करने की पारंपरिक विधि ग्रिड सर्च या पैरामीटर स्वीप के द्वारा उपयोग की जाती है, जो लर्निंग एल्गोरिदम के हाइपरपेरामीटर स्पेस को पारंपरिक रूप से निर्दिष्ट उपसमुच्चय के माध्यम से केवल [[क्रूर-बल खोज|क्रूर-बल सर्च]] के रूप में उपयोग करता हैं। ग्रिड सर्च एल्गोरिथ्म को कुछ प्रदर्शन मीट्रिक द्वारा निर्देशित किया जाना चाहिए, जिसे सामान्यतः क्रॉस-सत्यापन (सांख्यिकी) द्वारा मापा जाता है। प्रशिक्षण समुच्चय पर क्रॉस-सत्यापन<ref>Chin-Wei Hsu, Chih-Chung Chang and Chih-Jen Lin (2010). [http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf A practical guide to support vector classification]. Technical Report, [[National Taiwan University]].</ref> या होल्ड-आउट सत्यापन समुच्चय पर मूल्यांकन करने के लिए उपयोग किया जाता हैं।<ref>{{cite journal  
या होल्ड-आउट सत्यापन सेट पर मूल्यांकन।<ref>{{cite journal  
| vauthors = Chicco D
| vauthors = Chicco D
| title = Ten quick tips for machine learning in computational biology  
| title = Ten quick tips for machine learning in computational biology  
Line 20: Line 19:
| doi = 10.1186/s13040-017-0155-3
| doi = 10.1186/s13040-017-0155-3
| pmc= 5721660}}</ref>
| pmc= 5721660}}</ref>
चूंकि मशीन सीखने वाले के पैरामीटर स्थान में कुछ मापदंडों के लिए वास्तविक-मूल्यवान या असीमित मान स्थान शामिल हो सकते हैं, ग्रिड खोज को लागू करने से पहले मैन्युअल रूप से निर्धारित सीमा और विवेक आवश्यक हो सकता है।


उदाहरण के लिए, [[रेडियल आधार फ़ंक्शन कर्नेल]] से लैस विशिष्ट सॉफ्ट-मार्जिन [[ समर्थन वेक्टर यंत्र |समर्थन वेक्टर यंत्र]] [[सांख्यिकीय वर्गीकरण]] में कम से कम दो हाइपरपैरामीटर होते हैं जिन्हें अनदेखे डेटा पर अच्छे प्रदर्शन के लिए ट्यून करने की आवश्यकता होती है: नियमितीकरण स्थिरांक C और कर्नेल हाइपरपैरामीटर γ। दोनों पैरामीटर निरंतर हैं, इसलिए ग्रिड खोज करने के लिए, प्रत्येक के लिए उचित मूल्यों का सीमित सेट चुनता है, कहते हैं
चूंकि मशीन लर्निंग के पैरामीटर स्थान में कुछ मापदंडों के लिए वास्तविक-मूल्यवान या असीमित मान स्थान सम्मिलित हो सकते हैं, इस प्रकार ग्रिड सर्च को लागू करने से पहले पारंपरिक रूप से निर्धारित सीमा और विवेक की आवश्यक हो सकती हैं।
 
उदाहरण के लिए, [[रेडियल आधार फ़ंक्शन कर्नेल|रेडियल आधार फलन कर्नेल]] से लैस विशिष्ट सॉफ्ट-मार्जिन [[ समर्थन वेक्टर यंत्र |समर्थन वेक्टर यंत्र]] [[सांख्यिकीय वर्गीकरण]] में कम से कम दो हाइपरपैरामीटर होते हैं जिन्हें किसी डेटा पर अच्छे प्रदर्शन के लिए नियमितीकरण स्थिरांक C और कर्नेल हाइपरपैरामीटर γ द्वारा ट्यून करने की आवश्यकता होती है। दोनों पैरामीटर निरंतर उपयोग में रहते हैं, इसलिए ग्रिड सर्च करने के लिए, प्रत्येक के लिए उचित मूल्यों का सीमित समुच्चय चुनता है।


:<math>C \in \{10, 100, 1000\}</math>
:<math>C \in \{10, 100, 1000\}</math>
:<math>\gamma \in \{0.1, 0.2, 0.5, 1.0\}</math>
:<math>\gamma \in \{0.1, 0.2, 0.5, 1.0\}</math>
ग्रिड खोज तब इन दो सेटों के कार्टेशियन उत्पाद में प्रत्येक जोड़ी (सी, γ) के साथ एसवीएम को प्रशिक्षित करती है और आयोजित-आउट सत्यापन सेट पर उनके प्रदर्शन का मूल्यांकन करती है (या प्रशिक्षण सेट पर आंतरिक क्रॉस-सत्यापन द्वारा, जिस स्थिति में कई एसवीएम प्रति जोड़ी प्रशिक्षित हैं)। अंत में, ग्रिड खोज एल्गोरिदम उन सेटिंग्स को आउटपुट करता है जो सत्यापन प्रक्रिया में उच्चतम स्कोर प्राप्त करते हैं।
ग्रिड सर्च तब इन दो समुच्चयों के कार्टेशियन उत्पाद में प्रत्येक संयोजन (C, γ) के साथ एसवीएम को प्रशिक्षित करती है और आयोजित-आउट सत्यापन समुच्चय पर उनके प्रदर्शन का मूल्यांकन करती है (या प्रशिक्षण समुच्चय पर आंतरिक क्रॉस-सत्यापन द्वारा, जिस स्थिति में कई एसवीएम प्रति जोड़ी प्रशिक्षित हैं)। इस प्रकार अंत में, ग्रिड सर्च एल्गोरिदम उन समुच्चयिंग्स को आउटपुट करता है जो सत्यापन प्रक्रिया में उच्चतम स्कोर प्राप्त करते हैं।


ग्रिड खोज आयामीता के अभिशाप से ग्रस्त है, लेकिन अक्सर शर्मनाक रूप से समानांतर होती है क्योंकि इसके द्वारा मूल्यांकन की जाने वाली हाइपरपरमीटर सेटिंग्स आमतौर पर दूसरे से स्वतंत्र होती हैं।<ref name="bergstra"/>
ग्रिड सर्च आयामीता के अभिशाप से ग्रस्त है, लेकिन अधिकांशतः शर्मनाक रूप से समानांतर होती है क्योंकि इसके द्वारा मूल्यांकन की जाने वाली हाइपरपरमीटर समुच्चयिंग्स सामान्यतः दूसरे से स्वतंत्र होती हैं।<ref name="bergstra" />


[[File:Hyperparameter Optimization using Random Search.svg|thumb|दो हाइपरपैरामीटर के मानों के विभिन्न संयोजनों में यादृच्छिक खोज। इस उदाहरण में, 100 विभिन्न यादृच्छिक विकल्पों का मूल्यांकन किया जाता है। हरी पट्टियां दर्शाती हैं कि ग्रिड खोज की तुलना में प्रत्येक हाइपरपैरामीटर के लिए अधिक अलग-अलग मानों पर विचार किया जाता है।]]
[[File:Hyperparameter Optimization using Random Search.svg|thumb|दो हाइपरपैरामीटर के मानों के विभिन्न संयोजनों में यादृच्छिक सर्च। इस उदाहरण में, 100 विभिन्न यादृच्छिक विकल्पों का मूल्यांकन किया जाता है। हरी पट्टियां दर्शाती हैं कि ग्रिड सर्च की तुलना में प्रत्येक हाइपरपैरामीटर के लिए अधिक अलग-अलग मानों पर विचार किया जाता है।]]


=== यादृच्छिक खोज ===
=== यादृच्छिक सर्च ===
यादृच्छिक खोज सभी संयोजनों की संपूर्ण गणना को यादृच्छिक रूप से चुनकर प्रतिस्थापित करती है। यह केवल ऊपर वर्णित असतत सेटिंग पर लागू किया जा सकता है, लेकिन निरंतर और मिश्रित रिक्त स्थान के लिए भी सामान्यीकृत किया जा सकता है। यह ग्रिड खोज से बेहतर प्रदर्शन कर सकता है, खासकर तब जब बहुत कम संख्या में हाइपरपैरामीटर मशीन लर्निंग एल्गोरिदम के अंतिम प्रदर्शन को प्रभावित करते हैं।<ref name="bergstra" />इस मामले में, अनुकूलन समस्या को कम आंतरिक आयाम कहा जाता है।<ref>{{Cite journal|last1=Ziyu|first1=Wang|last2=Frank|first2=Hutter|last3=Masrour|first3=Zoghi|last4=David|first4=Matheson|last5=Nando|first5=de Feitas|date=2016|title=रैंडम एम्बेडिंग के माध्यम से एक अरब आयामों में बायेसियन अनुकूलन|journal=Journal of Artificial Intelligence Research|language=en|volume=55|pages=361–387|doi=10.1613/jair.4806|arxiv=1301.1942|s2cid=279236}}</ref> यादृच्छिक खोज भी शर्मनाक रूप से समानांतर है, और इसके अतिरिक्त वितरण को निर्दिष्ट करके पूर्व ज्ञान को शामिल करने की अनुमति देता है जिससे नमूना लिया जा सके। इसकी सरलता के बावजूद, यादृच्छिक खोज महत्वपूर्ण आधार-रेखाओं में से बनी हुई है जिसके विरुद्ध नए हाइपरपैरामीटर अनुकूलन विधियों के प्रदर्शन की तुलना की जा सकती है।
यादृच्छिक सर्च सभी संयोजनों की संपूर्ण गणना को यादृच्छिक रूप से चुनकर प्रतिस्थापित करती है। यह केवल ऊपर वर्णित असतत समुच्चयिंग पर लागू किया जा सकता है, लेकिन निरंतर और मिश्रित रिक्त स्थान के लिए भी सामान्यीकृत किया जा सकता है। यह ग्रिड सर्च से उत्तम प्रदर्शन कर सकता है, खासकर तब जब बहुत कम संख्या में हाइपरपैरामीटर मशीन लर्निंग एल्गोरिदम के अंतिम प्रदर्शन को प्रभावित करते हैं।<ref name="bergstra" /> इस स्थिति में, अनुकूलन समस्या को कम आंतरिक आयाम कहा जाता है।<ref>{{Cite journal|last1=Ziyu|first1=Wang|last2=Frank|first2=Hutter|last3=Masrour|first3=Zoghi|last4=David|first4=Matheson|last5=Nando|first5=de Feitas|date=2016|title=रैंडम एम्बेडिंग के माध्यम से एक अरब आयामों में बायेसियन अनुकूलन|journal=Journal of Artificial Intelligence Research|language=en|volume=55|pages=361–387|doi=10.1613/jair.4806|arxiv=1301.1942|s2cid=279236}}</ref> यादृच्छिक सर्च भी शर्मनाक रूप से समानांतर रहते हैं, और इसके अतिरिक्त वितरण को निर्दिष्ट करके पूर्व ज्ञान को सम्मिलित करने की अनुमति देता है जिससे इसके लिए प्रमाण लिया जा सके। इसकी सरलता के अतिरिक्त यादृच्छिक सर्च महत्वपूर्ण आधार-रेखाओं में से बनी हुई है जिसके विरुद्ध नए हाइपरपैरामीटर अनुकूलन विधियों के प्रदर्शन की तुलना की जा सकती है।


[[File:Hyperparameter Optimization using Tree-Structured Parzen Estimators.svg|thumb|बायेसियन ऑप्टिमाइज़ेशन जैसे तरीके पिछली टिप्पणियों के आधार पर अगले संयोजन का पता लगाने के लिए कौन सा संयोजन तय करके हाइपरपरमेटर्स के संभावित विकल्पों के स्थान का चालाकी से पता लगाते हैं।]]
[[File:Hyperparameter Optimization using Tree-Structured Parzen Estimators.svg|thumb|बायेसियन अनुकूलन जैसे तरीके पिछली टिप्पणियों के आधार पर अगले संयोजन का पता लगाने के लिए कौन सा संयोजन तय करके हाइपरपरमेटर्स के संभावित विकल्पों के स्थान का चालाकी से पता लगाते हैं।]]


=== बायेसियन अनुकूलन ===
=== बायेसियन अनुकूलन ===
{{main|Bayesian optimization}}
{{main|बायेसियन अनुकूलन}}


बायेसियन ऑप्टिमाइज़ेशन नॉइज़ ब्लैक-बॉक्स फ़ंक्शंस के लिए वैश्विक ऑप्टिमाइज़ेशन विधि है। हाइपरपैरामीटर ऑप्टिमाइज़ेशन के लिए लागू, बायेसियन ऑप्टिमाइज़ेशन फ़ंक्शन मैपिंग का संभाव्य मॉडल बनाता है जो हाइपरपैरामीटर मानों से सत्यापन सेट पर मूल्यांकन किए गए उद्देश्य के लिए होता है। वर्तमान मॉडल के आधार पर होनहार हाइपरपैरामीटर कॉन्फ़िगरेशन का पुनरावृत्त रूप से मूल्यांकन करके, और फिर इसे अपडेट करके, बायेसियन अनुकूलन का उद्देश्य इस फ़ंक्शन के बारे में और विशेष रूप से, इष्टतम के स्थान के बारे में अधिक से अधिक जानकारी प्रकट करने वाली टिप्पणियों को इकट्ठा करना है। यह अन्वेषण (हाइपरपैरामीटर जिसके लिए परिणाम सबसे अनिश्चित है) और शोषण (हाइपरपैरामीटर इष्टतम के करीब होने की उम्मीद) को संतुलित करने की कोशिश करता है। व्यवहार में, बायेसियन अनुकूलन दिखाया गया है<ref name="hutter">{{Citation
बायेसियन अनुकूलन नॉइज़ ब्लैक-बॉक्स फलन के लिए वैश्विक अनुकूलन विधि है। हाइपरपैरामीटर अनुकूलन के लिए लागू होने वाले बायेसियन अनुकूलन फलन मैपिंग का संभाव्य प्रारूप बनाता है जो हाइपरपैरामीटर मानों से सत्यापन समुच्चय पर मूल्यांकन किए गए उद्देश्य के लिए होता है। वर्तमान प्रारूप के आधार पर सबसे उत्तम हाइपरपैरामीटर कॉन्फ़िगरेशन का पुनरावृत्त रूप से मूल्यांकन करके इसे अपडेट करने के पश्चात बायेसियन अनुकूलन का उद्देश्य इस फलन के बारे में और विशेष रूप से इष्टतम रूप के स्थान के बारे में अधिक से अधिक जानकारी प्रकट करने वाली टिप्पणियों को एकत्रित करना है। यह अन्वेषण हाइपरपैरामीटर के लिए परिणाम सबसे अनिश्चित है और शोषण (हाइपरपैरामीटर इष्टतम के समीप होने की उम्मीद) को संतुलित करने का प्रयास करता है। व्यवहार में बायेसियन अनुकूलन दिखाया गया है<ref name="hutter">{{Citation
  | last1 = Hutter
  | last1 = Hutter
  | first1 = Frank
  | first1 = Frank
Line 100: Line 100:
  | bibcode = 2012arXiv1208.3719T
  | bibcode = 2012arXiv1208.3719T
  | arxiv = 1208.3719
  | arxiv = 1208.3719
  }}</ref> ग्रिड खोज और यादृच्छिक खोज की तुलना में कम मूल्यांकन में बेहतर परिणाम प्राप्त करने के लिए, प्रयोगों को चलाने से पहले उनकी गुणवत्ता के बारे में तर्क करने की क्षमता के कारण।
  }}</ref> ग्रिड सर्च और यादृच्छिक सर्च की तुलना में कम मूल्यांकन में उत्तम परिणाम प्राप्त करने के लिए, प्रयोगों को चलाने से पहले उनकी गुणवत्ता के बारे में तर्क करने की क्षमता के कारण हैं।


=== ग्रेडिएंट-आधारित अनुकूलन ===
=== ग्रेडिएंट-आधारित अनुकूलन ===
विशिष्ट शिक्षण एल्गोरिदम के लिए, हाइपरपैरामीटर के संबंध में ग्रेडिएंट की गणना करना संभव है और फिर [[ ढतला हुआ वंश |ढतला हुआ वंश]] का उपयोग करके हाइपरपैरामीटर का अनुकूलन करना। इन तकनीकों का पहला उपयोग तंत्रिका नेटवर्क पर केंद्रित था।<ref>{{cite journal |last1=Larsen|first1=Jan|last2= Hansen |first2=Lars Kai|last3=Svarer|first3=Claus|last4=Ohlsson|first4=M|title=Design and regularization of neural networks: the optimal use of a validation set|journal=Proceedings of the 1996 IEEE Signal Processing Society Workshop|date=1996|pages=62–71|doi=10.1109/NNSP.1996.548336|isbn=0-7803-3550-3|citeseerx=10.1.1.415.3266|s2cid=238874|url=http://orbit.dtu.dk/files/4545571/Svarer.pdf}}</ref> तब से, इन विधियों को अन्य मॉडलों जैसे सपोर्ट वेक्टर मशीनों तक बढ़ा दिया गया है<ref>{{cite journal |author1=Olivier Chapelle |author2=Vladimir Vapnik |author3=Olivier Bousquet |author4=Sayan Mukherjee |title=वेक्टर मशीनों का समर्थन करने के लिए कई पैरामीटर चुनना|journal=Machine Learning |year=2002 |volume=46 |pages=131–159 |url=http://www.chapelle.cc/olivier/pub/mlj02.pdf | doi = 10.1023/a:1012450327387 |doi-access=free }}</ref> या लॉजिस्टिक रिग्रेशन।<ref>{{cite journal |author1 =Chuong B|author2= Chuan-Sheng Foo|author3=Andrew Y Ng|journal = Advances in Neural Information Processing Systems |volume=20|title = लॉग-लीनियर मॉडल के लिए कुशल मल्टीपल हाइपरपैरामीटर लर्निंग|year =2008|url=http://papers.nips.cc/paper/3286-efficient-multiple-hyperparameter-learning-for-log-linear-models.pdf}}</ref>
विशिष्ट शिक्षण एल्गोरिदम के लिए, हाइपरपैरामीटर के संबंध में ग्रेडिएंट की गणना करना संभव है और फिर [[ ढतला हुआ वंश |ढतला हुए क्रम]] का उपयोग करके हाइपरपैरामीटर का अनुकूलन करना आवश्यक होता हैं। इन विधियों का पहला उपयोग तंत्रिका नेटवर्क पर केंद्रित था।<ref>{{cite journal |last1=Larsen|first1=Jan|last2= Hansen |first2=Lars Kai|last3=Svarer|first3=Claus|last4=Ohlsson|first4=M|title=Design and regularization of neural networks: the optimal use of a validation set|journal=Proceedings of the 1996 IEEE Signal Processing Society Workshop|date=1996|pages=62–71|doi=10.1109/NNSP.1996.548336|isbn=0-7803-3550-3|citeseerx=10.1.1.415.3266|s2cid=238874|url=http://orbit.dtu.dk/files/4545571/Svarer.pdf}}</ref> इसके पश्चात इन विधियों को अन्य प्रारूपों या लॉजिस्टिक रिग्रेशन जैसे सपोर्ट वेक्टर मशीनों तक बढ़ा दिया गया है।<ref>{{cite journal |author1=Olivier Chapelle |author2=Vladimir Vapnik |author3=Olivier Bousquet |author4=Sayan Mukherjee |title=वेक्टर मशीनों का समर्थन करने के लिए कई पैरामीटर चुनना|journal=Machine Learning |year=2002 |volume=46 |pages=131–159 |url=http://www.chapelle.cc/olivier/pub/mlj02.pdf | doi = 10.1023/a:1012450327387 |doi-access=free }}</ref> <ref>{{cite journal |author1 =Chuong B|author2= Chuan-Sheng Foo|author3=Andrew Y Ng|journal = Advances in Neural Information Processing Systems |volume=20|title = लॉग-लीनियर मॉडल के लिए कुशल मल्टीपल हाइपरपैरामीटर लर्निंग|year =2008|url=http://papers.nips.cc/paper/3286-efficient-multiple-hyperparameter-learning-for-log-linear-models.pdf}}</ref>
हाइपरपैरामीटर के संबंध में ढाल प्राप्त करने के लिए अलग दृष्टिकोण [[स्वचालित भेदभाव]] का उपयोग करके पुनरावृत्त अनुकूलन एल्गोरिदम के चरणों को अलग करने में होता है।<ref>{{cite journal|last1=Domke|first1=Justin|title=अनुकूलन-आधारित मॉडलिंग के लिए सामान्य तरीके|journal=Aistats|date=2012|volume=22|url=http://www.jmlr.org/proceedings/papers/v22/domke12/domke12.pdf|access-date=2017-12-09|archive-date=2014-01-24|archive-url=https://web.archive.org/web/20140124182520/http://jmlr.org/proceedings/papers/v22/domke12/domke12.pdf|url-status=dead}}</ref><ref name=abs1502.03492>{{cite arXiv |last1=Maclaurin|first1=Douglas|last2=Duvenaud|first2=David|last3=Adams|first3=Ryan P.|eprint=1502.03492|title=प्रतिवर्ती शिक्षण के माध्यम से ग्रेडिएंट-आधारित हाइपरपैरामीटर अनुकूलन|class=stat.ML|date=2015}}</ref><ref>{{cite journal |last1=Franceschi |first1=Luca |last2=Donini |first2=Michele |last3=Frasconi |first3=Paolo |last4=Pontil |first4=Massimiliano |title=फॉरवर्ड और रिवर्स ग्रेडिएंट-आधारित हाइपरपैरामीटर ऑप्टिमाइज़ेशन|journal=Proceedings of the 34th International Conference on Machine Learning |date=2017 |arxiv=1703.01785 |bibcode=2017arXiv170301785F |url=http://proceedings.mlr.press/v70/franceschi17a/franceschi17a-supp.pdf}}</ref><ref>Shaban, A., Cheng, C. A., Hatch, N., & Boots, B. (2019, April). [https://arxiv.org/pdf/1810.10667.pdf Truncated back-propagation for bilevel optimization]. In ''The 22nd International Conference on Artificial Intelligence and Statistics'' (pp. 1723-1732). PMLR.</ref> इस दिशा में और हालिया कार्य हाइपरग्रेडिएंट्स की गणना करने के लिए अंतर्निहित फ़ंक्शन प्रमेय का उपयोग करता है और उलटा हेस्सियन के स्थिर सन्निकटन का प्रस्ताव करता है। यह विधि लाखों हाइपरपैरामीटरों को मापती है और इसके लिए निरंतर मेमोरी की आवश्यकता होती है।


एक अलग दृष्टिकोण में,<ref>Lorraine, J., & Duvenaud, D. (2018). [[arxiv:1802.09419|Stochastic hyperparameter optimization through hypernetworks]]. ''arXiv preprint arXiv:1802.09419''.</ref> हाइपरनेटवर्क को सर्वश्रेष्ठ प्रतिक्रिया फ़ंक्शन का अनुमान लगाने के लिए प्रशिक्षित किया जाता है। इस पद्धति के फायदों में से यह है कि यह असतत हाइपरपरमेटर्स को भी संभाल सकता है। स्व-ट्यूनिंग नेटवर्क<ref>MacKay, M., Vicol, P., Lorraine, J., Duvenaud, D., & Grosse, R. (2019). [[arxiv:1903.03088|Self-tuning networks: Bilevel optimization of hyperparameters using structured best-response functions]]. ''arXiv preprint arXiv:1903.03088''.</ref> हाइपरनेटवर्क के लिए कॉम्पैक्ट प्रतिनिधित्व चुनकर इस दृष्टिकोण का स्मृति कुशल संस्करण प्रदान करें। अभी हाल ही में, Δ-STN<ref>Bae, J., & Grosse, R. B. (2020). [[arxiv:2010.13514|Delta-stn: Efficient bilevel optimization for neural networks using structured response jacobians]]. ''Advances in Neural Information Processing Systems'', ''33'', 21725-21737.</ref> हाइपरनेटवर्क के थोड़े पुनर्मूल्यांकन द्वारा इस पद्धति में और सुधार किया है जो प्रशिक्षण को गति देता है। Δ-STN भी वज़न में नेटवर्क को रेखीयकृत करके सर्वोत्तम-प्रतिक्रिया वाले जेकोबियन का बेहतर सन्निकटन प्राप्त करता है, इसलिए वज़न में बड़े परिवर्तनों के अनावश्यक अरैखिक प्रभावों को दूर करता है।
हाइपरपैरामीटर के संबंध में ढाल प्राप्त करने के लिए अलग दृष्टिकोण [[स्वचालित भेदभाव]] का उपयोग करके पुनरावृत्त अनुकूलन एल्गोरिदम के चरणों को अलग करने में होता है।<ref>{{cite journal|last1=Domke|first1=Justin|title=अनुकूलन-आधारित मॉडलिंग के लिए सामान्य तरीके|journal=Aistats|date=2012|volume=22|url=http://www.jmlr.org/proceedings/papers/v22/domke12/domke12.pdf|access-date=2017-12-09|archive-date=2014-01-24|archive-url=https://web.archive.org/web/20140124182520/http://jmlr.org/proceedings/papers/v22/domke12/domke12.pdf|url-status=dead}}</ref><ref name="abs1502.03492">{{cite arXiv |last1=Maclaurin|first1=Douglas|last2=Duvenaud|first2=David|last3=Adams|first3=Ryan P.|eprint=1502.03492|title=प्रतिवर्ती शिक्षण के माध्यम से ग्रेडिएंट-आधारित हाइपरपैरामीटर अनुकूलन|class=stat.ML|date=2015}}</ref><ref>{{cite journal |last1=Franceschi |first1=Luca |last2=Donini |first2=Michele |last3=Frasconi |first3=Paolo |last4=Pontil |first4=Massimiliano |title=फॉरवर्ड और रिवर्स ग्रेडिएंट-आधारित हाइपरपैरामीटर ऑप्टिमाइज़ेशन|journal=Proceedings of the 34th International Conference on Machine Learning |date=2017 |arxiv=1703.01785 |bibcode=2017arXiv170301785F |url=http://proceedings.mlr.press/v70/franceschi17a/franceschi17a-supp.pdf}}</ref><ref>Shaban, A., Cheng, C. A., Hatch, N., & Boots, B. (2019, April). [https://arxiv.org/pdf/1810.10667.pdf Truncated back-propagation for bilevel optimization]. In ''The 22nd International Conference on Artificial Intelligence and Statistics'' (pp. 1723-1732). PMLR.</ref> इस दिशा में और वर्तमान समय के अनुसार हाइपरग्रेडिएंट्स फंक्शन की गणना करने के लिए अंतर्निहित फलन प्रमेय का उपयोग करता है और उलटा हेस्सियन के स्थिर सन्निकटन का प्रस्ताव करता है। यह विधि लाखों हाइपरपैरामीटरों को मापती है और इसके लिए निरंतर मेमोरी की आवश्यकता होती है।


हाइपरनेटवर्क दृष्टिकोण के अलावा, ग्रेडिएंट-आधारित विधियों का उपयोग असतत हाइपरपैरामीटर को भी मापदंडों की निरंतर छूट को अपनाकर अनुकूलित करने के लिए किया जा सकता है।<ref>Liu, H., Simonyan, K., & Yang, Y. (2018). [[arxiv:1806.09055|Darts: Differentiable architecture search]]. ''arXiv preprint arXiv:1806.09055''.</ref> इस तरह के तरीकों का व्यापक रूप से [[तंत्रिका वास्तुकला खोज]] में आर्किटेक्चर हाइपरपैरामीटर के अनुकूलन के लिए उपयोग किया गया है।
एक अलग दृष्टिकोण में,<ref>Lorraine, J., & Duvenaud, D. (2018). [[arxiv:1802.09419|Stochastic hyperparameter optimization through hypernetworks]]. ''arXiv preprint arXiv:1802.09419''.</ref> हाइपरनेटवर्क को सर्वश्रेष्ठ प्रतिक्रिया फलन का अनुमान लगाने के लिए प्रशिक्षित किया जाता है। इस पद्धति के लाभ में से यह है कि यह असतत हाइपरपरमेटर्स को भी संभाल सकता है। स्व-ट्यूनिंग नेटवर्क<ref>MacKay, M., Vicol, P., Lorraine, J., Duvenaud, D., & Grosse, R. (2019). [[arxiv:1903.03088|Self-tuning networks: Bilevel optimization of hyperparameters using structured best-response functions]]. ''arXiv preprint arXiv:1903.03088''.</ref> हाइपरनेटवर्क के लिए कॉम्पैक्ट प्रतिनिधित्व चुनकर इस दृष्टिकोण का स्मृति कुशल संस्करण प्रदान करता हैं। अभी हाल ही में Δ-STN<ref>Bae, J., & Grosse, R. B. (2020). [[arxiv:2010.13514|Delta-stn: Efficient bilevel optimization for neural networks using structured response jacobians]]. ''Advances in Neural Information Processing Systems'', ''33'', 21725-21737.</ref> हाइपरनेटवर्क के थोड़े पुनर्मूल्यांकन द्वारा इस पद्धति में और सुधार किया है जो प्रशिक्षण को गति देता है। Δ-STN भी वज़न में नेटवर्क को रेखीयकृत करके सर्वोत्तम-प्रतिक्रिया वाले जेकोबियन का उत्तम सन्निकटन प्राप्त करता है, इसलिए वज़न में बड़े परिवर्तनों के अनावश्यक अरैखिक प्रभावों को दूर करता है।
 
हाइपरनेटवर्क दृष्टिकोण के अलावा, ग्रेडिएंट-आधारित विधियों का उपयोग असतत हाइपरपैरामीटर को भी मापदंडों की निरंतर छूट को अपनाकर अनुकूलित करने के लिए किया जा सकता है।<ref>Liu, H., Simonyan, K., & Yang, Y. (2018). [[arxiv:1806.09055|Darts: Differentiable architecture search]]. ''arXiv preprint arXiv:1806.09055''.</ref> इस प्रकार के तरीकों का व्यापक रूप से [[तंत्रिका वास्तुकला खोज|तंत्रिका संरचना सर्च]] में संरचना हाइपरपैरामीटर के अनुकूलन के लिए उपयोग किया गया है।


=== विकासवादी अनुकूलन ===
=== विकासवादी अनुकूलन ===
{{main|Evolutionary algorithm}}
{{main|विकासवादी एल्गोरिदम}}


विकासवादी अनुकूलन शोर वाले ब्लैक-बॉक्स कार्यों के वैश्विक अनुकूलन के लिए पद्धति है। हाइपरपैरामीटर ऑप्टिमाइज़ेशन में, विकासवादी ऑप्टिमाइज़ेशन किसी दिए गए एल्गोरिथम के लिए हाइपरपैरामीटर के स्थान की खोज करने के लिए [[विकासवादी एल्गोरिदम]] का उपयोग करता है।<ref name="bergstra11" />इवोल्यूशनरी हाइपरपैरामीटर ऑप्टिमाइज़ेशन एवोल्यूशनरी एल्गोरिथम का अनुसरण करता है#[[विकास]] की जैविक अवधारणा से प्रेरित कार्यान्वयन:
विकासवादी अनुकूलन ध्वनि वाले ब्लैक-बॉक्स कार्यों के वैश्विक अनुकूलन के लिए पद्धति है। हाइपरपैरामीटर अनुकूलन में, विकासवादी अनुकूलन किसी दिए गए एल्गोरिथम के लिए हाइपरपैरामीटर के स्थान की सर्च करने के लिए [[विकासवादी एल्गोरिदम]] का उपयोग करता है।<ref name="bergstra11" /> इवोल्यूशनरी हाइपरपैरामीटर अनुकूलन एवोल्यूशनरी एल्गोरिथम का अनुसरण करता है इस प्रकार [[विकास]] की जैविक अवधारणा से प्रेरित कार्यान्वयन इस प्रकार हैं:


# यादृच्छिक समाधानों की प्रारंभिक आबादी बनाएं (यानी, बेतरतीब ढंग से हाइपरपरमेटर्स के टुपल्स उत्पन्न करें, आमतौर पर 100+)
# यादृच्छिक समाधानों की प्रारंभिक आबादी बनाएं (अर्ताथ विभिन्न तरीकों से हाइपरपरमेटर्स के टुपल्स उत्पन्न करें, जिनकी गिनती सामान्यतः 100+ होती हैं)
# हाइपरपैरामीटर टुपल्स का मूल्यांकन करें और उनके [[फिटनेस कार्य]] को प्राप्त करें (उदाहरण के लिए, 10-गुना क्रॉस-सत्यापन (सांख्यिकी) | उन हाइपरपैरामीटर के साथ मशीन लर्निंग एल्गोरिदम की क्रॉस-सत्यापन सटीकता)
# हाइपरपैरामीटर टुपल्स का मूल्यांकन करें और उनके [[फिटनेस कार्य]] को प्राप्त करें (उदाहरण के लिए, सांख्यिकी में 10-गुना क्रॉस-सत्यापन या उन हाइपरपैरामीटर के साथ मशीन लर्निंग एल्गोरिदम की क्रॉस-सत्यापन सटीकता को प्रकट करता हैं।
# हाइपरपैरामीटर टुपल्स को उनकी सापेक्ष फिटनेस के आधार पर रैंक करें
# हाइपरपैरामीटर टुपल्स को उनकी सापेक्ष फिटनेस के आधार पर रैंक किया जाता हैं।
# क्रॉसओवर (जेनेटिक एल्गोरिथम) और म्यूटेशन (जेनेटिक एल्गोरिथम) के माध्यम से उत्पन्न होने वाले नए हाइपरपरमीटर ट्यूपल्स के साथ सबसे खराब प्रदर्शन करने वाले हाइपरपैरामीटर ट्यूपल्स को बदलें।
# क्रॉसओवर (जेनेटिक एल्गोरिथम) और म्यूटेशन (जेनेटिक एल्गोरिथम) के माध्यम से उत्पन्न होने वाले नए हाइपरपरमीटर ट्यूपल्स के साथ सबसे बुरे प्रदर्शन करने वाले हाइपरपैरामीटर ट्यूपल्स के रूप में परिवर्तित किया जाता हैं।
# चरण 2-4 को तब तक दोहराएं जब तक कि एल्गोरिदम प्रदर्शन संतोषजनक न हो जाए या एल्गोरिदम प्रदर्शन में सुधार न हो
# चरण 2-4 को तब तक दोहराएं जब तक कि एल्गोरिदम प्रदर्शन संतोषजनक न हो जाए या एल्गोरिदम प्रदर्शन में सुधार नहीं होता हैं।


सांख्यिकीय मशीन लर्निंग एल्गोरिदम के लिए हाइपरपरमीटर ऑप्टिमाइज़ेशन में इवोल्यूशनरी ऑप्टिमाइज़ेशन का उपयोग किया गया है,<ref name="bergstra11" />[[स्वचालित मशीन लर्निंग]], विशिष्ट तंत्रिका नेटवर्क <ref name="kousiouris1">{{cite journal |vauthors=Kousiouris G, Cuccinotta T, Varvarigou T | year = 2011 | title= वर्चुअल मशीन के प्रदर्शन पर शेड्यूलिंग, कार्यभार प्रकार और समेकन परिदृश्यों के प्रभाव और अनुकूलित कृत्रिम तंत्रिका नेटवर्क के माध्यम से उनकी भविष्यवाणी| url= https://www.sciencedirect.com/science/article/abs/pii/S0164121211000951 | journal    = Journal of Systems and Software | volume = 84 | issue = 8 | pages = 1270–1291| doi = 10.1016/j.jss.2011.04.013 | hdl = 11382/361472 | hdl-access = free }}</ref> और डीप लर्निंग#डीप न्यूरल नेटवर्क आर्किटेक्चर सर्च,<ref name="miikkulainen1">{{cite arXiv | vauthors = Miikkulainen R, Liang J, Meyerson E, Rawal A, Fink D, Francon O, Raju B, Shahrzad H, Navruzyan A, Duffy N, Hodjat B | year = 2017 | title = डीप न्यूरल नेटवर्क का विकास|eprint=1703.00548| class = cs.NE }}</ref><ref name="jaderberg1">{{cite arXiv | vauthors = Jaderberg M, Dalibard V, Osindero S, Czarnecki WM, Donahue J, Razavi A, Vinyals O, Green T, Dunning I, Simonyan K, Fernando C, Kavukcuoglu K | year = 2017 | title = तंत्रिका नेटवर्क का जनसंख्या आधारित प्रशिक्षण|eprint=1711.09846| class = cs.LG }}</ref> साथ ही गहरे तंत्रिका नेटवर्क में भार का प्रशिक्षण।<ref name="such1">{{cite arXiv | vauthors = Such FP, Madhavan V, Conti E, Lehman J, Stanley KO, Clune J | year = 2017 | title = Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning |eprint=1712.06567| class = cs.NE }}</ref>
सांख्यिकीय मशीन लर्निंग एल्गोरिदम के लिए हाइपरपरमीटर अनुकूलन में इवोल्यूशनरी अनुकूलन का उपयोग किया जाता हैं,<ref name="bergstra11" />[[स्वचालित मशीन लर्निंग]], विशिष्ट तंत्रिका नेटवर्क <ref name="kousiouris1">{{cite journal |vauthors=Kousiouris G, Cuccinotta T, Varvarigou T | year = 2011 | title= वर्चुअल मशीन के प्रदर्शन पर शेड्यूलिंग, कार्यभार प्रकार और समेकन परिदृश्यों के प्रभाव और अनुकूलित कृत्रिम तंत्रिका नेटवर्क के माध्यम से उनकी भविष्यवाणी| url= https://www.sciencedirect.com/science/article/abs/pii/S0164121211000951 | journal    = Journal of Systems and Software | volume = 84 | issue = 8 | pages = 1270–1291| doi = 10.1016/j.jss.2011.04.013 | hdl = 11382/361472 | hdl-access = free }}</ref> और डीप लर्निंग डीप न्यूरल नेटवर्क संरचना सर्च,<ref name="miikkulainen1">{{cite arXiv | vauthors = Miikkulainen R, Liang J, Meyerson E, Rawal A, Fink D, Francon O, Raju B, Shahrzad H, Navruzyan A, Duffy N, Hodjat B | year = 2017 | title = डीप न्यूरल नेटवर्क का विकास|eprint=1703.00548| class = cs.NE }}</ref><ref name="jaderberg1">{{cite arXiv | vauthors = Jaderberg M, Dalibard V, Osindero S, Czarnecki WM, Donahue J, Razavi A, Vinyals O, Green T, Dunning I, Simonyan K, Fernando C, Kavukcuoglu K | year = 2017 | title = तंत्रिका नेटवर्क का जनसंख्या आधारित प्रशिक्षण|eprint=1711.09846| class = cs.LG }}</ref> साथ ही गहरे तंत्रिका नेटवर्क में भार का प्रशिक्षण किया जाता हैं।<ref name="such1">{{cite arXiv | vauthors = Such FP, Madhavan V, Conti E, Lehman J, Stanley KO, Clune J | year = 2017 | title = Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning |eprint=1712.06567| class = cs.NE }}</ref>
=== जनसंख्या आधारित ===
=== जनसंख्या आधारित ===
जनसंख्या आधारित प्रशिक्षण (PBT) हाइपरपैरामीटर मान और नेटवर्क भार दोनों सीखता है। अलग-अलग हाइपरपरमेटर्स का उपयोग करते हुए, कई सीखने की प्रक्रियाएँ स्वतंत्र रूप से संचालित होती हैं। विकासवादी विधियों की तरह, खराब प्रदर्शन करने वाले मॉडल को पुनरावृत्त रूप से उन मॉडलों से बदल दिया जाता है जो बेहतर प्रदर्शन करने वालों के आधार पर संशोधित हाइपरपैरामीटर मान और भार अपनाते हैं। यह प्रतिस्थापन मॉडल वार्म स्टार्टिंग पीबीटी और अन्य विकासवादी तरीकों के बीच प्राथमिक अंतर है। पीबीटी इस प्रकार हाइपरपरमेटर्स को विकसित करने की अनुमति देता है और मैन्युअल हाइपरट्यूनिंग की आवश्यकता को समाप्त करता है। प्रक्रिया मॉडल आर्किटेक्चर, हानि कार्यों या प्रशिक्षण प्रक्रियाओं के बारे में कोई धारणा नहीं बनाती है।
जनसंख्या आधारित प्रशिक्षण (PBT) हाइपरपैरामीटर मान और नेटवर्क भार दोनों सीखता है। अलग-अलग हाइपरपरमेटर्स का उपयोग करते हुए, कई लर्निंग की प्रक्रियाएँ स्वतंत्र रूप से संचालित होती हैं। विकासवादी विधियों की तरह, खराब प्रदर्शन करने वाले प्रारूप को पुनरावृत्त रूप से उन प्रारूपों से परिवर्तित कर दिया जाता है जो उत्तम प्रदर्शन करने वालों के आधार पर संशोधित हाइपरपैरामीटर मान और भार अपनाते हैं। यह प्रतिस्थापन प्रारूप वार्म स्टार्टिंग पीबीटी और अन्य विकासवादी विधियों के बीच प्राथमिक अंतर है। पीबीटी इस प्रकार हाइपरपरमेटर्स को विकसित करने की अनुमति देता है और पारंपरिक हाइपरट्यूनिंग की आवश्यकता को समाप्त करता है। प्रक्रिया प्रारूप संरचना, हानि कार्यों या प्रशिक्षण प्रक्रियाओं के बारे में कोई धारणा नहीं बनाती है।


पीबीटी और इसके वेरिएंट अनुकूली तरीके हैं: वे मॉडल के प्रशिक्षण के दौरान हाइपरपरमेटर्स को अपडेट करते हैं। इसके विपरीत, गैर-अनुकूली विधियों में पूरे प्रशिक्षण के लिए हाइपरपरमेटर्स के निरंतर सेट को असाइन करने के लिए उप-इष्टतम रणनीति होती है।<ref>{{cite arXiv|last1=Li|first1=Ang|last2=Spyra|first2=Ola|last3=Perel|first3=Sagi|last4=Dalibard|first4=Valentin|last5=Jaderberg|first5=Max|last6=Gu|first6=Chenjie|last7=Budden|first7=David|last8=Harley|first8=Tim|last9=Gupta|first9=Pramod|date=2019-02-05|title=जनसंख्या आधारित प्रशिक्षण के लिए एक सामान्यीकृत ढांचा|eprint=1902.01894|class=cs.AI}}</ref>
पीबीटी और इसके वेरिएंट अनुकूलतम विधि हैं: वे प्रारूप के प्रशिक्षण के दौरान हाइपरपरमेटर्स को अपडेट करते हैं। इसके विपरीत गैर-अनुकूली विधियों में पूरे प्रशिक्षण के लिए हाइपरपरमेटर्स के निरंतर समुच्चय को असाइन करने के लिए उप-इष्टतम रणनीति होती है।<ref>{{cite arXiv|last1=Li|first1=Ang|last2=Spyra|first2=Ola|last3=Perel|first3=Sagi|last4=Dalibard|first4=Valentin|last5=Jaderberg|first5=Max|last6=Gu|first6=Chenjie|last7=Budden|first7=David|last8=Harley|first8=Tim|last9=Gupta|first9=Pramod|date=2019-02-05|title=जनसंख्या आधारित प्रशिक्षण के लिए एक सामान्यीकृत ढांचा|eprint=1902.01894|class=cs.AI}}</ref>
=== प्रारंभिक रोक-आधारित ===
=== प्रारंभिक रोक-आधारित ===
शुरुआती रोक-आधारित हाइपरपैरामीटर ऑप्टिमाइज़ेशन एल्गोरिदम का वर्ग निरंतर और असतत हाइपरपैरामीटर के बड़े खोज स्थानों के लिए बनाया गया है, खासकर जब हाइपरपैरामीटर के सेट के प्रदर्शन का मूल्यांकन करने के लिए कम्प्यूटेशनल लागत अधिक है। इरेस पुनरावृत्त रेसिंग एल्गोरिथ्म को लागू करता है, जो खराब प्रदर्शन करने वालों को छोड़ने के लिए सांख्यिकीय परीक्षणों का उपयोग करते हुए, सबसे आशाजनक कॉन्फ़िगरेशन के आसपास खोज को केंद्रित करता है।<ref name="irace">{{cite journal |last1=López-Ibáñez |first1=Manuel |last2=Dubois-Lacoste |first2=Jérémie |last3=Pérez Cáceres |first3=Leslie |last4=Stützle |first4=Thomas |last5=Birattari |first5=Mauro |date=2016 |title=The irace package: Iterated Racing for Automatic Algorithm Configuration |journal=Operations Research Perspective |volume=3 |issue=3 |pages=43–58 |doi=10.1016/j.orp.2016.09.002|doi-access=free }}</ref><ref name="race">{{cite journal |last1=Birattari |first1=Mauro |last2=Stützle |first2=Thomas |last3=Paquete |first3=Luis |last4=Varrentrapp |first4=Klaus |date=2002 |title=मेटाह्यूरिस्टिक्स को कॉन्फ़िगर करने के लिए एक रेसिंग एल्गोरिथम|journal=Gecco 2002 |pages=11–18}}</ref>
प्रारंभिक रोक आधारित हाइपरपैरामीटर अनुकूलन एल्गोरिदम का वर्ग निरंतर और असतत हाइपरपैरामीटर के बड़े सर्च स्थानों के लिए बनाया गया है, मुख्य रूप से जब हाइपरपैरामीटर के समुच्चय के प्रदर्शन का मूल्यांकन करने के लिए कम्प्यूटेशनल लागत अधिक है। इरेस पुनरावृत्त रेसिंग एल्गोरिथ्म को लागू करता है, जो खराब प्रदर्शन करने वालों को छोड़ने के लिए सांख्यिकीय परीक्षणों का उपयोग करते हुए, सबसे आशाजनक कॉन्फ़िगरेशन के आसपास सर्च को केंद्रित करता है।<ref name="irace">{{cite journal |last1=López-Ibáñez |first1=Manuel |last2=Dubois-Lacoste |first2=Jérémie |last3=Pérez Cáceres |first3=Leslie |last4=Stützle |first4=Thomas |last5=Birattari |first5=Mauro |date=2016 |title=The irace package: Iterated Racing for Automatic Algorithm Configuration |journal=Operations Research Perspective |volume=3 |issue=3 |pages=43–58 |doi=10.1016/j.orp.2016.09.002|doi-access=free }}</ref><ref name="race">{{cite journal |last1=Birattari |first1=Mauro |last2=Stützle |first2=Thomas |last3=Paquete |first3=Luis |last4=Varrentrapp |first4=Klaus |date=2002 |title=मेटाह्यूरिस्टिक्स को कॉन्फ़िगर करने के लिए एक रेसिंग एल्गोरिथम|journal=Gecco 2002 |pages=11–18}}</ref>
एक और प्रारंभिक रोक हाइपरपैरामीटर ऑप्टिमाइज़ेशन एल्गोरिथम क्रमिक पड़ाव (SHA) है,<ref>{{cite arXiv|last1=Jamieson|first1=Kevin|last2=Talwalkar|first2=Ameet|date=2015-02-27|title=नॉन-स्टोकेस्टिक बेस्ट आर्म आइडेंटिफिकेशन और हाइपरपैरामीटर ऑप्टिमाइजेशन|eprint=1502.07943|class=cs.LG}}</ref> जो यादृच्छिक खोज के रूप में शुरू होता है लेकिन समय-समय पर कम प्रदर्शन वाले मॉडल को कम करता है, जिससे अधिक आशाजनक मॉडल पर कम्प्यूटेशनल संसाधनों पर ध्यान केंद्रित किया जाता है। अतुल्यकालिक क्रमिक आधान (आशा)<ref>{{cite arXiv|last1=Li|first1=Liam|last2=Jamieson|first2=Kevin|last3=Rostamizadeh|first3=Afshin|last4=Gonina|first4=Ekaterina|last5=Hardt|first5=Moritz|last6=Recht|first6=Benjamin|last7=Talwalkar|first7=Ameet|date=2020-03-16|title=बड़े पैमाने पर समानांतर हाइपरपैरामीटर ट्यूनिंग के लिए एक प्रणाली|class=cs.LG|eprint=1810.05934v5}}</ref> कम प्रदर्शन करने वाले मॉडलों का समकालिक रूप से मूल्यांकन और छँटाई करने की आवश्यकता को हटाकर SHA के संसाधन उपयोग प्रोफ़ाइल में और सुधार करता है। हाइपरबैंड<ref>{{cite journal|last1=Li|first1=Lisha|last2=Jamieson|first2=Kevin|last3=DeSalvo|first3=Giulia|last4=Rostamizadeh|first4=Afshin|last5=Talwalkar|first5=Ameet|date=2020-03-16|title=Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization|journal=Journal of Machine Learning Research|volume=18|pages=1–52|arxiv=1603.06560}}</ref> उच्च स्तरीय अर्ली स्टॉपिंग-आधारित एल्गोरिथम है जो अधिक व्यापक रूप से लागू होने और कम आवश्यक इनपुट के साथ छंटाई आक्रामकता के विभिन्न स्तरों के साथ कई बार SHA या आशा को आमंत्रित करता है।
 
एक और प्रारंभिक रोक हाइपरपैरामीटर अनुकूलन एल्गोरिथम क्रमिक पड़ाव (एसएचए) है,<ref>{{cite arXiv|last1=Jamieson|first1=Kevin|last2=Talwalkar|first2=Ameet|date=2015-02-27|title=नॉन-स्टोकेस्टिक बेस्ट आर्म आइडेंटिफिकेशन और हाइपरपैरामीटर ऑप्टिमाइजेशन|eprint=1502.07943|class=cs.LG}}</ref> जो यादृच्छिक सर्च के रूप में प्रारंभ होता है लेकिन समय-समय पर कम प्रदर्शन वाले प्रारूप को कम करता है, जिससे अधिक आशाजनक प्रारूप पर कम्प्यूटेशनल संसाधनों पर ध्यान केंद्रित किया जाता है। अतुल्यकालिक क्रमिक आधान (आशा)<ref>{{cite arXiv|last1=Li|first1=Liam|last2=Jamieson|first2=Kevin|last3=Rostamizadeh|first3=Afshin|last4=Gonina|first4=Ekaterina|last5=Hardt|first5=Moritz|last6=Recht|first6=Benjamin|last7=Talwalkar|first7=Ameet|date=2020-03-16|title=बड़े पैमाने पर समानांतर हाइपरपैरामीटर ट्यूनिंग के लिए एक प्रणाली|class=cs.LG|eprint=1810.05934v5}}</ref> कम प्रदर्शन करने वाले प्रारूपों का समकालिक रूप से मूल्यांकन और छँटाई करने की आवश्यकता को हटाकर एसएचए के संसाधन उपयोग प्रोफ़ाइल में और सुधार करता है। हाइपरबैंड<ref>{{cite journal|last1=Li|first1=Lisha|last2=Jamieson|first2=Kevin|last3=DeSalvo|first3=Giulia|last4=Rostamizadeh|first4=Afshin|last5=Talwalkar|first5=Ameet|date=2020-03-16|title=Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization|journal=Journal of Machine Learning Research|volume=18|pages=1–52|arxiv=1603.06560}}</ref> उच्च स्तरीय अर्ली स्टॉपिंग-आधारित एल्गोरिथम है जो अधिक व्यापक रूप से लागू होने और कम आवश्यक इनपुट के साथ छंटाई आक्रामकता के विभिन्न स्तरों के साथ कई बार एसएचए या आशा को आमंत्रित करता है।


=== अन्य ===
=== अन्य ===
Line 135: Line 137:
== यह भी देखें ==
== यह भी देखें ==
* स्वचालित मशीन लर्निंग
* स्वचालित मशीन लर्निंग
* तंत्रिका वास्तुकला खोज
* तंत्रिका संरचना सर्च
* [[मेटा-ऑप्टिमाइज़ेशन]]
* [[मेटा-ऑप्टिमाइज़ेशन|मेटा-अनुकूलन]]
* [[मॉडल चयन]]
* [[मॉडल चयन|प्रारूप चयन]]
* [[स्व ट्यूनिंग]]
* [[स्व ट्यूनिंग]]
* एक्सजीबूस्ट
* एक्सजीबूस्ट

Revision as of 23:03, 29 March 2023

यंत्र अधिगम में हाइपरपैरामीटर अनुकूलन[1] या ट्यूनिंग लर्निंग एल्गोरिथम के लिए इष्टतम हाइपरपैरामीटर मशीन लर्निंग के लिए समुच्चय चुने जाने की प्रमुख समस्या है। हाइपरपैरामीटर ऐसा पैरामीटर है जिसका मान ज्ञात करने की प्रक्रिया को नियंत्रित करने के लिए इसका उपयोग किया जाता है। इसके विपरीत, अन्य मापदंडों के लिए सामान्यतः नोड भार के मान उपयोग किए जाते हैं।

एक ही प्रकार की मशीन लर्निंग के प्रारूप को अलग-अलग डेटा के प्रारूप को सामान्य बनाने के लिए अलग-अलग बाधाओं के लिए उसके भार या ज्ञात करने की दरों की आवश्यकता होती हैं। इन उपायों को हाइपरपरमेटर्स कहा जाता है, और इन्हें ट्यून करना पड़ता है जिससे कि प्रारूप मशीन लर्निंग की समस्या को उत्तम विधि से हल किया जा सके। हाइपरपैरामीटर अनुकूलन हाइपरपरमेटर्स का टपल ढूंढता है जो इष्टतम प्रारूप उत्पन्न करता है तथा जो दिए गए स्वतंत्र डेटा पर पूर्वनिर्धारित हानि से फलन को कम करता है।[2] ऑब्जेक्टिव फलन हाइपरपरमेटर्स का टपल लेता है और संबंधित हानि लौटाता है।[2]क्रॉस-वैलिडेशन (सांख्यिकी) या क्रॉस-वैलिडेशन का उपयोग अधिकांशतः इस सामान्यीकरण प्रदर्शन का अनुमान लगाने के लिए किया जाता है।[3]

दृष्टिकोण

दो हाइपरपैरामीटर के विभिन्न मानों में ग्रिड सर्च। प्रत्येक हाइपरपरमीटर के लिए, 10 अलग-अलग मानों पर विचार किया जाता है, इसलिए कुल 100 अलग-अलग संयोजनों का मूल्यांकन और तुलना की जाती है। नीले समोच्च मजबूत परिणामों वाले क्षेत्रों को दर्शाते हैं, जबकि लाल खराब परिणामों वाले क्षेत्रों को दर्शाते हैं।

ग्रिड सर्च

हाइपरपरमीटर अनुकूलन करने की पारंपरिक विधि ग्रिड सर्च या पैरामीटर स्वीप के द्वारा उपयोग की जाती है, जो लर्निंग एल्गोरिदम के हाइपरपेरामीटर स्पेस को पारंपरिक रूप से निर्दिष्ट उपसमुच्चय के माध्यम से केवल क्रूर-बल सर्च के रूप में उपयोग करता हैं। ग्रिड सर्च एल्गोरिथ्म को कुछ प्रदर्शन मीट्रिक द्वारा निर्देशित किया जाना चाहिए, जिसे सामान्यतः क्रॉस-सत्यापन (सांख्यिकी) द्वारा मापा जाता है। प्रशिक्षण समुच्चय पर क्रॉस-सत्यापन[4] या होल्ड-आउट सत्यापन समुच्चय पर मूल्यांकन करने के लिए उपयोग किया जाता हैं।[5]

चूंकि मशीन लर्निंग के पैरामीटर स्थान में कुछ मापदंडों के लिए वास्तविक-मूल्यवान या असीमित मान स्थान सम्मिलित हो सकते हैं, इस प्रकार ग्रिड सर्च को लागू करने से पहले पारंपरिक रूप से निर्धारित सीमा और विवेक की आवश्यक हो सकती हैं।

उदाहरण के लिए, रेडियल आधार फलन कर्नेल से लैस विशिष्ट सॉफ्ट-मार्जिन समर्थन वेक्टर यंत्र सांख्यिकीय वर्गीकरण में कम से कम दो हाइपरपैरामीटर होते हैं जिन्हें किसी डेटा पर अच्छे प्रदर्शन के लिए नियमितीकरण स्थिरांक C और कर्नेल हाइपरपैरामीटर γ द्वारा ट्यून करने की आवश्यकता होती है। दोनों पैरामीटर निरंतर उपयोग में रहते हैं, इसलिए ग्रिड सर्च करने के लिए, प्रत्येक के लिए उचित मूल्यों का सीमित समुच्चय चुनता है।

ग्रिड सर्च तब इन दो समुच्चयों के कार्टेशियन उत्पाद में प्रत्येक संयोजन (C, γ) के साथ एसवीएम को प्रशिक्षित करती है और आयोजित-आउट सत्यापन समुच्चय पर उनके प्रदर्शन का मूल्यांकन करती है (या प्रशिक्षण समुच्चय पर आंतरिक क्रॉस-सत्यापन द्वारा, जिस स्थिति में कई एसवीएम प्रति जोड़ी प्रशिक्षित हैं)। इस प्रकार अंत में, ग्रिड सर्च एल्गोरिदम उन समुच्चयिंग्स को आउटपुट करता है जो सत्यापन प्रक्रिया में उच्चतम स्कोर प्राप्त करते हैं।

ग्रिड सर्च आयामीता के अभिशाप से ग्रस्त है, लेकिन अधिकांशतः शर्मनाक रूप से समानांतर होती है क्योंकि इसके द्वारा मूल्यांकन की जाने वाली हाइपरपरमीटर समुच्चयिंग्स सामान्यतः दूसरे से स्वतंत्र होती हैं।[3]

दो हाइपरपैरामीटर के मानों के विभिन्न संयोजनों में यादृच्छिक सर्च। इस उदाहरण में, 100 विभिन्न यादृच्छिक विकल्पों का मूल्यांकन किया जाता है। हरी पट्टियां दर्शाती हैं कि ग्रिड सर्च की तुलना में प्रत्येक हाइपरपैरामीटर के लिए अधिक अलग-अलग मानों पर विचार किया जाता है।

यादृच्छिक सर्च

यादृच्छिक सर्च सभी संयोजनों की संपूर्ण गणना को यादृच्छिक रूप से चुनकर प्रतिस्थापित करती है। यह केवल ऊपर वर्णित असतत समुच्चयिंग पर लागू किया जा सकता है, लेकिन निरंतर और मिश्रित रिक्त स्थान के लिए भी सामान्यीकृत किया जा सकता है। यह ग्रिड सर्च से उत्तम प्रदर्शन कर सकता है, खासकर तब जब बहुत कम संख्या में हाइपरपैरामीटर मशीन लर्निंग एल्गोरिदम के अंतिम प्रदर्शन को प्रभावित करते हैं।[3] इस स्थिति में, अनुकूलन समस्या को कम आंतरिक आयाम कहा जाता है।[6] यादृच्छिक सर्च भी शर्मनाक रूप से समानांतर रहते हैं, और इसके अतिरिक्त वितरण को निर्दिष्ट करके पूर्व ज्ञान को सम्मिलित करने की अनुमति देता है जिससे इसके लिए प्रमाण लिया जा सके। इसकी सरलता के अतिरिक्त यादृच्छिक सर्च महत्वपूर्ण आधार-रेखाओं में से बनी हुई है जिसके विरुद्ध नए हाइपरपैरामीटर अनुकूलन विधियों के प्रदर्शन की तुलना की जा सकती है।

बायेसियन अनुकूलन जैसे तरीके पिछली टिप्पणियों के आधार पर अगले संयोजन का पता लगाने के लिए कौन सा संयोजन तय करके हाइपरपरमेटर्स के संभावित विकल्पों के स्थान का चालाकी से पता लगाते हैं।

बायेसियन अनुकूलन

बायेसियन अनुकूलन नॉइज़ ब्लैक-बॉक्स फलन के लिए वैश्विक अनुकूलन विधि है। हाइपरपैरामीटर अनुकूलन के लिए लागू होने वाले बायेसियन अनुकूलन फलन मैपिंग का संभाव्य प्रारूप बनाता है जो हाइपरपैरामीटर मानों से सत्यापन समुच्चय पर मूल्यांकन किए गए उद्देश्य के लिए होता है। वर्तमान प्रारूप के आधार पर सबसे उत्तम हाइपरपैरामीटर कॉन्फ़िगरेशन का पुनरावृत्त रूप से मूल्यांकन करके इसे अपडेट करने के पश्चात बायेसियन अनुकूलन का उद्देश्य इस फलन के बारे में और विशेष रूप से इष्टतम रूप के स्थान के बारे में अधिक से अधिक जानकारी प्रकट करने वाली टिप्पणियों को एकत्रित करना है। यह अन्वेषण हाइपरपैरामीटर के लिए परिणाम सबसे अनिश्चित है और शोषण (हाइपरपैरामीटर इष्टतम के समीप होने की उम्मीद) को संतुलित करने का प्रयास करता है। व्यवहार में बायेसियन अनुकूलन दिखाया गया है[7][8][9][10] ग्रिड सर्च और यादृच्छिक सर्च की तुलना में कम मूल्यांकन में उत्तम परिणाम प्राप्त करने के लिए, प्रयोगों को चलाने से पहले उनकी गुणवत्ता के बारे में तर्क करने की क्षमता के कारण हैं।

ग्रेडिएंट-आधारित अनुकूलन

विशिष्ट शिक्षण एल्गोरिदम के लिए, हाइपरपैरामीटर के संबंध में ग्रेडिएंट की गणना करना संभव है और फिर ढतला हुए क्रम का उपयोग करके हाइपरपैरामीटर का अनुकूलन करना आवश्यक होता हैं। इन विधियों का पहला उपयोग तंत्रिका नेटवर्क पर केंद्रित था।[11] इसके पश्चात इन विधियों को अन्य प्रारूपों या लॉजिस्टिक रिग्रेशन जैसे सपोर्ट वेक्टर मशीनों तक बढ़ा दिया गया है।[12] [13]

हाइपरपैरामीटर के संबंध में ढाल प्राप्त करने के लिए अलग दृष्टिकोण स्वचालित भेदभाव का उपयोग करके पुनरावृत्त अनुकूलन एल्गोरिदम के चरणों को अलग करने में होता है।[14][15][16][17] इस दिशा में और वर्तमान समय के अनुसार हाइपरग्रेडिएंट्स फंक्शन की गणना करने के लिए अंतर्निहित फलन प्रमेय का उपयोग करता है और उलटा हेस्सियन के स्थिर सन्निकटन का प्रस्ताव करता है। यह विधि लाखों हाइपरपैरामीटरों को मापती है और इसके लिए निरंतर मेमोरी की आवश्यकता होती है।

एक अलग दृष्टिकोण में,[18] हाइपरनेटवर्क को सर्वश्रेष्ठ प्रतिक्रिया फलन का अनुमान लगाने के लिए प्रशिक्षित किया जाता है। इस पद्धति के लाभ में से यह है कि यह असतत हाइपरपरमेटर्स को भी संभाल सकता है। स्व-ट्यूनिंग नेटवर्क[19] हाइपरनेटवर्क के लिए कॉम्पैक्ट प्रतिनिधित्व चुनकर इस दृष्टिकोण का स्मृति कुशल संस्करण प्रदान करता हैं। अभी हाल ही में Δ-STN[20] हाइपरनेटवर्क के थोड़े पुनर्मूल्यांकन द्वारा इस पद्धति में और सुधार किया है जो प्रशिक्षण को गति देता है। Δ-STN भी वज़न में नेटवर्क को रेखीयकृत करके सर्वोत्तम-प्रतिक्रिया वाले जेकोबियन का उत्तम सन्निकटन प्राप्त करता है, इसलिए वज़न में बड़े परिवर्तनों के अनावश्यक अरैखिक प्रभावों को दूर करता है।

हाइपरनेटवर्क दृष्टिकोण के अलावा, ग्रेडिएंट-आधारित विधियों का उपयोग असतत हाइपरपैरामीटर को भी मापदंडों की निरंतर छूट को अपनाकर अनुकूलित करने के लिए किया जा सकता है।[21] इस प्रकार के तरीकों का व्यापक रूप से तंत्रिका संरचना सर्च में संरचना हाइपरपैरामीटर के अनुकूलन के लिए उपयोग किया गया है।

विकासवादी अनुकूलन

विकासवादी अनुकूलन ध्वनि वाले ब्लैक-बॉक्स कार्यों के वैश्विक अनुकूलन के लिए पद्धति है। हाइपरपैरामीटर अनुकूलन में, विकासवादी अनुकूलन किसी दिए गए एल्गोरिथम के लिए हाइपरपैरामीटर के स्थान की सर्च करने के लिए विकासवादी एल्गोरिदम का उपयोग करता है।[8] इवोल्यूशनरी हाइपरपैरामीटर अनुकूलन एवोल्यूशनरी एल्गोरिथम का अनुसरण करता है इस प्रकार विकास की जैविक अवधारणा से प्रेरित कार्यान्वयन इस प्रकार हैं:

  1. यादृच्छिक समाधानों की प्रारंभिक आबादी बनाएं (अर्ताथ विभिन्न तरीकों से हाइपरपरमेटर्स के टुपल्स उत्पन्न करें, जिनकी गिनती सामान्यतः 100+ होती हैं)
  2. हाइपरपैरामीटर टुपल्स का मूल्यांकन करें और उनके फिटनेस कार्य को प्राप्त करें (उदाहरण के लिए, सांख्यिकी में 10-गुना क्रॉस-सत्यापन या उन हाइपरपैरामीटर के साथ मशीन लर्निंग एल्गोरिदम की क्रॉस-सत्यापन सटीकता को प्रकट करता हैं।
  3. हाइपरपैरामीटर टुपल्स को उनकी सापेक्ष फिटनेस के आधार पर रैंक किया जाता हैं।
  4. क्रॉसओवर (जेनेटिक एल्गोरिथम) और म्यूटेशन (जेनेटिक एल्गोरिथम) के माध्यम से उत्पन्न होने वाले नए हाइपरपरमीटर ट्यूपल्स के साथ सबसे बुरे प्रदर्शन करने वाले हाइपरपैरामीटर ट्यूपल्स के रूप में परिवर्तित किया जाता हैं।
  5. चरण 2-4 को तब तक दोहराएं जब तक कि एल्गोरिदम प्रदर्शन संतोषजनक न हो जाए या एल्गोरिदम प्रदर्शन में सुधार नहीं होता हैं।

सांख्यिकीय मशीन लर्निंग एल्गोरिदम के लिए हाइपरपरमीटर अनुकूलन में इवोल्यूशनरी अनुकूलन का उपयोग किया जाता हैं,[8]स्वचालित मशीन लर्निंग, विशिष्ट तंत्रिका नेटवर्क [22] और डीप लर्निंग डीप न्यूरल नेटवर्क संरचना सर्च,[23][24] साथ ही गहरे तंत्रिका नेटवर्क में भार का प्रशिक्षण किया जाता हैं।[25]

जनसंख्या आधारित

जनसंख्या आधारित प्रशिक्षण (PBT) हाइपरपैरामीटर मान और नेटवर्क भार दोनों सीखता है। अलग-अलग हाइपरपरमेटर्स का उपयोग करते हुए, कई लर्निंग की प्रक्रियाएँ स्वतंत्र रूप से संचालित होती हैं। विकासवादी विधियों की तरह, खराब प्रदर्शन करने वाले प्रारूप को पुनरावृत्त रूप से उन प्रारूपों से परिवर्तित कर दिया जाता है जो उत्तम प्रदर्शन करने वालों के आधार पर संशोधित हाइपरपैरामीटर मान और भार अपनाते हैं। यह प्रतिस्थापन प्रारूप वार्म स्टार्टिंग पीबीटी और अन्य विकासवादी विधियों के बीच प्राथमिक अंतर है। पीबीटी इस प्रकार हाइपरपरमेटर्स को विकसित करने की अनुमति देता है और पारंपरिक हाइपरट्यूनिंग की आवश्यकता को समाप्त करता है। प्रक्रिया प्रारूप संरचना, हानि कार्यों या प्रशिक्षण प्रक्रियाओं के बारे में कोई धारणा नहीं बनाती है।

पीबीटी और इसके वेरिएंट अनुकूलतम विधि हैं: वे प्रारूप के प्रशिक्षण के दौरान हाइपरपरमेटर्स को अपडेट करते हैं। इसके विपरीत गैर-अनुकूली विधियों में पूरे प्रशिक्षण के लिए हाइपरपरमेटर्स के निरंतर समुच्चय को असाइन करने के लिए उप-इष्टतम रणनीति होती है।[26]

प्रारंभिक रोक-आधारित

प्रारंभिक रोक आधारित हाइपरपैरामीटर अनुकूलन एल्गोरिदम का वर्ग निरंतर और असतत हाइपरपैरामीटर के बड़े सर्च स्थानों के लिए बनाया गया है, मुख्य रूप से जब हाइपरपैरामीटर के समुच्चय के प्रदर्शन का मूल्यांकन करने के लिए कम्प्यूटेशनल लागत अधिक है। इरेस पुनरावृत्त रेसिंग एल्गोरिथ्म को लागू करता है, जो खराब प्रदर्शन करने वालों को छोड़ने के लिए सांख्यिकीय परीक्षणों का उपयोग करते हुए, सबसे आशाजनक कॉन्फ़िगरेशन के आसपास सर्च को केंद्रित करता है।[27][28]

एक और प्रारंभिक रोक हाइपरपैरामीटर अनुकूलन एल्गोरिथम क्रमिक पड़ाव (एसएचए) है,[29] जो यादृच्छिक सर्च के रूप में प्रारंभ होता है लेकिन समय-समय पर कम प्रदर्शन वाले प्रारूप को कम करता है, जिससे अधिक आशाजनक प्रारूप पर कम्प्यूटेशनल संसाधनों पर ध्यान केंद्रित किया जाता है। अतुल्यकालिक क्रमिक आधान (आशा)[30] कम प्रदर्शन करने वाले प्रारूपों का समकालिक रूप से मूल्यांकन और छँटाई करने की आवश्यकता को हटाकर एसएचए के संसाधन उपयोग प्रोफ़ाइल में और सुधार करता है। हाइपरबैंड[31] उच्च स्तरीय अर्ली स्टॉपिंग-आधारित एल्गोरिथम है जो अधिक व्यापक रूप से लागू होने और कम आवश्यक इनपुट के साथ छंटाई आक्रामकता के विभिन्न स्तरों के साथ कई बार एसएचए या आशा को आमंत्रित करता है।

अन्य

चमकीले आधार की क्रिया[32] और वर्णक्रमीय विधि[33] दृष्टिकोण भी विकसित किए हैं।

यह भी देखें

संदर्भ

  1. Matthias Feurer and Frank Hutter. Hyperparameter optimization. In: AutoML: Methods, Systems, Challenges, pages 3–38.
  2. 2.0 2.1 Claesen, Marc; Bart De Moor (2015). "मशीन लर्निंग में हाइपरपैरामीटर खोज". arXiv:1502.02127 [cs.LG].
  3. 3.0 3.1 3.2 Bergstra, James; Bengio, Yoshua (2012). "हाइपर-पैरामीटर अनुकूलन के लिए यादृच्छिक खोज" (PDF). Journal of Machine Learning Research. 13: 281–305.
  4. Chin-Wei Hsu, Chih-Chung Chang and Chih-Jen Lin (2010). A practical guide to support vector classification. Technical Report, National Taiwan University.
  5. Chicco D (December 2017). "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
  6. Ziyu, Wang; Frank, Hutter; Masrour, Zoghi; David, Matheson; Nando, de Feitas (2016). "रैंडम एम्बेडिंग के माध्यम से एक अरब आयामों में बायेसियन अनुकूलन". Journal of Artificial Intelligence Research (in English). 55: 361–387. arXiv:1301.1942. doi:10.1613/jair.4806. S2CID 279236.
  7. Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2011), "Sequential model-based optimization for general algorithm configuration" (PDF), Learning and Intelligent Optimization, Lecture Notes in Computer Science, 6683: 507–523, CiteSeerX 10.1.1.307.8813, doi:10.1007/978-3-642-25566-3_40, ISBN 978-3-642-25565-6
  8. 8.0 8.1 8.2 Bergstra, James; Bardenet, Remi; Bengio, Yoshua; Kegl, Balazs (2011), "Algorithms for hyper-parameter optimization" (PDF), Advances in Neural Information Processing Systems
  9. Snoek, Jasper; Larochelle, Hugo; Adams, Ryan (2012). "Practical Bayesian Optimization of Machine Learning Algorithms" (PDF). Advances in Neural Information Processing Systems. arXiv:1206.2944. Bibcode:2012arXiv1206.2944S.
  10. Thornton, Chris; Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2013). "Auto-WEKA: Combined selection and hyperparameter optimization of classification algorithms" (PDF). Knowledge Discovery and Data Mining. arXiv:1208.3719. Bibcode:2012arXiv1208.3719T.
  11. Larsen, Jan; Hansen, Lars Kai; Svarer, Claus; Ohlsson, M (1996). "Design and regularization of neural networks: the optimal use of a validation set" (PDF). Proceedings of the 1996 IEEE Signal Processing Society Workshop: 62–71. CiteSeerX 10.1.1.415.3266. doi:10.1109/NNSP.1996.548336. ISBN 0-7803-3550-3. S2CID 238874.
  12. Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "वेक्टर मशीनों का समर्थन करने के लिए कई पैरामीटर चुनना" (PDF). Machine Learning. 46: 131–159. doi:10.1023/a:1012450327387.
  13. Chuong B; Chuan-Sheng Foo; Andrew Y Ng (2008). "लॉग-लीनियर मॉडल के लिए कुशल मल्टीपल हाइपरपैरामीटर लर्निंग" (PDF). Advances in Neural Information Processing Systems. 20.
  14. Domke, Justin (2012). "अनुकूलन-आधारित मॉडलिंग के लिए सामान्य तरीके" (PDF). Aistats. 22. Archived from the original (PDF) on 2014-01-24. Retrieved 2017-12-09.
  15. Maclaurin, Douglas; Duvenaud, David; Adams, Ryan P. (2015). "प्रतिवर्ती शिक्षण के माध्यम से ग्रेडिएंट-आधारित हाइपरपैरामीटर अनुकूलन". arXiv:1502.03492 [stat.ML].
  16. Franceschi, Luca; Donini, Michele; Frasconi, Paolo; Pontil, Massimiliano (2017). "फॉरवर्ड और रिवर्स ग्रेडिएंट-आधारित हाइपरपैरामीटर ऑप्टिमाइज़ेशन" (PDF). Proceedings of the 34th International Conference on Machine Learning. arXiv:1703.01785. Bibcode:2017arXiv170301785F.
  17. Shaban, A., Cheng, C. A., Hatch, N., & Boots, B. (2019, April). Truncated back-propagation for bilevel optimization. In The 22nd International Conference on Artificial Intelligence and Statistics (pp. 1723-1732). PMLR.
  18. Lorraine, J., & Duvenaud, D. (2018). Stochastic hyperparameter optimization through hypernetworks. arXiv preprint arXiv:1802.09419.
  19. MacKay, M., Vicol, P., Lorraine, J., Duvenaud, D., & Grosse, R. (2019). Self-tuning networks: Bilevel optimization of hyperparameters using structured best-response functions. arXiv preprint arXiv:1903.03088.
  20. Bae, J., & Grosse, R. B. (2020). Delta-stn: Efficient bilevel optimization for neural networks using structured response jacobians. Advances in Neural Information Processing Systems, 33, 21725-21737.
  21. Liu, H., Simonyan, K., & Yang, Y. (2018). Darts: Differentiable architecture search. arXiv preprint arXiv:1806.09055.
  22. Kousiouris G, Cuccinotta T, Varvarigou T (2011). "वर्चुअल मशीन के प्रदर्शन पर शेड्यूलिंग, कार्यभार प्रकार और समेकन परिदृश्यों के प्रभाव और अनुकूलित कृत्रिम तंत्रिका नेटवर्क के माध्यम से उनकी भविष्यवाणी". Journal of Systems and Software. 84 (8): 1270–1291. doi:10.1016/j.jss.2011.04.013. hdl:11382/361472.
  23. Miikkulainen R, Liang J, Meyerson E, Rawal A, Fink D, Francon O, Raju B, Shahrzad H, Navruzyan A, Duffy N, Hodjat B (2017). "डीप न्यूरल नेटवर्क का विकास". arXiv:1703.00548 [cs.NE].
  24. Jaderberg M, Dalibard V, Osindero S, Czarnecki WM, Donahue J, Razavi A, Vinyals O, Green T, Dunning I, Simonyan K, Fernando C, Kavukcuoglu K (2017). "तंत्रिका नेटवर्क का जनसंख्या आधारित प्रशिक्षण". arXiv:1711.09846 [cs.LG].
  25. Such FP, Madhavan V, Conti E, Lehman J, Stanley KO, Clune J (2017). "Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning". arXiv:1712.06567 [cs.NE].
  26. Li, Ang; Spyra, Ola; Perel, Sagi; Dalibard, Valentin; Jaderberg, Max; Gu, Chenjie; Budden, David; Harley, Tim; Gupta, Pramod (2019-02-05). "जनसंख्या आधारित प्रशिक्षण के लिए एक सामान्यीकृत ढांचा". arXiv:1902.01894 [cs.AI].
  27. López-Ibáñez, Manuel; Dubois-Lacoste, Jérémie; Pérez Cáceres, Leslie; Stützle, Thomas; Birattari, Mauro (2016). "The irace package: Iterated Racing for Automatic Algorithm Configuration". Operations Research Perspective. 3 (3): 43–58. doi:10.1016/j.orp.2016.09.002.
  28. Birattari, Mauro; Stützle, Thomas; Paquete, Luis; Varrentrapp, Klaus (2002). "मेटाह्यूरिस्टिक्स को कॉन्फ़िगर करने के लिए एक रेसिंग एल्गोरिथम". Gecco 2002: 11–18.
  29. Jamieson, Kevin; Talwalkar, Ameet (2015-02-27). "नॉन-स्टोकेस्टिक बेस्ट आर्म आइडेंटिफिकेशन और हाइपरपैरामीटर ऑप्टिमाइजेशन". arXiv:1502.07943 [cs.LG].
  30. Li, Liam; Jamieson, Kevin; Rostamizadeh, Afshin; Gonina, Ekaterina; Hardt, Moritz; Recht, Benjamin; Talwalkar, Ameet (2020-03-16). "बड़े पैमाने पर समानांतर हाइपरपैरामीटर ट्यूनिंग के लिए एक प्रणाली". arXiv:1810.05934v5 [cs.LG].
  31. Li, Lisha; Jamieson, Kevin; DeSalvo, Giulia; Rostamizadeh, Afshin; Talwalkar, Ameet (2020-03-16). "Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization". Journal of Machine Learning Research. 18: 1–52. arXiv:1603.06560.
  32. Diaz, Gonzalo; Fokoue, Achille; Nannicini, Giacomo; Samulowitz, Horst (2017). "तंत्रिका नेटवर्क के हाइपरपरमीटर अनुकूलन के लिए एक प्रभावी एल्गोरिदम". arXiv:1705.08520 [cs.AI].
  33. Hazan, Elad; Klivans, Adam; Yuan, Yang (2017). "Hyperparameter Optimization: A Spectral Approach". arXiv:1706.00764 [cs.LG].