हाइपरपैरामीटर (मशीन लर्निंग): Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(7 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Parameter controlling the machine learning process}}
{{Short description|Parameter controlling the machine learning process}}
{{distinguish|Hyperparameter (Bayesian)}}
{{distinguish|हाइपरपैरामीटर (बायेसियन)}}


[[ यंत्र अधिगम | यंत्र अधिगम]] में, हाइपर[[पैरामीटर]] पैरामीटर है जिसका मूल्य सीखने की प्रक्रिया को नियंत्रित करने के लिए उपयोग किया जाता है। इसके विपरीत, अन्य मापदंडों (आमतौर पर नोड भार) के मान प्रशिक्षण के माध्यम से प्राप्त किए जाते हैं।
[[ यंत्र अधिगम | '''मशीन लर्निंग''']] '''में, हाइपर[[पैरामीटर]]''' एक पैरामीटर है जिसका मान सीखने की प्रक्रिया को नियंत्रित करने के लिए उपयोग किया जाता है। इसके विपरीत, अन्य मापदंडों (सामान्यतः नोड वेट) के मान प्रशिक्षण के माध्यम से प्राप्त किए जाते हैं।


हाइपरपैरामीटर को मॉडल हाइपरपैरामीटर के रूप में वर्गीकृत किया जा सकता है, जिसका अनुमान [[मॉडल फिटिंग]] के दौरान नहीं लगाया जा सकता क्योंकि वे [[मॉडल चयन]] कार्य, या एल्गोरिदम हाइपरपैरामीटर को संदर्भित करते हैं, जो सिद्धांत रूप में मॉडल के प्रदर्शन पर कोई प्रभाव नहीं डालते हैं लेकिन सीखने की प्रक्रिया की गति और गुणवत्ता को प्रभावित करते हैं। मॉडल हाइपरपैरामीटर का उदाहरण तंत्रिका नेटवर्क की टोपोलॉजी और आकार है। एल्गोरिदम हाइपरपैरामीटर के उदाहरण [[सीखने की दर]] और बैच आकार के साथ-साथ मिनी-बैच आकार हैं। बैच आकार पूर्ण डेटा नमूने को संदर्भित कर सकता है जहां मिनी-बैच आकार छोटा नमूना सेट होगा।
इस प्रकार से हाइपरपैरामीटर को मॉडल हाइपरपैरामीटर के रूप में वर्गीकृत किया जा सकता है, जिसका अनुमान [[मॉडल फिटिंग]] के समय नहीं लगाया जा सकता क्योंकिवह [[मॉडल चयन|मॉडल सिलेक्शन]] कार्य, या एल्गोरिदम हाइपरपैरामीटर को संदर्भित करते हैं, जो की सिद्धांत रूप में मॉडल के प्रदर्शन पर कोई प्रभाव नहीं डालते हैं किन्तु सीखने की प्रक्रिया की गति और गुणवत्ता को प्रभावित करते हैं। अतः मॉडल हाइपरपैरामीटर का उदाहरण न्यूरल नेटवर्क और टोपोलॉजी आकार है। इस प्रकार से एल्गोरिदम हाइपरपैरामीटर के उदाहरण [[सीखने की दर|लर्निंग रेट]] और बैच आकार के साथ-साथ मिनी-बैच आकार हैं। अतः बैच आकार पूर्ण डेटा नमूने को संदर्भित कर सकता है जहां मिनी-बैच आकार छोटा नमूना सेट है।


विभिन्न मॉडल प्रशिक्षण एल्गोरिदम को अलग-अलग हाइपरपैरामीटर की आवश्यकता होती है, कुछ सरल एल्गोरिदम (जैसे सामान्य न्यूनतम वर्ग प्रतिगमन) को किसी की आवश्यकता नहीं होती है। इन हाइपरपैरामीटरों को देखते हुए, प्रशिक्षण एल्गोरिदम डेटा से पैरामीटर सीखता है। उदाहरण के लिए, [[LASSO]] एल्गोरिथ्म है जो साधारण न्यूनतम वर्ग प्रतिगमन में [[नियमितीकरण (गणित)]] हाइपरपैरामीटर जोड़ता है, जिसे प्रशिक्षण एल्गोरिदम के माध्यम से मापदंडों का अनुमान लगाने से पहले सेट करना होता है।<ref>{{Cite journal |last1=Yang |first1=Li |last2=Shami |first2=Abdallah |date=2020-11-20 |title=On hyperparameter optimization of machine learning algorithms: Theory and practice |url=https://www.sciencedirect.com/science/article/pii/S0925231220311693 |journal=Neurocomputing |language=en |volume=415 |pages=295–316 |doi=10.1016/j.neucom.2020.07.061 |arxiv=2007.15745 |s2cid=220919678 |issn=0925-2312}}</ref>
किन्तु विभिन्न मॉडल प्रशिक्षण एल्गोरिदम को भिन्न-भिन्न हाइपरपैरामीटर की आवश्यकता होती है, और कुछ सरल एल्गोरिदम (जैसे सामान्य न्यूनतम वर्ग प्रतिगमन) को किसी की आवश्यकता नहीं होती है। इन हाइपरपैरामीटरों को देखते हुए, प्रशिक्षण एल्गोरिदम डेटा से पैरामीटर सीखता है। अतः उदाहरण के लिए, [[LASSO|लैस्सो]] एल्गोरिथ्म है जो की साधारण न्यूनतम वर्ग प्रतिगमन में [[नियमितीकरण (गणित)|रेगुलरिज़तिओन (गणित)]] हाइपरपैरामीटर जोड़ता है, जिसे प्रशिक्षण एल्गोरिदम के माध्यम से मापदंडों का अनुमान लगाने से पहले सेट करना होता है।<ref>{{Cite journal |last1=Yang |first1=Li |last2=Shami |first2=Abdallah |date=2020-11-20 |title=On hyperparameter optimization of machine learning algorithms: Theory and practice |url=https://www.sciencedirect.com/science/article/pii/S0925231220311693 |journal=Neurocomputing |language=en |volume=415 |pages=295–316 |doi=10.1016/j.neucom.2020.07.061 |arxiv=2007.15745 |s2cid=220919678 |issn=0925-2312}}</ref>
== विचार ==
== विचार ==
किसी मॉडल को प्रशिक्षित करने और परीक्षण करने में लगने वाला समय उसके हाइपरपैरामीटर की पसंद पर निर्भर हो सकता है।<ref name=abs1502.02127>{{cite news |arxiv=1502.02127 |title=Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).|bibcode=2015arXiv150202127C}}</ref> हाइपरपैरामीटर आमतौर पर निरंतर या पूर्णांक प्रकार का होता है, जिससे मिश्रित-प्रकार की अनुकूलन समस्याएं पैदा होती हैं।<ref name=abs1502.02127/> कुछ हाइपरपैरामीटर का अस्तित्व दूसरों के मूल्य पर निर्भर है, उदाहरण के लिए। तंत्रिका नेटवर्क में प्रत्येक छिपी हुई परत का आकार परतों की संख्या पर निर्भर हो सकता है।<ref name=abs1502.02127/>
इस प्रकार से किसी मॉडल को प्रशिक्षित करने और परीक्षण करने में लगने वाला समय उसके हाइपरपैरामीटर की विकल्प पर निर्भर हो सकता है।<ref name=abs1502.02127>{{cite news |arxiv=1502.02127 |title=Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).|bibcode=2015arXiv150202127C}}</ref> किन्तु हाइपरपैरामीटर सामान्यतः निरंतर या पूर्णांक प्रकार का होता है, जिससे मिश्रित-प्रकार की अनुकूलन समस्याएं उत्पन्न होती हैं।<ref name=abs1502.02127/> कुछ हाइपरपैरामीटर का अस्तित्व दूसरों के मान पर निर्भर करती है, उदाहरण के लिए न्यूरल नेटवर्क में प्रत्येक छिपी हुई परत का आकार परतों की संख्या पर निर्भर हो सकता है।<ref name=abs1502.02127/>
=== सीखने योग्य पैरामीटर में कठिनाई ===
=== शिक्षित पैरामीटर में विपत्ति ===


आमतौर पर, लेकिन हमेशा नहीं, हाइपरपैरामीटर को प्रसिद्ध ग्रेडिएंट आधारित तरीकों (जैसे ग्रेडिएंट डिसेंट, एलबीएफजीएस) का उपयोग करके नहीं सीखा जा सकता है - जो आमतौर पर पैरामीटर सीखने के लिए नियोजित होते हैं। ये हाइपरपैरामीटर मॉडल प्रतिनिधित्व का वर्णन करने वाले वे पैरामीटर हैं जिन्हें सामान्य अनुकूलन विधियों द्वारा नहीं सीखा जा सकता है लेकिन फिर भी हानि फ़ंक्शन को प्रभावित करते हैं। उदाहरण समर्थन वेक्टर मशीनों में त्रुटियों के लिए सहिष्णुता हाइपरपैरामीटर होगा।
सामान्यतः, किन्तु सदैव नहीं, हाइपरपैरामीटर को प्रसिद्ध ग्रेडिएंट आधारित विधियो (जैसे ग्रेडिएंट डिसेंट, एलबीएफजीएस) का उपयोग करके नहीं सीखा जा सकता है - जो सामान्यतः पैरामीटर सीखने के लिए नियोजित होते हैं। ये हाइपरपैरामीटर मॉडल प्रतिनिधित्व का वर्णन करने वालेवह पैरामीटर हैं जिन्हें सामान्य अनुकूलन विधियों द्वारा नहीं सीखा जा सकता है किन्तु फिर भी लॉस फ़ंक्शन को प्रभावित करते हैं। अतः उदाहरण समर्थन सदिश मशीनों में त्रुटियों के लिए सहिष्णुता हाइपरपैरामीटर है।


=== अप्रशिक्षित पैरामीटर ===
=== अप्रशिक्षित पैरामीटर ===


कभी-कभी, हाइपरपैरामीटर को प्रशिक्षण डेटा से नहीं सीखा जा सकता है क्योंकि वे आक्रामक रूप से मॉडल की क्षमता को बढ़ाते हैं और डेटा में संरचना की समृद्धि को सही ढंग से मैप करने के विपरीत, हानि फ़ंक्शन को अवांछित न्यूनतम (डेटा में ओवरफिटिंग और शोर उठाना) तक धकेल सकते हैं। उदाहरण के लिए, यदि हम प्रतिगमन मॉडल में फिट होने वाले बहुपद समीकरण की डिग्री को [[प्रशिक्षण योग्य पैरामीटर]] के रूप में मानते हैं, तो डिग्री तब तक बढ़ जाएगी जब तक कि मॉडल पूरी तरह से डेटा में फिट न हो जाए, कम प्रशिक्षण त्रुटि उत्पन्न होगी, लेकिन खराब सामान्यीकरण प्रदर्शन होगा।
इस प्रकार से कभी-कभी, हाइपरपैरामीटर को प्रशिक्षण डेटा से नहीं सीखा जा सकता है क्योंकिवह आक्रामक रूप से मॉडल की क्षमता को बढ़ाते हैं और डेटा स्ट्रुकचर की समृद्धि को उचित रूप से मैप करने के विपरीत, लॉस फ़ंक्शन को अवांछित न्यूनतम (ओवरफ़िटिंग करना, और डेटा में नॉइज़ उठाना) तक प्रेरित करना हैं। अतः उदाहरण के लिए, यदि हम प्रतिगमन मॉडल में फिट होने वाले बहुपद समीकरण की डिग्री को [[प्रशिक्षण योग्य पैरामीटर|ट्रेनेबल पैरामीटर]] के रूप में मानते हैं, तो डिग्री तब तक बढ़ जाएगी जब तक कि मॉडल पूर्ण रूप से डेटा में फिट न हो जाए, और कम प्रशिक्षण त्रुटि उत्पन्न होगी, किन्तु पुअर गेनेरालिज़तिओन प्रदर्शन करता है।


=== ट्यूनेबिलिटी ===
=== ट्यूनेबिलिटी ===
अधिकांश प्रदर्शन भिन्नता को केवल कुछ हाइपरपैरामीटर के कारण जिम्मेदार ठहराया जा सकता है।<ref name=hutter14>{{Cite journal|url=http://proceedings.mlr.press/v32/hutter14.html|title=हाइपरपैरामीटर महत्व का आकलन करने के लिए एक कुशल दृष्टिकोण|first1=Kevin|last1=Leyton-Brown|first2=Holger|last2=Hoos|first3=Frank|last3=Hutter|date=January 27, 2014|pages=754–762|via=proceedings.mlr.press}}</ref><ref name=abs1502.02127/><ref name=abs1710.04725>{{cite news |arxiv=1710.04725 |title=van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017).|bibcode=2017arXiv171004725V}}</ref> किसी एल्गोरिदम, हाइपरपैरामीटर, या इंटरैक्टिंग हाइपरपैरामीटर की ट्यूनेबिलिटी इस बात का माप है कि इसे ट्यून करके कितना प्रदर्शन प्राप्त किया जा सकता है।<ref name=arXiv:1802.09596>{{cite news |arxiv=1802.09596 |title=Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018).|bibcode=2018arXiv180209596P}}</ref> लंबी अवधि की मेमोरी के लिए, जबकि नेटवर्क आकार के बाद सीखने की दर इसके सबसे महत्वपूर्ण हाइपरपैरामीटर हैं,<ref name=pmid27411231>{{Cite journal|title=LSTM: A Search Space Odyssey|first1=K.|last1=Greff|first2=R. K.|last2=Srivastava|first3=J.|last3=Koutník|first4=B. R.|last4=Steunebrink|first5=J.|last5=Schmidhuber|date=October 23, 2017|journal=IEEE Transactions on Neural Networks and Learning Systems|volume=28|issue=10|pages=2222–2232|doi=10.1109/TNNLS.2016.2582924|pmid=27411231|arxiv=1503.04069|s2cid=3356463}}</ref> बैचिंग और गति का इसके प्रदर्शन पर कोई महत्वपूर्ण प्रभाव नहीं पड़ता है।<ref name=abs1508.02774>{{cite news |arxiv=1508.02774 |title=Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015).|bibcode=2015arXiv150802774B}}</ref>
इस प्रकार से अधिकांश प्रदर्शन भिन्नता को केवल कुछ हाइपरपैरामीटर के कारण उत्तरदायी ठहराया जा सकता है।<ref name=hutter14>{{Cite journal|url=http://proceedings.mlr.press/v32/hutter14.html|title=हाइपरपैरामीटर महत्व का आकलन करने के लिए एक कुशल दृष्टिकोण|first1=Kevin|last1=Leyton-Brown|first2=Holger|last2=Hoos|first3=Frank|last3=Hutter|date=January 27, 2014|pages=754–762|via=proceedings.mlr.press}}</ref><ref name=abs1502.02127/><ref name=abs1710.04725>{{cite news |arxiv=1710.04725 |title=van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017).|bibcode=2017arXiv171004725V}}</ref> अर्थात किसी एल्गोरिदम, हाइपरपैरामीटर, या इंटरैक्टिंग हाइपरपैरामीटर की ट्यूनेबिलिटी इस तथ्य का माप है कि इसे ट्यून करके कितना प्रदर्शन प्राप्त किया जा सकता है।<ref name=arXiv:1802.09596>{{cite news |arxiv=1802.09596 |title=Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018).|bibcode=2018arXiv180209596P}}</ref> अतः दीर्घ अवधि की मेमोरी के लिए, जबकि नेटवर्क आकार के पश्चात सीखने की दर इसके अधिक महत्वपूर्ण हाइपरपैरामीटर हैं,<ref name=pmid27411231>{{Cite journal|title=LSTM: A Search Space Odyssey|first1=K.|last1=Greff|first2=R. K.|last2=Srivastava|first3=J.|last3=Koutník|first4=B. R.|last4=Steunebrink|first5=J.|last5=Schmidhuber|date=October 23, 2017|journal=IEEE Transactions on Neural Networks and Learning Systems|volume=28|issue=10|pages=2222–2232|doi=10.1109/TNNLS.2016.2582924|pmid=27411231|arxiv=1503.04069|s2cid=3356463}}</ref> किन्तु बैचिंग और गति का इसके प्रदर्शन पर कोई महत्वपूर्ण प्रभाव नहीं पड़ता है।<ref name=abs1508.02774>{{cite news |arxiv=1508.02774 |title=Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015).|bibcode=2015arXiv150802774B}}</ref>
हालाँकि कुछ शोधों ने हजारों की संख्या में मिनी-बैच आकारों के उपयोग की वकालत की है, अन्य कार्यों में 2 और 32 के बीच मिनी-बैच आकारों के साथ सबसे अच्छा प्रदर्शन पाया गया है।<ref name=arXiv:1804.07612>{{cite news |arxiv=1804.07612 |title=Revisiting Small Batch Training for Deep Neural Networks (2018).|bibcode=2018arXiv180407612M}}</ref>
=== मजबूती ===
सीखने में अंतर्निहित स्टोचैस्टिसिटी का सीधा तात्पर्य यह है कि अनुभवजन्य हाइपरपैरामीटर प्रदर्शन आवश्यक रूप से इसका वास्तविक प्रदर्शन नहीं है।<ref name=abs1502.02127/> वे विधियां जो हाइपरपैरामीटर, [[यादृच्छिक बीज]], या यहां तक ​​कि ही एल्गोरिदम के विभिन्न कार्यान्वयनों में सरल परिवर्तनों के लिए [[मजबूती (कंप्यूटर विज्ञान)]] नहीं हैं, उन्हें महत्वपूर्ण सरलीकरण और सुदृढ़ीकरण के बिना मिशन महत्वपूर्ण नियंत्रण प्रणालियों में एकीकृत नहीं किया जा सकता है।<ref name=arXiv:1803.07055>{{cite news |arxiv=1803.07055 |title=Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018).|bibcode=2018arXiv180307055M}}</ref>


सुदृढीकरण सीखने के एल्गोरिदम को, विशेष रूप से, बड़ी संख्या में यादृच्छिक बीजों पर उनके प्रदर्शन को मापने की आवश्यकता होती है, और हाइपरपैरामीटर के विकल्पों के प्रति उनकी संवेदनशीलता को मापने की भी आवश्यकता होती है।<ref name="arXiv:1803.07055" />कम संख्या में यादृच्छिक बीजों के साथ उनका मूल्यांकन उच्च भिन्नता के कारण प्रदर्शन को पर्याप्त रूप से कैप्चर नहीं कर पाता है।<ref name="arXiv:1803.07055" /> कुछ सुदृढीकरण सीखने की विधियाँ, उदा. डीडीपीजी (डीप डिटरमिनिस्टिक पॉलिसी ग्रेडिएंट), दूसरों की तुलना में हाइपरपैरामीटर विकल्पों के प्रति अधिक संवेदनशील हैं।<ref name="arXiv:1803.07055" />
चूंकि कुछ रिसर्च ने हजारों की संख्या में मिनी-बैच आकारों के उपयोग की वकालत की है, अन्य कार्यों में 2 और 32 के मध्य मिनी-बैच आकारों के साथ अधिक उचित प्रदर्शन पाया गया है।<ref name="arXiv:1804.07612">{{cite news |arxiv=1804.07612 |title=Revisiting Small Batch Training for Deep Neural Networks (2018).|bibcode=2018arXiv180407612M}}</ref>
=== रोबुस्टनेस ===
सीखने में अंतर्निहित स्टोचैस्टिसिटी का सीधा तात्पर्य यह है कि अनुभवजन्य हाइपरपैरामीटर प्रदर्शन आवश्यक रूप से इसका वास्तविक प्रदर्शन नहीं है।<ref name=abs1502.02127/> वह विधियां जो हाइपरपैरामीटर, [[यादृच्छिक बीज|रैंडम सीड्स]], या यहां तक ​​कि ही एल्गोरिदम के विभिन्न कार्यान्वयनों में सरल परिवर्तनों के लिए [[मजबूती (कंप्यूटर विज्ञान)|रोबुस्टनेस (कंप्यूटर साइंस)]] नहीं हैं, उन्हें महत्वपूर्ण सरलीकरण और सुदृढ़ीकरण के बिना मिशन क्रिटिकल कंट्रोल सिस्टम में एकीकृत नहीं किया जा सकता है।<ref name=arXiv:1803.07055>{{cite news |arxiv=1803.07055 |title=Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018).|bibcode=2018arXiv180307055M}}</ref>
 
रिइंफोर्समेंट लर्निंग के एल्गोरिदम को, विशेष रूप से, उच्च संख्या में रैंडम सीड्स पर उनके प्रदर्शन को मापने की आवश्यकता होती है, और हाइपरपैरामीटर के विकल्पों के प्रति उनकी संवेदनशीलता को मापने की भी आवश्यकता होती है।<ref name="arXiv:1803.07055" /> कम संख्या में रैंडम सीड्स के साथ उनका आकलन उच्च भिन्नता के कारण प्रदर्शन को पर्याप्त रूप से कैप्चर नहीं कर पाता है।<ref name="arXiv:1803.07055" /> कुछ रिइंफोर्समेंट लर्निंग की विधियाँ, उदा. डीडीपीजी (डीप डिटरमिनिस्टिक पॉलिसी ग्रेडिएंट), दूसरों की तुलना में हाइपरपैरामीटर विकल्पों के प्रति अधिक संवेदनशील हैं।<ref name="arXiv:1803.07055" />
== अनुकूलन ==
== अनुकूलन ==
{{main|Hyperparameter optimization}}
{{main|हाइपरपैरामीटर अनुकूलन}}


हाइपरपैरामीटर ऑप्टिमाइज़ेशन हाइपरपैरामीटर का टुपल ढूंढता है जो इष्टतम मॉडल उत्पन्न करता है जो दिए गए परीक्षण डेटा पर पूर्वनिर्धारित हानि फ़ंक्शन को कम करता है।<ref name=abs1502.02127/> ऑब्जेक्टिव फ़ंक्शन हाइपरपैरामीटर का टुपल लेता है और संबंधित हानि लौटाता है।<ref name=abs1502.02127/>
इस प्रकार से हाइपरपैरामीटर ऑप्टिमाइज़ेशन हाइपरपैरामीटर का टुपल खोजता है जो की इष्टतम मॉडल उत्पन्न करता है जो दिए गए परीक्षण डेटा पर पूर्वनिर्धारित लॉस फ़ंक्शन को कम करता है।<ref name=abs1502.02127/> और ऑब्जेक्टिव फ़ंक्शन हाइपरपैरामीटर का टुपल लेता है और संबंधित लॉस रिटर्न करता है।<ref name=abs1502.02127/>
== प्रतिलिपि प्रस्तुत करने योग्यता ==
== पुनरूत्पादकता ==
हाइपरपैरामीटर को ट्यून करने के अलावा, मशीन लर्निंग में पैरामीटर और परिणामों को संग्रहीत और व्यवस्थित करना और यह सुनिश्चित करना शामिल है कि वे प्रतिलिपि प्रस्तुत करने योग्य हैं।<ref name=sacred2015>{{cite news |url=https://indico.lal.in2p3.fr/event/2914/contributions/6476/subcontributions/169/attachments/6034/7159/Sacred_3.pdf |title=Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research." |year=2015}}</ref> इस उद्देश्य के लिए मजबूत बुनियादी ढांचे की अनुपस्थिति में, अनुसंधान कोड अक्सर तेजी से विकसित होता है और बहीखाता पद्धति और प्रतिलिपि प्रस्तुत करने योग्यता जैसे आवश्यक पहलुओं से समझौता करता है।<ref name=sacred2017>{{cite news |url=http://conference.scipy.org/proceedings/scipy2017/pdfs/klaus_greff.pdf |title=ग्रीफ़, क्लॉस, और अन्य। "कम्प्यूटेशनल अनुसंधान के लिए पवित्र बुनियादी ढाँचा।"|year=2017}}</ref> मशीन लर्निंग के लिए ऑनलाइन सहयोग प्लेटफ़ॉर्म वैज्ञानिकों को प्रयोगों, डेटा और एल्गोरिदम को स्वचालित रूप से साझा करने, व्यवस्थित करने और चर्चा करने की अनुमति देकर आगे बढ़ते हैं।<ref name=arXiv:1407.7722>{{cite news |arxiv=1407.7722 |title=Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014).|bibcode=2014arXiv1407.7722V}}</ref> गहन शिक्षण मॉडल के लिए पुनरुत्पादन विशेष रूप से कठिन हो सकता है।<ref>{{cite web |url=https://determined.ai/blog/reproducibility-in-ml/ |title=Reproducibility in ML: why it matters and how to achieve it |last1=Villa |first1=Jennifer |last2= Zimmerman |first2=Yoav |date=25 May 2018 |website=Determined AI Blog |access-date=31 August 2020}}</ref>
हाइपरपैरामीटर को ट्यून करने के अतिरिक्त, मशीन लर्निंग में पैरामीटर और परिणामों को संग्रहीत और व्यवस्थित करना और यह सुनिश्चित करना सम्मिलित है किवह प्रतिलिपि प्रस्तुत करने योग्य हैं।<ref name=sacred2015>{{cite news |url=https://indico.lal.in2p3.fr/event/2914/contributions/6476/subcontributions/169/attachments/6034/7159/Sacred_3.pdf |title=Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research." |year=2015}}</ref> इस उद्देश्य के लिए रोबस्ट इंफ्रास्ट्रक्चर की अनुपस्थिति में, रिसर्च कोड प्रायः तीव्रता से विकसित होता है और बुककीपिंग पद्धति और प्रतिलिपि प्रस्तुत करने योग्यता जैसे आवश्यक भाग से समझौता करता है।<ref name=sacred2017>{{cite news |url=http://conference.scipy.org/proceedings/scipy2017/pdfs/klaus_greff.pdf |title=ग्रीफ़, क्लॉस, और अन्य। "कम्प्यूटेशनल अनुसंधान के लिए पवित्र बुनियादी ढाँचा।"|year=2017}}</ref> मशीन लर्निंग के लिए ऑनलाइन सहयोग प्लेटफ़ॉर्म वैज्ञानिकों को प्रयोगों, डेटा और एल्गोरिदम को स्वचालित रूप से साझा करते है, अतः व्यवस्थित और विचार करने की अनुमति देकर आगे बढ़ते हैं।<ref name=arXiv:1407.7722>{{cite news |arxiv=1407.7722 |title=Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014).|bibcode=2014arXiv1407.7722V}}</ref> गहन लर्निंग मॉडल के लिए पुनरुत्पादन विशेष रूप से कठिन हो सकता है।<ref>{{cite web |url=https://determined.ai/blog/reproducibility-in-ml/ |title=Reproducibility in ML: why it matters and how to achieve it |last1=Villa |first1=Jennifer |last2= Zimmerman |first2=Yoav |date=25 May 2018 |website=Determined AI Blog |access-date=31 August 2020}}</ref>
== यह भी देखें ==
== यह भी देखें ==
* [[ अति-अनुमानवादी ]]
* [[ अति-अनुमानवादी |हाइपर-ह्यूरिस्टिक]]
* [[प्रतिकृति संकट]]
* [[प्रतिकृति संकट|रेप्लिकेशन क्राइसिस]]


== संदर्भ ==
== संदर्भ ==
Line 38: Line 39:


{{Differentiable computing}}
{{Differentiable computing}}
[[Category: यंत्र अधिगम]] [[Category: मॉडल चयन]]


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 errors]]
[[Category:Collapse templates]]
[[Category:Created On 25/07/2023]]
[[Category:Created On 25/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:मॉडल चयन]]
[[Category:यंत्र अधिगम]]

Latest revision as of 19:29, 22 August 2023

मशीन लर्निंग में, हाइपरपैरामीटर एक पैरामीटर है जिसका मान सीखने की प्रक्रिया को नियंत्रित करने के लिए उपयोग किया जाता है। इसके विपरीत, अन्य मापदंडों (सामान्यतः नोड वेट) के मान प्रशिक्षण के माध्यम से प्राप्त किए जाते हैं।

इस प्रकार से हाइपरपैरामीटर को मॉडल हाइपरपैरामीटर के रूप में वर्गीकृत किया जा सकता है, जिसका अनुमान मॉडल फिटिंग के समय नहीं लगाया जा सकता क्योंकिवह मॉडल सिलेक्शन कार्य, या एल्गोरिदम हाइपरपैरामीटर को संदर्भित करते हैं, जो की सिद्धांत रूप में मॉडल के प्रदर्शन पर कोई प्रभाव नहीं डालते हैं किन्तु सीखने की प्रक्रिया की गति और गुणवत्ता को प्रभावित करते हैं। अतः मॉडल हाइपरपैरामीटर का उदाहरण न्यूरल नेटवर्क और टोपोलॉजी आकार है। इस प्रकार से एल्गोरिदम हाइपरपैरामीटर के उदाहरण लर्निंग रेट और बैच आकार के साथ-साथ मिनी-बैच आकार हैं। अतः बैच आकार पूर्ण डेटा नमूने को संदर्भित कर सकता है जहां मिनी-बैच आकार छोटा नमूना सेट है।

किन्तु विभिन्न मॉडल प्रशिक्षण एल्गोरिदम को भिन्न-भिन्न हाइपरपैरामीटर की आवश्यकता होती है, और कुछ सरल एल्गोरिदम (जैसे सामान्य न्यूनतम वर्ग प्रतिगमन) को किसी की आवश्यकता नहीं होती है। इन हाइपरपैरामीटरों को देखते हुए, प्रशिक्षण एल्गोरिदम डेटा से पैरामीटर सीखता है। अतः उदाहरण के लिए, लैस्सो एल्गोरिथ्म है जो की साधारण न्यूनतम वर्ग प्रतिगमन में रेगुलरिज़तिओन (गणित) हाइपरपैरामीटर जोड़ता है, जिसे प्रशिक्षण एल्गोरिदम के माध्यम से मापदंडों का अनुमान लगाने से पहले सेट करना होता है।[1]

विचार

इस प्रकार से किसी मॉडल को प्रशिक्षित करने और परीक्षण करने में लगने वाला समय उसके हाइपरपैरामीटर की विकल्प पर निर्भर हो सकता है।[2] किन्तु हाइपरपैरामीटर सामान्यतः निरंतर या पूर्णांक प्रकार का होता है, जिससे मिश्रित-प्रकार की अनुकूलन समस्याएं उत्पन्न होती हैं।[2] कुछ हाइपरपैरामीटर का अस्तित्व दूसरों के मान पर निर्भर करती है, उदाहरण के लिए न्यूरल नेटवर्क में प्रत्येक छिपी हुई परत का आकार परतों की संख्या पर निर्भर हो सकता है।[2]

शिक्षित पैरामीटर में विपत्ति

सामान्यतः, किन्तु सदैव नहीं, हाइपरपैरामीटर को प्रसिद्ध ग्रेडिएंट आधारित विधियो (जैसे ग्रेडिएंट डिसेंट, एलबीएफजीएस) का उपयोग करके नहीं सीखा जा सकता है - जो सामान्यतः पैरामीटर सीखने के लिए नियोजित होते हैं। ये हाइपरपैरामीटर मॉडल प्रतिनिधित्व का वर्णन करने वालेवह पैरामीटर हैं जिन्हें सामान्य अनुकूलन विधियों द्वारा नहीं सीखा जा सकता है किन्तु फिर भी लॉस फ़ंक्शन को प्रभावित करते हैं। अतः उदाहरण समर्थन सदिश मशीनों में त्रुटियों के लिए सहिष्णुता हाइपरपैरामीटर है।

अप्रशिक्षित पैरामीटर

इस प्रकार से कभी-कभी, हाइपरपैरामीटर को प्रशिक्षण डेटा से नहीं सीखा जा सकता है क्योंकिवह आक्रामक रूप से मॉडल की क्षमता को बढ़ाते हैं और डेटा स्ट्रुकचर की समृद्धि को उचित रूप से मैप करने के विपरीत, लॉस फ़ंक्शन को अवांछित न्यूनतम (ओवरफ़िटिंग करना, और डेटा में नॉइज़ उठाना) तक प्रेरित करना हैं। अतः उदाहरण के लिए, यदि हम प्रतिगमन मॉडल में फिट होने वाले बहुपद समीकरण की डिग्री को ट्रेनेबल पैरामीटर के रूप में मानते हैं, तो डिग्री तब तक बढ़ जाएगी जब तक कि मॉडल पूर्ण रूप से डेटा में फिट न हो जाए, और कम प्रशिक्षण त्रुटि उत्पन्न होगी, किन्तु पुअर गेनेरालिज़तिओन प्रदर्शन करता है।

ट्यूनेबिलिटी

इस प्रकार से अधिकांश प्रदर्शन भिन्नता को केवल कुछ हाइपरपैरामीटर के कारण उत्तरदायी ठहराया जा सकता है।[3][2][4] अर्थात किसी एल्गोरिदम, हाइपरपैरामीटर, या इंटरैक्टिंग हाइपरपैरामीटर की ट्यूनेबिलिटी इस तथ्य का माप है कि इसे ट्यून करके कितना प्रदर्शन प्राप्त किया जा सकता है।[5] अतः दीर्घ अवधि की मेमोरी के लिए, जबकि नेटवर्क आकार के पश्चात सीखने की दर इसके अधिक महत्वपूर्ण हाइपरपैरामीटर हैं,[6] किन्तु बैचिंग और गति का इसके प्रदर्शन पर कोई महत्वपूर्ण प्रभाव नहीं पड़ता है।[7]

चूंकि कुछ रिसर्च ने हजारों की संख्या में मिनी-बैच आकारों के उपयोग की वकालत की है, अन्य कार्यों में 2 और 32 के मध्य मिनी-बैच आकारों के साथ अधिक उचित प्रदर्शन पाया गया है।[8]

रोबुस्टनेस

सीखने में अंतर्निहित स्टोचैस्टिसिटी का सीधा तात्पर्य यह है कि अनुभवजन्य हाइपरपैरामीटर प्रदर्शन आवश्यक रूप से इसका वास्तविक प्रदर्शन नहीं है।[2] वह विधियां जो हाइपरपैरामीटर, रैंडम सीड्स, या यहां तक ​​कि ही एल्गोरिदम के विभिन्न कार्यान्वयनों में सरल परिवर्तनों के लिए रोबुस्टनेस (कंप्यूटर साइंस) नहीं हैं, उन्हें महत्वपूर्ण सरलीकरण और सुदृढ़ीकरण के बिना मिशन क्रिटिकल कंट्रोल सिस्टम में एकीकृत नहीं किया जा सकता है।[9]

रिइंफोर्समेंट लर्निंग के एल्गोरिदम को, विशेष रूप से, उच्च संख्या में रैंडम सीड्स पर उनके प्रदर्शन को मापने की आवश्यकता होती है, और हाइपरपैरामीटर के विकल्पों के प्रति उनकी संवेदनशीलता को मापने की भी आवश्यकता होती है।[9] कम संख्या में रैंडम सीड्स के साथ उनका आकलन उच्च भिन्नता के कारण प्रदर्शन को पर्याप्त रूप से कैप्चर नहीं कर पाता है।[9] कुछ रिइंफोर्समेंट लर्निंग की विधियाँ, उदा. डीडीपीजी (डीप डिटरमिनिस्टिक पॉलिसी ग्रेडिएंट), दूसरों की तुलना में हाइपरपैरामीटर विकल्पों के प्रति अधिक संवेदनशील हैं।[9]

अनुकूलन

इस प्रकार से हाइपरपैरामीटर ऑप्टिमाइज़ेशन हाइपरपैरामीटर का टुपल खोजता है जो की इष्टतम मॉडल उत्पन्न करता है जो दिए गए परीक्षण डेटा पर पूर्वनिर्धारित लॉस फ़ंक्शन को कम करता है।[2] और ऑब्जेक्टिव फ़ंक्शन हाइपरपैरामीटर का टुपल लेता है और संबंधित लॉस रिटर्न करता है।[2]

पुनरूत्पादकता

हाइपरपैरामीटर को ट्यून करने के अतिरिक्त, मशीन लर्निंग में पैरामीटर और परिणामों को संग्रहीत और व्यवस्थित करना और यह सुनिश्चित करना सम्मिलित है किवह प्रतिलिपि प्रस्तुत करने योग्य हैं।[10] इस उद्देश्य के लिए रोबस्ट इंफ्रास्ट्रक्चर की अनुपस्थिति में, रिसर्च कोड प्रायः तीव्रता से विकसित होता है और बुककीपिंग पद्धति और प्रतिलिपि प्रस्तुत करने योग्यता जैसे आवश्यक भाग से समझौता करता है।[11] मशीन लर्निंग के लिए ऑनलाइन सहयोग प्लेटफ़ॉर्म वैज्ञानिकों को प्रयोगों, डेटा और एल्गोरिदम को स्वचालित रूप से साझा करते है, अतः व्यवस्थित और विचार करने की अनुमति देकर आगे बढ़ते हैं।[12] गहन लर्निंग मॉडल के लिए पुनरुत्पादन विशेष रूप से कठिन हो सकता है।[13]

यह भी देखें

संदर्भ

  1. Yang, Li; Shami, Abdallah (2020-11-20). "On hyperparameter optimization of machine learning algorithms: Theory and practice". Neurocomputing (in English). 415: 295–316. arXiv:2007.15745. doi:10.1016/j.neucom.2020.07.061. ISSN 0925-2312. S2CID 220919678.
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 "Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015)". arXiv:1502.02127. Bibcode:2015arXiv150202127C.
  3. Leyton-Brown, Kevin; Hoos, Holger; Hutter, Frank (January 27, 2014). "हाइपरपैरामीटर महत्व का आकलन करने के लिए एक कुशल दृष्टिकोण": 754–762 – via proceedings.mlr.press. {{cite journal}}: Cite journal requires |journal= (help)
  4. "van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017)". arXiv:1710.04725. Bibcode:2017arXiv171004725V.
  5. "Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018)". arXiv:1802.09596. Bibcode:2018arXiv180209596P.
  6. Greff, K.; Srivastava, R. K.; Koutník, J.; Steunebrink, B. R.; Schmidhuber, J. (October 23, 2017). "LSTM: A Search Space Odyssey". IEEE Transactions on Neural Networks and Learning Systems. 28 (10): 2222–2232. arXiv:1503.04069. doi:10.1109/TNNLS.2016.2582924. PMID 27411231. S2CID 3356463.
  7. "Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015)". arXiv:1508.02774. Bibcode:2015arXiv150802774B.
  8. "Revisiting Small Batch Training for Deep Neural Networks (2018)". arXiv:1804.07612. Bibcode:2018arXiv180407612M.
  9. 9.0 9.1 9.2 9.3 "Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018)". arXiv:1803.07055. Bibcode:2018arXiv180307055M.
  10. "Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research."" (PDF). 2015.
  11. "ग्रीफ़, क्लॉस, और अन्य। "कम्प्यूटेशनल अनुसंधान के लिए पवित्र बुनियादी ढाँचा।"" (PDF). 2017.
  12. "Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014)". arXiv:1407.7722. Bibcode:2014arXiv1407.7722V.
  13. Villa, Jennifer; Zimmerman, Yoav (25 May 2018). "Reproducibility in ML: why it matters and how to achieve it". Determined AI Blog. Retrieved 31 August 2020.