नियमितीकरण (गणित): Difference between revisions

From Vigyanwiki
(Created page with "{{generalize|date=November 2020}} {{short description|Technique to make a model more generalizable and transferable}} {{Machine learning}} File:Regularization.svg|thumb|250p...")
 
mNo edit summary
Line 1: Line 1:
{{generalize|date=November 2020}}
{{short description|Technique to make a model more generalizable and transferable}}
{{short description|Technique to make a model more generalizable and transferable}}
{{Machine learning}}
{{Machine learning}}
[[File:Regularization.svg|thumb|250px|हरे और नीले फ़ंक्शन दोनों दिए गए डेटा बिंदुओं पर शून्य हानि उठाते हैं। एक सीखे हुए मॉडल को हरे फ़ंक्शन को प्राथमिकता देने के लिए प्रेरित किया जा सकता है, जो समायोजन करके अंतर्निहित अज्ञात वितरण से खींचे गए अधिक बिंदुओं को बेहतर ढंग से सामान्यीकृत कर सकता है <math>\lambda</math>, नियमितीकरण अवधि का महत्व।]]गणित, सांख्यिकी, [[गणितीय वित्त]] में,<ref>
[[File:Regularization.svg|thumb|250px|हरे और नीले फलन दोनों दिए गए डेटा बिंदुओं पर शून्य हानि उठाते हैं। एक सीखे हुए मॉडल को हरे फलन को प्राथमिकता देने के लिए प्रेरित किया जा सकता है, जो समायोजन करके अंतर्निहित अज्ञात वितरण से खींचे गए अधिक बिंदुओं को बेहतर ढंग से सामान्यीकृत कर सकता है <math>\lambda</math>, नियमितीकरण अवधि का महत्व।]]गणित, सांख्यिकी, [[गणितीय वित्त]] में,<ref>
{{cite journal |doi=10.3390/risks8020040 |title=Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data|url=https://mdpi.com/2227-9091/8/2/40 |series=Risks |year=2020 |last1=Kratsios |first1=Anastasis  |volume=8|issue=2|page=[https://www.mdpi.com/2227-9091/8/2/40] |quote=Term structure models can be regularized to remove arbitrage {{sic|?|opportunities}}.|doi-access=free }}</ref> [[कंप्यूटर विज्ञान]], विशेष रूप से [[ यंत्र अधिगम ]] और व्युत्क्रम समस्याओं में, नियमितीकरण एक ऐसी प्रक्रिया है जो परिणाम उत्तर को सरल बना देती है। इसका उपयोग अक्सर गलत समस्याओं के परिणाम प्राप्त करने या [[ओवरफिटिंग]] को रोकने के लिए किया जाता है।<ref>{{cite book |doi=10.1007/978-3-642-20192-9 |title=उच्च-आयामी डेटा के लिए आँकड़े|url=https://archive.org/details/statisticsforhig00bhlm |url-access=limited |series=Springer Series in Statistics |year=2011 |last1=Bühlmann |first1=Peter |last2=Van De Geer |first2=Sara |isbn=978-3-642-20191-2 |page=[https://archive.org/details/statisticsforhig00bhlm/page/n27 9] |quote=If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary.}}</ref>
{{cite journal |doi=10.3390/risks8020040 |title=Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data|url=https://mdpi.com/2227-9091/8/2/40 |series=Risks |year=2020 |last1=Kratsios |first1=Anastasis  |volume=8|issue=2|page=[https://www.mdpi.com/2227-9091/8/2/40] |quote=Term structure models can be regularized to remove arbitrage {{sic|?|opportunities}}.|doi-access=free }}</ref> [[कंप्यूटर विज्ञान]], विशेष रूप से [[ यंत्र अधिगम ]] और व्युत्क्रम समस्याओं में, नियमितीकरण एक ऐसी प्रक्रिया है जो परिणाम उत्तर को सरल बना देती है। इसका उपयोग अक्सर गलत समस्याओं के परिणाम प्राप्त करने या [[ओवरफिटिंग]] को रोकने के लिए किया जाता है।<ref>{{cite book |doi=10.1007/978-3-642-20192-9 |title=उच्च-आयामी डेटा के लिए आँकड़े|url=https://archive.org/details/statisticsforhig00bhlm |url-access=limited |series=Springer Series in Statistics |year=2011 |last1=Bühlmann |first1=Peter |last2=Van De Geer |first2=Sara |isbn=978-3-642-20191-2 |page=[https://archive.org/details/statisticsforhig00bhlm/page/n27 9] |quote=If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary.}}</ref>
हालाँकि नियमितीकरण प्रक्रियाओं को कई तरीकों से विभाजित किया जा सकता है, निम्नलिखित चित्रण विशेष रूप से सहायक है:
हालाँकि नियमितीकरण प्रक्रियाओं को कई तरीकों से विभाजित किया जा सकता है, निम्नलिखित चित्रण विशेष रूप से सहायक है:
* जब भी कोई स्पष्ट रूप से अनुकूलन समस्या में कोई शब्द जोड़ता है तो स्पष्ट नियमितीकरण नियमितीकरण होता है। ये शर्तें प्राथमिकताएं, दंड या बाधाएं हो सकती हैं। स्पष्ट नियमितीकरण का प्रयोग आम तौर पर खराब अनुकूलन समस्याओं के साथ किया जाता है। नियमितीकरण शब्द, या जुर्माना, इष्टतम समाधान को अद्वितीय बनाने के लिए अनुकूलन फ़ंक्शन पर लागत लगाता है।
* जब भी कोई स्पष्ट रूप से अनुकूलन समस्या में कोई शब्द जोड़ता है तो स्पष्ट नियमितीकरण नियमितीकरण होता है। ये शर्तें प्राथमिकताएं, दंड या बाधाएं हो सकती हैं। स्पष्ट नियमितीकरण का प्रयोग सामान्यतौर पर खराब अनुकूलन समस्याओं के साथ किया जाता है। नियमितीकरण शब्द, या जुर्माना, इष्टतम समाधान को अद्वितीय बनाने के लिए अनुकूलन फलन पर लागत लगाता है।
* अंतर्निहित नियमितीकरण नियमितीकरण के अन्य सभी रूप हैं। इसमें, उदाहरण के लिए, जल्दी रोकना, एक मजबूत हानि फ़ंक्शन का उपयोग करना और आउटलेर्स को त्यागना शामिल है। आधुनिक मशीन लर्निंग दृष्टिकोण में अंतर्निहित नियमितीकरण अनिवार्य रूप से सर्वव्यापी है, जिसमें गहरे तंत्रिका नेटवर्क के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट और एन्सेम्बल तरीके (जैसे कि यादृच्छिक वन और ग्रेडिएंट बूस्टेड पेड़) शामिल हैं।
* अंतर्निहित नियमितीकरण नियमितीकरण के अन्य सभी रूप हैं। इसमें, उदाहरण के लिए, जल्दी रोकना, एक मजबूत हानि फलन का उपयोग करना और आउटलेर्स को त्यागना सम्मिलित है। आधुनिक मशीन लर्निंग दृष्टिकोण में अंतर्निहित नियमितीकरण अनिवार्य रूप से सर्वव्यापी है, जिसमें गहरे तंत्रिका नेटवर्क के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट और एन्सेम्बल तरीके (जैसे कि यादृच्छिक वन और ग्रेडिएंट बूस्टेड पेड़) सम्मिलित हैं।


स्पष्ट नियमितीकरण में, समस्या या मॉडल से स्वतंत्र, हमेशा एक डेटा शब्द होता है, जो माप की संभावना से मेल खाता है और एक नियमितीकरण शब्द जो पूर्व से मेल खाता है। बायेसियन आँकड़ों का उपयोग करके दोनों को मिलाकर, कोई पश्च की गणना कर सकता है, जिसमें दोनों सूचना स्रोत शामिल हैं और इसलिए अनुमान प्रक्रिया को स्थिर किया गया है। दोनों उद्देश्यों का आदान-प्रदान करके, कोई व्यक्ति डेटा का अधिक आदी होना या सामान्यीकरण लागू करना (ओवरफिटिंग को रोकने के लिए) चुनता है। सभी संभावित नियमितीकरणों से निपटने वाली एक पूरी अनुसंधान शाखा है। व्यवहार में, कोई आमतौर पर एक विशिष्ट नियमितीकरण का प्रयास करता है और फिर विकल्प को सही ठहराने के लिए उस नियमितीकरण से मेल खाने वाले संभाव्यता घनत्व का पता लगाता है। यह सामान्य ज्ञान या अंतर्ज्ञान से शारीरिक रूप से प्रेरित भी हो सकता है।
स्पष्ट नियमितीकरण में, समस्या या मॉडल से स्वतंत्र, हमेशा एक डेटा शब्द होता है, जो माप की संभावना से मेल खाता है और एक नियमितीकरण शब्द जो पूर्व से मेल खाता है। बायेसियन आँकड़ों का उपयोग करके दोनों को मिलाकर, कोई पश्च की गणना कर सकता है, जिसमें दोनों सूचना स्रोत सम्मिलित हैं और इसलिए अनुमान प्रक्रिया को स्थिर किया गया है। दोनों उद्देश्यों का आदान-प्रदान करके, कोई व्यक्ति डेटा का अधिक आदी होना या सामान्यीकरण लागू करना (ओवरफिटिंग को रोकने के लिए) चुनता है। सभी संभावित नियमितीकरणों से निपटने वाली एक पूरी अनुसंधान शाखा है। व्यवहार में, कोई सामान्यतौर पर एक विशिष्ट नियमितीकरण का प्रयास करता है और फिर विकल्प को सही ठहराने के लिए उस नियमितीकरण से मेल खाने वाले संभाव्यता घनत्व का पता लगाता है। यह सामान्य ज्ञान या अंतर्ज्ञान से शारीरिक रूप से प्रेरित भी हो सकता है।


मशीन लर्निंग में, डेटा शब्द प्रशिक्षण डेटा से मेल खाता है और नियमितीकरण या तो मॉडल का विकल्प है या एल्गोरिदम में संशोधन है। इसका उद्देश्य हमेशा सामान्यीकरण त्रुटि को कम करना है, यानी मूल्यांकन सेट पर प्रशिक्षित मॉडल के साथ त्रुटि स्कोर, न कि प्रशिक्षण डेटा।<ref>{{Cite web|last=|first=|date=|title=गहन शिक्षण पुस्तक|url=https://www.deeplearningbook.org/contents/ml.html|url-status=live|archive-url=|archive-date=|access-date=2021-01-29|website=www.deeplearningbook.org}}</ref>
मशीन लर्निंग में, डेटा शब्द प्रशिक्षण डेटा से मेल खाता है और नियमितीकरण या तो मॉडल का विकल्प है या एल्गोरिदम में संशोधन है। इसका उद्देश्य हमेशा सामान्यीकरण त्रुटि को कम करना है, यानी मूल्यांकन सेट पर प्रशिक्षित मॉडल के साथ त्रुटि स्कोर, न कि प्रशिक्षण डेटा।<ref>{{Cite web|last=|first=|date=|title=गहन शिक्षण पुस्तक|url=https://www.deeplearningbook.org/contents/ml.html|url-status=live|archive-url=|archive-date=|access-date=2021-01-29|website=www.deeplearningbook.org}}</ref>
Line 15: Line 14:
== वर्गीकरण ==
== वर्गीकरण ==


क्लासिफायर का अनुभवजन्य सीखना (एक सीमित डेटा सेट से) हमेशा एक अनिर्धारित समस्या है, क्योंकि यह किसी भी फ़ंक्शन का अनुमान लगाने का प्रयास करता है <math>x</math> केवल उदाहरण दिए गए हैं <math>x_1, x_2, ... x_n</math>.
क्लासिफायर का अनुभवजन्य सीखना (एक सीमित डेटा सेट से) हमेशा एक अनिर्धारित समस्या है, क्योंकि यह किसी भी फलन का अनुमान लगाने का प्रयास करता है <math>x</math> केवल उदाहरण दिए गए हैं <math>x_1, x_2, ... x_n</math>.


एक नियमितीकरण शब्द (या नियमितीकरणकर्ता) <math>R(f)</math> वर्गीकरण के लिए हानि फ़ंक्शन में जोड़ा गया है:
एक नियमितीकरण शब्द (या नियमितीकरणकर्ता) <math>R(f)</math> वर्गीकरण के लिए हानि फलन में जोड़ा गया है:
: <math>\min_f \sum_{i=1}^{n} V(f(x_i), y_i) + \lambda R(f)</math>
: <math>\min_f \sum_{i=1}^{n} V(f(x_i), y_i) + \lambda R(f)</math>
कहाँ <math>V</math> एक अंतर्निहित हानि फ़ंक्शन है जो भविष्यवाणी की लागत का वर्णन करता है <math>f(x)</math> जब लेबल है <math>y</math>, जैसे वर्गीकरण के लिए हानि फ़ंक्शन#स्क्वायर हानि या हिंज हानि; और <math>\lambda</math> एक पैरामीटर है जो नियमितीकरण शब्द के महत्व को नियंत्रित करता है। <math>R(f)</math> आमतौर पर इसकी जटिलता पर जुर्माना लगाने के लिए चुना जाता है <math>f</math>. उपयोग की गई जटिलता की ठोस धारणाओं में [[सुचारू कार्य]] के लिए प्रतिबंध और मानक वेक्टर स्थान पर सीमाएँ शामिल हैं।<ref name=":0" />{{page needed|date=May 2017}}
कहाँ <math>V</math> एक अंतर्निहित हानि फलन है जो भविष्यवाणी की लागत का वर्णन करता है <math>f(x)</math> जब लेबल है <math>y</math>, जैसे वर्गीकरण के लिए हानि फलन#स्क्वायर हानि या हिंज हानि; और <math>\lambda</math> एक पैरामीटर है जो नियमितीकरण शब्द के महत्व को नियंत्रित करता है। <math>R(f)</math> सामान्यतौर पर इसकी जटिलता पर जुर्माना लगाने के लिए चुना जाता है <math>f</math>. उपयोग की गई जटिलता की ठोस धारणाओं में [[सुचारू कार्य]] के लिए प्रतिबंध और मानक वेक्टर स्थान पर सीमाएँ सम्मिलित हैं।<ref name=":0" />


नियमितीकरण के लिए एक सैद्धांतिक औचित्य यह है कि यह समाधान पर ओकाम के रेजर को लागू करने का प्रयास करता है (जैसा कि ऊपर दिए गए चित्र में दर्शाया गया है, जहां हरे रंग के फ़ंक्शन, सरल वाले को प्राथमिकता दी जा सकती है)। [[बायेसियन अनुमान]] के दृष्टिकोण से, कई नियमितीकरण तकनीकें मॉडल मापदंडों पर कुछ पूर्व संभाव्यता वितरण लागू करने के अनुरूप हैं।<ref>For the connection between [[maximum a posteriori estimation]] and [[ridge regression]], see {{cite web |first=Kilian |last=Weinberger |title=Linear / Ridge Regression |publisher=Cornell |work=CS4780 Machine Learning Lecture 13 |date=July 11, 2018 |url=https://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lecturenote08.html#map-estimate }}</ref>
नियमितीकरण के लिए एक सैद्धांतिक औचित्य यह है कि यह समाधान पर ओकाम के रेजर को लागू करने का प्रयास करता है (जैसा कि ऊपर दिए गए चित्र में दर्शाया गया है, जहां हरे रंग के फलन, सरल वाले को प्राथमिकता दी जा सकती है)। [[बायेसियन अनुमान]] के दृष्टिकोण से, कई नियमितीकरण तकनीकें मॉडल मापदंडों पर कुछ पूर्व संभाव्यता वितरण लागू करने के अनुरूप हैं।<ref>For the connection between [[maximum a posteriori estimation]] and [[ridge regression]], see {{cite web |first=Kilian |last=Weinberger |title=Linear / Ridge Regression |publisher=Cornell |work=CS4780 Machine Learning Lecture 13 |date=July 11, 2018 |url=https://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lecturenote08.html#map-estimate }}</ref>
नियमितीकरण कई उद्देश्यों को पूरा कर सकता है, जिसमें सरल मॉडल सीखना, मॉडल को विरल बनाने के लिए प्रेरित करना और समूह संरचना शुरू करना शामिल है{{clarify|reason=What is structure in the learning process?|date=October 2018}} सीखने की समस्या में।
नियमितीकरण कई उद्देश्यों को पूरा कर सकता है, जिसमें सरल मॉडल सीखना, मॉडल को विरल बनाने के लिए प्रेरित करना और समूह संरचना शुरू करना सम्मिलित है सीखने की समस्या में।


यही विचार [[विज्ञान]] के अनेक क्षेत्रों में उत्पन्न हुआ। [[अभिन्न समीकरण]]ों (तिखोनोव नियमितीकरण) पर लागू नियमितीकरण का एक सरल रूप अनिवार्य रूप से डेटा को फिट करने और समाधान के एक मानक को कम करने के बीच एक व्यापार-बंद है। हाल ही में, [[कुल भिन्नता नियमितीकरण]] सहित गैर-रेखीय नियमितीकरण विधियां लोकप्रिय हो गई हैं।
यही विचार [[विज्ञान]] के अनेक क्षेत्रों में उत्पन्न हुआ। [[अभिन्न समीकरण]]ों (तिखोनोव नियमितीकरण) पर लागू नियमितीकरण का एक सरल रूप अनिवार्य रूप से डेटा को फिट करने और समाधान के एक मानक को कम करने के बीच एक व्यापार-बंद है। हाल ही में, [[कुल भिन्नता नियमितीकरण]] सहित गैर-रेखीय नियमितीकरण विधियां लोकप्रिय हो गई हैं।
Line 31: Line 30:
किसी सीखे गए मॉडल की सामान्यीकरण क्षमता में सुधार के लिए नियमितीकरण को एक तकनीक के रूप में प्रेरित किया जा सकता है।
किसी सीखे गए मॉडल की सामान्यीकरण क्षमता में सुधार के लिए नियमितीकरण को एक तकनीक के रूप में प्रेरित किया जा सकता है।


इस सीखने की समस्या का लक्ष्य एक ऐसा फ़ंक्शन ढूंढना है जो परिणाम (लेबल) को फिट करता है या भविष्यवाणी करता है जो सभी संभावित इनपुट और लेबल पर अपेक्षित त्रुटि को कम करता है। किसी फ़ंक्शन की अपेक्षित त्रुटि <math>f_n</math> है:
इस सीखने की समस्या का लक्ष्य एक ऐसा फलन ढूंढना है जो परिणाम (लेबल) को फिट करता है या भविष्यवाणी करता है जो सभी संभावित निविष्ट और लेबल पर अपेक्षित त्रुटि को कम करता है। किसी फलन की अपेक्षित त्रुटि <math>f_n</math> है:


:<math> I[f_n] = \int_{X \times Y} V(f_n(x),y) \rho(x,y) \, dx \, dy </math>
:<math> I[f_n] = \int_{X \times Y} V(f_n(x),y) \rho(x,y) \, dx \, dy </math>
कहाँ <math>X</math> और <math>Y</math> इनपुट डेटा के डोमेन हैं <math>x</math> और उनके लेबल <math>y</math> क्रमश।
कहाँ <math>X</math> और <math>Y</math> निविष्ट डेटा के डोमेन हैं <math>x</math> और उनके लेबल <math>y</math> क्रमश।


आमतौर पर सीखने की समस्याओं में, केवल इनपुट डेटा और लेबल का एक सबसेट उपलब्ध होता है, जिसे कुछ शोर के साथ मापा जाता है। इसलिए, अपेक्षित त्रुटि मापने योग्य नहीं है, और उपलब्ध सर्वोत्तम विकल्प अनुभवजन्य त्रुटि है <math> N </math> उपलब्ध नमूने:
सामान्यतौर पर सीखने की समस्याओं में, केवल निविष्ट डेटा और लेबल का एक सबसेट उपलब्ध होता है, जिसे कुछ शोर के साथ मापा जाता है। इसलिए, अपेक्षित त्रुटि मापने योग्य नहीं है, और उपलब्ध सर्वोत्तम विकल्प अनुभवजन्य त्रुटि है <math> N </math> उपलब्ध नमूने:


:<math> I_S[f_n] = \frac{1}{n} \sum_{i=1}^N V(f_n(\hat x_i), \hat y_i) </math>
:<math> I_S[f_n] = \frac{1}{n} \sum_{i=1}^N V(f_n(\hat x_i), \hat y_i) </math>
उपलब्ध फ़ंक्शन स्पेस (औपचारिक रूप से, पुनरुत्पादित कर्नेल हिल्बर्ट स्पेस) की जटिलता पर सीमा के बिना, एक मॉडल सीखा जाएगा जो सरोगेट अनुभवजन्य त्रुटि पर शून्य नुकसान उठाता है। यदि माप (उदाहरण के लिए) <math>x_i</math>) शोर के साथ बनाए गए थे, यह मॉडल ओवरफिटिंग से ग्रस्त हो सकता है और खराब अपेक्षित त्रुटि प्रदर्शित कर सकता है। नियमितीकरण मॉडल के निर्माण के लिए उपयोग किए जाने वाले फ़ंक्शन स्थान के कुछ क्षेत्रों की खोज के लिए दंड का परिचय देता है, जो सामान्यीकरण में सुधार कर सकता है।
उपलब्ध फलन समष्टि (औपचारिक रूप से, पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि) की जटिलता पर सीमा के बिना, एक मॉडल सीखा जाएगा जो सरोगेट अनुभवजन्य त्रुटि पर शून्य नुकसान उठाता है। यदि माप (उदाहरण के लिए) <math>x_i</math>) शोर के साथ बनाए गए थे, यह मॉडल ओवरफिटिंग से ग्रस्त हो सकता है और खराब अपेक्षित त्रुटि प्रदर्शित कर सकता है। नियमितीकरण मॉडल के निर्माण के लिए उपयोग किए जाने वाले फलन स्थान के कुछ क्षेत्रों की खोज के लिए दंड का परिचय देता है, जो सामान्यीकरण में सुधार कर सकता है।


== तिखोनोव नियमितीकरण ==
== तिखोनोव नियमितीकरण ==
Line 51: Line 50:
कहाँ <math>(\hat x_i, \hat y_i), \, 1 \leq i \leq n,</math> प्रशिक्षण के लिए उपयोग किए गए नमूनों का प्रतिनिधित्व करेगा।
कहाँ <math>(\hat x_i, \hat y_i), \, 1 \leq i \leq n,</math> प्रशिक्षण के लिए उपयोग किए गए नमूनों का प्रतिनिधित्व करेगा।


एक सामान्य फ़ंक्शन के मामले में, इसके पुनरुत्पादित कर्नेल हिल्बर्ट स्पेस में फ़ंक्शन का मानदंड है:
एक सामान्य फलन के मामले में, इसके पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि में फलन का मानदंड है:


:<math>\min_f \sum_{i=1}^{n} V(f(\hat x_i), \hat y_i) + \lambda \|f\|_{\mathcal{H}}^{2}</math>
:<math>\min_f \sum_{i=1}^{n} V(f(\hat x_i), \hat y_i) + \lambda \|f\|_{\mathcal{H}}^{2}</math>
Line 57: Line 56:


=== तिखोनोव-नियमित न्यूनतम वर्ग ===
=== तिखोनोव-नियमित न्यूनतम वर्ग ===
न्यूनतम वर्ग हानि फ़ंक्शन और तिखोनोव नियमितीकरण के साथ सीखने की समस्या को विश्लेषणात्मक रूप से हल किया जा सकता है। मैट्रिक्स रूप में लिखा गया, इष्टतम <math>w</math> वह है जिसके संबंध में हानि का ग्रेडिएंट कार्य करता है <math>w</math> 0 है.
न्यूनतम वर्ग हानि फलन और तिखोनोव नियमितीकरण के साथ सीखने की समस्या को विश्लेषणात्मक रूप से हल किया जा सकता है। मैट्रिक्स रूप में लिखा गया, इष्टतम <math>w</math> वह है जिसके संबंध में हानि का ग्रेडिएंट कार्य करता है <math>w</math> 0 है.


:<math>\min_w \frac{1}{n} (\hat X w - Y)^T(\hat X w - Y)+ \lambda \|w\|_{2}^{2}</math>
:<math>\min_w \frac{1}{n} (\hat X w - Y)^T(\hat X w - Y)+ \lambda \|w\|_{2}^{2}</math>
Line 64: Line 63:


:<math>w = (\hat X^T \hat X + \lambda n I)^{-1} (\hat X^T  Y)</math>
:<math>w = (\hat X^T \hat X + \lambda n I)^{-1} (\hat X^T  Y)</math>
अनुकूलन समस्या के निर्माण से, अन्य मान <math>w</math> हानि फ़ंक्शन के लिए बड़े मान दें। इसे दूसरे व्युत्पन्न की जांच करके सत्यापित किया जा सकता है <math>\nabla_{ww}</math>.
अनुकूलन समस्या के निर्माण से, अन्य मान <math>w</math> हानि फलन के लिए बड़े मान दें। इसे दूसरे व्युत्पन्न की जांच करके सत्यापित किया जा सकता है <math>\nabla_{ww}</math>.


प्रशिक्षण के दौरान यह एल्गोरिथम लेता है <math>O(d^3 + nd^2)</math> [[समय की जटिलता]]. शर्तें मैट्रिक्स व्युत्क्रम और गणना के अनुरूप हैं <math>X^T X</math>, क्रमश। परीक्षण होता है <math>O(nd)</math> समय।
प्रशिक्षण के दौरान यह एल्गोरिथम लेता है <math>O(d^3 + nd^2)</math> [[समय की जटिलता]]. शर्तें मैट्रिक्स व्युत्क्रम और गणना के अनुरूप हैं <math>X^T X</math>, क्रमश। परीक्षण होता है <math>O(nd)</math> समय।
Line 105: Line 104:


== विरलता के लिए नियमितकर्ता ==
== विरलता के लिए नियमितकर्ता ==
मान लीजिए कि एक शब्दकोश <math>\phi_j</math> आयाम के साथ <math>p</math> ऐसा दिया गया है कि फ़ंक्शन स्पेस में एक फ़ंक्शन को इस प्रकार व्यक्त किया जा सकता है:
मान लीजिए कि एक शब्दकोश <math>\phi_j</math> आयाम के साथ <math>p</math> ऐसा दिया गया है कि फलन समष्टि में एक फलन को इस प्रकार व्यक्त किया जा सकता है:


:<math>f(x) = \sum_{j=1}^{p} \phi_j(x) w_j</math>
:<math>f(x) = \sum_{j=1}^{p} \phi_j(x) w_j</math>
Line 118: Line 117:
[[File:Sparsityen.png|thumb|इलास्टिक नेट नियमितीकरण]]नॉर्म (गणित)|<math>L_1</math>नियमितीकरण कभी-कभी गैर-अद्वितीय समाधान उत्पन्न कर सकता है। चित्र में एक सरल उदाहरण दिया गया है जब संभावित समाधानों का स्थान 45 डिग्री रेखा पर होता है। यह कुछ अनुप्रयोगों के लिए समस्याग्रस्त हो सकता है, और नॉर्म (गणित)| के संयोजन से इसे दूर किया जा सकता है<math>L_1</math>नॉर्म (गणित) के साथ|<math>L_2</math>[[इलास्टिक नेट नियमितीकरण]] में नियमितीकरण, जो निम्नलिखित रूप लेता है:
[[File:Sparsityen.png|thumb|इलास्टिक नेट नियमितीकरण]]नॉर्म (गणित)|<math>L_1</math>नियमितीकरण कभी-कभी गैर-अद्वितीय समाधान उत्पन्न कर सकता है। चित्र में एक सरल उदाहरण दिया गया है जब संभावित समाधानों का स्थान 45 डिग्री रेखा पर होता है। यह कुछ अनुप्रयोगों के लिए समस्याग्रस्त हो सकता है, और नॉर्म (गणित)| के संयोजन से इसे दूर किया जा सकता है<math>L_1</math>नॉर्म (गणित) के साथ|<math>L_2</math>[[इलास्टिक नेट नियमितीकरण]] में नियमितीकरण, जो निम्नलिखित रूप लेता है:
:<math>\min_{w \in \mathbb{R}^p} \frac{1}{n} \|\hat X w - \hat Y \|^2 + \lambda (\alpha \|w\|_{1} + (1 - \alpha)\|w\|_{2}^{2}), \alpha \in [0, 1]</math>
:<math>\min_{w \in \mathbb{R}^p} \frac{1}{n} \|\hat X w - \hat Y \|^2 + \lambda (\alpha \|w\|_{1} + (1 - \alpha)\|w\|_{2}^{2}), \alpha \in [0, 1]</math>
इलास्टिक नेट नियमितीकरण में समूहीकरण प्रभाव होता है, जहां सहसंबद्ध इनपुट सुविधाओं को समान महत्व दिया जाता है।
इलास्टिक नेट नियमितीकरण में समूहीकरण प्रभाव होता है, जहां सहसंबद्ध निविष्ट सुविधाओं को समान महत्व दिया जाता है।


इलास्टिक नेट नियमितीकरण आमतौर पर व्यवहार में उपयोग किया जाता है और कई मशीन लर्निंग लाइब्रेरी में लागू किया जाता है।
इलास्टिक नेट नियमितीकरण सामान्यतौर पर व्यवहार में उपयोग किया जाता है और कई मशीन लर्निंग लाइब्रेरी में लागू किया जाता है।


=== समीपस्थ विधियाँ ===
=== समीपस्थ विधियाँ ===
{{Main|Proximal gradient method}}जबकि नॉर्म (गणित)|<math>L_1</math>नॉर्म के परिणामस्वरूप एनपी-हार्ड समस्या नहीं होती, नॉर्म (गणित)|<math>L_1</math>मानदंड उत्तल है, लेकिन x = 0 पर किंक के कारण कड़ाई से भिन्न नहीं है। सबग्रेडिएंट विधियां जो उप-व्युत्पन्न पर निर्भर करती हैं, उनका उपयोग नॉर्म (गणित) को हल करने के लिए किया जा सकता है।<math>L_1</math>नियमित सीखने की समस्याएँ। हालाँकि, समीपस्थ तरीकों के माध्यम से तेजी से अभिसरण प्राप्त किया जा सकता है।
{{Main|Proximal gradient method}}जबकि नॉर्म (गणित)|<math>L_1</math>नॉर्म के परिणामस्वरूप एनपी-हार्ड समस्या नहीं होती, नॉर्म (गणित)|<math>L_1</math>मानदंड उत्तल है, लेकिन x = 0 पर किंक के कारण कड़ाई से भिन्न नहीं है। सबग्रेडिएंट विधियां जो उप-व्युत्पन्न पर निर्भर करती हैं, उनका उपयोग नॉर्म (गणित) को हल करने के लिए किया जा सकता है।<math>L_1</math>नियमित सीखने की समस्याएँ। हालाँकि, समीपस्थ तरीकों के माध्यम से तेजी से अभिसरण प्राप्त किया जा सकता है।


एक समस्या के लिए <math>\min_{w \in H} F(w) + R(w)</math> ऐसा है कि <math>F</math> लिप्सचिट्ज़ निरंतर ग्रेडिएंट (जैसे कि न्यूनतम वर्ग हानि फ़ंक्शन) के साथ उत्तल, निरंतर, भिन्न है, और <math>R</math> उत्तल, सतत और उचित है, तो समस्या को हल करने की समीपस्थ विधि इस प्रकार है। सबसे पहले समीपस्थ ऑपरेटर को परिभाषित करें
एक समस्या के लिए <math>\min_{w \in H} F(w) + R(w)</math> ऐसा है कि <math>F</math> लिप्सचिट्ज़ निरंतर ग्रेडिएंट (जैसे कि न्यूनतम वर्ग हानि फलन) के साथ उत्तल, निरंतर, भिन्न है, और <math>R</math> उत्तल, सतत और उचित है, तो समस्या को हल करने की समीपस्थ विधि इस प्रकार है। सबसे पहले समीपस्थ संचालक को परिभाषित करें


:<math>\operatorname{prox}_R(v) = \operatorname{argmin}\limits_{w \in \mathbb{R}^D} \{ R(w) + \frac{1}{2}\|w-v\|^2\}, </math>
:<math>\operatorname{prox}_R(v) = \operatorname{argmin}\limits_{w \in \mathbb{R}^D} \{ R(w) + \frac{1}{2}\|w-v\|^2\}, </math>
Line 133: Line 132:
समीपस्थ विधि पुनरावृत्तीय रूप से ग्रेडिएंट डिसेंट निष्पादित करती है और फिर परिणाम को अनुमत स्थान पर वापस प्रोजेक्ट करती है <math>R</math>.
समीपस्थ विधि पुनरावृत्तीय रूप से ग्रेडिएंट डिसेंट निष्पादित करती है और फिर परिणाम को अनुमत स्थान पर वापस प्रोजेक्ट करती है <math>R</math>.


कब <math>R</math> नॉर्म (गणित) है|<math>L_1</math>रेगुलराइज़र, समीपस्थ ऑपरेटर सॉफ्ट-थ्रेसहोल्डिंग ऑपरेटर के बराबर है,
कब <math>R</math> नॉर्म (गणित) है|<math>L_1</math>रेगुलराइज़र, समीपस्थ संचालक सॉफ्ट-थ्रेसहोल्डिंग संचालक के बराबर है,


:<math>S_\lambda(v)f(n) = \begin{cases} v_i - \lambda, & \text{if }v_i > \lambda \\ 0, & \text{if } v_i \in [-\lambda, \lambda] \\ v_i + \lambda, & \text{if }v_i < - \lambda \end{cases}</math>
:<math>S_\lambda(v)f(n) = \begin{cases} v_i - \lambda, & \text{if }v_i > \lambda \\ 0, & \text{if } v_i \in [-\lambda, \lambda] \\ v_i + \lambda, & \text{if }v_i < - \lambda \end{cases}</math>
Line 146: Line 145:
इसे एक नियमितीकरणकर्ता को प्रेरित करने के रूप में देखा जा सकता है <math>L_2</math> प्रत्येक समूह के सदस्यों पर मानदंड का अनुसरण किया जाता है <math>L_1</math> समूहों पर आदर्श.
इसे एक नियमितीकरणकर्ता को प्रेरित करने के रूप में देखा जा सकता है <math>L_2</math> प्रत्येक समूह के सदस्यों पर मानदंड का अनुसरण किया जाता है <math>L_1</math> समूहों पर आदर्श.


इसे समीपस्थ विधि द्वारा हल किया जा सकता है, जहां समीपस्थ ऑपरेटर एक ब्लॉक-वार सॉफ्ट-थ्रेशोल्डिंग फ़ंक्शन है:
इसे समीपस्थ विधि द्वारा हल किया जा सकता है, जहां समीपस्थ संचालक एक ब्लॉक-वार सॉफ्ट-थ्रेशोल्डिंग फलन है:


: <math>\operatorname{prox}\limits_{\lambda, R, g}(w_g) = \begin{cases} (1 - \frac{\lambda}{\|w_g\|_2})w_g, & \text{if } \|w_g\|_2 > \lambda \\ 0, & \text{if } \|w_g\|_2 \leq \lambda \end{cases}</math>
: <math>\operatorname{prox}\limits_{\lambda, R, g}(w_g) = \begin{cases} (1 - \frac{\lambda}{\|w_g\|_2})w_g, & \text{if } \|w_g\|_2 > \lambda \\ 0, & \text{if } \|w_g\|_2 \leq \lambda \end{cases}</math>
Line 157: Line 156:


:<math>R(w) = \inf \left\{ \sum_{g=1}^G \|w_g\|_2 : w = \sum_{g=1}^G \bar w_g \right\}</math>
:<math>R(w) = \inf \left\{ \sum_{g=1}^G \|w_g\|_2 : w = \sum_{g=1}^G \bar w_g \right\}</math>
प्रत्येक के लिए <math>w_g</math>, <math>\bar w_g</math> वेक्टर के रूप में परिभाषित किया गया है जैसे कि प्रतिबंध <math>\bar w_g</math> समूह को <math>g</math> के बराबर होती है <math>w_g</math> और अन्य सभी प्रविष्टियाँ <math>\bar w_g</math> शून्य हैं. नियमितकर्ता इष्टतम विघटन पाता है <math>w</math> भागों में. इसे कई समूहों में मौजूद सभी तत्वों की नकल के रूप में देखा जा सकता है। इस रेगुलराइज़र के साथ सीखने की समस्याओं को समीपस्थ विधि से जटिलता के साथ भी हल किया जा सकता है। समीपस्थ ऑपरेटर की गणना बंद रूप में नहीं की जा सकती है, लेकिन इसे प्रभावी ढंग से पुनरावृत्त रूप से हल किया जा सकता है, जो समीपस्थ विधि पुनरावृत्ति के भीतर एक आंतरिक पुनरावृत्ति को प्रेरित करता है।
प्रत्येक के लिए <math>w_g</math>, <math>\bar w_g</math> वेक्टर के रूप में परिभाषित किया गया है जैसे कि प्रतिबंध <math>\bar w_g</math> समूह को <math>g</math> के बराबर होती है <math>w_g</math> और अन्य सभी प्रविष्टियाँ <math>\bar w_g</math> शून्य हैं. नियमितकर्ता इष्टतम विघटन पाता है <math>w</math> भागों में. इसे कई समूहों में मौजूद सभी तत्वों की नकल के रूप में देखा जा सकता है। इस रेगुलराइज़र के साथ सीखने की समस्याओं को समीपस्थ विधि से जटिलता के साथ भी हल किया जा सकता है। समीपस्थ संचालक की गणना बंद रूप में नहीं की जा सकती है, लेकिन इसे प्रभावी ढंग से पुनरावृत्त रूप से हल किया जा सकता है, जो समीपस्थ विधि पुनरावृत्ति के भीतर एक आंतरिक पुनरावृत्ति को प्रेरित करता है।


== अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता ==
== अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता ==
{{Main|Semi-supervised learning}}
{{Main|Semi-supervised learning}}


जब इनपुट उदाहरणों की तुलना में लेबल इकट्ठा करना अधिक महंगा होता है, तो अर्ध-पर्यवेक्षित शिक्षण उपयोगी हो सकता है। रेगुलराइज़र को उन मॉडलों को सीखने के लिए शिक्षण एल्गोरिदम का मार्गदर्शन करने के लिए डिज़ाइन किया गया है जो बिना पर्यवेक्षित प्रशिक्षण नमूनों की संरचना का सम्मान करते हैं। यदि एक सममित वजन मैट्रिक्स <math>W</math> दिया गया है, एक नियमितकर्ता को परिभाषित किया जा सकता है:
जब निविष्ट उदाहरणों की तुलना में लेबल इकट्ठा करना अधिक महंगा होता है, तो अर्ध-पर्यवेक्षित शिक्षण उपयोगी हो सकता है। रेगुलराइज़र को उन मॉडलों को सीखने के लिए शिक्षण एल्गोरिदम का मार्गदर्शन करने के लिए डिज़ाइन किया गया है जो बिना पर्यवेक्षित प्रशिक्षण नमूनों की संरचना का सम्मान करते हैं। यदि एक सममित वजन मैट्रिक्स <math>W</math> दिया गया है, एक नियमितकर्ता को परिभाषित किया जा सकता है:


:<math>R(f) = \sum_{i,j} w_{ij}(f(x_i) - f(x_j))^2</math>
:<math>R(f) = \sum_{i,j} w_{ij}(f(x_i) - f(x_j))^2</math>
Line 193: Line 192:
:<math>R(f_1 \cdots f_T) = \sum_{r=1}^C \sum_{t \in I(r)} \|f_t - \frac{1}{I(r)} \sum_{s \in I(r)} f_s\|_{H_k}^2</math> कहाँ <math>I(r)</math> कार्यों का एक समूह है.
:<math>R(f_1 \cdots f_T) = \sum_{r=1}^C \sum_{t \in I(r)} \|f_t - \frac{1}{I(r)} \sum_{s \in I(r)} f_s\|_{H_k}^2</math> कहाँ <math>I(r)</math> कार्यों का एक समूह है.


यह रेगुलराइज़र माध्य-विवश रेगुलराइज़र के समान है, लेकिन इसके बजाय एक ही क्लस्टर के भीतर कार्यों के बीच समानता को लागू करता है। यह अधिक जटिल पूर्व जानकारी प्राप्त कर सकता है। इस तकनीक का उपयोग [[ NetFlix ]] अनुशंसाओं की भविष्यवाणी करने के लिए किया गया है। एक क्लस्टर उन लोगों के समूह के अनुरूप होगा जो समान प्राथमिकताएँ साझा करते हैं।
यह रेगुलराइज़र माध्य-विवश रेगुलराइज़र के समान है, लेकिन इसके अपेक्षा एक ही क्लस्टर के भीतर कार्यों के बीच समानता को लागू करता है। यह अधिक जटिल पूर्व जानकारी प्राप्त कर सकता है। इस तकनीक का उपयोग [[ NetFlix ]] अनुशंसाओं की भविष्यवाणी करने के लिए किया गया है। एक क्लस्टर उन लोगों के समूह के अनुरूप होगा जो समान प्राथमिकताएँ साझा करते हैं।


=== ग्राफ-आधारित समानता ===
=== ग्राफ-आधारित समानता ===
उपरोक्त से अधिक सामान्यतः, कार्यों के बीच समानता को एक फ़ंक्शन द्वारा परिभाषित किया जा सकता है। रेगुलराइज़र मॉडल को समान कार्यों के लिए समान कार्य सीखने के लिए प्रोत्साहित करता है।
उपरोक्त से अधिक सामान्यतः, कार्यों के बीच समानता को एक फलन द्वारा परिभाषित किया जा सकता है। रेगुलराइज़र मॉडल को समान कार्यों के लिए समान कार्य सीखने के लिए प्रोत्साहित करता है।


:<math>R(f_1 \cdots f_T) = \sum_{t,s=1, t \neq s}^T \| f_t - f_s \|^2 M_{ts} </math> किसी दिए गए सममित [[समानता मैट्रिक्स]] के लिए <math>M</math>.
:<math>R(f_1 \cdots f_T) = \sum_{t,s=1, t \neq s}^T \| f_t - f_s \|^2 M_{ts} </math> किसी दिए गए सममित [[समानता मैट्रिक्स]] के लिए <math>M</math>.


== सांख्यिकी और मशीन लर्निंग में नियमितीकरण के अन्य उपयोग ==
== सांख्यिकी और मशीन लर्निंग में नियमितीकरण के अन्य उपयोग ==
[[बायेसियन मॉडल तुलना]] विधियां पूर्व संभाव्यता का उपयोग करती हैं जो (आमतौर पर) अधिक जटिल मॉडलों को कम संभावना देती है। प्रसिद्ध मॉडल चयन तकनीकों में अकाइक सूचना मानदंड (एआईसी), [[न्यूनतम विवरण लंबाई]] (एमडीएल), और [[बायेसियन सूचना मानदंड]] (बीआईसी) शामिल हैं। ओवरफिटिंग को नियंत्रित करने के वैकल्पिक तरीकों में नियमितीकरण शामिल नहीं है जिसमें क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन शामिल है।
[[बायेसियन मॉडल तुलना]] विधियां पूर्व संभाव्यता का उपयोग करती हैं जो (सामान्यतौर पर) अधिक जटिल मॉडलों को कम संभावना देती है। प्रसिद्ध मॉडल चयन तकनीकों में अकाइक सूचना मानदंड (एआईसी), [[न्यूनतम विवरण लंबाई]] (एमडीएल), और [[बायेसियन सूचना मानदंड]] (बीआईसी) सम्मिलित हैं। ओवरफिटिंग को नियंत्रित करने के वैकल्पिक तरीकों में नियमितीकरण सम्मिलित नहीं है जिसमें क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन सम्मिलित है।


[[रैखिक मॉडल]] में नियमितीकरण के विभिन्न तरीकों के अनुप्रयोगों के उदाहरण हैं:
[[रैखिक मॉडल]] में नियमितीकरण के विभिन्न तरीकों के अनुप्रयोगों के उदाहरण हैं:

Revision as of 18:51, 15 July 2023

हरे और नीले फलन दोनों दिए गए डेटा बिंदुओं पर शून्य हानि उठाते हैं। एक सीखे हुए मॉडल को हरे फलन को प्राथमिकता देने के लिए प्रेरित किया जा सकता है, जो समायोजन करके अंतर्निहित अज्ञात वितरण से खींचे गए अधिक बिंदुओं को बेहतर ढंग से सामान्यीकृत कर सकता है , नियमितीकरण अवधि का महत्व।

गणित, सांख्यिकी, गणितीय वित्त में,[1] कंप्यूटर विज्ञान, विशेष रूप से यंत्र अधिगम और व्युत्क्रम समस्याओं में, नियमितीकरण एक ऐसी प्रक्रिया है जो परिणाम उत्तर को सरल बना देती है। इसका उपयोग अक्सर गलत समस्याओं के परिणाम प्राप्त करने या ओवरफिटिंग को रोकने के लिए किया जाता है।[2]

हालाँकि नियमितीकरण प्रक्रियाओं को कई तरीकों से विभाजित किया जा सकता है, निम्नलिखित चित्रण विशेष रूप से सहायक है:

  • जब भी कोई स्पष्ट रूप से अनुकूलन समस्या में कोई शब्द जोड़ता है तो स्पष्ट नियमितीकरण नियमितीकरण होता है। ये शर्तें प्राथमिकताएं, दंड या बाधाएं हो सकती हैं। स्पष्ट नियमितीकरण का प्रयोग सामान्यतौर पर खराब अनुकूलन समस्याओं के साथ किया जाता है। नियमितीकरण शब्द, या जुर्माना, इष्टतम समाधान को अद्वितीय बनाने के लिए अनुकूलन फलन पर लागत लगाता है।
  • अंतर्निहित नियमितीकरण नियमितीकरण के अन्य सभी रूप हैं। इसमें, उदाहरण के लिए, जल्दी रोकना, एक मजबूत हानि फलन का उपयोग करना और आउटलेर्स को त्यागना सम्मिलित है। आधुनिक मशीन लर्निंग दृष्टिकोण में अंतर्निहित नियमितीकरण अनिवार्य रूप से सर्वव्यापी है, जिसमें गहरे तंत्रिका नेटवर्क के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट और एन्सेम्बल तरीके (जैसे कि यादृच्छिक वन और ग्रेडिएंट बूस्टेड पेड़) सम्मिलित हैं।

स्पष्ट नियमितीकरण में, समस्या या मॉडल से स्वतंत्र, हमेशा एक डेटा शब्द होता है, जो माप की संभावना से मेल खाता है और एक नियमितीकरण शब्द जो पूर्व से मेल खाता है। बायेसियन आँकड़ों का उपयोग करके दोनों को मिलाकर, कोई पश्च की गणना कर सकता है, जिसमें दोनों सूचना स्रोत सम्मिलित हैं और इसलिए अनुमान प्रक्रिया को स्थिर किया गया है। दोनों उद्देश्यों का आदान-प्रदान करके, कोई व्यक्ति डेटा का अधिक आदी होना या सामान्यीकरण लागू करना (ओवरफिटिंग को रोकने के लिए) चुनता है। सभी संभावित नियमितीकरणों से निपटने वाली एक पूरी अनुसंधान शाखा है। व्यवहार में, कोई सामान्यतौर पर एक विशिष्ट नियमितीकरण का प्रयास करता है और फिर विकल्प को सही ठहराने के लिए उस नियमितीकरण से मेल खाने वाले संभाव्यता घनत्व का पता लगाता है। यह सामान्य ज्ञान या अंतर्ज्ञान से शारीरिक रूप से प्रेरित भी हो सकता है।

मशीन लर्निंग में, डेटा शब्द प्रशिक्षण डेटा से मेल खाता है और नियमितीकरण या तो मॉडल का विकल्प है या एल्गोरिदम में संशोधन है। इसका उद्देश्य हमेशा सामान्यीकरण त्रुटि को कम करना है, यानी मूल्यांकन सेट पर प्रशिक्षित मॉडल के साथ त्रुटि स्कोर, न कि प्रशिक्षण डेटा।[3] नियमितीकरण के शुरुआती उपयोगों में से एक तिखोनोव नियमितीकरण है, जो कम से कम वर्गों की विधि से संबंधित है।

वर्गीकरण

क्लासिफायर का अनुभवजन्य सीखना (एक सीमित डेटा सेट से) हमेशा एक अनिर्धारित समस्या है, क्योंकि यह किसी भी फलन का अनुमान लगाने का प्रयास करता है केवल उदाहरण दिए गए हैं .

एक नियमितीकरण शब्द (या नियमितीकरणकर्ता) वर्गीकरण के लिए हानि फलन में जोड़ा गया है:

कहाँ एक अंतर्निहित हानि फलन है जो भविष्यवाणी की लागत का वर्णन करता है जब लेबल है , जैसे वर्गीकरण के लिए हानि फलन#स्क्वायर हानि या हिंज हानि; और एक पैरामीटर है जो नियमितीकरण शब्द के महत्व को नियंत्रित करता है। सामान्यतौर पर इसकी जटिलता पर जुर्माना लगाने के लिए चुना जाता है . उपयोग की गई जटिलता की ठोस धारणाओं में सुचारू कार्य के लिए प्रतिबंध और मानक वेक्टर स्थान पर सीमाएँ सम्मिलित हैं।[4]

नियमितीकरण के लिए एक सैद्धांतिक औचित्य यह है कि यह समाधान पर ओकाम के रेजर को लागू करने का प्रयास करता है (जैसा कि ऊपर दिए गए चित्र में दर्शाया गया है, जहां हरे रंग के फलन, सरल वाले को प्राथमिकता दी जा सकती है)। बायेसियन अनुमान के दृष्टिकोण से, कई नियमितीकरण तकनीकें मॉडल मापदंडों पर कुछ पूर्व संभाव्यता वितरण लागू करने के अनुरूप हैं।[5] नियमितीकरण कई उद्देश्यों को पूरा कर सकता है, जिसमें सरल मॉडल सीखना, मॉडल को विरल बनाने के लिए प्रेरित करना और समूह संरचना शुरू करना सम्मिलित है सीखने की समस्या में।

यही विचार विज्ञान के अनेक क्षेत्रों में उत्पन्न हुआ। अभिन्न समीकरणों (तिखोनोव नियमितीकरण) पर लागू नियमितीकरण का एक सरल रूप अनिवार्य रूप से डेटा को फिट करने और समाधान के एक मानक को कम करने के बीच एक व्यापार-बंद है। हाल ही में, कुल भिन्नता नियमितीकरण सहित गैर-रेखीय नियमितीकरण विधियां लोकप्रिय हो गई हैं।

सामान्यीकरण

किसी सीखे गए मॉडल की सामान्यीकरण क्षमता में सुधार के लिए नियमितीकरण को एक तकनीक के रूप में प्रेरित किया जा सकता है।

इस सीखने की समस्या का लक्ष्य एक ऐसा फलन ढूंढना है जो परिणाम (लेबल) को फिट करता है या भविष्यवाणी करता है जो सभी संभावित निविष्ट और लेबल पर अपेक्षित त्रुटि को कम करता है। किसी फलन की अपेक्षित त्रुटि है:

कहाँ और निविष्ट डेटा के डोमेन हैं और उनके लेबल क्रमश।

सामान्यतौर पर सीखने की समस्याओं में, केवल निविष्ट डेटा और लेबल का एक सबसेट उपलब्ध होता है, जिसे कुछ शोर के साथ मापा जाता है। इसलिए, अपेक्षित त्रुटि मापने योग्य नहीं है, और उपलब्ध सर्वोत्तम विकल्प अनुभवजन्य त्रुटि है उपलब्ध नमूने:

उपलब्ध फलन समष्टि (औपचारिक रूप से, पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि) की जटिलता पर सीमा के बिना, एक मॉडल सीखा जाएगा जो सरोगेट अनुभवजन्य त्रुटि पर शून्य नुकसान उठाता है। यदि माप (उदाहरण के लिए) ) शोर के साथ बनाए गए थे, यह मॉडल ओवरफिटिंग से ग्रस्त हो सकता है और खराब अपेक्षित त्रुटि प्रदर्शित कर सकता है। नियमितीकरण मॉडल के निर्माण के लिए उपयोग किए जाने वाले फलन स्थान के कुछ क्षेत्रों की खोज के लिए दंड का परिचय देता है, जो सामान्यीकरण में सुधार कर सकता है।

तिखोनोव नियमितीकरण

इन तकनीकों का नाम एंड्री निकोलाइविच तिखोनोव के नाम पर रखा गया है, जिन्होंने अभिन्न समीकरणों में नियमितीकरण लागू किया और कई अन्य क्षेत्रों में महत्वपूर्ण योगदान दिया।

एक रैखिक कार्य सीखते समय , एक अज्ञात सदिश स्थल द्वारा विशेषता ऐसा है कि , कोई भी जोड़ सकता है -वेक्टर का मानदंड छोटे मानदंडों वाले समाधानों को प्राथमिकता देने के लिए हानि की अभिव्यक्ति के लिए। तिखोनोव नियमितीकरण सबसे आम रूपों में से एक है। इसे रिज रिग्रेशन के नाम से भी जाना जाता है। इसे इस प्रकार व्यक्त किया गया है:

,

कहाँ प्रशिक्षण के लिए उपयोग किए गए नमूनों का प्रतिनिधित्व करेगा।

एक सामान्य फलन के मामले में, इसके पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि में फलन का मानदंड है:

के रूप में मानक विभेदनीय कार्य है#उच्च आयामों में विभेदीकरण, सीखने को ढतला हुआ वंश द्वारा उन्नत किया जा सकता है।

तिखोनोव-नियमित न्यूनतम वर्ग

न्यूनतम वर्ग हानि फलन और तिखोनोव नियमितीकरण के साथ सीखने की समस्या को विश्लेषणात्मक रूप से हल किया जा सकता है। मैट्रिक्स रूप में लिखा गया, इष्टतम वह है जिसके संबंध में हानि का ग्रेडिएंट कार्य करता है 0 है.

(प्रथम क्रम की स्थिति)

अनुकूलन समस्या के निर्माण से, अन्य मान हानि फलन के लिए बड़े मान दें। इसे दूसरे व्युत्पन्न की जांच करके सत्यापित किया जा सकता है .

प्रशिक्षण के दौरान यह एल्गोरिथम लेता है समय की जटिलता. शर्तें मैट्रिक्स व्युत्क्रम और गणना के अनुरूप हैं , क्रमश। परीक्षण होता है समय।

जल्दी रुकना

जल्दी रुकने को समय पर नियमितीकरण के रूप में देखा जा सकता है। सहज रूप से, ग्रेडिएंट डिसेंट जैसी प्रशिक्षण प्रक्रिया बढ़ती पुनरावृत्तियों के साथ अधिक से अधिक जटिल कार्यों को सीखने की प्रवृत्ति रखती है। समय के लिए नियमितीकरण करके, सामान्यीकरण में सुधार करके मॉडल जटिलता को नियंत्रित किया जा सकता है।

प्रारंभिक रोक को प्रशिक्षण के लिए एक डेटा सेट, सत्यापन के लिए एक सांख्यिकीय रूप से स्वतंत्र डेटा सेट और परीक्षण के लिए दूसरे का उपयोग करके कार्यान्वित किया जाता है। मॉडल को तब तक प्रशिक्षित किया जाता है जब तक सत्यापन सेट पर प्रदर्शन में सुधार नहीं होता है और फिर परीक्षण सेट पर लागू किया जाता है।

न्यूनतम वर्गों में सैद्धांतिक प्रेरणा

एक व्युत्क्रमणीय मैट्रिक्स के लिए न्यूमैन श्रृंखला के परिमित सन्निकटन पर विचार करें A कहाँ :

इसका उपयोग अनियमित न्यूनतम वर्गों के विश्लेषणात्मक समाधान का अनुमान लगाने के लिए किया जा सकता है, यदि γ यह सुनिश्चित करने के लिए पेश किया गया है कि मानदंड एक से कम है।

अनियमित न्यूनतम वर्ग सीखने की समस्या का सटीक समाधान अनुभवजन्य त्रुटि को कम करता है, लेकिन विफल हो सकता है। सीमित करके T, उपरोक्त एल्गोरिदम में एकमात्र मुफ़्त पैरामीटर, समस्या को समय के लिए नियमित किया जाता है, जिससे इसके सामान्यीकरण में सुधार हो सकता है।

उपरोक्त एल्गोरिदम अनुभवजन्य जोखिम के लिए ग्रेडिएंट डिसेंट पुनरावृत्तियों की संख्या को सीमित करने के बराबर है

ग्रेडिएंट डिसेंट अपडेट के साथ:

आधार मामला तुच्छ है. आगमनात्मक मामला इस प्रकार सिद्ध होता है:


विरलता के लिए नियमितकर्ता

मान लीजिए कि एक शब्दकोश आयाम के साथ ऐसा दिया गया है कि फलन समष्टि में एक फलन को इस प्रकार व्यक्त किया जा सकता है:

दो आयामों में एल1 गेंद और एल2 गेंद के बीच तुलना से यह पता चलता है कि एल1 नियमितीकरण कैसे विरलता प्राप्त करता है।

विरलता प्रतिबंध लागू करना इससे सरल और अधिक व्याख्या योग्य मॉडल बन सकते हैं। यह कम्प्यूटेशनल जीवविज्ञान जैसे कई वास्तविक जीवन अनुप्रयोगों में उपयोगी है। एक उदाहरण भविष्यवाणी शक्ति को अधिकतम करते हुए चिकित्सा परीक्षण करने की लागत को कम करने के लिए किसी बीमारी के लिए एक सरल भविष्य कहनेवाला परीक्षण विकसित करना है।

एक समझदार विरलता बाधा नॉर्म (गणित)| है आदर्श , गैर-शून्य तत्वों की संख्या के रूप में परिभाषित किया गया है . हल करना ए हालाँकि, नियमित सीखने की समस्या को एनपी-कठोरता |एनपी-हार्ड के रूप में प्रदर्शित किया गया है।[6] टैक्सीकैब ज्यामिति| नॉर्म (नॉर्म (गणित) भी देखें) का उपयोग इष्टतम नॉर्म (गणित) का अनुमान लगाने के लिए किया जा सकता है|उत्तल विश्राम के माध्यम से आदर्श। यह दिखाया जा सकता है कि नॉर्म (गणित)|मानदंड विरलता को प्रेरित करता है। न्यूनतम वर्गों के मामले में, इस समस्या को सांख्यिकी में लासो (सांख्यिकी) और सिग्नल प्रोसेसिंग में आधार खोज के रूप में जाना जाता है।

इलास्टिक नेट नियमितीकरण

नॉर्म (गणित)|नियमितीकरण कभी-कभी गैर-अद्वितीय समाधान उत्पन्न कर सकता है। चित्र में एक सरल उदाहरण दिया गया है जब संभावित समाधानों का स्थान 45 डिग्री रेखा पर होता है। यह कुछ अनुप्रयोगों के लिए समस्याग्रस्त हो सकता है, और नॉर्म (गणित)| के संयोजन से इसे दूर किया जा सकता हैनॉर्म (गणित) के साथ|इलास्टिक नेट नियमितीकरण में नियमितीकरण, जो निम्नलिखित रूप लेता है:

इलास्टिक नेट नियमितीकरण में समूहीकरण प्रभाव होता है, जहां सहसंबद्ध निविष्ट सुविधाओं को समान महत्व दिया जाता है।

इलास्टिक नेट नियमितीकरण सामान्यतौर पर व्यवहार में उपयोग किया जाता है और कई मशीन लर्निंग लाइब्रेरी में लागू किया जाता है।

समीपस्थ विधियाँ

जबकि नॉर्म (गणित)|नॉर्म के परिणामस्वरूप एनपी-हार्ड समस्या नहीं होती, नॉर्म (गणित)|मानदंड उत्तल है, लेकिन x = 0 पर किंक के कारण कड़ाई से भिन्न नहीं है। सबग्रेडिएंट विधियां जो उप-व्युत्पन्न पर निर्भर करती हैं, उनका उपयोग नॉर्म (गणित) को हल करने के लिए किया जा सकता है।नियमित सीखने की समस्याएँ। हालाँकि, समीपस्थ तरीकों के माध्यम से तेजी से अभिसरण प्राप्त किया जा सकता है।

एक समस्या के लिए ऐसा है कि लिप्सचिट्ज़ निरंतर ग्रेडिएंट (जैसे कि न्यूनतम वर्ग हानि फलन) के साथ उत्तल, निरंतर, भिन्न है, और उत्तल, सतत और उचित है, तो समस्या को हल करने की समीपस्थ विधि इस प्रकार है। सबसे पहले समीपस्थ संचालक को परिभाषित करें

और फिर पुनरावृत्त करें

समीपस्थ विधि पुनरावृत्तीय रूप से ग्रेडिएंट डिसेंट निष्पादित करती है और फिर परिणाम को अनुमत स्थान पर वापस प्रोजेक्ट करती है .

कब नॉर्म (गणित) है|रेगुलराइज़र, समीपस्थ संचालक सॉफ्ट-थ्रेसहोल्डिंग संचालक के बराबर है,

यह कुशल गणना की अनुमति देता है।

ओवरलैप के बिना समूह विरलता

सुविधाओं के समूहों को विरल बाधा द्वारा नियमित किया जा सकता है, जो अनुकूलन समस्या में कुछ पूर्व ज्ञान को व्यक्त करने के लिए उपयोगी हो सकता है।

गैर-अतिव्यापी ज्ञात समूहों वाले रैखिक मॉडल के मामले में, एक नियमितकर्ता को परिभाषित किया जा सकता है:

कहाँ

इसे एक नियमितीकरणकर्ता को प्रेरित करने के रूप में देखा जा सकता है प्रत्येक समूह के सदस्यों पर मानदंड का अनुसरण किया जाता है समूहों पर आदर्श.

इसे समीपस्थ विधि द्वारा हल किया जा सकता है, जहां समीपस्थ संचालक एक ब्लॉक-वार सॉफ्ट-थ्रेशोल्डिंग फलन है:


ओवरलैप के साथ समूह विरलता

ओवरलैप के बिना समूह विरलता के लिए वर्णित एल्गोरिदम को उस मामले में लागू किया जा सकता है जहां समूह कुछ स्थितियों में ओवरलैप करते हैं। इसके परिणामस्वरूप संभवतः कुछ समूहों में सभी शून्य तत्व होंगे, और अन्य समूहों में कुछ गैर-शून्य और कुछ शून्य तत्व होंगे।

यदि समूह संरचना को संरक्षित करना वांछित है, तो एक नया नियमितकर्ता परिभाषित किया जा सकता है:

प्रत्येक के लिए , वेक्टर के रूप में परिभाषित किया गया है जैसे कि प्रतिबंध समूह को के बराबर होती है और अन्य सभी प्रविष्टियाँ शून्य हैं. नियमितकर्ता इष्टतम विघटन पाता है भागों में. इसे कई समूहों में मौजूद सभी तत्वों की नकल के रूप में देखा जा सकता है। इस रेगुलराइज़र के साथ सीखने की समस्याओं को समीपस्थ विधि से जटिलता के साथ भी हल किया जा सकता है। समीपस्थ संचालक की गणना बंद रूप में नहीं की जा सकती है, लेकिन इसे प्रभावी ढंग से पुनरावृत्त रूप से हल किया जा सकता है, जो समीपस्थ विधि पुनरावृत्ति के भीतर एक आंतरिक पुनरावृत्ति को प्रेरित करता है।

अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता

जब निविष्ट उदाहरणों की तुलना में लेबल इकट्ठा करना अधिक महंगा होता है, तो अर्ध-पर्यवेक्षित शिक्षण उपयोगी हो सकता है। रेगुलराइज़र को उन मॉडलों को सीखने के लिए शिक्षण एल्गोरिदम का मार्गदर्शन करने के लिए डिज़ाइन किया गया है जो बिना पर्यवेक्षित प्रशिक्षण नमूनों की संरचना का सम्मान करते हैं। यदि एक सममित वजन मैट्रिक्स दिया गया है, एक नियमितकर्ता को परिभाषित किया जा सकता है:

अगर बिंदुओं के लिए कुछ दूरी मीट्रिक के परिणाम को एन्कोड करता है और , यह वांछनीय है कि . यह रेगुलराइज़र इस अंतर्ज्ञान को पकड़ता है, और इसके बराबर है:

कहाँ द्वारा प्रेरित ग्राफ का लाप्लासियन मैट्रिक्स है .

अनुकूलन समस्या बाधा होने पर विश्लेषणात्मक रूप से हल किया जा सकता है सभी पर्यवेक्षित नमूनों के लिए लागू किया जाता है। वेक्टर का लेबल वाला भाग इसलिए स्पष्ट है. का लेबल रहित भाग इसके लिए हल किया गया है:

छद्म-विपरीत इसलिए लिया जा सकता है क्योंकि के समान ही सीमा होती है .

मल्टीटास्क सीखने के लिए नियमितकर्ता

मल्टीटास्क लर्निंग के मामले में, समस्याओं पर एक साथ विचार किया जाता है, प्रत्येक समस्या किसी न किसी तरह से संबंधित होती है। लक्ष्य सीखना है कार्य, आदर्श रूप से कार्यों की संबंधितता से शक्ति उधार लेते हैं, जिनमें पूर्वानुमान लगाने की शक्ति होती है। यह मैट्रिक्स सीखने के बराबर है .

स्तंभों पर विरल नियमितकर्ता

यह रेगुलराइज़र प्रत्येक कॉलम पर एक L2 मानदंड और सभी कॉलमों पर एक L1 मानदंड को परिभाषित करता है। इसे समीपस्थ तरीकों से हल किया जा सकता है।

परमाणु मानक नियमितीकरण

कहाँ के एकवचन मूल्य अपघटन में eigenvalues ​​​​और eigenvectors है .

माध्य-विवश नियमितीकरण

यह नियमितकर्ता प्रत्येक कार्य के लिए सीखे गए कार्यों को सभी कार्यों में कार्यों के समग्र औसत के समान होने के लिए बाध्य करता है। यह पूर्व सूचना व्यक्त करने के लिए उपयोगी है जिसे प्रत्येक कार्य द्वारा एक-दूसरे कार्य के साथ साझा करने की अपेक्षा की जाती है। एक उदाहरण दिन के अलग-अलग समय पर मापे गए रक्त आयरन के स्तर की भविष्यवाणी करना है, जहां प्रत्येक कार्य एक व्यक्ति का प्रतिनिधित्व करता है।

संकुल माध्य-विवश नियमितीकरण

कहाँ कार्यों का एक समूह है.

यह रेगुलराइज़र माध्य-विवश रेगुलराइज़र के समान है, लेकिन इसके अपेक्षा एक ही क्लस्टर के भीतर कार्यों के बीच समानता को लागू करता है। यह अधिक जटिल पूर्व जानकारी प्राप्त कर सकता है। इस तकनीक का उपयोग NetFlix अनुशंसाओं की भविष्यवाणी करने के लिए किया गया है। एक क्लस्टर उन लोगों के समूह के अनुरूप होगा जो समान प्राथमिकताएँ साझा करते हैं।

ग्राफ-आधारित समानता

उपरोक्त से अधिक सामान्यतः, कार्यों के बीच समानता को एक फलन द्वारा परिभाषित किया जा सकता है। रेगुलराइज़र मॉडल को समान कार्यों के लिए समान कार्य सीखने के लिए प्रोत्साहित करता है।

किसी दिए गए सममित समानता मैट्रिक्स के लिए .

सांख्यिकी और मशीन लर्निंग में नियमितीकरण के अन्य उपयोग

बायेसियन मॉडल तुलना विधियां पूर्व संभाव्यता का उपयोग करती हैं जो (सामान्यतौर पर) अधिक जटिल मॉडलों को कम संभावना देती है। प्रसिद्ध मॉडल चयन तकनीकों में अकाइक सूचना मानदंड (एआईसी), न्यूनतम विवरण लंबाई (एमडीएल), और बायेसियन सूचना मानदंड (बीआईसी) सम्मिलित हैं। ओवरफिटिंग को नियंत्रित करने के वैकल्पिक तरीकों में नियमितीकरण सम्मिलित नहीं है जिसमें क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन सम्मिलित है।

रैखिक मॉडल में नियमितीकरण के विभिन्न तरीकों के अनुप्रयोगों के उदाहरण हैं:

Model Fit measure Entropy measure[4][7]
AIC/BIC
Ridge regression[8]
Lasso[9]
Basis pursuit denoising
Rudin–Osher–Fatemi model (TV)
Potts model
RLAD[10]
Dantzig Selector[11]
SLOPE[12]


यह भी देखें

टिप्पणियाँ

  1. Kratsios, Anastasis (2020). "Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data". Risks. 8 (2): [1]. doi:10.3390/risks8020040. Term structure models can be regularized to remove arbitrage opportunities [sic?]. {{cite journal}}: Cite journal requires |journal= (help)
  2. Bühlmann, Peter; Van De Geer, Sara (2011). उच्च-आयामी डेटा के लिए आँकड़े. Springer Series in Statistics. p. 9. doi:10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2. If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary.
  3. "गहन शिक्षण पुस्तक". www.deeplearningbook.org. Retrieved 2021-01-29.{{cite web}}: CS1 maint: url-status (link)
  4. 4.0 4.1 Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0-387-31073-2.
  5. For the connection between maximum a posteriori estimation and ridge regression, see Weinberger, Kilian (July 11, 2018). "Linear / Ridge Regression". CS4780 Machine Learning Lecture 13. Cornell.
  6. Natarajan, B. (1995-04-01). "रैखिक प्रणालियों के लिए विरल अनुमानित समाधान". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/S0097539792240406. ISSN 0097-5397. S2CID 2072045.
  7. Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0-471-70350-1.
  8. Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge regression: Biased estimation for nonorthogonal problems". Technometrics. 12 (1): 55–67. doi:10.2307/1267351. JSTOR 1267351.
  9. Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso" (PostScript). Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. MR 1379242. Retrieved 2009-03-19.
  10. Li Wang, Michael D. Gordon & Ji Zhu (2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134. ISBN 978-0-7695-2701-7.
  11. Candes, Emmanuel; Tao, Terence (2007). "The Dantzig selector: Statistical estimation when p is much larger than n". Annals of Statistics. 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR 2382644. S2CID 88524200.
  12. Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). "Statistical estimation and testing via the ordered L1 norm". arXiv:1310.1969 [stat.ME].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)


संदर्भ