नियमितीकरण (गणित)

हरे और नीले फलन दोनों दिए गए डेटा बिंदुओं पर शून्य हानि उठाते हैं। एक सीखे हुए प्रतिरूपण को हरे फलन को प्राथमिकता देने के लिए प्रेरित किया जा सकता है, जो समायोजन करके अंतर्निहित अज्ञात वितरण से खींचे गए अधिक बिंदुओं को बेहतर ढंग से सामान्यीकृत कर सकता है

\lambda

, नियमितीकरण अवधि का महत्व।

नियमितीकरण एक ऐसी प्रक्रिया है जो गणित, सांख्यिकी, गणितीय वित्त,^[1] कंप्यूटर विज्ञान, विशेष रूप से यंत्र अधिगम और व्युत्क्रम समस्याओं में प्रतिफल उत्तर को सरल बना देती है। इसका उपयोग अक्सर अव्यवस्थित समस्याओं के परिणाम प्राप्त करने या ओवरफिटिंग को रोकने के लिए किया जाता है।^[2]

हालाँकि नियमितीकरण प्रक्रियाओं को कई तरीकों से विभाजित किया जा सकता है, निम्नलिखित चित्रण विशेष रूप से सहायक है:

स्पष्ट नियमितीकरण जब भी कोई स्पष्ट रूप से इष्टतम समस्या में कोई पद जोड़ता है तो नियमितीकरण होता है। ये पद प्राथमिकताएं, दंड या बाधाएं हो सकती हैं। स्पष्ट नियमितीकरण का प्रयोग सामान्यतौर पर खराब इष्टतम समस्याओं के साथ किया जाता है। नियमितीकरण पद, या प्रतिफल, इष्टतम समाधान को अद्वितीय बनाने के लिए इष्टतम फलन पर मूल्याङ्कन करता है।
अंतर्निहित नियमितीकरण अंतर्गत नियमितीकरण के अन्य सभी रूप आते हैं। उदाहरण के लिए इसमें शीघ्र समापन, एक ठोस हानि फलन का उपयोग और विचलन को पदच्युत करना सम्मिलित है। आधुनिक यंत्र अधिगम दृष्टिकोण में अंतर्निहित नियमितीकरण अनिवार्य रूप से सर्वव्यापी है, जिसमें व्‍यापक तंत्रिका नेटवर्क के प्रशिक्षण के लिए क्रमरहित अनुपात अवरोह और समूह प्रक्रिया सम्मिलित हैं।

स्पष्ट नियमितीकरण में, समस्या या प्रतिरूपण से स्वतंत्र एक डेटा शब्द होता है, जो माप की संभावना के समतुल्य होता है और एक नियमितीकरण शब्द जो पूर्ववर्ती के समतुल्य होता है। बायेसियन आँकड़ों का उपयोग करके, दोनों को मिलाकर कोई पश्च की गणना कर सकता है, जिसमें दोनों सूचना स्रोत सम्मिलित हैं और इसलिए अनुमान प्रक्रिया को स्थिर किया जाता है। दोनों उद्देश्यों का आदान-प्रदान करके, कोई व्यक्ति डेटा पर अधिक निर्भर होना या सामान्यीकरण लागू करने का चयन कर सकता है। सभी संभावित नियमितीकरणों से निपटने वाली एक पूरी अनुसंधान शाखा है। व्यवहार में, कोई सामान्यतौर पर एक विशिष्ट नियमितीकरण का प्रयास करता है और फिर विकल्प को सही ठहराने के लिए उस नियमितीकरण के समतुल्य संभावित घनत्व का पता लगाता है। यह सामान्य ज्ञान या अंतर्ज्ञान से भौतिक रूप से प्रेरित भी हो सकता है।

यंत्र अधिगम में, डेटा शब्द प्रशिक्षण डेटा के समतुल्य होता है और नियमितीकरण या तो प्रतिरूपण का विकल्प है या कलन विधि में संशोधन है। इसका उद्देश्य हमेशा व्यापकीकरण त्रुटि को कम करना है, यानी मूल्यांकन समूह पर प्रशिक्षण डेटा की अपेक्षा प्रशिक्षित प्रतिरूपण के साथ गणना में त्रुटि को कम करना है ।^[3]

नियमितीकरण के शुरुआती उपयोगों में से एक तिखोनोव नियमितीकरण है, जो कम से कम वर्गों की विधि से संबंधित है।

वर्गीकरण

वर्गीकारक का आनुभविक अधिगम हमेशा एक अनिर्धारित समस्या है, क्योंकि यह किसी भी $x$ फलन का अनुमान लगाने का प्रयास करता है उदाहरण के लिए

$x_{1},x_{2},...x_{n}$ .

एक नियमितीकरण शब्द $R(f)$ वर्गीकरण के लिए हानि फलन में जोड़ा गया है:

\min _{f}\sum _{i=1}^{n}V(f(x_{i}),y_{i})+\lambda R(f)

जहाँ $V$ एक अंतर्निहित हानि फलन है जो पूर्वानुमान $f(x)$ की लागत का वर्णन करता है जब अंकन $y$ है जैसे वर्ग हानि या काज हानि और $\lambda$ एक मापदंड है जो नियमितीकरण शब्द के महत्व को नियंत्रित करता है। सामान्यतौर पर $R(f)$ का चयन $f$ की जटिलता पर अंकुश लगाने के लिए किया जाता है। उपयोग की गई जटिलता की ठोस धारणाओं में मानक सदिश समष्टि पर समतलता और प्रतिबंध के लिए सीमाएँ सम्मिलित हैं।^[4]

नियमितीकरण के लिए एक सैद्धांतिक औचित्य यह है कि यह समाधान पर ओकाम के रेजर को लागू करने का प्रयास करता है (जैसा कि ऊपर दिए गए चित्र में दर्शाया गया है, जहां हरे रंग के फलन, सरल वाले को प्राथमिकता दी जा सकती है)। बायेसियन अनुमान के दृष्टिकोण से, कई नियमितीकरण तकनीकें प्रतिरूपण मापदंडों पर कुछ पूर्व संभाव्यता वितरण लागू करने के अनुरूप हैं।^[5]

नियमितीकरण अधिगम की समस्या में कई उद्देश्यों को पूरा कर सकता है, जैसे सरल प्रतिरूपण अधिगम, प्रतिरूपण को विरल बनाने के लिए प्रेरित करना और समूह संरचना शुरू करना सम्मिलित है।

नियमितीकरण का यही विचार विज्ञान के अनेक क्षेत्रों में उत्पन्न हुआ था। समाकल समीकरणों (तिखोनोव नियमितीकरण) पर लागू नियमितीकरण का एक सरल अनिवार्य रूप से डेटा को अनुकूल करने और समाधान के एक प्रमाण को कम करने के बीच एक समन्वयन है। हाल ही में, कुल भिन्नता नियमितीकरण सहित गैर-रेखीय नियमितीकरण विधियां लोकप्रिय हो गई हैं।

सामान्यीकरण

व्यक्त किए गए प्रतिरूपण की सामान्यीकरण क्षमता में सुधार के लिए नियमितीकरण को एक तकनीक के रूप में प्रेरित किया जा सकता है।

इस अधिगम की समस्या का लक्ष्य एक ऐसा फलन ढूंढना है जो परिणाम को उपयुक्त या पूर्वानुमान करता है साथ ही साथ सभी संभावित निविष्ट और अंकन पर अपेक्षित त्रुटि को कम करता है। किसी फलन की अपेक्षित त्रुटि $f_{n}$ है:

I[f_{n}]=\int _{X\times Y}V(f_{n}(x),y)\rho (x,y)\,dx\,dy

जहाँ $X$ और $Y$ क्रमश निविष्ट डेटा $x$ और उनके अंकन $y$ के कार्यक्षेत्र हैं।

सामान्यतौर पर अधिगम की समस्याओं में, केवल निविष्ट डेटा और अंकन का एक उपसमूह उपलब्ध होता है, जिसे कुछ शोर के साथ मापा जाता है। इसलिए अपेक्षित त्रुटि मापने योग्य नहीं है और सर्वोत्तम विकल्प उपलब्ध प्रतिदर्श $N$ के साथ प्रयोगसिद्ध त्रुटि है :

I_{S}[f_{n}]={\frac {1}{n}}\sum _{i=1}^{N}V(f_{n}({\hat {x}}_{i}),{\hat {y}}_{i})

उपलब्ध फलन समष्टि (औपचारिक रूप से, पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि का पुनरुत्पादन) की जटिलता पर प्रतिबन्ध के बिना, एक प्रतिरूपण सीखा जाएगा जो विकल्प प्रयोगसिद्ध त्रुटि पर शून्य नुकसान उठाता है। उदाहरण के लिए यदि माप $x_{i}$ शोर के साथ बनाए गए थे तो यह प्रतिरूपण ओवरफिटिंग से ग्रस्त हो सकता है और खराब अपेक्षित त्रुटि प्रदर्शित कर सकता है। नियमितीकरण प्रतिरूपण के निर्माण के लिए उपयोग किए जाने वाले फलन समष्टि के कुछ क्षेत्रों की खोज के लिए अंकुश उत्पन्न करता है, जो सामान्यीकरण में सुधार कर सकता है।

तिखोनोव नियमितीकरण

इन तकनीकों का नाम एंड्री निकोलाइविच तिखोनोव के नाम पर रखा गया था, जिन्होंने समाकलन समीकरणों में नियमितीकरण लागू किया और कई अन्य क्षेत्रों में महत्वपूर्ण योगदान दिया था।

अज्ञात सदिश $w$ द्वारा एक रैखिक कार्य $f$ सीखते समय विशेषता ऐसा है कि $f(x)=w\cdot x$ , कोई भी जोड़ सकता है $L_{2}$ -सदिश का मानदंड $w$ छोटे मानदंडों वाले समाधानों को प्राथमिकता देने के लिए हानि की अभिव्यक्ति के लिए। तिखोनोव नियमितीकरण सबसे आम रूपों में से एक है। इसे रिज रिग्रेशन के नाम से भी जाना जाता है। इसे इस प्रकार व्यक्त किया गया है:

\min _{w}\sum _{i=1}^{n}V({\hat {x}}_{i}\cdot w,{\hat {y}}_{i})+\lambda \|w\|_{2}^{2}

,

जहाँ $({\hat {x}}_{i},{\hat {y}}_{i}),\,1\leq i\leq n,$ प्रशिक्षण के लिए उपयोग किए गए नमूनों का प्रतिनिधित्व करेगा।

एक सामान्य फलन के स्थिति में, इसके पुनरुत्पादित कर्नेल हिल्बर्ट समष्टि में फलन का मानदंड है:

\min _{f}\sum _{i=1}^{n}V(f({\hat {x}}_{i}),{\hat {y}}_{i})+\lambda \|f\|_{\mathcal {H}}^{2}

के रूप में $L_{2}$ मानक विभेदनीय कार्य है#उच्च आयामों में विभेदीकरण, अधिगम को ढतला हुआ वंश द्वारा उन्नत किया जा सकता है।

तिखोनोव-नियमित न्यूनतम वर्ग

न्यूनतम वर्ग हानि फलन और तिखोनोव नियमितीकरण के साथ अधिगम की समस्या को विश्लेषणात्मक रूप से हल किया जा सकता है। मैट्रिक्स रूप में लिखा गया, इष्टतम $w$ वह है जिसके संबंध में हानि का ग्रेडिएंट कार्य करता है $w$ 0 है.

\min _{w}{\frac {1}{n}}({\hat {X}}w-Y)^{T}({\hat {X}}w-Y)+\lambda \|w\|_{2}^{2}

\nabla _{w}={\frac {2}{n}}{\hat {X}}^{T}({\hat {X}}w-Y)+2\lambda w

0={\hat {X}}^{T}({\hat {X}}w-Y)+n\lambda w

(प्रथम क्रम की स्थिति)

w=({\hat {X}}^{T}{\hat {X}}+\lambda nI)^{-1}({\hat {X}}^{T}Y)

इष्टतम समस्या के निर्माण से, अन्य मान $w$ हानि फलन के लिए बड़े मान दें। इसे दूसरे व्युत्पन्न की जांच करके सत्यापित किया जा सकता है $\nabla _{ww}$ .

प्रशिक्षण के दौरान यह एल्गोरिथम लेता है $O(d^{3}+nd^{2})$ समय की जटिलता. पद मैट्रिक्स व्युत्क्रम और गणना के अनुरूप हैं $X^{T}X$ , क्रमश। परीक्षण होता है $O(nd)$ समय।

जल्दी रुकना

जल्दी रुकने को समय पर नियमितीकरण के रूप में देखा जा सकता है। सहज रूप से, ग्रेडिएंट डिसेंट जैसी प्रशिक्षण प्रक्रिया बढ़ती पुनरावृत्तियों के साथ अधिक से अधिक जटिल कार्यों को अधिगम की प्रवृत्ति रखती है। समय के लिए नियमितीकरण करके, सामान्यीकरण में सुधार करके प्रतिरूपण जटिलता को नियंत्रित किया जा सकता है।

प्रारंभिक रोक को प्रशिक्षण के लिए एक डेटा समूह, सत्यापन के लिए एक सांख्यिकीय रूप से स्वतंत्र डेटा समूह और परीक्षण के लिए दूसरे का उपयोग करके कार्यान्वित किया जाता है। प्रतिरूपण को तब तक प्रशिक्षित किया जाता है जब तक सत्यापन समूह पर प्रदर्शन में सुधार नहीं होता है और फिर परीक्षण समूह पर लागू किया जाता है।

न्यूनतम वर्गों में सैद्धांतिक प्रेरणा

एक व्युत्क्रमणीय मैट्रिक्स के लिए न्यूमैन श्रृंखला के परिमित सन्निकटन पर विचार करें $A$ जहाँ $\|I-A\|<1$ :

\sum _{i=0}^{T-1}(I-A)^{i}\approx A^{-1}

इसका उपयोग अनियमित न्यूनतम वर्गों के विश्लेषणात्मक समाधान का अनुमान लगाने के लिए किया जा सकता है, यदि $γ$ यह सुनिश्चित करने के लिए पेश किया गया है कि मानदंड एक से कम है।

w_{T}={\frac {\gamma }{n}}\sum _{i=0}^{T-1}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}

अनियमित न्यूनतम वर्ग अधिगम की समस्या का सटीक समाधान अनुभवजन्य त्रुटि को कम करता है, लेकिन विफल हो सकता है। सीमित करके $T$ , उपरोक्त एल्गोरिदम में एकमात्र मुफ़्त मापदंड, समस्या को समय के लिए नियमित किया जाता है, जिससे इसके सामान्यीकरण में सुधार हो सकता है।

उपरोक्त एल्गोरिदम अनुभवजन्य जोखिम के लिए ग्रेडिएंट डिसेंट पुनरावृत्तियों की संख्या को सीमित करने के समतुल्य है

I_{s}[w]={\frac {1}{2n}}\|{\hat {X}}w-{\hat {Y}}\|_{\mathbb {R} ^{n}}^{2}

ग्रेडिएंट डिसेंट अपडेट के साथ:

{\begin{aligned}w_{0}&=0\\w_{t+1}&=(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})w_{t}+{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {Y}}\end{aligned}}

आधार मामला तुच्छ है. आगमनात्मक मामला इस प्रकार सिद्ध होता है:

{\begin{aligned}w_{T}&=(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}}){\frac {\gamma }{n}}\sum _{i=0}^{T-2}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}+{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {Y}}\\&={\frac {\gamma }{n}}\sum _{i=1}^{T-1}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}+{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {Y}}\\&={\frac {\gamma }{n}}\sum _{i=0}^{T-1}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}\end{aligned}}

विरलता के लिए नियमितकर्ता

मान लीजिए कि एक शब्दकोश $\phi _{j}$ आयाम के साथ $p$ ऐसा दिया गया है कि फलन समष्टि में एक फलन को इस प्रकार व्यक्त किया जा सकता है:

f(x)=\sum _{j=1}^{p}\phi _{j}(x)w_{j}

दो आयामों में एल1 गेंद और एल2 गेंद के बीच तुलना से यह पता चलता है कि एल1 नियमितीकरण कैसे विरलता प्राप्त करता है।

विरलता प्रतिबंध लागू करना $w$ इससे सरल और अधिक व्याख्या योग्य प्रतिरूपण बन सकते हैं। यह कम्प्यूटेशनल जीवविज्ञान जैसे कई वास्तविक जीवन अनुप्रयोगों में उपयोगी है। एक उदाहरण पूर्वानुमान शक्ति को अधिकतम करते हुए चिकित्सा परीक्षण करने की लागत को कम करने के लिए किसी बीमारी के लिए एक सरल भविष्य कहनेवाला परीक्षण विकसित करना है।

एक समझदार विरलता बाधा नॉर्म (गणित)| है $L_{0}$ आदर्श $\|w\|_{0}$ , गैर-शून्य तत्वों की संख्या के रूप में परिभाषित किया गया है $w$ . हल करना ए $L_{0}$ हालाँकि, नियमित अधिगम की समस्या को एनपी-कठोरता |एनपी-हार्ड के रूप में प्रदर्शित किया गया है।^[6] टैक्सीकैब ज्यामिति| $L_{1}$ नॉर्म (नॉर्म (गणित) भी देखें) का उपयोग इष्टतम नॉर्म (गणित) का अनुमान लगाने के लिए किया जा सकता है| $L_{0}$ उत्तल विश्राम के माध्यम से आदर्श। यह दिखाया जा सकता है कि नॉर्म (गणित)| $L_{1}$ मानदंड विरलता को प्रेरित करता है। न्यूनतम वर्गों के स्थिति में, इस समस्या को सांख्यिकी में लासो (सांख्यिकी) और सिग्नल प्रोसेसिंग में आधार खोज के रूप में जाना जाता है।

\min _{w\in \mathbb {R} ^{p}}{\frac {1}{n}}\|{\hat {X}}w-{\hat {Y}}\|^{2}+\lambda \|w\|_{1}

इलास्टिक नेट नियमितीकरण

नॉर्म (गणित)| $L_{1}$ नियमितीकरण कभी-कभी गैर-अद्वितीय समाधान उत्पन्न कर सकता है। चित्र में एक सरल उदाहरण दिया गया है जब संभावित समाधानों का समष्टि 45 डिग्री रेखा पर होता है। यह कुछ अनुप्रयोगों के लिए समस्याग्रस्त हो सकता है, और नॉर्म (गणित)| के संयोजन से इसे दूर किया जा सकता है $L_{1}$ नॉर्म (गणित) के साथ| $L_{2}$ इलास्टिक नेट नियमितीकरण में नियमितीकरण, जो निम्नलिखित रूप लेता है:

\min _{w\in \mathbb {R} ^{p}}{\frac {1}{n}}\|{\hat {X}}w-{\hat {Y}}\|^{2}+\lambda (\alpha \|w\|_{1}+(1-\alpha )\|w\|_{2}^{2}),\alpha \in [0,1]

इलास्टिक नेट नियमितीकरण में समूहीकरण प्रभाव होता है, जहां सहसंबद्ध निविष्ट सुविधाओं को समतुल्य महत्व दिया जाता है।

इलास्टिक नेट नियमितीकरण सामान्यतौर पर व्यवहार में उपयोग किया जाता है और कई यंत्र अधिगम लाइब्रेरी में लागू किया जाता है।

समीपस्थ विधियाँ

जबकि नॉर्म (गणित)| $L_{1}$ नॉर्म के परिणामस्वरूप एनपी-हार्ड समस्या नहीं होती, नॉर्म (गणित)| $L_{1}$ मानदंड उत्तल है, लेकिन x = 0 पर किंक के कारण कड़ाई से भिन्न नहीं है। सबग्रेडिएंट विधियां जो उप-व्युत्पन्न पर निर्भर करती हैं, उनका उपयोग नॉर्म (गणित) को हल करने के लिए किया जा सकता है। $L_{1}$ नियमित अधिगम की समस्याएँ। हालाँकि, समीपस्थ तरीकों के माध्यम से तेजी से अभिसरण प्राप्त किया जा सकता है।

एक समस्या के लिए $\min _{w\in H}F(w)+R(w)$ ऐसा है कि $F$ लिप्सचिट्ज़ निरंतर ग्रेडिएंट (जैसे कि न्यूनतम वर्ग हानि फलन) के साथ उत्तल, निरंतर, भिन्न है, और $R$ उत्तल, सतत और उचित है, तो समस्या को हल करने की समीपस्थ विधि इस प्रकार है। सबसे पहले समीपस्थ संचालक को परिभाषित करें

\operatorname {prox} _{R}(v)=\operatorname {argmin} \limits _{w\in \mathbb {R} ^{D}}\{R(w)+{\frac {1}{2}}\|w-v\|^{2}\},

और फिर पुनरावृत्त करें

w_{k+1}=\operatorname {prox} \limits _{\gamma ,R}(w_{k}-\gamma \nabla F(w_{k}))

समीपस्थ विधि पुनरावृत्तीय रूप से ग्रेडिएंट डिसेंट निष्पादित करती है और फिर परिणाम को अनुमत समष्टि पर वापस प्रोजेक्ट करती है $R$ .

कब $R$ नॉर्म (गणित) है| $L_{1}$ नियमितीकरण, समीपस्थ संचालक सॉफ्ट-थ्रेसहोल्डिंग संचालक के समतुल्य है,

S_{\lambda }(v)f(n)={\begin{cases}v_{i}-\lambda ,&{\text{if }}v_{i}>\lambda \\0,&{\text{if }}v_{i}\in [-\lambda ,\lambda ]\\v_{i}+\lambda ,&{\text{if }}v_{i}<-\lambda \end{cases}}

यह कुशल गणना की अनुमति देता है।

अतिव्यापन के बिना समूह विरलता

सुविधाओं के समूहों को विरल बाधा द्वारा नियमित किया जा सकता है, जो इष्टतम समस्या में कुछ पूर्व ज्ञान को व्यक्त करने के लिए उपयोगी हो सकता है।

गैर-अतिव्यापी ज्ञात समूहों वाले रैखिक प्रतिरूपण के स्थिति में, एक नियमितकर्ता को परिभाषित किया जा सकता है:

R(w)=\sum _{g=1}^{G}\|w_{g}\|_{2},

जहाँ

\|w_{g}\|_{2}={\sqrt {\sum _{j=1}^{|G_{g}|}(w_{g}^{j})^{2}}}

इसे एक नियमितीकरणकर्ता को प्रेरित करने के रूप में देखा जा सकता है $L_{2}$ प्रत्येक समूह के सदस्यों पर मानदंड का अनुसरण किया जाता है $L_{1}$ समूहों पर आदर्श.

इसे समीपस्थ विधि द्वारा हल किया जा सकता है, जहां समीपस्थ संचालक एक ब्लॉक-वार सॉफ्ट-थ्रेशोल्डिंग फलन है:

\operatorname {prox} \limits _{\lambda ,R,g}(w_{g})={\begin{cases}(1-{\frac {\lambda }{\|w_{g}\|_{2}}})w_{g},&{\text{if }}\|w_{g}\|_{2}>\lambda \\0,&{\text{if }}\|w_{g}\|_{2}\leq \lambda \end{cases}}

अतिव्यापन के साथ समूह विरलता

अतिव्यापन के बिना समूह विरलता के लिए वर्णित एल्गोरिदम को उस स्थिति में लागू किया जा सकता है जहां समूह कुछ स्थितियों में अतिव्यापन करते हैं। इसके परिणामस्वरूप संभवतः कुछ समूहों में सभी शून्य तत्व होंगे, और अन्य समूहों में कुछ गैर-शून्य और कुछ शून्य तत्व होंगे।

यदि समूह संरचना को संरक्षित करना वांछित है, तो एक नया नियमितकर्ता परिभाषित किया जा सकता है:

R(w)=\inf \left\{\sum _{g=1}^{G}\|w_{g}\|_{2}:w=\sum _{g=1}^{G}{\bar {w}}_{g}\right\}

प्रत्येक के लिए $w_{g}$ , ${\bar {w}}_{g}$ सदिश के रूप में परिभाषित किया गया है जैसे कि प्रतिबंध ${\bar {w}}_{g}$ समूह को $g$ के समतुल्य होती है $w_{g}$ और अन्य सभी प्रविष्टियाँ ${\bar {w}}_{g}$ शून्य हैं. नियमितकर्ता इष्टतम विघटन पाता है $w$ भागों में. इसे कई समूहों में मौजूद सभी तत्वों की नकल के रूप में देखा जा सकता है। इस नियमितीकरण के साथ अधिगम की समस्याओं को समीपस्थ विधि से जटिलता के साथ भी हल किया जा सकता है। समीपस्थ संचालक की गणना बंद रूप में नहीं की जा सकती है, लेकिन इसे प्रभावी ढंग से पुनरावृत्त रूप से हल किया जा सकता है, जो समीपस्थ विधि पुनरावृत्ति के भीतर एक आंतरिक पुनरावृत्ति को प्रेरित करता है।

अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता

जब निविष्ट उदाहरणों की तुलना में अंकन इकट्ठा करना अधिक महंगा होता है, तो अर्ध-पर्यवेक्षित शिक्षण उपयोगी हो सकता है। नियमितीकरण को उन प्रतिरूपणों को अधिगम के लिए शिक्षण एल्गोरिदम का मार्गदर्शन करने के लिए डिज़ाइन किया गया है जो बिना पर्यवेक्षित प्रशिक्षण नमूनों की संरचना का सम्मान करते हैं। यदि एक सममित वजन मैट्रिक्स $W$ दिया गया है, एक नियमितकर्ता को परिभाषित किया जा सकता है:

R(f)=\sum _{i,j}w_{ij}(f(x_{i})-f(x_{j}))^{2}

अगर $W_{ij}$ बिंदुओं के लिए कुछ दूरी मीट्रिक के परिणाम को एन्कोड करता है $x_{i}$ और $x_{j}$ , यह वांछनीय है कि $f(x_{i})\approx f(x_{j})$ . यह नियमितीकरण इस अंतर्ज्ञान को पकड़ता है, और इसके समतुल्य है:

R(f)={\bar {f}}^{T}L{\bar {f}}

जहाँ

L=D-W

द्वारा प्रेरित ग्राफ का लाप्लासियन मैट्रिक्स है

W

.

इष्टतम समस्या $\min _{f\in \mathbb {R} ^{m}}R(f),m=u+l$ बाधा होने पर विश्लेषणात्मक रूप से हल किया जा सकता है $f(x_{i})=y_{i}$ सभी पर्यवेक्षित नमूनों के लिए लागू किया जाता है। सदिश का अंकन वाला भाग $f$ इसलिए स्पष्ट है. का अंकन रहित भाग $f$ इसके लिए हल किया गया है:

\min _{f_{u}\in \mathbb {R} ^{u}}f^{T}Lf=\min _{f_{u}\in \mathbb {R} ^{u}}\{f_{u}^{T}L_{uu}f_{u}+f_{l}^{T}L_{lu}f_{u}+f_{u}^{T}L_{ul}f_{l}\}

\nabla _{f_{u}}=2L_{uu}f_{u}+2L_{ul}Y

f_{u}=L_{uu}^{\dagger }(L_{ul}Y)

छद्म-विपरीत इसलिए लिया जा सकता है क्योंकि $L_{ul}$ के समतुल्य ही सीमा होती है $L_{uu}$ .

मल्टीटास्क अधिगम के लिए नियमितकर्ता

मल्टीटास्क अधिगम की स्थिति में, $T$ समस्याओं पर एक साथ विचार किया जाता है, प्रत्येक समस्या किसी न किसी तरह से संबंधित होती है। लक्ष्य अधिगम है $T$ कार्य, आदर्श रूप से कार्यों की संबंधितता से शक्ति उधार लेते हैं, जिनमें पूर्वानुमान लगाने की शक्ति होती है। यह मैट्रिक्स अधिगम के समतुल्य है $W:T\times D$ .

स्तंभों पर विरल नियमितकर्ता

R(w)=\sum _{i=1}^{D}\|W\|_{2,1}

यह नियमितीकरण प्रत्येक कॉलम पर एक L2 मानदंड और सभी कॉलमों पर एक L1 मानदंड को परिभाषित करता है। इसे समीपस्थ तरीकों से हल किया जा सकता है।

परमाणु मानक नियमितीकरण

R(w)=\|\sigma (W)\|_{1}

जहाँ

\sigma (W)

के एकवचन मूल्य अपघटन में eigenvalues और eigenvectors है

W

.

माध्य-विवश नियमितीकरण

R(f_{1}\cdots f_{T})=\sum _{t=1}^{T}\|f_{t}-{\frac {1}{T}}\sum _{s=1}^{T}f_{s}\|_{H_{k}}^{2}

यह नियमितकर्ता प्रत्येक कार्य के लिए सीखे गए कार्यों को सभी कार्यों में कार्यों के समग्र औसत के समतुल्य होने के लिए बाध्य करता है। यह पूर्व सूचना व्यक्त करने के लिए उपयोगी है जिसे प्रत्येक कार्य द्वारा एक-दूसरे कार्य के साथ साझा करने की अपेक्षा की जाती है। एक उदाहरण दिन के अलग-अलग समय पर मापे गए रक्त आयरन के स्तर की पूर्वानुमान करना है, जहां प्रत्येक कार्य एक व्यक्ति का प्रतिनिधित्व करता है।

संकुल माध्य-विवश नियमितीकरण

R(f_{1}\cdots f_{T})=\sum _{r=1}^{C}\sum _{t\in I(r)}\|f_{t}-{\frac {1}{I(r)}}\sum _{s\in I(r)}f_{s}\|_{H_{k}}^{2}

जहाँ

I(r)

कार्यों का एक समूह है.

यह नियमितीकरण माध्य-विवश नियमितीकरण के समतुल्य है, लेकिन इसके अपेक्षा एक ही क्लस्टर के भीतर कार्यों के बीच समतुल्यता को लागू करता है। यह अधिक जटिल पूर्व जानकारी प्राप्त कर सकता है। इस तकनीक का उपयोग NetFlix अनुशंसाओं की पूर्वानुमान करने के लिए किया गया है। एक क्लस्टर उन लोगों के समूह के अनुरूप होगा जो समतुल्य प्राथमिकताएँ साझा करते हैं।

ग्राफ-आधारित समतुल्यता

उपरोक्त से अधिक सामान्यतः, कार्यों के बीच समतुल्यता को एक फलन द्वारा परिभाषित किया जा सकता है। नियमितीकरण प्रतिरूपण को समतुल्य कार्यों के लिए समतुल्य कार्य अधिगम के लिए प्रोत्साहित करता है।

R(f_{1}\cdots f_{T})=\sum _{t,s=1,t\neq s}^{T}\|f_{t}-f_{s}\|^{2}M_{ts}

किसी दिए गए सममित समतुल्यता मैट्रिक्स के लिए

M

.

सांख्यिकी और यंत्र अधिगम में नियमितीकरण के अन्य उपयोग

बायेसियन प्रतिरूपण तुलना विधियां पूर्व संभाव्यता का उपयोग करती हैं जो (सामान्यतौर पर) अधिक जटिल प्रतिरूपणों को कम संभावना देती है। प्रसिद्ध प्रतिरूपण चयन तकनीकों में अकाइक सूचना मानदंड (एआईसी), न्यूनतम विवरण लंबाई (एमडीएल), और बायेसियन सूचना मानदंड (बीआईसी) सम्मिलित हैं। अतिउपयुक्तता को नियंत्रित करने के वैकल्पिक तरीकों में नियमितीकरण सम्मिलित नहीं है जिसमें क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन सम्मिलित है।

रैखिक प्रतिरूपण में नियमितीकरण के विभिन्न तरीकों के अनुप्रयोगों के उदाहरण हैं:

Model	Fit measure	Entropy measure^[4]^[7]
AIC/BIC	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
Ridge regression^[8]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
Lasso^[9]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
Basis pursuit denoising	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin–Osher–Fatemi model (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts model	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[10]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig Selector^[11]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[12]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$

यह भी देखें

↑ Kratsios, Anastasis (2020). "Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data". Risks. 8 (2): [1]. doi:10.3390/risks8020040. Term structure models can be regularized to remove arbitrage opportunities [sic?]. {{cite journal}}: Cite journal requires |journal= (help)
↑ Bühlmann, Peter; Van De Geer, Sara (2011). उच्च-आयामी डेटा के लिए आँकड़े. Springer Series in Statistics. p. 9. doi:10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2. If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary.
↑ "गहन शिक्षण पुस्तक". www.deeplearningbook.org. Retrieved 2021-01-29.{{cite web}}: CS1 maint: url-status (link)
↑ ^4.0 ^4.1 Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0-387-31073-2.
↑ For the connection between maximum a posteriori estimation and ridge regression, see Weinberger, Kilian (July 11, 2018). "Linear / Ridge Regression". CS4780 Machine Learning Lecture 13. Cornell.
↑ Natarajan, B. (1995-04-01). "रैखिक प्रणालियों के लिए विरल अनुमानित समाधान". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/S0097539792240406. ISSN 0097-5397. S2CID 2072045.
↑ Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0-471-70350-1.
↑ Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge regression: Biased estimation for nonorthogonal problems". Technometrics. 12 (1): 55–67. doi:10.2307/1267351. JSTOR 1267351.
↑ Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso" (PostScript). Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. MR 1379242. Retrieved 2009-03-19.
↑ Li Wang, Michael D. Gordon & Ji Zhu (2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134. ISBN 978-0-7695-2701-7.
↑ Candes, Emmanuel; Tao, Terence (2007). "The Dantzig selector: Statistical estimation when p is much larger than n". Annals of Statistics. 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR 2382644. S2CID 88524200.
↑ Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). "Statistical estimation and testing via the ordered L1 norm". arXiv:1310.1969 [stat.ME].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)

संदर्भ

Neumaier, A. (1998). "Solving ill-conditioned and singular linear systems: A tutorial on regularization" (PDF). SIAM Review. 40 (3): 636–666. Bibcode:1998SIAMR..40..636N. doi:10.1137/S0036144597321909.

[1] Kratsios, Anastasis (2020). "Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data". Risks. 8 (2): [1]. doi:10.3390/risks8020040. Term structure models can be regularized to remove arbitrage opportunities [sic?]. {{cite journal}}: Cite journal requires |journal= (help)

[2] Bühlmann, Peter; Van De Geer, Sara (2011). उच्च-आयामी डेटा के लिए आँकड़े. Springer Series in Statistics. p. 9. doi:10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2. If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary.

[3] "गहन शिक्षण पुस्तक". www.deeplearningbook.org. Retrieved 2021-01-29.{{cite web}}: CS1 maint: url-status (link)

[:0-4] 4.0 ^4.1 Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0-387-31073-2.

[5] For the connection between maximum a posteriori estimation and ridge regression, see Weinberger, Kilian (July 11, 2018). "Linear / Ridge Regression". CS4780 Machine Learning Lecture 13. Cornell.

[6] Natarajan, B. (1995-04-01). "रैखिक प्रणालियों के लिए विरल अनुमानित समाधान". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/S0097539792240406. ISSN 0097-5397. S2CID 2072045.

[7] Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0-471-70350-1.

[ridge-8] Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge regression: Biased estimation for nonorthogonal problems". Technometrics. 12 (1): 55–67. doi:10.2307/1267351. JSTOR 1267351.

[9] Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso" (PostScript). Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. MR 1379242. Retrieved 2009-03-19.

[10] Li Wang, Michael D. Gordon & Ji Zhu (2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134. ISBN 978-0-7695-2701-7.

[11] Candes, Emmanuel; Tao, Terence (2007). "The Dantzig selector: Statistical estimation when p is much larger than n". Annals of Statistics. 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR 2382644. S2CID 88524200.

[12] Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). "Statistical estimation and testing via the ordered L1 norm". arXiv:1310.1969 [stat.ME].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Model	Fit measure	Entropy measure^[4]^[7]
AIC/BIC	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
Ridge regression^[8]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
Lasso^[9]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
Basis pursuit denoising	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin–Osher–Fatemi model (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts model	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[10]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig Selector^[11]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[12]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$

Anonymous

Search

नियमितीकरण (गणित)

Namespaces

More

Page actions

Contents

वर्गीकरण

सामान्यीकरण

तिखोनोव नियमितीकरण

तिखोनोव-नियमित न्यूनतम वर्ग

जल्दी रुकना

न्यूनतम वर्गों में सैद्धांतिक प्रेरणा

विरलता के लिए नियमितकर्ता

समीपस्थ विधियाँ

अतिव्यापन के बिना समूह विरलता

अतिव्यापन के साथ समूह विरलता

अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता

मल्टीटास्क अधिगम के लिए नियमितकर्ता

स्तंभों पर विरल नियमितकर्ता

परमाणु मानक नियमितीकरण

माध्य-विवश नियमितीकरण

संकुल माध्य-विवश नियमितीकरण

ग्राफ-आधारित समतुल्यता

सांख्यिकी और यंत्र अधिगम में नियमितीकरण के अन्य उपयोग

यह भी देखें

टिप्पणियाँ

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

नियमितीकरण (गणित)

वर्गीकरण

सामान्यीकरण

तिखोनोव नियमितीकरण

तिखोनोव-नियमित न्यूनतम वर्ग

जल्दी रुकना

न्यूनतम वर्गों में सैद्धांतिक प्रेरणा

विरलता के लिए नियमितकर्ता

समीपस्थ विधियाँ

अतिव्यापन के बिना समूह विरलता

अतिव्यापन के साथ समूह विरलता

अर्ध-पर्यवेक्षित शिक्षण के लिए नियमितकर्ता

मल्टीटास्क अधिगम के लिए नियमितकर्ता

स्तंभों पर विरल नियमितकर्ता

परमाणु मानक नियमितीकरण

माध्य-विवश नियमितीकरण

संकुल माध्य-विवश नियमितीकरण

ग्राफ-आधारित समतुल्यता

सांख्यिकी और यंत्र अधिगम में नियमितीकरण के अन्य उपयोग

यह भी देखें

टिप्पणियाँ

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories