सामान्यीकरण त्रुटि: Difference between revisions

Latest revision as of 12:50, 14 March 2023

यंत्र अधिगम और सांख्यिकीय शिक्षण सिद्धांत में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए, सामान्यीकरण त्रुटि^[1] (आउट-ऑफ़-प्रतिदर्श त्रुटि या जोखिम के रूप में भी जाना जाता है^[2]) इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के लिए परिणाम मूल्यों की यथार्थ रूप से पूर्वानुमान करने में सक्षम है। क्योंकि अधिगम के एल्गोरिदम का मूल्यांकन परिमित प्रतिदर्श पर किया जाता है, अधिगम के एल्गोरिदम का मूल्यांकन प्रतिचयन त्रुटि के प्रति सुग्राही हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर पूर्वानुमान त्रुटि का मापन नए डेटा पर पूर्वानुमान करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। अधिगम एल्गोरिथम में अत्युपपन्न से परिवर्जन सामान्यीकरण त्रुटि को कम किया जा सकता है। यंत्र अधिगम एल्गोरिद्म के प्रदर्शन की कल्पना उन कथानक द्वारा की जाती है जो अधिगम की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के अनुमानों के मान दिखाते हैं, जिन्हें अधिगमन वक्र कहा जाता है।

परिभाषा

अधिगम की समस्या में, लक्ष्य एक फलन $f_{n}({\vec {x}})$ विकसित करना है जो प्रत्येक निवेश डेटा ${\vec {x}}$ के लिए उत्‍पाद मान $y$ की पूर्वानुमान करता है। सबस्क्रिप्ट $n$ इंगित करता है कि फलन $f_{n}$ $n$ डेटा बिंदुओं के डेटा समुच्चय के आधार पर विकसित किया गया है। ${\vec {x}}$ और $y$ के सभी संभावित मूल्यों पर सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम $I[f]$ किसी विशेष फलन $f$ का हानि फलन $V(f)$ का अपेक्षित मूल्य है:^[3]

I[f]=\int _{X\times Y}V(f({\vec {x}}),y)\rho ({\vec {x}},y)d{\vec {x}}dy,

कहाँ $\rho ({\vec {x}},y)$ ${\vec {x}}$ और $y$ के लिए अज्ञात संयुक्त प्रायिकता वितरण है।

संयुक्त संभाव्यता वितरण $\rho$ को जाने बिना, $I[f]$ की गणना करना असंभव है। इसके बदले, हम प्रतिदर्श डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। $n$ डेटा बिंदुओं को देखते हुए, एक अभ्यर्थी फलन $f$ की अनुभवजन्य त्रुटि है:

I_{n}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:

\lim _{n\rightarrow \infty }I[f]-I_{n}[f]=0

डेटा-आश्रित फलन $f_{n}$ की सामान्यीकरण त्रुटि $I[f_{n}]$ का विशेष महत्व है जो प्रतिदर्श के आधार पर एक अधिगम एल्गोरिद्म द्वारा पाया जाता है। पुनः, एक अज्ञात संभाव्यता वितरण के लिए, $I[f_{n}]$ की गणना नहीं की जा सकती। इसके बदले, सांख्यिकीय शिक्षण सिद्धांत में कई समस्याओं का उद्देश्य सामान्यीकरण त्रुटि और संभाव्यता में अनुभवजन्य त्रुटि के अंतर को बाध्य या चिह्नित करना है:

P_{G}=P(I[f_{n}]-I_{n}[f_{n}]\leq \epsilon )\geq 1-\delta _{n}

यही, लक्ष्य संभाव्यता $1-\delta _{n}$ को चिह्नित करना है कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि $\epsilon$ बाध्य है (सामान्यतः $\delta$ और $n$ पर निर्भर करता है)। कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता मानकों को पूरा करती है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (निवेश का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध हानि है और दो स्थिरता स्थितियों को पूरा करती है, तो यह सामान्यीकरण करेगी। पहली स्थिरता की स्थिति, लीव-वन-आउट अंतः वैधीकरण स्थिरता, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट अंतः वैधीकरण का उपयोग किया जाता है, तो $n\rightarrow \infty$ के रूप में शून्य में परिवर्तित होना चाहिए। दूसरी स्थिति, अपेक्षित-टू-लीव-वन-आउट त्रुटि स्थिरता (जिसे परिकल्पना स्थिरता के रूप में भी जाना जाता है, यदि $L_{1}$ मानक में काम कर रहा हो) पूरी होती है, यदि एक डेटा बिंदु पर छोड़ा हुआ डेटा बिंदु पर पूर्वानुमान नहीं बदलता है। प्रशिक्षण डेटासमुच्चय से हटा दिया गया है।^[4]

इन स्थिति को औपचारिक रूप दिया जा सकता है:

लीव-वन-आउट अंतः वैधीकरण स्थिरता

एक एल्गोरिथ्म $L$ में $CVloo$ स्थिरता होती है, यदि प्रत्येक $n$ के लिए एक $\beta _{CV}^{(n)}$ और $\delta _{CV}^{(n)}$ उपस्थित हो, जैसे कि:

\forall i\in \{1,...,n\},\mathbb {P} _{S}\{|V(f_{S^{i}},z_{i})-V(f_{S},z_{i})|\leq \beta _{CV}^{(n)}\}\geq 1-\delta _{CV}^{(n)}

और $\beta _{CV}^{(n)}$ और $\delta _{CV}^{(n)}$ शून्य के रूप में जाते हैं क्योंकि $n$ अनंत तक जाता है।^[4]

अपेक्षित-लीव-वन-आउट त्रुटि स्थिरता

एक एल्गोरिथ्म $L$ में $Eloo_{err}$ स्थिरता है यदि प्रत्येक $n$ के लिए एक $\beta _{EL}^{m}$ और एक $\delta _{EL}^{m}$ उपस्थित है जैसे कि:

\forall i\in \{1,...,n\},\mathbb {P} _{S}\left\{\left|I[f_{S}]-{\frac {1}{n}}\sum _{i=1}^{N}V\left(f_{S^{i}},z_{i}\right)\right|\leq \beta _{EL}^{(n)}\right\}\geq 1-\delta _{EL}^{(n)}

$\beta _{EL}^{(n)}$ और $\delta _{EL}^{(n)}$ के साथ $n\rightarrow \infty$ के लिए शून्य हो रहा है।

$L_{1}$ मानक के लीव-वन-आउट स्थिरता के लिए, यह परिकल्पना स्थिरता के समान है:

\mathbb {E} _{S,z}[|V(f_{S},z)-V(f_{S^{i}},z)|]\leq \beta _{H}^{(n)}

$\beta _{H}^{(n)}$ के साथ शून्य हो रहा है क्योंकि $n$ अनंत तक जाता है।^[4]

एल्गोरिदम सिद्ध स्थिरता के साथ

कई एल्गोरिदम स्थिर प्रमाणित हुए हैं और इसके परिणामस्वरूप उनकी सामान्यीकरण त्रुटि की सीमाएं हैं। इन एल्गोरिदम की सूची और स्थिरता प्रमाणित करने वाले दस्तावेज़ यहां उपलब्ध हैं।

अत्युपपन्न से संबंध

यह आंकड़ा अत्युपपन्न और सामान्यीकरण त्रुटि I[f_n] - I_S[f_n] के मध्य संबंध को दर्शाता है। डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक समुच्चय नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद फलन उपयुक्त था। दाहिने स्तंभ में, फलन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है। शीर्ष पंक्ति में, फलन 10 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। निचली पंक्ति में, फलन 100 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। जैसा कि हम देख सकते हैं, छोटे प्रतिदर्श आकार और जटिल फलन के लिए, प्रशिक्षण समुच्चय पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को अत्युपपन्न कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही प्रतिदर्श बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर पूर्वानुमान की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।

सामान्यीकरण त्रुटि और अत्युपपन्न की अवधारणाएं निकट से संबंधित हैं। अत्युपपन्न तब होती है जब सीखा हुआ फलन $f_{S}$ प्रतिदर्श में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फलन प्रशिक्षण समुच्चय पर अच्छा प्रदर्शन करेगा लेकिन $x$ और $y$ के संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा। इस प्रकार, जितना अधिक अत्युपपन्न होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।

अंतः वैधीकरण विधियों का उपयोग करके अत्युपपन्न की मात्रा का परीक्षण किया जा सकता है, जो प्रतिदर्श को अनुकारित प्रशिक्षण प्रतिदर्श और परीक्षण प्रतिदर्श में विभाजित करता है। मॉडल को तब प्रशिक्षण प्रतिदर्श पर प्रशिक्षित किया जाता है और परीक्षण प्रतिदर्श पर मूल्यांकन किया जाता है। परीक्षण प्रतिदर्श पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए $x$ और $y$ के संयुक्त संभाव्यता वितरण से एक यादृच्छिक प्रतिदर्श का प्रतिनिधित्व करता है। यह परीक्षण प्रतिदर्श हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।

अत्युपपन्न को रोकने के लिए कई एल्गोरिदम उपस्थित हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल फलन (तिखोनोव नियमितीकरण के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को या तो स्पष्ट रूप से फलन के रूप में या न्यूनीकरण फलन (इवानोव नियमितीकरण) में बाधाओं को जोड़कर विवश किया जा सकता है।

एक फलन खोजने का दृष्टिकोण जो अत्युपपन्न नहीं करता है, एक ऐसे फलन को खोजने के लक्ष्य के साथ है जो डेटा की विशेष विशेषताओं को अधिकृत करने के लिए पर्याप्त रूप से जटिल है। इसे पूर्वाग्रह-विचरण व्यापार के रूप में जाना जाता है। अत्युपपन्न से बचने के लिए एक फलन को सरल रखने से परिणामी भविष्यवाणियों में पूर्वाग्रह हो सकता है, जबकि इसे और अधिक जटिल होने की अनुमति देने से अत्युपपन्न और भविष्यवाणियों में उच्च विचरण होता है। दोनों को एक साथ कम करना संभव नहीं है।

संदर्भ

↑ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
↑ Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
↑ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
↑ ^4.0 ^4.1 ^4.2 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z. S2CID 2240256.

अग्रिम पठन

Olivier, Bousquet; Luxburg, Ulrike; Rätsch, Gunnar (eds.). Advanced Lectures on Machine Learning. pp. 169–207. ISBN 978-3-540-23122-6. Retrieved 10 December 2022.
Bousquet, Olivier; Elisseeff, Andr´e (1 March 2002). "Stability and Generalization". The Journal of Machine Learning Research. 2: 499–526. doi:10.1162/153244302760200704. Retrieved 10 December 2022.
Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press.
Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847-854.
White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell.

[1] Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press

[2] Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064

[3] Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press

[MukherjeeEtAl-4] 4.0 ^4.1 ^4.2 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z. S2CID 2240256.

[1]

[2]

[3]

[4]

@@ Line 1: / Line 1: @@
 {{Short description|Measure of algorithm accuracy}}
-[[ यंत्र अधिगम ]] और सांख्यिकीय शिक्षण सिद्धांत में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए, सामान्यीकरण त्रुटि<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref> (आउट-ऑफ़-प्रतिदर्श त्रुटि या जोखिम के रूप में भी जाना जाता है<ref>Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. {{ISBN|978-1600490064}}</ref>) यह इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के परिणाम मानों का कितना यथार्थ रूप से अनुमान लगाने में सक्षम है। क्योंकि अधिगम के एल्गोरिदम का मूल्यांकन परिमित प्रतिदर्श पर किया जाता है, अधिगम के एल्गोरिदम का मूल्यांकन [[नमूनाकरण त्रुटि|प्रतिचयन त्रुटि]] के प्रति सुग्राही हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर भविष्यवाणी त्रुटि का मापन नए डेटा पर भविष्यवाणी करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। अधिगम [[कलन विधि|एल्गोरिथम]] में [[ overfitting |अत्युपपन्न]] से बचकर सामान्यीकरण त्रुटि को कम किया जा सकता है। यंत्र अधिगम एल्गोरिद्म के प्रदर्शन की कल्पना उन कथानक द्वारा की जाती है जो अधिगम की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के ''अनुमानों'' के मान दिखाते हैं, जिन्हें [[ सीखने की अवस्था |अधिगमन वक्र]] कहा जाता है।
+[[ यंत्र अधिगम |यंत्र अधिगम]] और सांख्यिकीय शिक्षण सिद्धांत में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए, सामान्यीकरण त्रुटि<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref> (आउट-ऑफ़-प्रतिदर्श त्रुटि या जोखिम के रूप में भी जाना जाता है<ref>Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. {{ISBN|978-1600490064}}</ref>) इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के लिए परिणाम मूल्यों की यथार्थ रूप से पूर्वानुमान करने में सक्षम है। क्योंकि अधिगम के एल्गोरिदम का मूल्यांकन परिमित प्रतिदर्श पर किया जाता है, अधिगम के एल्गोरिदम का मूल्यांकन [[नमूनाकरण त्रुटि|प्रतिचयन त्रुटि]] के प्रति सुग्राही हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर पूर्वानुमान त्रुटि का मापन नए डेटा पर पूर्वानुमान करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। अधिगम [[कलन विधि|एल्गोरिथम]] में [[ overfitting |अत्युपपन्न]] से परिवर्जन सामान्यीकरण त्रुटि को कम किया जा सकता है। यंत्र अधिगम एल्गोरिद्म के प्रदर्शन की कल्पना उन कथानक द्वारा की जाती है जो अधिगम की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के ''अनुमानों'' के मान दिखाते हैं, जिन्हें [[ सीखने की अवस्था |अधिगमन वक्र]] कहा जाता है।
 == परिभाषा ==
   {{See also|सांख्यिकीय शिक्षण सिद्धांत}}
-अधिगम की समस्या में, लक्ष्य एक फलन <math>f_n(\vec{x})</math> विकसित करना है जो प्रत्येक निवेश डेटा <math>\vec{x}</math> के लिए उत्‍पाद मान <math>y</math> की भविष्यवाणी करता है। सबस्क्रिप्ट <math>n</math> इंगित करता है कि फलन <math>f_n</math> <math>n</math> डेटा बिंदुओं के डेटा समुच्चय के आधार पर विकसित किया गया है। <math>\vec{x}</math> और <math>y</math> के सभी संभावित मूल्यों पर सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम <math>I[f]</math> किसी विशेष फलन <math>f</math> का हानि फलन <math>V(f)</math> का [[अपेक्षित मूल्य]] है:<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref>
+अधिगम की समस्या में, लक्ष्य एक फलन <math>f_n(\vec{x})</math> विकसित करना है जो प्रत्येक निवेश डेटा <math>\vec{x}</math> के लिए उत्‍पाद मान <math>y</math> की पूर्वानुमान करता है। सबस्क्रिप्ट <math>n</math> इंगित करता है कि फलन <math>f_n</math> <math>n</math> डेटा बिंदुओं के डेटा समुच्चय के आधार पर विकसित किया गया है। <math>\vec{x}</math> और <math>y</math> के सभी संभावित मूल्यों पर सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम <math>I[f]</math> किसी विशेष फलन <math>f</math> का हानि फलन <math>V(f)</math> का [[अपेक्षित मूल्य]] है:<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref>
 :<math> I[f] = \int_{X \times Y} V(f(\vec{x}),y) \rho(\vec{x},y) d\vec{x} dy, </math>
-कहाँ <math>\rho(\vec{x},y)</math>  <math>\vec{x}</math> और <math>y</math> के लिए अज्ञात संयुक्त प्रायिकता वितरण है।
+कहाँ <math>\rho(\vec{x},y)</math> <math>\vec{x}</math> और <math>y</math> के लिए अज्ञात संयुक्त प्रायिकता वितरण है।
-संयुक्त संभाव्यता वितरण <math>\rho</math> को जाने बिना, <math>I[f]</math> की गणना करना असंभव है। इसके बजाय, हम प्रतिदर्श डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। <math>n</math> डेटा बिंदुओं को देखते हुए, एक अभ्यर्थी फलन <math>f</math> की अनुभवजन्य त्रुटि है:
+संयुक्त संभाव्यता वितरण <math>\rho</math> को जाने बिना, <math>I[f]</math> की गणना करना असंभव है। इसके बदले, हम प्रतिदर्श डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। <math>n</math> डेटा बिंदुओं को देखते हुए, एक अभ्यर्थी फलन <math>f</math> की अनुभवजन्य त्रुटि है:
 :<math> I_n[f] = \frac{1}{n} \sum_{i=1}^n V(f(\vec{x}_i),y_i) </math>
 एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:
@@ Line 17: / Line 17: @@
 P_G = P(I[f_n] - I_n[f_n] \leq \epsilon) \geq 1 - \delta_n
 </math>
-यही है, लक्ष्य संभाव्यता <math>1 - \delta_n</math> को चिह्नित करना है कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि <math>\epsilon</math> बाध्य है (सामान्यतः <math>\delta</math> और <math>n</math> पर निर्भर करता है)। कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता मानकों को पूरा करती है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (निवेश का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध हानि है और दो स्थिरता स्थितियों को पूरा करता है, तो यह सामान्यीकरण करेगा। पहली स्थिरता की स्थिति, [[लीव-वन-आउट क्रॉस-वैलिडेशन|लीव-वन-आउट अंतः वैधीकरण]] स्थिरता, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट अंतः वैधीकरण का उपयोग किया जाता है, तो <math>n\rightarrow \infty</math> के रूप में शून्य में परिवर्तित होना चाहिए। दूसरी स्थिति, अपेक्षित-टू-लीव-वन-आउट त्रुटि स्थिरता (जिसे परिकल्पना स्थिरता के रूप में भी जाना जाता है, यदि <math>L_1</math> मानक में काम कर रहा हो) पूरी होती है, यदि एक डेटा बिंदु पर छोड़ा हुआ डेटा बिंदु पर भविष्यवाणी नहीं बदलती है। प्रशिक्षण डेटासमुच्चय से हटा दिया गया है।<ref name="MukherjeeEtAl">{{cite journal|first1=S.|last1=Mukherjee|first2=P.|last2=Niyogi|first3=T.|last3=Poggio|first4=R. M.|last4=Rifkin.|title=Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization.|journal=Adv. Comput. Math.|volume=25|issue=1–3|pages=161–193|year=2006|url=http://cbcl.mit.edu/publications/ps/mukherjee-ACM-06.pdf|doi=10.1007/s10444-004-7634-z|s2cid=2240256}}</ref>
+यही, लक्ष्य संभाव्यता <math>1 - \delta_n</math> को चिह्नित करना है कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि <math>\epsilon</math> बाध्य है (सामान्यतः <math>\delta</math> और <math>n</math> पर निर्भर करता है)। कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता मानकों को पूरा करती है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (निवेश का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध हानि है और दो स्थिरता स्थितियों को पूरा करती है, तो यह सामान्यीकरण करेगी। पहली स्थिरता की स्थिति, [[लीव-वन-आउट क्रॉस-वैलिडेशन|लीव-वन-आउट अंतः वैधीकरण]] स्थिरता, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट अंतः वैधीकरण का उपयोग किया जाता है, तो <math>n\rightarrow \infty</math> के रूप में शून्य में परिवर्तित होना चाहिए। दूसरी स्थिति, अपेक्षित-टू-लीव-वन-आउट त्रुटि स्थिरता (जिसे परिकल्पना स्थिरता के रूप में भी जाना जाता है, यदि <math>L_1</math> मानक में काम कर रहा हो) पूरी होती है, यदि एक डेटा बिंदु पर छोड़ा हुआ डेटा बिंदु पर पूर्वानुमान नहीं बदलता है। प्रशिक्षण डेटासमुच्चय से हटा दिया गया है।<ref name="MukherjeeEtAl">{{cite journal|first1=S.|last1=Mukherjee|first2=P.|last2=Niyogi|first3=T.|last3=Poggio|first4=R. M.|last4=Rifkin.|title=Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization.|journal=Adv. Comput. Math.|volume=25|issue=1–3|pages=161–193|year=2006|url=http://cbcl.mit.edu/publications/ps/mukherjee-ACM-06.pdf|doi=10.1007/s10444-004-7634-z|s2cid=2240256}}</ref>
 इन स्थिति को औपचारिक रूप दिया जा सकता है:
@@ Line 26: / Line 26: @@
 और <math>\beta_{CV}^{(n)}</math> और <math>\delta_{CV}^{(n)}</math> शून्य के रूप में जाते हैं क्योंकि <math>n</math> अनंत तक जाता है।<ref name="MukherjeeEtAl" />
 === अपेक्षित-लीव-वन-आउट त्रुटि स्थिरता ===
-एक एल्गोरिथ्म <math>L</math> में <math>Eloo_{err}</math> स्थिरता है यदि प्रत्येक <math>n</math> के लिए एक  <math>\beta_{EL}^m</math> और एक <math>\delta_{EL}^m</math> उपस्थित है जैसे कि:
+एक एल्गोरिथ्म <math>L</math> में <math>Eloo_{err}</math> स्थिरता है यदि प्रत्येक <math>n</math> के लिए एक <math>\beta_{EL}^m</math> और एक <math>\delta_{EL}^m</math> उपस्थित है जैसे कि:
 :<math>\forall i\in\{1,...,n\}, \mathbb{P}_S\left\{\left|I[f_S]-\frac{1}{n}\sum_{i=1}^N V\left(f_{S^{i}},z_i\right)\right|\leq\beta_{EL}^{(n)}\right\}\geq1-\delta_{EL}^{(n)}</math>
 <math>\beta_{EL}^{(n)}</math> और <math>\delta_{EL}^{(n)}</math> के साथ <math>n\rightarrow\infty</math> के लिए शून्य हो रहा है।
@@ Line 38: / Line 38: @@
 == अत्युपपन्न से संबंध ==
   {{See also|अत्युपपन्न }}
-[[File:RegressionOverfitting.png|thumb|यह आंकड़ा अत्युपपन्न और सामान्यीकरण त्रुटि ''I''[''f<sub>n</sub>''] - ''I<sub>S</sub>''[''f<sub>n</sub>''] के मध्य संबंध को दर्शाता है। डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक समुच्चय नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद फलन उपयुक्त था। दाहिने स्तंभ में, फलन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है। शीर्ष पंक्ति में, फलन 10 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। निचली पंक्ति में, फलन 100 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। जैसा कि हम देख सकते हैं, छोटे प्रतिदर्श आकार और जटिल फलन के लिए, प्रशिक्षण समुच्चय पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को अत्युपपन्न  कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही प्रतिदर्श बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर भविष्यवाणी की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।]]सामान्यीकरण त्रुटि और अत्युपपन्न की अवधारणाएं निकट से संबंधित हैं। अत्युपपन्न तब होती है जब सीखा हुआ फलन <math>f_S</math> प्रतिदर्श में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फलन प्रशिक्षण समुच्चय पर अच्छा प्रदर्शन करेगा लेकिन <math>x</math> और <math>y</math> के संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा। इस प्रकार, जितना अधिक अत्युपपन्न होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।
+[[File:RegressionOverfitting.png|thumb|यह आंकड़ा अत्युपपन्न और सामान्यीकरण त्रुटि ''I''[''f<sub>n</sub>''] - ''I<sub>S</sub>''[''f<sub>n</sub>''] के मध्य संबंध को दर्शाता है। डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक समुच्चय नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद फलन उपयुक्त था। दाहिने स्तंभ में, फलन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है। शीर्ष पंक्ति में, फलन 10 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। निचली पंक्ति में, फलन 100 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। जैसा कि हम देख सकते हैं, छोटे प्रतिदर्श आकार और जटिल फलन के लिए, प्रशिक्षण समुच्चय पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को अत्युपपन्न कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही प्रतिदर्श बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर पूर्वानुमान की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।]]सामान्यीकरण त्रुटि और अत्युपपन्न की अवधारणाएं निकट से संबंधित हैं। अत्युपपन्न तब होती है जब सीखा हुआ फलन <math>f_S</math> प्रतिदर्श में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फलन प्रशिक्षण समुच्चय पर अच्छा प्रदर्शन करेगा लेकिन <math>x</math> और <math>y</math> के संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा। इस प्रकार, जितना अधिक अत्युपपन्न होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।
-अंतः वैधीकरण विधियों का उपयोग करके अत्युपपन्न की मात्रा का परीक्षण किया जा सकता है, जो प्रतिदर्श को अनुकारित प्रशिक्षण प्रतिदर्श और परीक्षण प्रतिदर्श में विभाजित करता है। मॉडल को तब प्रशिक्षण प्रतिदर्श पर प्रशिक्षित किया जाता है और परीक्षण प्रतिदर्श पर मूल्यांकन किया जाता है। परीक्षण प्रतिदर्श पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए  <math>x</math> और <math>y</math> के संयुक्त संभाव्यता वितरण से एक यादृच्छिक प्रतिदर्श का प्रतिनिधित्व करता है। यह परीक्षण प्रतिदर्श हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।
+अंतः वैधीकरण विधियों का उपयोग करके अत्युपपन्न की मात्रा का परीक्षण किया जा सकता है, जो प्रतिदर्श को अनुकारित प्रशिक्षण प्रतिदर्श और परीक्षण प्रतिदर्श में विभाजित करता है। मॉडल को तब प्रशिक्षण प्रतिदर्श पर प्रशिक्षित किया जाता है और परीक्षण प्रतिदर्श पर मूल्यांकन किया जाता है। परीक्षण प्रतिदर्श पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए <math>x</math> और <math>y</math> के संयुक्त संभाव्यता वितरण से एक यादृच्छिक प्रतिदर्श का प्रतिनिधित्व करता है। यह परीक्षण प्रतिदर्श हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।
 अत्युपपन्न को रोकने के लिए कई एल्गोरिदम उपस्थित हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल फलन (तिखोनोव [[नियमितीकरण (गणित)|नियमितीकरण]] के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को या तो स्पष्ट रूप से फलन के रूप में या न्यूनीकरण फलन (इवानोव नियमितीकरण) में बाधाओं को जोड़कर विवश किया जा सकता है।
@@ Line 57: / Line 57: @@
 * White, H. (1992b), ''Artificial Neural Networks: Approximation and Learning Theory'', Blackwell.
-{{Differentiable computing}}
+[[Category:Articles with hatnote templates targeting a nonexistent page]]
-[[Category: वर्गीकरण एल्गोरिदम]]
-[[Category: Machine Translated Page]]
 [[Category:Created On 02/03/2023]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Pages with script errors]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:वर्गीकरण एल्गोरिदम]]

Anonymous

Search

सामान्यीकरण त्रुटि: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 12:50, 14 March 2023

Contents