सामान्यीकरण त्रुटि

यंत्र अधिगम और सांख्यिकीय शिक्षण सिद्धांत, सामान्यीकरण त्रुटि में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए^[1] (आउट-ऑफ़-नमूना त्रुटि के रूप में भी जाना जाता है^[2] या जोख़िम) इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के लिए परिणाम मानों का कितना सटीक अनुमान लगाने में सक्षम है। क्योंकि सीखने के एल्गोरिदम का मूल्यांकन परिमित नमूनों पर किया जाता है, सीखने के एल्गोरिदम का मूल्यांकन नमूनाकरण त्रुटि के प्रति संवेदनशील हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर भविष्यवाणी त्रुटि का मापन नए डेटा पर भविष्यवाणी करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। लर्निंग कलन विधि में overfitting से बचकर सामान्यीकरण त्रुटि को कम किया जा सकता है। मशीन लर्निंग एल्गोरिद्म के प्रदर्शन की कल्पना उन प्लॉटों द्वारा की जाती है जो सीखने की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के अनुमान के मान दिखाते हैं, जिन्हें सीखने की अवस्था कहा जाता है।

परिभाषा

सीखने की समस्या में, लक्ष्य एक कार्य विकसित करना है $f_{n}({\vec {x}})$ जो आउटपुट मूल्यों की भविष्यवाणी करता है $y$ प्रत्येक इनपुट डेटम के लिए ${\vec {x}}$ . सबस्क्रिप्ट $n$ इंगित करता है कि समारोह $f_{n}$ के डेटा सेट के आधार पर विकसित किया गया है $n$ डेटा अंक। सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम $I[f]$ किसी विशेष कार्य का $f$ के सभी संभावित मूल्यों पर ${\vec {x}}$ और $y$ हानि समारोह का अपेक्षित मूल्य है $V(f)$ :^[3]

I[f]=\int _{X\times Y}V(f({\vec {x}}),y)\rho ({\vec {x}},y)d{\vec {x}}dy,

कहाँ $\rho ({\vec {x}},y)$ के लिए अज्ञात संयुक्त प्रायिकता बंटन है ${\vec {x}}$ और $y$ .

संयुक्त संभाव्यता वितरण को जाने बिना $\rho$ , इसकी गणना करना असंभव है $I[f]$ . इसके बजाय, हम नमूना डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। दिया गया $n$ डेटा बिंदु, एक उम्मीदवार समारोह की अनुभवजन्य त्रुटि $f$ है:

I_{n}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:

\lim _{n\rightarrow \infty }I[f]-I_{n}[f]=0

विशेष महत्व का सामान्यीकरण त्रुटि है $I[f_{n}]$ डेटा-निर्भर फ़ंक्शन का $f_{n}$ जो नमूने के आधार पर एक लर्निंग एल्गोरिद्म द्वारा पाया जाता है। पुनः, एक अज्ञात प्रायिकता बंटन के लिए, $I[f_{n}]$ गणना नहीं की जा सकती। इसके बजाय, सांख्यिकीय शिक्षण सिद्धांत में कई समस्याओं का उद्देश्य सामान्यीकरण त्रुटि और संभाव्यता में अनुभवजन्य त्रुटि के अंतर को बाध्य या चिह्नित करना है:

P_{G}=P(I[f_{n}]-I_{n}[f_{n}]\leq \epsilon )\geq 1-\delta _{n}

यही है, लक्ष्य संभाव्यता को चिह्नित करना है $1-\delta _{n}$ कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि बाध्य है $\epsilon$ (आम तौर पर निर्भर करता है $\delta$ और $n$ ). कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता (सीखने के सिद्धांत) मानदंडों को पूरा करता है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (इनपुट का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध नुकसान है और दो स्थिरता स्थितियों को पूरा करता है, तो यह सामान्यीकरण करेगा। पहली स्थिरता की स्थिति, लीव-वन-आउट क्रॉस-वैलिडेशन स्टेबिलिटी, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट क्रॉस सत्यापन का उपयोग किया जाता है, तो इसे शून्य के रूप में अभिसरण करना चाहिए $n\rightarrow \infty$ . दूसरी स्थिति, अपेक्षित-से-छोड़ने-एक-बाहर त्रुटि स्थिरता (एल1 मानदंड में संचालन होने पर परिकल्पना स्थिरता के रूप में भी जाना जाता है। $L_{1}$ मानदंड) पूरा हो जाता है यदि प्रशिक्षण डेटासेट से एक एकल डेटा बिंदु को हटा दिए जाने पर बाएं-आउट डेटापॉइंट पर भविष्यवाणी नहीं बदलती है।^[4] इन शर्तों को औपचारिक रूप दिया जा सकता है:

लीव-वन-आउट क्रॉस-वैलिडेशन स्थिरता

एक एल्गोरिथ्म $L$ है $CVloo$ स्थिरता अगर प्रत्येक के लिए $n$ , वहाँ मौजूद है $\beta _{CV}^{(n)}$ और $\delta _{CV}^{(n)}$ ऐसा है कि:

\forall i\in \{1,...,n\},\mathbb {P} _{S}\{|V(f_{S^{i}},z_{i})-V(f_{S},z_{i})|\leq \beta _{CV}^{(n)}\}\geq 1-\delta _{CV}^{(n)}

और $\beta _{CV}^{(n)}$ और $\delta _{CV}^{(n)}$ शून्य के रूप में जाओ $n$ अनंत तक जाता है।^[4]

अपेक्षित-छुट्टी-एक-आउट त्रुटि स्थिरता

एक एल्गोरिथ्म $L$ है $Eloo_{err}$ स्थिरता अगर प्रत्येक के लिए $n$ एक मौजूद है $\beta _{EL}^{m}$ और ए $\delta _{EL}^{m}$ ऐसा है कि:

\forall i\in \{1,...,n\},\mathbb {P} _{S}\left\{\left|I[f_{S}]-{\frac {1}{n}}\sum _{i=1}^{N}V\left(f_{S^{i}},z_{i}\right)\right|\leq \beta _{EL}^{(n)}\right\}\geq 1-\delta _{EL}^{(n)}

साथ $\beta _{EL}^{(n)}$ और $\delta _{EL}^{(n)}$ के लिए शून्य हो रहा है $n\rightarrow \infty$ .

लीव-वन-आउट स्थिरता के लिए $L_{1}$ मानदंड, यह परिकल्पना स्थिरता के समान है:

\mathbb {E} _{S,z}[|V(f_{S},z)-V(f_{S^{i}},z)|]\leq \beta _{H}^{(n)}

साथ $\beta _{H}^{(n)}$ के रूप में शून्य हो रहा है $n$ अनंत तक जाता है।^[4]

सिद्ध स्थिरता के साथ एल्गोरिदम

कई एल्गोरिदम स्थिर साबित हुए हैं और इसके परिणामस्वरूप उनकी सामान्यीकरण त्रुटि की सीमाएं हैं। इन एल्गोरिदम की एक सूची और स्थिरता साबित करने वाले कागजात उपलब्ध हैं Stability (सीखने का सिद्धांत)#Algorithms जो स्थिर हैं।

ओवरफिटिंग से संबंध

यह आंकड़ा ओवरफिटिंग और सामान्यीकरण त्रुटि I [f] के बीच संबंध को दर्शाता है_n] - मैं_S[एफ_n]। डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक सेट नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद कार्य फिट था। दाहिने कॉलम में, फ़ंक्शन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है। शीर्ष पंक्ति में, फ़ंक्शन 10 डेटापॉइंट्स के नमूना डेटासेट पर फिट होता है। निचली पंक्ति में, फ़ंक्शन 100 डेटापॉइंट के नमूना डेटासेट पर फिट होता है। जैसा कि हम देख सकते हैं, छोटे नमूना आकार और जटिल कार्यों के लिए, प्रशिक्षण सेट पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को ओवरफिट कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही नमूना बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर भविष्यवाणी की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।

सामान्यीकरण त्रुटि और ओवरफिटिंग की अवधारणाएं निकट से संबंधित हैं। ओवरफिटिंग तब होती है जब सीखा हुआ कार्य $f_{S}$ नमूने में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फ़ंक्शन प्रशिक्षण सेट पर अच्छा प्रदर्शन करेगा लेकिन संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा $x$ और $y$ . इस प्रकार, जितना अधिक ओवरफिटिंग होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।

क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन विधियों का उपयोग करके ओवरफिटिंग की मात्रा का परीक्षण किया जा सकता है, जो नमूने को सिम्युलेटेड प्रशिक्षण नमूनों और परीक्षण नमूनों में विभाजित करता है। मॉडल को तब प्रशिक्षण नमूने पर प्रशिक्षित किया जाता है और परीक्षण नमूने पर मूल्यांकन किया जाता है। परीक्षण नमूना पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए संयुक्त संभाव्यता वितरण से एक यादृच्छिक नमूने का प्रतिनिधित्व करता है $x$ और $y$ . यह परीक्षण नमूना हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।

ओवरफिटिंग को रोकने के लिए कई एल्गोरिदम मौजूद हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल कार्यों (तिखोनोव नियमितीकरण (गणित) के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को बाधित किया जा सकता है, या तो स्पष्ट रूप से कार्यों के रूप में या न्यूनीकरण समारोह (इवानोव नियमितीकरण) में बाधाओं को जोड़कर।

एक फ़ंक्शन खोजने का दृष्टिकोण जो ओवरफिट नहीं करता है, एक ऐसे फ़ंक्शन को खोजने के लक्ष्य के साथ है जो डेटा की विशेष विशेषताओं को कैप्चर करने के लिए पर्याप्त रूप से जटिल है। इसे पूर्वाग्रह-विचरण व्यापार के रूप में जाना जाता है। ओवरफिटिंग से बचने के लिए एक फ़ंक्शन को सरल रखने से परिणामी भविष्यवाणियों में पूर्वाग्रह हो सकता है, जबकि इसे और अधिक जटिल होने की अनुमति देने से ओवरफिटिंग और भविष्यवाणियों में उच्च विचरण होता है। दोनों को एक साथ कम करना संभव नहीं है।

संदर्भ

↑ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
↑ Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
↑ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
↑ ^4.0 ^4.1 ^4.2 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z. S2CID 2240256.

अग्रिम पठन

Olivier, Bousquet; Luxburg, Ulrike; Rätsch, Gunnar (eds.). Advanced Lectures on Machine Learning. pp. 169–207. ISBN 978-3-540-23122-6. Retrieved 10 December 2022.
Bousquet, Olivier; Elisseeff, Andr´e (1 March 2002). "Stability and Generalization". The Journal of Machine Learning Research. 2: 499–526. doi:10.1162/153244302760200704. Retrieved 10 December 2022.
Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press.
Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847-854.
White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell.

[1] Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press

[2] Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064

[3] Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press

[MukherjeeEtAl-4] 4.0 ^4.1 ^4.2 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z. S2CID 2240256.

[1]

[2]

[3]

[4]

Anonymous

Search

सामान्यीकरण त्रुटि

Namespaces

More

Page actions

Contents