सामान्यीकरण त्रुटि: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Measure of algorithm accuracy}} यंत्र अधिगम और सांख्यिकीय शिक्षण सिद्धांत,...")
 
(TEXT)
Line 1: Line 1:
{{Short description|Measure of algorithm accuracy}}
{{Short description|Measure of algorithm accuracy}}
[[ यंत्र अधिगम ]] और सांख्यिकीय शिक्षण सिद्धांत, सामान्यीकरण त्रुटि में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref> (आउट-ऑफ़-नमूना त्रुटि के रूप में भी जाना जाता है<ref>Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. {{ISBN|978-1600490064}}</ref> या जोख़िम) इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के लिए परिणाम मानों का कितना सटीक अनुमान लगाने में सक्षम है। क्योंकि सीखने के एल्गोरिदम का मूल्यांकन परिमित नमूनों पर किया जाता है, सीखने के एल्गोरिदम का मूल्यांकन [[नमूनाकरण त्रुटि]] के प्रति संवेदनशील हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर भविष्यवाणी त्रुटि का मापन नए डेटा पर भविष्यवाणी करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। लर्निंग [[कलन विधि]] में [[ overfitting ]] से बचकर सामान्यीकरण त्रुटि को कम किया जा सकता है। मशीन लर्निंग एल्गोरिद्म के प्रदर्शन की कल्पना उन प्लॉटों द्वारा की जाती है जो सीखने की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के ''अनुमान'' के मान दिखाते हैं, जिन्हें [[ सीखने की अवस्था ]] कहा जाता है।
[[ यंत्र अधिगम ]] और सांख्यिकीय शिक्षण सिद्धांत में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए, सामान्यीकरण त्रुटि<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref> (आउट-ऑफ़-प्रतिदर्श त्रुटि या जोखिम के रूप में भी जाना जाता है<ref>Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. {{ISBN|978-1600490064}}</ref>) यह इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के परिणाम मानों का कितना यथार्थ रूप से अनुमान लगाने में सक्षम है। क्योंकि अधिगम के एल्गोरिदम का मूल्यांकन परिमित प्रतिदर्श पर किया जाता है, अधिगम के एल्गोरिदम का मूल्यांकन [[नमूनाकरण त्रुटि|प्रतिचयन त्रुटि]] के प्रति सुग्राही हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर भविष्यवाणी त्रुटि का मापन नए डेटा पर भविष्यवाणी करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। अधिगम [[कलन विधि|एल्गोरिथम]] में [[ overfitting |अत्युपपन्न]] से बचकर सामान्यीकरण त्रुटि को कम किया जा सकता है। यंत्र अधिगम एल्गोरिद्म के प्रदर्शन की कल्पना उन कथानक द्वारा की जाती है जो अधिगम की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के ''अनुमानों'' के मान दिखाते हैं, जिन्हें [[ सीखने की अवस्था |अधिगमन वक्र]] कहा जाता है।


== परिभाषा ==
== परिभाषा ==
  {{See also|Statistical learning theory}}
  {{See also|सांख्यिकीय शिक्षण सिद्धांत}}
सीखने की समस्या में, लक्ष्य एक कार्य विकसित करना है <math>f_n(\vec{x})</math> जो आउटपुट मूल्यों की भविष्यवाणी करता है <math>y</math> प्रत्येक इनपुट डेटम के लिए <math>\vec{x}</math>. सबस्क्रिप्ट <math>n</math> इंगित करता है कि समारोह <math>f_n</math> के डेटा सेट के आधार पर विकसित किया गया है <math>n</math> डेटा अंक। सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम <math>I[f]</math> किसी विशेष कार्य का <math>f</math> के सभी संभावित मूल्यों पर <math>\vec{x}</math> और <math>y</math> हानि समारोह का [[अपेक्षित मूल्य]] है <math>V(f)</math>:<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref>
 
अधिगम की समस्या में, लक्ष्य एक फलन <math>f_n(\vec{x})</math> विकसित करना है जो प्रत्येक निवेश डेटा <math>\vec{x}</math> के लिए उत्‍पाद मान <math>y</math> की भविष्यवाणी करता है। सबस्क्रिप्ट <math>n</math> इंगित करता है कि फलन <math>f_n</math> <math>n</math> डेटा बिंदुओं के डेटा समुच्चय के आधार पर विकसित किया गया है। <math>\vec{x}</math> और <math>y</math> के सभी संभावित मूल्यों पर सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम <math>I[f]</math> किसी विशेष फलन <math>f</math> का हानि फलन <math>V(f)</math> का [[अपेक्षित मूल्य]] है:<ref>Mohri, M., Rostamizadeh A., Talwakar A., (2018) ''Foundations of Machine learning'', 2nd ed., Boston: MIT Press</ref>
:<math> I[f] = \int_{X \times Y} V(f(\vec{x}),y) \rho(\vec{x},y) d\vec{x} dy, </math>
:<math> I[f] = \int_{X \times Y} V(f(\vec{x}),y) \rho(\vec{x},y) d\vec{x} dy, </math>
कहाँ <math>\rho(\vec{x},y)</math> के लिए अज्ञात संयुक्त प्रायिकता बंटन है <math>\vec{x}</math> और <math>y</math>.
कहाँ <math>\rho(\vec{x},y)</math> <math>\vec{x}</math> और <math>y</math> के लिए अज्ञात संयुक्त प्रायिकता वितरण है।


संयुक्त संभाव्यता वितरण को जाने बिना <math>\rho</math>, इसकी गणना करना असंभव है <math>I[f]</math>. इसके बजाय, हम नमूना डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। दिया गया <math>n</math> डेटा बिंदु, एक उम्मीदवार समारोह की अनुभवजन्य त्रुटि <math>f</math> है:
संयुक्त संभाव्यता वितरण <math>\rho</math> को जाने बिना, <math>I[f]</math> की गणना करना असंभव है। इसके बजाय, हम प्रतिदर्श डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। <math>n</math> डेटा बिंदुओं को देखते हुए, एक अभ्यर्थी फलन <math>f</math> की अनुभवजन्य त्रुटि है:
:<math> I_n[f] = \frac{1}{n} \sum_{i=1}^n V(f(\vec{x}_i),y_i) </math>
:<math> I_n[f] = \frac{1}{n} \sum_{i=1}^n V(f(\vec{x}_i),y_i) </math>
एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:
एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:
:<math> \lim_{n \rightarrow \infty} I[f] - I_n[f] = 0</math>
:<math> \lim_{n \rightarrow \infty} I[f] - I_n[f] = 0</math>
विशेष महत्व का सामान्यीकरण त्रुटि है <math>I[f_n]</math> डेटा-निर्भर फ़ंक्शन का <math>f_n</math> जो नमूने के आधार पर एक लर्निंग एल्गोरिद्म द्वारा पाया जाता है। पुनः, एक अज्ञात प्रायिकता बंटन के लिए, <math>I[f_n]</math> गणना नहीं की जा सकती। इसके बजाय, सांख्यिकीय शिक्षण सिद्धांत में कई समस्याओं का उद्देश्य सामान्यीकरण त्रुटि और संभाव्यता में अनुभवजन्य त्रुटि के अंतर को बाध्य या चिह्नित करना है:
डेटा-आश्रित फलन <math>f_n</math> की सामान्यीकरण त्रुटि <math>I[f_n]</math> का विशेष महत्व है जो प्रतिदर्श के आधार पर एक अधिगम एल्गोरिद्म द्वारा पाया जाता है। पुनः, एक अज्ञात संभाव्यता वितरण के लिए, <math>I[f_n]</math> की गणना नहीं की जा सकती। इसके बदले, सांख्यिकीय शिक्षण सिद्धांत में कई समस्याओं का उद्देश्य सामान्यीकरण त्रुटि और संभाव्यता में अनुभवजन्य त्रुटि के अंतर को बाध्य या चिह्नित करना है:
:<math>
:<math>
P_G = P(I[f_n] - I_n[f_n] \leq \epsilon) \geq 1 - \delta_n  
P_G = P(I[f_n] - I_n[f_n] \leq \epsilon) \geq 1 - \delta_n  
</math>
</math>
यही है, लक्ष्य संभाव्यता को चिह्नित करना है <math>1 - \delta_n</math> कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि बाध्य है <math>\epsilon</math> (आम तौर पर निर्भर करता है <math>\delta</math> और <math>n</math>).
यही है, लक्ष्य संभाव्यता <math>1 - \delta_n</math> को चिह्नित करना है कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि <math>\epsilon</math> बाध्य है (सामान्यतः <math>\delta</math> और <math>n</math> पर निर्भर करता है)कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता मानकों को पूरा करती है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (निवेश का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध हानि है और दो स्थिरता स्थितियों को पूरा करता है, तो यह सामान्यीकरण करेगा। पहली स्थिरता की स्थिति, [[लीव-वन-आउट क्रॉस-वैलिडेशन|लीव-वन-आउट अंतः वैधीकरण]] स्थिरता, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट अंतः वैधीकरण का उपयोग किया जाता है, तो <math>n\rightarrow \infty</math> के रूप में शून्य में परिवर्तित होना चाहिए। दूसरी स्थिति, अपेक्षित-टू-लीव-वन-आउट त्रुटि स्थिरता (जिसे परिकल्पना स्थिरता के रूप में भी जाना जाता है, यदि <math>L_1</math> मानक में काम कर रहा हो) पूरी होती है, यदि एक डेटा बिंदु पर छोड़ा हुआ डेटा बिंदु पर भविष्यवाणी नहीं बदलती है। प्रशिक्षण डेटासमुच्चय से हटा दिया गया है।<ref name="MukherjeeEtAl">{{cite journal|first1=S.|last1=Mukherjee|first2=P.|last2=Niyogi|first3=T.|last3=Poggio|first4=R. M.|last4=Rifkin.|title=Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization.|journal=Adv. Comput. Math.|volume=25|issue=1–3|pages=161–193|year=2006|url=http://cbcl.mit.edu/publications/ps/mukherjee-ACM-06.pdf|doi=10.1007/s10444-004-7634-z|s2cid=2240256}}</ref>
कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता (सीखने के सिद्धांत) मानदंडों को पूरा करता है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (इनपुट का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध नुकसान है और दो स्थिरता स्थितियों को पूरा करता है, तो यह सामान्यीकरण करेगा। पहली स्थिरता की स्थिति, [[लीव-वन-आउट क्रॉस-वैलिडेशन]] स्टेबिलिटी, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट क्रॉस सत्यापन का उपयोग किया जाता है, तो इसे शून्य के रूप में अभिसरण करना चाहिए <math>n\rightarrow \infty</math>. दूसरी स्थिति, अपेक्षित-से-छोड़ने-एक-बाहर त्रुटि स्थिरता (एल1 मानदंड में संचालन होने पर परिकल्पना स्थिरता के रूप में भी जाना जाता है।<math>L_1</math> मानदंड) पूरा हो जाता है यदि प्रशिक्षण डेटासेट से एक एकल डेटा बिंदु को हटा दिए जाने पर बाएं-आउट डेटापॉइंट पर भविष्यवाणी नहीं बदलती है।<ref name="MukherjeeEtAl">{{cite journal|first1=S.|last1=Mukherjee|first2=P.|last2=Niyogi|first3=T.|last3=Poggio|first4=R. M.|last4=Rifkin.|title=Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization.|journal=Adv. Comput. Math.|volume=25|issue=1–3|pages=161–193|year=2006|url=http://cbcl.mit.edu/publications/ps/mukherjee-ACM-06.pdf|doi=10.1007/s10444-004-7634-z|s2cid=2240256}}</ref>
इन शर्तों को औपचारिक रूप दिया जा सकता है:


=== लीव-वन-आउट क्रॉस-वैलिडेशन स्थिरता ===
इन स्थिति को औपचारिक रूप दिया जा सकता है:
एक एल्गोरिथ्म <math>L</math> है <math>CVloo</math> स्थिरता अगर प्रत्येक के लिए <math>n</math>, वहाँ मौजूद है <math>\beta_{CV}^{(n)}</math> और <math>\delta_{CV}^{(n)}</math> ऐसा है कि:
 
=== लीव-वन-आउट अंतः वैधीकरण स्थिरता ===
एक एल्गोरिथ्म <math>L</math> में <math>CVloo</math> स्थिरता होती है, यदि प्रत्येक <math>n</math> के लिए एक <math>\beta_{CV}^{(n)}</math> और <math>\delta_{CV}^{(n)}</math> उपस्थित हो, जैसे कि:
:<math>\forall i\in\{1,...,n\}, \mathbb{P}_S\{|V(f_{S^i},z_i)-V(f_S,z_i)|\leq\beta_{CV}^{(n)}\}\geq1-\delta_{CV}^{(n)}</math>
:<math>\forall i\in\{1,...,n\}, \mathbb{P}_S\{|V(f_{S^i},z_i)-V(f_S,z_i)|\leq\beta_{CV}^{(n)}\}\geq1-\delta_{CV}^{(n)}</math>
और <math>\beta_{CV}^{(n)}</math> और <math>\delta_{CV}^{(n)}</math> शून्य के रूप में जाओ <math>n</math> अनंत तक जाता है।<ref name="MukherjeeEtAl"/>
और <math>\beta_{CV}^{(n)}</math> और <math>\delta_{CV}^{(n)}</math> शून्य के रूप में जाते हैं क्योंकि <math>n</math> अनंत तक जाता है।<ref name="MukherjeeEtAl" />
 
=== अपेक्षित-लीव-वन-आउट त्रुटि स्थिरता ===
 
एक एल्गोरिथ्म <math>L</math> में <math>Eloo_{err}</math> स्थिरता है यदि प्रत्येक <math>n</math> के लिए एक <math>\beta_{EL}^m</math> और एक <math>\delta_{EL}^m</math> उपस्थित है जैसे कि:
=== अपेक्षित-छुट्टी-एक-आउट त्रुटि स्थिरता ===
एक एल्गोरिथ्म <math>L</math> है <math>Eloo_{err}</math> स्थिरता अगर प्रत्येक के लिए <math>n</math> एक मौजूद है <math>\beta_{EL}^m</math> और <math>\delta_{EL}^m</math> ऐसा है कि:
:<math>\forall i\in\{1,...,n\}, \mathbb{P}_S\left\{\left|I[f_S]-\frac{1}{n}\sum_{i=1}^N V\left(f_{S^{i}},z_i\right)\right|\leq\beta_{EL}^{(n)}\right\}\geq1-\delta_{EL}^{(n)}</math>
:<math>\forall i\in\{1,...,n\}, \mathbb{P}_S\left\{\left|I[f_S]-\frac{1}{n}\sum_{i=1}^N V\left(f_{S^{i}},z_i\right)\right|\leq\beta_{EL}^{(n)}\right\}\geq1-\delta_{EL}^{(n)}</math>
साथ <math>\beta_{EL}^{(n)}</math> और <math>\delta_{EL}^{(n)}</math> के लिए शून्य हो रहा है <math>n\rightarrow\infty</math>.
<math>\beta_{EL}^{(n)}</math> और <math>\delta_{EL}^{(n)}</math> के साथ <math>n\rightarrow\infty</math> के लिए शून्य हो रहा है।


लीव-वन-आउट स्थिरता के लिए <math>L_1</math> मानदंड, यह परिकल्पना स्थिरता के समान है:
<math>L_1</math> मानक के लीव-वन-आउट स्थिरता के लिए, यह परिकल्पना स्थिरता के समान है:
:<math> \mathbb{E}_{S,z}[|V(f_S,z) - V(f_{S^i},z)|] \leq \beta_H^{(n)} </math>
:<math> \mathbb{E}_{S,z}[|V(f_S,z) - V(f_{S^i},z)|] \leq \beta_H^{(n)} </math>
साथ <math>\beta_H^{(n)}</math> के रूप में शून्य हो रहा है <math>n</math> अनंत तक जाता है।<ref name="MukherjeeEtAl"/>
<math>\beta_H^{(n)}</math> के साथ शून्य हो रहा है क्योंकि <math>n</math> अनंत तक जाता है।<ref name="MukherjeeEtAl" />
 
=== एल्गोरिदम सिद्ध स्थिरता के साथ ===
 
कई एल्गोरिदम स्थिर प्रमाणित हुए हैं और इसके परिणामस्वरूप उनकी सामान्यीकरण त्रुटि की सीमाएं हैं। इन एल्गोरिदम की सूची और स्थिरता प्रमाणित करने वाले दस्तावेज़ यहां उपलब्ध हैं।  
=== सिद्ध स्थिरता के साथ एल्गोरिदम ===
कई एल्गोरिदम स्थिर साबित हुए हैं और इसके परिणामस्वरूप उनकी सामान्यीकरण त्रुटि की सीमाएं हैं। इन एल्गोरिदम की एक सूची और स्थिरता साबित करने वाले कागजात उपलब्ध हैं Stability (सीखने का सिद्धांत)#Algorithms जो स्थिर हैं।


== ओवरफिटिंग से संबंध ==
== अत्युपपन्न से संबंध ==
  {{See also|Overfitting}}
  {{See also|अत्युपपन्न }}
[[File:RegressionOverfitting.png|thumb|यह आंकड़ा ओवरफिटिंग और सामान्यीकरण त्रुटि I [f] के बीच संबंध को दर्शाता है<sub>n</sub>] - मैं<sub>S</sub>[एफ<sub>n</sub>]डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक सेट नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद कार्य फिट था। दाहिने कॉलम में, फ़ंक्शन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है।
[[File:RegressionOverfitting.png|thumb|यह आंकड़ा अत्युपपन्न और सामान्यीकरण त्रुटि ''I''[''f<sub>n</sub>''] - ''I<sub>S</sub>''[''f<sub>n</sub>''] के मध्य संबंध को दर्शाता है। डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक समुच्चय नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद फलन उपयुक्त था। दाहिने स्तंभ में, फलन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है। शीर्ष पंक्ति में, फलन 10 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। निचली पंक्ति में, फलन 100 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। जैसा कि हम देख सकते हैं, छोटे प्रतिदर्श आकार और जटिल फलन के लिए, प्रशिक्षण समुच्चय पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को अत्युपपन्न  कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही प्रतिदर्श बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर भविष्यवाणी की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।]]सामान्यीकरण त्रुटि और अत्युपपन्न की अवधारणाएं निकट से संबंधित हैं। अत्युपपन्न तब होती है जब सीखा हुआ फलन <math>f_S</math> प्रतिदर्श में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फलन प्रशिक्षण समुच्चय पर अच्छा प्रदर्शन करेगा लेकिन <math>x</math> और <math>y</math> के संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा। इस प्रकार, जितना अधिक अत्युपपन्न होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।
शीर्ष पंक्ति में, फ़ंक्शन 10 डेटापॉइंट्स के नमूना डेटासेट पर फिट होता है। निचली पंक्ति में, फ़ंक्शन 100 डेटापॉइंट के नमूना डेटासेट पर फिट होता है। जैसा कि हम देख सकते हैं, छोटे नमूना आकार और जटिल कार्यों के लिए, प्रशिक्षण सेट पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को ओवरफिट कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही नमूना बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर भविष्यवाणी की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।]]सामान्यीकरण त्रुटि और ओवरफिटिंग की अवधारणाएं निकट से संबंधित हैं। ओवरफिटिंग तब होती है जब सीखा हुआ कार्य <math>f_S</math> नमूने में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फ़ंक्शन प्रशिक्षण सेट पर अच्छा प्रदर्शन करेगा लेकिन संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा <math>x</math> और <math>y</math>. इस प्रकार, जितना अधिक ओवरफिटिंग होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।


क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन विधियों का उपयोग करके ओवरफिटिंग की मात्रा का परीक्षण किया जा सकता है, जो नमूने को सिम्युलेटेड प्रशिक्षण नमूनों और परीक्षण नमूनों में विभाजित करता है। मॉडल को तब प्रशिक्षण नमूने पर प्रशिक्षित किया जाता है और परीक्षण नमूने पर मूल्यांकन किया जाता है। परीक्षण नमूना पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए संयुक्त संभाव्यता वितरण से एक यादृच्छिक नमूने का प्रतिनिधित्व करता है <math>x</math> और <math>y</math>. यह परीक्षण नमूना हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।
अंतः वैधीकरण विधियों का उपयोग करके अत्युपपन्न की मात्रा का परीक्षण किया जा सकता है, जो प्रतिदर्श को अनुकारित प्रशिक्षण प्रतिदर्श और परीक्षण प्रतिदर्श में विभाजित करता है। मॉडल को तब प्रशिक्षण प्रतिदर्श पर प्रशिक्षित किया जाता है और परीक्षण प्रतिदर्श पर मूल्यांकन किया जाता है। परीक्षण प्रतिदर्श पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए <math>x</math> और <math>y</math> के संयुक्त संभाव्यता वितरण से एक यादृच्छिक प्रतिदर्श का प्रतिनिधित्व करता है। यह परीक्षण प्रतिदर्श हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।


ओवरफिटिंग को रोकने के लिए कई एल्गोरिदम मौजूद हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल कार्यों (तिखोनोव [[नियमितीकरण (गणित)]] के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को बाधित किया जा सकता है, या तो स्पष्ट रूप से कार्यों के रूप में या न्यूनीकरण समारोह (इवानोव नियमितीकरण) में बाधाओं को जोड़कर।
अत्युपपन्न को रोकने के लिए कई एल्गोरिदम उपस्थित हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल फलन (तिखोनोव [[नियमितीकरण (गणित)|नियमितीकरण]] के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को या तो स्पष्ट रूप से फलन के रूप में या न्यूनीकरण फलन (इवानोव नियमितीकरण) में बाधाओं को जोड़कर विवश किया जा सकता है।


एक फ़ंक्शन खोजने का दृष्टिकोण जो ओवरफिट नहीं करता है, एक ऐसे फ़ंक्शन को खोजने के लक्ष्य के साथ है जो डेटा की विशेष विशेषताओं को कैप्चर करने के लिए पर्याप्त रूप से जटिल है। इसे पूर्वाग्रह-विचरण व्यापार के रूप में जाना जाता है। ओवरफिटिंग से बचने के लिए एक फ़ंक्शन को सरल रखने से परिणामी भविष्यवाणियों में पूर्वाग्रह हो सकता है, जबकि इसे और अधिक जटिल होने की अनुमति देने से ओवरफिटिंग और भविष्यवाणियों में उच्च विचरण होता है। दोनों को एक साथ कम करना संभव नहीं है।
एक फलन खोजने का दृष्टिकोण जो अत्युपपन्न नहीं करता है, एक ऐसे फलन को खोजने के लक्ष्य के साथ है जो डेटा की विशेष विशेषताओं को अधिकृत करने के लिए पर्याप्त रूप से जटिल है। इसे पूर्वाग्रह-विचरण व्यापार के रूप में जाना जाता है। अत्युपपन्न से बचने के लिए एक फलन को सरल रखने से परिणामी भविष्यवाणियों में पूर्वाग्रह हो सकता है, जबकि इसे और अधिक जटिल होने की अनुमति देने से अत्युपपन्न और भविष्यवाणियों में उच्च विचरण होता है। दोनों को एक साथ कम करना संभव नहीं है।


==संदर्भ==
==संदर्भ==

Revision as of 13:13, 12 March 2023

यंत्र अधिगम और सांख्यिकीय शिक्षण सिद्धांत में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए, सामान्यीकरण त्रुटि[1] (आउट-ऑफ़-प्रतिदर्श त्रुटि या जोखिम के रूप में भी जाना जाता है[2]) यह इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के परिणाम मानों का कितना यथार्थ रूप से अनुमान लगाने में सक्षम है। क्योंकि अधिगम के एल्गोरिदम का मूल्यांकन परिमित प्रतिदर्श पर किया जाता है, अधिगम के एल्गोरिदम का मूल्यांकन प्रतिचयन त्रुटि के प्रति सुग्राही हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर भविष्यवाणी त्रुटि का मापन नए डेटा पर भविष्यवाणी करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। अधिगम एल्गोरिथम में अत्युपपन्न से बचकर सामान्यीकरण त्रुटि को कम किया जा सकता है। यंत्र अधिगम एल्गोरिद्म के प्रदर्शन की कल्पना उन कथानक द्वारा की जाती है जो अधिगम की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के अनुमानों के मान दिखाते हैं, जिन्हें अधिगमन वक्र कहा जाता है।

परिभाषा

अधिगम की समस्या में, लक्ष्य एक फलन विकसित करना है जो प्रत्येक निवेश डेटा के लिए उत्‍पाद मान की भविष्यवाणी करता है। सबस्क्रिप्ट इंगित करता है कि फलन डेटा बिंदुओं के डेटा समुच्चय के आधार पर विकसित किया गया है। और के सभी संभावित मूल्यों पर सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम किसी विशेष फलन का हानि फलन का अपेक्षित मूल्य है:[3]

कहाँ और के लिए अज्ञात संयुक्त प्रायिकता वितरण है।

संयुक्त संभाव्यता वितरण को जाने बिना, की गणना करना असंभव है। इसके बजाय, हम प्रतिदर्श डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। डेटा बिंदुओं को देखते हुए, एक अभ्यर्थी फलन की अनुभवजन्य त्रुटि है:

एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:

डेटा-आश्रित फलन की सामान्यीकरण त्रुटि का विशेष महत्व है जो प्रतिदर्श के आधार पर एक अधिगम एल्गोरिद्म द्वारा पाया जाता है। पुनः, एक अज्ञात संभाव्यता वितरण के लिए, की गणना नहीं की जा सकती। इसके बदले, सांख्यिकीय शिक्षण सिद्धांत में कई समस्याओं का उद्देश्य सामान्यीकरण त्रुटि और संभाव्यता में अनुभवजन्य त्रुटि के अंतर को बाध्य या चिह्नित करना है:

यही है, लक्ष्य संभाव्यता को चिह्नित करना है कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि बाध्य है (सामान्यतः और पर निर्भर करता है)। कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता मानकों को पूरा करती है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (निवेश का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध हानि है और दो स्थिरता स्थितियों को पूरा करता है, तो यह सामान्यीकरण करेगा। पहली स्थिरता की स्थिति, लीव-वन-आउट अंतः वैधीकरण स्थिरता, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट अंतः वैधीकरण का उपयोग किया जाता है, तो के रूप में शून्य में परिवर्तित होना चाहिए। दूसरी स्थिति, अपेक्षित-टू-लीव-वन-आउट त्रुटि स्थिरता (जिसे परिकल्पना स्थिरता के रूप में भी जाना जाता है, यदि मानक में काम कर रहा हो) पूरी होती है, यदि एक डेटा बिंदु पर छोड़ा हुआ डेटा बिंदु पर भविष्यवाणी नहीं बदलती है। प्रशिक्षण डेटासमुच्चय से हटा दिया गया है।[4]

इन स्थिति को औपचारिक रूप दिया जा सकता है:

लीव-वन-आउट अंतः वैधीकरण स्थिरता

एक एल्गोरिथ्म में स्थिरता होती है, यदि प्रत्येक के लिए एक और उपस्थित हो, जैसे कि:

और और शून्य के रूप में जाते हैं क्योंकि अनंत तक जाता है।[4]

अपेक्षित-लीव-वन-आउट त्रुटि स्थिरता

एक एल्गोरिथ्म में स्थिरता है यदि प्रत्येक के लिए एक और एक उपस्थित है जैसे कि:

और के साथ के लिए शून्य हो रहा है।

मानक के लीव-वन-आउट स्थिरता के लिए, यह परिकल्पना स्थिरता के समान है:

के साथ शून्य हो रहा है क्योंकि अनंत तक जाता है।[4]

एल्गोरिदम सिद्ध स्थिरता के साथ

कई एल्गोरिदम स्थिर प्रमाणित हुए हैं और इसके परिणामस्वरूप उनकी सामान्यीकरण त्रुटि की सीमाएं हैं। इन एल्गोरिदम की सूची और स्थिरता प्रमाणित करने वाले दस्तावेज़ यहां उपलब्ध हैं।

अत्युपपन्न से संबंध

यह आंकड़ा अत्युपपन्न और सामान्यीकरण त्रुटि I[fn] - IS[fn] के मध्य संबंध को दर्शाता है। डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक समुच्चय नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद फलन उपयुक्त था। दाहिने स्तंभ में, फलन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है। शीर्ष पंक्ति में, फलन 10 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। निचली पंक्ति में, फलन 100 डेटाअंक के प्रतिदर्श डेटासमुच्चय पर उपयुक्त होता है। जैसा कि हम देख सकते हैं, छोटे प्रतिदर्श आकार और जटिल फलन के लिए, प्रशिक्षण समुच्चय पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को अत्युपपन्न कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही प्रतिदर्श बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर भविष्यवाणी की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।

सामान्यीकरण त्रुटि और अत्युपपन्न की अवधारणाएं निकट से संबंधित हैं। अत्युपपन्न तब होती है जब सीखा हुआ फलन प्रतिदर्श में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फलन प्रशिक्षण समुच्चय पर अच्छा प्रदर्शन करेगा लेकिन और के संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा। इस प्रकार, जितना अधिक अत्युपपन्न होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।

अंतः वैधीकरण विधियों का उपयोग करके अत्युपपन्न की मात्रा का परीक्षण किया जा सकता है, जो प्रतिदर्श को अनुकारित प्रशिक्षण प्रतिदर्श और परीक्षण प्रतिदर्श में विभाजित करता है। मॉडल को तब प्रशिक्षण प्रतिदर्श पर प्रशिक्षित किया जाता है और परीक्षण प्रतिदर्श पर मूल्यांकन किया जाता है। परीक्षण प्रतिदर्श पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए और के संयुक्त संभाव्यता वितरण से एक यादृच्छिक प्रतिदर्श का प्रतिनिधित्व करता है। यह परीक्षण प्रतिदर्श हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।

अत्युपपन्न को रोकने के लिए कई एल्गोरिदम उपस्थित हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल फलन (तिखोनोव नियमितीकरण के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को या तो स्पष्ट रूप से फलन के रूप में या न्यूनीकरण फलन (इवानोव नियमितीकरण) में बाधाओं को जोड़कर विवश किया जा सकता है।

एक फलन खोजने का दृष्टिकोण जो अत्युपपन्न नहीं करता है, एक ऐसे फलन को खोजने के लक्ष्य के साथ है जो डेटा की विशेष विशेषताओं को अधिकृत करने के लिए पर्याप्त रूप से जटिल है। इसे पूर्वाग्रह-विचरण व्यापार के रूप में जाना जाता है। अत्युपपन्न से बचने के लिए एक फलन को सरल रखने से परिणामी भविष्यवाणियों में पूर्वाग्रह हो सकता है, जबकि इसे और अधिक जटिल होने की अनुमति देने से अत्युपपन्न और भविष्यवाणियों में उच्च विचरण होता है। दोनों को एक साथ कम करना संभव नहीं है।

संदर्भ

  1. Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
  2. Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
  3. Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
  4. 4.0 4.1 4.2 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z. S2CID 2240256.


अग्रिम पठन