सामान्यीकरण त्रुटि

From Vigyanwiki
Revision as of 12:56, 2 March 2023 by alpha>Indicwiki (Created page with "{{Short description|Measure of algorithm accuracy}} यंत्र अधिगम और सांख्यिकीय शिक्षण सिद्धांत,...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

यंत्र अधिगम और सांख्यिकीय शिक्षण सिद्धांत, सामान्यीकरण त्रुटि में पर्यवेक्षित शिक्षण अनुप्रयोगों के लिए[1] (आउट-ऑफ़-नमूना त्रुटि के रूप में भी जाना जाता है[2] या जोख़िम) इस बात का माप है कि कोई एल्गोरिद्म पहले से न देखे गए डेटा के लिए परिणाम मानों का कितना सटीक अनुमान लगाने में सक्षम है। क्योंकि सीखने के एल्गोरिदम का मूल्यांकन परिमित नमूनों पर किया जाता है, सीखने के एल्गोरिदम का मूल्यांकन नमूनाकरण त्रुटि के प्रति संवेदनशील हो सकता है। परिणामस्वरूप, वर्तमान डेटा पर भविष्यवाणी त्रुटि का मापन नए डेटा पर भविष्यवाणी करने की क्षमता के बारे में अधिक जानकारी प्रदान नहीं कर सकता है। लर्निंग कलन विधि में overfitting से बचकर सामान्यीकरण त्रुटि को कम किया जा सकता है। मशीन लर्निंग एल्गोरिद्म के प्रदर्शन की कल्पना उन प्लॉटों द्वारा की जाती है जो सीखने की प्रक्रिया के माध्यम से सामान्यीकरण त्रुटि के अनुमान के मान दिखाते हैं, जिन्हें सीखने की अवस्था कहा जाता है।

परिभाषा

सीखने की समस्या में, लक्ष्य एक कार्य विकसित करना है जो आउटपुट मूल्यों की भविष्यवाणी करता है प्रत्येक इनपुट डेटम के लिए . सबस्क्रिप्ट इंगित करता है कि समारोह के डेटा सेट के आधार पर विकसित किया गया है डेटा अंक। सामान्यीकरण त्रुटि या अपेक्षित हानि या जोखिम किसी विशेष कार्य का के सभी संभावित मूल्यों पर और हानि समारोह का अपेक्षित मूल्य है :[3]

कहाँ के लिए अज्ञात संयुक्त प्रायिकता बंटन है और .

संयुक्त संभाव्यता वितरण को जाने बिना , इसकी गणना करना असंभव है . इसके बजाय, हम नमूना डेटा पर त्रुटि की गणना कर सकते हैं, जिसे अनुभवजन्य त्रुटि (या अनुभवजन्य जोखिम) कहा जाता है। दिया गया डेटा बिंदु, एक उम्मीदवार समारोह की अनुभवजन्य त्रुटि है:

एक एल्गोरिथम को सामान्यीकरण कहा जाता है यदि:

विशेष महत्व का सामान्यीकरण त्रुटि है डेटा-निर्भर फ़ंक्शन का जो नमूने के आधार पर एक लर्निंग एल्गोरिद्म द्वारा पाया जाता है। पुनः, एक अज्ञात प्रायिकता बंटन के लिए, गणना नहीं की जा सकती। इसके बजाय, सांख्यिकीय शिक्षण सिद्धांत में कई समस्याओं का उद्देश्य सामान्यीकरण त्रुटि और संभाव्यता में अनुभवजन्य त्रुटि के अंतर को बाध्य या चिह्नित करना है:

यही है, लक्ष्य संभाव्यता को चिह्नित करना है कि सामान्यीकरण त्रुटि अनुभवजन्य त्रुटि से कम है और कुछ त्रुटि बाध्य है (आम तौर पर निर्भर करता है और ). कई प्रकार के एल्गोरिदम के लिए, यह दिखाया गया है कि एक एल्गोरिथ्म में सामान्यीकरण की सीमा होती है यदि यह कुछ स्थिरता (सीखने के सिद्धांत) मानदंडों को पूरा करता है। विशेष रूप से, यदि एक एल्गोरिथ्म सममित है (इनपुट का क्रम परिणाम को प्रभावित नहीं करता है), सीमाबद्ध नुकसान है और दो स्थिरता स्थितियों को पूरा करता है, तो यह सामान्यीकरण करेगा। पहली स्थिरता की स्थिति, लीव-वन-आउट क्रॉस-वैलिडेशन स्टेबिलिटी, कहती है कि स्थिर होने के लिए, प्रत्येक डेटा बिंदु के लिए पूर्वानुमान त्रुटि जब लीव-वन-आउट क्रॉस सत्यापन का उपयोग किया जाता है, तो इसे शून्य के रूप में अभिसरण करना चाहिए . दूसरी स्थिति, अपेक्षित-से-छोड़ने-एक-बाहर त्रुटि स्थिरता (एल1 मानदंड में संचालन होने पर परिकल्पना स्थिरता के रूप में भी जाना जाता है। मानदंड) पूरा हो जाता है यदि प्रशिक्षण डेटासेट से एक एकल डेटा बिंदु को हटा दिए जाने पर बाएं-आउट डेटापॉइंट पर भविष्यवाणी नहीं बदलती है।[4] इन शर्तों को औपचारिक रूप दिया जा सकता है:

लीव-वन-आउट क्रॉस-वैलिडेशन स्थिरता

एक एल्गोरिथ्म है स्थिरता अगर प्रत्येक के लिए , वहाँ मौजूद है और ऐसा है कि:

और और शून्य के रूप में जाओ अनंत तक जाता है।[4]


अपेक्षित-छुट्टी-एक-आउट त्रुटि स्थिरता

एक एल्गोरिथ्म है स्थिरता अगर प्रत्येक के लिए एक मौजूद है और ए ऐसा है कि:

साथ और के लिए शून्य हो रहा है .

लीव-वन-आउट स्थिरता के लिए मानदंड, यह परिकल्पना स्थिरता के समान है:

साथ के रूप में शून्य हो रहा है अनंत तक जाता है।[4]


सिद्ध स्थिरता के साथ एल्गोरिदम

कई एल्गोरिदम स्थिर साबित हुए हैं और इसके परिणामस्वरूप उनकी सामान्यीकरण त्रुटि की सीमाएं हैं। इन एल्गोरिदम की एक सूची और स्थिरता साबित करने वाले कागजात उपलब्ध हैं Stability (सीखने का सिद्धांत)#Algorithms जो स्थिर हैं।

ओवरफिटिंग से संबंध

यह आंकड़ा ओवरफिटिंग और सामान्यीकरण त्रुटि I [f] के बीच संबंध को दर्शाता हैn] - मैंS[एफn]। डेटा बिंदुओं को y = x के संबंध से उत्पन्न किया गया था जिसमें y मानों में सफेद शोर जोड़ा गया था। बाएँ स्तंभ में, प्रशिक्षण बिंदुओं का एक सेट नीले रंग में दिखाया गया है। प्रशिक्षण डेटा के लिए एक सातवां क्रम बहुपद कार्य फिट था। दाहिने कॉलम में, फ़ंक्शन का परीक्षण x और y के अंतर्निहित संयुक्त संभाव्यता वितरण से लिए गए डेटा पर किया जाता है। शीर्ष पंक्ति में, फ़ंक्शन 10 डेटापॉइंट्स के नमूना डेटासेट पर फिट होता है। निचली पंक्ति में, फ़ंक्शन 100 डेटापॉइंट के नमूना डेटासेट पर फिट होता है। जैसा कि हम देख सकते हैं, छोटे नमूना आकार और जटिल कार्यों के लिए, प्रशिक्षण सेट पर त्रुटि छोटी है, लेकिन डेटा के अंतर्निहित वितरण पर त्रुटि बड़ी है और हमने डेटा को ओवरफिट कर दिया है। नतीजतन, सामान्यीकरण त्रुटि बड़ी है। जैसे ही नमूना बिंदुओं की संख्या बढ़ती है, प्रशिक्षण और परीक्षण डेटा पर भविष्यवाणी की त्रुटि परिवर्तित हो जाती है और सामान्यीकरण त्रुटि 0 हो जाती है।

सामान्यीकरण त्रुटि और ओवरफिटिंग की अवधारणाएं निकट से संबंधित हैं। ओवरफिटिंग तब होती है जब सीखा हुआ कार्य नमूने में शोर के प्रति संवेदनशील हो जाता है। नतीजतन, फ़ंक्शन प्रशिक्षण सेट पर अच्छा प्रदर्शन करेगा लेकिन संयुक्त संभाव्यता वितरण से अन्य डेटा पर अच्छा प्रदर्शन नहीं करेगा और . इस प्रकार, जितना अधिक ओवरफिटिंग होता है, सामान्यीकरण त्रुटि उतनी ही बड़ी होती है।

क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन विधियों का उपयोग करके ओवरफिटिंग की मात्रा का परीक्षण किया जा सकता है, जो नमूने को सिम्युलेटेड प्रशिक्षण नमूनों और परीक्षण नमूनों में विभाजित करता है। मॉडल को तब प्रशिक्षण नमूने पर प्रशिक्षित किया जाता है और परीक्षण नमूने पर मूल्यांकन किया जाता है। परीक्षण नमूना पहले एल्गोरिथम द्वारा अनदेखा किया गया है और इसलिए संयुक्त संभाव्यता वितरण से एक यादृच्छिक नमूने का प्रतिनिधित्व करता है और . यह परीक्षण नमूना हमें अपेक्षित त्रुटि का अनुमान लगाने की अनुमति देता है और परिणामस्वरूप सामान्यीकरण त्रुटि के एक विशेष रूप का अनुमान लगाता है।

ओवरफिटिंग को रोकने के लिए कई एल्गोरिदम मौजूद हैं। न्यूनीकरण एल्गोरिथ्म अधिक जटिल कार्यों (तिखोनोव नियमितीकरण (गणित) के रूप में जाना जाता है) को दंडित कर सकता है, या परिकल्पना स्थान को बाधित किया जा सकता है, या तो स्पष्ट रूप से कार्यों के रूप में या न्यूनीकरण समारोह (इवानोव नियमितीकरण) में बाधाओं को जोड़कर।

एक फ़ंक्शन खोजने का दृष्टिकोण जो ओवरफिट नहीं करता है, एक ऐसे फ़ंक्शन को खोजने के लक्ष्य के साथ है जो डेटा की विशेष विशेषताओं को कैप्चर करने के लिए पर्याप्त रूप से जटिल है। इसे पूर्वाग्रह-विचरण व्यापार के रूप में जाना जाता है। ओवरफिटिंग से बचने के लिए एक फ़ंक्शन को सरल रखने से परिणामी भविष्यवाणियों में पूर्वाग्रह हो सकता है, जबकि इसे और अधिक जटिल होने की अनुमति देने से ओवरफिटिंग और भविष्यवाणियों में उच्च विचरण होता है। दोनों को एक साथ कम करना संभव नहीं है।

संदर्भ

  1. Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
  2. Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
  3. Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
  4. 4.0 4.1 4.2 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z. S2CID 2240256.


अग्रिम पठन