वर्गीकरण के लिए हानि फलन
Part of a series on |
Machine learning and data mining |
---|
यंत्र अधिगम और गणितीय अनुकूलन में, वर्गीकरण के लिए हानि फ़ंक्शन अभिकलनात्मक रूप से व्यवहार्य हानि फ़ंक्शन हैं जो सांख्यिकीय वर्गीकरण में भविष्यवाणियों की अशुद्धि के लिए भुगतान की गई कीमत का प्रतिनिधित्व करते हैं (पहचानने की समस्याएं कि कोई विशेष अवलोकन किस श्रेणी से संबंधित है)।[1] दिया गया सभी संभावित इनपुट के समष्टि के रूप में ( सामान्यतः)। ), और लेबल के सेट (संभावित आउटपुट) के रूप में, वर्गीकरण एल्गोरिदम का एक विशिष्ट लक्ष्य एक फ़ंक्शन ढूंढना है जो किसी लेबल की सबसे अच्छी भविष्यवाणी करता है किसी दिए गए इनपुट के लिए .[2] चूंकि, अधूरी जानकारी, माप में शोर, या अंतर्निहित प्रक्रिया में संभाव्य घटकों के कारण, यह संभव है भिन्न उत्पन्न करने के लिए .[3] परिणामस्वरूप, सीखने की समस्या का लक्ष्य अपेक्षित हानि (जिसे हानि के रूप में भी जाना जाता है) को कम करना है, जिसे इस प्रकार परिभाषित किया गया है
कहाँ एक दिया गया हानि फ़ंक्शन है, और डेटा उत्पन्न करने वाली प्रक्रिया का संभाव्यता घनत्व फ़ंक्शन है, जिसे समकक्ष रूप से लिखा जा सकता है
वर्गीकरण के भीतर, सामान्यतः उपयोग किए जाने वाले कई हानि फ़ंक्शन मात्र वास्तविक लेबल के उत्पाद के संदर्भ में लिखे जाते हैं और अनुमानित लेबल . इसलिए, उन्हें मात्र एक चर के कार्यों के रूप में परिभाषित किया जा सकता है , जिससे की उपयुक्त रूप से चुने गए फ़ंक्शन के साथ . इन्हें मार्जिन-आधारित हानि फ़ंक्शन कहा जाता है। मार्जिन-आधारित हानि फ़ंक्शन को चुनना चुनने के समान है . इस ढांचे के भीतर हानि फ़ंक्शन का चयन इष्टतम को प्रभावित करता है जो अपेक्षित हानि को कम करता है।
बाइनरी वर्गीकरण के मामले में, ऊपर निर्दिष्ट अभिन्न से अपेक्षित हानि की गणना को सरल बनाना संभव है। विशेष रूप से,
दूसरी समानता ऊपर वर्णित गुणों से मिलती है। तीसरी समानता इस तथ्य से उत्पन्न होती है कि 1 और −1 ही एकमात्र संभावित मान हैं , और चौथा क्योंकि . कोष्ठक के भीतर शब्द सशर्त हानि के रूप में जाना जाता है।
कोई भी इसे मिनिमाइज़र के रूप में हल कर सकता है के संबंध में अंतिम समानता के कार्यात्मक व्युत्पन्न को लेकर और व्युत्पन्न को 0 के समतुल्य सेट करना। इसका परिणाम निम्नलिखित समीकरण होगा
जो सशर्त हानि के व्युत्पन्न को शून्य के समतुल्य निर्धारित करने के समतुल्य है।
वर्गीकरण की द्विआधारी प्रकृति को देखते हुए, हानि फ़ंक्शन के लिए एक प्राकृतिक चयन (झूठी धनात्मक और झूठी ऋणात्मक के लिए समान लागत मानते हुए) 0-1 हानि फ़ंक्शन (0-1 संकेतक फ़ंक्शन) होगा, जो 0 का मान लेता है यदि अनुमानित वर्गीकरण वास्तविक वर्ग के समतुल्य होता है या 1 यदि अनुमानित वर्गीकरण वास्तविक वर्ग से मेल नहीं खाता है। यह चयन किसके द्वारा प्रतिरूपित किया गया है?
कहाँ हेविसाइड स्टेप फ़ंक्शन को इंगित करता है। चूंकि, यह हानि फ़ंक्शन गैर-उत्तल और गैर-सुचारू है, और इष्टतम समाधान के लिए समाधान एक एनपी कठिन कॉम्बिनेटोरियल अनुकूलन समस्या है।[4] परिणामस्वरूप, हानि फ़ंक्शन सरोगेट्स को प्रतिस्थापित करना उत्तम होता है जो सामान्यतः उपयोग किए जाने वाले शिक्षण एल्गोरिदम के लिए ट्रैक करने योग्य होते हैं, क्योंकि उनके पास उत्तल और चिकनी होने जैसे सुविधाजनक गुण होते हैं। उनकी अभिकलनात्मक ट्रैक्टेबिलिटी के अतिरिक्त, कोई यह दिखा सकता है कि इन हानि सरोगेट्स का उपयोग करके सीखने की समस्या का समाधान मूल वर्गीकरण समस्या के वास्तविक समाधान की पुनर्प्राप्ति की अनुमति देता है।[5] इनमें से कुछ सरोगेट्स का वर्णन नीचे दिया गया है।
व्यवहार में, संभाव्यता वितरण अज्ञात है। परिणामस्वरूप, के एक प्रशिक्षण सेट का उपयोग करना आईआईडी नमूना बिंदु
डेटा नमूना समष्टि से लिया गया, कोई अनुभवजन्य हानि को कम करना चाहता है
अपेक्षित हानि के लिए एक प्रॉक्सी के रूप में।[3](अधिक विस्तृत विवरण के लिए सांख्यिकीय शिक्षण सिद्धांत देखें।)
बेयस संगति
बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम , अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और के रूप में है
- .
एक हानि फ़ंक्शन को वर्गीकरण-कैलिब्रेटेड या बेयस सुसंगत कहा जाता है यदि यह इष्टतम है इस प्रकार कि और इस प्रकार बेयस निर्णय नियम के अनुसार इष्टतम है। बेयस लगातार हानि फ़ंक्शन हमें बेयस इष्टतम निर्णय फ़ंक्शन खोजने की अनुमति देता है अपेक्षित हानि को सीधे कम करके और संभाव्यता घनत्व कार्यों को स्पष्ट रूप से मॉडल किए बिना।
उत्तल मार्जिन हानि के लिए , ऐसा दिखाया जा सकता है क्या बेयस सुसंगत है यदि और मात्र यदि यह 0 और पर अवकलनीय है .[6][1]फिर भी, यह परिणाम गैर-उत्तल बेयस लगातार हानि कार्यों के अस्तित्व को बाहर नहीं करता है। एक अधिक सामान्य परिणाम बताता है कि बेयस लगातार हानि फ़ंक्शन निम्नलिखित फॉर्मूलेशन का उपयोग करके उत्पन्न किया जा सकता है [7]
- ,
कहाँ क्या कोई व्युत्क्रमणीय फलन ऐसा है? और क्या कोई अवकलनीय सख्ती से अवतल कार्य है जैसे कि . तालिका-I कुछ उदाहरण विकल्पों के लिए उत्पन्न बेयस लगातार हानि फ़ंक्शन दिखाता है और . ध्यान दें कि सैवेज और स्पर्शरेखा हानि उत्तल नहीं हैं। इस प्रकार के गैर-उत्तल हानि कार्यों को वर्गीकरण में आउटलेर्स से निपटने में उपयोगी दिखाया गया है।[7][8] (2) से उत्पन्न सभी हानि कार्यों के लिए, पश्च संभाव्यता इनवर्टिबल लिंक फ़ंक्शन का उपयोग करके पाया जा सकता है . ऐसे हानि फ़ंक्शन जहां उलटे लिंक का उपयोग करके पिछली संभावना को पुनर्प्राप्त किया जा सकता है, उचित हानि फ़ंक्शन कहलाते हैं।
Loss name | ||||
---|---|---|---|---|
Exponential | ||||
Logistic | ||||
Square | ||||
Savage | ||||
Tangent |
अपेक्षित हानि को न्यूनतम करने वाला एकमात्र उपाय, , उपरोक्त उत्पन्न हानि कार्यों से जुड़े समीकरण (1) से सीधे पाया जा सकता है और संबंधित के समतुल्य दिखाया जा सकता है . यह गैर-उत्तल हानि कार्यों के लिए भी लागू होता है, जिसका अर्थ है कि ग्रेडिएंट डिसेंट आधारित एल्गोरिदम जैसे ग्रेडिएंट बूस्टिंग का उपयोग मिनिमाइज़र के निर्माण के लिए किया जा सकता है।
उचित हानि कार्य, हानि मार्जिन और नियमितीकरण
उचित हानि कार्यों के लिए, हानि मार्जिन को इस प्रकार परिभाषित किया जा सकता है और क्लासिफायरियर के नियमितीकरण गुणों से सीधे संबंधित दिखाया गया है।[9] विशेष रूप से बड़े मार्जिन का हानि फ़ंक्शन नियमितीकरण को बढ़ाता है और पिछली संभावना का उत्तम अनुमान उत्पन्न करता है। उदाहरण के लिए, लॉजिस्टिक हानि के लिए हानि मार्जिन को बढ़ाया जा सकता है पैरामीटर और लॉजिस्टिक हानि को इस रूप में लिखना जहां छोटा है हानि का मार्जिन बढ़ जाता है. यह दिखाया गया है कि यह सीधे तौर पर ग्रेडिएंट बूस्टिंग में सीखने की दर को कम करने के समतुल्य है जहां घट रही है बूस्टेड क्लासिफायरियर के नियमितीकरण में सुधार करता है। सिद्धांत यह स्पष्ट करता है कि जब सीखने की दर का उपयोग किया जाता है, पश्च संभाव्यता को पुनः प्राप्त करने का सही सूत्र अब है .
निष्कर्ष में, बड़े मार्जिन (छोटे) के साथ हानि फ़ंक्शन चुनकर ) हम नियमितीकरण बढ़ाते हैं और पश्च संभाव्यता के अपने अनुमानों में सुधार करते हैं जो बदले में अंतिम क्लासिफायरियर के आरओसी वक्र में सुधार करता है।
वर्ग हानि
जबकि सामान्यतः प्रतिगमन में उपयोग किया जाता है, वर्ग हानि फ़ंक्शन को फ़ंक्शन के रूप में फिर से लिखा जा सकता है और वर्गीकरण के लिए उपयोग किया जाता है। इसे निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
वर्ग हानि फ़ंक्शन उत्तल और चिकना दोनों है। चूंकि, वर्ग हानि फ़ंक्शन आउटलेर्स को अत्यधिक दंडित करता है, जिससे लॉजिस्टिक हानि या हिंज हानि फ़ंक्शन की तुलना में धीमी अभिसरण दर (नमूना सम्मिश्रता के संबंध में) होती है।[1] इसके अतिरिक्त, ऐसे फ़ंक्शन जो उच्च मान उत्पन्न करते हैं कुछ के लिए के उच्च मूल्यों के कारण, वर्ग हानि फ़ंक्शन के साथ खराब प्रदर्शन करेगा चाहे कोई भी लक्षण दिखे, कठोर दंड दिया जाएगा और मिलान।
वर्ग हानि फ़ंक्शन का एक लाभ यह है कि इसकी संरचना नियमितीकरण मापदंडों के सरल क्रॉस सत्यापन के लिए उधार देती है। विशेष रूप से तिखोनोव नियमितीकरण के लिए, कोई लीव-वन-आउट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके नियमितीकरण पैरामीटर को उसी समय में हल कर सकता है, जितना किसी एक समस्या को हल करने में लगेगा।[10] का मिनिमाइज़र वर्ग हानि फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है
लॉजिस्टिक हानि
लॉजिस्टिक हानि फ़ंक्शन निम्नानुसार (2) और तालिका- I का उपयोग करके उत्पन्न किया जा सकता है
लॉजिस्टिक हानि उत्तल है और ऋणात्मक मूल्यों के लिए रैखिक रूप से बढ़ती है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। लॉजिस्टिक लॉस का उपयोग लॉगिटबूस्ट में किया जाता है।
का मिनिमाइज़र लॉजिस्टिक लॉस फ़ंक्शन को सीधे समीकरण (1) से पाया जा सकता है
यह फ़ंक्शन कब अपरिभाषित है या (क्रमशः ∞ और −∞ की ओर रुझान), लेकिन एक सहज वक्र की भविष्यवाणी करता है जो कब बढ़ता है जब बढ़ता है और 0 के समतुल्य हो जाता है .[3]
यह जांचना सरल है कि लॉजिस्टिक लॉस और बाइनरी क्रॉस एन्ट्रापी लॉस (लॉग लॉस) वास्तव में एक ही हैं (गुणात्मक स्थिरांक तक) ). क्रॉस एन्ट्रापी हानि अनुभवजन्य वितरण और अनुमानित वितरण के बीच कुल्बैक-लीब्लर विचलन से निकटता से संबंधित है। आधुनिक गहन शिक्षण में क्रॉस एन्ट्रॉपी हानि सर्वव्यापी है।
घातीय हानि
घातांकीय हानि फ़ंक्शन निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
घातीय हानि उत्तल है और ऋणात्मक मूल्यों के लिए तेजी से बढ़ती है जो इसे आउटलेर्स के प्रति अधिक संवेदनशील बनाती है। घातीय हानि का उपयोग AdaBoost में किया जाता है।
का मिनिमाइज़र घातीय हानि फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है
बर्बर हानि
सैवेज हानि[7] निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
सैवेज लॉस अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों से घिरा है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाता है। सैवेज लॉस का उपयोग ग्रेडिएंट बूस्टिंग और सैवेजबूस्ट एल्गोरिदम में किया गया है।
का मिनिमाइज़र सैवेज लॉस फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है
स्पर्शरेखा हानि
स्पर्शरेखा हानि[11] निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
स्पर्शरेखा हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों के लिए बाध्य है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। रोचक बात यह है कि टेंगेंट हानि उन डेटा बिंदुओं पर एक निश्चित जुर्माना भी लगाती है जिन्हें बहुत सही ढंग से वर्गीकृत किया गया है। इससे डेटा सेट पर अति-प्रशिक्षण को रोकने में सहायता मिल सकती है। टैंगेंट लॉस का उपयोग ग्रेडिएंट बूस्टिंग, टैंगेंटबूस्ट एल्गोरिदम और वैकल्पिक निर्णय वनों में किया गया है।[12] का मिनिमाइज़र स्पर्शरेखा हानि फ़ंक्शन के लिए सीधे समीकरण (1) से पाया जा सकता है
काज हानि
हिंज लॉस फ़ंक्शन को इसके साथ परिभाषित किया गया है , कहाँ धनात्मक भाग कार्य है.
काज हानि 0-1 संकेतक फ़ंक्शन पर अपेक्षाकृत तंग, उत्तल ऊपरी सीमा प्रदान करती है। विशेष रूप से, हिंज हानि 0-1 सूचक फ़ंक्शन के समतुल्य होती है जब और . इसके अतिरिक्त, इस हानि का अनुभवजन्य हानि न्यूनतमकरण समर्थन वेक्टर मशीन (एसवीएम) के लिए मौलिक फॉर्मूलेशन के समतुल्य है। समर्थन वैक्टर की मार्जिन सीमाओं के बाहर स्थित सही ढंग से वर्गीकृत बिंदुओं को दंडित नहीं किया जाता है, जबकि मार्जिन सीमाओं के भीतर या हाइपरसमतल के गलत तरफ के बिंदुओं को सही सीमा से उनकी दूरी की तुलना में रैखिक फैशन में दंडित किया जाता है।[4]
जबकि काज हानि फ़ंक्शन उत्तल और निरंतर दोनों है, यह सुचारू नहीं है (भिन्न नहीं किया जा सकता है)। . परिणाम स्वरुप, हिंज लॉस फ़ंक्शन का उपयोग ढतला हुआ वंश विधियों या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधियों के साथ नहीं किया जा सकता है जो पूरे डोमेन पर भिन्नता पर निर्भर करते हैं। चूंकि, हिंज लॉस में एक सबग्रेडिएंट होता है , जो उपग्रेडिएंट विधि के उपयोग की अनुमति देता है।[4] हिंज लॉस फ़ंक्शन का उपयोग करने वाले एसवीएम को द्विघात प्रोग्रामिंग का उपयोग करके भी हल किया जा सकता है।
का मिनिमाइज़र काज हानि समारोह के लिए है
कब , जो 0-1 संकेतक फ़ंक्शन से मेल खाता है। यह निष्कर्ष हिंज हानि को अधिक आकर्षक बनाता है, क्योंकि अपेक्षित हानि और हिंज हानि फ़ंक्शन के संकेत के बीच अंतर पर सीमाएं लगाई जा सकती हैं।[1]हिंज हानि को (2) से प्राप्त नहीं किया जा सकता है उलटा नहीं है.
सामान्यीकृत चिकनी काज हानि
पैरामीटर के साथ सामान्यीकृत चिकनी काज हानि फ़ंक्शन परिभाषित किया जाता है
कहाँ
यह नीरस रूप से बढ़ रहा है और 0 तक पहुंच जाता है .
यह भी देखें
- विभिन्न प्रोग्रामिंग
- स्कोरिंग समारोह
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?" (PDF). Neural Computation. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510. S2CID 11845688.
- ↑ Shen, Yi (2005), Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, retrieved 6 December 2014
- ↑ 3.0 3.1 3.2 Rosasco, Lorenzo; Poggio, Tomaso (2014), A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, vol. Manuscript
- ↑ 4.0 4.1 4.2 Piyush, Rai (13 September 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350/6350: Machine Learning, retrieved 4 May 2021
- ↑ Ramanan, Deva (27 February 2008), Lecture 14 (PDF), UCI ICS273A: Machine Learning, retrieved 6 December 2014
- ↑ Bartlett, Peter L.; Jordan, Michael I.; Mcauliffe, Jon D. (2006). "उत्तलता, वर्गीकरण, और जोखिम सीमाएँ". Journal of the American Statistical Association. 101 (473): 138–156. doi:10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445. S2CID 2833811.
- ↑ 7.0 7.1 7.2 Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). "On the Design of Loss Functions for Classification: Theory, Robustness to Outliers, and SavageBoost" (PDF). Proceedings of the 21st International Conference on Neural Information Processing Systems. NIPS'08. USA: Curran Associates Inc.: 1049–1056. ISBN 9781605609492.
- ↑ Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (September 2009). "On robustness of on-line boosting - a competitive study". 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops. pp. 1362–1369. doi:10.1109/ICCVW.2009.5457451. ISBN 978-1-4244-4442-7. S2CID 6032045.
- ↑ Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). "संभाव्यता अनुमानों के नियमितीकरणकर्ताओं के रूप में मार्जिन हानियों का एक दृश्य". Journal of Machine Learning Research. 16 (85): 2751–2795. ISSN 1533-7928.
- ↑ Rifkin, Ryan M.; Lippert, Ross A. (1 May 2007), Notes on Regularized Least Squares (PDF), MIT Computer Science and Artificial Intelligence Laboratory
- ↑ Masnadi-Shirazi, H.; Mahadevan, V.; Vasconcelos, N. (June 2010). "On the design of robust classifiers for computer vision". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. pp. 779–786. CiteSeerX 10.1.1.172.6416. doi:10.1109/CVPR.2010.5540136. ISBN 978-1-4244-6984-0. S2CID 632758.
- ↑ Schulter, S.; Wohlhart, P.; Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (June 2013). "Alternating Decision Forests". 2013 IEEE Conference on Computer Vision and Pattern Recognition. pp. 508–515. CiteSeerX 10.1.1.301.1305. doi:10.1109/CVPR.2013.72. ISBN 978-0-7695-4989-7. S2CID 6557162.