वर्गीकरण के लिए हानि फलन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 44: Line 44:


==बेयस संगति==
==बेयस संगति==
बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम <math>f^*_{0/1}</math>, अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और के रूप में है
बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम <math>f^*_{0/1}</math>, अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और यह उसके रूप में होता है


:<math>f^*_{0/1}(\vec{x}) \;=\; \begin{cases} \;\;\;1& \text{if }p(1\mid\vec{x}) >  p(-1\mid \vec{x}) \\ \;\;\;0 & \text{if }p(1\mid\vec{x}) =  p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) <  p(-1\mid\vec{x}) \end{cases}</math>.
:<math>f^*_{0/1}(\vec{x}) \;=\; \begin{cases} \;\;\;1& \text{if }p(1\mid\vec{x}) >  p(-1\mid \vec{x}) \\ \;\;\;0 & \text{if }p(1\mid\vec{x}) =  p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) <  p(-1\mid\vec{x}) \end{cases}</math>.

Revision as of 18:04, 6 August 2023

बेयस लगातार हानि कार्य: शून्य-एक हानि (ग्रे), सैवेज हानि (हरा), लॉजिस्टिक हानि (नारंगी), घातीय हानि (बैंगनी), स्पर्शरेखा हानि (भूरा), वर्ग हानि (नीला)

मशीन लर्निंग और गणितीय अनुकूलन में वर्गीकरण के लिए हानि फलन अभिकलनात्मक रूप से व्यवहार्य हानि फलन के रूप में हैं, जो सांख्यिकीय वर्गीकरण में भविष्यवाणियों की अशुद्धि के लिए भुगतान की गई कीमत का प्रतिनिधित्व करते हैं यहाँ पहचानने की समस्याएं कि कोई विशेष अवलोकन किस श्रेणी से संबंधित है।[1] दिया गया सभी संभावित इनपुट के समष्टि के रूप में सामान्यतःहोती है। () और लेबल के सेट संभावित आउटपुट के रूप में वर्गीकरण एल्गोरिदम का एक विशिष्ट लक्ष्य के रूप में एक फलन ढूंढना है. जो किसी लेबल की सबसे अच्छी भविष्यवाणी करता है किसी दिए गए इनपुट के लिए .[2] चूंकि अधूरी जानकारी माप में शोर या अंतर्निहित प्रक्रिया में संभाव्य घटकों के कारण यह संभव है भिन्न उत्पन्न करने के लिए .[3] परिणामस्वरूप सीखने की समस्या का लक्ष्य अपेक्षित हानि को कम करना है, जिसे हानि के रूप में भी जाना जाता है, जिसे इस प्रकार परिभाषित किया गया है.

जहाँ एक दिया गया हानि फलन है और डेटा उत्पन्न करने वाली प्रक्रिया का संभाव्यता घनत्व फलन है, जिसे समकक्ष रूप से लिखा जा सकता है

वर्गीकरण के भीतर सामान्यतः उपयोग किए जाने वाले कई हानि फलन मात्र वास्तविक लेबल के उत्पाद के संदर्भ के रूप में लिखे जाते हैं और अनुमानित लेबल . इसलिए उन्हें मात्र एक चर के कार्यों के रूप में परिभाषित किया जा सकता है , जिससे की उपयुक्त रूप से चुने गए फलन के साथ . इन्हें मार्जिन-आधारित हानि फलन कहा जाता है। मार्जिन-आधारित हानि फलन को चुनना चुनने के समान है . इस ढांचे के भीतर हानि फलन का चयन इष्टतम को प्रभावित करता है जो अपेक्षित हानि को कम करता है।

बाइनरी वर्गीकरण के मामले में ऊपर निर्दिष्ट अभिन्न से अपेक्षित हानि की गणना को सरल बनाना संभव है। विशेष रूप से,

दूसरी समानता ऊपर वर्णित गुणों से मिलती है। तीसरी समानता इस तथ्य से उत्पन्न होती है कि 1 और −1 ही एकमात्र संभावित मान हैं , और चौथा क्योंकि . कोष्ठक के भीतर शब्द सशर्त हानि के रूप में जाना जाता है।

कोई भी इसे मिनिमाइज़र के रूप में हल कर सकता है के संबंध में अंतिम समानता के कार्यात्मक व्युत्पन्न को लेकर और व्युत्पन्न को 0 के समतुल्य सेट करना होता है। इसका परिणाम निम्नलिखित समीकरण होता है.

[citation needed][clarification needed]

जो सशर्त हानि के व्युत्पन्न को शून्य के समतुल्य निर्धारित करने के समतुल्य है।

वर्गीकरण की द्विआधारी प्रकृति को देखते हुए, हानि फलन के लिए एक प्राकृतिक चयन झूठी धनात्मक और झूठी ऋणात्मक के लिए समान लागत मानते हुए. 0-1 हानि फलन 0-1 संकेतक फलन के रूप में होगा, जो अनुमानित वर्गीकरण के बराबर होने पर 0 का मान लेता है। यदि अनुमानित वर्गीकरण वास्तविक वर्ग से मेल नहीं खाता है तो सही वर्ग या 1। यह चयन किसके द्वारा प्रतिरूपित किया गया है?

जहाँ हेविसाइड स्टेप फलन को इंगित करता है।

चूंकि यह हानि फलन गैर-उत्तल और गैर-सुचारू रूप में है और इष्टतम समाधान के लिए समाधान एक एनपी हार्ड कॉम्बिनेटोरियल अनुकूलन समस्या के रूप में है।[4] परिणामस्वरूप, हानि फलन सरोगेट्स को प्रतिस्थापित करना उत्तम होता है, जो सामान्यतः उपयोग किए जाने वाले शिक्षण एल्गोरिदम के लिए ट्रैक करने योग्य होते हैं, क्योंकि उनके पास उत्तल और स्मूथ होने जैसे सुविधाजनक गुण होते हैं। उनकी अभिकलनात्मक ट्रैक्टेबिलिटी के अतिरिक्त कोई यह दिखा सकता है, कि इन हानि सरोगेट्स का उपयोग करके सीखने की समस्या का समाधान मूल वर्गीकरण समस्या के वास्तविक समाधान की पुनर्प्राप्ति की अनुमति देता है।[5] इनमें से कुछ सरोगेट्स का वर्णन नीचे दिया गया है।

व्यवहार में संभाव्यता वितरण अज्ञात है। परिणामस्वरूप, के एक प्रशिक्षण सेट का उपयोग करना आईआईडी नमूना बिंदु है।

डेटा नमूना समष्टि से लिया गया, कोई अनुभवजन्य हानि को कम करना चाहता है.

अपेक्षित हानि के लिए एक प्रॉक्सी के रूप में।[3](अधिक विस्तृत विवरण के लिए सांख्यिकीय शिक्षण सिद्धांत देखें।)

बेयस संगति

बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम , अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और यह उसके रूप में होता है

.

एक हानि फलन को वर्गीकरण-कैलिब्रेटेड या बेयस सुसंगत कहा जाता है यदि यह इष्टतम है इस प्रकार कि और इस प्रकार बेयस निर्णय नियम के अनुसार इष्टतम है। बेयस लगातार हानि फलन हमें बेयस इष्टतम निर्णय फलन खोजने की अनुमति देता है अपेक्षित हानि को सीधे कम करके और संभाव्यता घनत्व कार्यों को स्पष्ट रूप से मॉडल किए बिना।

उत्तल मार्जिन हानि के लिए , ऐसा दिखाया जा सकता है क्या बेयस सुसंगत है यदि और मात्र यदि यह 0 और पर अवकलनीय है .[6][1]फिर भी, यह परिणाम गैर-उत्तल बेयस लगातार हानि कार्यों के अस्तित्व को बाहर नहीं करता है। एक अधिक सामान्य परिणाम बताता है कि बेयस लगातार हानि फलन निम्नलिखित फॉर्मूलेशन का उपयोग करके उत्पन्न किया जा सकता है [7]

,

कहाँ क्या कोई व्युत्क्रमणीय फलन ऐसा है? और क्या कोई अवकलनीय सख्ती से अवतल कार्य है जैसे कि . तालिका-I कुछ उदाहरण विकल्पों के लिए उत्पन्न बेयस लगातार हानि फलन दिखाता है और . ध्यान दें कि सैवेज और स्पर्शरेखा हानि उत्तल नहीं हैं। इस प्रकार के गैर-उत्तल हानि कार्यों को वर्गीकरण में आउटलेर्स से निपटने में उपयोगी दिखाया गया है।[7][8] (2) से उत्पन्न सभी हानि कार्यों के लिए, पश्च संभाव्यता इनवर्टिबल लिंक फलन का उपयोग करके पाया जा सकता है . ऐसे हानि फलन जहां उलटे लिंक का उपयोग करके पिछली संभावना को पुनर्प्राप्त किया जा सकता है, उचित हानि फलन कहलाते हैं।

Table-I
Loss name
Exponential
Logistic
Square
Savage
Tangent


अपेक्षित हानि को न्यूनतम करने वाला एकमात्र उपाय, , उपरोक्त उत्पन्न हानि कार्यों से जुड़े समीकरण (1) से सीधे पाया जा सकता है और संबंधित के समतुल्य दिखाया जा सकता है . यह गैर-उत्तल हानि कार्यों के लिए भी लागू होता है, जिसका अर्थ है कि ग्रेडिएंट डिसेंट आधारित एल्गोरिदम जैसे ग्रेडिएंट बूस्टिंग का उपयोग मिनिमाइज़र के निर्माण के लिए किया जा सकता है।

उचित हानि कार्य, हानि मार्जिन और नियमितीकरण

(लाल) मानक लॉजिस्टिक हानि () और (नीला) बढ़ा हुआ मार्जिन लॉजिस्टिक हानि ().

उचित हानि कार्यों के लिए, हानि मार्जिन को इस प्रकार परिभाषित किया जा सकता है और क्लासिफायरियर के नियमितीकरण गुणों से सीधे संबंधित दिखाया गया है।[9] विशेष रूप से बड़े मार्जिन का हानि फलन नियमितीकरण को बढ़ाता है और पिछली संभावना का उत्तम अनुमान उत्पन्न करता है। उदाहरण के लिए, लॉजिस्टिक हानि के लिए हानि मार्जिन को बढ़ाया जा सकता है पैरामीटर और लॉजिस्टिक हानि को इस रूप में लिखना जहां छोटा है हानि का मार्जिन बढ़ जाता है. यह दिखाया गया है कि यह सीधे तौर पर ग्रेडिएंट बूस्टिंग में सीखने की दर को कम करने के समतुल्य है जहां घट रही है बूस्टेड क्लासिफायरियर के नियमितीकरण में सुधार करता है। सिद्धांत यह स्पष्ट करता है कि जब सीखने की दर का उपयोग किया जाता है, पश्च संभाव्यता को पुनः प्राप्त करने का सही सूत्र अब है .

निष्कर्ष में, बड़े मार्जिन (छोटे) के साथ हानि फलन चुनकर ) हम नियमितीकरण बढ़ाते हैं और पश्च संभाव्यता के अपने अनुमानों में सुधार करते हैं जो बदले में अंतिम क्लासिफायरियर के आरओसी वक्र में सुधार करता है।

वर्ग हानि

जबकि सामान्यतः प्रतिगमन में उपयोग किया जाता है, वर्ग हानि फलन को फलन के रूप में फिर से लिखा जा सकता है और वर्गीकरण के लिए उपयोग किया जाता है। इसे निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है

वर्ग हानि फलन उत्तल और चिकना दोनों है। चूंकि, वर्ग हानि फलन आउटलेर्स को अत्यधिक दंडित करता है, जिससे लॉजिस्टिक हानि या हिंज हानि फलन की तुलना में धीमी अभिसरण दर (नमूना सम्मिश्रता के संबंध में) होती है।[1] इसके अतिरिक्त, ऐसे फलन जो उच्च मान उत्पन्न करते हैं कुछ के लिए के उच्च मूल्यों के कारण, वर्ग हानि फलन के साथ खराब प्रदर्शन करेगा चाहे कोई भी लक्षण दिखे, कठोर दंड दिया जाएगा और मिलान।

वर्ग हानि फलन का एक लाभ यह है कि इसकी संरचना नियमितीकरण मापदंडों के सरल क्रॉस सत्यापन के लिए उधार देती है। विशेष रूप से तिखोनोव नियमितीकरण के लिए, कोई लीव-वन-आउट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके नियमितीकरण पैरामीटर को उसी समय में हल कर सकता है, जितना किसी एक समस्या को हल करने में लगेगा।[10] का मिनिमाइज़र वर्ग हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है


लॉजिस्टिक हानि

लॉजिस्टिक हानि फलन निम्नानुसार (2) और तालिका- I का उपयोग करके उत्पन्न किया जा सकता है

लॉजिस्टिक हानि उत्तल है और ऋणात्मक मूल्यों के लिए रैखिक रूप से बढ़ती है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। लॉजिस्टिक लॉस का उपयोग लॉगिटबूस्ट में किया जाता है।

का मिनिमाइज़र लॉजिस्टिक लॉस फलन को सीधे समीकरण (1) से पाया जा सकता है

यह फलन कब अपरिभाषित है या (क्रमशः ∞ और −∞ की ओर रुझान), लेकिन एक सहज वक्र की भविष्यवाणी करता है जो कब बढ़ता है जब बढ़ता है और 0 के समतुल्य हो जाता है .[3]

यह जांचना सरल है कि लॉजिस्टिक लॉस और बाइनरी क्रॉस एन्ट्रापी लॉस (लॉग लॉस) वास्तव में एक ही हैं (गुणात्मक स्थिरांक तक) ). क्रॉस एन्ट्रापी हानि अनुभवजन्य वितरण और अनुमानित वितरण के बीच कुल्बैक-लीब्लर विचलन से निकटता से संबंधित है। आधुनिक गहन शिक्षण में क्रॉस एन्ट्रॉपी हानि सर्वव्यापी है।

घातीय हानि

घातांकीय हानि फलन निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है

घातीय हानि उत्तल है और ऋणात्मक मूल्यों के लिए तेजी से बढ़ती है जो इसे आउटलेर्स के प्रति अधिक संवेदनशील बनाती है। घातीय हानि का उपयोग AdaBoost में किया जाता है।

का मिनिमाइज़र घातीय हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है


बर्बर हानि

सैवेज हानि[7] निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है

सैवेज लॉस अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों से घिरा है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाता है। सैवेज लॉस का उपयोग ग्रेडिएंट बूस्टिंग और सैवेजबूस्ट एल्गोरिदम में किया गया है।

का मिनिमाइज़र सैवेज लॉस फलन के लिए सीधे समीकरण (1) से पाया जा सकता है


स्पर्शरेखा हानि

स्पर्शरेखा हानि[11] निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है

स्पर्शरेखा हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों के लिए बाध्य है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। रोचक बात यह है कि टेंगेंट हानि उन डेटा बिंदुओं पर एक निश्चित जुर्माना भी लगाती है जिन्हें बहुत सही ढंग से वर्गीकृत किया गया है। इससे डेटासमुच्चयपर अति-प्रशिक्षण को रोकने में सहायता मिल सकती है। टैंगेंट लॉस का उपयोग ग्रेडिएंट बूस्टिंग, टैंगेंटबूस्ट एल्गोरिदम और वैकल्पिक निर्णय वनों में किया गया है।[12] का मिनिमाइज़र स्पर्शरेखा हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है


काज हानि

हिंज लॉस फलन को इसके साथ परिभाषित किया गया है , कहाँ धनात्मक भाग कार्य है.

काज हानि 0-1 संकेतक फलन पर अपेक्षाकृत तंग, उत्तल ऊपरी सीमा प्रदान करती है। विशेष रूप से, हिंज हानि 0-1 सूचक फलन के समतुल्य होती है जब और . इसके अतिरिक्त, इस हानि का अनुभवजन्य हानि न्यूनतमकरण समर्थन वेक्टर मशीन (एसवीएम) के लिए मौलिक फॉर्मूलेशन के समतुल्य है। समर्थन वैक्टर की मार्जिन सीमाओं के बाहर स्थित सही ढंग से वर्गीकृत बिंदुओं को दंडित नहीं किया जाता है, जबकि मार्जिन सीमाओं के भीतर या हाइपरसमतल के गलत तरफ के बिंदुओं को सही सीमा से उनकी दूरी की तुलना में रैखिक फैशन में दंडित किया जाता है।[4]

जबकि काज हानि फलन उत्तल और निरंतर दोनों है, यह सुचारू नहीं है (भिन्न नहीं किया जा सकता है)। . परिणाम स्वरुप, हिंज लॉस फलन का उपयोग ढतला हुआ वंश विधियों या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधियों के साथ नहीं किया जा सकता है जो पूरे डोमेन पर भिन्नता पर निर्भर करते हैं। चूंकि, हिंज लॉस में एक सबग्रेडिएंट होता है , जो उपग्रेडिएंट विधि के उपयोग की अनुमति देता है।[4] हिंज लॉस फलन का उपयोग करने वाले एसवीएम को द्विघात प्रोग्रामिंग का उपयोग करके भी हल किया जा सकता है।

का मिनिमाइज़र काज हानि समारोह के लिए है

कब , जो 0-1 संकेतक फलन से मेल खाता है। यह निष्कर्ष हिंज हानि को अधिक आकर्षक बनाता है, क्योंकि अपेक्षित हानि और हिंज हानि फलन के संकेत के बीच अंतर पर सीमाएं लगाई जा सकती हैं।[1]हिंज हानि को (2) से प्राप्त नहीं किया जा सकता है उलटा नहीं है.

सामान्यीकृत स्मूथ काज हानि

पैरामीटर के साथ सामान्यीकृत स्मूथ काज हानि फलन परिभाषित किया जाता है

कहाँ

यह नीरस रूप से बढ़ रहा है और 0 तक पहुंच जाता है .

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 1.3 Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?" (PDF). Neural Computation. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510. S2CID 11845688.
  2. Shen, Yi (2005), Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, retrieved 6 December 2014
  3. 3.0 3.1 3.2 Rosasco, Lorenzo; Poggio, Tomaso (2014), A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, vol. Manuscript
  4. 4.0 4.1 4.2 Piyush, Rai (13 September 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350/6350: Machine Learning, retrieved 4 May 2021
  5. Ramanan, Deva (27 February 2008), Lecture 14 (PDF), UCI ICS273A: Machine Learning, retrieved 6 December 2014
  6. Bartlett, Peter L.; Jordan, Michael I.; Mcauliffe, Jon D. (2006). "उत्तलता, वर्गीकरण, और जोखिम सीमाएँ". Journal of the American Statistical Association. 101 (473): 138–156. doi:10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445. S2CID 2833811.
  7. 7.0 7.1 7.2 Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). "On the Design of Loss Functions for Classification: Theory, Robustness to Outliers, and SavageBoost" (PDF). Proceedings of the 21st International Conference on Neural Information Processing Systems. NIPS'08. USA: Curran Associates Inc.: 1049–1056. ISBN 9781605609492.
  8. Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (September 2009). "On robustness of on-line boosting - a competitive study". 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops. pp. 1362–1369. doi:10.1109/ICCVW.2009.5457451. ISBN 978-1-4244-4442-7. S2CID 6032045.
  9. Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). "संभाव्यता अनुमानों के नियमितीकरणकर्ताओं के रूप में मार्जिन हानियों का एक दृश्य". Journal of Machine Learning Research. 16 (85): 2751–2795. ISSN 1533-7928.
  10. Rifkin, Ryan M.; Lippert, Ross A. (1 May 2007), Notes on Regularized Least Squares (PDF), MIT Computer Science and Artificial Intelligence Laboratory
  11. Masnadi-Shirazi, H.; Mahadevan, V.; Vasconcelos, N. (June 2010). "On the design of robust classifiers for computer vision". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. pp. 779–786. CiteSeerX 10.1.1.172.6416. doi:10.1109/CVPR.2010.5540136. ISBN 978-1-4244-6984-0. S2CID 632758.
  12. Schulter, S.; Wohlhart, P.; Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (June 2013). "Alternating Decision Forests". 2013 IEEE Conference on Computer Vision and Pattern Recognition. pp. 508–515. CiteSeerX 10.1.1.301.1305. doi:10.1109/CVPR.2013.72. ISBN 978-0-7695-4989-7. S2CID 6557162.