वर्गीकरण के लिए हानि फलन: Difference between revisions
No edit summary |
No edit summary |
||
(25 intermediate revisions by 4 users not shown) | |||
Line 1: | Line 1: | ||
{{Machine learning}} | {{Machine learning}} | ||
[[File:BayesConsistentLosses2.jpg|thumb|बेयस लगातार हानि कार्य: शून्य-एक हानि (ग्रे), सैवेज हानि (हरा), लॉजिस्टिक हानि (नारंगी), घातीय हानि (बैंगनी), स्पर्शरेखा हानि (भूरा), वर्ग हानि (नीला)]][[ यंत्र अधिगम ]] और [[गणितीय अनुकूलन]] में | [[File:BayesConsistentLosses2.jpg|thumb|बेयस लगातार हानि कार्य: शून्य-एक हानि (ग्रे), सैवेज हानि (हरा), लॉजिस्टिक हानि (नारंगी), घातीय हानि (बैंगनी), स्पर्शरेखा हानि (भूरा), वर्ग हानि (नीला)]][[ यंत्र अधिगम |मशीन लर्निंग]] और [[गणितीय अनुकूलन]] में वर्गीकरण के लिए हानि फलन अभिकलनात्मक रूप से व्यवहार्य हानि फलन के रूप में हैं, जो [[सांख्यिकीय वर्गीकरण]] में भविष्यवाणियों की अशुद्धि के लिए भुगतान की गई कीमत का प्रतिनिधित्व करते हैं यहाँ पहचानने की समस्याएं कि कोई विशेष अवलोकन किस श्रेणी से संबंधित है।<ref name="mit">{{Cite journal | last1 = Rosasco | first1 = L. | last2 = De Vito | first2 = E. D. | last3 = Caponnetto | first3 = A. | last4 = Piana | first4 = M. | last5 = Verri | first5 = A. | url = http://web.mit.edu/lrosasco/www/publications/loss.pdf| title = Are Loss Functions All the Same? | doi = 10.1162/089976604773135104 | journal = Neural Computation | volume = 16 | issue = 5 | pages = 1063–1076 | year = 2004 | pmid = 15070510| citeseerx = 10.1.1.109.6786 | s2cid = 11845688 }}</ref> दिया गया <math>\mathcal{X}</math> सभी संभावित इनपुट के समष्टि के रूप में सामान्यतःहोती है। (<math>\mathcal{X} \subset \mathbb{R}^d</math>) और <math>\mathcal{Y} = \{ -1,1 \}</math> लेबल के सेट संभावित आउटपुट के रूप में वर्गीकरण एल्गोरिदम का एक विशिष्ट लक्ष्य के रूप में एक फलन ढूंढना है.<math>f: \mathcal{X} \to \mathcal{Y}</math> जो किसी लेबल की सबसे अच्छी भविष्यवाणी करता है <math>y</math> किसी दिए गए इनपुट के लिए <math>\vec{x}</math>.<ref name="penn">{{Citation | last= Shen | first= Yi | title= Loss Functions For Binary Classification and Class Probability Estimation | publisher= University of Pennsylvania | year= 2005 | url= http://stat.wharton.upenn.edu/~buja/PAPERS/yi-shen-dissertation.pdf | access-date= 6 December 2014}}</ref> चूंकि अधूरी जानकारी माप में शोर या अंतर्निहित प्रक्रिया में संभाव्य घटकों के कारण यह संभव है <math>\vec{x}</math> भिन्न उत्पन्न करने के लिए <math>y</math>.<ref name="mitlec">{{Citation | last1= Rosasco | first1= Lorenzo | last2= Poggio | first2= Tomaso | title= A Regularization Tour of Machine Learning | series= MIT-9.520 Lectures Notes | volume= Manuscript | year= 2014}}</ref> परिणामस्वरूप सीखने की समस्या का लक्ष्य अपेक्षित हानि को कम करना है, जिसे हानि के रूप में भी जाना जाता है, जिसे इस प्रकार परिभाषित किया गया है. | ||
:<math>I[f] = \displaystyle \int_{\mathcal{X} \times \mathcal{Y}} V(f(\vec{x}),y) \, p(\vec{x},y) \, d\vec{x} \, dy</math> | :<math>I[f] = \displaystyle \int_{\mathcal{X} \times \mathcal{Y}} V(f(\vec{x}),y) \, p(\vec{x},y) \, d\vec{x} \, dy</math> | ||
जहाँ <math>V(f(\vec{x}),y)</math> एक दिया गया हानि फलन है और <math>p(\vec{x},y)</math> डेटा उत्पन्न करने वाली प्रक्रिया का संभाव्यता घनत्व फलन है, जिसे समकक्ष रूप से लिखा जा सकता है | |||
:<math>p(\vec{x},y)=p(y\mid\vec{x}) p(\vec{x}).</math> | :<math>p(\vec{x},y)=p(y\mid\vec{x}) p(\vec{x}).</math> | ||
वर्गीकरण के भीतर | वर्गीकरण के भीतर सामान्यतः उपयोग किए जाने वाले कई हानि फलन मात्र वास्तविक लेबल के उत्पाद के संदर्भ के रूप में लिखे जाते हैं <math>y</math> और अनुमानित लेबल <math>f(\vec{x})</math>. इसलिए उन्हें मात्र एक चर के कार्यों के रूप में परिभाषित किया जा सकता है <math>\upsilon=y f(\vec{x})</math>, जिससे की <math>V(f(\vec{x}),y) = \phi(yf(\vec{x})) = \phi(\upsilon)</math> उपयुक्त रूप से चुने गए फलन के साथ <math>\phi:\mathbb{R}\to\mathbb{R}</math>. इन्हें मार्जिन-आधारित हानि फलन कहा जाता है। मार्जिन-आधारित हानि फलन को चुनना चुनने के समान है <math>\phi</math>. इस ढांचे के भीतर हानि फलन का चयन इष्टतम को प्रभावित करता है <math>f^{*}_\phi</math> जो अपेक्षित हानि को कम करता है। | ||
बाइनरी वर्गीकरण के मामले में | बाइनरी वर्गीकरण के मामले में ऊपर निर्दिष्ट अभिन्न से अपेक्षित हानि की गणना को सरल बनाना संभव है। विशेष रूप से, | ||
:<math> | :<math> | ||
Line 21: | Line 21: | ||
</math> सशर्त हानि के रूप में जाना जाता है। | </math> सशर्त हानि के रूप में जाना जाता है। | ||
कोई भी इसे मिनिमाइज़र के रूप में हल कर सकता है <math>I[f]</math> के संबंध में अंतिम समानता के कार्यात्मक व्युत्पन्न को लेकर <math>f</math> और व्युत्पन्न को 0 के | कोई भी इसे मिनिमाइज़र के रूप में हल कर सकता है <math>I[f]</math> के संबंध में अंतिम समानता के कार्यात्मक व्युत्पन्न को लेकर <math>f</math> और व्युत्पन्न को 0 के समतुल्य सेट करना होता है। इसका परिणाम निम्नलिखित समीकरण होता है. | ||
:<math> | :<math> | ||
Line 29: | Line 29: | ||
जो सशर्त हानि के व्युत्पन्न को शून्य के समतुल्य निर्धारित करने के समतुल्य है। | जो सशर्त हानि के व्युत्पन्न को शून्य के समतुल्य निर्धारित करने के समतुल्य है। | ||
वर्गीकरण की द्विआधारी प्रकृति को देखते हुए, हानि | वर्गीकरण की द्विआधारी प्रकृति को देखते हुए, हानि फलन के लिए एक प्राकृतिक चयन झूठी धनात्मक और झूठी ऋणात्मक के लिए समान लागत मानते हुए. [[0-1 हानि फ़ंक्शन|0-1 हानि फलन]] 0-1 संकेतक फलन के रूप में होगा, जो अनुमानित वर्गीकरण के बराबर होने पर 0 का मान लेता है। यदि अनुमानित वर्गीकरण वास्तविक वर्ग से मेल नहीं खाता है तो सही वर्ग या 1। यह चयन किसके द्वारा प्रतिरूपित किया गया है? | ||
:<math>V(f(\vec{x}),y)=H(-yf(\vec{x}))</math> | :<math>V(f(\vec{x}),y)=H(-yf(\vec{x}))</math> | ||
जहाँ <math>H</math> [[हेविसाइड स्टेप फ़ंक्शन|हेविसाइड स्टेप फलन]] को इंगित करता है। | |||
व्यवहार में | चूंकि यह हानि फलन गैर-उत्तल और गैर-सुचारू रूप में है और इष्टतम समाधान के लिए समाधान एक [[ एनपी कठिन | एनपी हार्ड]] कॉम्बिनेटोरियल अनुकूलन समस्या के रूप में है।<ref name="Utah">{{Citation | last= Piyush | first= Rai | title= Support Vector Machines (Contd.), Classification Loss Functions and Regularizers | publisher= Utah CS5350/6350: Machine Learning | date= 13 September 2011 | url= https://cis.temple.edu/~latecki/Courses/AI-Fall12/Lectures/SVM.pdf | access-date= 4 May 2021}}</ref> परिणामस्वरूप, हानि फलन सरोगेट्स को प्रतिस्थापित करना उत्तम होता है, जो सामान्यतः उपयोग किए जाने वाले शिक्षण एल्गोरिदम के लिए ट्रैक करने योग्य होते हैं, क्योंकि उनके पास उत्तल और स्मूथ होने जैसे सुविधाजनक गुण होते हैं। उनकी अभिकलनात्मक ट्रैक्टेबिलिटी के अतिरिक्त कोई यह दिखा सकता है, कि इन हानि सरोगेट्स का उपयोग करके सीखने की समस्या का समाधान मूल वर्गीकरण समस्या के वास्तविक समाधान की पुनर्प्राप्ति की अनुमति देता है।<ref name="uci">{{Citation | last= Ramanan | first= Deva | title= Lecture 14 | publisher= UCI ICS273A: Machine Learning | date= 27 February 2008 | url= http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf | access-date= 6 December 2014}}</ref> इनमें से कुछ सरोगेट्स का वर्णन नीचे दिया गया है। | ||
व्यवहार में संभाव्यता वितरण <math>p(\vec{x},y)</math> अज्ञात है। परिणामस्वरूप, के एक प्रशिक्षण सेट का उपयोग करना <math>n</math> [[आईआईडी]] नमूना बिंदु है। | |||
:<math>S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\}</math> | :<math>S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\}</math> | ||
डेटा नमूना | डेटा नमूना समष्टि से लिया गया, कोई अनुभवजन्य हानि को कम करना चाहता है. | ||
:<math>I_S[f] = \frac{1}{n} \sum_{i=1}^n V( f(\vec{x}_i),y_i)</math> | :<math>I_S[f] = \frac{1}{n} \sum_{i=1}^n V( f(\vec{x}_i),y_i)</math> | ||
अपेक्षित हानि के लिए एक प्रॉक्सी के रूप में।<ref name="mitlec" />(अधिक विस्तृत विवरण के लिए [[सांख्यिकीय शिक्षण सिद्धांत]] देखें।) | अपेक्षित हानि के लिए एक प्रॉक्सी के रूप में।<ref name="mitlec" />(अधिक विस्तृत विवरण के लिए [[सांख्यिकीय शिक्षण सिद्धांत]] देखें।) | ||
==बेयस संगति== | =='''बेयस संगति'''== | ||
बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम <math>f^*_{0/1}</math>, अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और | बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम <math>f^*_{0/1}</math>, अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और यह उसके रूप में होता है | ||
:<math>f^*_{0/1}(\vec{x}) \;=\; \begin{cases} \;\;\;1& \text{if }p(1\mid\vec{x}) > p(-1\mid \vec{x}) \\ \;\;\;0 & \text{if }p(1\mid\vec{x}) = p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) < p(-1\mid\vec{x}) \end{cases}</math>. | :<math>f^*_{0/1}(\vec{x}) \;=\; \begin{cases} \;\;\;1& \text{if }p(1\mid\vec{x}) > p(-1\mid \vec{x}) \\ \;\;\;0 & \text{if }p(1\mid\vec{x}) = p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) < p(-1\mid\vec{x}) \end{cases}</math>. | ||
एक हानि | एक हानि फलन को वर्गीकरण-कैलिब्रेटेड या बेयस सुसंगत कहा जाता है यदि यह इष्टतम है <math>f^*_{\phi}</math> इस प्रकार कि <math>f^*_{0/1}(\vec{x}) = \operatorname{sgn}(f^*_{\phi}(\vec{x}))</math>और इस प्रकार बेयस निर्णय नियम के अनुसार इष्टतम है। बेयस लगातार हानि फलन हमें बेयस इष्टतम निर्णय फलन खोजने की अनुमति देता है <math>f^*_{\phi}</math> अपेक्षित हानि को सीधे कम करके और संभाव्यता घनत्व कार्यों को स्पष्ट रूप से मॉडल किए बिना होता है। | ||
उत्तल मार्जिन हानि के लिए <math>\phi(\upsilon)</math>, ऐसा दिखाया जा सकता है <math>\phi(\upsilon)</math> क्या बेयस सुसंगत है यदि और मात्र यदि यह 0 और पर अवकलनीय है <math>\phi'(0)<0</math>.<ref>{{Cite journal|last1=Bartlett|first1=Peter L.|last2=Jordan|first2=Michael I.|last3=Mcauliffe|first3=Jon D.|date=2006|title=उत्तलता, वर्गीकरण, और जोखिम सीमाएँ|journal=Journal of the American Statistical Association|volume=101|issue=473|pages=138–156|issn=0162-1459|jstor=30047445|doi=10.1198/016214505000000907|s2cid=2833811}}</ref><ref name="mit" />फिर भी | उत्तल मार्जिन हानि के लिए <math>\phi(\upsilon)</math>, ऐसा दिखाया जा सकता है <math>\phi(\upsilon)</math> क्या बेयस सुसंगत है यदि और मात्र यदि यह 0 और पर अवकलनीय है <math>\phi'(0)<0</math>.<ref>{{Cite journal|last1=Bartlett|first1=Peter L.|last2=Jordan|first2=Michael I.|last3=Mcauliffe|first3=Jon D.|date=2006|title=उत्तलता, वर्गीकरण, और जोखिम सीमाएँ|journal=Journal of the American Statistical Association|volume=101|issue=473|pages=138–156|issn=0162-1459|jstor=30047445|doi=10.1198/016214505000000907|s2cid=2833811}}</ref><ref name="mit" />फिर भी यह परिणाम गैर-उत्तल बेयस लगातार हानि कार्यों के अस्तित्व को बाहर नहीं करता है। एक अधिक सामान्य परिणाम बताता है, कि बेयस लगातार हानि फलन निम्नलिखित फॉर्मूलेशन के रूप में उपयोग करके उत्पन्न किया जा सकता है <ref name=":0">{{Cite journal|last1=Masnadi-Shirazi|first1=Hamed|last2=Vasconcelos|first2=Nuno|date=2008|title=On the Design of Loss Functions for Classification: Theory, Robustness to Outliers, and SavageBoost|url=https://papers.nips.cc/paper/3591-on-the-design-of-loss-functions-for-classification-theory-robustness-to-outliers-and-savageboost.pdf|journal=Proceedings of the 21st International Conference on Neural Information Processing Systems|series=NIPS'08|location=USA|publisher=Curran Associates Inc.|pages=1049–1056|isbn=9781605609492}}</ref> | ||
:<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] \;\;\;\;\;(2)</math>, | :<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] \;\;\;\;\;(2)</math>, | ||
जहाँ <math>f(\eta), (0\leq \eta \leq 1)</math> ऐसा कोई व्युत्क्रमणीय फलन ऐसा है, <math>f^{-1}(-v)=1-f^{-1}(v)</math> और <math>C(\eta)</math> कोई भी अवकलनीय सख्ती से अवतल फलन है, जैसे कि <math>C(\eta)=C(1-\eta)</math>. तालिका-I कुछ उदाहरण विकल्पों के लिए उत्पन्न बेयस लगातार हानि फलन दिखाता है <math>C(\eta)</math> और <math>f^{-1}(v)</math>. ध्यान दें कि सैवेज और स्पर्शरेखा हानि उत्तल के रूप में नहीं हैं। इस प्रकार के गैर-उत्तल हानि कार्यों को वर्गीकरण में आउटलेर्स से निपटने में उपयोगी दिखाया गया है।<ref name=":0" /><ref>{{Cite book|last1=Leistner|first1=C.|last2=Saffari|first2=A.|last3=Roth|first3=P. M.|last4=Bischof|first4=H.|title=2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops |chapter=On robustness of on-line boosting - a competitive study |date=September 2009|pages=1362–1369|doi=10.1109/ICCVW.2009.5457451|isbn=978-1-4244-4442-7|s2cid=6032045}}</ref> (2) से उत्पन्न सभी हानि कार्यों के लिए, पश्च संभाव्यता <math>p(y=1|\vec{x})</math> इनवर्टिबल लिंक फलन के रूप में उपयोग करते हुए पाया जा सकता है <math>p(y=1|\vec{x})=\eta=f^{-1}(v)</math>. ऐसे हानि फलन जहां उलटे लिंक का उपयोग करके पिछली संभावना को पुनर्प्राप्त किया जा सकता है, उचित हानि फलन कहलाते हैं। | |||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+'''तालिका--I''' | ||
! | !हानि का नाम | ||
!<math>\phi(v)</math> | !<math>\phi(v)</math> | ||
!<math>C(\eta)</math> | !<math>C(\eta)</math> | ||
Line 61: | Line 62: | ||
!<math>f(\eta)</math> | !<math>f(\eta)</math> | ||
|- | |- | ||
| | |घातीय | ||
|<math>e^{-v}</math> | |<math>e^{-v}</math> | ||
|<math>2\sqrt{\eta(1-\eta)}</math> | |<math>2\sqrt{\eta(1-\eta)}</math> | ||
Line 67: | Line 68: | ||
|<math>\frac{1}{2}\log(\frac{\eta}{1-\eta})</math> | |<math>\frac{1}{2}\log(\frac{\eta}{1-\eta})</math> | ||
|- | |- | ||
| | |तार्किक | ||
|<math>\frac{1}{\log(2)}\log(1+e^{-v})</math> | |<math>\frac{1}{\log(2)}\log(1+e^{-v})</math> | ||
|<math>\frac{1}{\log(2)}[-\eta\log(\eta)-(1-\eta)\log(1-\eta)]</math> | |<math>\frac{1}{\log(2)}[-\eta\log(\eta)-(1-\eta)\log(1-\eta)]</math> | ||
Line 73: | Line 74: | ||
|<math>\log(\frac{\eta}{1-\eta})</math> | |<math>\log(\frac{\eta}{1-\eta})</math> | ||
|- | |- | ||
| | |वर्ग | ||
|<math>(1-v)^2</math> | |<math>(1-v)^2</math> | ||
|<math>4\eta(1-\eta)</math> | |<math>4\eta(1-\eta)</math> | ||
Line 79: | Line 80: | ||
|<math>2\eta-1</math> | |<math>2\eta-1</math> | ||
|- | |- | ||
| | |असभ्य | ||
|<math>\frac{1}{(1+e^v)^2}</math> | |<math>\frac{1}{(1+e^v)^2}</math> | ||
|<math>\eta(1-\eta)</math> | |<math>\eta(1-\eta)</math> | ||
Line 85: | Line 86: | ||
|<math>\log(\frac{\eta}{1-\eta})</math> | |<math>\log(\frac{\eta}{1-\eta})</math> | ||
|- | |- | ||
| | |स्पर्शरेखा | ||
|<math>(2\arctan(v)-1)^2</math> | |<math>(2\arctan(v)-1)^2</math> | ||
|<math>4\eta(1-\eta)</math> | |<math>4\eta(1-\eta)</math> | ||
Line 92: | Line 93: | ||
|}<br />अपेक्षित हानि को न्यूनतम करने वाला एकमात्र उपाय, <math>f^*_{\phi}</math>, उपरोक्त उत्पन्न हानि कार्यों से जुड़े समीकरण (1) से सीधे पाया जा सकता है और संबंधित के समतुल्य दिखाया जा सकता है <math> | |}<br />अपेक्षित हानि को न्यूनतम करने वाला एकमात्र उपाय, <math>f^*_{\phi}</math>, उपरोक्त उत्पन्न हानि कार्यों से जुड़े समीकरण (1) से सीधे पाया जा सकता है और संबंधित के समतुल्य दिखाया जा सकता है <math> | ||
f(\eta) | f(\eta) | ||
</math>. यह गैर-उत्तल हानि कार्यों के लिए भी लागू होता है, जिसका अर्थ है कि ग्रेडिएंट डिसेंट आधारित एल्गोरिदम जैसे [[ग्रेडिएंट बूस्टिंग]] का उपयोग मिनिमाइज़र के निर्माण के लिए किया जा सकता है। | </math>. यह गैर-उत्तल हानि कार्यों के लिए भी लागू होता है, जिसका अर्थ है, कि ग्रेडिएंट डिसेंट आधारित एल्गोरिदम जैसे [[ग्रेडिएंट बूस्टिंग]] का उपयोग मिनिमाइज़र के निर्माण के लिए किया जा सकता है। | ||
==उचित हानि कार्य, हानि मार्जिन और नियमितीकरण== | =='''उचित हानि कार्य, हानि मार्जिन और नियमितीकरण'''== | ||
[[File:LogitLossMarginWithMu.jpg|alt=|thumb|(लाल) मानक लॉजिस्टिक हानि (<math>\gamma=1, \mu=2</math>) और (नीला) बढ़ा हुआ मार्जिन लॉजिस्टिक हानि (<math>\gamma=0.2</math>).]]उचित हानि कार्यों के लिए, हानि मार्जिन को इस प्रकार परिभाषित किया जा सकता है <math>\mu_{\phi}=-\frac{\phi'(0)}{\phi''(0)}</math> और क्लासिफायरियर के नियमितीकरण गुणों से सीधे संबंधित दिखाया गया है।<ref>{{Cite journal|last1=Vasconcelos|first1=Nuno|last2=Masnadi-Shirazi|first2=Hamed|date=2015|title=संभाव्यता अनुमानों के नियमितीकरणकर्ताओं के रूप में मार्जिन हानियों का एक दृश्य|url=http://jmlr.org/papers/v16/masnadi15a.html|journal=Journal of Machine Learning Research|volume=16|issue=85|pages=2751–2795|issn=1533-7928}}</ref> विशेष रूप से बड़े मार्जिन का हानि | [[File:LogitLossMarginWithMu.jpg|alt=|thumb|(लाल) मानक लॉजिस्टिक हानि (<math>\gamma=1, \mu=2</math>) और (नीला) बढ़ा हुआ मार्जिन लॉजिस्टिक हानि (<math>\gamma=0.2</math>).]]उचित हानि कार्यों के लिए, हानि मार्जिन को इस प्रकार परिभाषित किया जा सकता है <math>\mu_{\phi}=-\frac{\phi'(0)}{\phi''(0)}</math> और क्लासिफायरियर के नियमितीकरण गुणों से सीधे संबंधित दिखाया गया है।<ref>{{Cite journal|last1=Vasconcelos|first1=Nuno|last2=Masnadi-Shirazi|first2=Hamed|date=2015|title=संभाव्यता अनुमानों के नियमितीकरणकर्ताओं के रूप में मार्जिन हानियों का एक दृश्य|url=http://jmlr.org/papers/v16/masnadi15a.html|journal=Journal of Machine Learning Research|volume=16|issue=85|pages=2751–2795|issn=1533-7928}}</ref> विशेष रूप से बड़े मार्जिन का हानि फलन नियमितीकरण को बढ़ाता है और पिछली संभावना का उत्तम अनुमान उत्पन्न करता है। उदाहरण के लिए, लॉजिस्टिक हानि के लिए हानि मार्जिन को बढ़ाया जा सकता है <math>\gamma</math> पैरामीटर और लॉजिस्टिक हानि को इस रूप में लिखना <math>\frac{1}{\gamma}\log(1+e^{-\gamma v})</math> जहां छोटा है <math>0<\gamma<1</math> हानि का मार्जिन बढ़ जाता है. यह दिखाया गया है कि यह सीधे तौर पर ग्रेडिएंट बूस्टिंग में सीखने की दर को कम करने के समतुल्य है <math>F_m(x) = F_{m-1}(x) + \gamma h_m(x),</math> जहां घट रही है <math>\gamma</math> बूस्टेड क्लासिफायरियर के नियमितीकरण में सुधार करता है। सिद्धांत यह स्पष्ट करता है कि जब सीखने की दर <math>\gamma</math> का उपयोग किया जाता है, पश्च संभाव्यता को पुनः प्राप्त करने का सही सूत्र अब है <math>\eta=f^{-1}(\gamma F(x))</math>. | ||
निष्कर्ष में | निष्कर्ष में बड़े मार्जिन छोटे के साथ हानि फलन चुनकर <math>\gamma</math> हम नियमितीकरण बढ़ाते हैं और पश्च संभाव्यता के अपने अनुमानों में सुधार करते हैं जो बदले में अंतिम क्लासिफायरियर के आरओसी वक्र के रूप में सुधार करता है। | ||
==वर्ग हानि== | =='''वर्ग हानि'''== | ||
जबकि | जबकि सामान्यतः प्रतिगमन के रूप में उपयोग किया जाता है, वर्ग हानि फलन को फलन के रूप में फिर से लिखा जा सकता है <math>\phi(yf(\vec{x}))</math> और वर्गीकरण के लिए उपयोग किया जाता है। इसे निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है | ||
:<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 4(\frac{1}{2}(v+1))(1-\frac{1}{2}(v+1))+(1-\frac{1}{2}(v+1))(4-8(\frac{1}{2}(v+1)))=(1-v)^2.</math> | :<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 4(\frac{1}{2}(v+1))(1-\frac{1}{2}(v+1))+(1-\frac{1}{2}(v+1))(4-8(\frac{1}{2}(v+1)))=(1-v)^2.</math> | ||
वर्ग हानि | वर्ग हानि फलन उत्तल और स्मूथ दोनों है। चूंकि वर्ग हानि फलन आउटलेर्स को अत्यधिक दंडित करता है, जिससे लॉजिस्टिक हानि या हिंज हानि फलन की तुलना में धीमी अभिसरण दर (नमूना सम्मिश्रता के संबंध में) होती है।<ref name="mit" /> इसके अतिरिक्त ऐसे फलन जो उच्च मान उत्पन्न करते हैं <math>f(\vec{x})</math> कुछ के लिए <math>x \in X</math> के उच्च मूल्यों के कारण, वर्ग हानि फलन के साथ खराब प्रदर्शन करेगा <math>yf(\vec{x})</math> चाहे कोई भी लक्षण दिखे, कठोर दंड दिया जाएगा <math>y</math> और <math>f(\vec{x})</math> मिलान। | ||
वर्ग हानि | वर्ग हानि फलन का एक लाभ यह है कि इसकी संरचना नियमितीकरण मापदंडों के सरल क्रॉस सत्यापन के लिए उधार देती है। विशेष रूप से [[तिखोनोव नियमितीकरण|तिखोनोव रेगुलरिज़शन]] के लिए कोई लीव-वन-आउट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके नियमितीकरण पैरामीटर को उसी समय में हल कर सकता है, जितना किसी एक समस्या को हल करने में लगेगा।<ref>{{Citation| last1= Rifkin| first1= Ryan M.| last2= Lippert| first2= Ross A.| title= Notes on Regularized Least Squares| publisher= MIT Computer Science and Artificial Intelligence Laboratory| date= 1 May 2007|url=https://dspace.mit.edu/bitstream/handle/1721.1/37318/MIT-CSAIL-TR-2007-025.pdf?sequence=1}}</ref> | ||
का मिनिमाइज़र <math>I[f]</math> वर्ग हानि | |||
का मिनिमाइज़र <math>I[f]</math> वर्ग हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है | |||
:<math>f^*_\text{Square}= 2\eta-1=2p(1\mid x)-1.</math> | :<math>f^*_\text{Square}= 2\eta-1=2p(1\mid x)-1.</math> | ||
== '''लॉजिस्टिक हानि''' == | |||
लॉजिस्टिक हानि फलन निम्नानुसार (2) और तालिका- I के रूप में उपयोग करके उत्पन्न किया जा सकता है. | |||
== लॉजिस्टिक हानि == | |||
लॉजिस्टिक हानि | |||
:<math>\begin{align} | :<math>\begin{align} | ||
Line 119: | Line 119: | ||
\end{align} | \end{align} | ||
</math> | </math> | ||
लॉजिस्टिक हानि उत्तल है और ऋणात्मक मूल्यों के लिए रैखिक रूप से बढ़ती है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। | लॉजिस्टिक हानि उत्तल है और ऋणात्मक मूल्यों के लिए रैखिक रूप से बढ़ती है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। लॉजिस्टिकहानि का उपयोग [[ लॉगिटबूस्ट ]]के रूप में किया जाता है। | ||
का मिनिमाइज़र <math>I[f]</math> | का मिनिमाइज़र <math>I[f]</math> लॉजिस्टिकहानि फलन को सीधे समीकरण (1) से पाया जा सकता है | ||
:<math>f^*_\text{Logistic}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).</math> | :<math>f^*_\text{Logistic}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).</math> | ||
यह | यह फलन जब अपरिभाषित है <math>p(1\mid x)=1</math> या <math>p(1\mid x)=0</math> (क्रमशः ∞ और −∞ की ओर रुझान), लेकिन एक सहज वक्र की भविष्यवाणी करता है, जो तब बढ़ता है <math>p(1\mid x)</math> जब बढ़ता है और 0 के समतुल्य हो जाता है <math>p(1\mid x)= 0.5</math>.<ref name="mitlec" /> | ||
यह जांचना सरल है कि | यह जांचना सरल है कि लॉजिस्टिकहानि और बाइनरी [[क्रॉस एन्ट्रापी]]हानि (लॉगहानि) वास्तव में एक ही हैं (गुणात्मक स्थिरांक तक) <math>\frac{1}{\log(2)}</math>). क्रॉस एन्ट्रापी हानि अनुभवजन्य वितरण और अनुमानित वितरण के बीच कुल्बैक-लीब्लर विचलन से निकटता से संबंधित है। आधुनिक गहन शिक्षण में क्रॉस एन्ट्रॉपी हानि के रूप में सर्वव्यापी है। | ||
== घातीय हानि == | == '''घातीय हानि''' == | ||
घातांकीय हानि | घातांकीय हानि फलन निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है | ||
:<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 2\sqrt{\left(\frac{e^{2v}}{1+e^{2v}}\right)\left(1-\frac{e^{2v}}{1+e^{2v}}\right)}+\left(1-\frac{e^{2v}}{1+e^{2v}}\right)\left(\frac{1-\frac{2e^{2v}}{1+e^{2v}}}{\sqrt{\frac{e^{2v}}{1+e^{2v}}(1-\frac{e^{2v}}{1+e^{2v}})}}\right) = e^{-v}</math> | :<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = 2\sqrt{\left(\frac{e^{2v}}{1+e^{2v}}\right)\left(1-\frac{e^{2v}}{1+e^{2v}}\right)}+\left(1-\frac{e^{2v}}{1+e^{2v}}\right)\left(\frac{1-\frac{2e^{2v}}{1+e^{2v}}}{\sqrt{\frac{e^{2v}}{1+e^{2v}}(1-\frac{e^{2v}}{1+e^{2v}})}}\right) = e^{-v}</math> | ||
घातीय हानि उत्तल है और ऋणात्मक मूल्यों के लिए तेजी से बढ़ती है जो इसे आउटलेर्स के प्रति अधिक संवेदनशील बनाती है। घातीय हानि का उपयोग [[AdaBoost]] में किया जाता है। | घातीय हानि उत्तल है और ऋणात्मक मूल्यों के लिए तेजी से बढ़ती है जो इसे आउटलेर्स के प्रति अधिक संवेदनशील बनाती है। घातीय हानि का उपयोग [[AdaBoost|एडाबूस्ट]] में किया जाता है। | ||
का मिनिमाइज़र <math>I[f]</math> घातीय हानि | का मिनिमाइज़र <math>I[f]</math> घातीय हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है | ||
:<math>f^*_\text{Exp}= \frac{1}{2}\log\left(\frac{\eta}{1-\eta}\right)=\frac{1}{2}\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).</math> | :<math>f^*_\text{Exp}= \frac{1}{2}\log\left(\frac{\eta}{1-\eta}\right)=\frac{1}{2}\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).</math> | ||
==बर्बर हानि == | =='''बर्बर हानि''' == | ||
सैवेज हानि<ref name=":0" /> निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है | सैवेज हानि<ref name=":0" /> निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है | ||
:<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = \left(\frac{e^v}{1+e^v}\right)\left(1-\frac{e^v}{1+e^v}\right)+\left(1-\frac{e^v}{1+e^v}\right)\left(1-\frac{2e^v}{1+e^v}\right) = \frac{1}{(1+e^v)^2}.</math> | :<math>\phi(v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)] = \left(\frac{e^v}{1+e^v}\right)\left(1-\frac{e^v}{1+e^v}\right)+\left(1-\frac{e^v}{1+e^v}\right)\left(1-\frac{2e^v}{1+e^v}\right) = \frac{1}{(1+e^v)^2}.</math> | ||
सैवेज | सैवेज हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों से घिरा है, जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाता है। सैवेज हानि का उपयोग ग्रेडिएंट बूस्टिंग और सैवेज बूस्ट एल्गोरिदम के रूप में किया गया है। | ||
मिनिमाइज़र <math>I[f]</math> सैवेज हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है. | |||
:<math>f^*_\text{Savage}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).</math> | :<math>f^*_\text{Savage}= \log\left(\frac{\eta}{1-\eta}\right)=\log\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).</math> | ||
==स्पर्शरेखा हानि== | =='''स्पर्शरेखा हानि'''== | ||
स्पर्शरेखा हानि<ref>{{Cite book|last1=Masnadi-Shirazi|first1=H.|last2=Mahadevan|first2=V.|last3=Vasconcelos|first3=N.|title=2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition |chapter=On the design of robust classifiers for computer vision |date=June 2010|pages=779–786|doi=10.1109/CVPR.2010.5540136|citeseerx=10.1.1.172.6416|isbn=978-1-4244-6984-0|s2cid=632758}}</ref> निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है | स्पर्शरेखा हानि<ref>{{Cite book|last1=Masnadi-Shirazi|first1=H.|last2=Mahadevan|first2=V.|last3=Vasconcelos|first3=N.|title=2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition |chapter=On the design of robust classifiers for computer vision |date=June 2010|pages=779–786|doi=10.1109/CVPR.2010.5540136|citeseerx=10.1.1.172.6416|isbn=978-1-4244-6984-0|s2cid=632758}}</ref> निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है | ||
Line 159: | Line 159: | ||
\end{align} | \end{align} | ||
</math> | </math> | ||
स्पर्शरेखा हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों के लिए बाध्य है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। रोचक बात यह है कि | स्पर्शरेखा हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों के लिए बाध्य है, जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। रोचक बात यह है कि स्पर्शरेखा हानि उन डेटा बिंदुओं पर एक निश्चित जुर्माना भी लगाती है, जिन्हें बहुत सही ढंग से वर्गीकृत किया गया है। इससे डेटा सेट पर अति-प्रशिक्षण को रोकने में सहायता मिल सकती है। स्पर्शरेखा हानि का उपयोग ग्रेडिएंट बूस्टिंग, टैंगेंटबूस्ट एल्गोरिदम और वैकल्पिक निर्णय वनों में किया गया है।<ref>{{Cite book|last1=Schulter|first1=S.|last2=Wohlhart|first2=P.|last3=Leistner|first3=C.|last4=Saffari|first4=A.|last5=Roth|first5=P. M.|last6=Bischof|first6=H.|title=2013 IEEE Conference on Computer Vision and Pattern Recognition |chapter=Alternating Decision Forests |date=June 2013|pages=508–515|doi=10.1109/CVPR.2013.72|citeseerx=10.1.1.301.1305|isbn=978-0-7695-4989-7|s2cid=6557162}}</ref> | ||
मिनिमाइज़र <math>I[f]</math> स्पर्शरेखा हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है. | |||
:<math>f^*_\text{Tangent}= \tan(\eta-\frac{1}{2})=\tan(p(1\mid x)-\frac{1}{2}).</math> | :<math>f^*_\text{Tangent}= \tan(\eta-\frac{1}{2})=\tan(p(1\mid x)-\frac{1}{2}).</math> | ||
== '''हिंज हानि''' == | |||
== | |||
{{main|Hinge loss}} | {{main|Hinge loss}} | ||
हिंज | हिंज हानि फलन को इसके साथ परिभाषित किया गया है <math>\phi(\upsilon) = \max(0, 1-\upsilon) = [1-\upsilon]_{+}</math>, कहाँ <math>[a]_{+} = \max(0,a)</math> [[सकारात्मक भाग|धनात्मक भाग]] के रूप में कार्य है. | ||
:<math>V(f(\vec{x}),y) = \max(0, 1-yf(\vec{x})) = [1 - yf(\vec{x}) ]_{+}.</math> | :<math>V(f(\vec{x}),y) = \max(0, 1-yf(\vec{x})) = [1 - yf(\vec{x}) ]_{+}.</math> | ||
हिंज हानि 0-1 संकेतक फलन पर अपेक्षाकृत तंग, उत्तल ऊपरी सीमा प्रदान करती है। विशेष रूप से, हिंज हानि 0-1 सूचक फलन के समतुल्य होती है जब <math>\operatorname{sgn}(f(\vec{x})) = y</math> और <math>|yf(\vec{x})| \geq 1</math>. इसके अतिरिक्त, इस हानि का अनुभवजन्य हानि न्यूनतमकरण [[ समर्थन वेक्टर मशीन ]] (एसवीएम) के लिए मौलिक फॉर्मूलेशन के समतुल्य है। समर्थन वैक्टर की मार्जिन सीमाओं के बाहर स्थित सही ढंग से वर्गीकृत बिंदुओं को दंडित नहीं किया जाता है, जबकि मार्जिन सीमाओं के भीतर या हाइपर समतल के गलत तरफ के बिंदुओं को सही सीमा से उनकी दूरी की तुलना में रैखिक फैशन में दंडित किया जाता है।<ref name="Utah" /> | |||
जबकि | जबकि हिंज हानि फलन उत्तल और निरंतर दोनों है, यह सुचारू नहीं है, भिन्न नहीं किया जा सकता है। <math>yf(\vec{x})=1</math>.परिणाम स्वरुप, हिंज हानि फलन का उपयोग[[ ढतला हुआ वंश | ग्रेडिएंट डिसेंट]] विधियों या [[स्टोकेस्टिक ग्रेडिएंट डिसेंट]] विधियों के साथ नहीं किया जा सकता है, जो पूरे डोमेन पर भिन्नता पर निर्भर करते हैं। चूंकि, हिंज हानि में एक सबग्रेडिएंट होता है <math>yf(\vec{x})=1</math>, जो [[उपग्रेडिएंट विधि]] के उपयोग की अनुमति देता है।<ref name="Utah" /> हिंज हानि फलन का उपयोग करने वाले एसवीएम को [[द्विघात प्रोग्रामिंग]] का उपयोग करके भी हल किया जा सकता है। | ||
मिनिमाइज़र <math>I[f]</math>हिंज हानि फलन के लिए है | |||
:<math>f^*_\text{Hinge}(\vec{x}) \;=\; \begin{cases} 1& \text{if }p(1\mid\vec{x}) > p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) < p(-1\mid\vec{x}) \end{cases}</math> | :<math>f^*_\text{Hinge}(\vec{x}) \;=\; \begin{cases} 1& \text{if }p(1\mid\vec{x}) > p(-1\mid\vec{x}) \\ -1 & \text{if }p(1\mid\vec{x}) < p(-1\mid\vec{x}) \end{cases}</math> | ||
जब <math>p(1\mid x) \ne 0.5</math>, जो 0-1 संकेतक फलन से मेल खाता है। यह निष्कर्ष हिंज हानि को अधिक आकर्षक बनाता है, क्योंकि अपेक्षित हानि और हिंज हानि फलन के संकेत के बीच अंतर पर सीमाएं लगाई जा सकती हैं।<ref name="mit" />हिंज हानि को (2) से प्राप्त नहीं किया जा सकता है <math>f^*_{\text{Hinge}}</math> उलटा नहीं है. | |||
== सामान्यीकृत | == '''सामान्यीकृत स्मूथ हिंज हानि''' == | ||
पैरामीटर के साथ सामान्यीकृत | पैरामीटर के साथ सामान्यीकृत स्मूथ हिंज हानि फलन <math>\alpha</math> परिभाषित किया जाता है | ||
:<math>f^*_\alpha(z) \;=\; \begin{cases} \frac{\alpha}{\alpha + 1} - z & \text{if }z \leq 0 \\ \frac{1}{\alpha + 1}z^{\alpha + 1} - z + \frac{\alpha}{\alpha + 1} & \text{if } 0<z<1 \\ 0 & \text{if } z \geq 1 \end{cases},</math> | :<math>f^*_\alpha(z) \;=\; \begin{cases} \frac{\alpha}{\alpha + 1} - z & \text{if }z \leq 0 \\ \frac{1}{\alpha + 1}z^{\alpha + 1} - z + \frac{\alpha}{\alpha + 1} & \text{if } 0<z<1 \\ 0 & \text{if } z \geq 1 \end{cases},</math> | ||
Line 187: | Line 186: | ||
यह नीरस रूप से बढ़ रहा है और 0 तक पहुंच जाता है <math>z = 1</math>. | यह नीरस रूप से बढ़ रहा है और 0 तक पहुंच जाता है <math>z = 1</math>. | ||
== यह भी देखें == | == '''यह भी देखें''' == | ||
* | *विभेदक प्रोग्रामिंग | ||
*[[स्कोरिंग समारोह]] | *[[स्कोरिंग समारोह|स्कोरिंग फलन]] | ||
== संदर्भ == | == '''संदर्भ''' == | ||
{{Reflist}} | {{Reflist}} | ||
{{Differentiable computing}} | {{Differentiable computing}} | ||
[[Category: | [[Category:All articles with unsourced statements]] | ||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category:Articles with unsourced statements from February 2023]] | |||
[[Category:CS1]] | |||
[[Category:Collapse templates]] | |||
[[Category:Created On 26/07/2023]] | [[Category:Created On 26/07/2023]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Sidebars with styles needing conversion]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Translated in Hindi]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates generating microformats]] | |||
[[Category:Templates that are not mobile friendly]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Wikipedia articles needing clarification from February 2023]] | |||
[[Category:Wikipedia metatemplates]] | |||
[[Category:मशीन लर्निंग एल्गोरिदम]] |
Latest revision as of 10:49, 14 August 2023
Part of a series on |
Machine learning and data mining |
---|
मशीन लर्निंग और गणितीय अनुकूलन में वर्गीकरण के लिए हानि फलन अभिकलनात्मक रूप से व्यवहार्य हानि फलन के रूप में हैं, जो सांख्यिकीय वर्गीकरण में भविष्यवाणियों की अशुद्धि के लिए भुगतान की गई कीमत का प्रतिनिधित्व करते हैं यहाँ पहचानने की समस्याएं कि कोई विशेष अवलोकन किस श्रेणी से संबंधित है।[1] दिया गया सभी संभावित इनपुट के समष्टि के रूप में सामान्यतःहोती है। () और लेबल के सेट संभावित आउटपुट के रूप में वर्गीकरण एल्गोरिदम का एक विशिष्ट लक्ष्य के रूप में एक फलन ढूंढना है. जो किसी लेबल की सबसे अच्छी भविष्यवाणी करता है किसी दिए गए इनपुट के लिए .[2] चूंकि अधूरी जानकारी माप में शोर या अंतर्निहित प्रक्रिया में संभाव्य घटकों के कारण यह संभव है भिन्न उत्पन्न करने के लिए .[3] परिणामस्वरूप सीखने की समस्या का लक्ष्य अपेक्षित हानि को कम करना है, जिसे हानि के रूप में भी जाना जाता है, जिसे इस प्रकार परिभाषित किया गया है.
जहाँ एक दिया गया हानि फलन है और डेटा उत्पन्न करने वाली प्रक्रिया का संभाव्यता घनत्व फलन है, जिसे समकक्ष रूप से लिखा जा सकता है
वर्गीकरण के भीतर सामान्यतः उपयोग किए जाने वाले कई हानि फलन मात्र वास्तविक लेबल के उत्पाद के संदर्भ के रूप में लिखे जाते हैं और अनुमानित लेबल . इसलिए उन्हें मात्र एक चर के कार्यों के रूप में परिभाषित किया जा सकता है , जिससे की उपयुक्त रूप से चुने गए फलन के साथ . इन्हें मार्जिन-आधारित हानि फलन कहा जाता है। मार्जिन-आधारित हानि फलन को चुनना चुनने के समान है . इस ढांचे के भीतर हानि फलन का चयन इष्टतम को प्रभावित करता है जो अपेक्षित हानि को कम करता है।
बाइनरी वर्गीकरण के मामले में ऊपर निर्दिष्ट अभिन्न से अपेक्षित हानि की गणना को सरल बनाना संभव है। विशेष रूप से,
दूसरी समानता ऊपर वर्णित गुणों से मिलती है। तीसरी समानता इस तथ्य से उत्पन्न होती है कि 1 और −1 ही एकमात्र संभावित मान हैं , और चौथा क्योंकि . कोष्ठक के भीतर शब्द सशर्त हानि के रूप में जाना जाता है।
कोई भी इसे मिनिमाइज़र के रूप में हल कर सकता है के संबंध में अंतिम समानता के कार्यात्मक व्युत्पन्न को लेकर और व्युत्पन्न को 0 के समतुल्य सेट करना होता है। इसका परिणाम निम्नलिखित समीकरण होता है.
जो सशर्त हानि के व्युत्पन्न को शून्य के समतुल्य निर्धारित करने के समतुल्य है।
वर्गीकरण की द्विआधारी प्रकृति को देखते हुए, हानि फलन के लिए एक प्राकृतिक चयन झूठी धनात्मक और झूठी ऋणात्मक के लिए समान लागत मानते हुए. 0-1 हानि फलन 0-1 संकेतक फलन के रूप में होगा, जो अनुमानित वर्गीकरण के बराबर होने पर 0 का मान लेता है। यदि अनुमानित वर्गीकरण वास्तविक वर्ग से मेल नहीं खाता है तो सही वर्ग या 1। यह चयन किसके द्वारा प्रतिरूपित किया गया है?
जहाँ हेविसाइड स्टेप फलन को इंगित करता है।
चूंकि यह हानि फलन गैर-उत्तल और गैर-सुचारू रूप में है और इष्टतम समाधान के लिए समाधान एक एनपी हार्ड कॉम्बिनेटोरियल अनुकूलन समस्या के रूप में है।[4] परिणामस्वरूप, हानि फलन सरोगेट्स को प्रतिस्थापित करना उत्तम होता है, जो सामान्यतः उपयोग किए जाने वाले शिक्षण एल्गोरिदम के लिए ट्रैक करने योग्य होते हैं, क्योंकि उनके पास उत्तल और स्मूथ होने जैसे सुविधाजनक गुण होते हैं। उनकी अभिकलनात्मक ट्रैक्टेबिलिटी के अतिरिक्त कोई यह दिखा सकता है, कि इन हानि सरोगेट्स का उपयोग करके सीखने की समस्या का समाधान मूल वर्गीकरण समस्या के वास्तविक समाधान की पुनर्प्राप्ति की अनुमति देता है।[5] इनमें से कुछ सरोगेट्स का वर्णन नीचे दिया गया है।
व्यवहार में संभाव्यता वितरण अज्ञात है। परिणामस्वरूप, के एक प्रशिक्षण सेट का उपयोग करना आईआईडी नमूना बिंदु है।
डेटा नमूना समष्टि से लिया गया, कोई अनुभवजन्य हानि को कम करना चाहता है.
अपेक्षित हानि के लिए एक प्रॉक्सी के रूप में।[3](अधिक विस्तृत विवरण के लिए सांख्यिकीय शिक्षण सिद्धांत देखें।)
बेयस संगति
बेयस प्रमेय का उपयोग करके, यह दिखाया जा सकता है कि इष्टतम , अर्थात, जो शून्य-एक हानि से जुड़े अपेक्षित हानि को कम करता है, बाइनरी वर्गीकरण समस्या के लिए बेयस इष्टतम निर्णय नियम लागू करता है और यह उसके रूप में होता है
- .
एक हानि फलन को वर्गीकरण-कैलिब्रेटेड या बेयस सुसंगत कहा जाता है यदि यह इष्टतम है इस प्रकार कि और इस प्रकार बेयस निर्णय नियम के अनुसार इष्टतम है। बेयस लगातार हानि फलन हमें बेयस इष्टतम निर्णय फलन खोजने की अनुमति देता है अपेक्षित हानि को सीधे कम करके और संभाव्यता घनत्व कार्यों को स्पष्ट रूप से मॉडल किए बिना होता है।
उत्तल मार्जिन हानि के लिए , ऐसा दिखाया जा सकता है क्या बेयस सुसंगत है यदि और मात्र यदि यह 0 और पर अवकलनीय है .[6][1]फिर भी यह परिणाम गैर-उत्तल बेयस लगातार हानि कार्यों के अस्तित्व को बाहर नहीं करता है। एक अधिक सामान्य परिणाम बताता है, कि बेयस लगातार हानि फलन निम्नलिखित फॉर्मूलेशन के रूप में उपयोग करके उत्पन्न किया जा सकता है [7]
- ,
जहाँ ऐसा कोई व्युत्क्रमणीय फलन ऐसा है, और कोई भी अवकलनीय सख्ती से अवतल फलन है, जैसे कि . तालिका-I कुछ उदाहरण विकल्पों के लिए उत्पन्न बेयस लगातार हानि फलन दिखाता है और . ध्यान दें कि सैवेज और स्पर्शरेखा हानि उत्तल के रूप में नहीं हैं। इस प्रकार के गैर-उत्तल हानि कार्यों को वर्गीकरण में आउटलेर्स से निपटने में उपयोगी दिखाया गया है।[7][8] (2) से उत्पन्न सभी हानि कार्यों के लिए, पश्च संभाव्यता इनवर्टिबल लिंक फलन के रूप में उपयोग करते हुए पाया जा सकता है . ऐसे हानि फलन जहां उलटे लिंक का उपयोग करके पिछली संभावना को पुनर्प्राप्त किया जा सकता है, उचित हानि फलन कहलाते हैं।
हानि का नाम | ||||
---|---|---|---|---|
घातीय | ||||
तार्किक | ||||
वर्ग | ||||
असभ्य | ||||
स्पर्शरेखा |
अपेक्षित हानि को न्यूनतम करने वाला एकमात्र उपाय, , उपरोक्त उत्पन्न हानि कार्यों से जुड़े समीकरण (1) से सीधे पाया जा सकता है और संबंधित के समतुल्य दिखाया जा सकता है . यह गैर-उत्तल हानि कार्यों के लिए भी लागू होता है, जिसका अर्थ है, कि ग्रेडिएंट डिसेंट आधारित एल्गोरिदम जैसे ग्रेडिएंट बूस्टिंग का उपयोग मिनिमाइज़र के निर्माण के लिए किया जा सकता है।
उचित हानि कार्य, हानि मार्जिन और नियमितीकरण
उचित हानि कार्यों के लिए, हानि मार्जिन को इस प्रकार परिभाषित किया जा सकता है और क्लासिफायरियर के नियमितीकरण गुणों से सीधे संबंधित दिखाया गया है।[9] विशेष रूप से बड़े मार्जिन का हानि फलन नियमितीकरण को बढ़ाता है और पिछली संभावना का उत्तम अनुमान उत्पन्न करता है। उदाहरण के लिए, लॉजिस्टिक हानि के लिए हानि मार्जिन को बढ़ाया जा सकता है पैरामीटर और लॉजिस्टिक हानि को इस रूप में लिखना जहां छोटा है हानि का मार्जिन बढ़ जाता है. यह दिखाया गया है कि यह सीधे तौर पर ग्रेडिएंट बूस्टिंग में सीखने की दर को कम करने के समतुल्य है जहां घट रही है बूस्टेड क्लासिफायरियर के नियमितीकरण में सुधार करता है। सिद्धांत यह स्पष्ट करता है कि जब सीखने की दर का उपयोग किया जाता है, पश्च संभाव्यता को पुनः प्राप्त करने का सही सूत्र अब है .
निष्कर्ष में बड़े मार्जिन छोटे के साथ हानि फलन चुनकर हम नियमितीकरण बढ़ाते हैं और पश्च संभाव्यता के अपने अनुमानों में सुधार करते हैं जो बदले में अंतिम क्लासिफायरियर के आरओसी वक्र के रूप में सुधार करता है।
वर्ग हानि
जबकि सामान्यतः प्रतिगमन के रूप में उपयोग किया जाता है, वर्ग हानि फलन को फलन के रूप में फिर से लिखा जा सकता है और वर्गीकरण के लिए उपयोग किया जाता है। इसे निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
वर्ग हानि फलन उत्तल और स्मूथ दोनों है। चूंकि वर्ग हानि फलन आउटलेर्स को अत्यधिक दंडित करता है, जिससे लॉजिस्टिक हानि या हिंज हानि फलन की तुलना में धीमी अभिसरण दर (नमूना सम्मिश्रता के संबंध में) होती है।[1] इसके अतिरिक्त ऐसे फलन जो उच्च मान उत्पन्न करते हैं कुछ के लिए के उच्च मूल्यों के कारण, वर्ग हानि फलन के साथ खराब प्रदर्शन करेगा चाहे कोई भी लक्षण दिखे, कठोर दंड दिया जाएगा और मिलान।
वर्ग हानि फलन का एक लाभ यह है कि इसकी संरचना नियमितीकरण मापदंडों के सरल क्रॉस सत्यापन के लिए उधार देती है। विशेष रूप से तिखोनोव रेगुलरिज़शन के लिए कोई लीव-वन-आउट क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके नियमितीकरण पैरामीटर को उसी समय में हल कर सकता है, जितना किसी एक समस्या को हल करने में लगेगा।[10]
का मिनिमाइज़र वर्ग हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है
लॉजिस्टिक हानि
लॉजिस्टिक हानि फलन निम्नानुसार (2) और तालिका- I के रूप में उपयोग करके उत्पन्न किया जा सकता है.
लॉजिस्टिक हानि उत्तल है और ऋणात्मक मूल्यों के लिए रैखिक रूप से बढ़ती है जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। लॉजिस्टिकहानि का उपयोग लॉगिटबूस्ट के रूप में किया जाता है।
का मिनिमाइज़र लॉजिस्टिकहानि फलन को सीधे समीकरण (1) से पाया जा सकता है
यह फलन जब अपरिभाषित है या (क्रमशः ∞ और −∞ की ओर रुझान), लेकिन एक सहज वक्र की भविष्यवाणी करता है, जो तब बढ़ता है जब बढ़ता है और 0 के समतुल्य हो जाता है .[3]
यह जांचना सरल है कि लॉजिस्टिकहानि और बाइनरी क्रॉस एन्ट्रापीहानि (लॉगहानि) वास्तव में एक ही हैं (गुणात्मक स्थिरांक तक) ). क्रॉस एन्ट्रापी हानि अनुभवजन्य वितरण और अनुमानित वितरण के बीच कुल्बैक-लीब्लर विचलन से निकटता से संबंधित है। आधुनिक गहन शिक्षण में क्रॉस एन्ट्रॉपी हानि के रूप में सर्वव्यापी है।
घातीय हानि
घातांकीय हानि फलन निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
घातीय हानि उत्तल है और ऋणात्मक मूल्यों के लिए तेजी से बढ़ती है जो इसे आउटलेर्स के प्रति अधिक संवेदनशील बनाती है। घातीय हानि का उपयोग एडाबूस्ट में किया जाता है।
का मिनिमाइज़र घातीय हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है
बर्बर हानि
सैवेज हानि[7] निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
सैवेज हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों से घिरा है, जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाता है। सैवेज हानि का उपयोग ग्रेडिएंट बूस्टिंग और सैवेज बूस्ट एल्गोरिदम के रूप में किया गया है।
मिनिमाइज़र सैवेज हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है.
स्पर्शरेखा हानि
स्पर्शरेखा हानि[11] निम्नानुसार (2) और तालिका-I का उपयोग करके उत्पन्न किया जा सकता है
स्पर्शरेखा हानि अर्ध-उत्तल है और बड़े ऋणात्मक मूल्यों के लिए बाध्य है, जो इसे आउटलेर्स के प्रति कम संवेदनशील बनाती है। रोचक बात यह है कि स्पर्शरेखा हानि उन डेटा बिंदुओं पर एक निश्चित जुर्माना भी लगाती है, जिन्हें बहुत सही ढंग से वर्गीकृत किया गया है। इससे डेटा सेट पर अति-प्रशिक्षण को रोकने में सहायता मिल सकती है। स्पर्शरेखा हानि का उपयोग ग्रेडिएंट बूस्टिंग, टैंगेंटबूस्ट एल्गोरिदम और वैकल्पिक निर्णय वनों में किया गया है।[12]
मिनिमाइज़र स्पर्शरेखा हानि फलन के लिए सीधे समीकरण (1) से पाया जा सकता है.
हिंज हानि
हिंज हानि फलन को इसके साथ परिभाषित किया गया है , कहाँ धनात्मक भाग के रूप में कार्य है.
हिंज हानि 0-1 संकेतक फलन पर अपेक्षाकृत तंग, उत्तल ऊपरी सीमा प्रदान करती है। विशेष रूप से, हिंज हानि 0-1 सूचक फलन के समतुल्य होती है जब और . इसके अतिरिक्त, इस हानि का अनुभवजन्य हानि न्यूनतमकरण समर्थन वेक्टर मशीन (एसवीएम) के लिए मौलिक फॉर्मूलेशन के समतुल्य है। समर्थन वैक्टर की मार्जिन सीमाओं के बाहर स्थित सही ढंग से वर्गीकृत बिंदुओं को दंडित नहीं किया जाता है, जबकि मार्जिन सीमाओं के भीतर या हाइपर समतल के गलत तरफ के बिंदुओं को सही सीमा से उनकी दूरी की तुलना में रैखिक फैशन में दंडित किया जाता है।[4]
जबकि हिंज हानि फलन उत्तल और निरंतर दोनों है, यह सुचारू नहीं है, भिन्न नहीं किया जा सकता है। .परिणाम स्वरुप, हिंज हानि फलन का उपयोग ग्रेडिएंट डिसेंट विधियों या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधियों के साथ नहीं किया जा सकता है, जो पूरे डोमेन पर भिन्नता पर निर्भर करते हैं। चूंकि, हिंज हानि में एक सबग्रेडिएंट होता है , जो उपग्रेडिएंट विधि के उपयोग की अनुमति देता है।[4] हिंज हानि फलन का उपयोग करने वाले एसवीएम को द्विघात प्रोग्रामिंग का उपयोग करके भी हल किया जा सकता है।
मिनिमाइज़र हिंज हानि फलन के लिए है
जब , जो 0-1 संकेतक फलन से मेल खाता है। यह निष्कर्ष हिंज हानि को अधिक आकर्षक बनाता है, क्योंकि अपेक्षित हानि और हिंज हानि फलन के संकेत के बीच अंतर पर सीमाएं लगाई जा सकती हैं।[1]हिंज हानि को (2) से प्राप्त नहीं किया जा सकता है उलटा नहीं है.
सामान्यीकृत स्मूथ हिंज हानि
पैरामीटर के साथ सामान्यीकृत स्मूथ हिंज हानि फलन परिभाषित किया जाता है
कहाँ
यह नीरस रूप से बढ़ रहा है और 0 तक पहुंच जाता है .
यह भी देखें
- विभेदक प्रोग्रामिंग
- स्कोरिंग फलन
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?" (PDF). Neural Computation. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510. S2CID 11845688.
- ↑ Shen, Yi (2005), Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, retrieved 6 December 2014
- ↑ 3.0 3.1 3.2 Rosasco, Lorenzo; Poggio, Tomaso (2014), A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, vol. Manuscript
- ↑ 4.0 4.1 4.2 Piyush, Rai (13 September 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350/6350: Machine Learning, retrieved 4 May 2021
- ↑ Ramanan, Deva (27 February 2008), Lecture 14 (PDF), UCI ICS273A: Machine Learning, retrieved 6 December 2014
- ↑ Bartlett, Peter L.; Jordan, Michael I.; Mcauliffe, Jon D. (2006). "उत्तलता, वर्गीकरण, और जोखिम सीमाएँ". Journal of the American Statistical Association. 101 (473): 138–156. doi:10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445. S2CID 2833811.
- ↑ 7.0 7.1 7.2 Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). "On the Design of Loss Functions for Classification: Theory, Robustness to Outliers, and SavageBoost" (PDF). Proceedings of the 21st International Conference on Neural Information Processing Systems. NIPS'08. USA: Curran Associates Inc.: 1049–1056. ISBN 9781605609492.
- ↑ Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (September 2009). "On robustness of on-line boosting - a competitive study". 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops. pp. 1362–1369. doi:10.1109/ICCVW.2009.5457451. ISBN 978-1-4244-4442-7. S2CID 6032045.
- ↑ Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). "संभाव्यता अनुमानों के नियमितीकरणकर्ताओं के रूप में मार्जिन हानियों का एक दृश्य". Journal of Machine Learning Research. 16 (85): 2751–2795. ISSN 1533-7928.
- ↑ Rifkin, Ryan M.; Lippert, Ross A. (1 May 2007), Notes on Regularized Least Squares (PDF), MIT Computer Science and Artificial Intelligence Laboratory
- ↑ Masnadi-Shirazi, H.; Mahadevan, V.; Vasconcelos, N. (June 2010). "On the design of robust classifiers for computer vision". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. pp. 779–786. CiteSeerX 10.1.1.172.6416. doi:10.1109/CVPR.2010.5540136. ISBN 978-1-4244-6984-0. S2CID 632758.
- ↑ Schulter, S.; Wohlhart, P.; Leistner, C.; Saffari, A.; Roth, P. M.; Bischof, H. (June 2013). "Alternating Decision Forests". 2013 IEEE Conference on Computer Vision and Pattern Recognition. pp. 508–515. CiteSeerX 10.1.1.301.1305. doi:10.1109/CVPR.2013.72. ISBN 978-0-7695-4989-7. S2CID 6557162.