हिंज लॉस: Difference between revisions

Revision as of 21:59, 4 August 2023

ऊर्ध्वाधर अक्ष निश्चित के लिए हिंज हानि (नीले रंग में) और शून्य-एक हानि (हरे रंग में) के मूल्य का प्रतिनिधित्व करता है

t = 1

, जबकि क्षैतिज अक्ष भविष्यवाणी के मूल्य का प्रतिनिधित्व करता है

y

. कथानक से पता चलता है कि हिंज हानि भविष्यवाणियों को दंडित करती है

y < 1

, एक सपोर्ट वेक्टर मशीन में मार्जिन की धारणा के अनुरूप।

यंत्र अधिगम में, हिंज लॉस एक हानि फ़ंक्शन है जिसका उपयोग सांख्यिकीय वर्गीकरण के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के लिए किया जाता है, विशेष रूप से समर्थन वेक्टर यंत्र ों (एसवीएम) के लिए।^[1]

किसी इच्छित आउटपुट के लिए $t = \pm1$ और एक क्लासिफायर स्कोर $y$ , भविष्यवाणी का टिका हानि $y$ परिभाषित किया जाता है

\ell (y)=\max(0,1-t\cdot y)

ध्यान दें कि $y$ क्लासिफायरियर के निर्णय फ़ंक्शन का कच्चा आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, $y=\mathbf {w} \cdot \mathbf {x} +b$ , कहाँ $(\mathbf {w} ,b)$ हाइपरप्लेन के पैरामीटर हैं और $\mathbf {x}$ इनपुट वेरिएबल है।

कब $t$ और $y$ का चिन्ह (अर्थ) एक ही है $y$ सही वर्ग की भविष्यवाणी करता है) और $|y|\geq 1$ , काज हानि $\ell (y)=0$ . जब उनके विपरीत लक्षण हों, $\ell (y)$ के साथ रैखिक रूप से बढ़ता है $y$ , और इसी प्रकार यदि $|y|<1$ , भले ही उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं)।

एक्सटेंशन

जबकि बाइनरी एसवीएम को सामान्यतः एक-बनाम-सभी या एक-बनाम-एक फैशन में मल्टीक्लास वर्गीकरण तक विस्तारित किया जाता है,^[2] इस तरह के अंत के लिए काज हानि को स्वयं बढ़ाना भी संभव है। मल्टीक्लास हिंज लॉस के कई भिन्न-भिन्न रूप प्रस्तावित किए गए हैं।^[3] उदाहरण के लिए, क्रैमर और सिंगर^[4] इसे एक रैखिक वर्गीकारक के रूप में परिभाषित किया गया है^[5]

\ell (y)=\max(0,1+\max _{y\neq t}\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\mathbf {x} )

कहाँ $t$ लक्ष्य लेबल है, $\mathbf {w} _{t}$ और $\mathbf {w} _{y}$ मॉडल पैरामीटर हैं.

वेस्टन और वॉटकिंस ने एक समान परिभाषा प्रदान की, लेकिन अधिकतम के अतिरिक्त योग के साथ:^[6]^[3]

\ell (y)=\sum _{y\neq t}\max(0,1+\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\mathbf {x} )

संरचित भविष्यवाणी में, काज हानि को आगे संरचित आउटपुट स्थानों तक बढ़ाया जा सकता है। मार्जिन रीस्केलिंग के साथ संरचित समर्थन वेक्टर मशीन निम्नलिखित संस्करण का उपयोग करती है, जहां $w$ एसवीएम के मापदंडों को दर्शाता है, $y$ एसवीएम की भविष्यवाणियां, $φ$ संयुक्त सुविधा फ़ंक्शन, और $Δ$ हैमिंग हानि:

{\begin{aligned}\ell (\mathbf {y} )&=\max(0,\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle -\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\\&=\max(0,\max _{y\in {\mathcal {Y}}}\left(\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle \right)-\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\end{aligned}}

अनुकूलन

हिंज हानि एक उत्तल कार्य है, इसलिए मशीन लर्निंग में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह विभेदक कार्य नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबडेरिवेटिव # सबग्रेडिएंट है $w$ स्कोर फ़ंक्शन के साथ एक रैखिक एसवीएम का $y=\mathbf {w} \cdot \mathbf {x}$ जो कि दिया गया है

{\frac {\partial \ell }{\partial w_{i}}}={\begin{cases}-t\cdot x_{i}&{\text{if }}t\cdot y<1\\0&{\text{otherwise}}\end{cases}}

एक फ़ंक्शन के रूप में काज हानि के तीन प्रकारों का प्लॉट

z = ty

: सामान्य संस्करण (नीला), इसका वर्गाकार (हरा), और रेनी और स्रेब्रो द्वारा टुकड़ा-वार चिकना संस्करण (लाल)। y-अक्ष है

l(y)

काज हानि, और x-अक्ष पैरामीटर है

t

चूंकि, काज हानि के व्युत्पन्न के पश्चात से $ty=1$ अपरिभाषित है, अनुकूलन के लिए चिकनाई संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो^[7]

\ell (y)={\begin{cases}{\frac {1}{2}}-ty&{\text{if}}~~ty\leq 0,\\{\frac {1}{2}}(1-ty)^{2}&{\text{if}}~~0<ty<1,\\0&{\text{if}}~~1\leq ty\end{cases}}

या चतुर्भुज रूप से चिकना किया गया

\ell _{\gamma }(y)={\begin{cases}{\frac {1}{2\gamma }}\max(0,1-ty)^{2}&{\text{if}}~~ty\geq 1-\gamma \\1-{\frac {\gamma }{2}}-ty&{\text{otherwise}}\end{cases}}

झांग द्वारा सुझाया गया।^[8] वर्गीकरण के लिए ह्यूबर लॉस#वेरिएंट $L$ इस हानि फ़ंक्शन का एक विशेष स्थिति है $\gamma =2$ , विशेष रूप से $L(t,y)=4\ell _{2}(y)$ .

यह भी देखें

Multivariate adaptive regression spline § Hinge functions

संदर्भ

↑ Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?" (PDF). Neural Computation. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.
↑ Duan, K. B.; Keerthi, S. S. (2005). "Which Is the Best Multiclass SVM Method? An Empirical Study" (PDF). मल्टीपल क्लासिफायर सिस्टम. LNCS. Vol. 3541. pp. 278–285. CiteSeerX 10.1.1.110.6789. doi:10.1007/11494683_28. ISBN 978-3-540-26306-7.
↑ ^3.0 ^3.1 Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "मल्टी-क्लास सपोर्ट वेक्टर वर्गीकरण पर एक एकीकृत दृश्य" (PDF). Journal of Machine Learning Research. 17: 1–32.
↑ Crammer, Koby; Singer, Yoram (2001). "मल्टीक्लास कर्नेल-आधारित वेक्टर मशीनों के एल्गोरिथम कार्यान्वयन पर" (PDF). Journal of Machine Learning Research. 2: 265–292.
↑ Moore, Robert C.; DeNero, John (2011). "L₁ and L₂ regularization for multiclass hinge loss models" (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing.
↑ Weston, Jason; Watkins, Chris (1999). "मल्टी-क्लास पैटर्न पहचान के लिए वेक्टर मशीनों का समर्थन करें" (PDF). European Symposium on Artificial Neural Networks.
↑ Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.
↑ Zhang, Tong (2004). स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके बड़े पैमाने पर रैखिक भविष्यवाणी समस्याओं को हल करना (PDF). ICML.

[1] Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?" (PDF). Neural Computation. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.

[duan2005-2] Duan, K. B.; Keerthi, S. S. (2005). "Which Is the Best Multiclass SVM Method? An Empirical Study" (PDF). मल्टीपल क्लासिफायर सिस्टम. LNCS. Vol. 3541. pp. 278–285. CiteSeerX 10.1.1.110.6789. doi:10.1007/11494683_28. ISBN 978-3-540-26306-7.

[unifiedview-3] 3.0 ^3.1 Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "मल्टी-क्लास सपोर्ट वेक्टर वर्गीकरण पर एक एकीकृत दृश्य" (PDF). Journal of Machine Learning Research. 17: 1–32.

[4] Crammer, Koby; Singer, Yoram (2001). "मल्टीक्लास कर्नेल-आधारित वेक्टर मशीनों के एल्गोरिथम कार्यान्वयन पर" (PDF). Journal of Machine Learning Research. 2: 265–292.

[5] Moore, Robert C.; DeNero, John (2011). "L₁ and L₂ regularization for multiclass hinge loss models" (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing.

[6] Weston, Jason; Watkins, Chris (1999). "मल्टी-क्लास पैटर्न पहचान के लिए वेक्टर मशीनों का समर्थन करें" (PDF). European Symposium on Artificial Neural Networks.

[7] Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.

[zhang-8] Zhang, Tong (2004). स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके बड़े पैमाने पर रैखिक भविष्यवाणी समस्याओं को हल करना (PDF). ICML.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

@@ Line 1: / Line 1: @@
 {{Short description|Loss function in machine learning}}
 [[File:Hinge loss vs zero one loss.svg|thumb|ऊर्ध्वाधर अक्ष निश्चित के लिए हिंज हानि (नीले रंग में) और शून्य-एक हानि (हरे रंग में) के मूल्य का प्रतिनिधित्व करता है {{math|''t'' {{=}} 1}}, जबकि क्षैतिज अक्ष भविष्यवाणी के मूल्य का प्रतिनिधित्व करता है {{mvar|y}}. कथानक से पता चलता है कि हिंज हानि भविष्यवाणियों को दंडित करती है {{math|''y'' < 1}}, एक सपोर्ट वेक्टर मशीन में मार्जिन की धारणा के अनुरूप।]][[ यंत्र अधिगम ]] में, हिंज लॉस एक हानि फ़ंक्शन है जिसका उपयोग [[सांख्यिकीय वर्गीकरण]] के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के लिए किया जाता है, विशेष रूप से [[ समर्थन वेक्टर यंत्र ]]ों (एसवीएम) के लिए।<ref>{{Cite journal | last1 = Rosasco | first1 = L. | last2 = De Vito | first2 = E. D. | last3 = Caponnetto | first3 = A. | last4 = Piana | first4 = M. | last5 = Verri | first5 = A. | url = http://web.mit.edu/lrosasco/www/publications/loss.pdf| title = Are Loss Functions All the Same? | doi = 10.1162/089976604773135104 | journal = Neural Computation | volume = 16 | issue = 5 | pages = 1063–1076 | year = 2004 | pmid =  15070510| citeseerx = 10.1.1.109.6786 }}</ref>
-किसी इच्छित आउटपुट के लिए {{math|''t'' {{=}} ±1}} और एक क्लासिफायर स्कोर {{mvar|y}}, भविष्यवाणी का टिका नुकसान {{mvar|y}} परिभाषित किया जाता है
+किसी इच्छित आउटपुट के लिए {{math|''t'' {{=}} ±1}} और एक क्लासिफायर स्कोर {{mvar|y}}, भविष्यवाणी का टिका हानि {{mvar|y}} परिभाषित किया जाता है
 :<math>\ell(y) = \max(0, 1-t \cdot y)</math>
@@ Line 9: / Line 9: @@
 ==एक्सटेंशन==
-जबकि बाइनरी एसवीएम को आमतौर पर एक-बनाम-सभी या एक-बनाम-एक फैशन में मल्टीक्लास वर्गीकरण तक विस्तारित किया जाता है,<ref name="duan2005">{{Cite book | last1 = Duan | first1 = K. B. | last2 = Keerthi | first2 = S. S. | chapter = Which Is the Best Multiclass SVM Method? An Empirical Study | doi = 10.1007/11494683_28 | title = मल्टीपल क्लासिफायर सिस्टम| series = [[Lecture Notes in Computer Science|LNCS]]| volume = 3541 | pages = 278–285 | year = 2005 | isbn = 978-3-540-26306-7 | chapter-url = http://www.keerthis.com/multiclass_mcs_kaibo_05.pdf| citeseerx = 10.1.1.110.6789 }}</ref>
+जबकि बाइनरी एसवीएम को सामान्यतः एक-बनाम-सभी या एक-बनाम-एक फैशन में मल्टीक्लास वर्गीकरण तक विस्तारित किया जाता है,<ref name="duan2005">{{Cite book | last1 = Duan | first1 = K. B. | last2 = Keerthi | first2 = S. S. | chapter = Which Is the Best Multiclass SVM Method? An Empirical Study | doi = 10.1007/11494683_28 | title = मल्टीपल क्लासिफायर सिस्टम| series = [[Lecture Notes in Computer Science|LNCS]]| volume = 3541 | pages = 278–285 | year = 2005 | isbn = 978-3-540-26306-7 | chapter-url = http://www.keerthis.com/multiclass_mcs_kaibo_05.pdf| citeseerx = 10.1.1.110.6789 }}</ref>
-इस तरह के अंत के लिए काज हानि को स्वयं बढ़ाना भी संभव है। मल्टीक्लास हिंज लॉस के कई अलग-अलग रूप प्रस्तावित किए गए हैं।<ref name="unifiedview">{{cite journal |title=मल्टी-क्लास सपोर्ट वेक्टर वर्गीकरण पर एक एकीकृत दृश्य|year=2016 |url=http://www.jmlr.org/papers/volume17/11-229/11-229.pdf |journal=[[Journal of Machine Learning Research]] |volume=17 |pages=1–32 |last1=Doğan |first1=Ürün |last2=Glasmachers |first2=Tobias |last3=Igel |first3=Christian}}</ref> उदाहरण के लिए, क्रैमर और सिंगर<ref>{{cite journal |title=मल्टीक्लास कर्नेल-आधारित वेक्टर मशीनों के एल्गोरिथम कार्यान्वयन पर|year=2001 |url=http://jmlr.csail.mit.edu/papers/volume2/crammer01a/crammer01a.pdf |journal=[[Journal of Machine Learning Research]] |volume=2 |pages=265–292 |last1=Crammer |first1=Koby |last2=Singer |first2=Yoram}}</ref>
+इस तरह के अंत के लिए काज हानि को स्वयं बढ़ाना भी संभव है। मल्टीक्लास हिंज लॉस के कई भिन्न-भिन्न रूप प्रस्तावित किए गए हैं।<ref name="unifiedview">{{cite journal |title=मल्टी-क्लास सपोर्ट वेक्टर वर्गीकरण पर एक एकीकृत दृश्य|year=2016 |url=http://www.jmlr.org/papers/volume17/11-229/11-229.pdf |journal=[[Journal of Machine Learning Research]] |volume=17 |pages=1–32 |last1=Doğan |first1=Ürün |last2=Glasmachers |first2=Tobias |last3=Igel |first3=Christian}}</ref> उदाहरण के लिए, क्रैमर और सिंगर<ref>{{cite journal |title=मल्टीक्लास कर्नेल-आधारित वेक्टर मशीनों के एल्गोरिथम कार्यान्वयन पर|year=2001 |url=http://jmlr.csail.mit.edu/papers/volume2/crammer01a/crammer01a.pdf |journal=[[Journal of Machine Learning Research]] |volume=2 |pages=265–292 |last1=Crammer |first1=Koby |last2=Singer |first2=Yoram}}</ref>
 इसे एक रैखिक वर्गीकारक के रूप में परिभाषित किया गया है<ref>{{cite conference |first1=Robert C. |last1=Moore |first2=John |last2=DeNero |title=L<sub>1</sub> and L<sub>2</sub> regularization for multiclass hinge loss models |url=http://www.ttic.edu/sigml/symposium2011/papers/Moore+DeNero_Regularization.pdf|book-title=Proc. Symp. on Machine Learning in Speech and Language Processing |year=2011}}</ref>
 :<math>\ell(y) = \max(0, 1 + \max_{y \ne t} \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})</math>
 कहाँ <math>t</math> लक्ष्य लेबल है, <math>\mathbf{w}_t</math> और <math>\mathbf{w}_y</math> मॉडल पैरामीटर हैं.
-वेस्टन और वॉटकिंस ने एक समान परिभाषा प्रदान की, लेकिन अधिकतम के बजाय योग के साथ:<ref>{{cite conference |first1=Jason |last1=Weston |first2=Chris |last2=Watkins |title=मल्टी-क्लास पैटर्न पहचान के लिए वेक्टर मशीनों का समर्थन करें|url=https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es1999-461.pdf |book-title=European Symposium on Artificial Neural Networks |year=1999}}</ref><ref name="unifiedview" />
+वेस्टन और वॉटकिंस ने एक समान परिभाषा प्रदान की, लेकिन अधिकतम  के अतिरिक्त योग के साथ:<ref>{{cite conference |first1=Jason |last1=Weston |first2=Chris |last2=Watkins |title=मल्टी-क्लास पैटर्न पहचान के लिए वेक्टर मशीनों का समर्थन करें|url=https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es1999-461.pdf |book-title=European Symposium on Artificial Neural Networks |year=1999}}</ref><ref name="unifiedview" />
 :<math>\ell(y) = \sum_{y \ne t} \max(0, 1 + \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})</math>
@@ Line 34: / Line 34: @@
 \end{cases}</math>
-[[File:Hinge loss variants.svg|thumb|एक फ़ंक्शन के रूप में काज हानि के तीन प्रकारों का प्लॉट {{math|''z'' {{=}} ''ty''}}: सामान्य संस्करण (नीला), इसका वर्गाकार (हरा), और रेनी और स्रेब्रो द्वारा टुकड़ा-वार चिकना संस्करण (लाल)। y-अक्ष है {{math|''l(y)''}} काज हानि, और x-अक्ष पैरामीटर है {{mvar|t}}]]हालाँकि, काज हानि के व्युत्पन्न के बाद से <math>ty = 1</math> अपरिभाषित है, अनुकूलन के लिए [[ चिकनाई ]] संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो<ref>{{cite conference |title=Loss Functions for Preference Levels: Regression with Discrete Ordered Labels |first1=Jason D. M. |last1=Rennie |first2=Nathan |last2=Srebro |conference=Proc. [[IJCAI]] Multidisciplinary Workshop on Advances in Preference Handling |year=2005 |url=http://ttic.uchicago.edu/~nati/Publications/RennieSrebroIJCAI05.pdf}}</ref>
+[[File:Hinge loss variants.svg|thumb|एक फ़ंक्शन के रूप में काज हानि के तीन प्रकारों का प्लॉट {{math|''z'' {{=}} ''ty''}}: सामान्य संस्करण (नीला), इसका वर्गाकार (हरा), और रेनी और स्रेब्रो द्वारा टुकड़ा-वार चिकना संस्करण (लाल)। y-अक्ष है {{math|''l(y)''}} काज हानि, और x-अक्ष पैरामीटर है {{mvar|t}}]]चूंकि, काज हानि के व्युत्पन्न के पश्चात से <math>ty = 1</math> अपरिभाषित है, अनुकूलन के लिए [[ चिकनाई ]] संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो<ref>{{cite conference |title=Loss Functions for Preference Levels: Regression with Discrete Ordered Labels |first1=Jason D. M. |last1=Rennie |first2=Nathan |last2=Srebro |conference=Proc. [[IJCAI]] Multidisciplinary Workshop on Advances in Preference Handling |year=2005 |url=http://ttic.uchicago.edu/~nati/Publications/RennieSrebroIJCAI05.pdf}}</ref>
 :<math>\ell(y) = \begin{cases}
 \frac{1}{2} - ty       & \text{if} ~~ ty \le 0, \\
@@ Line 46: / Line 46: @@
 - \frac{\gamma}{2} - ty           & \text{otherwise}
 \end{cases}</math>
-झांग द्वारा सुझाया गया।<ref name="zhang">{{cite conference |last=Zhang |first=Tong |title=स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके बड़े पैमाने पर रैखिक भविष्यवाणी समस्याओं को हल करना|conference=ICML |year=2004 |url=http://tongzhang-ml.org/papers/icml04-stograd.pdf}}</ref> वर्गीकरण के लिए ह्यूबर लॉस#वेरिएंट <math>L</math> इस हानि फ़ंक्शन का एक विशेष मामला है <math>\gamma = 2</math>, विशेष रूप से <math>L(t,y) = 4 \ell_2(y)</math>.
+झांग द्वारा सुझाया गया।<ref name="zhang">{{cite conference |last=Zhang |first=Tong |title=स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके बड़े पैमाने पर रैखिक भविष्यवाणी समस्याओं को हल करना|conference=ICML |year=2004 |url=http://tongzhang-ml.org/papers/icml04-stograd.pdf}}</ref> वर्गीकरण के लिए ह्यूबर लॉस#वेरिएंट <math>L</math> इस हानि फ़ंक्शन का एक विशेष स्थिति है <math>\gamma = 2</math>, विशेष रूप से <math>L(t,y) = 4 \ell_2(y)</math>.
 == यह भी देखें ==

Anonymous

Search

हिंज लॉस: Difference between revisions

Namespaces

More

Page actions

Revision as of 21:59, 4 August 2023

Contents

एक्सटेंशन

अनुकूलन

यह भी देखें

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

हिंज लॉस: Difference between revisions

Revision as of 21:59, 4 August 2023

एक्सटेंशन

अनुकूलन

यह भी देखें

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories