हिंज लॉस: Difference between revisions
No edit summary |
No edit summary |
||
(11 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{Short description|Loss function in machine learning}} | {{Short description|Loss function in machine learning}} | ||
[[File:Hinge loss vs zero one loss.svg|thumb|ऊर्ध्वाधर अक्ष निश्चित के लिए हिंज हानि (नीले रंग में) और शून्य-एक हानि (हरे रंग में) के मूल्य का प्रतिनिधित्व करता है {{math|''t'' {{=}} 1}}, जबकि क्षैतिज अक्ष भविष्यवाणी के मूल्य का प्रतिनिधित्व करता है {{mvar|y}}. कथानक से पता चलता है कि हिंज हानि भविष्यवाणियों को दंडित करती है {{math|''y'' < 1}}, एक सपोर्ट सदिश मशीन में मार्जिन की धारणा के अनुरूप।]][[ यंत्र अधिगम | मशीन लर्निंग]] में, हिंज लॉस एक हानि फलन के रूप में है। जिसका उपयोग [[सांख्यिकीय वर्गीकरण|सांख्यिकीय क्लासिफायर]] के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के | [[File:Hinge loss vs zero one loss.svg|thumb|ऊर्ध्वाधर अक्ष निश्चित के लिए हिंज हानि (नीले रंग में) और शून्य-एक हानि (हरे रंग में) के मूल्य का प्रतिनिधित्व करता है {{math|''t'' {{=}} 1}}, जबकि क्षैतिज अक्ष भविष्यवाणी के मूल्य का प्रतिनिधित्व करता है {{mvar|y}}. कथानक से पता चलता है कि हिंज हानि भविष्यवाणियों को दंडित करती है {{math|''y'' < 1}}, एक सपोर्ट सदिश मशीन में मार्जिन की धारणा के अनुरूप।]][[ यंत्र अधिगम | मशीन लर्निंग]] में, हिंज लॉस एक हानि फलन के रूप में है। जिसका उपयोग [[सांख्यिकीय वर्गीकरण|सांख्यिकीय क्लासिफायर]] के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के रूप में किया जाता है, विशेष रूप से [[ समर्थन वेक्टर यंत्र | सपोर्ट वेक्टर मशीन]] (एसवीएम) के ।<ref>{{Cite journal | last1 = Rosasco | first1 = L. | last2 = De Vito | first2 = E. D. | last3 = Caponnetto | first3 = A. | last4 = Piana | first4 = M. | last5 = Verri | first5 = A. | url = http://web.mit.edu/lrosasco/www/publications/loss.pdf| title = Are Loss Functions All the Same? | doi = 10.1162/089976604773135104 | journal = Neural Computation | volume = 16 | issue = 5 | pages = 1063–1076 | year = 2004 | pmid = 15070510| citeseerx = 10.1.1.109.6786 }}</ref> लिए किया जाता है. | ||
किसी | किसी वांछित आउटपुट के लिए {{math|''t'' {{=}} ±1}} और एक क्लासिफायर स्कोर y के लिए, भविष्यवाणी y के हिंज लॉस को इस प्रकार परिभाषित किया गया है. | ||
:<math>\ell(y) = \max(0, 1-t \cdot y)</math> | :<math>\ell(y) = \max(0, 1-t \cdot y)</math> | ||
ध्यान दें कि <math>y</math> क्लासिफायर के निर्णय फलन का | ध्यान दें कि <math>y</math> क्लासिफायर के निर्णय फलन का रॉ आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, <math>y = \mathbf{w} \cdot \mathbf{x} + b</math>, जहाँ <math>(\mathbf{w},b)</math> [[हाइपरप्लेन]] के पैरामीटर के रूप में हैं और <math>\mathbf{x}</math> इनपुट वेरिएबल है। | ||
जब {{mvar|t}} और {{mvar|y}} के चिन्ह का (अर्थ) एक ही है, {{mvar|y}} सही वर्ग की भविष्यवाणी करता है और <math>|y| \ge 1</math>, | जब {{mvar|t}} और {{mvar|y}} के चिन्ह का (अर्थ) एक ही है, {{mvar|y}} सही वर्ग की भविष्यवाणी करता है और <math>|y| \ge 1</math>, हिंज हानि <math>\ell(y) = 0</math>. जब उनके विपरीत लक्षण हों, <math>\ell(y)</math> के साथ रैखिक रूप से बढ़ता है {{mvar|y}}, और इसी प्रकार यदि <math>|y| < 1</math>, यदि उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं होता है)। | ||
=='''एक्सटेंशन'''== | =='''एक्सटेंशन'''== | ||
जबकि बाइनरी एसवीएम को सामान्यतः एक बनाम सभी या एक बनाम एक फैशन में मल्टीक्लास वर्गीकरण के रूप में विस्तारित किया जाता है,<ref name="duan2005">{{Cite book | last1 = Duan | first1 = K. B. | last2 = Keerthi | first2 = S. S. | chapter = Which Is the Best Multiclass SVM Method? An Empirical Study | doi = 10.1007/11494683_28 | title = मल्टीपल क्लासिफायर सिस्टम| series = [[Lecture Notes in Computer Science|LNCS]]| volume = 3541 | pages = 278–285 | year = 2005 | isbn = 978-3-540-26306-7 | chapter-url = http://www.keerthis.com/multiclass_mcs_kaibo_05.pdf| citeseerx = 10.1.1.110.6789 }}</ref> | जबकि बाइनरी एसवीएम को सामान्यतः एक बनाम सभी या एक बनाम एक फैशन में मल्टीक्लास वर्गीकरण के रूप में विस्तारित किया जाता है,<ref name="duan2005">{{Cite book | last1 = Duan | first1 = K. B. | last2 = Keerthi | first2 = S. S. | chapter = Which Is the Best Multiclass SVM Method? An Empirical Study | doi = 10.1007/11494683_28 | title = मल्टीपल क्लासिफायर सिस्टम| series = [[Lecture Notes in Computer Science|LNCS]]| volume = 3541 | pages = 278–285 | year = 2005 | isbn = 978-3-540-26306-7 | chapter-url = http://www.keerthis.com/multiclass_mcs_kaibo_05.pdf| citeseerx = 10.1.1.110.6789 }}</ref> | ||
इस तरह के अंत के लिए हिंज लॉस का विस्तार करना भी संभव है। मल्टीक्लास हिंज लॉस के कई भिन्न-भिन्न रूप प्रस्तावित किए गए हैं।<ref name="unifiedview">{{cite journal |title=मल्टी-क्लास सपोर्ट वेक्टर वर्गीकरण पर एक एकीकृत दृश्य|year=2016 |url=http://www.jmlr.org/papers/volume17/11-229/11-229.pdf |journal=[[Journal of Machine Learning Research]] |volume=17 |pages=1–32 |last1=Doğan |first1=Ürün |last2=Glasmachers |first2=Tobias |last3=Igel |first3=Christian}}</ref> उदाहरण के लिए | इस तरह के अंत के लिए हिंज लॉस का विस्तार करना भी संभव है। मल्टीक्लास हिंज लॉस के कई भिन्न-भिन्न रूप प्रस्तावित किए गए हैं।<ref name="unifiedview">{{cite journal |title=मल्टी-क्लास सपोर्ट वेक्टर वर्गीकरण पर एक एकीकृत दृश्य|year=2016 |url=http://www.jmlr.org/papers/volume17/11-229/11-229.pdf |journal=[[Journal of Machine Learning Research]] |volume=17 |pages=1–32 |last1=Doğan |first1=Ürün |last2=Glasmachers |first2=Tobias |last3=Igel |first3=Christian}}</ref> उदाहरण के लिए क्रैमर और सिंगर<ref>{{cite journal |title=मल्टीक्लास कर्नेल-आधारित वेक्टर मशीनों के एल्गोरिथम कार्यान्वयन पर|year=2001 |url=http://jmlr.csail.mit.edu/papers/volume2/crammer01a/crammer01a.pdf |journal=[[Journal of Machine Learning Research]] |volume=2 |pages=265–292 |last1=Crammer |first1=Koby |last2=Singer |first2=Yoram}}</ref> | ||
इसे एक रैखिक क्लासिफायर के रूप में परिभाषित किया गया है<ref>{{cite conference |first1=Robert C. |last1=Moore |first2=John |last2=DeNero |title=L<sub>1</sub> and L<sub>2</sub> regularization for multiclass hinge loss models |url=http://www.ttic.edu/sigml/symposium2011/papers/Moore+DeNero_Regularization.pdf|book-title=Proc. Symp. on Machine Learning in Speech and Language Processing |year=2011}}</ref> | इसे एक रैखिक क्लासिफायर के रूप में परिभाषित किया गया है<ref>{{cite conference |first1=Robert C. |last1=Moore |first2=John |last2=DeNero |title=L<sub>1</sub> and L<sub>2</sub> regularization for multiclass hinge loss models |url=http://www.ttic.edu/sigml/symposium2011/papers/Moore+DeNero_Regularization.pdf|book-title=Proc. Symp. on Machine Learning in Speech and Language Processing |year=2011}}</ref> | ||
Line 20: | Line 20: | ||
:<math>\ell(y) = \sum_{y \ne t} \max(0, 1 + \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})</math> | :<math>\ell(y) = \sum_{y \ne t} \max(0, 1 + \mathbf{w}_y \mathbf{x} - \mathbf{w}_t \mathbf{x})</math> | ||
[[संरचित भविष्यवाणी]] में | [[संरचित भविष्यवाणी]] में हिंज हानि को आगे संरचित आउटपुट समष्टि के रूप में बढ़ाया जा सकता है। मार्जिन रीस्केलिंग के साथ [[संरचित समर्थन वेक्टर मशीन|संरचित सपोर्ट वेक्टर मशीन]] निम्नलिखित वेरिएंट का उपयोग करते है, जहां {{math|'''w'''}} एसवीएम के मापदंडों के रूप में दर्शाता है, {{math|'''y'''}} एसवीएम की भविष्यवाणियां, {{mvar|φ}} संयुक्त सुविधा फलन और {{math|Δ}} [[हैमिंग हानि]]:के रूप में होते है. | ||
:<math>\begin{align} | :<math>\begin{align} | ||
Line 26: | Line 26: | ||
& = \max(0, \max_{y \in \mathcal{Y}} \left( \Delta(\mathbf{y}, \mathbf{t}) + \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{y}) \rangle \right) - \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{t}) \rangle) | & = \max(0, \max_{y \in \mathcal{Y}} \left( \Delta(\mathbf{y}, \mathbf{t}) + \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{y}) \rangle \right) - \langle \mathbf{w}, \phi(\mathbf{x}, \mathbf{t}) \rangle) | ||
\end{align}</math> | \end{align}</math> | ||
=='''अनुकूलन'''== | =='''अनुकूलन'''== | ||
हिंज हानि एक [[उत्तल कार्य]] है, इसलिए मशीन लर्निंग में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह [[विभेदक कार्य|अवकल कार्य]] नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक | हिंज हानि एक [[उत्तल कार्य]] है, इसलिए मशीन लर्निंग के रूप में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह [[विभेदक कार्य|अवकल कार्य]] के रूप में नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबग्रेडिएंट के रूप में है, {{math|'''w'''}} स्कोर फलन के साथ एक रैखिक एसवीएम का <math>y = \mathbf{w} \cdot \mathbf{x}</math> जो कि दिया गया है. | ||
:<math>\frac{\partial\ell}{\partial w_i} = \begin{cases} | :<math>\frac{\partial\ell}{\partial w_i} = \begin{cases} | ||
Line 36: | Line 34: | ||
\end{cases}</math> | \end{cases}</math> | ||
[[File:Hinge loss variants.svg|thumb|एक फलन के रूप में | [[File:Hinge loss variants.svg|thumb|एक फलन के रूप में हिंज हानि के तीन प्रकारों का आलेख {{math|''z'' {{=}} ''ty''}}: सामान्य संस्करण (नीला), इसका वर्गाकार (हरा), और रेनी और स्रेब्रो द्वारा टुकड़ा-वार चिकना संस्करण (लाल)। y-अक्ष है {{math|''l(y)''}} हिंज हानि, और x-अक्ष पैरामीटर है {{mvar|t}}]]चूंकि, हिंज हानि के व्युत्पन्न के पश्चात से <math>ty = 1</math> अपरिभाषित है, अनुकूलन के लिए [[ चिकनाई |स्मूथ]] संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो<ref>{{cite conference |title=Loss Functions for Preference Levels: Regression with Discrete Ordered Labels |first1=Jason D. M. |last1=Rennie |first2=Nathan |last2=Srebro |conference=Proc. [[IJCAI]] Multidisciplinary Workshop on Advances in Preference Handling |year=2005 |url=http://ttic.uchicago.edu/~nati/Publications/RennieSrebroIJCAI05.pdf}}</ref> | ||
:<math>\ell(y) = \begin{cases} | :<math>\ell(y) = \begin{cases} | ||
\frac{1}{2} - ty & \text{if} ~~ ty \le 0, \\ | \frac{1}{2} - ty & \text{if} ~~ ty \le 0, \\ | ||
Line 42: | Line 40: | ||
0 & \text{if} ~~ 1 \le ty | 0 & \text{if} ~~ 1 \le ty | ||
\end{cases}</math> | \end{cases}</math> | ||
या चतुर्भुज रूप से | या चतुर्भुज रूप से स्मूथ किया गया है, | ||
:<math>\ell_\gamma(y) = \begin{cases} | :<math>\ell_\gamma(y) = \begin{cases} | ||
Line 48: | Line 46: | ||
1 - \frac{\gamma}{2} - ty & \text{otherwise} | 1 - \frac{\gamma}{2} - ty & \text{otherwise} | ||
\end{cases}</math> | \end{cases}</math> | ||
झांग द्वारा सुझाया गया।<ref name="zhang">{{cite conference |last=Zhang |first=Tong |title=स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके बड़े पैमाने पर रैखिक भविष्यवाणी समस्याओं को हल करना|conference=ICML |year=2004 |url=http://tongzhang-ml.org/papers/icml04-stograd.pdf}}</ref> वर्गीकरण के लिए ह्यूबर | झांग द्वारा सुझाया गया।<ref name="zhang">{{cite conference |last=Zhang |first=Tong |title=स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके बड़े पैमाने पर रैखिक भविष्यवाणी समस्याओं को हल करना|conference=ICML |year=2004 |url=http://tongzhang-ml.org/papers/icml04-stograd.pdf}}</ref> वर्गीकरण के लिए ह्यूबर हानि वेरिएंट <math>L</math> इस हानि फलन का एक विशेष स्थिति है <math>\gamma = 2</math>, विशेष रूप से <math>L(t,y) = 4 \ell_2(y)</math> है. | ||
== '''यह भी देखें''' == | == '''यह भी देखें''' == | ||
* | *[[बहुपक्षीय अनुकूली प्रतिगमन स्प्लाइन § हिंज फलन|बहुपक्षीय अनुकूली प्रतिगमन स्प्लाइन § हिंज कार्य]] | ||
== '''संदर्भ''' == | == '''संदर्भ''' == | ||
{{Reflist}} | {{Reflist}} | ||
[[Category:Created On 26/07/2023]] | [[Category:Created On 26/07/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:समर्थन वेक्टर मशीन]] | |||
[[Category:हानि कार्य]] |
Latest revision as of 14:14, 14 August 2023
मशीन लर्निंग में, हिंज लॉस एक हानि फलन के रूप में है। जिसका उपयोग सांख्यिकीय क्लासिफायर के प्रशिक्षण के लिए किया जाता है। हिंज लॉस का उपयोग अधिकतम-मार्जिन वर्गीकरण के रूप में किया जाता है, विशेष रूप से सपोर्ट वेक्टर मशीन (एसवीएम) के ।[1] लिए किया जाता है.
किसी वांछित आउटपुट के लिए t = ±1 और एक क्लासिफायर स्कोर y के लिए, भविष्यवाणी y के हिंज लॉस को इस प्रकार परिभाषित किया गया है.
ध्यान दें कि क्लासिफायर के निर्णय फलन का रॉ आउटपुट होना चाहिए, न कि अनुमानित क्लास लेबल। उदाहरण के लिए, रैखिक एसवीएम में, , जहाँ हाइपरप्लेन के पैरामीटर के रूप में हैं और इनपुट वेरिएबल है।
जब t और y के चिन्ह का (अर्थ) एक ही है, y सही वर्ग की भविष्यवाणी करता है और , हिंज हानि . जब उनके विपरीत लक्षण हों, के साथ रैखिक रूप से बढ़ता है y, और इसी प्रकार यदि , यदि उसका चिह्न समान हो (भविष्यवाणी सही है, लेकिन पर्याप्त अंतर से नहीं होता है)।
एक्सटेंशन
जबकि बाइनरी एसवीएम को सामान्यतः एक बनाम सभी या एक बनाम एक फैशन में मल्टीक्लास वर्गीकरण के रूप में विस्तारित किया जाता है,[2]
इस तरह के अंत के लिए हिंज लॉस का विस्तार करना भी संभव है। मल्टीक्लास हिंज लॉस के कई भिन्न-भिन्न रूप प्रस्तावित किए गए हैं।[3] उदाहरण के लिए क्रैमर और सिंगर[4]
इसे एक रैखिक क्लासिफायर के रूप में परिभाषित किया गया है[5]
जहाँ लक्ष्य लेबल है, और मॉडल पैरामीटर के रूप हैं.
वेस्टन और वॉटकिंस ने एक समान परिभाषा प्रदान की लेकिन अधिकतम अतिरिक्त योग के साथ किया जाता है:[6][3]
संरचित भविष्यवाणी में हिंज हानि को आगे संरचित आउटपुट समष्टि के रूप में बढ़ाया जा सकता है। मार्जिन रीस्केलिंग के साथ संरचित सपोर्ट वेक्टर मशीन निम्नलिखित वेरिएंट का उपयोग करते है, जहां w एसवीएम के मापदंडों के रूप में दर्शाता है, y एसवीएम की भविष्यवाणियां, φ संयुक्त सुविधा फलन और Δ हैमिंग हानि:के रूप में होते है.
अनुकूलन
हिंज हानि एक उत्तल कार्य है, इसलिए मशीन लर्निंग के रूप में उपयोग किए जाने वाले कई सामान्य उत्तल ऑप्टिमाइज़र इसके साथ काम कर सकते हैं। यह अवकल कार्य के रूप में नहीं है, लेकिन इसमें मॉडल पैरामीटर के संबंध में एक सबग्रेडिएंट के रूप में है, w स्कोर फलन के साथ एक रैखिक एसवीएम का जो कि दिया गया है.
चूंकि, हिंज हानि के व्युत्पन्न के पश्चात से अपरिभाषित है, अनुकूलन के लिए स्मूथ संस्करणों को प्राथमिकता दी जा सकती है, जैसे रेनी और स्रेब्रो[7]
या चतुर्भुज रूप से स्मूथ किया गया है,
झांग द्वारा सुझाया गया।[8] वर्गीकरण के लिए ह्यूबर हानि वेरिएंट इस हानि फलन का एक विशेष स्थिति है , विशेष रूप से है.
यह भी देखें
संदर्भ
- ↑ Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?" (PDF). Neural Computation. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.
- ↑ Duan, K. B.; Keerthi, S. S. (2005). "Which Is the Best Multiclass SVM Method? An Empirical Study" (PDF). मल्टीपल क्लासिफायर सिस्टम. LNCS. Vol. 3541. pp. 278–285. CiteSeerX 10.1.1.110.6789. doi:10.1007/11494683_28. ISBN 978-3-540-26306-7.
- ↑ 3.0 3.1 Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "मल्टी-क्लास सपोर्ट वेक्टर वर्गीकरण पर एक एकीकृत दृश्य" (PDF). Journal of Machine Learning Research. 17: 1–32.
- ↑ Crammer, Koby; Singer, Yoram (2001). "मल्टीक्लास कर्नेल-आधारित वेक्टर मशीनों के एल्गोरिथम कार्यान्वयन पर" (PDF). Journal of Machine Learning Research. 2: 265–292.
- ↑ Moore, Robert C.; DeNero, John (2011). "L1 and L2 regularization for multiclass hinge loss models" (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing.
- ↑ Weston, Jason; Watkins, Chris (1999). "मल्टी-क्लास पैटर्न पहचान के लिए वेक्टर मशीनों का समर्थन करें" (PDF). European Symposium on Artificial Neural Networks.
- ↑ Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.
- ↑ Zhang, Tong (2004). स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके बड़े पैमाने पर रैखिक भविष्यवाणी समस्याओं को हल करना (PDF). ICML.