ब्रेगमैन विचलन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(6 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|A measure of difference between two points}}
{{Short description|A measure of difference between two points}}
गणित में, विशेष रूप से सांख्यिकी और [[सूचना ज्यामिति]], एक ब्रैगमैन डाइवर्जेंस या ब्रैगमैन दूरी दो बिंदुओं के बीच अंतर का एक उपाय है, जिसे कड़ाई से उत्तल कार्य के संदर्भ में परिभाषित किया गया है; वे डायवर्जेंस (सांख्यिकी) का एक महत्वपूर्ण वर्ग बनाते हैं। जब बिंदुओं की व्याख्या संभाव्यता वितरण के रूप में की जाती है - विशेष रूप से या तो [[पैरामीट्रिक मॉडल]] के पैरामीटर के मान के रूप में या देखे गए मानों के डेटा सेट के रूप में - परिणामी दूरी एक [[सांख्यिकीय दूरी]] होती है। सबसे बुनियादी ब्रैगमैन डाइवर्जेंस वर्ग यूक्लिडियन दूरी है।
गणित में, विशेष रूप से सांख्यिकी और [[सूचना ज्यामिति]], ब्रैगमैन डाइवर्जेंस या ब्रैगमैन दूरी दो बिंदुओं के बीच के अंतर का एक उपाय है, जिसे सख्ती से उत्तल कार्य के संदर्भ में परिभाषित किया गया है; वे डायवर्जेंस (सांख्यिकी) का महत्वपूर्ण वर्ग बनाते हैं। जब बिंदुओं की व्याख्या संभाव्यता वितरण के रूप में की जाती है - विशेष रूप से या तो [[पैरामीट्रिक मॉडल]] के पैरामीटर के मान के रूप में या देखे गए मानों के डेटा समुच्चय के रूप में - परिणामी दूरी [[सांख्यिकीय दूरी]] होती है। सबसे बुनियादी ब्रैगमैन डाइवर्जेंस वर्ग यूक्लिडियन दूरी है।


ब्रेगमैन डायवर्जेंस [[मीट्रिक (गणित)]] के समान हैं, लेकिन न तो त्रिकोण असमानता (कभी) और न ही समरूपता (सामान्य रूप से) को संतुष्ट करते हैं। चूंकि, वे पायथागॉरियन प्रमेय के एक सामान्यीकरण को संतुष्ट करते हैं, और सूचना ज्यामिति में संबंधित [[सांख्यिकीय कई गुना]] (दोहरी) [[फ्लैट कई गुना]] के रूप में व्याख्या की जाती है। यह [[अनुकूलन सिद्धांत]] की कई तकनीकों को ब्रैगमैन डायवर्जेंस के लिए सामान्यीकृत करने की अनुमति देता है, ज्यामितीय रूप से [[कम से कम वर्गों]] के सामान्यीकरण के रूप में।
ब्रेगमैन डायवर्जेंस [[मीट्रिक (गणित)]] के समान हैं, लेकिन न तो त्रिकोण असमानता (कभी) और न ही समरूपता (सामान्य रूप से) को संतुष्ट करते हैं। चूंकि, वे पायथागॉरियन प्रमेय के सामान्यीकरण को संतुष्ट करते हैं, और सूचना ज्यामिति में संबंधित [[सांख्यिकीय कई गुना|सांख्यिकीय बहुरूपता]] (दोहरी) [[फ्लैट कई गुना|फ्लैट बहुरूपता]] के रूप में व्याख्या की जाती है। यह [[अनुकूलन सिद्धांत]] की कई तकनीकों को ब्रैगमैन डायवर्जेंस के लिए सामान्यीकृत करने की अनुमति देता है, ज्यामितीय रूप से [[कम से कम वर्गों]] के सामान्यीकरण के रूप में।


ब्रेगमैन डाइवर्जेंस का नाम रूसी गणितज्ञ लेव एम. ब्रेगमैन के नाम पर रखा गया है, जिन्होंने 1967 में इस अवधारणा को प्रस्तुत किया था।
ब्रेगमैन डाइवर्जेंस का नाम रूसी गणितज्ञ लेव एम. ब्रेगमैन के नाम पर रखा गया है, जिन्होंने 1967 में इस अवधारणा को प्रस्तुत किया था।


== परिभाषा ==
== परिभाषा ==
होने देना  <math>F: \Omega \to \mathbb{R} </math> [[उत्तल सेट]] पर परिभाषित एक सतत-भिन्न, सख्ती से उत्तल कार्य बनें <math>\Omega</math>.
मान लीजिये <math>F: \Omega \to \mathbb{R} </math> को [[उत्तल सेट|उत्तल समुच्चय]] <math>\Omega</math> पर परिभाषित एक निरंतर-भिन्न, सख्ती से उत्तल फ़ंक्शन है।


बिंदुओं के लिए F से जुड़ी Bregman दूरी <math>p, q \in \Omega</math> बिंदु p पर F के मान और बिंदु p पर मूल्यांकन किए गए बिंदु q के चारों ओर F के पहले क्रम के [[टेलर विस्तार]] के बीच का अंतर है:
बिंदु <math>p, q \in \Omega</math> के लिए F से जुड़ी ब्रैगमैन दूरी, बिंदु p पर F के मान और बिंदु p पर मूल्यांकन किए गए बिंदु q के आसपास F के प्रथम-क्रम [[टेलर विस्तार]] के मूल्य के बीच का अंतर है:
:<math>D_F(p, q) = F(p)-F(q)-\langle \nabla F(q), p-q\rangle. </math>
:<math>D_F(p, q) = F(p)-F(q)-\langle \nabla F(q), p-q\rangle. </math>
== गुण ==
== गुण ==
* गैर-नकारात्मकता: <math>D_F(p, q) \ge 0</math> सभी के लिए <math>p</math>, <math>q</math>. यह उत्तलता का परिणाम है <math>F</math>.
*गैर-नकारात्मकता: <math>D_F(p, q) \ge 0</math> सभी <math>p</math>,<math>q</math> के लिए यह <math>F</math> की उत्तलता का परिणाम है।
* सकारात्मकता : कब <math>F</math> सख्ती से उत्तल है, <math>D_F(p, q) = 0</math> आईएफएफ <math>p=q</math>.
* सकारात्मकता: जब <math>F</math> सख्ती से उत्तल होता है, तो <math>D_F(p, q) = 0</math> यदि <math>p=q</math> है।
* एफ़िन अंतर तक विशिष्टता: <math>D_F = D_G</math> आईएफएफ <math>F-G</math> एक affine कार्य है।
*एफ़िन अंतर तक विशिष्टता: <math>D_F = D_G</math> यदि <math>F-G</math> एक एफ़िन फ़ंक्शन है।
* उत्तलता: <math>D_F(p, q)</math> अपने पहले तर्क में उत्तल है, लेकिन जरूरी नहीं कि दूसरे तर्क में हो। यदि एफ सख्ती से उत्तल है, तो <math>D_F(p, q)</math> अपने पहले तर्क में सख्ती से उत्तल है।
* उत्तलता: <math>D_F(p, q)</math> अपने पहले तर्क में उत्तल है, लेकिन आवश्यक नहीं कि दूसरे तर्क में हो यदि <math>F</math> सख्ती से उत्तल है, तो <math>D_F(p, q)</math> अपने पहले तर्क में सख्ती से उत्तल है।
** उदाहरण के लिए, f(x) = |x| लें, इसे 0 पर चिकना करें, फिर लें <math>y = 1, x_1 = 0.1, x_2 = -0.9, x_3 = 0.9x_1 + 0.1x_2</math>, तब <math>D_f(y, x_3) \approx 1 > 0.9 D_f(y, x_1) + 0.1 D_f(y, x_2) \approx 0.2</math>.
** उदाहरण के लिए, f(x) = |x| मान लें, इसे 0 पर समतल करें, फिर मान लें <math>y = 1, x_1 = 0.1, x_2 = -0.9, x_3 = 0.9x_1 + 0.1x_2</math>, जब <math>D_f(y, x_3) \approx 1 > 0.9 D_f(y, x_1) + 0.1 D_f(y, x_2) \approx 0.2</math> होता है।
* रैखिकता: यदि हम ब्रैगमैन दूरी को फ़ंक्शन 'एफ' पर एक ऑपरेटर के रूप में सोचते हैं, तो यह गैर-नकारात्मक गुणांक के संबंध में रैखिक है। दूसरे शब्दों में, के लिए <math>F_1, F_2</math> सख्ती से उत्तल और अलग-अलग, और <math>\lambda \ge 0</math>,
*रैखिकता: यदि हम ब्रैगमैन दूरी को फ़ंक्शन <math>F</math> पर एक ऑपरेटर के रूप में सोचते हैं, तो यह गैर-नकारात्मक गुणांक के संबंध में रैखिक है। दूसरे शब्दों में, <math>F_1, F_2</math> के लिए सख्ती से उत्तल और अवकलनीय, और <math>\lambda \ge 0</math>,
::<math>D_{F_1 + \lambda F_2}(p, q) = D_{F_1}(p, q) + \lambda D_{F_2}(p, q)</math>
::<math>D_{F_1 + \lambda F_2}(p, q) = D_{F_1}(p, q) + \lambda D_{F_2}(p, q)</math>
* द्वैत: यदि F सख्ती से उत्तल है, तो फलन F में [[उत्तल संयुग्म]] है <math>F^*</math> जो सख्ती से उत्तल भी है और कुछ उत्तल सेट पर लगातार भिन्न होता है <math>\Omega^*</math>. ब्रेगमैन दूरी के संबंध में परिभाषित किया गया <math>F^*</math> से द्वैत है <math>D_F(p, q)</math> जैसा
* द्वैत: यदि F सख्ती से उत्तल है, तो फ़ंक्शन F में एक [[उत्तल संयुग्म]] <math>F^*</math> है जो सख्ती से उत्तल भी है और कुछ उत्तल समुच्चय <math>\Omega^*</math> पर लगातार भिन्न होता है। <math>F^*</math> के संबंध में परिभाषित ब्रैगमैन दूरी <math>D_F(p, q)</math> के रूप में द्वैत है, जैसे<math>D_{F^*}(p^*, q^*) = D_F(q, p)</math>


::<math>D_{F^*}(p^*, q^*) = D_F(q, p)</math>
:यहाँ, <math>p^* = \nabla F(p)</math> और <math>q^* = \nabla F(q)</math> p और q के अनुरूप दोहरे बिंदु हैं।
:यहाँ, <math>p^* = \nabla F(p)</math> और <math>q^* = \nabla F(q)</math> p और q के संगत द्वैत बिंदु हैं।


* मिनिमाइज़र के रूप में माध्य: ब्रेगमैन डाइवर्जेंस के बारे में एक महत्वपूर्ण परिणाम यह है कि, एक यादृच्छिक वेक्टर दिया गया है, माध्य वेक्टर यादृच्छिक वेक्टर से अपेक्षित ब्रेगमैन विचलन को कम करता है। यह परिणाम पाठ्यपुस्तक के परिणाम का सामान्यीकरण करता है कि एक सेट का मतलब सेट में तत्वों के लिए कुल चुकता त्रुटि को कम करता है। यह परिणाम सदिश मामले के लिए (बनर्जी और अन्य 2005) द्वारा सिद्ध किया गया था, और (फ्रिग्यिक और अन्य 2008) द्वारा कार्यों/वितरणों के मामले में विस्तारित किया गया था। यह परिणाम महत्वपूर्ण है क्योंकि यह विशेष रूप से बेयसियन अनुमान में एक यादृच्छिक सेट के प्रतिनिधि के रूप में एक माध्य का उपयोग करके उचित ठहराता है।
* मिनिमाइज़र के रूप में माध्य: ब्रेगमैन डाइवर्जेंस के बारे में महत्वपूर्ण परिणाम यह है कि, यादृच्छिक सदिश दिया गया है, माध्य सदिश यादृच्छिक सदिश से अपेक्षित ब्रेगमैन विचलन को कम करता है। यह परिणाम पाठ्यपुस्तक के परिणाम का सामान्यीकरण करता है कि समुच्चय का मतलब समुच्चय में तत्वों के लिए कुल चुकता त्रुटि को कम करता है। यह परिणाम सदिश स्थितियों के लिए (बनर्जी और अन्य 2005) द्वारा सिद्ध किया गया था, और (फ्रिग्यिक और अन्य 2008) द्वारा कार्यों/वितरणों के स्थितियों में विस्तारित किया गया था। यह परिणाम महत्वपूर्ण है क्योंकि यह विशेष रूप से बेयसियन अनुमान में यादृच्छिक समुच्चय के प्रतिनिधि के रूप में माध्य का उपयोग करके उचित ठहराता है।
* ब्रेगमैन बॉल्स बाउंडेड हैं, और एक्स बंद होने पर कॉम्पैक्ट हैं: ब्रैगमैन बॉल को त्रिज्या आर के साथ एक्स पर केंद्रित परिभाषित करें <math>B_f(x, r):= \left\{y\in X: D_f(y, x)\leq r\right\}</math>. कब <math>X\subset \R^n</math> परिमित आयामी है, <math>\forall x\in X</math>, यदि <math>x</math> के सापेक्ष आंतरिक भाग में है <math>X</math>, या यदि <math>X</math> पर स्थानीय रूप से बंद है <math>x</math> (अर्थात, एक बंद गेंद मौजूद है <math>B(x, r)</math> पर केंद्रित है <math>x</math>, ऐसा है कि <math>B(x,r) \cap X</math> बंद है), फिर <math>B_f(x, r)</math> सभी के लिए बाध्य है <math>r</math> . यदि <math>X</math> बंद है तो <math>B_f(x, r)</math> सभी के लिए सघन है <math>r</math>.
* ब्रेगमैन बॉल्स बाउंडेड हैं, और <math>X</math> संवृत होने पर संहत हैं: ब्रैगमैन बॉल को त्रिज्या <math>R</math> के साथ <math>X</math> पर केंद्रित परिभाषित करें <math>B_f(x, r):= \left\{y\in X: D_f(y, x)\leq r\right\}</math>, जब <math>X\subset \R^n</math> परिमित आयामी होता है, <math>\forall x\in X</math>, यदि <math>x</math> के सापेक्ष आंतरिक भाग में <math>X</math> है , या यदि <math>X</math> पर स्थानीय रूप से संवृत है <math>x</math> (अर्थात, संवृत गेंद उपलब्ध है <math>B(x, r)</math> पर केंद्रित है <math>x</math>, ऐसा है कि <math>B(x,r) \cap X</math> संवृत है), फिर <math>B_f(x, r)</math> सभी के लिए बाध्य है <math>r</math> . यदि <math>X</math> संवृत है तो <math>B_f(x, r)</math> सभी के लिए सघन <math>r</math> है।
* कोसाइन का नियम:<ref name="cs.utexas.edu">https://www.cs.utexas.edu/users/inderjit/Talks/bregtut.pdf {{Bare URL PDF|date=March 2022}}</ref>
* कोसाइन का नियम:<ref name="cs.utexas.edu">https://www.cs.utexas.edu/users/inderjit/Talks/bregtut.pdf {{Bare URL PDF|date=March 2022}}</ref>
किसी के लिए <math>p,q,z</math>
किसी भी <math>p,q,z</math> के लिए
::<math>D_F(p, q) = D_F(p, z) + D_F(z, q) - (p - z)^T(\nabla F(q) - \nabla F(z))</math>
::<math>D_F(p, q) = D_F(p, z) + D_F(z, q) - (p - z)^T(\nabla F(q) - \nabla F(z))</math>
* [[समांतर चतुर्भुज कानून]]: किसी के लिए भी <math>\theta, \theta_1, \theta_2</math>,
* [[समांतर चतुर्भुज कानून|समांतर चतुर्भुज नियम]]: किसी भी <math>\theta, \theta_1, \theta_2</math> के लिए,


<math>B_{F}\left(\theta_{1}: \theta\right)+B_{F}\left(\theta_{2}: \theta\right)=B_{F}\left(\theta_{1}: \frac{\theta_{1}+\theta_{2}}{2}\right)+B_{F}\left(\theta_{2}: \frac{\theta_{1}+\theta_{2}}{2}\right)+2 B_{F}\left(\frac{\theta_{1}+\theta_{2}}{2}: \theta\right)</math>[[File:Bregman_divergence_Pythagorean.png|right|thumb|300x300px|ब्रेगमैन डाइवर्जेंस के लिए सामान्यीकृत पाइथागोरस प्रमेय।<ref name="Martin2014">{{cite journal |last1=Adamčík |first1=Martin |date=2014 |title=ब्रैगमैन डायवर्जेंस की सूचना ज्यामिति और बहु-विशेषज्ञ तर्क में कुछ अनुप्रयोग|journal=Entropy |volume=16 |issue=12 |pages=6338–6381 |bibcode=2014Entrp..16.6338A |doi=10.3390/e16126338 |doi-access=free}}</ref>]]* ब्रेगमैन प्रोजेक्शन: किसी के लिए भी <math>W\subset \Omega</math>, के ब्रेगमैन प्रोजेक्शन को परिभाषित करें <math>q</math> पर <math>W</math>:
<math>B_{F}\left(\theta_{1}: \theta\right)+B_{F}\left(\theta_{2}: \theta\right)=B_{F}\left(\theta_{1}: \frac{\theta_{1}+\theta_{2}}{2}\right)+B_{F}\left(\theta_{2}: \frac{\theta_{1}+\theta_{2}}{2}\right)+2 B_{F}\left(\frac{\theta_{1}+\theta_{2}}{2}: \theta\right)</math>[[File:Bregman_divergence_Pythagorean.png|right|thumb|300x300px|ब्रेगमैन डाइवर्जेंस के लिए सामान्यीकृत पाइथागोरस प्रमेय।<ref name="Martin2014">{{cite journal |last1=Adamčík |first1=Martin |date=2014 |title=ब्रैगमैन डायवर्जेंस की सूचना ज्यामिति और बहु-विशेषज्ञ तर्क में कुछ अनुप्रयोग|journal=Entropy |volume=16 |issue=12 |pages=6338–6381 |bibcode=2014Entrp..16.6338A |doi=10.3390/e16126338 |doi-access=free}}</ref>]]* ब्रेगमैन प्रोजेक्शन: किसी के लिए भी <math>W\subset \Omega</math>, के ब्रेगमैन प्रोजेक्शन को परिभाषित करें <math>q</math> पर <math>W</math>:
<math>P_W(q) = \text{argmin}_{\omega\in W} D_F(\omega, q)</math>. तब
<math>P_W(q) = \text{argmin}_{\omega\in W} D_F(\omega, q)</math>
** यदि <math>W</math> उत्तल है, तो प्रक्षेपण अद्वितीय है यदि यह मौजूद है;
** यदि <math>W</math> उत्तल है, तो प्रक्षेपण अद्वितीय है यदि यह उपलब्ध है;
** यदि <math>W</math> बंद और उत्तल है, और <math>\Omega\subset \R^n</math> परिमित-आयामी है, तो प्रक्षेपण मौजूद है और अद्वितीय है।
** यदि <math>W</math> संवृत और उत्तल है, और <math>\Omega\subset \R^n</math> परिमित-आयामी है, तो प्रक्षेपण उपलब्ध है और अद्वितीय है।
* सामान्यीकृत पाइथागोरस प्रमेय:<ref name="cs.utexas.edu"/>किसी के लिए <math>v\in \Omega, a\in W </math>,
* सामान्यीकृत पाइथागोरस प्रमेय:<ref name="cs.utexas.edu"/>किसी के लिए <math>v\in \Omega, a\in W </math>,


<math>D_F(a, v) \ge D_F(a, P_W(v)) + D_F(P_W(v), v).</math>
<math>D_F(a, v) \ge D_F(a, P_W(v)) + D_F(P_W(v), v).</math>
यह एक समानता है यदि <math>P_W(v)</math> के [[सापेक्ष आंतरिक]] भाग में है <math>W</math>.


विशेष रूप से, यह तब होता है जब <math>W</math> एक एफ़िन सेट है।
यह समानता है यदि <math>P_W(v)</math> के [[सापेक्ष आंतरिक]] भाग में <math>W</math> है।
 
विशेष रूप से, यह तब होता है जब <math>W</math> एफ़िन समुच्चय है।


* त्रिभुज असमानता का अभाव: चूंकि ब्रैगमैन डाइवर्जेंस अनिवार्य रूप से वर्ग यूक्लिडियन दूरी का सामान्यीकरण है, इसलिए कोई त्रिभुज असमानता नहीं है। वास्तव में, <math>D_F(z, x) - D_F(z, y) - D_F(y, x) = \langle\nabla f(y) - \nabla f(x), z-y\rangle</math>, जो सकारात्मक या नकारात्मक हो सकता है।
* त्रिभुज असमानता का अभाव: चूंकि ब्रैगमैन डाइवर्जेंस अनिवार्य रूप से वर्ग यूक्लिडियन दूरी का सामान्यीकरण है, इसलिए कोई त्रिभुज असमानता नहीं है। वास्तव में, <math>D_F(z, x) - D_F(z, y) - D_F(y, x) = \langle\nabla f(y) - \nabla f(x), z-y\rangle</math>, जो सकारात्मक या नकारात्मक हो सकता है।
Line 51: Line 49:
* एफ़िन अंतर तक विशिष्टता: कुछ ठीक करें <math>x\in \Omega</math>, तो किसी और के लिए <math>y\in \Omega</math>, हमारे पास परिभाषा के अनुसार है<math>F(y) - G(y) = F(x) - G(x) + \langle\nabla F(x) - \nabla G(x) , y-x \rangle </math>.
* एफ़िन अंतर तक विशिष्टता: कुछ ठीक करें <math>x\in \Omega</math>, तो किसी और के लिए <math>y\in \Omega</math>, हमारे पास परिभाषा के अनुसार है<math>F(y) - G(y) = F(x) - G(x) + \langle\nabla F(x) - \nabla G(x) , y-x \rangle </math>.
* पहले तर्क में उत्तलता: परिभाषा के अनुसार, और F की उत्तलता का उपयोग करें। सख्त उत्तलता के लिए समान।
* पहले तर्क में उत्तलता: परिभाषा के अनुसार, और F की उत्तलता का उपयोग करें। सख्त उत्तलता के लिए समान।
* एफ में रैखिकता, कोसाइन का नियम, समांतर चतुर्भुज कानून: परिभाषा के अनुसार।
* एफ में रैखिकता, कोसाइन का नियम, समांतर चतुर्भुज नियम: परिभाषा के अनुसार।
* द्वैत: का चित्र 1 देखें।<ref>{{Cite journal |last=Nielsen |first=Frank |date=2021-10-28 |title=घातीय-बहुपद वितरण के लिए मिश्रण रूपांतरण के माध्यम से यूनीवेरिएट गॉसियन मिश्रण के बीच जेफ़रीज़ डाइवर्जेंस का तेज़ अनुमान|journal=Entropy |volume=23 |issue=11 |pages=1417 |doi=10.3390/e23111417 |pmid=34828115 |pmc=8619509 |arxiv=2107.05901 |bibcode=2021Entrp..23.1417N |issn=1099-4300|doi-access=free }}</ref>
* द्वैत: का चित्र 1 देखें।<ref>{{Cite journal |last=Nielsen |first=Frank |date=2021-10-28 |title=घातीय-बहुपद वितरण के लिए मिश्रण रूपांतरण के माध्यम से यूनीवेरिएट गॉसियन मिश्रण के बीच जेफ़रीज़ डाइवर्जेंस का तेज़ अनुमान|journal=Entropy |volume=23 |issue=11 |pages=1417 |doi=10.3390/e23111417 |pmid=34828115 |pmc=8619509 |arxiv=2107.05901 |bibcode=2021Entrp..23.1417N |issn=1099-4300|doi-access=free }}</ref>
* ब्रेगमैन गेंदें बंधी हुई हैं, और एक्स बंद होने पर कॉम्पैक्ट हैं:
* ब्रेगमैन गेंदें बंधी हुई हैं, और एक्स संवृत होने पर संहत हैं:


हल करना <math>x\in X</math> . एफ़िन ट्रांसफ़ॉर्मेशन चालू करें <math>f</math> , ताकि <math>\nabla f(x) = 0</math>.
हल करना <math>x\in X</math> . एफ़िन ट्रांसफ़ॉर्मेशन चालू करें <math>f</math> , जिससे की <math>\nabla f(x) = 0</math>.


कुछ लें <math>\epsilon > 0</math>, ऐसा है कि <math>\partial B(x, \epsilon) \subset X</math>. फिर के रेडियल-दिशात्मक व्युत्पन्न पर विचार करें <math>f</math> यूक्लिडियन क्षेत्र पर <math>\partial B(x, \epsilon)</math>.
कुछ लें <math>\epsilon > 0</math>, ऐसा है कि <math>\partial B(x, \epsilon) \subset X</math>. फिर के रेडियल-दिशात्मक व्युत्पन्न पर विचार करें <math>f</math> यूक्लिडियन क्षेत्र पर <math>\partial B(x, \epsilon)</math>.
Line 61: Line 59:
<math>\langle\nabla f(y), (y-x)\rangle</math> सभी के लिए <math>y\in \partial B(x, \epsilon)</math>.
<math>\langle\nabla f(y), (y-x)\rangle</math> सभी के लिए <math>y\in \partial B(x, \epsilon)</math>.


तब से <math>\partial B(x, \epsilon)\subset \R^n</math> कॉम्पैक्ट है, यह न्यूनतम मूल्य प्राप्त करता है <math>\delta</math> कुछ <math>y_0\in  \partial B(x, \epsilon)</math>.
तब से <math>\partial B(x, \epsilon)\subset \R^n</math> संहत है, यह न्यूनतम मूल्य प्राप्त करता है <math>\delta</math> कुछ <math>y_0\in  \partial B(x, \epsilon)</math>.


तब से <math>f</math> सख्ती से उत्तल है, <math>\delta > 0</math>. तब <math>B_f(x, r)\subset B(x, r/\delta)\cap X</math>.
तब से <math>f</math> सख्ती से उत्तल है, <math>\delta > 0</math>. तब <math>B_f(x, r)\subset B(x, r/\delta)\cap X</math>.


तब से <math>D_f(y, x)</math> है <math>C^1</math> में <math>y</math>, <math>D_f</math> में निरंतर है <math>y</math>, इस प्रकार <math>B_f(x, r)</math> बंद है यदि <math>X</math> है।
तब से <math>D_f(y, x)</math> है <math>C^1</math> में <math>y</math>, <math>D_f</math> में निरंतर है <math>y</math>, इस प्रकार <math>B_f(x, r)</math> संवृत है यदि <math>X</math> है।


* प्रोजेक्शन <math>P_W</math> अच्छी तरह से परिभाषित है जब <math>W</math> बंद और उत्तल है।
* प्रोजेक्शन <math>P_W</math> अच्छी प्रकार से परिभाषित है जब <math>W</math> संवृत और उत्तल है।


हल करना <math>v\in X</math>. कुछ लें <math>w\in W</math> , तो करने दें <math>r := D_f(w, v)</math>. फिर ब्रेगमैन बॉल ड्रा करें <math>B_f(v, r)\cap W</math>. यह बंद और घिरा हुआ है, इस प्रकार कॉम्पैक्ट है। तब से <math>D_f(\cdot, v)</math> उस पर निरंतर और सख्ती से उत्तल है, और नीचे से घिरा हुआ है <math>0</math>, यह उस पर एक अद्वितीय न्यूनतम प्राप्त करता है।
हल करना <math>v\in X</math>. कुछ लें <math>w\in W</math> , तो करने दें <math>r := D_f(w, v)</math>. फिर ब्रेगमैन बॉल ड्रा करें <math>B_f(v, r)\cap W</math>. यह संवृत और घिरा हुआ है, इस प्रकार संहत है। तब से <math>D_f(\cdot, v)</math> उस पर निरंतर और सख्ती से उत्तल है, और नीचे से घिरा हुआ है <math>0</math>, यह उस पर अद्वितीय न्यूनतम प्राप्त करता है।


* पायथागॉरियन असमानता।
* पायथागॉरियन असमानता।
Line 107: Line 105:
}}
}}


निम्नलिखित दो लक्षण वर्णन विचलन के लिए हैं <math>\Gamma_n</math>, पर सभी संभाव्यता उपायों का सेट <math>\{1, 2, ..., n\}</math>, साथ <math>n \geq 2</math>.
निम्नलिखित दो लक्षण वर्णन विचलन के लिए हैं <math>\Gamma_n</math>, पर सभी संभाव्यता माध्यमों का समुच्चय <math>\{1, 2, ..., n\}</math>, साथ <math>n \geq 2</math>.


विचलन को परिभाषित कीजिए <math>\Gamma_n</math> प्रकार के किसी भी कार्य के रूप में <math>D: \Gamma_n \times \Gamma_n \to [0, \infty]</math>, ऐसा है कि <math>D(x, x) = 0</math> सभी के लिए <math>x\in\Gamma_n</math>, तब:
विचलन को परिभाषित कीजिए <math>\Gamma_n</math> प्रकार के किसी भी कार्य के रूप में <math>D: \Gamma_n \times \Gamma_n \to [0, \infty]</math>, ऐसा है कि <math>D(x, x) = 0</math> सभी के लिए <math>x\in\Gamma_n</math>, तब:
*केवल अंतर है <math>\Gamma_n</math> वह दोनों एक ब्रैगमैन डाइवर्जेंस और एक [[ च-विचलन ]] कुल्बैक-लीब्लर डाइवर्जेंस है।<ref name=":0">{{Cite journal |last1=Jiao |first1=Jiantao |last2=Courtade |first2=Thomas |last3=No |first3=Albert |last4=Venkat |first4=Kartik |last5=Weissman |first5=Tsachy |date=December 2014 |title=Information Measures: the Curious Case of the Binary Alphabet |journal=IEEE Transactions on Information Theory |volume=60 |issue=12 |pages=7616–7626 |doi=10.1109/TIT.2014.2360184 |issn=0018-9448|arxiv=1404.6810 |s2cid=13108908 }}</ref>
*मात्र एक अंतर है <math>\Gamma_n</math> वह दोनों ब्रैगमैन डाइवर्जेंस और [[ च-विचलन ]] कुल्बैक-लीब्लर डाइवर्जेंस है।<ref name=":0">{{Cite journal |last1=Jiao |first1=Jiantao |last2=Courtade |first2=Thomas |last3=No |first3=Albert |last4=Venkat |first4=Kartik |last5=Weissman |first5=Tsachy |date=December 2014 |title=Information Measures: the Curious Case of the Binary Alphabet |journal=IEEE Transactions on Information Theory |volume=60 |issue=12 |pages=7616–7626 |doi=10.1109/TIT.2014.2360184 |issn=0018-9448|arxiv=1404.6810 |s2cid=13108908 }}</ref>
*यदि <math>n \geq 3</math>, फिर किसी भी ब्रैगमैन विचलन पर <math>\Gamma_n</math> जो [[डेटा प्रोसेसिंग असमानता]] को संतुष्ट करता है वह कुल्बैक-लीब्लर विचलन होना चाहिए। (वास्तव में, पर्याप्तता की एक कमजोर धारणा ही काफी है।) प्रतिउदाहरण तब मौजूद होते हैं जब <math>n = 2</math>.<ref name=":0" />एक ब्रेगमैन विचलन दिया <math>D_F</math>, इसके विपरीत, द्वारा परिभाषित <math>D_F^*(v, w) = D_F(w, v)</math>, आम तौर पर ब्रैगमैन डाइवर्जेंस नहीं है। उदाहरण के लिए, कुल्बैक-लीबर विचलन एक ब्रैगमैन विचलन और एक एफ-विचलन दोनों है। इसका उल्टा भी एक एफ-डाइवर्जेंस है, लेकिन उपरोक्त लक्षण वर्णन से, रिवर्स केएल डाइवर्जेंस ब्रैगमैन डाइवर्जेंस नहीं हो सकता है।
*यदि <math>n \geq 3</math>, फिर किसी भी ब्रैगमैन विचलन पर <math>\Gamma_n</math> जो [[डेटा प्रोसेसिंग असमानता]] को संतुष्ट करता है वह कुल्बैक-लीब्लर विचलन होना चाहिए वास्तव में, पर्याप्तता की कमजोर धारणा ही पर्याप्त है। प्रतिउदाहरण तब उपलब्ध होते हैं जब <math>n = 2</math>.<ref name=":0" /> एक ब्रेगमैन विचलन दिया <math>D_F</math>, इसके विपरीत, द्वारा परिभाषित <math>D_F^*(v, w) = D_F(w, v)</math>, सामान्यतः ब्रैगमैन डाइवर्जेंस नहीं है। उदाहरण के लिए, कुल्बैक-लीबर विचलन ब्रैगमैन विचलन और एफ-विचलन दोनों है। इसका उत्क्रम भी एफ-डाइवर्जेंस है, लेकिन उपरोक्त लक्षण वर्णन से, रिवर्स केएल डाइवर्जेंस ब्रैगमैन डाइवर्जेंस नहीं हो सकता है।


== उदाहरण ==
== उदाहरण ==
Line 129: Line 127:


== प्रक्षेप्य द्वैत का सामान्यीकरण ==
== प्रक्षेप्य द्वैत का सामान्यीकरण ==
[[कम्प्यूटेशनल ज्यामिति]] में एक महत्वपूर्ण उपकरण प्रोजेक्टिव द्वैत का विचार है, जो घटना और ऊपर-नीचे के रिश्तों को संरक्षित करते हुए हाइपरप्लेन और इसके विपरीत मैप करता है। [[प्रक्षेपी द्वैत]] के कई विश्लेषणात्मक रूप हैं: एक सामान्य रूप बिंदु को मैप करता है <math>p = (p_1, \ldots p_d)</math> हाइपरप्लेन के लिए <math>x_{d+1} = \sum_1^d 2p_i x_i</math>. इस मानचित्रण की व्याख्या की जा सकती है (हाइपरप्लेन को उसके सामान्य से पहचानना) उत्तल संयुग्म मानचित्रण के रूप में जो बिंदु p को उसके दोहरे बिंदु पर ले जाता है <math>p^* = \nabla F(p)</math>, जहां एफ डी-डायमेंशनल पैराबोलॉइड को परिभाषित करता है <math>x_{d+1} = \sum x_i^2</math>.
[[कम्प्यूटेशनल ज्यामिति]] में महत्वपूर्ण उपकरण प्रोजेक्टिव द्वैत का विचार है, जो घटना और ऊपर-नीचे के रिश्तों को संरक्षित करते हुए हाइपरप्लेन और इसके विपरीत मैप करता है। [[प्रक्षेपी द्वैत]] के कई विश्लेषणात्मक रूप हैं: सामान्य रूप बिंदु को मैप करता है <math>p = (p_1, \ldots p_d)</math> हाइपरप्लेन के लिए <math>x_{d+1} = \sum_1^d 2p_i x_i</math>. इस मानचित्रण की व्याख्या की जा सकती है (हाइपरप्लेन को उसके सामान्य से पहचानना) उत्तल संयुग्म मानचित्रण के रूप में जो बिंदु p को उसके दोहरे बिंदु पर ले जाता है <math>p^* = \nabla F(p)</math>, जहां एफ डी-डायमेंशनल पैराबोलॉइड को परिभाषित करता है <math>x_{d+1} = \sum x_i^2</math>.


यदि हम अब पैराबोलॉइड को मनमाना उत्तल फ़ंक्शन द्वारा प्रतिस्थापित करते हैं, तो हम एक अलग दोहरी मैपिंग प्राप्त करते हैं जो मानक प्रोजेक्टिव दोहरी की घटनाओं और ऊपर-नीचे गुणों को  निरंतर रखता है। इसका तात्पर्य है कि कम्प्यूटेशनल ज्यामिति में प्राकृतिक दोहरी अवधारणाएं जैसे [[ वोरोनोई आरेख ]] और डेलाउने त्रिकोण एक मनमाना ब्रेगमैन डाइवर्जेंस द्वारा परिभाषित दूरी के स्थानों में अपना अर्थ बनाए रखते हैं। इस प्रकार, सामान्य ज्यामिति से एल्गोरिदम सीधे इन स्थानों तक विस्तारित होते हैं (बोइसोनेट, नीलसन और नॉक, 2010)
यदि हम अब पैराबोलॉइड को मनमाना उत्तल फ़ंक्शन द्वारा प्रतिस्थापित करते हैं, तो हम भिन्न दोहरी मैपिंग प्राप्त करते हैं जो मानक प्रोजेक्टिव दोहरी की घटनाओं और ऊपर-नीचे गुणों को  निरंतर रखता है। इसका तात्पर्य है कि कम्प्यूटेशनल ज्यामिति में प्राकृतिक दोहरी अवधारणाएं जैसे [[ वोरोनोई आरेख ]] और डेलाउने त्रिकोण मनमाना ब्रेगमैन डाइवर्जेंस द्वारा परिभाषित दूरी के स्थानों में अपना अर्थ बनाए रखते हैं। इस प्रकार, सामान्य ज्यामिति से एल्गोरिदम सीधे इन स्थानों तक विस्तारित होते हैं (बोइसोनेट, नीलसन और नॉक, 2010)


== ब्रैगमैन डायवर्जेंस का सामान्यीकरण ==
== ब्रैगमैन डायवर्जेंस का सामान्यीकरण ==
ब्रेगमैन डायवर्जेंस की व्याख्या तिरछी जेन्सेन-शैनन डाइवर्जेंस के सीमित स्थितियों के रूप में की जा सकती है (नीलसन और बोल्ट्ज, 2011 देखें)। जेन्सेन डाइवर्जेंस को तुलनात्मक उत्तलता का उपयोग करके सामान्यीकृत किया जा सकता है, और इन तिरछे जेन्सेन डाइवर्जेंस सामान्यीकरण के स्थितियों को सीमित करने से सामान्यीकृत ब्रेगमैन डाइवर्जेंस प्राप्त होता है (नीलसन और नॉक, 2017 देखें)।
ब्रेगमैन डायवर्जेंस की व्याख्या तिरछी जेन्सेन-शैनन डाइवर्जेंस के सीमित स्थितियों के रूप में की जा सकती है (नीलसन और बोल्ट्ज, 2011 देखें)। जेन्सेन डाइवर्जेंस को तुलनात्मक उत्तलता का उपयोग करके सामान्यीकृत किया जा सकता है, और इन तिरछे जेन्सेन डाइवर्जेंस सामान्यीकरण के स्थितियों को सीमित करने से सामान्यीकृत ब्रेगमैन डाइवर्जेंस प्राप्त होता है (नीलसन और नॉक, 2017 देखें)।
ब्रैगमैन तार विचलन<ref>{{cite book | arxiv= 1810.09113| last1= Nielsen| first1= Frank| title= सूचना का ज्यामितीय विज्ञान| last2= Nock| first2= Richard| chapter= The Bregman Chord Divergence| series= Lecture Notes in Computer Science| year= 2019| volume= 11712| pages= 299–308| doi= 10.1007/978-3-030-26980-7_31| isbn= 978-3-030-26979-1| s2cid= 53046425}}</ref> एक स्पर्शरेखा के  अतिरिक्त एक जीवा लेकर प्राप्त किया जाता है।
ब्रैगमैन तार विचलन<ref>{{cite book | arxiv= 1810.09113| last1= Nielsen| first1= Frank| title= सूचना का ज्यामितीय विज्ञान| last2= Nock| first2= Richard| chapter= The Bregman Chord Divergence| series= Lecture Notes in Computer Science| year= 2019| volume= 11712| pages= 299–308| doi= 10.1007/978-3-030-26980-7_31| isbn= 978-3-030-26979-1| s2cid= 53046425}}</ref> स्पर्शरेखा के  अतिरिक्त जीवा लेकर प्राप्त किया जाता है।


== अन्य वस्तुओं पर ब्रैगमैन विचलन ==
== अन्य वस्तुओं पर ब्रैगमैन विचलन ==
ब्रैगमैन डायवर्जेंस को मेट्रिसेस के बीच, कार्यों के बीच और उपायों (वितरण) के बीच भी परिभाषित किया जा सकता है। मेट्रिसेस के बीच ब्रेगमैन डाइवर्जेंस में स्टीन की हानि और [[वॉन न्यूमैन एन्ट्रॉपी]] शामिल हैं। कार्यों के बीच ब्रैगमैन डाइवर्जेंस में कुल वर्ग त्रुटि, सापेक्ष एन्ट्रापी और वर्ग पूर्वाग्रह शामिल हैं; फ्रिग्यिक एट अल द्वारा संदर्भ देखें। परिभाषाओं और गुणों के लिए नीचे। इसी तरह ब्रैगमैन डायवर्जेंस को भी सेट पर परिभाषित किया गया है, एक [[सबमॉड्यूलर सेट फ़ंक्शन]] के माध्यम से जिसे उत्तल फ़ंक्शन के असतत एनालॉग के रूप में जाना जाता है। सबमॉड्यूलर ब्रेगमैन डायवर्जेंस में [[हैमिंग दूरी]], सटीक और रिकॉल, पारस्परिक जानकारी और कुछ अन्य सेट आधारित दूरी उपायों (अय्यर एंड बिलम्स, 2012 देखें) जैसे कई असतत दूरी के उपाय शामिल हैं।
ब्रैगमैन डायवर्जेंस को मेट्रिसेस के बीच, कार्यों के बीच और माध्यमों (वितरण) के बीच भी परिभाषित किया जा सकता है। मेट्रिसेस के बीच ब्रेगमैन डाइवर्जेंस में स्टीन की हानि और [[वॉन न्यूमैन एन्ट्रॉपी]] सम्मलित हैं। कार्यों के बीच ब्रैगमैन डाइवर्जेंस में कुल वर्ग त्रुटि, सापेक्ष एन्ट्रापी और वर्ग पूर्वाग्रह सम्मलित हैं; फ्रिग्यिक एट अल द्वारा संदर्भ देखें। परिभाषाओं और गुणों के लिए नीचे। इसी प्रकार ब्रैगमैन डायवर्जेंस को भी समुच्चय पर परिभाषित किया गया है, [[सबमॉड्यूलर सेट फ़ंक्शन|सबमॉड्यूलर समुच्चय फ़ंक्शन]] के माध्यम से जिसे उत्तल फ़ंक्शन के असतत एनालॉग के रूप में जाना जाता है। सबमॉड्यूलर ब्रेगमैन डायवर्जेंस में [[हैमिंग दूरी]], उपयुक्त और रिकॉल, पारस्परिक जानकारी और कुछ अन्य समुच्चय आधारित दूरी माध्यमों (अय्यर एंड बिलम्स, 2012 देखें) जैसे कई असतत दूरी के उपाय सम्मलित हैं।


सामान्य मैट्रिक्स ब्रैगमैन डाइवर्जेंस की सूची के लिए, तालिका 15.1 देखें।<ref>"Matrix Information Geometry", R. Nock, B. Magdalou, E. Briys and F. Nielsen,  
सामान्य मैट्रिक्स ब्रैगमैन डाइवर्जेंस की सूची के लिए, तालिका 15.1 देखें।<ref>"Matrix Information Geometry", R. Nock, B. Magdalou, E. Briys and F. Nielsen,  
[http://www1.univ-ag.fr/~rnock/Articles/Drafts/book12-nmbn.pdf pdf], from this [https://doi.org/10.1007%2F978-3-642-30232-9 book]</ref>
[http://www1.univ-ag.fr/~rnock/Articles/Drafts/book12-nmbn.pdf pdf], from this [https://doi.org/10.1007%2F978-3-642-30232-9 book]</ref>
== अनुप्रयोग ==


मशीन लर्निंग में, ब्रेगमैन डायवर्जेंस का उपयोग द्वि-टेम्पर्ड लॉजिस्टिक लॉस की गणना के लिए किया जाता है, जो शोर डेटासमुच्चय के साथ [[सॉफ्टमैक्स फ़ंक्शन]] से उत्तम प्रदर्शन करता है।<ref>Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren (2019). "Robust Bi-Tempered Logistic Loss Based on Bregman Divergences". Conference on Neural Information Processing Systems. pp. 14987-14996. [https://papers.nips.cc/paper/9638-robust-bi-tempered-logistic-loss-based-on-bregman-divergences.pdf pdf]</ref>


== अनुप्रयोग ==
ब्रैगमैन डाइवर्जेंस का उपयोग [[ दर्पण उतरना | दर्पण उतरना]] के निर्माण में किया जाता है, जिसमें मशीन लर्निंग में उपयोग किए जाने वाले ऑप्टिमाइज़ेशन एल्गोरिदम जैसे कि [[ ढतला हुआ वंश |ढतला हुआ वंश]] और [[ बचाव एल्गोरिथ्म |बचाव एल्गोरिथ्म]] सम्मलित हैं।
 
मशीन लर्निंग में, ब्रेगमैन डायवर्जेंस का उपयोग द्वि-टेम्पर्ड लॉजिस्टिक लॉस की गणना के लिए किया जाता है, जो शोर डेटासेट के साथ [[सॉफ्टमैक्स फ़ंक्शन]] से बेहतर प्रदर्शन करता है।<ref>Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren (2019). "Robust Bi-Tempered Logistic Loss Based on Bregman Divergences". Conference on Neural Information Processing Systems. pp. 14987-14996. [https://papers.nips.cc/paper/9638-robust-bi-tempered-logistic-loss-based-on-bregman-divergences.pdf pdf]</ref>
ब्रैगमैन डाइवर्जेंस का उपयोग [[ दर्पण उतरना ]] के निर्माण में किया जाता है, जिसमें मशीन लर्निंग में उपयोग किए जाने वाले ऑप्टिमाइज़ेशन एल्गोरिदम जैसे कि [[ ढतला हुआ वंश ]] और [[ बचाव एल्गोरिथ्म ]] शामिल हैं।


== संदर्भ ==
== संदर्भ ==
Line 298: Line 295:
  }}
  }}
{{refend}}
{{refend}}
[[Category: ज्यामितीय एल्गोरिदम]] [[Category: सांख्यिकीय दूरी]]


[[Category: Machine Translated Page]]
[[Category:All articles with bare URLs for citations]]
[[Category:All articles with dead external links]]
[[Category:Articles with PDF format bare URLs for citations]]
[[Category:Articles with bare URLs for citations from March 2022]]
[[Category:Articles with dead external links from June 2019]]
[[Category:Articles with permanently dead external links]]
[[Category:Created On 24/05/2023]]
[[Category:Created On 24/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with broken file links]]
[[Category:Pages with maths render errors]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:ज्यामितीय एल्गोरिदम]]
[[Category:सांख्यिकीय दूरी]]

Latest revision as of 08:40, 15 June 2023

गणित में, विशेष रूप से सांख्यिकी और सूचना ज्यामिति, ब्रैगमैन डाइवर्जेंस या ब्रैगमैन दूरी दो बिंदुओं के बीच के अंतर का एक उपाय है, जिसे सख्ती से उत्तल कार्य के संदर्भ में परिभाषित किया गया है; वे डायवर्जेंस (सांख्यिकी) का महत्वपूर्ण वर्ग बनाते हैं। जब बिंदुओं की व्याख्या संभाव्यता वितरण के रूप में की जाती है - विशेष रूप से या तो पैरामीट्रिक मॉडल के पैरामीटर के मान के रूप में या देखे गए मानों के डेटा समुच्चय के रूप में - परिणामी दूरी सांख्यिकीय दूरी होती है। सबसे बुनियादी ब्रैगमैन डाइवर्जेंस वर्ग यूक्लिडियन दूरी है।

ब्रेगमैन डायवर्जेंस मीट्रिक (गणित) के समान हैं, लेकिन न तो त्रिकोण असमानता (कभी) और न ही समरूपता (सामान्य रूप से) को संतुष्ट करते हैं। चूंकि, वे पायथागॉरियन प्रमेय के सामान्यीकरण को संतुष्ट करते हैं, और सूचना ज्यामिति में संबंधित सांख्यिकीय बहुरूपता (दोहरी) फ्लैट बहुरूपता के रूप में व्याख्या की जाती है। यह अनुकूलन सिद्धांत की कई तकनीकों को ब्रैगमैन डायवर्जेंस के लिए सामान्यीकृत करने की अनुमति देता है, ज्यामितीय रूप से कम से कम वर्गों के सामान्यीकरण के रूप में।

ब्रेगमैन डाइवर्जेंस का नाम रूसी गणितज्ञ लेव एम. ब्रेगमैन के नाम पर रखा गया है, जिन्होंने 1967 में इस अवधारणा को प्रस्तुत किया था।

परिभाषा

मान लीजिये को उत्तल समुच्चय पर परिभाषित एक निरंतर-भिन्न, सख्ती से उत्तल फ़ंक्शन है।

बिंदु के लिए F से जुड़ी ब्रैगमैन दूरी, बिंदु p पर F के मान और बिंदु p पर मूल्यांकन किए गए बिंदु q के आसपास F के प्रथम-क्रम टेलर विस्तार के मूल्य के बीच का अंतर है:

गुण

  • गैर-नकारात्मकता: सभी , के लिए यह की उत्तलता का परिणाम है।
  • सकारात्मकता: जब सख्ती से उत्तल होता है, तो यदि है।
  • एफ़िन अंतर तक विशिष्टता: यदि एक एफ़िन फ़ंक्शन है।
  • उत्तलता: अपने पहले तर्क में उत्तल है, लेकिन आवश्यक नहीं कि दूसरे तर्क में हो यदि सख्ती से उत्तल है, तो अपने पहले तर्क में सख्ती से उत्तल है।
    • उदाहरण के लिए, f(x) = |x| मान लें, इसे 0 पर समतल करें, फिर मान लें , जब होता है।
  • रैखिकता: यदि हम ब्रैगमैन दूरी को फ़ंक्शन पर एक ऑपरेटर के रूप में सोचते हैं, तो यह गैर-नकारात्मक गुणांक के संबंध में रैखिक है। दूसरे शब्दों में, के लिए सख्ती से उत्तल और अवकलनीय, और ,
  • द्वैत: यदि F सख्ती से उत्तल है, तो फ़ंक्शन F में एक उत्तल संयुग्म है जो सख्ती से उत्तल भी है और कुछ उत्तल समुच्चय पर लगातार भिन्न होता है। के संबंध में परिभाषित ब्रैगमैन दूरी के रूप में द्वैत है, जैसे
यहाँ, और p और q के अनुरूप दोहरे बिंदु हैं।
  • मिनिमाइज़र के रूप में माध्य: ब्रेगमैन डाइवर्जेंस के बारे में महत्वपूर्ण परिणाम यह है कि, यादृच्छिक सदिश दिया गया है, माध्य सदिश यादृच्छिक सदिश से अपेक्षित ब्रेगमैन विचलन को कम करता है। यह परिणाम पाठ्यपुस्तक के परिणाम का सामान्यीकरण करता है कि समुच्चय का मतलब समुच्चय में तत्वों के लिए कुल चुकता त्रुटि को कम करता है। यह परिणाम सदिश स्थितियों के लिए (बनर्जी और अन्य 2005) द्वारा सिद्ध किया गया था, और (फ्रिग्यिक और अन्य 2008) द्वारा कार्यों/वितरणों के स्थितियों में विस्तारित किया गया था। यह परिणाम महत्वपूर्ण है क्योंकि यह विशेष रूप से बेयसियन अनुमान में यादृच्छिक समुच्चय के प्रतिनिधि के रूप में माध्य का उपयोग करके उचित ठहराता है।
  • ब्रेगमैन बॉल्स बाउंडेड हैं, और संवृत होने पर संहत हैं: ब्रैगमैन बॉल को त्रिज्या के साथ पर केंद्रित परिभाषित करें , जब परिमित आयामी होता है, , यदि के सापेक्ष आंतरिक भाग में है , या यदि पर स्थानीय रूप से संवृत है (अर्थात, संवृत गेंद उपलब्ध है पर केंद्रित है , ऐसा है कि संवृत है), फिर सभी के लिए बाध्य है . यदि संवृत है तो सभी के लिए सघन है।
  • कोसाइन का नियम:[1]

किसी भी के लिए

ब्रेगमैन डाइवर्जेंस के लिए सामान्यीकृत पाइथागोरस प्रमेय।[2]

* ब्रेगमैन प्रोजेक्शन: किसी के लिए भी , के ब्रेगमैन प्रोजेक्शन को परिभाषित करें पर :

    • यदि उत्तल है, तो प्रक्षेपण अद्वितीय है यदि यह उपलब्ध है;
    • यदि संवृत और उत्तल है, और परिमित-आयामी है, तो प्रक्षेपण उपलब्ध है और अद्वितीय है।
  • सामान्यीकृत पाइथागोरस प्रमेय:[1]किसी के लिए ,

यह समानता है यदि के सापेक्ष आंतरिक भाग में है।

विशेष रूप से, यह तब होता है जब एफ़िन समुच्चय है।

  • त्रिभुज असमानता का अभाव: चूंकि ब्रैगमैन डाइवर्जेंस अनिवार्य रूप से वर्ग यूक्लिडियन दूरी का सामान्यीकरण है, इसलिए कोई त्रिभुज असमानता नहीं है। वास्तव में, , जो सकारात्मक या नकारात्मक हो सकता है।

प्रमाण

  • गैर-नकारात्मकता और सकारात्मकता: जेन्सेन की असमानता का उपयोग करें।
  • एफ़िन अंतर तक विशिष्टता: कुछ ठीक करें , तो किसी और के लिए , हमारे पास परिभाषा के अनुसार है.
  • पहले तर्क में उत्तलता: परिभाषा के अनुसार, और F की उत्तलता का उपयोग करें। सख्त उत्तलता के लिए समान।
  • एफ में रैखिकता, कोसाइन का नियम, समांतर चतुर्भुज नियम: परिभाषा के अनुसार।
  • द्वैत: का चित्र 1 देखें।[3]
  • ब्रेगमैन गेंदें बंधी हुई हैं, और एक्स संवृत होने पर संहत हैं:

हल करना . एफ़िन ट्रांसफ़ॉर्मेशन चालू करें , जिससे की .

कुछ लें , ऐसा है कि . फिर के रेडियल-दिशात्मक व्युत्पन्न पर विचार करें यूक्लिडियन क्षेत्र पर .

सभी के लिए .

तब से संहत है, यह न्यूनतम मूल्य प्राप्त करता है कुछ .

तब से सख्ती से उत्तल है, . तब .

तब से है में , में निरंतर है , इस प्रकार संवृत है यदि है।

  • प्रोजेक्शन अच्छी प्रकार से परिभाषित है जब संवृत और उत्तल है।

हल करना . कुछ लें , तो करने दें . फिर ब्रेगमैन बॉल ड्रा करें . यह संवृत और घिरा हुआ है, इस प्रकार संहत है। तब से उस पर निरंतर और सख्ती से उत्तल है, और नीचे से घिरा हुआ है , यह उस पर अद्वितीय न्यूनतम प्राप्त करता है।

  • पायथागॉरियन असमानता।

कोज्या नियम द्वारा, , जो होना चाहिए , तब से कम करता है में , और उत्तल है।

  • पायथागॉरियन समानता जब के सापेक्ष आंतरिक भाग में है .

यदि , तब से सापेक्ष इंटीरियर में है, हम इससे आगे बढ़ सकते हैं के विपरीत दिशा में , कम करने के लिए , विरोधाभास।

इस प्रकार .

वर्गीकरण प्रमेय

  • एकमात्र सममित ब्रैगमैन डायवर्जेंस पर सामान्यीकृत यूक्लिडियन दूरी (महालनोबिस दूरी) का वर्ग है, अर्थात, कुछ सकारात्मक निश्चितता के लिए .[4]
Proof
Bregman divergence interpreted as areas.

For any , define for . Let .

Then for , and since is continuous, also for .

Then, from the diagram, we see that for for all , we must have linear on .

Thus we find that varies linearly along any direction. By the next lemma, is quadratic. Since is also strictly convex, it is of form , where .

Lemma: If is an open subset of , has continuous derivative, and given any line segment , the function is linear in , then is a quadratic function.

Proof idea: For any quadratic function , we have still has such derivative-linearity, so we will subtract away a few quadratic functions and show that becomes zero.

The proof idea can be illustrated fully for the case of , so we prove it in this case.

By the derivative-linearity, is a quadratic function on any line segment in . We subtract away four quadratic functions, such that becomes identically zero on the x-axis, y-axis, and the line.

Let , for well-chosen . Now use to remove the linear term, and use respectively to remove the quadratic terms along the three lines.

not on the origin, there exists a line across that intersects the x-axis, y-axis, and the line at three different points. Since is quadratic on , and is zero on three different points, is identically zero on , thus . Thus is quadratic.

निम्नलिखित दो लक्षण वर्णन विचलन के लिए हैं , पर सभी संभाव्यता माध्यमों का समुच्चय , साथ .

विचलन को परिभाषित कीजिए प्रकार के किसी भी कार्य के रूप में , ऐसा है कि सभी के लिए , तब:

  • मात्र एक अंतर है वह दोनों ब्रैगमैन डाइवर्जेंस और च-विचलन कुल्बैक-लीब्लर डाइवर्जेंस है।[5]
  • यदि , फिर किसी भी ब्रैगमैन विचलन पर जो डेटा प्रोसेसिंग असमानता को संतुष्ट करता है वह कुल्बैक-लीब्लर विचलन होना चाहिए वास्तव में, पर्याप्तता की कमजोर धारणा ही पर्याप्त है। प्रतिउदाहरण तब उपलब्ध होते हैं जब .[5] एक ब्रेगमैन विचलन दिया , इसके विपरीत, द्वारा परिभाषित , सामान्यतः ब्रैगमैन डाइवर्जेंस नहीं है। उदाहरण के लिए, कुल्बैक-लीबर विचलन ब्रैगमैन विचलन और एफ-विचलन दोनों है। इसका उत्क्रम भी एफ-डाइवर्जेंस है, लेकिन उपरोक्त लक्षण वर्णन से, रिवर्स केएल डाइवर्जेंस ब्रैगमैन डाइवर्जेंस नहीं हो सकता है।

उदाहरण

  • चुकता यूक्लिडियन दूरी उत्तल कार्य द्वारा उत्पन्न ब्रैगमैन दूरी का विहित उदाहरण है
  • वर्ग महलानोबिस दूरी, जो उत्तल कार्य द्वारा उत्पन्न होता है . इसे उपरोक्त वर्गित यूक्लिडियन दूरी के सामान्यीकरण के रूप में माना जा सकता है।
  • सामान्यीकृत कुल्बैक-लीब्लर विचलन
 : नकारात्मक एन्ट्रापी (सूचना सिद्धांत) फ़ंक्शन द्वारा उत्पन्न होता है
सिंप्लेक्स तक सीमित होने पर, यह देता है , सामान्य कुलबैक-लीब्लर विचलन।
  • इटाकुरा-साइतो दूरी,
उत्तल कार्य द्वारा उत्पन्न होता है


प्रक्षेप्य द्वैत का सामान्यीकरण

कम्प्यूटेशनल ज्यामिति में महत्वपूर्ण उपकरण प्रोजेक्टिव द्वैत का विचार है, जो घटना और ऊपर-नीचे के रिश्तों को संरक्षित करते हुए हाइपरप्लेन और इसके विपरीत मैप करता है। प्रक्षेपी द्वैत के कई विश्लेषणात्मक रूप हैं: सामान्य रूप बिंदु को मैप करता है हाइपरप्लेन के लिए . इस मानचित्रण की व्याख्या की जा सकती है (हाइपरप्लेन को उसके सामान्य से पहचानना) उत्तल संयुग्म मानचित्रण के रूप में जो बिंदु p को उसके दोहरे बिंदु पर ले जाता है , जहां एफ डी-डायमेंशनल पैराबोलॉइड को परिभाषित करता है .

यदि हम अब पैराबोलॉइड को मनमाना उत्तल फ़ंक्शन द्वारा प्रतिस्थापित करते हैं, तो हम भिन्न दोहरी मैपिंग प्राप्त करते हैं जो मानक प्रोजेक्टिव दोहरी की घटनाओं और ऊपर-नीचे गुणों को निरंतर रखता है। इसका तात्पर्य है कि कम्प्यूटेशनल ज्यामिति में प्राकृतिक दोहरी अवधारणाएं जैसे वोरोनोई आरेख और डेलाउने त्रिकोण मनमाना ब्रेगमैन डाइवर्जेंस द्वारा परिभाषित दूरी के स्थानों में अपना अर्थ बनाए रखते हैं। इस प्रकार, सामान्य ज्यामिति से एल्गोरिदम सीधे इन स्थानों तक विस्तारित होते हैं (बोइसोनेट, नीलसन और नॉक, 2010)

ब्रैगमैन डायवर्जेंस का सामान्यीकरण

ब्रेगमैन डायवर्जेंस की व्याख्या तिरछी जेन्सेन-शैनन डाइवर्जेंस के सीमित स्थितियों के रूप में की जा सकती है (नीलसन और बोल्ट्ज, 2011 देखें)। जेन्सेन डाइवर्जेंस को तुलनात्मक उत्तलता का उपयोग करके सामान्यीकृत किया जा सकता है, और इन तिरछे जेन्सेन डाइवर्जेंस सामान्यीकरण के स्थितियों को सीमित करने से सामान्यीकृत ब्रेगमैन डाइवर्जेंस प्राप्त होता है (नीलसन और नॉक, 2017 देखें)। ब्रैगमैन तार विचलन[6] स्पर्शरेखा के अतिरिक्त जीवा लेकर प्राप्त किया जाता है।

अन्य वस्तुओं पर ब्रैगमैन विचलन

ब्रैगमैन डायवर्जेंस को मेट्रिसेस के बीच, कार्यों के बीच और माध्यमों (वितरण) के बीच भी परिभाषित किया जा सकता है। मेट्रिसेस के बीच ब्रेगमैन डाइवर्जेंस में स्टीन की हानि और वॉन न्यूमैन एन्ट्रॉपी सम्मलित हैं। कार्यों के बीच ब्रैगमैन डाइवर्जेंस में कुल वर्ग त्रुटि, सापेक्ष एन्ट्रापी और वर्ग पूर्वाग्रह सम्मलित हैं; फ्रिग्यिक एट अल द्वारा संदर्भ देखें। परिभाषाओं और गुणों के लिए नीचे। इसी प्रकार ब्रैगमैन डायवर्जेंस को भी समुच्चय पर परिभाषित किया गया है, सबमॉड्यूलर समुच्चय फ़ंक्शन के माध्यम से जिसे उत्तल फ़ंक्शन के असतत एनालॉग के रूप में जाना जाता है। सबमॉड्यूलर ब्रेगमैन डायवर्जेंस में हैमिंग दूरी, उपयुक्त और रिकॉल, पारस्परिक जानकारी और कुछ अन्य समुच्चय आधारित दूरी माध्यमों (अय्यर एंड बिलम्स, 2012 देखें) जैसे कई असतत दूरी के उपाय सम्मलित हैं।

सामान्य मैट्रिक्स ब्रैगमैन डाइवर्जेंस की सूची के लिए, तालिका 15.1 देखें।[7]

अनुप्रयोग

मशीन लर्निंग में, ब्रेगमैन डायवर्जेंस का उपयोग द्वि-टेम्पर्ड लॉजिस्टिक लॉस की गणना के लिए किया जाता है, जो शोर डेटासमुच्चय के साथ सॉफ्टमैक्स फ़ंक्शन से उत्तम प्रदर्शन करता है।[8]

ब्रैगमैन डाइवर्जेंस का उपयोग दर्पण उतरना के निर्माण में किया जाता है, जिसमें मशीन लर्निंग में उपयोग किए जाने वाले ऑप्टिमाइज़ेशन एल्गोरिदम जैसे कि ढतला हुआ वंश और बचाव एल्गोरिथ्म सम्मलित हैं।

संदर्भ

  1. 1.0 1.1 https://www.cs.utexas.edu/users/inderjit/Talks/bregtut.pdf[bare URL PDF]
  2. Adamčík, Martin (2014). "ब्रैगमैन डायवर्जेंस की सूचना ज्यामिति और बहु-विशेषज्ञ तर्क में कुछ अनुप्रयोग". Entropy. 16 (12): 6338–6381. Bibcode:2014Entrp..16.6338A. doi:10.3390/e16126338.
  3. Nielsen, Frank (2021-10-28). "घातीय-बहुपद वितरण के लिए मिश्रण रूपांतरण के माध्यम से यूनीवेरिएट गॉसियन मिश्रण के बीच जेफ़रीज़ डाइवर्जेंस का तेज़ अनुमान". Entropy. 23 (11): 1417. arXiv:2107.05901. Bibcode:2021Entrp..23.1417N. doi:10.3390/e23111417. ISSN 1099-4300. PMC 8619509. PMID 34828115.
  4. Nielsen, Frank; Boissonnat, Jean-Daniel; Nock, Richard (September 2010). "Bregman Voronoi Diagrams: Properties, Algorithms and Applications". Discrete & Computational Geometry. 44 (2): 281–307. arXiv:0709.2196. doi:10.1007/s00454-010-9256-1. ISSN 0179-5376. S2CID 1327029.
  5. 5.0 5.1 Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (December 2014). "Information Measures: the Curious Case of the Binary Alphabet". IEEE Transactions on Information Theory. 60 (12): 7616–7626. arXiv:1404.6810. doi:10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
  6. Nielsen, Frank; Nock, Richard (2019). "The Bregman Chord Divergence". सूचना का ज्यामितीय विज्ञान. Lecture Notes in Computer Science. Vol. 11712. pp. 299–308. arXiv:1810.09113. doi:10.1007/978-3-030-26980-7_31. ISBN 978-3-030-26979-1. S2CID 53046425.
  7. "Matrix Information Geometry", R. Nock, B. Magdalou, E. Briys and F. Nielsen, pdf, from this book
  8. Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren (2019). "Robust Bi-Tempered Logistic Loss Based on Bregman Divergences". Conference on Neural Information Processing Systems. pp. 14987-14996. pdf