ब्रेगमैन विचलन
गणित में, विशेष रूप से सांख्यिकी और सूचना ज्यामिति, एक ब्रैगमैन डाइवर्जेंस या ब्रैगमैन दूरी दो बिंदुओं के बीच अंतर का एक उपाय है, जिसे कड़ाई से उत्तल कार्य के संदर्भ में परिभाषित किया गया है; वे डायवर्जेंस (सांख्यिकी) का एक महत्वपूर्ण वर्ग बनाते हैं। जब बिंदुओं की व्याख्या संभाव्यता वितरण के रूप में की जाती है - विशेष रूप से या तो पैरामीट्रिक मॉडल के पैरामीटर के मान के रूप में या देखे गए मानों के डेटा सेट के रूप में - परिणामी दूरी एक सांख्यिकीय दूरी होती है। सबसे बुनियादी ब्रैगमैन डाइवर्जेंस वर्ग यूक्लिडियन दूरी है।
ब्रेगमैन डायवर्जेंस मीट्रिक (गणित) के समान हैं, लेकिन न तो त्रिकोण असमानता (कभी) और न ही समरूपता (सामान्य रूप से) को संतुष्ट करते हैं। चूंकि, वे पायथागॉरियन प्रमेय के एक सामान्यीकरण को संतुष्ट करते हैं, और सूचना ज्यामिति में संबंधित सांख्यिकीय कई गुना (दोहरी) फ्लैट कई गुना के रूप में व्याख्या की जाती है। यह अनुकूलन सिद्धांत की कई तकनीकों को ब्रैगमैन डायवर्जेंस के लिए सामान्यीकृत करने की अनुमति देता है, ज्यामितीय रूप से कम से कम वर्गों के सामान्यीकरण के रूप में।
ब्रेगमैन डाइवर्जेंस का नाम रूसी गणितज्ञ लेव एम. ब्रेगमैन के नाम पर रखा गया है, जिन्होंने 1967 में इस अवधारणा को प्रस्तुत किया था।
परिभाषा
होने देना उत्तल सेट पर परिभाषित एक सतत-भिन्न, सख्ती से उत्तल कार्य बनें .
बिंदुओं के लिए F से जुड़ी Bregman दूरी बिंदु p पर F के मान और बिंदु p पर मूल्यांकन किए गए बिंदु q के चारों ओर F के पहले क्रम के टेलर विस्तार के बीच का अंतर है:
गुण
- गैर-नकारात्मकता: सभी के लिए , . यह उत्तलता का परिणाम है .
- सकारात्मकता : कब सख्ती से उत्तल है, आईएफएफ .
- एफ़िन अंतर तक विशिष्टता: आईएफएफ एक affine कार्य है।
- उत्तलता: अपने पहले तर्क में उत्तल है, लेकिन जरूरी नहीं कि दूसरे तर्क में हो। यदि एफ सख्ती से उत्तल है, तो अपने पहले तर्क में सख्ती से उत्तल है।
- उदाहरण के लिए, f(x) = |x| लें, इसे 0 पर चिकना करें, फिर लें , तब .
- रैखिकता: यदि हम ब्रैगमैन दूरी को फ़ंक्शन 'एफ' पर एक ऑपरेटर के रूप में सोचते हैं, तो यह गैर-नकारात्मक गुणांक के संबंध में रैखिक है। दूसरे शब्दों में, के लिए सख्ती से उत्तल और अलग-अलग, और ,
- द्वैत: यदि F सख्ती से उत्तल है, तो फलन F में उत्तल संयुग्म है जो सख्ती से उत्तल भी है और कुछ उत्तल सेट पर लगातार भिन्न होता है . ब्रेगमैन दूरी के संबंध में परिभाषित किया गया से द्वैत है जैसा
- यहाँ, और p और q के संगत द्वैत बिंदु हैं।
- मिनिमाइज़र के रूप में माध्य: ब्रेगमैन डाइवर्जेंस के बारे में एक महत्वपूर्ण परिणाम यह है कि, एक यादृच्छिक वेक्टर दिया गया है, माध्य वेक्टर यादृच्छिक वेक्टर से अपेक्षित ब्रेगमैन विचलन को कम करता है। यह परिणाम पाठ्यपुस्तक के परिणाम का सामान्यीकरण करता है कि एक सेट का मतलब सेट में तत्वों के लिए कुल चुकता त्रुटि को कम करता है। यह परिणाम सदिश मामले के लिए (बनर्जी और अन्य 2005) द्वारा सिद्ध किया गया था, और (फ्रिग्यिक और अन्य 2008) द्वारा कार्यों/वितरणों के मामले में विस्तारित किया गया था। यह परिणाम महत्वपूर्ण है क्योंकि यह विशेष रूप से बेयसियन अनुमान में एक यादृच्छिक सेट के प्रतिनिधि के रूप में एक माध्य का उपयोग करके उचित ठहराता है।
- ब्रेगमैन बॉल्स बाउंडेड हैं, और एक्स बंद होने पर कॉम्पैक्ट हैं: ब्रैगमैन बॉल को त्रिज्या आर के साथ एक्स पर केंद्रित परिभाषित करें . कब परिमित आयामी है, , यदि के सापेक्ष आंतरिक भाग में है , या यदि पर स्थानीय रूप से बंद है (अर्थात, एक बंद गेंद मौजूद है पर केंद्रित है , ऐसा है कि बंद है), फिर सभी के लिए बाध्य है . यदि बंद है तो सभी के लिए सघन है .
- कोसाइन का नियम:[1]
किसी के लिए
- समांतर चतुर्भुज कानून: किसी के लिए भी ,
* ब्रेगमैन प्रोजेक्शन: किसी के लिए भी , के ब्रेगमैन प्रोजेक्शन को परिभाषित करें पर :
. तब
- यदि उत्तल है, तो प्रक्षेपण अद्वितीय है यदि यह मौजूद है;
- यदि बंद और उत्तल है, और परिमित-आयामी है, तो प्रक्षेपण मौजूद है और अद्वितीय है।
- सामान्यीकृत पाइथागोरस प्रमेय:[1]किसी के लिए ,
यह एक समानता है यदि के सापेक्ष आंतरिक भाग में है .
विशेष रूप से, यह तब होता है जब एक एफ़िन सेट है।
- त्रिभुज असमानता का अभाव: चूंकि ब्रैगमैन डाइवर्जेंस अनिवार्य रूप से वर्ग यूक्लिडियन दूरी का सामान्यीकरण है, इसलिए कोई त्रिभुज असमानता नहीं है। वास्तव में, , जो सकारात्मक या नकारात्मक हो सकता है।
प्रमाण
- गैर-नकारात्मकता और सकारात्मकता: जेन्सेन की असमानता का उपयोग करें।
- एफ़िन अंतर तक विशिष्टता: कुछ ठीक करें , तो किसी और के लिए , हमारे पास परिभाषा के अनुसार है.
- पहले तर्क में उत्तलता: परिभाषा के अनुसार, और F की उत्तलता का उपयोग करें। सख्त उत्तलता के लिए समान।
- एफ में रैखिकता, कोसाइन का नियम, समांतर चतुर्भुज कानून: परिभाषा के अनुसार।
- द्वैत: का चित्र 1 देखें।[3]
- ब्रेगमैन गेंदें बंधी हुई हैं, और एक्स बंद होने पर कॉम्पैक्ट हैं:
हल करना . एफ़िन ट्रांसफ़ॉर्मेशन चालू करें , ताकि .
कुछ लें , ऐसा है कि . फिर के रेडियल-दिशात्मक व्युत्पन्न पर विचार करें यूक्लिडियन क्षेत्र पर .
सभी के लिए .
तब से कॉम्पैक्ट है, यह न्यूनतम मूल्य प्राप्त करता है कुछ .
तब से सख्ती से उत्तल है, . तब .
तब से है में , में निरंतर है , इस प्रकार बंद है यदि है।
- प्रोजेक्शन अच्छी तरह से परिभाषित है जब बंद और उत्तल है।
हल करना . कुछ लें , तो करने दें . फिर ब्रेगमैन बॉल ड्रा करें . यह बंद और घिरा हुआ है, इस प्रकार कॉम्पैक्ट है। तब से उस पर निरंतर और सख्ती से उत्तल है, और नीचे से घिरा हुआ है , यह उस पर एक अद्वितीय न्यूनतम प्राप्त करता है।
- पायथागॉरियन असमानता।
कोज्या नियम द्वारा, , जो होना चाहिए , तब से कम करता है में , और उत्तल है।
- पायथागॉरियन समानता जब के सापेक्ष आंतरिक भाग में है .
यदि , तब से सापेक्ष इंटीरियर में है, हम इससे आगे बढ़ सकते हैं के विपरीत दिशा में , कम करने के लिए , विरोधाभास।
इस प्रकार .
वर्गीकरण प्रमेय
- एकमात्र सममित ब्रैगमैन डायवर्जेंस पर सामान्यीकृत यूक्लिडियन दूरी (महालनोबिस दूरी) का वर्ग है, अर्थात, कुछ सकारात्मक निश्चितता के लिए .[4]
For any , define for . Let .
Then for , and since is continuous, also for .
Then, from the diagram, we see that for for all , we must have linear on .
Thus we find that varies linearly along any direction. By the next lemma, is quadratic. Since is also strictly convex, it is of form , where .
Lemma: If is an open subset of , has continuous derivative, and given any line segment , the function is linear in , then is a quadratic function.
Proof idea: For any quadratic function , we have still has such derivative-linearity, so we will subtract away a few quadratic functions and show that becomes zero.
The proof idea can be illustrated fully for the case of , so we prove it in this case.
By the derivative-linearity, is a quadratic function on any line segment in . We subtract away four quadratic functions, such that becomes identically zero on the x-axis, y-axis, and the line.
Let , for well-chosen . Now use to remove the linear term, and use respectively to remove the quadratic terms along the three lines.
not on the origin, there exists a line across that intersects the x-axis, y-axis, and the line at three different points. Since is quadratic on , and is zero on three different points, is identically zero on , thus . Thus is quadratic.
निम्नलिखित दो लक्षण वर्णन विचलन के लिए हैं , पर सभी संभाव्यता उपायों का सेट , साथ .
विचलन को परिभाषित कीजिए प्रकार के किसी भी कार्य के रूप में , ऐसा है कि सभी के लिए , तब:
- केवल अंतर है वह दोनों एक ब्रैगमैन डाइवर्जेंस और एक च-विचलन कुल्बैक-लीब्लर डाइवर्जेंस है।[5]
- यदि , फिर किसी भी ब्रैगमैन विचलन पर जो डेटा प्रोसेसिंग असमानता को संतुष्ट करता है वह कुल्बैक-लीब्लर विचलन होना चाहिए। (वास्तव में, पर्याप्तता की एक कमजोर धारणा ही काफी है।) प्रतिउदाहरण तब मौजूद होते हैं जब .[5]एक ब्रेगमैन विचलन दिया , इसके विपरीत, द्वारा परिभाषित , आम तौर पर ब्रैगमैन डाइवर्जेंस नहीं है। उदाहरण के लिए, कुल्बैक-लीबर विचलन एक ब्रैगमैन विचलन और एक एफ-विचलन दोनों है। इसका उल्टा भी एक एफ-डाइवर्जेंस है, लेकिन उपरोक्त लक्षण वर्णन से, रिवर्स केएल डाइवर्जेंस ब्रैगमैन डाइवर्जेंस नहीं हो सकता है।
उदाहरण
- चुकता यूक्लिडियन दूरी उत्तल कार्य द्वारा उत्पन्न ब्रैगमैन दूरी का विहित उदाहरण है
- वर्ग महलानोबिस दूरी, जो उत्तल कार्य द्वारा उत्पन्न होता है . इसे उपरोक्त वर्गित यूक्लिडियन दूरी के सामान्यीकरण के रूप में माना जा सकता है।
- सामान्यीकृत कुल्बैक-लीब्लर विचलन
- : नकारात्मक एन्ट्रापी (सूचना सिद्धांत) फ़ंक्शन द्वारा उत्पन्न होता है
- सिंप्लेक्स तक सीमित होने पर, यह देता है , सामान्य कुलबैक-लीब्लर विचलन।
- इटाकुरा-साइतो दूरी,
- उत्तल कार्य द्वारा उत्पन्न होता है
प्रक्षेप्य द्वैत का सामान्यीकरण
कम्प्यूटेशनल ज्यामिति में एक महत्वपूर्ण उपकरण प्रोजेक्टिव द्वैत का विचार है, जो घटना और ऊपर-नीचे के रिश्तों को संरक्षित करते हुए हाइपरप्लेन और इसके विपरीत मैप करता है। प्रक्षेपी द्वैत के कई विश्लेषणात्मक रूप हैं: एक सामान्य रूप बिंदु को मैप करता है हाइपरप्लेन के लिए . इस मानचित्रण की व्याख्या की जा सकती है (हाइपरप्लेन को उसके सामान्य से पहचानना) उत्तल संयुग्म मानचित्रण के रूप में जो बिंदु p को उसके दोहरे बिंदु पर ले जाता है , जहां एफ डी-डायमेंशनल पैराबोलॉइड को परिभाषित करता है .
यदि हम अब पैराबोलॉइड को मनमाना उत्तल फ़ंक्शन द्वारा प्रतिस्थापित करते हैं, तो हम एक अलग दोहरी मैपिंग प्राप्त करते हैं जो मानक प्रोजेक्टिव दोहरी की घटनाओं और ऊपर-नीचे गुणों को निरंतर रखता है। इसका तात्पर्य है कि कम्प्यूटेशनल ज्यामिति में प्राकृतिक दोहरी अवधारणाएं जैसे वोरोनोई आरेख और डेलाउने त्रिकोण एक मनमाना ब्रेगमैन डाइवर्जेंस द्वारा परिभाषित दूरी के स्थानों में अपना अर्थ बनाए रखते हैं। इस प्रकार, सामान्य ज्यामिति से एल्गोरिदम सीधे इन स्थानों तक विस्तारित होते हैं (बोइसोनेट, नीलसन और नॉक, 2010)
ब्रैगमैन डायवर्जेंस का सामान्यीकरण
ब्रेगमैन डायवर्जेंस की व्याख्या तिरछी जेन्सेन-शैनन डाइवर्जेंस के सीमित स्थितियों के रूप में की जा सकती है (नीलसन और बोल्ट्ज, 2011 देखें)। जेन्सेन डाइवर्जेंस को तुलनात्मक उत्तलता का उपयोग करके सामान्यीकृत किया जा सकता है, और इन तिरछे जेन्सेन डाइवर्जेंस सामान्यीकरण के स्थितियों को सीमित करने से सामान्यीकृत ब्रेगमैन डाइवर्जेंस प्राप्त होता है (नीलसन और नॉक, 2017 देखें)। ब्रैगमैन तार विचलन[6] एक स्पर्शरेखा के अतिरिक्त एक जीवा लेकर प्राप्त किया जाता है।
अन्य वस्तुओं पर ब्रैगमैन विचलन
ब्रैगमैन डायवर्जेंस को मेट्रिसेस के बीच, कार्यों के बीच और उपायों (वितरण) के बीच भी परिभाषित किया जा सकता है। मेट्रिसेस के बीच ब्रेगमैन डाइवर्जेंस में स्टीन की हानि और वॉन न्यूमैन एन्ट्रॉपी शामिल हैं। कार्यों के बीच ब्रैगमैन डाइवर्जेंस में कुल वर्ग त्रुटि, सापेक्ष एन्ट्रापी और वर्ग पूर्वाग्रह शामिल हैं; फ्रिग्यिक एट अल द्वारा संदर्भ देखें। परिभाषाओं और गुणों के लिए नीचे। इसी तरह ब्रैगमैन डायवर्जेंस को भी सेट पर परिभाषित किया गया है, एक सबमॉड्यूलर सेट फ़ंक्शन के माध्यम से जिसे उत्तल फ़ंक्शन के असतत एनालॉग के रूप में जाना जाता है। सबमॉड्यूलर ब्रेगमैन डायवर्जेंस में हैमिंग दूरी, सटीक और रिकॉल, पारस्परिक जानकारी और कुछ अन्य सेट आधारित दूरी उपायों (अय्यर एंड बिलम्स, 2012 देखें) जैसे कई असतत दूरी के उपाय शामिल हैं।
सामान्य मैट्रिक्स ब्रैगमैन डाइवर्जेंस की सूची के लिए, तालिका 15.1 देखें।[7]
अनुप्रयोग
मशीन लर्निंग में, ब्रेगमैन डायवर्जेंस का उपयोग द्वि-टेम्पर्ड लॉजिस्टिक लॉस की गणना के लिए किया जाता है, जो शोर डेटासेट के साथ सॉफ्टमैक्स फ़ंक्शन से बेहतर प्रदर्शन करता है।[8] ब्रैगमैन डाइवर्जेंस का उपयोग दर्पण उतरना के निर्माण में किया जाता है, जिसमें मशीन लर्निंग में उपयोग किए जाने वाले ऑप्टिमाइज़ेशन एल्गोरिदम जैसे कि ढतला हुआ वंश और बचाव एल्गोरिथ्म शामिल हैं।
संदर्भ
- ↑ 1.0 1.1 https://www.cs.utexas.edu/users/inderjit/Talks/bregtut.pdf[bare URL PDF]
- ↑ Adamčík, Martin (2014). "ब्रैगमैन डायवर्जेंस की सूचना ज्यामिति और बहु-विशेषज्ञ तर्क में कुछ अनुप्रयोग". Entropy. 16 (12): 6338–6381. Bibcode:2014Entrp..16.6338A. doi:10.3390/e16126338.
- ↑ Nielsen, Frank (2021-10-28). "घातीय-बहुपद वितरण के लिए मिश्रण रूपांतरण के माध्यम से यूनीवेरिएट गॉसियन मिश्रण के बीच जेफ़रीज़ डाइवर्जेंस का तेज़ अनुमान". Entropy. 23 (11): 1417. arXiv:2107.05901. Bibcode:2021Entrp..23.1417N. doi:10.3390/e23111417. ISSN 1099-4300. PMC 8619509. PMID 34828115.
- ↑ Nielsen, Frank; Boissonnat, Jean-Daniel; Nock, Richard (September 2010). "Bregman Voronoi Diagrams: Properties, Algorithms and Applications". Discrete & Computational Geometry. 44 (2): 281–307. arXiv:0709.2196. doi:10.1007/s00454-010-9256-1. ISSN 0179-5376. S2CID 1327029.
- ↑ 5.0 5.1 Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (December 2014). "Information Measures: the Curious Case of the Binary Alphabet". IEEE Transactions on Information Theory. 60 (12): 7616–7626. arXiv:1404.6810. doi:10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
- ↑ Nielsen, Frank; Nock, Richard (2019). "The Bregman Chord Divergence". सूचना का ज्यामितीय विज्ञान. Lecture Notes in Computer Science. Vol. 11712. pp. 299–308. arXiv:1810.09113. doi:10.1007/978-3-030-26980-7_31. ISBN 978-3-030-26979-1. S2CID 53046425.
- ↑ "Matrix Information Geometry", R. Nock, B. Magdalou, E. Briys and F. Nielsen, pdf, from this book
- ↑ Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren (2019). "Robust Bi-Tempered Logistic Loss Based on Bregman Divergences". Conference on Neural Information Processing Systems. pp. 14987-14996. pdf
- Banerjee, Arindam; Merugu, Srujana; Dhillon, Inderjit S.; Ghosh, Joydeep (2005). "Clustering with Bregman divergences". Journal of Machine Learning Research. 6: 1705–1749.
- Bregman, L. M. (1967). "The relaxation method of finding the common points of convex sets and its application to the solution of problems in convex programming". USSR Computational Mathematics and Mathematical Physics. 7 (3): 200–217. doi:10.1016/0041-5553(67)90040-7.
- Frigyik, Bela A.; Srivastava, Santosh; Gupta, Maya R. (2008). "Functional Bregman Divergences and Bayesian Estimation of Distributions" (PDF). IEEE Transactions on Information Theory. 54 (11): 5130–5139. arXiv:cs/0611123. doi:10.1109/TIT.2008.929943. S2CID 1254. Archived from the original (PDF) on 2010-08-12.
- Iyer, Rishabh.; Bilmes, Jeff (2012). "Submodular-Bregman divergences and Lovász-Bregman divergences with Applications". Conference on Neural Information Processing Systems.
- Frigyik, Bela A.; Srivastava, Santosh; Gupta, Maya R. (2008). An Introduction to Functional Derivatives (PDF). UWEE Tech Report 2008-0001. University of Washington, Dept. of Electrical Engineering. Archived from the original (PDF) on 2017-02-17. Retrieved 2014-03-20.
- Harremoës, Peter (2017). "Divergence and Sufficiency for Convex Optimization". Entropy. 19 (5): 206. arXiv:1701.01010. Bibcode:2017Entrp..19..206H. doi:10.3390/e19050206.
- Nielsen, Frank; Nock, Richard (2009). "The dual Voronoi diagrams with respect to representational Bregman divergences" (PDF). Proc. 6th International Symposium on Voronoi Diagrams. IEEE. doi:10.1109/ISVD.2009.15.
- Nielsen, Frank; Nock, Richard (2007). "On the Centroids of Symmetrized Bregman Divergences". arXiv:0711.3242 [cs.CG].
- Nielsen, Frank; Boissonnat, Jean-Daniel; Nock, Richard (2007). "On Visualizing Bregman Voronoi diagrams". Proc. 23rd ACM Symposium on Computational Geometry (video track). doi:10.1145/1247069.1247089.[permanent dead link]
- Boissonnat, Jean-Daniel; Nielsen, Frank; Nock, Richard (2010). "Bregman Voronoi Diagrams". Discrete and Computational Geometry. 44 (2): 281–307. arXiv:0709.2196. doi:10.1007/s00454-010-9256-1. S2CID 1327029.
- Nielsen, Frank; Nock, Richard (2006). "On approximating the smallest enclosing Bregman Balls". Proc. 22nd ACM Symposium on Computational Geometry. pp. 485–486. doi:10.1145/1137856.1137931.
- Nielsen, Frank; Boltz, Sylvain (2011). "The Burbea-Rao and Bhattacharyya centroids". IEEE Transactions on Information Theory. 57 (8): 5455–5466. arXiv:1004.5049. doi:10.1109/TIT.2011.2159046. S2CID 14238708.
- Nielsen, Frank; Nock, Richard (2017). "Generalizing Skew Jensen Divergences and Bregman Divergences With Comparative Convexity". IEEE Signal Processing Letters. 24 (8): 1123–1127. arXiv:1702.04877. Bibcode:2017ISPL...24.1123N. doi:10.1109/LSP.2017.2712195. S2CID 31899023.