अपसरण (सांख्यिकी): Difference between revisions

From Vigyanwiki
(text)
(text)
Line 1: Line 1:
{{distinguish|पथांतरण (सांख्यिकी)|पथांतरण (सांख्यिकी)|भिन्नता (विसंदिग्धीकरण)#सांख्यिकी{{!}}भिन्नता (सांख्यिकी)}}
{{distinguish|पथांतरण (सांख्यिकी)|पथांतरण (सांख्यिकी)|भिन्नता (विसंदिग्धीकरण)#सांख्यिकी{{!}}भिन्नता (सांख्यिकी)}}


[[सूचना ज्यामिति]] में, विचलन एक प्रकार की [[सांख्यिकीय दूरी]] है: एक [[बाइनरी फ़ंक्शन|युग्मक फलन]] जो एक संभाव्यता वितरण से दूसरे [[सांख्यिकीय कई गुना|सांख्यिकीय बहुविध]] पर अलगाव को स्थापित करता है।
[[सूचना ज्यामिति|अभियोग ज्यामिति]] में, विचलन एक प्रकार की [[सांख्यिकीय दूरी]] है: एक [[बाइनरी फ़ंक्शन|युग्मक फलन]] जो एक संभाव्यता वितरण से दूसरे [[सांख्यिकीय कई गुना|सांख्यिकीय बहुविध]] पर अलगाव को स्थापित करता है।


सबसे सरल विचलन यूक्लिडियन दूरी (एसईडी) है, और विचलन को एसईडी के सामान्यीकरण के रूप में देखा जा सकता है। अन्य सबसे महत्वपूर्ण विचलन सापेक्ष एन्ट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) है, जो [[सूचना सिद्धांत]] के लिए केंद्रीय है। कई अन्य विशिष्ट विचलन और विचलन के वर्ग हैं, विशेष रूप से f-विचलन और विचलन (देखें {{slink||उदाहरण}}).
सबसे सरल विचलन यूक्लिडियन दूरी (एसईडी) है, और विचलन को एसईडी के सामान्यीकरण के रूप में देखा जा सकता है। अन्य सबसे महत्वपूर्ण विचलन सापेक्ष एन्ट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) है, जो [[सूचना सिद्धांत|अभियोग सिद्धांत]] के लिए केंद्रीय है। कई अन्य विशिष्ट विचलन और विचलन के वर्ग हैं, विशेष रूप से f-विचलन और n विचलन (देखें {{slink||उदाहरण}}).


== परिभाषा ==
== परिभाषा ==
एक [[अलग करने योग्य कई गुना|अलग करने योग्य बहुविध]] <math>M</math> आयाम का <math>n</math> दिया गया{{efn|Throughout, we only require [[differentiability class]] ''C''<sup>2</sup> (continuous with continuous first and second derivatives), since only second derivatives are required. In practice, commonly used statistical manifolds and divergences are infinitely differentiable ("smooth").}}, <math>M</math> पर विचलन एक <math>C^2</math>-फलन <math>D: M\times M\to [0, \infty)</math> है जो निम्नलिखित को संतुष्ट करता है:{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}{{sfn|Amari|2016|p=10|loc=Definition 1.1}}
एक [[अलग करने योग्य कई गुना|विभेदक बहुविध]] <math>M</math> आयाम का <math>n</math> दिया गया है {{efn|Throughout, we only require [[differentiability class]] ''C''<sup>2</sup> (continuous with continuous first and second derivatives), since only second derivatives are required. In practice, commonly used statistical manifolds and divergences are infinitely differentiable ("smooth").}}, <math>M</math> पर विचलन एक <math>C^2</math>-फलन <math>D: M\times M\to [0, \infty)</math> है जो निम्नलिखित को संतुष्ट करता है:{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}{{sfn|Amari|2016|p=10|loc=Definition 1.1}}
# <math>D(p, q) \geq 0</math> सभी <math>p, q \in M</math> के लिए (गैर-नकारात्मकता),
# <math>D(p, q) \geq 0</math> सभी <math>p, q \in M</math> के लिए (गैर-नकारात्मकता),
# <math>D(p, q) = 0</math> यदि और केवल यदि <math>p=q</math> (सकारात्मकता),
# <math>D(p, q) = 0</math> यदि और केवल यदि <math>p=q</math> (सकारात्मकता),
Line 27: Line 27:


=== अन्य समान अवधारणाओं से अंतर ===
=== अन्य समान अवधारणाओं से अंतर ===
[[मीट्रिक (गणित)|मात्रिक (गणित)]] के विपरीत, अपसरण को सममित होने की आवश्यकता नहीं है, और विषमता अनुप्रयोगों में महत्वपूर्ण है।{{sfn|Amari|2016|p=10}} तद्नुसार, प्रायः p और q के बीच के स्थान पर p या p से q के विचलन को असमान रूप से संदर्भित किया जाता है। दूसरे, अपसरण वर्ग दूरी का सामान्यीकरण करते हैं, रेखीय दूरी का नहीं, और इस प्रकार त्रिकोण असमानता को संतुष्ट नहीं करते हैं, लेकिन कुछ अपसरण (जैसे कि ब्रेगमैन अपसरण) [[पाइथागोरस प्रमेय]] के सामान्यीकरण को संतुष्ट करते हैं।
[[मीट्रिक (गणित)|मात्रिक (गणित)]] के विपरीत, अपसरण को सममित होने की आवश्यकता नहीं है, और विषमता अनुप्रयोगों में महत्वपूर्ण है। {{sfn|Amari|2016|p=10}} तद्नुसार, प्रायः p और q के बीच के स्थान पर p या p से q के विचलन को असमान रूप से संदर्भित किया जाता है। दूसरे, अपसरण वर्ग दूरी का सामान्यीकरण करते हैं, रेखीय दूरी का नहीं, और इस प्रकार त्रिकोण असमानता को संतुष्ट नहीं करते हैं, लेकिन कुछ अपसरण (जैसे कि ब्रेगमैन अपसरण) [[पाइथागोरस प्रमेय]] के सामान्यीकरण को संतुष्ट करते हैं।


सामान्य आँकड़ों और संभाव्यता में, विचलन सामान्यतः किसी भी प्रकार के कार्य <math>D(p, q)</math> को संदर्भित करता है, जहाँ <math>p, q</math> संभाव्यता वितरण या विचाराधीन अन्य वस्तुएं हैं, जैसे कि स्तिथि 1, 2 संतुष्ट हैं। सूचना ज्यामिति में प्रयुक्त विचलन के लिए स्तिथि 3 ​​आवश्यक है।
सामान्य आँकड़ों और संभाव्यता में, विचलन सामान्यतः किसी भी प्रकार के कार्य <math>D(p, q)</math> को संदर्भित करता है, जहाँ <math>p, q</math> संभाव्यता वितरण या विचाराधीन अन्य वस्तुएं हैं, जैसे कि स्तिथि 1, 2 संतुष्ट हैं। अभियोग ज्यामिति में प्रयुक्त विचलन के लिए स्तिथि 3 ​​आवश्यक है।


एक उदाहरण के रूप में, संभाव्यता उपायों की कुल भिन्नता दूरी, सामान्यतः इस्तेमाल किया जाने वाला सांख्यिकीय विचलन, स्थिति 3 को संतुष्ट नहीं करता है।
एक उदाहरण के रूप में, संभाव्यता उपायों की कुल भिन्नता दूरी, सामान्यतः इस्तेमाल किया जाने वाला सांख्यिकीय विचलन, स्थिति 3 को संतुष्ट नहीं करता है।
Line 36: Line 36:
विचलन के लिए संकेतन क्षेत्रों के बीच महत्वपूर्ण रूप से भिन्न होता है, हालांकि कुछ परंपराएं हैं।
विचलन के लिए संकेतन क्षेत्रों के बीच महत्वपूर्ण रूप से भिन्न होता है, हालांकि कुछ परंपराएं हैं।


भिन्नता को सामान्यतः एक बड़े अक्षर 'डी' के साथ नोट किया जाता है, जैसा कि में है <math>D(x, y)</math>, उन्हें मात्रिक दूरियों से अलग करने के लिए, जिन्हें लोअरकेस 'डी' के साथ नोट किया गया है। जब कई भिन्नता उपयोग में होते हैं, तो वे सामान्यतः सबस्क्रिप्ट के साथ अलग-अलग होते हैं, जैसे कि <math>D_\text{KL}</math> कुल्बैक-लीब्लर अपसरण (KL अपसरण) के लिए होते हैं।
भिन्नता को सामान्यतः एक बड़े अक्षर 'डी' के साथ नोट किया जाता है, जैसा कि <math>D(x, y)</math> में है, उन्हें मात्रिक दूरियों से अलग करने के लिए, जिन्हें लोअरकेस 'D' के साथ नोट किया गया है। जब कई भिन्नता उपयोग में होते हैं, तो वे सामान्यतः पादाक्षर के साथ अलग-अलग होते हैं, जैसे कि <math>D_\text{KL}</math> कुल्बैक-लीब्लर अपसरण (KL अपसरण) के लिए होते हैं।


प्रायः मापदंडों के बीच एक अलग विभाजक का उपयोग विशेष रूप से विषमता पर जोर देने के लिए किया जाता है। सूचना सिद्धांत में, सामान्यतः एक युग्म स्तंभ <math>D(p \parallel q)</math>का उपयोग किया जाता है; यह समान है, लेकिन [[सशर्त संभाव्यता]] के लिए संकेतन <math>P(A | B)</math> से अलग है, और सापेक्ष एन्ट्रॉपी के रूप में विचलन को सापेक्ष माप के रूप में व्याख्या करने पर जोर देता है; केएल विचलन के लिए यह अंकन सामान्य है। इसके स्थान पर एक कोलन का उपयोग किया जा सकता है,{{efn|A colon is used in {{harvtxt|Kullback|Leibler|1951|p=80}}, where the KL divergence between measure <math>\mu_1</math> and <math>\mu_2</math> is written as <math>I(1 : 2)</math>.}} जैसे <math>D(p : q)</math>; यह दो वितरणों का समर्थन करने वाली सापेक्ष जानकारी को महत्त्व देता है।
प्रायः मापदंडों के बीच एक अलग विभाजक का उपयोग विशेष रूप से विषमता पर जोर देने के लिए किया जाता है। अभियोग सिद्धांत में, सामान्यतः एक युग्म स्तंभ <math>D(p \parallel q)</math>का उपयोग किया जाता है; यह समान है, लेकिन [[सशर्त संभाव्यता]] के लिए संकेतन <math>P(A | B)</math> से अलग है, और सापेक्ष एन्ट्रॉपी के रूप में विचलन को सापेक्ष माप के रूप में व्याख्या करने पर जोर देता है; केएल विचलन के लिए यह अंकन सामान्य है। इसके स्थान पर एक कोलन का उपयोग किया जा सकता है,{{efn|A colon is used in {{harvtxt|Kullback|Leibler|1951|p=80}}, where the KL divergence between measure <math>\mu_1</math> and <math>\mu_2</math> is written as <math>I(1 : 2)</math>.}} जैसे <math>D(p : q)</math>; यह दो वितरणों का समर्थन करने वाली सापेक्ष जानकारी को महत्त्व देता है।


मापदंडों के लिए अंकन भी भिन्न होता है। <math>P, Q</math> प्रायिकता वितरण के रूप में मापदंडों की व्याख्या करता है, जबकि  <math>p, q</math> या <math>x, y</math> अंतरिक्ष में बिंदुओं के रूप में उनकी ज्यामितीय रूप से व्याख्या करता है, और <math>\mu_1, \mu_2</math> या <math>m_1, m_2</math> उन्हें उपायों के रूप में व्याख्या करता है।
मापदंडों के लिए अंकन भी भिन्न होता है। <math>P, Q</math> प्रायिकता वितरण के रूप में मापदंडों की व्याख्या करता है, जबकि  <math>p, q</math> या <math>x, y</math> अंतरिक्ष में बिंदुओं के रूप में उनकी ज्यामितीय रूप से व्याख्या करता है, और <math>\mu_1, \mu_2</math> या <math>m_1, m_2</math> उन्हें उपायों के रूप में व्याख्या करता है।


== ज्यामितीय गुण ==
== ज्यामितीय गुण ==
{{further|सूचना ज्यामिति}}
{{further|अभियोग ज्यामिति}}


भिन्नता के कई गुणों को प्राप्त किया जा सकता है यदि हम S को एक सांख्यिकीय बहुविध तक सीमित करते हैं, जिसका अर्थ है कि इसे परिमित-आयामी समन्वय प्रणाली θ के साथ प्राचलीकरण किया जा सकता है, ताकि वितरण के लिए {{nowrap|''p'' ∈ ''S''}} हम {{nowrap|1=''p'' = ''p''(''θ'')}} लिख सकते हैं।
भिन्नता के कई गुणों को प्राप्त किया जा सकता है यदि हम S को एक सांख्यिकीय बहुविध तक सीमित करते हैं, जिसका अर्थ है कि इसे परिमित-आयामी समन्वय प्रणाली θ के साथ प्राचलीकरण किया जा सकता है, ताकि वितरण के लिए {{nowrap|''p'' ∈ ''S''}} हम {{nowrap|1=''p'' = ''p''(''θ'')}} लिख सकते हैं।
Line 70: Line 70:
और इस संयोजन के लिए दोहरी संबंध संयोजन ∇* दोहरी विचलन डी* द्वारा उत्पन्न होता है।
और इस संयोजन के लिए दोहरी संबंध संयोजन ∇* दोहरी विचलन डी* द्वारा उत्पन्न होता है।


इस प्रकार, एक विचलन डी (·, ·) एक सांख्यिकीय बहुविध पर एक अद्वितीय द्वैतवादी संरचना (''g''<sup>(''D'')</sup>, ∇<sup>(''D'')</sup>, ∇<sup>(''D''*)</sup>) उत्पन्न करता है। इसका विलोम भी सत्य है: प्रत्येक मरोड़-मुक्त द्वैतवादी संरचना एक सांख्यिकीय बहुविध पर कुछ विश्व स्तर पर परिभाषित विचलन फलन से प्रेरित होती है (जो कि अद्वितीय होने की आवश्यकता नहीं है)। उदाहरण के लिए, जब D एक f-विचलन है कुछ फलन ƒ(·) के लिए, तो यह रीमैनियन मात्रिक उत्पन्न करता है g(Df) = c·g और संयोजन ∇(Df) = ∇(α), जहां g कैनोनिकल फिशर सूचना मात्रिक है, ∇(ए) α-संयोजन है, c = ƒ′′(1), और α = 3 + 2ƒ′′′(1)/ƒ′′(1)।      
इस प्रकार, एक विचलन डी (·, ·) एक सांख्यिकीय बहुविध पर एक अद्वितीय द्वैतवादी संरचना (''g''<sup>(''D'')</sup>, ∇<sup>(''D'')</sup>, ∇<sup>(''D''*)</sup>) उत्पन्न करता है। इसका विलोम भी सत्य है: प्रत्येक मरोड़-मुक्त द्वैतवादी संरचना एक सांख्यिकीय बहुविध पर कुछ विश्व स्तर पर परिभाषित विचलन फलन से प्रेरित होती है (जो कि अद्वितीय होने की आवश्यकता नहीं है)। उदाहरण के लिए, जब D एक f-विचलन है कुछ फलन ƒ(·) के लिए, तो यह रीमैनियन मात्रिक g(Df) = c·g और संयोजन ∇(Df) = ∇(α) उत्पन्न करता है, जहां g विहित फिशर अभियोग मात्रिक है, ∇(ए) α-संयोजन है, c = ƒ′′(1), और α = 3 + 2ƒ′′′(1)/ƒ′′(1) है।      


== उदाहरण ==
== उदाहरण ==
दो सबसे महत्वपूर्ण विचलन सापेक्ष एंट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) हैं, जो सूचना सिद्धांत और आंकड़ों के लिए केंद्रीय है, और स्क्वायर यूक्लिडियन दूरी (एसईडी)। अधिकतम एंट्रॉपी और [[कम से कम वर्गों]] के सिद्धांत के माध्यम से, विशेष रूप से लॉजिस्टिक प्रतिगमन और रैखिक प्रतिगमन में, इन दो भिन्नताओं को कम करना मुख्य तरीका है कि [[रैखिक उलटा समस्या|रैखिक प्रतिलोम समस्या]] हल हो जाती है।{{sfn|Csiszar|1991}}
दो सबसे महत्वपूर्ण विचलन सापेक्ष एंट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) हैं, जो अभियोग सिद्धांत और आंकड़ों के लिए केंद्रीय है, और स्क्वायर यूक्लिडियन दूरी (एसईडी)। अधिकतम एंट्रॉपी और [[कम से कम वर्गों]] के सिद्धांत के माध्यम से, विशेष रूप से लॉजिस्टिक प्रतिगमन और रैखिक प्रतिगमन में, इन दो भिन्नताओं को कम करना मुख्य तरीका है कि [[रैखिक उलटा समस्या|रैखिक प्रतिलोम समस्या]] हल हो जाती है।{{sfn|Csiszar|1991}}


अपसरण के दो सबसे महत्वपूर्ण वर्ग हैं एफ-अपसरण और ब्रैगमैन अपसरण; हालाँकि, साहित्य में अन्य प्रकार के विचलन कार्यों का भी सामना करना पड़ता है। कुल्बैक-लीब्लर विचलन एकमात्र विचलन है जो एक एफ-विचलन और ब्रैगमैन विचलन दोनों है;<ref name=":02">{{Cite journal |last=Jiao |first=Jiantao |last2=Courtade |first2=Thomas |last3=No |first3=Albert |last4=Venkat |first4=Kartik |last5=Weissman |first5=Tsachy |date=December 2014 |title=Information Measures: the Curious Case of the Binary Alphabet |url=http://arxiv.org/abs/1404.6810 |journal=IEEE Transactions on Information Theory |volume=60 |issue=12 |pages=7616–7626 |doi=10.1109/TIT.2014.2360184 |issn=0018-9448|arxiv=1404.6810 }}</ref> चुकता यूक्लिडियन विचलन एक ब्रेगमैन विचलन है (फलन के अनुरूप {{tmath|x^2}}), लेकिन f-विचलन नहीं है।
अपसरण के दो सबसे महत्वपूर्ण वर्ग हैं एफ-अपसरण और ब्रैगमैन अपसरण; हालाँकि, साहित्य में अन्य प्रकार के विचलन कार्यों का भी सामना करना पड़ता है। कुल्बैक-लीब्लर विचलन एकमात्र विचलन है जो एक एफ-विचलन और ब्रैगमैन विचलन दोनों है;<ref name=":02">{{Cite journal |last=Jiao |first=Jiantao |last2=Courtade |first2=Thomas |last3=No |first3=Albert |last4=Venkat |first4=Kartik |last5=Weissman |first5=Tsachy |date=December 2014 |title=Information Measures: the Curious Case of the Binary Alphabet |url=http://arxiv.org/abs/1404.6810 |journal=IEEE Transactions on Information Theory |volume=60 |issue=12 |pages=7616–7626 |doi=10.1109/TIT.2014.2360184 |issn=0018-9448|arxiv=1404.6810 }}</ref> चुकता यूक्लिडियन विचलन एक ब्रेगमैन विचलन है (फलन के अनुरूप {{tmath|x^2}}), लेकिन f-विचलन नहीं है।
Line 128: Line 128:


== इतिहास ==
== इतिहास ==
अपसरण शब्द का उपयोग - यह किस प्रकार के कार्यों को संदर्भित करता है, और विभिन्न सांख्यिकीय दूरियों को क्या कहा जाता है - समय के साथ महत्वपूर्ण रूप से भिन्न होता है, लेकिन सी. 2000 द्वारा  सूचना ज्यामिति के भीतर, विशेष रूप से पाठ्यपुस्तक {{harvtxt|अमारी|नागाओका|2000}} में वर्तमान उपयोग पर तय किया गया था .{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}
अपसरण शब्द का उपयोग - यह किस प्रकार के कार्यों को संदर्भित करता है, और विभिन्न सांख्यिकीय दूरियों को क्या कहा जाता है - समय के साथ महत्वपूर्ण रूप से भिन्न होता है, लेकिन सी. 2000 द्वारा  अभियोग ज्यामिति के भीतर, विशेष रूप से पाठ्यपुस्तक {{harvtxt|अमारी|नागाओका|2000}} में वर्तमान उपयोग पर तय किया गया था .{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}


एक सांख्यिकीय दूरी के लिए विचलन शब्द का उपयोग अनौपचारिक रूप से c. 1910 से c. 1940 से विभिन्न संदर्भों में किया गया था। इसका औपचारिक उपयोग कम से कम दिनांकित {{harvtxt|भट्टाचार्य|1943}} है, उनके संभाव्यता वितरण द्वारा परिभाषित दो सांख्यिकीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जो [[भट्टाचार्य दूरी]] को परिभाषित करता है, और {{harvtxt|भट्टाचार्य|1946}}, दो बहुराष्ट्रीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जिसने [[भट्टाचार्य कोण]] को परिभाषित किया। {{harvtxt|कुलबैक|लीब्लर|1951}} और पाठ्यपुस्तक {{harvtxt|कुलबैक|1959}} में कुल्बैक-लीब्लर विचलन के लिए इसके उपयोग से यह शब्द लोकप्रिय हुआ। विचलन शब्द का प्रयोग सामान्यतः {{harvtxt|अली|सिल्वे|1966}} सांख्यिकीय दूरियों के लिए किया जाता था। सांख्यिकीय दूरियों के पूर्व उपयोग {{harvtxt|अधिकारी|जोशी|1956}} और {{harvtxt|कुलबैक|1959|pp=6–7|loc=1.3 विचलन}} के अनेक संदर्भ में दिए गए हैं।
एक सांख्यिकीय दूरी के लिए विचलन शब्द का उपयोग अनौपचारिक रूप से c. 1910 से c. 1940 से विभिन्न संदर्भों में किया गया था। इसका औपचारिक उपयोग कम से कम दिनांकित {{harvtxt|भट्टाचार्य|1943}} है, उनके संभाव्यता वितरण द्वारा परिभाषित दो सांख्यिकीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जो [[भट्टाचार्य दूरी]] को परिभाषित करता है, और {{harvtxt|भट्टाचार्य|1946}}, दो बहुराष्ट्रीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जिसने [[भट्टाचार्य कोण]] को परिभाषित किया। {{harvtxt|कुलबैक|लीब्लर|1951}} और पाठ्यपुस्तक {{harvtxt|कुलबैक|1959}} में कुल्बैक-लीब्लर विचलन के लिए इसके उपयोग से यह शब्द लोकप्रिय हुआ। विचलन शब्द का प्रयोग सामान्यतः {{harvtxt|अली|सिल्वे|1966}} सांख्यिकीय दूरियों के लिए किया जाता था। सांख्यिकीय दूरियों के पूर्व उपयोग {{harvtxt|अधिकारी|जोशी|1956}} और {{harvtxt|कुलबैक|1959|pp=6–7|loc=1.3 विचलन}} के अनेक संदर्भ में दिए गए हैं।


{{harvtxt|कुलबैक|लीब्लर|1951}} वस्तुतः सममित विचलन को संदर्भित करने के लिए विचलन का उपयोग किया गया था (यह फलन पहले से ही 1948 में [[हेरोल्ड जेफरीस]] द्वारा परिभाषित और उपयोग किया गया था{{sfn|Jeffreys|1948|p=158}}), भेदभाव के लिए औसत जानकारी ... प्रति अवलोकन के  रूप में असममित कार्य को व्यक्त करते हुए ,{{sfn|Kullback|Leibler|1951|p=80}} जबकि {{harvtxt|कुलबैक|1959}} असममित कार्य को निर्देशित विचलन के रूप में संदर्भित करता है।{{sfn|Kullback|1959|p=7}} {{harvtxt|अली|सिल्वे|1966}} सामान्यतः इस तरह के एक फलन को विचलन के गुणांक के रूप में संदर्भित किया जाता है, और दिखाया गया है कि कई मौजूदा कार्यों को f-विचलन के रूप में व्यक्त किया जा सकता है, जेफरीस के फलन को जेफरीस के विचलन के उपाय (आज जेफरीस विचलन), और कुल्बैक-लीब्लर के असममित फलन (प्रत्येक दिशा में) कुलबैक और लीब्लर के भेदभावपूर्ण जानकारी के उपायों के रूप में (आज कुल्बैक-लीब्लर विचलन) संदर्भित किया गया है। ।{{sfn|Ali|Silvey|1966|p=139}}
{{harvtxt|कुलबैक|लीब्लर|1951}} वस्तुतः सममित विचलन को संदर्भित करने के लिए विचलन का उपयोग किया गया था (यह फलन पहले से ही 1948 में [[हेरोल्ड जेफरीस]] द्वारा परिभाषित और उपयोग किया गया था{{sfn|Jeffreys|1948|p=158}}), भेदभाव के लिए औसत जानकारी ... प्रति अवलोकन के  रूप में असममित कार्य को व्यक्त करते हुए ,{{sfn|Kullback|Leibler|1951|p=80}} जबकि {{harvtxt|कुलबैक|1959}} असममित कार्य को निर्देशित विचलन के रूप में संदर्भित करता है।{{sfn|Kullback|1959|p=7}} {{harvtxt|अली|सिल्वे|1966}} सामान्यतः इस तरह के एक फलन को विचलन के गुणांक के रूप में संदर्भित किया जाता है, और दिखाया गया है कि कई मौजूदा कार्यों को f-विचलन के रूप में व्यक्त किया जा सकता है, जेफरीस के फलन को जेफरीस के विचलन के उपाय (आज जेफरीस विचलन), और कुल्बैक-लीब्लर के असममित फलन (प्रत्येक दिशा में) कुलबैक और लीब्लर के भेदभावपूर्ण जानकारी के उपायों के रूप में (आज कुल्बैक-लीब्लर विचलन) संदर्भित किया गया है। ।{{sfn|Ali|Silvey|1966|p=139}}


विचलन की सूचना ज्यामिति परिभाषा (इस लेख का विषय) को प्रारम्भ में अर्ध-दूरी सहित वैकल्पिक शब्दों द्वारा संदर्भित किया गया था {{harvtxt|अमारी|1982|p=369}} और कंट्रास्ट फलन {{harvtxt|एगुची|1985}}, हालांकि विचलन का उपयोग किया गया था {{harvtxt|अमारी|1985}} के लिए {{math|''α''}}-विचलन, और सामान्य वर्ग के लिए मानक बन गया है।{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}{{sfn|Amari|2016|p=10|loc=Definition 1.1}}
विचलन की अभियोग ज्यामिति परिभाषा (इस लेख का विषय) को प्रारम्भ में अर्ध-दूरी सहित वैकल्पिक शब्दों द्वारा संदर्भित किया गया था {{harvtxt|अमारी|1982|p=369}} और कंट्रास्ट फलन {{harvtxt|एगुची|1985}}, हालांकि विचलन का उपयोग किया गया था {{harvtxt|अमारी|1985}} के लिए {{math|''α''}}-विचलन, और सामान्य वर्ग के लिए मानक बन गया है।{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}{{sfn|Amari|2016|p=10|loc=Definition 1.1}}


विचलन शब्द एक दूरी (मात्रिक) के विपरीत है, क्योंकि सममित विचलन त्रिभुज असमानता को संतुष्ट नहीं करता है।{{sfn|Kullback|1959|p=6}} उदाहरण के लिए, ब्रैगमैन दूरी शब्द अभी भी पाया जाता है, लेकिन ब्रैगमैन अपसरण अब पसंद किया जाता है।
विचलन शब्द एक दूरी (मात्रिक) के विपरीत है, क्योंकि सममित विचलन त्रिभुज असमानता को संतुष्ट नहीं करता है।{{sfn|Kullback|1959|p=6}} उदाहरण के लिए, ब्रैगमैन दूरी शब्द अभी भी पाया जाता है, लेकिन ब्रैगमैन अपसरण अब पसंद किया जाता है।

Revision as of 10:16, 2 May 2023

अभियोग ज्यामिति में, विचलन एक प्रकार की सांख्यिकीय दूरी है: एक युग्मक फलन जो एक संभाव्यता वितरण से दूसरे सांख्यिकीय बहुविध पर अलगाव को स्थापित करता है।

सबसे सरल विचलन यूक्लिडियन दूरी (एसईडी) है, और विचलन को एसईडी के सामान्यीकरण के रूप में देखा जा सकता है। अन्य सबसे महत्वपूर्ण विचलन सापेक्ष एन्ट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) है, जो अभियोग सिद्धांत के लिए केंद्रीय है। कई अन्य विशिष्ट विचलन और विचलन के वर्ग हैं, विशेष रूप से f-विचलन और n विचलन (देखें § उदाहरण).

परिभाषा

एक विभेदक बहुविध आयाम का दिया गया है [lower-alpha 1], पर विचलन एक -फलन है जो निम्नलिखित को संतुष्ट करता है:[1][2]

  1. सभी के लिए (गैर-नकारात्मकता),
  2. यदि और केवल यदि (सकारात्मकता),
  3. हर बिंदु , पर अत्यल्प विस्थापनों के लिए धनात्मक-निश्चित द्विघात रूप से है।

सांख्यिकी के अनुप्रयोगों में, बहुविध सामान्यतः एक प्राचलिक परिवार के मापदंडों का स्थान होता है।

अवस्था 3 ​​का अर्थ है स्पर्शरेखा स्थान पर हर के लिए एक आंतरिक उत्पाद को परिभाषित करता है। चूँकि , पर है, यह पर एक रिमेंनियन मेट्रिक को परिभाषित करता है।

स्थानीय रूप से , हम निर्देशांक के साथ एक स्थानीय समन्वय मानचित्र बना सकते हैं , तो विचलन निम्न है

जहाँ आकार का एक आव्यूह है। यह बिंदु पर रिमेंनियन मात्रिक निर्देशांक में व्यक्त किया गया है।

स्थिति 3 के आयामी विश्लेषण से पता चलता है कि विचलन में वर्ग दूरी का आयाम है।[3]

द्वैत विचलन निम्न रूप में परिभाषित किया जाता है

जब हम को के विपरीत करना चाहते हैं, तो हम को प्रारंभिक विचलन के रूप में संदर्भित करते हैं।

किसी विचलन को देखते हुए, इसके सममित संस्करण को इसके दोहरे विचलन के साथ औसत करके प्राप्त किया जाता है:[3]


अन्य समान अवधारणाओं से अंतर

मात्रिक (गणित) के विपरीत, अपसरण को सममित होने की आवश्यकता नहीं है, और विषमता अनुप्रयोगों में महत्वपूर्ण है। [3] तद्नुसार, प्रायः p और q के बीच के स्थान पर p या p से q के विचलन को असमान रूप से संदर्भित किया जाता है। दूसरे, अपसरण वर्ग दूरी का सामान्यीकरण करते हैं, रेखीय दूरी का नहीं, और इस प्रकार त्रिकोण असमानता को संतुष्ट नहीं करते हैं, लेकिन कुछ अपसरण (जैसे कि ब्रेगमैन अपसरण) पाइथागोरस प्रमेय के सामान्यीकरण को संतुष्ट करते हैं।

सामान्य आँकड़ों और संभाव्यता में, विचलन सामान्यतः किसी भी प्रकार के कार्य को संदर्भित करता है, जहाँ संभाव्यता वितरण या विचाराधीन अन्य वस्तुएं हैं, जैसे कि स्तिथि 1, 2 संतुष्ट हैं। अभियोग ज्यामिति में प्रयुक्त विचलन के लिए स्तिथि 3 ​​आवश्यक है।

एक उदाहरण के रूप में, संभाव्यता उपायों की कुल भिन्नता दूरी, सामान्यतः इस्तेमाल किया जाने वाला सांख्यिकीय विचलन, स्थिति 3 को संतुष्ट नहीं करता है।

चिन्हांकन

विचलन के लिए संकेतन क्षेत्रों के बीच महत्वपूर्ण रूप से भिन्न होता है, हालांकि कुछ परंपराएं हैं।

भिन्नता को सामान्यतः एक बड़े अक्षर 'डी' के साथ नोट किया जाता है, जैसा कि में है, उन्हें मात्रिक दूरियों से अलग करने के लिए, जिन्हें लोअरकेस 'D' के साथ नोट किया गया है। जब कई भिन्नता उपयोग में होते हैं, तो वे सामान्यतः पादाक्षर के साथ अलग-अलग होते हैं, जैसे कि कुल्बैक-लीब्लर अपसरण (KL अपसरण) के लिए होते हैं।

प्रायः मापदंडों के बीच एक अलग विभाजक का उपयोग विशेष रूप से विषमता पर जोर देने के लिए किया जाता है। अभियोग सिद्धांत में, सामान्यतः एक युग्म स्तंभ का उपयोग किया जाता है; यह समान है, लेकिन सशर्त संभाव्यता के लिए संकेतन से अलग है, और सापेक्ष एन्ट्रॉपी के रूप में विचलन को सापेक्ष माप के रूप में व्याख्या करने पर जोर देता है; केएल विचलन के लिए यह अंकन सामान्य है। इसके स्थान पर एक कोलन का उपयोग किया जा सकता है,[lower-alpha 2] जैसे ; यह दो वितरणों का समर्थन करने वाली सापेक्ष जानकारी को महत्त्व देता है।

मापदंडों के लिए अंकन भी भिन्न होता है। प्रायिकता वितरण के रूप में मापदंडों की व्याख्या करता है, जबकि या अंतरिक्ष में बिंदुओं के रूप में उनकी ज्यामितीय रूप से व्याख्या करता है, और या उन्हें उपायों के रूप में व्याख्या करता है।

ज्यामितीय गुण

भिन्नता के कई गुणों को प्राप्त किया जा सकता है यदि हम S को एक सांख्यिकीय बहुविध तक सीमित करते हैं, जिसका अर्थ है कि इसे परिमित-आयामी समन्वय प्रणाली θ के साथ प्राचलीकरण किया जा सकता है, ताकि वितरण के लिए pS हम p = p(θ) लिख सकते हैं।

एक जोड़ी अंक p, qS के लिए निर्देशांक θp और θq के साथ, D(p, q) के आंशिक व्युत्पन्न शब्द को निरूपित करें

अब हम इन कार्यों को एक विकर्ण p = q तक सीमित करते हैं, और निम्न को निरूपित करें [4]

परिभाषा के अनुसार, फलन D(p, q) को न्यूनतम किया जाता है p = q, और इसलिए

जहां आव्यूह g(D) सकारात्मक अर्ध-निश्चित आव्यूह है | सकारात्मक अर्ध-निश्चित है और बहुविध S पर एक अद्वितीय रिमेंनियन मात्रिक परिभाषित करता है।

भिन्नता डी (·, ·) भी संयोजन-मुक्त सजातीय संयोजन के एक अद्वितीय मरोड़ को परिभाषित करता है ∇(डी) </ sup> गुणांक के साथ

और इस संयोजन के लिए दोहरी संबंध संयोजन ∇* दोहरी विचलन डी* द्वारा उत्पन्न होता है।

इस प्रकार, एक विचलन डी (·, ·) एक सांख्यिकीय बहुविध पर एक अद्वितीय द्वैतवादी संरचना (g(D), ∇(D), ∇(D*)) उत्पन्न करता है। इसका विलोम भी सत्य है: प्रत्येक मरोड़-मुक्त द्वैतवादी संरचना एक सांख्यिकीय बहुविध पर कुछ विश्व स्तर पर परिभाषित विचलन फलन से प्रेरित होती है (जो कि अद्वितीय होने की आवश्यकता नहीं है)। उदाहरण के लिए, जब D एक f-विचलन है कुछ फलन ƒ(·) के लिए, तो यह रीमैनियन मात्रिक g(Df) = c·g और संयोजन ∇(Df) = ∇(α) उत्पन्न करता है, जहां g विहित फिशर अभियोग मात्रिक है, ∇(ए) α-संयोजन है, c = ƒ′′(1), और α = 3 + 2ƒ′′′(1)/ƒ′′(1) है।   

उदाहरण

दो सबसे महत्वपूर्ण विचलन सापेक्ष एंट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) हैं, जो अभियोग सिद्धांत और आंकड़ों के लिए केंद्रीय है, और स्क्वायर यूक्लिडियन दूरी (एसईडी)। अधिकतम एंट्रॉपी और कम से कम वर्गों के सिद्धांत के माध्यम से, विशेष रूप से लॉजिस्टिक प्रतिगमन और रैखिक प्रतिगमन में, इन दो भिन्नताओं को कम करना मुख्य तरीका है कि रैखिक प्रतिलोम समस्या हल हो जाती है।[5]

अपसरण के दो सबसे महत्वपूर्ण वर्ग हैं एफ-अपसरण और ब्रैगमैन अपसरण; हालाँकि, साहित्य में अन्य प्रकार के विचलन कार्यों का भी सामना करना पड़ता है। कुल्बैक-लीब्लर विचलन एकमात्र विचलन है जो एक एफ-विचलन और ब्रैगमैन विचलन दोनों है;[6] चुकता यूक्लिडियन विचलन एक ब्रेगमैन विचलन है (फलन के अनुरूप ), लेकिन f-विचलन नहीं है।

f विचलन

उत्तल कार्य ऐसे दिया गया है कि , द्वारा उत्पन्न एफ-विचलन निम्न रूप में परिभाषित किया जाता है

कुलबैक-लीब्लर विचलन:
रुंडित हेलिंगर दूरी:
जेन्सेन–शान्नोन विचलन:
α-विचलन
ची रुंडित विचलन:
(α,β) उत्पाद विचलन[citation needed]:


ब्रैगमैन भिन्नता

ब्रैगमैन भिन्नता उत्तल सम्मुच्चय पर उत्तल कार्यों के अनुरूप हैं। एक दृढ़तः उत्तल कार्य दिया गया है, निरंतर भिन्न कार्य F एक उत्तल सम्मुच्चय पर, जिसे ब्रैगमैन जनित्र के रूप में जाना जाता है, ब्रैगमैन अपसरण उत्तलता को मापता है: p पर मान के सन्निकटन के रूप में q से F के रैखिक सन्निकटन की त्रुटि निम्न है:

ब्रैगमैन विचलन के लिए दोहरी विचलन मूल विचलन के ब्रैगमैन जनित्र के उत्तल संयुग्म F* द्वारा उत्पन्न विचलन है। उदाहरण के लिए, यूक्लिडियन दूरी के वर्ग के लिए, जनित्र है, जबकि सापेक्ष एंट्रॉपी के लिए जनित्र ऋणात्मक एंट्रॉपी अभिलेख है।

इतिहास

अपसरण शब्द का उपयोग - यह किस प्रकार के कार्यों को संदर्भित करता है, और विभिन्न सांख्यिकीय दूरियों को क्या कहा जाता है - समय के साथ महत्वपूर्ण रूप से भिन्न होता है, लेकिन सी. 2000 द्वारा अभियोग ज्यामिति के भीतर, विशेष रूप से पाठ्यपुस्तक अमारी & नागाओका (2000) में वर्तमान उपयोग पर तय किया गया था .[1]

एक सांख्यिकीय दूरी के लिए विचलन शब्द का उपयोग अनौपचारिक रूप से c. 1910 से c. 1940 से विभिन्न संदर्भों में किया गया था। इसका औपचारिक उपयोग कम से कम दिनांकित भट्टाचार्य (1943) है, उनके संभाव्यता वितरण द्वारा परिभाषित दो सांख्यिकीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जो भट्टाचार्य दूरी को परिभाषित करता है, और भट्टाचार्य (1946), दो बहुराष्ट्रीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जिसने भट्टाचार्य कोण को परिभाषित किया। कुलबैक & लीब्लर (1951) और पाठ्यपुस्तक कुलबैक (1959) में कुल्बैक-लीब्लर विचलन के लिए इसके उपयोग से यह शब्द लोकप्रिय हुआ। विचलन शब्द का प्रयोग सामान्यतः अली & सिल्वे (1966) सांख्यिकीय दूरियों के लिए किया जाता था। सांख्यिकीय दूरियों के पूर्व उपयोग अधिकारी & जोशी (1956) और कुलबैक (1959, pp. 6–7, 1.3 विचलन) के अनेक संदर्भ में दिए गए हैं।

कुलबैक & लीब्लर (1951) वस्तुतः सममित विचलन को संदर्भित करने के लिए विचलन का उपयोग किया गया था (यह फलन पहले से ही 1948 में हेरोल्ड जेफरीस द्वारा परिभाषित और उपयोग किया गया था[7]), भेदभाव के लिए औसत जानकारी ... प्रति अवलोकन के रूप में असममित कार्य को व्यक्त करते हुए ,[8] जबकि कुलबैक (1959) असममित कार्य को निर्देशित विचलन के रूप में संदर्भित करता है।[9] अली & सिल्वे (1966) सामान्यतः इस तरह के एक फलन को विचलन के गुणांक के रूप में संदर्भित किया जाता है, और दिखाया गया है कि कई मौजूदा कार्यों को f-विचलन के रूप में व्यक्त किया जा सकता है, जेफरीस के फलन को जेफरीस के विचलन के उपाय (आज जेफरीस विचलन), और कुल्बैक-लीब्लर के असममित फलन (प्रत्येक दिशा में) कुलबैक और लीब्लर के भेदभावपूर्ण जानकारी के उपायों के रूप में (आज कुल्बैक-लीब्लर विचलन) संदर्भित किया गया है। ।[10]

विचलन की अभियोग ज्यामिति परिभाषा (इस लेख का विषय) को प्रारम्भ में अर्ध-दूरी सहित वैकल्पिक शब्दों द्वारा संदर्भित किया गया था अमारी (1982, p. 369) और कंट्रास्ट फलन एगुची (1985), हालांकि विचलन का उपयोग किया गया था अमारी (1985) के लिए α-विचलन, और सामान्य वर्ग के लिए मानक बन गया है।[1][2]

विचलन शब्द एक दूरी (मात्रिक) के विपरीत है, क्योंकि सममित विचलन त्रिभुज असमानता को संतुष्ट नहीं करता है।[11] उदाहरण के लिए, ब्रैगमैन दूरी शब्द अभी भी पाया जाता है, लेकिन ब्रैगमैन अपसरण अब पसंद किया जाता है।

सांकेतिक रूप से, कुलबैक & लीब्लर (1951) ने उनके असममित कार्य को निरूपित किया, जबकि अली & सिल्वे (1966) उनके कार्यों 'd' को के रूप में दर्शाता है।

यह भी देखें

  • सांख्यिकीय दूरी

टिप्पणियाँ

  1. Throughout, we only require differentiability class C2 (continuous with continuous first and second derivatives), since only second derivatives are required. In practice, commonly used statistical manifolds and divergences are infinitely differentiable ("smooth").
  2. A colon is used in Kullback & Leibler (1951, p. 80), where the KL divergence between measure and is written as .


संदर्भ

  1. 1.0 1.1 1.2 Amari & Nagaoka 2000, chapter 3.2.
  2. 2.0 2.1 Amari 2016, p. 10, Definition 1.1.
  3. 3.0 3.1 3.2 Amari 2016, p. 10.
  4. Eguchi (1992)
  5. Csiszar 1991.
  6. Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (December 2014). "Information Measures: the Curious Case of the Binary Alphabet". IEEE Transactions on Information Theory. 60 (12): 7616–7626. arXiv:1404.6810. doi:10.1109/TIT.2014.2360184. ISSN 0018-9448.
  7. Jeffreys 1948, p. 158.
  8. Kullback & Leibler 1951, p. 80.
  9. Kullback 1959, p. 7.
  10. Ali & Silvey 1966, p. 139.
  11. Kullback 1959, p. 6.



ग्रन्थसूची