अपसरण (सांख्यिकी): Difference between revisions
(Created page with "{{distinguish|Deviance (statistics)|Deviation (statistics)|discrepancy (disambiguation)#Statistics{{!}}Discrepancy (statistics)}} सूचना ज्यामिति...") |
(text) |
||
Line 1: | Line 1: | ||
{{distinguish| | {{distinguish|पथांतरण (सांख्यिकी)|पथांतरण (सांख्यिकी)|भिन्नता (विसंदिग्धीकरण)#सांख्यिकी{{!}}भिन्नता (सांख्यिकी)}} | ||
[[सूचना ज्यामिति]] में, विचलन एक प्रकार की [[सांख्यिकीय दूरी]] है: एक [[बाइनरी फ़ंक्शन]] जो एक संभाव्यता वितरण से दूसरे [[सांख्यिकीय कई गुना]] पर अलगाव को स्थापित करता है। | [[सूचना ज्यामिति]] में, विचलन एक प्रकार की [[सांख्यिकीय दूरी]] है: एक [[बाइनरी फ़ंक्शन|युग्मक फलन]] जो एक संभाव्यता वितरण से दूसरे [[सांख्यिकीय कई गुना|सांख्यिकीय बहुविध]] पर अलगाव को स्थापित करता है। | ||
सबसे सरल विचलन यूक्लिडियन दूरी ( | सबसे सरल विचलन यूक्लिडियन दूरी (एसईडी) है, और विचलन को एसईडी के सामान्यीकरण के रूप में देखा जा सकता है। अन्य सबसे महत्वपूर्ण विचलन सापेक्ष एन्ट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) है, जो [[सूचना सिद्धांत]] के लिए केंद्रीय है। कई अन्य विशिष्ट विचलन और विचलन के वर्ग हैं, विशेष रूप से f-विचलन और न विचलन (देखें {{slink||उदाहरण}}). | ||
== परिभाषा == | == परिभाषा == | ||
एक [[अलग करने योग्य कई गुना]] दिया गया{{efn|Throughout, we only require [[differentiability class]] ''C''<sup>2</sup> (continuous with continuous first and second derivatives), since only second derivatives are required. In practice, commonly used statistical manifolds and divergences are infinitely differentiable ("smooth").}} <math>M</math> | एक [[अलग करने योग्य कई गुना|अलग करने योग्य बहुविध]] <math>M</math> आयाम का <math>n</math> दिया गया{{efn|Throughout, we only require [[differentiability class]] ''C''<sup>2</sup> (continuous with continuous first and second derivatives), since only second derivatives are required. In practice, commonly used statistical manifolds and divergences are infinitely differentiable ("smooth").}}, <math>M</math> पर विचलन एक <math>C^2</math>-फलन <math>D: M\times M\to [0, \infty)</math> है जो निम्नलिखित को संतुष्ट करता है:{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}{{sfn|Amari|2016|p=10|loc=Definition 1.1}} | ||
# <math>D(p, q) \geq 0</math> सभी | # <math>D(p, q) \geq 0</math> सभी <math>p, q \in M</math> के लिए (गैर-नकारात्मकता), | ||
# <math>D(p, q) = 0</math> | # <math>D(p, q) = 0</math> यदि और केवल यदि <math>p=q</math> (सकारात्मकता), | ||
#हर | #हर बिंदु <math>p\in M</math>, <math>D(p, p+dp)</math> पर अत्यल्प विस्थापनों के लिए धनात्मक-निश्चित [[द्विघात रूप]] <math>dp</math> से <math>p</math> है। | ||
सांख्यिकी के अनुप्रयोगों में, | सांख्यिकी के अनुप्रयोगों में, बहुविध <math>M</math> सामान्यतः एक [[पैरामीट्रिक परिवार|प्राचलिक परिवार]] के मापदंडों का स्थान होता है। | ||
अवस्था 3 का अर्थ है <math>D</math> स्पर्शरेखा स्थान <math>T_pM</math> पर हर <math>p\in M</math> के लिए एक आंतरिक उत्पाद को परिभाषित करता है। चूँकि <math>D</math>, <math>M</math> पर <math>C^2</math> है, यह <math>M</math> पर एक रिमेंनियन मेट्रिक <math>g</math> को परिभाषित करता है। | |||
स्थानीय रूप से <math>p\in M</math>, हम निर्देशांक के साथ एक स्थानीय [[समन्वय चार्ट]] बना सकते हैं | स्थानीय रूप से <math>p\in M</math>, हम निर्देशांक <math>x</math> के साथ एक स्थानीय [[समन्वय चार्ट|समन्वय मानचित्र]] बना सकते हैं , तो विचलन निम्न है <math display="block">D(x(p), x(p) + dx) = \textstyle\frac{1}{2} dx^T g_p(x) dx + O(|dx|^3)</math>जहाँ <math>g_p(x)</math> आकार <math>n\times n</math> का एक आव्यूह है। यह बिंदु <math>p</math> पर रिमेंनियन मात्रिक निर्देशांक <math>x</math> में व्यक्त किया गया है। | ||
स्थिति 3 के [[आयामी विश्लेषण]] से पता चलता है कि विचलन में वर्ग दूरी का आयाम है।{{sfn|Amari|2016|p=10}} | स्थिति 3 के [[आयामी विश्लेषण]] से पता चलता है कि विचलन में वर्ग दूरी का आयाम है।{{sfn|Amari|2016|p=10}} | ||
द्वैत विचलन <math>D^*</math> परिभाषित किया जाता है | द्वैत विचलन <math>D^*</math> निम्न रूप में परिभाषित किया जाता है | ||
: <math>D^*(p, q) = D(q, p).</math> | : <math>D^*(p, q) = D(q, p).</math> | ||
जब हम | जब हम <math>D</math> को <math>D^*</math> के विपरीत करना चाहते हैं, तो हम <math>D</math> को प्रारंभिक विचलन के रूप में संदर्भित करते हैं। | ||
किसी विचलन | किसी विचलन <math>D</math> को देखते हुए, इसके सममित संस्करण को इसके दोहरे विचलन के साथ औसत करके प्राप्त किया जाता है:{{sfn|Amari|2016|p=10}} | ||
: <math>D_S(p, q) = \textstyle\frac{1}{2}\big(D(p,q) + D(q, p)\big).</math> | : <math>D_S(p, q) = \textstyle\frac{1}{2}\big(D(p,q) + D(q, p)\big).</math> | ||
=== अन्य समान अवधारणाओं से अंतर === | === अन्य समान अवधारणाओं से अंतर === | ||
[[मीट्रिक (गणित)]] के विपरीत, | [[मीट्रिक (गणित)|मात्रिक (गणित)]] के विपरीत, अपसरण को सममित होने की आवश्यकता नहीं है, और विषमता अनुप्रयोगों में महत्वपूर्ण है।{{sfn|Amari|2016|p=10}} तद्नुसार, प्रायः p और q के बीच के स्थान पर p या p से q के विचलन को असमान रूप से संदर्भित किया जाता है। दूसरे, अपसरण वर्ग दूरी का सामान्यीकरण करते हैं, रेखीय दूरी का नहीं, और इस प्रकार त्रिकोण असमानता को संतुष्ट नहीं करते हैं, लेकिन कुछ अपसरण (जैसे कि ब्रेगमैन अपसरण) [[पाइथागोरस प्रमेय]] के सामान्यीकरण को संतुष्ट करते हैं। | ||
सामान्य आँकड़ों और संभाव्यता में, विचलन | सामान्य आँकड़ों और संभाव्यता में, विचलन सामान्यतः किसी भी प्रकार के कार्य <math>D(p, q)</math> को संदर्भित करता है, जहाँ <math>p, q</math> संभाव्यता वितरण या विचाराधीन अन्य वस्तुएं हैं, जैसे कि स्तिथि 1, 2 संतुष्ट हैं। सूचना ज्यामिति में प्रयुक्त विचलन के लिए स्तिथि 3 आवश्यक है। | ||
एक उदाहरण के रूप में, | एक उदाहरण के रूप में, संभाव्यता उपायों की कुल भिन्नता दूरी, सामान्यतः इस्तेमाल किया जाने वाला सांख्यिकीय विचलन, स्थिति 3 को संतुष्ट नहीं करता है। | ||
== | == चिन्हांकन == | ||
विचलन के लिए संकेतन क्षेत्रों के बीच महत्वपूर्ण रूप से भिन्न होता है, हालांकि कुछ परंपराएं हैं। | विचलन के लिए संकेतन क्षेत्रों के बीच महत्वपूर्ण रूप से भिन्न होता है, हालांकि कुछ परंपराएं हैं। | ||
भिन्नता को सामान्यतः एक बड़े अक्षर 'डी' के साथ नोट किया जाता है, जैसा कि में है <math>D(x, y)</math>, उन्हें मात्रिक दूरियों से अलग करने के लिए, जिन्हें लोअरकेस 'डी' के साथ नोट किया गया है। जब कई भिन्नता उपयोग में होते हैं, तो वे सामान्यतः सबस्क्रिप्ट के साथ अलग-अलग होते हैं, जैसे कि <math>D_\text{KL}</math> कुल्बैक-लीब्लर अपसरण (KL अपसरण) के लिए होते हैं। | |||
प्रायः मापदंडों के बीच एक अलग विभाजक का उपयोग विशेष रूप से विषमता पर जोर देने के लिए किया जाता है। सूचना सिद्धांत में, सामान्यतः एक युग्म स्तंभ <math>D(p \parallel q)</math>का उपयोग किया जाता है; यह समान है, लेकिन [[सशर्त संभाव्यता]] के लिए संकेतन <math>P(A | B)</math> से अलग है, और सापेक्ष एन्ट्रॉपी के रूप में विचलन को सापेक्ष माप के रूप में व्याख्या करने पर जोर देता है; केएल विचलन के लिए यह अंकन सामान्य है। इसके स्थान पर एक कोलन का उपयोग किया जा सकता है,{{efn|A colon is used in {{harvtxt|Kullback|Leibler|1951|p=80}}, where the KL divergence between measure <math>\mu_1</math> and <math>\mu_2</math> is written as <math>I(1 : 2)</math>.}} जैसे <math>D(p : q)</math>; यह दो वितरणों का समर्थन करने वाली सापेक्ष जानकारी को महत्त्व देता है। | |||
मापदंडों के लिए अंकन भी भिन्न होता है। | मापदंडों के लिए अंकन भी भिन्न होता है। <math>P, Q</math> प्रायिकता वितरण के रूप में मापदंडों की व्याख्या करता है, जबकि <math>p, q</math> या <math>x, y</math> अंतरिक्ष में बिंदुओं के रूप में उनकी ज्यामितीय रूप से व्याख्या करता है, और <math>\mu_1, \mu_2</math> या <math>m_1, m_2</math> उन्हें उपायों के रूप में व्याख्या करता है। | ||
== ज्यामितीय गुण == | == ज्यामितीय गुण == | ||
{{further| | {{further|सूचना ज्यामिति}} | ||
एक जोड़ी अंक | भिन्नता के कई गुणों को प्राप्त किया जा सकता है यदि हम S को एक सांख्यिकीय बहुविध तक सीमित करते हैं, जिसका अर्थ है कि इसे परिमित-आयामी समन्वय प्रणाली θ के साथ प्राचलीकरण किया जा सकता है, ताकि वितरण के लिए {{nowrap|''p'' ∈ ''S''}} हम {{nowrap|1=''p'' = ''p''(''θ'')}} लिख सकते हैं। | ||
एक जोड़ी अंक {{nowrap|''p'', ''q'' ∈ ''S''}} के लिए निर्देशांक θ<sub>''p''</sub> और θ<sub>''q''</sub> के साथ, ''D''(''p'', ''q'') के आंशिक व्युत्पन्न शब्द को निरूपित करें | |||
: <math>\begin{align} | : <math>\begin{align} | ||
D((\partial_i)_p, q) \ \ &\stackrel{\mathrm{def}}{=}\ \ \tfrac{\partial}{\partial\theta^i_p} D(p, q), \\ | D((\partial_i)_p, q) \ \ &\stackrel{\mathrm{def}}{=}\ \ \tfrac{\partial}{\partial\theta^i_p} D(p, q), \\ | ||
D((\partial_i\partial_j)_p, (\partial_k)_q) \ \ &\stackrel{\mathrm{def}}{=}\ \ \tfrac{\partial}{\partial\theta^i_p} \tfrac{\partial}{\partial\theta^j_p}\tfrac{\partial}{\partial\theta^k_q}D(p, q), \ \ \mathrm{etc.} | D((\partial_i\partial_j)_p, (\partial_k)_q) \ \ &\stackrel{\mathrm{def}}{=}\ \ \tfrac{\partial}{\partial\theta^i_p} \tfrac{\partial}{\partial\theta^j_p}\tfrac{\partial}{\partial\theta^k_q}D(p, q), \ \ \mathrm{etc.} | ||
\end{align}</math> | \end{align}</math> | ||
अब हम इन कार्यों को एक विकर्ण | अब हम इन कार्यों को एक विकर्ण {{nowrap|1=''p'' = ''q''}} तक सीमित करते हैं, और निम्न को निरूपित करें <ref>{{harvtxt|Eguchi|1992}}</ref> | ||
: <math>\begin{align} | : <math>\begin{align} | ||
D[\partial_i, \cdot]\ &:\ p \mapsto D((\partial_i)_p, p), \\ | D[\partial_i, \cdot]\ &:\ p \mapsto D((\partial_i)_p, p), \\ | ||
Line 61: | Line 62: | ||
& D[\partial_i\partial_j, \cdot] = D[\cdot, \partial_i\partial_j] = -D[\partial_i, \partial_j] \ \equiv\ g_{ij}^{(D)}, | & D[\partial_i\partial_j, \cdot] = D[\cdot, \partial_i\partial_j] = -D[\partial_i, \partial_j] \ \equiv\ g_{ij}^{(D)}, | ||
\end{align}</math> | \end{align}</math> | ||
जहां | जहां आव्यूह g<sup>(D)</sup> सकारात्मक अर्ध-निश्चित आव्यूह है | सकारात्मक अर्ध-निश्चित है और बहुविध S पर एक अद्वितीय [[रिमेंनियन मीट्रिक|रिमेंनियन मात्रिक]] परिभाषित करता है। | ||
भिन्नता डी (·, ·) भी संयोजन-मुक्त [[affine कनेक्शन|सजातीय संयोजन]] के एक अद्वितीय मरोड़ को परिभाषित करता है ∇<sup>(डी) </ sup> गुणांक के साथ | |||
: <math> | : <math> | ||
\Gamma_{ij,k}^{(D)} = -D[\partial_i\partial_j, \partial_k], | \Gamma_{ij,k}^{(D)} = -D[\partial_i\partial_j, \partial_k], | ||
</math> | </math> | ||
और इस | और इस संयोजन के लिए दोहरी संबंध संयोजन ∇* दोहरी विचलन डी* द्वारा उत्पन्न होता है। | ||
इस प्रकार, एक विचलन डी (·, ·) एक सांख्यिकीय | इस प्रकार, एक विचलन डी (·, ·) एक सांख्यिकीय बहुविध पर एक अद्वितीय द्वैतवादी संरचना (''g''<sup>(''D'')</sup>, ∇<sup>(''D'')</sup>, ∇<sup>(''D''*)</sup>) उत्पन्न करता है। इसका विलोम भी सत्य है: प्रत्येक मरोड़-मुक्त द्वैतवादी संरचना एक सांख्यिकीय बहुविध पर कुछ विश्व स्तर पर परिभाषित विचलन फलन से प्रेरित होती है (जो कि अद्वितीय होने की आवश्यकता नहीं है)। उदाहरण के लिए, जब D एक f-विचलन है कुछ फलन ƒ(·) के लिए, तो यह रीमैनियन मात्रिक उत्पन्न करता है g(Df) = c·g और संयोजन ∇(Df) = ∇(α), जहां g कैनोनिकल फिशर सूचना मात्रिक है, ∇(ए) α-संयोजन है, c = ƒ′′(1), और α = 3 + 2ƒ′′′(1)/ƒ′′(1)। | ||
उदाहरण के लिए, जब D एक f-विचलन है | |||
== उदाहरण == | == उदाहरण == | ||
दो सबसे महत्वपूर्ण विचलन सापेक्ष एंट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) हैं, जो सूचना सिद्धांत और आंकड़ों के लिए केंद्रीय है, और स्क्वायर यूक्लिडियन दूरी (एसईडी)। अधिकतम एंट्रॉपी और [[कम से कम वर्गों]] के सिद्धांत के माध्यम से, विशेष रूप से लॉजिस्टिक प्रतिगमन और रैखिक प्रतिगमन में, इन दो भिन्नताओं को कम करना मुख्य तरीका है कि [[रैखिक उलटा समस्या]] हल हो जाती है।{{sfn|Csiszar|1991}} | दो सबसे महत्वपूर्ण विचलन सापेक्ष एंट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) हैं, जो सूचना सिद्धांत और आंकड़ों के लिए केंद्रीय है, और स्क्वायर यूक्लिडियन दूरी (एसईडी)। अधिकतम एंट्रॉपी और [[कम से कम वर्गों]] के सिद्धांत के माध्यम से, विशेष रूप से लॉजिस्टिक प्रतिगमन और रैखिक प्रतिगमन में, इन दो भिन्नताओं को कम करना मुख्य तरीका है कि [[रैखिक उलटा समस्या|रैखिक प्रतिलोम समस्या]] हल हो जाती है।{{sfn|Csiszar|1991}} | ||
अपसरण के दो सबसे महत्वपूर्ण वर्ग हैं एफ-अपसरण और ब्रैगमैन अपसरण; हालाँकि, साहित्य में अन्य प्रकार के विचलन कार्यों का भी सामना करना पड़ता है। कुल्बैक-लीब्लर विचलन एकमात्र विचलन है जो एक एफ-विचलन और ब्रैगमैन विचलन दोनों है;<ref name=":02">{{Cite journal |last=Jiao |first=Jiantao |last2=Courtade |first2=Thomas |last3=No |first3=Albert |last4=Venkat |first4=Kartik |last5=Weissman |first5=Tsachy |date=December 2014 |title=Information Measures: the Curious Case of the Binary Alphabet |url=http://arxiv.org/abs/1404.6810 |journal=IEEE Transactions on Information Theory |volume=60 |issue=12 |pages=7616–7626 |doi=10.1109/TIT.2014.2360184 |issn=0018-9448|arxiv=1404.6810 }}</ref> चुकता यूक्लिडियन विचलन एक ब्रेगमैन विचलन है (फलन के अनुरूप {{tmath|x^2}}), लेकिन f-विचलन नहीं है। | |||
=== | === f विचलन === | ||
{{Main|f | {{Main|f विचलन}} | ||
उत्तल कार्य | |||
उत्तल कार्य <math>f:[0, \infty)\to (-\infty, \infty]</math> ऐसे दिया गया है कि <math>f(0) = \lim_{t\to 0^+}f(t), f(1) = 0</math>, <math>f</math> द्वारा उत्पन्न एफ-विचलन निम्न रूप में परिभाषित किया जाता है | |||
: <math> | : <math> | ||
D_f(p, q) = \int p(x)f\bigg(\frac{q(x)}{p(x)}\bigg) dx | D_f(p, q) = \int p(x)f\bigg(\frac{q(x)}{p(x)}\bigg) dx | ||
</math> | </math> | ||
{| class="wikitable" | {| class="wikitable" | ||
| [[Kullback–Leibler divergence]]: | | [[Kullback–Leibler divergence|कुलबैक-लीब्लर विचलन]]: | ||
| <math> | | <math> | ||
D_\mathrm{KL}(p, q) = \int p(x)\ln\left( \frac{p(x)}{q(x)}\right) dx | D_\mathrm{KL}(p, q) = \int p(x)\ln\left( \frac{p(x)}{q(x)}\right) dx | ||
</math> | </math> | ||
|- | |- | ||
| | | रुंडित [[Hellinger distance|हेलिंगर दूरी]]: | ||
| <math> | | <math> | ||
H^2(p,\, q) = 2 \int \Big( \sqrt{p(x)} - \sqrt{q(x)}\, \Big)^2 dx | H^2(p,\, q) = 2 \int \Big( \sqrt{p(x)} - \sqrt{q(x)}\, \Big)^2 dx | ||
</math> | </math> | ||
|- | |- | ||
| [[Jensen–Shannon divergence]]: | | [[Jensen–Shannon divergence|जेन्सेन–शान्नोन विचलन]]: | ||
| <math> | | <math> | ||
D_{JS}(p, q) = \frac 1 2 \int (p(x) - q(x))\big( \ln p(x) - \ln q(x) \big) dx | D_{JS}(p, q) = \frac 1 2 \int (p(x) - q(x))\big( \ln p(x) - \ln q(x) \big) dx | ||
</math> | </math> | ||
|- | |- | ||
| α- | | α-विचलन | ||
| <math> | | <math> | ||
D^{(\alpha)}(p, q) = \frac{4}{1-\alpha^2}\bigg(1 - \int p(x)^\frac{1-\alpha}{2} q(x)^\frac{1+\alpha}{2} dx \bigg) | D^{(\alpha)}(p, q) = \frac{4}{1-\alpha^2}\bigg(1 - \int p(x)^\frac{1-\alpha}{2} q(x)^\frac{1+\alpha}{2} dx \bigg) | ||
</math> | </math> | ||
|- | |- | ||
| [[chi-squared divergence]]: | | [[chi-squared divergence|ची रुंडित विचलन]]: | ||
| <math> | | <math> | ||
D_{\chi^2}(p, q) = \int \frac{(p(x) - q(x))^2}{p(x)} dx | D_{\chi^2}(p, q) = \int \frac{(p(x) - q(x))^2}{p(x)} dx | ||
</math> | </math> | ||
|- | |- | ||
| (''α'',''β'') | | (''α'',''β'') उत्पाद विचलन{{Citation needed|date=May 2022|reason=it is entirely nonobvious whether this is in fact convex. It looks convex when I plotted it for a few examples, but I can't see an obvious proof.}}: | ||
| <math> | | <math> | ||
D_{\alpha,\beta}(p, q) = \frac{2}{(1-\alpha)(1-\beta)} \int | D_{\alpha,\beta}(p, q) = \frac{2}{(1-\alpha)(1-\beta)} \int | ||
Line 129: | Line 120: | ||
=== ब्रैगमैन | === ब्रैगमैन भिन्नता === | ||
{{Main| | {{Main|ब्रैगमैन भिन्नता}} | ||
ब्रैगमैन | |||
ब्रैगमैन भिन्नता उत्तल सम्मुच्चय पर उत्तल कार्यों के अनुरूप हैं। एक दृढ़तः उत्तल कार्य दिया गया है, निरंतर भिन्न कार्य {{math|''F''}} एक [[उत्तल सेट|उत्तल सम्मुच्चय]] पर, जिसे ब्रैगमैन जनित्र के रूप में जाना जाता है, ब्रैगमैन अपसरण उत्तलता को मापता है: p पर मान के सन्निकटन के रूप में q से F के रैखिक सन्निकटन की त्रुटि निम्न है: | |||
:<math>D_F(p, q) = F(p)-F(q)-\langle \nabla F(q), p-q\rangle. </math> | :<math>D_F(p, q) = F(p)-F(q)-\langle \nabla F(q), p-q\rangle. </math> | ||
ब्रैगमैन विचलन के लिए दोहरी विचलन | ब्रैगमैन विचलन के लिए दोहरी विचलन मूल विचलन के ब्रैगमैन जनित्र के उत्तल संयुग्म F* द्वारा उत्पन्न विचलन है। उदाहरण के लिए, यूक्लिडियन दूरी के वर्ग के लिए, जनित्र {{tmath|x^2}} है, जबकि सापेक्ष एंट्रॉपी के लिए जनित्र ऋणात्मक एंट्रॉपी अभिलेख {{tmath|x \log x}} है। | ||
== इतिहास == | == इतिहास == | ||
अपसरण शब्द का उपयोग - यह किस प्रकार के कार्यों को संदर्भित करता है, और विभिन्न सांख्यिकीय दूरियों को क्या कहा जाता है - समय के साथ महत्वपूर्ण रूप से भिन्न होता है, लेकिन सी | अपसरण शब्द का उपयोग - यह किस प्रकार के कार्यों को संदर्भित करता है, और विभिन्न सांख्यिकीय दूरियों को क्या कहा जाता है - समय के साथ महत्वपूर्ण रूप से भिन्न होता है, लेकिन सी. 2000 द्वारा सूचना ज्यामिति के भीतर, विशेष रूप से पाठ्यपुस्तक {{harvtxt|अमारी|नागाओका|2000}} में वर्तमान उपयोग पर तय किया गया था .{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}} | ||
एक सांख्यिकीय दूरी के लिए विचलन शब्द का उपयोग अनौपचारिक रूप से | एक सांख्यिकीय दूरी के लिए विचलन शब्द का उपयोग अनौपचारिक रूप से c. 1910 से c. 1940 से विभिन्न संदर्भों में किया गया था। इसका औपचारिक उपयोग कम से कम दिनांकित {{harvtxt|भट्टाचार्य|1943}} है, उनके संभाव्यता वितरण द्वारा परिभाषित दो सांख्यिकीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जो [[भट्टाचार्य दूरी]] को परिभाषित करता है, और {{harvtxt|भट्टाचार्य|1946}}, दो बहुराष्ट्रीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जिसने [[भट्टाचार्य कोण]] को परिभाषित किया। {{harvtxt|कुलबैक|लीब्लर|1951}} और पाठ्यपुस्तक {{harvtxt|कुलबैक|1959}} में कुल्बैक-लीब्लर विचलन के लिए इसके उपयोग से यह शब्द लोकप्रिय हुआ। विचलन शब्द का प्रयोग सामान्यतः {{harvtxt|अली|सिल्वे|1966}} सांख्यिकीय दूरियों के लिए किया जाता था। सांख्यिकीय दूरियों के पूर्व उपयोग {{harvtxt|अधिकारी|जोशी|1956}} और {{harvtxt|कुलबैक|1959|pp=6–7|loc=1.3 विचलन}} के अनेक संदर्भ में दिए गए हैं। | ||
{{harvtxt| | {{harvtxt|कुलबैक|लीब्लर|1951}} वस्तुतः सममित विचलन को संदर्भित करने के लिए विचलन का उपयोग किया गया था (यह फलन पहले से ही 1948 में [[हेरोल्ड जेफरीस]] द्वारा परिभाषित और उपयोग किया गया था{{sfn|Jeffreys|1948|p=158}}), भेदभाव के लिए औसत जानकारी ... प्रति अवलोकन के रूप में असममित कार्य को व्यक्त करते हुए ,{{sfn|Kullback|Leibler|1951|p=80}} जबकि {{harvtxt|कुलबैक|1959}} असममित कार्य को निर्देशित विचलन के रूप में संदर्भित करता है।{{sfn|Kullback|1959|p=7}} {{harvtxt|अली|सिल्वे|1966}} सामान्यतः इस तरह के एक फलन को विचलन के गुणांक के रूप में संदर्भित किया जाता है, और दिखाया गया है कि कई मौजूदा कार्यों को f-विचलन के रूप में व्यक्त किया जा सकता है, जेफरीस के फलन को जेफरीस के विचलन के उपाय (आज जेफरीस विचलन), और कुल्बैक-लीब्लर के असममित फलन (प्रत्येक दिशा में) कुलबैक और लीब्लर के भेदभावपूर्ण जानकारी के उपायों के रूप में (आज कुल्बैक-लीब्लर विचलन) संदर्भित किया गया है। ।{{sfn|Ali|Silvey|1966|p=139}} | ||
विचलन की सूचना ज्यामिति परिभाषा (इस लेख का विषय) को | विचलन की सूचना ज्यामिति परिभाषा (इस लेख का विषय) को प्रारम्भ में अर्ध-दूरी सहित वैकल्पिक शब्दों द्वारा संदर्भित किया गया था {{harvtxt|अमारी|1982|p=369}} और कंट्रास्ट फलन {{harvtxt|एगुची|1985}}, हालांकि विचलन का उपयोग किया गया था {{harvtxt|अमारी|1985}} के लिए {{math|''α''}}-विचलन, और सामान्य वर्ग के लिए मानक बन गया है।{{sfn|Amari|Nagaoka|2000|loc=chapter 3.2}}{{sfn|Amari|2016|p=10|loc=Definition 1.1}} | ||
विचलन शब्द एक दूरी ( | विचलन शब्द एक दूरी (मात्रिक) के विपरीत है, क्योंकि सममित विचलन त्रिभुज असमानता को संतुष्ट नहीं करता है।{{sfn|Kullback|1959|p=6}} उदाहरण के लिए, ब्रैगमैन दूरी शब्द अभी भी पाया जाता है, लेकिन ब्रैगमैन अपसरण अब पसंद किया जाता है। | ||
सांकेतिक रूप से, {{harvtxt| | सांकेतिक रूप से, {{harvtxt|कुलबैक|लीब्लर|1951}} ने उनके असममित कार्य को <math>I(1:2)</math> निरूपित किया, जबकि {{harvtxt|अली|सिल्वे|1966}} उनके कार्यों 'd' को <math>d\left(P_1, P_2\right)</math>के रूप में दर्शाता है। | ||
== यह भी देखें == | == यह भी देखें == |
Revision as of 13:20, 28 April 2023
सूचना ज्यामिति में, विचलन एक प्रकार की सांख्यिकीय दूरी है: एक युग्मक फलन जो एक संभाव्यता वितरण से दूसरे सांख्यिकीय बहुविध पर अलगाव को स्थापित करता है।
सबसे सरल विचलन यूक्लिडियन दूरी (एसईडी) है, और विचलन को एसईडी के सामान्यीकरण के रूप में देखा जा सकता है। अन्य सबसे महत्वपूर्ण विचलन सापेक्ष एन्ट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) है, जो सूचना सिद्धांत के लिए केंद्रीय है। कई अन्य विशिष्ट विचलन और विचलन के वर्ग हैं, विशेष रूप से f-विचलन और न विचलन (देखें § उदाहरण).
परिभाषा
एक अलग करने योग्य बहुविध आयाम का दिया गया[lower-alpha 1], पर विचलन एक -फलन है जो निम्नलिखित को संतुष्ट करता है:[1][2]
- सभी के लिए (गैर-नकारात्मकता),
- यदि और केवल यदि (सकारात्मकता),
- हर बिंदु , पर अत्यल्प विस्थापनों के लिए धनात्मक-निश्चित द्विघात रूप से है।
सांख्यिकी के अनुप्रयोगों में, बहुविध सामान्यतः एक प्राचलिक परिवार के मापदंडों का स्थान होता है।
अवस्था 3 का अर्थ है स्पर्शरेखा स्थान पर हर के लिए एक आंतरिक उत्पाद को परिभाषित करता है। चूँकि , पर है, यह पर एक रिमेंनियन मेट्रिक को परिभाषित करता है।
स्थानीय रूप से , हम निर्देशांक के साथ एक स्थानीय समन्वय मानचित्र बना सकते हैं , तो विचलन निम्न है
स्थिति 3 के आयामी विश्लेषण से पता चलता है कि विचलन में वर्ग दूरी का आयाम है।[3]
द्वैत विचलन निम्न रूप में परिभाषित किया जाता है
जब हम को के विपरीत करना चाहते हैं, तो हम को प्रारंभिक विचलन के रूप में संदर्भित करते हैं।
किसी विचलन को देखते हुए, इसके सममित संस्करण को इसके दोहरे विचलन के साथ औसत करके प्राप्त किया जाता है:[3]
अन्य समान अवधारणाओं से अंतर
मात्रिक (गणित) के विपरीत, अपसरण को सममित होने की आवश्यकता नहीं है, और विषमता अनुप्रयोगों में महत्वपूर्ण है।[3] तद्नुसार, प्रायः p और q के बीच के स्थान पर p या p से q के विचलन को असमान रूप से संदर्भित किया जाता है। दूसरे, अपसरण वर्ग दूरी का सामान्यीकरण करते हैं, रेखीय दूरी का नहीं, और इस प्रकार त्रिकोण असमानता को संतुष्ट नहीं करते हैं, लेकिन कुछ अपसरण (जैसे कि ब्रेगमैन अपसरण) पाइथागोरस प्रमेय के सामान्यीकरण को संतुष्ट करते हैं।
सामान्य आँकड़ों और संभाव्यता में, विचलन सामान्यतः किसी भी प्रकार के कार्य को संदर्भित करता है, जहाँ संभाव्यता वितरण या विचाराधीन अन्य वस्तुएं हैं, जैसे कि स्तिथि 1, 2 संतुष्ट हैं। सूचना ज्यामिति में प्रयुक्त विचलन के लिए स्तिथि 3 आवश्यक है।
एक उदाहरण के रूप में, संभाव्यता उपायों की कुल भिन्नता दूरी, सामान्यतः इस्तेमाल किया जाने वाला सांख्यिकीय विचलन, स्थिति 3 को संतुष्ट नहीं करता है।
चिन्हांकन
विचलन के लिए संकेतन क्षेत्रों के बीच महत्वपूर्ण रूप से भिन्न होता है, हालांकि कुछ परंपराएं हैं।
भिन्नता को सामान्यतः एक बड़े अक्षर 'डी' के साथ नोट किया जाता है, जैसा कि में है , उन्हें मात्रिक दूरियों से अलग करने के लिए, जिन्हें लोअरकेस 'डी' के साथ नोट किया गया है। जब कई भिन्नता उपयोग में होते हैं, तो वे सामान्यतः सबस्क्रिप्ट के साथ अलग-अलग होते हैं, जैसे कि कुल्बैक-लीब्लर अपसरण (KL अपसरण) के लिए होते हैं।
प्रायः मापदंडों के बीच एक अलग विभाजक का उपयोग विशेष रूप से विषमता पर जोर देने के लिए किया जाता है। सूचना सिद्धांत में, सामान्यतः एक युग्म स्तंभ का उपयोग किया जाता है; यह समान है, लेकिन सशर्त संभाव्यता के लिए संकेतन से अलग है, और सापेक्ष एन्ट्रॉपी के रूप में विचलन को सापेक्ष माप के रूप में व्याख्या करने पर जोर देता है; केएल विचलन के लिए यह अंकन सामान्य है। इसके स्थान पर एक कोलन का उपयोग किया जा सकता है,[lower-alpha 2] जैसे ; यह दो वितरणों का समर्थन करने वाली सापेक्ष जानकारी को महत्त्व देता है।
मापदंडों के लिए अंकन भी भिन्न होता है। प्रायिकता वितरण के रूप में मापदंडों की व्याख्या करता है, जबकि या अंतरिक्ष में बिंदुओं के रूप में उनकी ज्यामितीय रूप से व्याख्या करता है, और या उन्हें उपायों के रूप में व्याख्या करता है।
ज्यामितीय गुण
भिन्नता के कई गुणों को प्राप्त किया जा सकता है यदि हम S को एक सांख्यिकीय बहुविध तक सीमित करते हैं, जिसका अर्थ है कि इसे परिमित-आयामी समन्वय प्रणाली θ के साथ प्राचलीकरण किया जा सकता है, ताकि वितरण के लिए p ∈ S हम p = p(θ) लिख सकते हैं।
एक जोड़ी अंक p, q ∈ S के लिए निर्देशांक θp और θq के साथ, D(p, q) के आंशिक व्युत्पन्न शब्द को निरूपित करें
अब हम इन कार्यों को एक विकर्ण p = q तक सीमित करते हैं, और निम्न को निरूपित करें [4]
परिभाषा के अनुसार, फलन D(p, q) को न्यूनतम किया जाता है p = q, और इसलिए
जहां आव्यूह g(D) सकारात्मक अर्ध-निश्चित आव्यूह है | सकारात्मक अर्ध-निश्चित है और बहुविध S पर एक अद्वितीय रिमेंनियन मात्रिक परिभाषित करता है।
भिन्नता डी (·, ·) भी संयोजन-मुक्त सजातीय संयोजन के एक अद्वितीय मरोड़ को परिभाषित करता है ∇(डी) </ sup> गुणांक के साथ
और इस संयोजन के लिए दोहरी संबंध संयोजन ∇* दोहरी विचलन डी* द्वारा उत्पन्न होता है।
इस प्रकार, एक विचलन डी (·, ·) एक सांख्यिकीय बहुविध पर एक अद्वितीय द्वैतवादी संरचना (g(D), ∇(D), ∇(D*)) उत्पन्न करता है। इसका विलोम भी सत्य है: प्रत्येक मरोड़-मुक्त द्वैतवादी संरचना एक सांख्यिकीय बहुविध पर कुछ विश्व स्तर पर परिभाषित विचलन फलन से प्रेरित होती है (जो कि अद्वितीय होने की आवश्यकता नहीं है)। उदाहरण के लिए, जब D एक f-विचलन है कुछ फलन ƒ(·) के लिए, तो यह रीमैनियन मात्रिक उत्पन्न करता है g(Df) = c·g और संयोजन ∇(Df) = ∇(α), जहां g कैनोनिकल फिशर सूचना मात्रिक है, ∇(ए) α-संयोजन है, c = ƒ′′(1), और α = 3 + 2ƒ′′′(1)/ƒ′′(1)।
उदाहरण
दो सबसे महत्वपूर्ण विचलन सापेक्ष एंट्रॉपी (कुल्बैक-लीब्लर विचलन, केएल विचलन) हैं, जो सूचना सिद्धांत और आंकड़ों के लिए केंद्रीय है, और स्क्वायर यूक्लिडियन दूरी (एसईडी)। अधिकतम एंट्रॉपी और कम से कम वर्गों के सिद्धांत के माध्यम से, विशेष रूप से लॉजिस्टिक प्रतिगमन और रैखिक प्रतिगमन में, इन दो भिन्नताओं को कम करना मुख्य तरीका है कि रैखिक प्रतिलोम समस्या हल हो जाती है।[5]
अपसरण के दो सबसे महत्वपूर्ण वर्ग हैं एफ-अपसरण और ब्रैगमैन अपसरण; हालाँकि, साहित्य में अन्य प्रकार के विचलन कार्यों का भी सामना करना पड़ता है। कुल्बैक-लीब्लर विचलन एकमात्र विचलन है जो एक एफ-विचलन और ब्रैगमैन विचलन दोनों है;[6] चुकता यूक्लिडियन विचलन एक ब्रेगमैन विचलन है (फलन के अनुरूप ), लेकिन f-विचलन नहीं है।
f विचलन
उत्तल कार्य ऐसे दिया गया है कि , द्वारा उत्पन्न एफ-विचलन निम्न रूप में परिभाषित किया जाता है
कुलबैक-लीब्लर विचलन: | |
रुंडित हेलिंगर दूरी: | |
जेन्सेन–शान्नोन विचलन: | |
α-विचलन | |
ची रुंडित विचलन: | |
(α,β) उत्पाद विचलन[citation needed]: |
ब्रैगमैन भिन्नता
ब्रैगमैन भिन्नता उत्तल सम्मुच्चय पर उत्तल कार्यों के अनुरूप हैं। एक दृढ़तः उत्तल कार्य दिया गया है, निरंतर भिन्न कार्य F एक उत्तल सम्मुच्चय पर, जिसे ब्रैगमैन जनित्र के रूप में जाना जाता है, ब्रैगमैन अपसरण उत्तलता को मापता है: p पर मान के सन्निकटन के रूप में q से F के रैखिक सन्निकटन की त्रुटि निम्न है:
ब्रैगमैन विचलन के लिए दोहरी विचलन मूल विचलन के ब्रैगमैन जनित्र के उत्तल संयुग्म F* द्वारा उत्पन्न विचलन है। उदाहरण के लिए, यूक्लिडियन दूरी के वर्ग के लिए, जनित्र है, जबकि सापेक्ष एंट्रॉपी के लिए जनित्र ऋणात्मक एंट्रॉपी अभिलेख है।
इतिहास
अपसरण शब्द का उपयोग - यह किस प्रकार के कार्यों को संदर्भित करता है, और विभिन्न सांख्यिकीय दूरियों को क्या कहा जाता है - समय के साथ महत्वपूर्ण रूप से भिन्न होता है, लेकिन सी. 2000 द्वारा सूचना ज्यामिति के भीतर, विशेष रूप से पाठ्यपुस्तक अमारी & नागाओका (2000) में वर्तमान उपयोग पर तय किया गया था .[1]
एक सांख्यिकीय दूरी के लिए विचलन शब्द का उपयोग अनौपचारिक रूप से c. 1910 से c. 1940 से विभिन्न संदर्भों में किया गया था। इसका औपचारिक उपयोग कम से कम दिनांकित भट्टाचार्य (1943) है, उनके संभाव्यता वितरण द्वारा परिभाषित दो सांख्यिकीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जो भट्टाचार्य दूरी को परिभाषित करता है, और भट्टाचार्य (1946) , दो बहुराष्ट्रीय आबादी के बीच विचलन के माप पर आख्यायुक्त है, जिसने भट्टाचार्य कोण को परिभाषित किया। कुलबैक & लीब्लर (1951) और पाठ्यपुस्तक कुलबैक (1959) में कुल्बैक-लीब्लर विचलन के लिए इसके उपयोग से यह शब्द लोकप्रिय हुआ। विचलन शब्द का प्रयोग सामान्यतः अली & सिल्वे (1966) सांख्यिकीय दूरियों के लिए किया जाता था। सांख्यिकीय दूरियों के पूर्व उपयोग अधिकारी & जोशी (1956) और कुलबैक (1959, pp. 6–7, 1.3 विचलन) के अनेक संदर्भ में दिए गए हैं।
कुलबैक & लीब्लर (1951) वस्तुतः सममित विचलन को संदर्भित करने के लिए विचलन का उपयोग किया गया था (यह फलन पहले से ही 1948 में हेरोल्ड जेफरीस द्वारा परिभाषित और उपयोग किया गया था[7]), भेदभाव के लिए औसत जानकारी ... प्रति अवलोकन के रूप में असममित कार्य को व्यक्त करते हुए ,[8] जबकि कुलबैक (1959) असममित कार्य को निर्देशित विचलन के रूप में संदर्भित करता है।[9] अली & सिल्वे (1966) सामान्यतः इस तरह के एक फलन को विचलन के गुणांक के रूप में संदर्भित किया जाता है, और दिखाया गया है कि कई मौजूदा कार्यों को f-विचलन के रूप में व्यक्त किया जा सकता है, जेफरीस के फलन को जेफरीस के विचलन के उपाय (आज जेफरीस विचलन), और कुल्बैक-लीब्लर के असममित फलन (प्रत्येक दिशा में) कुलबैक और लीब्लर के भेदभावपूर्ण जानकारी के उपायों के रूप में (आज कुल्बैक-लीब्लर विचलन) संदर्भित किया गया है। ।[10]
विचलन की सूचना ज्यामिति परिभाषा (इस लेख का विषय) को प्रारम्भ में अर्ध-दूरी सहित वैकल्पिक शब्दों द्वारा संदर्भित किया गया था अमारी (1982, p. 369) और कंट्रास्ट फलन एगुची (1985) , हालांकि विचलन का उपयोग किया गया था अमारी (1985) के लिए α-विचलन, और सामान्य वर्ग के लिए मानक बन गया है।[1][2]
विचलन शब्द एक दूरी (मात्रिक) के विपरीत है, क्योंकि सममित विचलन त्रिभुज असमानता को संतुष्ट नहीं करता है।[11] उदाहरण के लिए, ब्रैगमैन दूरी शब्द अभी भी पाया जाता है, लेकिन ब्रैगमैन अपसरण अब पसंद किया जाता है।
सांकेतिक रूप से, कुलबैक & लीब्लर (1951) ने उनके असममित कार्य को निरूपित किया, जबकि अली & सिल्वे (1966) उनके कार्यों 'd' को के रूप में दर्शाता है।
यह भी देखें
- सांख्यिकीय दूरी
टिप्पणियाँ
- ↑ Throughout, we only require differentiability class C2 (continuous with continuous first and second derivatives), since only second derivatives are required. In practice, commonly used statistical manifolds and divergences are infinitely differentiable ("smooth").
- ↑ A colon is used in Kullback & Leibler (1951, p. 80), where the KL divergence between measure and is written as .
संदर्भ
- ↑ 1.0 1.1 1.2 Amari & Nagaoka 2000, chapter 3.2.
- ↑ 2.0 2.1 Amari 2016, p. 10, Definition 1.1.
- ↑ 3.0 3.1 3.2 Amari 2016, p. 10.
- ↑ Eguchi (1992)
- ↑ Csiszar 1991.
- ↑ Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (December 2014). "Information Measures: the Curious Case of the Binary Alphabet". IEEE Transactions on Information Theory. 60 (12): 7616–7626. arXiv:1404.6810. doi:10.1109/TIT.2014.2360184. ISSN 0018-9448.
- ↑ Jeffreys 1948, p. 158.
- ↑ Kullback & Leibler 1951, p. 80.
- ↑ Kullback 1959, p. 7.
- ↑ Ali & Silvey 1966, p. 139.
- ↑ Kullback 1959, p. 6.
ग्रन्थसूची
- Adhikari, B. P.; Joshi, D. D. (1956). "Distance, discrimination et résumé exhaustif". Pub. Inst. Stat. Univ. Paris. 5: 57–74.
- Amari, Shun-Ichi (1982). "Differential Geometry of Curved Exponential Families-Curvatures and Information Loss". The Annals of Statistics. 10 (2): 357–385. ISSN 0090-5364. JSTOR 2240672.
- Amari, Shun-Ichi (1985). Differential-Geometrical Methods in Statistics. Lecture Notes in Statistics. Vol. 28. Springer-Verlag.
- Amari, Shun-ichi; Nagaoka, Hiroshi (2000). Methods of information geometry. Oxford University Press. ISBN 0-8218-0531-2.
- Amari, Shun-ichi (2016). Information Geometry and Its Applications. Applied Mathematical Sciences. Springer Japan. pp. XIII, 374. doi:10.1007/978-4-431-55978-8. ISBN 978-4-431-55977-1.
- Bhattacharyya, A. (1946). "On a Measure of Divergence between Two Multinomial Populations". Sankhyā: The Indian Journal of Statistics (1933-1960). 7 (4): 401–406. ISSN 0036-4452. JSTOR 25047882.
- Bhattacharyya, A. (1943). "On a measure of divergence between two statistical populations defined by their probability distributions". Bull. Calcutta Math. Soc. 35: 99–109.
- Csiszar, Imre (1 December 1991). "Why Least Squares and Maximum Entropy? An Axiomatic Approach to Inference for Linear Inverse Problems". The Annals of Statistics. 19 (4). doi:10.1214/aos/1176348385.
- Eguchi, Shinto (1985). "A differential geometric approach to statistical inference on the basis of contrast functionals". Hiroshima Mathematical Journal. 15 (2): 341–391. doi:10.32917/hmj/1206130775.
- Eguchi, Shinto (1992). "Geometry of minimum contrast". Hiroshima Mathematical Journal. 22 (3): 631–647. doi:10.32917/hmj/1206128508.
- Ali, S. M.; Silvey, S. D. (1966). "A General Class of Coefficients of Divergence of One Distribution from Another". Journal of the Royal Statistical Society. Series B (Methodological). 28 (1): 131–142. ISSN 0035-9246. JSTOR 2984279.
- Jeffreys, Harold (1948). Theory of Probability (Second ed.). Oxford University Press.
- Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical Statistics. 22 (1): 79–86. doi:10.1214/aoms/1177729694. JSTOR 2236703. MR 0039968.
- Kullback, S. (1959), Information Theory and Statistics, John Wiley & Sons. Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9
- Matumoto, Takao (1993). "Any statistical manifold has a contrast function — on the C³-functions taking the minimum at the diagonal of the product manifold". Hiroshima Mathematical Journal. 23 (2): 327–332. doi:10.32917/hmj/1206128255.