दूरी सहसंबंध: Difference between revisions

From Vigyanwiki
Line 37: Line 37:


'''दूरी सहप्रसरण''' के जनसंख्या मान को उसी तर्ज पर परिभाषित किया जा सकता है। मान X एक यादृच्छिक चर है जो संभाव्यता वितरण μ के साथ एक पी-आयामी यूक्लिडियन स्थान में मान लेता है और Y को एक यादृच्छिक चर होने देता है जो एक q-आयामी यूक्लिडियन स्थान में मान लेता है संभाव्यता वितरण ν के साथ, और मान लीजिए कि X और Y की सीमित अपेक्षाएँ हैं। लिखें
'''दूरी सहप्रसरण''' के जनसंख्या मान को उसी तर्ज पर परिभाषित किया जा सकता है। मान X एक यादृच्छिक चर है जो संभाव्यता वितरण μ के साथ एक पी-आयामी यूक्लिडियन स्थान में मान लेता है और Y को एक यादृच्छिक चर होने देता है जो एक q-आयामी यूक्लिडियन स्थान में मान लेता है संभाव्यता वितरण ν के साथ, और मान लीजिए कि X और Y की सीमित अपेक्षाएँ हैं। लिखें
मान लीजिए ''कि _'' _ _ _ ''_'' _ ''_'' _ _ _ ''_'' _ ''_'' _ अपेक्षाएं


:<math>a_\mu(x):= \operatorname{E}[\|X-x\|], \quad D(\mu) := \operatorname{E}[a_\mu(X)], \quad d_\mu(x, x') := \|x-x'\|-a_\mu(x)-a_\mu(x')+D(\mu).
:<math>a_\mu(x):= \operatorname{E}[\|X-x\|], \quad D(\mu) := \operatorname{E}[a_\mu(X)], \quad d_\mu(x, x') := \|x-x'\|-a_\mu(x)-a_\mu(x')+D(\mu).
Line 56: Line 54:
\end{align}
\end{align}
</math>
</math>
जहां '''' अपेक्षित मान दर्शाता है, और <math>\textstyle (X, Y),</math> <math>\textstyle (X', Y'),</math> और <math>\textstyle (X'',Y'')</math> स्वतंत्र और समान रूप से वितरित हैं। प्राथमिक यादृच्छिक चर <math>\textstyle (X', Y')</math> और <math>\textstyle (X'',Y'')</math> निरूपित
जहां '''''E''''' अपेक्षित मान दर्शाता है, और <math>\textstyle (X, Y),</math> <math>\textstyle (X', Y'),</math> और <math>\textstyle (X'',Y'')</math> स्वतंत्र और समान रूप से वितरित हैं। प्राथमिक यादृच्छिक चर <math>\textstyle (X', Y')</math> और <math>\textstyle (X'',Y'')</math> निरूपित
चर की स्वतंत्र और समान रूप से वितरित (iid) प्रतियां <math>X</math> और <math>Y</math> और इसी तरह iid हैं।{{sfn|Székely|Rizzo|2014|p=11}} दूरी [[सहप्रसरण]] को पारम्परिक पियर्सन सहप्रसरण के संदर्भ में व्यक्त किया जा सकता है,
चर की स्वतंत्र और समान रूप से वितरित (iid) प्रतियां <math>X</math> और <math>Y</math> और इसी तरह iid हैं।{{sfn|Székely|Rizzo|2014|p=11}} दूरी [[सहप्रसरण]] को पारम्परिक पियर्सन सहप्रसरण के संदर्भ में व्यक्त किया जा सकता है, सीओवी, इस प्रकार है:
सीओवी, इस प्रकार है:


:<math>\operatorname{dCov}^2(X,Y) = \operatorname{cov}(\|X-X'\|,\|Y-Y'\|) - 2\operatorname{cov}(\|X-X'\|,\|Y-Y''\|).
:<math>\operatorname{dCov}^2(X,Y) = \operatorname{cov}(\|X-X'\|,\|Y-Y'\|) - 2\operatorname{cov}(\|X-X'\|,\|Y-Y''\|).
</math>
</math>
यह पहचान दर्शाती है कि दूरी सहप्रसरण दूरियों के सहप्रसरण के समान नहीं है, {{nowrap|cov({{norm|''X'' − ''X' ''}}, {{norm|''Y'' − ''Y' '' }}}}). यह शून्य हो सकता है भले ही X और Y स्वतंत्र न हों।
यह पहचान दर्शाती है कि दूरी सहप्रसरण दूरियों के सहप्रसरण के समान नहीं है, {{nowrap|cov({{norm|''X'' − ''X' ''}}, {{norm|''Y'' − ''Y' '' }}}})यह शून्य हो सकता है भले ही X और Y स्वतंत्र न हों।


वैकल्पिक रूप से, दूरी सहप्रसरण को भारित मानदण्ड (गणित)#Euclidean_norm|L के रूप में परिभाषित किया जा सकता है<sup>2</sup> यादृच्छिक चर के संयुक्त विशेषता फ़ंक्शन (संभाव्यता सिद्धांत) और उनके सीमांत विशेषता कार्यों के उत्पाद के बीच की दूरी का मानदंड:<ref name=SR2009a>{{harvnb|Székely|Rizzo|2009a|p=1249}}, Theorem 7, (3.7).</ref>
वैकल्पिक रूप से, दूरी सहप्रसरण को यादृच्छिक चर के संयुक्त विशेषता फ़ंक्शन और उनके सीमांत विशिष्ट कार्यों के उत्पाद के बीच दूरी के भारित l<sup>2</sup> मानक के रूप में परिभाषित किया जा सकता है:<ref name=SR2009a>{{harvnb|Székely|Rizzo|2009a|p=1249}}, Theorem 7, (3.7).</ref>
: <math>
: <math>
\operatorname{dCov}^2(X,Y)= \frac 1 {c_p c_q} \int_{\mathbb{R}^{p+q}} \frac{\left|\varphi_{X,Y}(s, t) - \varphi_X(s)\varphi_Y(t) \right|^2}{|s|_p^{1+p} |t|_q^{1+q}} \,dt\,ds
\operatorname{dCov}^2(X,Y)= \frac 1 {c_p c_q} \int_{\mathbb{R}^{p+q}} \frac{\left|\varphi_{X,Y}(s, t) - \varphi_X(s)\varphi_Y(t) \right|^2}{|s|_p^{1+p} |t|_q^{1+q}} \,dt\,ds

Revision as of 19:20, 25 June 2023

सांख्यिकी और प्रायिकता सिद्धांत में, दूरी सहसंबंध या दूरी सहसंयोजक, यादृच्छिक के दो युग्मित यादृच्छिक वैक्टर के बीच निर्भरता का एक माप है। जनसंख्या सहसंबंध गुणांक शून्य है अगर और केवल अगर यादृच्छिक वेक्टर स्वतंत्र है। इस प्रकार, दूरी सहसंबंध दो यादृच्छिक चर या यादृच्छिक वेक्टर के बीच रैखिक और गैर-रेखीय संबंध दोनों को मापता है। यह पियर्सन के सहसंबंध के विपरीत है,जो केवल दो यादृच्छिक चर के बीच रैखिक संबंध का आकलन कर सकता है।

दूरी सहसंबंध का उपयोग क्रमपरिवर्तन परीक्षण के साथ निर्भरता का सांख्यिकीय परीक्षण करने के लिए किया जा सकता है। सबसे पहले दो यादृच्छिक वैक्टरों के बीच दूरी सहसंबंध (यूक्लिडियन दूरी मैट्रिक्स के पुन: केंद्रित होने सहित) की गणना करता है और फिर इस मान की तुलना डेटा के कई फेरबदल के दूरी सहसंबंधों से करता है।

प्रत्येक सेट के लिए x और y के दूरी सहसंबंध गुणांक के साथ (x, y) बिंदुओं के कई सेट। सहसंबंध पर ग्राफ की तुलना करें

पृष्ठभूमि

निर्भरता का संरचनात्मक माप, पियर्सन सहसंबंध गुणांक, [1] दो चर के बीच एक रैखिक संबंध के लिए मुख्य संवेदनशील है. दूरी सहसंबंध 2005 में गैबोर जे द्वारा पेश किया गया था. पियर्सन के सहसंबंध के इस घाटे को दूर करने के लिए कई व्याख्यानों में स्ज़ेकली, अर्थात् यह निर्भर चर के लिए आसानी से शून्य हो सकता है. सहसंबंध = 0 ( असंबद्धता ) स्वतंत्रता का अर्थ नहीं है जबकि दूरी सहसंबंध = 0 स्वतंत्रता का अर्थ है. दूरी सहसंबंध पर पहला परिणाम 2007 और 2009 में प्रकाशित हुआ था।[2][3] यह प्रचारित किया गया था कि दूरी सहसंयोजक ब्राउनियन सहसंयोजक के समान है।[3] ये उपाय ऊर्जा दूरी के उदाहरण हैं.

निर्भरता का संरचनात्मक माप, पियर्सन सहसंबंध गुणांक, मुख्य रूप से दो चर के बीच एक रैखिक संबंध के प्रति संवेदनशील है. दूरी सहसंबंध 2005 में गैबोर जे द्वारा प्रस्तुत किया गया था. पियर्सन के सहसंबंध की इस कमी को दूर करने के लिए कई व्याख्यानों में स्ज़ेकली, अर्थात् यह निर्भर चर के लिए आसानी से शून्य हो सकता है. सहसंबंध = 0 ( असंबद्धता ) स्वतंत्रता का अर्थ नहीं है जबकि दूरी सहसंबंध = 0 स्वतंत्रता का अर्थ है. दूरी सहसंबंध पर पहला परिणाम 2007 और 2009 में प्रकाशित हुआ था। यह साबित हो गया था कि दूरी सहसंयोजक ब्राउनियन सहसंयोजक के समान है। ये माप ऊर्जा दूरियों के उदाहरण हैं।

दूरी सहसंबंध कई अन्य मात्राओं से लिया गया है जो इसके विनिर्देशन में उपयोग किए जाते हैं, विशेष रूप से: दूरी विचरण, दूरी मानक विचलन, और दूरी सहसंयोजक. ये मात्रा पियरसन गुणक सहसंबंध गुणांक के विनिर्देशन में संबंधित नामों के साथ सामान्य क्षणों के समान भूमिका निभाती हैं।

परिभाषाएँ

दूरी सहप्रसरण

आइए हम नमूना दूरी की परिभाषा के साथ प्रारंभ करें। मान लें (Xk, Yk), k = 1, 2, ..., n वास्तविक मूल्यवान या वेक्टर मूल्यवान यादृच्छिक चर की एक युग्म से एक सांख्यिकीय नमूना (X, Y) हो। सबसे पहले, n दूरी की मैट्रिसेस द्वारा n की गणना करें (aj, k) और (bj, k) जिसमें सभी युग्मन दूरी हैं।

जहां || ⋅ || यूक्लिडियन मानक को दर्शाता है. फिर सभी दोगुनी केंद्रित दूरी लें

जहां j-वें पंक्ति का माध्य है, k-वें स्तंभ का माध्य है, और X नमूने की दूरी मैट्रिक्स का भव्य माध्य है। b मानों के लिए अंकन समान है। (केंद्रित दूरियों (Aj, k) और (Bj,k) के आव्यूहों में सभी पंक्तियों और सभी स्तंभों का योग शून्य होता है।) वर्गित नमूना दूरी सहप्रसरण (एक अदिश राशि) केवल उत्पादों Aj, k Bj, k: का अंकगणितीय औसत है:

सांख्यिकीय Tn = n dCov2n(X, Y) यादृच्छिकआयामों में यादृच्छिक वैक्टर की स्वतंत्रता का एक सुसंगत बहुभिन्नरूपी परीक्षण निर्धारित करता है. कार्यान्वयन के लिए R के लिए ऊर्जा पैकेज में dcov.test फ़ंक्शन देखें।[4]

दूरी सहप्रसरण के जनसंख्या मान को उसी तर्ज पर परिभाषित किया जा सकता है। मान X एक यादृच्छिक चर है जो संभाव्यता वितरण μ के साथ एक पी-आयामी यूक्लिडियन स्थान में मान लेता है और Y को एक यादृच्छिक चर होने देता है जो एक q-आयामी यूक्लिडियन स्थान में मान लेता है संभाव्यता वितरण ν के साथ, और मान लीजिए कि X और Y की सीमित अपेक्षाएँ हैं। लिखें

अंत में, X और Y के वर्ग दूरी सहप्रसरण के जनसंख्या मान को इस प्रकार परिभाषित करें

कोई दिखा सकता है कि यह निम्नलिखित परिभाषा के बराबर है:

जहां E अपेक्षित मान दर्शाता है, और और स्वतंत्र और समान रूप से वितरित हैं। प्राथमिक यादृच्छिक चर और निरूपित चर की स्वतंत्र और समान रूप से वितरित (iid) प्रतियां और और इसी तरह iid हैं।[5] दूरी सहप्रसरण को पारम्परिक पियर्सन सहप्रसरण के संदर्भ में व्यक्त किया जा सकता है, सीओवी, इस प्रकार है:

यह पहचान दर्शाती है कि दूरी सहप्रसरण दूरियों के सहप्रसरण के समान नहीं है, cov(||XX' ||, ||YY' ||)। यह शून्य हो सकता है भले ही X और Y स्वतंत्र न हों।

वैकल्पिक रूप से, दूरी सहप्रसरण को यादृच्छिक चर के संयुक्त विशेषता फ़ंक्शन और उनके सीमांत विशिष्ट कार्यों के उत्पाद के बीच दूरी के भारित l2 मानक के रूप में परिभाषित किया जा सकता है:[6]

कहाँ , , और के विशेषता कार्य (संभावना सिद्धांत) हैं (X, Y), एक्स, और वाई, क्रमशः, पी, क्यू एक्स और वाई के यूक्लिडियन आयाम को दर्शाता है, और इस प्रकार एस और टी, और सीp, सीq स्थिरांक हैं। वजन समारोह स्केल इक्विवेरिएंट और रोटेशन इनवेरिएंट माप का उत्पादन करने के लिए चुना जाता है जो निर्भर चर के लिए शून्य पर नहीं जाता है।[6][7] अभिलाक्षणिक फलन परिभाषा की एक व्याख्या यह है कि चर eisX और ईitY s और t द्वारा दी गई विभिन्न अवधियों के साथ X और Y का चक्रीय निरूपण है, और व्यंजक ϕX, Y(s, t) − ϕX(s) ϕY(t) विशेषता फ़ंक्शन के अंश में दूरी सहप्रसरण की परिभाषा केवल e का क्लासिकल सहप्रसरण हैisX और ईआईटीवाई. विशिष्ट कार्य परिभाषा स्पष्ट रूप से दिखाती है डीकोव2(X, Y) = 0 यदि और केवल यदि X और Y स्वतंत्र हैं।

दूरी विचरण और दूरी मानक विचलन

दूरी विचरण दूरी सहप्रसरण का एक विशेष मामला है जब दो चर समान होते हैं। दूरी विचरण का जनसंख्या मान का वर्गमूल है

कहाँ , , और स्वतंत्र और समान रूप से वितरित यादृच्छिक चर हैं, अपेक्षित मूल्य को दर्शाता है, और समारोह के लिए , जैसे, .

नमूना दूरी प्रसरण का वर्गमूल है

जो 1912 में पेश किए गए कॉनराड गिन्नी के मीन निरपेक्ष अंतर का एक रिश्तेदार है (लेकिन गिन्नी ने केंद्रित दूरियों के साथ काम नहीं किया)।[8]

दूरी मानक विचलन दूरी विचरण का वर्गमूल है।

दूरी सहसंबंध

दूरी सहसंबंध [2]{{sfn|Székely|Rizzo|2009a}दो यादृच्छिक चरों का } उनके दूरी सहप्रसरण को उनके दूरी मानक विचलन के गुणनफल से विभाजित करके प्राप्त किया जाता है। दूरी सहसंबंध का वर्गमूल है

और नमूना दूरी सहसंबंध को उपरोक्त जनसंख्या गुणांक के लिए नमूना दूरी सहप्रसरण और दूरी प्रसरण को प्रतिस्थापित करके परिभाषित किया गया है।

नमूना दूरी सहसंबंध की आसान गणना के लिए R (प्रोग्रामिंग भाषा) के लिए ऊर्जा पैकेज में dcor फ़ंक्शन देखें।[4]

गुण

दूरी सहसंबंध

  1. and ; this is in contrast to Pearson's correlation, which can be negative.
  2. if and only if X and Y are independent.
  3. implies that dimensions of the linear subspaces spanned by X and Y samples respectively are almost surely equal and if we assume that these subspaces are equal, then in this subspace for some vector A, scalar b, and orthonormal matrix .

दूरी सहप्रसरण

  1. and ;
  2. for all constant vectors , scalars , and orthonormal matrices .
  3. If the random vectors and are independent then
    Equality holds if and only if and are both constants, or and are both constants, or are mutually independent.
  4. if and only if X and Y are independent.

यह अंतिम संपत्ति केंद्रित दूरियों के साथ काम करने का सबसे महत्वपूर्ण प्रभाव है।

आँकड़ा का पक्षपाती अनुमानक है . X और Y की स्वतंत्रता के तहत [9]

का एक निष्पक्ष अनुमानक शेकेली और रिज़ो द्वारा दिया गया है।[10]

दूरी विचरण

  1. if and only if almost surely.
  2. if and only if every sample observation is identical.
  3. for all constant vectors A, scalars b, and orthonormal matrices .
  4. If X and Y are independent then .

समानता (iv) में होती है यदि और केवल यदि यादृच्छिक चर में से एक X या Y स्थिरांक है।

सामान्यीकरण

यूक्लिडियन दूरी की शक्तियों को शामिल करने के लिए दूरी सहप्रसरण को सामान्यीकृत किया जा सकता है। परिभाषित करना

फिर प्रत्येक के लिए , और स्वतंत्र हैं अगर और केवल अगर . यह ध्यान रखना महत्वपूर्ण है कि यह लक्षण वर्णन एक्सपोनेंट के लिए नहीं है ; इस मामले में bivariate के लिए , पियर्सन सहसंबंध का एक नियतात्मक कार्य है।[2] अगर और हैं संबंधित दूरियों की शक्तियां, , तब नमूना दूरी सहप्रसरण को गैर-नकारात्मक संख्या के रूप में परिभाषित किया जा सकता है

कोई विस्तार कर सकता है मीट्रिक स्थान के लिए | मेट्रिक-स्पेस-वैल्यू यादृच्छिक चर और : अगर कानून है मीट्रिक के साथ एक मीट्रिक स्थान में , फिर परिभाषित करें , , और (प्रदान किया गया परिमित है, अर्थात्, पहला क्षण परिमित है), . तो अगर कानून है (परिमित पहले क्षण के साथ संभावित रूप से भिन्न मीट्रिक स्थान में), परिभाषित करें

यह ऐसे सभी के लिए गैर-नकारात्मक है iff दोनों मीट्रिक रिक्त स्थान नकारात्मक प्रकार के होते हैं।[11] यहां, एक मीट्रिक स्थान यदि नकारात्मक प्रकार है हिल्बर्ट अंतरिक्ष के एक सबसेट के लिए आइसोमेट्री है।[12] अगर दोनों मेट्रिक स्पेस में स्ट्रॉन्ग नेगेटिव टाइप है, तो आईएफएफ स्वतंत्र हैं।[11]

दूरी सहप्रसरण की वैकल्पिक परिभाषा

मूल दूरी सहसंबंध#दूरी सहप्रसरण को के वर्गमूल के रूप में परिभाषित किया गया है , चुकता गुणांक के बजाय। संपत्ति है कि यह संयुक्त वितरण के बीच ऊर्जा की दूरी है और इसके मार्जिन का उत्पाद। इस परिभाषा के तहत, हालांकि, दूरी मानक विचलन के बजाय दूरी भिन्नता को उसी इकाइयों में मापा जाता है दूरियां।

वैकल्पिक रूप से, ऊर्जा दूरी के वर्ग के रूप में 'दूरी सहप्रसरण' को परिभाषित किया जा सकता है: इस मामले में, की दूरी मानक विचलन के समान इकाइयों में मापा जाता है दूरी, और जनसंख्या दूरी सहप्रसरण के लिए एक निष्पक्ष अनुमानक मौजूद है।[10]

इन वैकल्पिक परिभाषाओं के अंतर्गत, दूरी सहसंबंध को वर्ग के रूप में भी परिभाषित किया गया है , वर्गमूल के बजाय।

वैकल्पिक सूत्रीकरण: ब्राउनियन सहप्रसरण

ब्राउनियन कोवैरियंस स्टोचैस्टिक प्रक्रियाओं के लिए कॉन्वर्सिस की धारणा के सामान्यीकरण से प्रेरित है। यादृच्छिक चर X और Y के सहप्रसरण के वर्ग को निम्न रूप में लिखा जा सकता है:

जहां ई अपेक्षित मूल्य को दर्शाता है और अभाज्य स्वतंत्र और समान रूप से वितरित प्रतियों को दर्शाता है। हमें इस सूत्र के निम्नलिखित सामान्यीकरण की आवश्यकता है। यदि यू (एस), वी (टी) मनमानी यादृच्छिक प्रक्रियाएं हैं जो सभी वास्तविक एस और टी के लिए परिभाषित हैं तो एक्स के यू-केंद्रित संस्करण को परिभाषित करें

जब भी घटाया गया सशर्त अपेक्षित मूल्य मौजूद होता है और Y द्वारा निरूपित होता हैV Y का V-केंद्रित संस्करण।[3][13][14] (यू, वी) सहप्रसरण (एक्स, वाई) को गैर-नकारात्मक संख्या के रूप में परिभाषित किया गया है जिसका वर्ग है

जब भी दाहिना हाथ गैर-नकारात्मक और परिमित होता है। सबसे महत्वपूर्ण उदाहरण है जब यू और वी दो तरफा स्वतंत्र एक प्रकार कि गति / वीनर प्रक्रिया शून्य और सहप्रसरण की अपेक्षा के साथ होते हैं |s| + |t| − |st| = 2 min(s,t) (नॉननेगेटिव एस के लिए, केवल टी)। (यह मानक वीनर प्रक्रिया से दोगुना सहप्रसरण है; यहां कारक 2 संगणना को सरल करता है।) इस मामले में (U,V) सहप्रसरण को 'ब्राउनियन सहप्रसरण' कहा जाता है और इसे इसके द्वारा निरूपित किया जाता है।

एक आश्चर्यजनक संयोग है: ब्राउनियन सहप्रसरण दूरी सहप्रसरण के समान है:

और इस प्रकार ब्राउनियन सहसंबंध दूरी सहसंबंध के समान है।

दूसरी ओर, यदि हम ब्राउनियन गति को नियतात्मक पहचान समारोह आईडी से प्रतिस्थापित करते हैं तो Covid(एक्स, वाई) शास्त्रीय पियर्सन सहप्रसरण का केवल निरपेक्ष मान है,


संबंधित मेट्रिक्स

कर्नेल-आधारित सहसंबंधी मेट्रिक्स (जैसे हिल्बर्ट-श्मिट इंडिपेंडेंस क्राइटेरियन या HSIC) सहित अन्य सहसंबंधी मेट्रिक्स भी रैखिक और गैर-रैखिक इंटरैक्शन का पता लगा सकते हैं। दूरी सहसंबंध और कर्नेल-आधारित मेट्रिक्स दोनों का उपयोग मजबूत सांख्यिकीय शक्ति प्राप्त करने के लिए विहित सहसंबंध विश्लेषण और स्वतंत्र घटक विश्लेषण जैसे तरीकों में किया जा सकता है।

यह भी देखें

  • आरवी गुणांक
  • संबंधित तीसरे क्रम के आंकड़े के लिए, तिरछापन#दूरी तिरछापन देखें।

टिप्पणियाँ


संदर्भ


बाहरी संबंध