पियर्सन सहसंबंध गुणांक: Difference between revisions

From Vigyanwiki
(TEXT)
No edit summary
 
(3 intermediate revisions by 3 users not shown)
Line 361: Line 361:
इस तरह परिभाषित पियर्सन <nowiki>''दूरी''</nowiki> नकारात्मक सहसंबंधों को 1 से अधिक की दूरी प्रदान करती है। वास्तव में, दृढ़ सकारात्मक सहसंबंध और नकारात्मक सहसंबंध दोनों अर्थपूर्ण हैं, इसलिए ध्यान रखना चाहिए जब पियर्सन <nowiki>''दूरी''</nowiki> का उपयोग निकटतम प्रतिवेशी कलनविधि के लिए किया जाता है क्योंकि इस तरह के कलनविधि में केवल सकारात्मक सहसंबंध वाले प्रतिवेशी को सम्मलित किया जाएगा और नकारात्मक सहसंबंध वाले प्रतिवेशी को बाहर कर दिया जाएगा। वैकल्पिक रूप से, एक पूर्ण मूल्यवान दूरी, <math>d_{X,Y}=1-|\rho_{X,Y}|</math>, उपयोजित की जा सकती है, जो सकारात्मक और नकारात्मक दोनों सहसंबंधों को ध्यान में रखी जाएगी। सकारात्मक और नकारात्मक संघ की जानकारी बाद में अलग-अलग निकाली जा सकती है।
इस तरह परिभाषित पियर्सन <nowiki>''दूरी''</nowiki> नकारात्मक सहसंबंधों को 1 से अधिक की दूरी प्रदान करती है। वास्तव में, दृढ़ सकारात्मक सहसंबंध और नकारात्मक सहसंबंध दोनों अर्थपूर्ण हैं, इसलिए ध्यान रखना चाहिए जब पियर्सन <nowiki>''दूरी''</nowiki> का उपयोग निकटतम प्रतिवेशी कलनविधि के लिए किया जाता है क्योंकि इस तरह के कलनविधि में केवल सकारात्मक सहसंबंध वाले प्रतिवेशी को सम्मलित किया जाएगा और नकारात्मक सहसंबंध वाले प्रतिवेशी को बाहर कर दिया जाएगा। वैकल्पिक रूप से, एक पूर्ण मूल्यवान दूरी, <math>d_{X,Y}=1-|\rho_{X,Y}|</math>, उपयोजित की जा सकती है, जो सकारात्मक और नकारात्मक दोनों सहसंबंधों को ध्यान में रखी जाएगी। सकारात्मक और नकारात्मक संघ की जानकारी बाद में अलग-अलग निकाली जा सकती है।


=== वृत्तीय सहसंबंध गुणांक===
=== परिपत्र सहसंबंध गुणांक===
{{further|वृत्तीय सांख्यिकी}}
{{further|परिपत्र सांख्यिकी}}


चर ''X'' = {''x''<sub>1</sub>,...,''x<sub>n</sub>''} और ''Y'' = {''y''<sub>1</sub>,...,''y<sub>n</sub>''} के लिए जो ईकाई वृत्त {{Not a typo|{{closed-open|0, 2π}}}} पर परिभाषित हैं, पियर्सन के गुणांक के एक परिपत्र अनुरूप को परिभाषित करना संभव है।<ref name="SRJ">{{cite book |title=परिपत्र सांख्यिकी में विषय|last1=Jammalamadaka |first1=S. Rao |last2=SenGupta |first2=A. |year=2001 |publisher=World Scientific |location=New Jersey |isbn=978-981-02-3778-3 |page=176 |url=https://books.google.com/books?id=sKqWMGqQXQkC&q=Jammalamadaka+Topics+in+circular |access-date=21 September 2016}}</ref> यह ''X'' और ''Y'' में डेटा बिंदुओं को एक[[ उन लोगों के | ज्या]] फलन के साथ परिवर्तित करके किया जाता है जैसे कि सहसंबंध गुणांक इस प्रकार दिया जाता है:
चर ''X'' = {''x''<sub>1</sub>,...,''x<sub>n</sub>''} और ''Y'' = {''y''<sub>1</sub>,...,''y<sub>n</sub>''} के लिए जो ईकाई वृत्त {{Not a typo|{{closed-open|0, 2π}}}} पर परिभाषित हैं, पियर्सन के गुणांक के एक परिपत्र अनुरूप को परिभाषित करना संभव है।<ref name="SRJ">{{cite book |title=परिपत्र सांख्यिकी में विषय|last1=Jammalamadaka |first1=S. Rao |last2=SenGupta |first2=A. |year=2001 |publisher=World Scientific |location=New Jersey |isbn=978-981-02-3778-3 |page=176 |url=https://books.google.com/books?id=sKqWMGqQXQkC&q=Jammalamadaka+Topics+in+circular |access-date=21 September 2016}}</ref> यह ''X'' और ''Y'' में डेटा बिंदुओं को एक[[ उन लोगों के | ज्या]] फलन के साथ परिवर्तित करके किया जाता है जैसे कि सहसंबंध गुणांक इस प्रकार दिया जाता है:
Line 435: Line 435:
{{Authority control}}
{{Authority control}}


{{DEFAULTSORT:Pearson product-moment correlation coefficient}}[[Category: सहसंबंध संकेतक]] [[Category: पैरामीट्रिक आँकड़े]] [[Category: सांख्यिकीय अनुपात]]
{{DEFAULTSORT:Pearson product-moment correlation coefficient}}


 
[[Category:All articles with unsourced statements|Pearson product-moment correlation coefficient]]
 
[[Category:Articles with hatnote templates targeting a nonexistent page|Pearson product-moment correlation coefficient]]
[[Category: Machine Translated Page]]
[[Category:Articles with unsourced statements from April 2012|Pearson product-moment correlation coefficient]]
[[Category:Created On 31/05/2023]]
[[Category:Articles with unsourced statements from February 2015|Pearson product-moment correlation coefficient]]
[[Category:Articles with unsourced statements from January 2011|Pearson product-moment correlation coefficient]]
[[Category:Articles with unsourced statements from November 2009|Pearson product-moment correlation coefficient]]
[[Category:CS1]]
[[Category:CS1 English-language sources (en)|Pearson product-moment correlation coefficient]]
[[Category:CS1 errors]]
[[Category:CS1 français-language sources (fr)]]
[[Category:Collapse templates|Pearson product-moment correlation coefficient]]
[[Category:Created On 31/05/2023|Pearson product-moment correlation coefficient]]
[[Category:Lua-based templates|Pearson product-moment correlation coefficient]]
[[Category:Machine Translated Page|Pearson product-moment correlation coefficient]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Pearson product-moment correlation coefficient]]
[[Category:Pages with empty portal template|Pearson product-moment correlation coefficient]]
[[Category:Pages with script errors|Pearson product-moment correlation coefficient]]
[[Category:Portal-inline template with redlinked portals|Pearson product-moment correlation coefficient]]
[[Category:Portal templates with redlinked portals|Pearson product-moment correlation coefficient]]
[[Category:Sidebars with styles needing conversion|Pearson product-moment correlation coefficient]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Pearson product-moment correlation coefficient]]
[[Category:Templates generating microformats|Pearson product-moment correlation coefficient]]
[[Category:Templates that add a tracking category|Pearson product-moment correlation coefficient]]
[[Category:Templates that are not mobile friendly|Pearson product-moment correlation coefficient]]
[[Category:Templates that generate short descriptions|Pearson product-moment correlation coefficient]]
[[Category:Templates using TemplateData|Pearson product-moment correlation coefficient]]
[[Category:Wikipedia articles needing clarification from February 2015|Pearson product-moment correlation coefficient]]
[[Category:Wikipedia articles needing page number citations from September 2010]]
[[Category:Wikipedia metatemplates|Pearson product-moment correlation coefficient]]
[[Category:पैरामीट्रिक आँकड़े|Pearson product-moment correlation coefficient]]
[[Category:सहसंबंध संकेतक|Pearson product-moment correlation coefficient]]
[[Category:सांख्यिकीय अनुपात|Pearson product-moment correlation coefficient]]

Latest revision as of 11:36, 23 June 2023

सांख्यिकी में, पियर्सन सहसंबंध गुणांक (पीसीसी, उच्चारित /ˈpɪərsən/) - जिसे पियर्सन r के रूप में भी जाना जाता है, पियर्सन गुणन आघूर्ण सहसंबंध गुणांक (पीपीएमसीसी), द्विचर सहसंबंध,[1] या प्रचलित भाषा में केवल सहसंबंध गुणांक के रूप में[2] - डेटा के दो समुच्चय के मध्य रैखिक सहसंबंध का एक परिमाण है। यह दो चरों के सहप्रसरण और उनके मानक विचलनों के गुणनफल के मध्य का अनुपात है; इस प्रकार, यह अनिवार्य रूप से सहप्रसरण का एक सामान्यीकृत माप है, जैसे कि परिणाम में हमेशा -1 और 1 के मध्य का मान होता है। सहप्रसरण के साथ ही, माप केवल चरों के एक रैखिक सहसंबंध को प्रतिबिंबित कर सकता है, और कई अन्य प्रकार के संबंधों या सहसंबंधों की उपेक्षा कर सकता है। एक साधारण उदाहरण के रूप में, एक हाई स्कूल के किशोरों के प्रतिरूप की उम्र और ऊंचाई की अपेक्षा करेगा कि पियर्सन सहसंबंध गुणांक 0 से अधिक है, लेकिन 1 से कम (1 के रूप में एक अवास्तविक रूप से पूर्ण सहसंबंध का प्रतिनिधित्व करेगा) है।

सहसंबंध गुणांक (ρ) के विभिन्न मूल्यों के साथ प्रकीर्ण आरेखों के उदाहरण
प्रत्येक समुच्चय के लिए x और y के सहसंबंध गुणांक के साथ (x, y) बिंदुओं के कई समुच्चय है। सहसंबंध एक रेखीय संबंध (शीर्ष पंक्ति) की शक्ति और दिशा को दर्शाता है, लेकिन उस संबंध (मध्य) की ढलान नहीं, न ही अरैखिक संबंधों (नीचे) के कई पहलू है। N.B: केंद्र में आकृति में 0 की ढलान है लेकिन उस प्रकरण में सहसंबंध गुणांक अपरिभाषित है क्योंकि Y का भिन्नता शून्य है।

नामकरण और इतिहास

यह 1880 के दशक में फ्रांसिस गैल्टन द्वारा प्रस्तावित किए गए एक संबंधित विचार से कार्ल पियर्सन द्वारा विकसित किया गया था, और जिसके लिए गणितीय सूत्र 1844 में अगस्टे ब्रावाइस द्वारा व्युत्पन्न और प्रकाशित किया गया था।[lower-alpha 1][6][7][8][9] इस प्रकार गुणांक का नामकरण स्टिग्लर के नियम का एक उदाहरण है।

परिभाषा

पियर्सन का सहसंबंध गुणांक उनके मानक विचलन के उत्पाद द्वारा विभाजित दो चर का सहप्रसरण है। परिभाषा के रूप में ''गुणन आघूर्ण'' सम्मलित है, अर्थात, माध्य-समायोजित यादृच्छिक चर के उत्पाद का माध्य (मूल के बारे में पहला क्षण); इसलिए नाम में संशोधक गुणन आघूर्ण सम्मलित है।

जनसंख्या के लिए

पियर्सन का सहसंबंध गुणांक, जब जनसंख्या पर उपयोजित किया जाता है, सामान्यतः ग्रीक अक्षर ρ (rho) द्वारा दर्शाया जाता है और इसे जनसंख्या सहसंबंध गुणांक या जनसंख्या पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जा सकता है। यादृच्छिक चर की एक जोड़ी को देखते हुए, ρ के लिए सूत्र[10] है।[11]

जहाँ

  • सहप्रसरण है
  • , का मानक विचलन है
  • , का मानक विचलन है।

के सूत्र को माध्य और अपेक्षा के संदर्भ में व्यक्त किया जा सकता है। क्योंकि[10]

का सूत्र इस प्रकार भी लिखा जा सकता है

जहाँ

  • और को ऊपर के रूप में परिभाषित किया गया है
  • , का माध्य है
  • , का माध्य है
  • प्रत्याशी है।

के सूत्र को अकेंद्रित आघूर्ण के संदर्भ में व्यक्त किया जा सकता है। तब से

के सूत्र को इस रूप में भी लिखा जा सकता हैं।

पियर्सन का सहसंबंध गुणांक प्रस्तुत नहीं होता है जब या शून्य, अनंत या अपरिभाषित होता हैं।

एक प्रतिरूप के लिए

पियर्सन का सहसंबंध गुणांक, जब एक प्रतिरूप (सांख्यिकी) पर उपयोजित किया जाता है, सामान्यतः द्वारा दर्शाया जाता है और इसे प्रतिदर्श सहसंबंध गुणांक या प्रतिदर्श पियर्सन सहसंबंध गुणांक के रूप में संदर्भित किया जाता है। उपरोक्त सूत्र में एक प्रतिरूप के आधार पर सहप्रसरण और प्रसरण के अनुमानों को प्रतिस्थापित करके के लिए एक सूत्र प्राप्त किया जाता है। दिए गए युग्मित डेटा में जोड़े सम्मिलित हैं, को इस रूप में परिभाषित किया गया हैं।

जहाँ

  • प्रतिदर्श आकार है
  • i के साथ अनुक्रमित व्यक्तिगत प्रतिदर्श बिंदु हैं
  • (प्रतिदर्श माध्य); और इसी तरह के लिए हैं।

पुनर्व्यवस्थित करने से हमें के लिए यह सूत्र मिलता है:

जहाँ को ऊपर के रूप में परिभाषित किया गया है।

यह सूत्र प्रतिदर्श सहसंबंधों की गणना के लिए एक सुविधाजनक एकल पारण कलनविधीय का संकेत देता है, हालांकि सम्मलित संख्याओं के आधार पर, यह कभी-कभी संख्यात्मक रूप से अस्थिर हो सकता है।

पुनर्व्यवस्थित करने से हमें के लिए यह [10]सूत्र मिलता है:

जहाँ को ऊपर के रूप में परिभाषित किया गया है।

एक समतुल्य अभिव्यक्ति के लिए मानक अंकों के गुणनफल के माध्य के रूप में निम्न सूत्र देता है:

जहाँ

  • को ऊपर के रूप में परिभाषित किया गया है, और को नीचे परिभाषित किया गया है।
  • मानक प्राप्तांक है (और समान रूप से के मानक प्राप्तांक के लिए)।

के लिए वैकल्पिक सूत्र भी उपलब्ध हैं। उदाहरण के लिए, कोई के लिए निम्न सूत्र का उपयोग कर सकता है:

जहाँ

  • उपरोक्त रूप में परिभाषित किया गया है और:
  • (प्रतिदर्श मानक विचलन); और समान रूप से के लिए है।

व्यावहारिक परिणाम

अधिक संकेत की स्थिति के अंतर्गत, यादृच्छिक चर के दो समुच्चय के मध्य सहसंबंध गुणांक को निकालना गैर-तुच्छ है, विशेष रूप से जहां विहित सहसंबंध विश्लेषण अधिक संकेत योगदान के कारण सहसंबंध मूल्यों को कम करता है। दृष्टिकोण का एक सामान्यीकरण अन्यत्र दिया गया है।[12]

विलुप्त डेटा के प्रकरण में, गैरेन ने अधिकतम संभावना अनुमानक निकाला है।[13]

कुछ वितरण (उदाहरण के लिए, सामान्य वितरण के अलावा स्थिर वितरण) में परिभाषित भिन्नता नहीं होती है।

गणितीय गुण

प्रतिदर्श और जनसंख्या दोनों के मान पियर्सन सहसंबंध गुणांक −1 और 1 के मध्य या उसके मध्य हैं। +1 या −1 के समान सहसंबंध एक रेखा (प्रतिदर्श सहसंबंध के प्रकरण में) पर स्थित डेटा बिंदुओं के अनुरूप होते हैं, या एक रेखा पर पूरी तरह से समर्थित द्विभाजित वितरण (जनसंख्या सहसंबंध के प्रकरण में) के अनुरूप होते हैं। पियर्सन सहसंबंध गुणांक corr(X,Y) = corr(Y,X) सममित है।

पियर्सन सहसंबंध गुणांक का एक प्रमुख गणितीय गुण है कि यह दो चरों में स्थान और मापक में अलग-अलग परिवर्तनों के अंतर्गत अपरिवर्तनीय है। अर्थात्, हम X को a + bX में बदल सकते हैं और Y को c + dY में रूपांतरित कर सकते हैं, जहां a, b, c और d, b, d > 0 के साथ स्थिरांक हैं, सहसंबंध गुणांक को बदले बिना स्थिरांक हैं। (यह जनसंख्या और प्रतिदर्श पियर्सन सहसंबंध गुणांक दोनों के लिए है।) अधिक सामान्य रैखिक परिवर्तन सहसंबंध को बदलते हैं: § Notes अनुप्रयोग के लिए n यादृच्छिक चर का सहसंबंध देखें।

व्याख्या

सहसंबंध गुणांक -1 से 1 तक होता है। यथार्थत: 1 के निरपेक्ष मान का तात्पर्य है कि एक रैखिक समीकरण X और Y के मध्य संबंध का पूरी तरह से वर्णन करता है, जिसमें सभी डेटा बिंदु एक रेखा (गणित) पर होते हैं। सहसंबंध चिह्न प्रतिगमन समतल द्वारा निर्धारित किया जाता है: +1 के मान का अर्थ है कि सभी डेटा बिंदु एक रेखा पर स्थित हैं जिसके लिए Y बढ़ता है क्योंकि X बढ़ता है, और इसके विपरीत -1 के लिए है।[14] 0 के मान का तात्पर्य है कि चरों के मध्य कोई रैखिक निर्भरता नहीं है।[15]

सामान्यतः अधिक, (XiX)(YiY) धनात्मक है यदि और केवल यदि Xi और Yi अपने संबंधित साधनों के एक ही तरफ सिद्ध होते हैं। इस प्रकार सहसंबंध गुणांक धनात्मक होता है यदि Xi और Yi एक साथ अपने संबंधित साधनों से अधिक या एक साथ कम होते हैं। सहसंबंध गुणांक ऋणात्मक (सहसंबंध विरोधी) होता है यदि Xi और Yi अपने संबंधित साधनों के विपरीत पक्ष में सिद्ध होते हैं। इसके अलावा, या तो प्रवृत्ति जितनी दृढ़ होती है, सहसंबंध गुणांक का निरपेक्ष मान उतना ही बृहत्तर होता है।

रोजर्स और नाइसवेंडर[16] ने सहसंबंध या इसके सरल फलनों की व्याख्या करने के तेरह प्रकारो को सूचीबद्ध किया:

  • मूल प्राप्‍तांक और साधनों का फलन
  • मानकीकृत सहप्रसरण
  • प्रतिगमन रेखा का मानकीकृत ढलान
  • दो प्रतिगमन ढलानों का ज्यामितीय माध्य
  • दो भिन्नताओं के अनुपात का वर्गमूल
  • मानकीकृत चरों का माध्य अन्योन्य गुणन
  • दो मानकीकृत प्रतिगमन रेखाओं के मध्य कोण का फलन
  • दो चर सदिशों के मध्य कोण का फलन
  • मानकीकृत अंकों के मध्य अंतर का पुन: स्केल किया गया प्रसरण
  • बैलून नियम से अनुमानित
  • सम-सांद्रता के द्विभाजित दीर्घवृत्त से संबंधित
  • उस विषय में किए गए प्रयोगों से परीक्षण सांख्यिकी का फलन
  • दो का अनुपात माध्यम

ज्यामितीय व्याख्या

y = gX(x) [red] और x = gY(y) [blue] के लिए प्रतिक्रमण रेखा

अकेंद्रित डेटा के लिए, सहसंबंध गुणांक और कोण φ के मध्य दो प्रतिगमन रेखाओं, y = gX(x) और x = gY(y) के मध्य एक संबंध है, जो क्रमशः y पर x और x पर y को प्रतिगमन करके प्राप्त किया जाता है। (यहाँ, φ को रेखाओ के प्रतिच्छेदन बिंदु के चारों ओर बनने वाले पहले चतुर्थांश के अंतर्गत वामावर्त मापा जाता है यदि r > 0, या चौथे से दूसरे चतुर्थांश तक विपरीत दिशा में मापा जाता है यदि r < 0 है) कोई यह दिखा सकता है[17] कि यदि मानक विचलन समान हैं, तब r = sec φ − tan φ, जहाँ sec और tan त्रिकोणमितीय फलन हैं।

केंद्रित डेटा के लिए (अर्थात, डेटा जो उनके संबंधित चर के प्रतिदर्श माध्यम से स्थानांतरित कर दिया गया है ताकि प्रत्येक चर के लिए औसत शून्य हो), सहसंबंध गुणांक को N-विमीय समष्टि में दो देखे गए सदिश के मध्य कोण θ के कोज्या के रूप में भी देखा जा सकता है (प्रत्येक चर के N अवलोकनों के लिए)।[18]

किसी डेटासमुच्चय के लिए अकेंद्रित (गैर-पियर्सन-अनुपालन) और केंद्रित सहसंबंध गुणांक दोनों निर्धारित किए जा सकते हैं। एक उदाहरण के रूप में, मान लीजिए कि पाँच देशों में क्रमशः 1, 2, 3, 5 और 8 बिलियन डॉलर के सकल राष्ट्रीय उत्पाद पाए जाते हैं। मान लीजिए इन्हीं पांच देशों में (इसी क्रम में) 11%, 12%, 13%, 15% और 18% गरीबी पाई जाती है। फिर x और y को उपरोक्त डेटा वाले 5-तत्व सदिश का आदेश: x = (1, 2, 3, 5, 8) और y = (0.11, 0.12, 0.13, 0.15, 0.18) है।

दो सदिशों (बिंदु गुणनफल देखें) के मध्य कोण θ निर्धारण की सामान्य प्रक्रिया के अनुसार, अकेंद्रित सहसंबंध गुणांक है।

यह अकेंद्रित सहसंबंध गुणांक कोज्या समानता के समान है। उपरोक्त डेटा को ध्यानपूर्वक पूरी तरह से सहसंबद्ध y = 0.10 + 0.01 x के लिए चयन किया गया था। पियर्सन सहसंबंध गुणांक इसलिए यथार्थत: एक होना चाहिए। डेटा को केंद्रित करना (x को ℰ(x) = 3.8 और y को ℰ(y) = 0.138 से स्थानांतरित करने पर x = (−2.8, −1.8, −0.8, 1.2, 4.2) और y = (−0.028, −0.018, −0.008, 0.012, 0.042) प्राप्त होता है, जिससे

अपेक्षा के अनुरूप है।

सहसंबंध के आकार की व्याख्या

यह आंकड़ा इस बात का बोध कराता है कि मूल्यों की भविष्यवाणी करने के लिए पियर्सन सहसंबंध की उपयोगिता इसके परिमाण के साथ कैसे भिन्न होती है। सह-संबंध ρ, 1−/1−p2 (यहां ρ के फलन के रूप में प्लॉट किया गया) के साथ संयुक्त रूप से सामान्य X, Y को देखते हुए, वह कारक है जिसके द्वारा Y के लिए दिए गए भविष्यवाणी अंतराल को X के संबंधित मान को कम किया जा सकता है। उदाहरण के लिए, यदि ρ = 0.5, तो Y|X का 95% पूर्वानुमान अंतराल, Y के 95% पूर्वानुमान अंतराल से लगभग 13% छोटा होता है।

कई लेखकों ने सहसंबंध गुणांक की व्याख्या के लिए दिशा-निर्देश दिए हैं।[19][20] हालाँकि, ऐसे सभी मानदंड एक तरह से स्वेच्छाचारी हैं।[20] सहसंबंध गुणांक की व्याख्या संदर्भ और उद्देश्यों पर निर्भर करती है। 0.8 का सहसंबंध बहुत कम हो सकता है यदि कोई उच्च गुणवत्ता वाले उपकरणों का उपयोग करके भौतिक कानून की पुष्टि कर रहा है, लेकिन सामाजिक विज्ञानों में इसे बहुत अधिक माना जा सकता है, जहां जटिल कारकों से अधिक योगदान हो सकता है।

अनुमान

पियर्सन के सहसंबंध गुणांक पर आधारित सांख्यिकीय निष्कर्ष प्रायः निम्नलिखित दो लक्ष्यों में से एक पर केंद्रित होता है:

  • एक उद्देश्य शून्य परिकल्पना का परीक्षण करना है कि सही सहसंबंध गुणांक ρ 0 के समान है, जो प्रतिदर्श सहसंबंध गुणांक r के मान पर आधारित है।
  • दूसरा उद्देश्य एक विश्वास अंतराल प्राप्त करना है, जिसमें पुनरावर्ती प्रतिरूप लेने पर ρ होने की संभावना है।

हम नीचे इनमें से एक या दोनों लक्ष्यों को प्राप्त करने के पद्धति पर विचार करते हैं।

क्रमपरिवर्तन परीक्षण का उपयोग करना

क्रमचय परीक्षण परिकल्पना परीक्षण करने और विश्वास अंतराल के निर्माण के लिए एक सीधा दृष्टिकोण प्रदान करता हैं। पियर्सन के सहसंबंध गुणांक के लिए एक क्रमचय परीक्षण में निम्नलिखित दो चरण सम्मलित हैं:

  1. मूल युग्मित डेटा (xi, yi) का उपयोग करके, एक नया डेटा समुच्चय (xi, yi) बनाने के लिए जोड़े को यादृच्छिक रूप से फिर से परिभाषित करें, जहां i' समुच्चय {1,...,n} का क्रमचय है। क्रमचय i' को यादृच्छिक रूप से चयन किया गया है, जिसमें सभी n! संभावित क्रमपरिवर्तनों पर समान संभावनाएँ रखी गई हैं। यह समुच्चय {1, ..., n} से प्रतिस्थापन के बिना i' को यादृच्छिक रूप से रेखाचित्र के समान है। बूटस्ट्रैपिंग (सांख्यिकी) में, एक निकट से संबंधित दृष्टिकोण, i और i' समान हैं और {1, ..., n} से प्रतिस्थापन के साथ विकृत किए गए हैं;
  2. यादृच्छिक डेटा से एक सहसंबंध गुणांक r का निर्माण करें।

क्रमचय परीक्षण करने के लिए, चरण (1) और (2) को बड़ी संख्या में दोहराते हैं। क्रमचय परीक्षण के लिए p-मान चरण (2) में उत्पन्न r मानों का अनुपात है जो पियर्सन सहसंबंध गुणांक से बड़ा है जिसकी गणना मूल डेटा से की गई थी। यहां ''बृहत्तर'' का अर्थ या तो यह हो सकता है कि मूल्य परिमाण में बड़ा है, या हस्ताक्षरित मूल्य में बड़ा है, यह इस बात पर निर्भर करता है कि दो तरफा या एक तरफा परीक्षण वांछित है या नहीं है।

बूटस्ट्रैप का उपयोग

पियर्सन के सहसंबंध गुणांक के लिए विश्वास्यता अंतराल बनाने के लिए बूटस्ट्रैपिंग (सांख्यिकी) का उपयोग किया जा सकता है। ''अप्राचल'' बूटस्ट्रैप में, n जोड़े (xi, yi) को n जोड़े के देखे गए समुच्चय से ''प्रतिस्थापन के साथ'' पुनः प्रतिचयन किया जाता है, और सहसंबंध गुणांक r की गणना पुन: प्रतिदर्श डेटा के आधार पर की जाती है। इस प्रक्रिया को बड़ी संख्या में बार-बार दोहराया जाता है, और पुनरुत्पादित r मानों के अनुभवजन्य वितरण का उपयोग सांख्यिकी के प्रतिदर्शकरण वितरण को अनुमानित करने के लिए किया जाता है। ρ के लिए 95% विश्वास्यता अंतराल को पुनः प्रतिचयन किए गए r मानों के 2.5वें से 97.5वें प्रतिशतता तक विस्तरित अंतराल के रूप में परिभाषित किया जा सकता है।

मानक त्रुटि

अगर और यादृच्छिक चर हैं, अशक्त प्रकरण में सहसंबंध से जुड़ी एक मानक त्रुटि है।

जहाँ सहसंबंध (मान लिया गया है कि r≈0) और प्रतिदर्श आकार है।[21][22]

छात्र के t-वितरण का प्रयोग करके परीक्षण

पियर्सन के सहसंबंध गुणांक के महत्वपूर्ण मान जिन्हें 0.05 के स्तर पर महत्वपूर्ण रूप से अशून्य माना जाना चाहिए।

एक असंबद्ध द्विभाजित सामान्य वितरण से जोड़े के लिए, छात्रकृत पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण स्वतंत्रता की डिग्री n − 2 के साथ छात्र के t-वितरण का अनुसरण करता है। विशेष रूप से, यदि अंतर्निहित चर में द्विभाजित सामान्य वितरण है, तो चर

शून्य कारक (शून्य सहसंबंध) में एक छात्र का t-वितरण है।[23] यदि प्रतिदर्श आकार अधिक बड़ा है तो अपसामान्य देखे गए मानों के प्रकरण में यह लगभग रहता है।[24] r के महत्वपूर्ण मानों को निर्धारित करने के लिए प्रतिलोम फलन की आवश्यकता होती है:

वैकल्पिक रूप से, बृहत्प्रतिदर्श, स्पर्शोन्मुख दृष्टिकोण का उपयोग किया जा सकता है।

एक और अग्रिम दस्तावेज़[25] लघु प्रतिदर्श आकारों के लिए ρ के सामान्य मूल्यों के लिए आलेख और सूची प्रदान करते है, और संगणनात्मक दृष्टिकोण पर वर्णन करते है।

ऐसे प्रकरण में जहां अंतर्निहित चर सामान्य नहीं हैं, पियर्सन के सहसंबंध गुणांक का प्रतिदर्श वितरण छात्र के t-वितरण का अनुसरण करता है, लेकिन स्वतंत्रता की डिग्री कम हो जाती है।[26]

यथार्थ वितरण का प्रयोग

द्विभाजित सामान्य वितरण का अनुसरण करने वाले डेटा के लिए, सामान्य द्विचर के प्रतिदर्श सहसंबंध गुणांक r के लिए यथार्थ घनत्व फलन f(r) है।[27][28][29]

जहाँ गामा फलन है और गौसीय अतिज्यामितीय फलन है।

विशेष प्रकरण में जब (शून्य जनसंख्या सहसंबंध), यथार्थ घनत्व फलन f(r) के रूप में लिखा जा सकता है।

जहाँ बीटा फलन है, जो ऊपर बताए अनुसार छात्र के t-वितरण के घनत्व को लिखने का एक प्रकार है।

यथार्थ विश्वास्यता वितरण का उपयोग करना

विश्वास्यता वितरण और परीक्षण की गणनाविश्वास वितरण से की जा सकती है। ρ के लिए एक यथार्थ आत्मविश्वास घनत्व है।[30]

जहाँ गॉसियन अतिज्यामितीय फलन और है।

फिशर परिवर्तन का उपयोग

व्यवहार में, विश्वास्यता अंतराल और ρ से संबंधित परिकल्पना परीक्षण सामान्यतः फिशर परिवर्तन, का उपयोग करके किया जाता है:

F(r) लगभग एक सामान्य वितरण का अनुसरण करता है

    और मानक त्रुटि

जहाँ n प्रतिदर्श आकार है। बृहत्प्रतिदर्श आकार और लघु और के लिए सन्निकटन त्रुटि सबसे कम है और अन्यथा बढ़ जाती है।

सन्निकटन का उपयोग करते हुए, एक z-प्राप्तांक है

शून्य परिकल्पना के अंतर्गत , यह मानते हुए कि प्रतिदर्श जोड़े स्वतंत्र और समान रूप से वितरित हैं और द्विभाजित सामान्य वितरण का अनुसरण करते हैं। इस प्रकार एक सामान्य प्रायिकता सूची से एक अनुमानित p-मान प्राप्त किया जा सकता है। उदाहरण के लिए, यदि z = 2.2 देखा जाता है और शून्य परिकल्पना का परीक्षण करने के लिए द्विपक्षी p-मान वांछित है कि , p-मान 2 Φ(−2.2) = 0.028 है, जहां Φ मानक सामान्य संचयी वितरण फलन है।

ρ के लिए एक विश्वास्यता अंतराल प्राप्त करने के लिए, हम पहले F() के लिए एक विश्वास्यता अंतराल की गणना करते हैं:

व्युत्क्रम फिशर परिवर्तन अंतराल को सहसंबंध पैमाने पर वापस लाता है।

उदाहरण के लिए, मान लीजिए कि हम r = 0.7 को n = 50 के प्रतिरूप के आकार के साथ देखते हैं, और हम ρ के लिए 95% विश्वास अंतराल प्राप्त करना चाहते हैं। रूपांतरित मान arctanh(r) = 0.8673 है, इसलिए रूपांतरित पैमाने पर विश्वास अंतराल 0.8673 ± 1.96/47, या (0.5814, 1.1532) है। सहसंबंध पैमाने की यील्ड में वापस परिवर्तित करना (0.5237, 0.8188) है।

कम से कम वर्गों में प्रतिगमन विश्लेषण

प्रतिदर्श सहसंबंध गुणांक के वर्ग को सामान्यतः r2 निरूपित किया जाता है और निर्धारण के गुणांक का एक विशेष प्रकरण है। इस प्रकरण में, यह Y में भिन्नता के अंश का अनुमान लगाता है जिसे X द्वारा सरल रैखिक प्रतिगमन में समझाया गया है। इसलिए यदि हमारे पास देखे गए डेटासमुच्चय और उपयुक्त किए गए डेटासमुच्चय हैं, तो प्रारंभिक बिंदु के रूप में उनके औसत मूल्य के आसपास Yi में कुल भिन्नता को निम्नानुसार विघटित किया जा सकता है।

जहां प्रतिगमन विश्लेषण से उपयुक्त किए गए मान हैं। इसे देने के लिए पुनर्व्यवस्थित किया जा सकता है।

उपरोक्त दो सारांश Y में भिन्नता का अंश है जिसे X (दाएं) द्वारा समझाया गया है और जो X (बाएं) द्वारा अस्पष्टीकृत है।

इसके बाद, हम कम से कम वर्ग प्रतिगमन प्रतिरूप का एक गुण उपयोजित करते हैं, जो और के मध्य प्रतिदर्श सहप्रसरण शून्य है। इस प्रकार, प्रतिगमन में देखे गए और उपयुक्त प्रतिक्रिया मूल्यों के मध्य प्रतिदर्श सहसंबंध गुणांक लिखा जा सकता है (गणना अपेक्षा के अधीन है, गॉसियन सांख्यिकी मानती है)