पत्राचार विश्लेषण: Difference between revisions
(Created page with "पत्राचार विश्लेषण (सीए) एक बहुभिन्नरूपी सांख्यिकी प्रस्तावित है<ref...") |
(text) |
||
Line 1: | Line 1: | ||
पत्राचार विश्लेषण (सीए) एक बहुभिन्नरूपी | '''पत्राचार विश्लेषण''' (सीए) एक बहुभिन्नरूपी सांख्यिकीय तकनीक है <ref>Dodge, Y. (2003) ''The Oxford Dictionary of Statistical Terms'', OUP {{ISBN|0-19-850994-4}}</ref> जिसे [[हरमन ओटो हार्टले]] (हिर्शफेल्ड) द्वारा प्रस्तावित <ref>Hirschfeld, H.O. (1935) "A connection between correlation and contingency", ''Proc. Cambridge Philosophical Society'', 31, 520–524</ref> और बाद में जीन-पॉल बेंज़ेक्रि द्वारा विकसित किया गया। <ref>{{cite book | author = Benzécri, J.-P. | publisher=Dunod |location= Paris, France | year = 1973 | title = L'Analyse des Données. Volume II. L'Analyse des Correspondances}}</ref> यह वैचारिक रूप से प्रमुख घटक विश्लेषण के समान है, परन्तु निरंतर आंकड़ों के बजाय श्रेणीबद्ध आंकड़ों पर लागू होता है। प्रमुख घटक विश्लेषण के समान तरीके से, यह आंकड़ों के एक सेट को द्वि-आयामी ग्राफिकल रूप में प्रदर्शित या सारांशित करने का एक साधन प्रदान करता है। इसका उद्देश्य '''डेटा तालिका''' की बहुभिन्नरूपी समायोजन में छिपी किसी भी संरचना को [[ biplot ]] में प्रदर्शित करना है। इस प्रकार यह बहुभिन्नरूपी समन्वयन (सांख्यिकी) के क्षेत्र की एक तकनीक है। चूंकि यहां वर्णित सीए के प्रकार को या तो पंक्तियों पर या स्तंभों पर ध्यान केंद्रित करके लागू किया जा सकता है, इसलिए इसे वास्तव में सरल (सममित) पत्राचार विश्लेषण कहा जाना चाहिए। <ref>{{Cite book|last=Beh|first=Eric|title=पत्राचार विश्लेषण. सिद्धांत, अभ्यास और नई रणनीतियाँ|last2=Lombardo|first2=Rosaria|publisher=Wiley|year=2014|isbn=978-1-119-95324-1|location=Chichester|pages=120}}</ref> | ||
इसे परंपरागत रूप से माप के स्तर#नाममात्र स्तर की एक जोड़ी की आकस्मिक तालिकाओं पर लागू किया जाता है, जहां प्रत्येक कोशिका में या तो एक गिनती या शून्य मान होता है। यदि दो से अधिक श्रेणीबद्ध चर को संक्षेप में प्रस्तुत किया जाना है, तो इसके बजाय [[एकाधिक पत्राचार विश्लेषण]] नामक एक संस्करण को चुना जाना चाहिए। सीए को [[बाइनरी डेटा]] पर भी लागू किया जा सकता है, उपस्थिति/अनुपस्थिति कोडिंग सरलीकृत गिनती डेटा का प्रतिनिधित्व करती है यानी 1 एक सकारात्मक गिनती का वर्णन करता है और 0 शून्य की गिनती के लिए है। उपयोग किए गए स्कोर के आधार पर सीए ची-स्क्वायर दूरी को सुरक्षित रखता है<ref>{{Cite book|last=Greenacre|first=Michael|title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press|year=2007|isbn=9781584886167|location=Boca Raton|pages=204}}</ref><ref>{{Cite book|last=Legendre|first=Pierre|title=संख्यात्मक पारिस्थितिकी|last2=Legendre|first2=Louis|publisher=Elsevier|year=2012|isbn=978-0-444-53868-0|location=Amsterdam|pages=465}}</ref> तालिका की पंक्तियों या स्तंभों के बीच। क्योंकि सीए एक वर्णनात्मक तकनीक है, इसे महत्वपूर्ण ची-स्क्वायर परीक्षण की परवाह किए बिना तालिकाओं पर लागू किया जा सकता है।<ref>{{cite book | author = Greenacre, Michael | publisher=Academic Press |location= London | year = 1983 | title = पत्राचार विश्लेषण का सिद्धांत और अनुप्रयोग| isbn = 0-12-299050-1 }}</ref><ref>{{cite book | author = Greenacre, Michael | publisher=Chapman & Hall/CRC |location= London | year = 2007 | title = Correspondence Analysis in Practice, Second Edition }}</ref> यद्यपि <math alt= χ² >\chi^2</math> सांख्यिकीय अनुमान में उपयोग किया जाने वाला आँकड़ा और ची-वर्ग दूरी कम्प्यूटेशनल रूप से संबंधित हैं, उन्हें भ्रमित नहीं होना चाहिए क्योंकि बाद वाला CA में [[बहुभिन्नरूपी विश्लेषण]] [[सांख्यिकीय दूरी]] माप के रूप में काम करता है जबकि <math alt= χ² >\chi^2</math> आँकड़ा वास्तव में एक स्केलर (गणित) है न कि मीट्रिक (गणित)।<ref>{{Cite book |last=Greenacre |first=Michael |title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press |year=2017 |isbn=9781498731775 |edition=3rd |location=Boca Raton |pages=26-29}}</ref> | |||
इसे परंपरागत रूप से माप के स्तर#नाममात्र स्तर की एक जोड़ी की आकस्मिक तालिकाओं पर लागू किया जाता है, जहां प्रत्येक कोशिका में या तो एक गिनती या शून्य मान होता है। यदि दो से अधिक श्रेणीबद्ध चर को संक्षेप में प्रस्तुत किया जाना है, तो इसके बजाय [[एकाधिक पत्राचार विश्लेषण]] नामक एक संस्करण को चुना जाना चाहिए। सीए को [[बाइनरी डेटा]] पर भी लागू किया जा सकता है, उपस्थिति/अनुपस्थिति कोडिंग सरलीकृत गिनती डेटा का प्रतिनिधित्व करती है यानी 1 एक सकारात्मक गिनती का वर्णन करता है और 0 शून्य की गिनती के लिए है। उपयोग किए गए स्कोर के आधार पर सीए ची-स्क्वायर दूरी को सुरक्षित रखता है <ref>{{Cite book|last=Greenacre|first=Michael|title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press|year=2007|isbn=9781584886167|location=Boca Raton|pages=204}}</ref><ref>{{Cite book|last=Legendre|first=Pierre|title=संख्यात्मक पारिस्थितिकी|last2=Legendre|first2=Louis|publisher=Elsevier|year=2012|isbn=978-0-444-53868-0|location=Amsterdam|pages=465}}</ref> तालिका की पंक्तियों या स्तंभों के बीच। क्योंकि सीए एक वर्णनात्मक तकनीक है, इसे महत्वपूर्ण ची-स्क्वायर परीक्षण की परवाह किए बिना तालिकाओं पर लागू किया जा सकता है। <ref>{{cite book | author = Greenacre, Michael | publisher=Academic Press |location= London | year = 1983 | title = पत्राचार विश्लेषण का सिद्धांत और अनुप्रयोग| isbn = 0-12-299050-1 }}</ref><ref>{{cite book | author = Greenacre, Michael | publisher=Chapman & Hall/CRC |location= London | year = 2007 | title = Correspondence Analysis in Practice, Second Edition }}</ref> यद्यपि <math alt="χ²">\chi^2</math> सांख्यिकीय अनुमान में उपयोग किया जाने वाला आँकड़ा और ची-वर्ग दूरी कम्प्यूटेशनल रूप से संबंधित हैं, उन्हें भ्रमित नहीं होना चाहिए क्योंकि बाद वाला CA में [[बहुभिन्नरूपी विश्लेषण]] [[सांख्यिकीय दूरी]] माप के रूप में काम करता है जबकि <math alt="χ²">\chi^2</math> आँकड़ा वास्तव में एक स्केलर (गणित) है न कि मीट्रिक (गणित)। <ref>{{Cite book |last=Greenacre |first=Michael |title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press |year=2017 |isbn=9781498731775 |edition=3rd |location=Boca Raton |pages=26-29}}</ref> | |||
Line 7: | Line 9: | ||
===प्रीप्रोसेसिंग=== | ===प्रीप्रोसेसिंग=== | ||
एल्गोरिदम के केंद्रीय कम्प्यूटेशनल चरण पर आगे बढ़ने से पहले, मैट्रिक्स सी में मानों को बदलना होगा।<ref name=":0">{{Cite book|last=Greenacre|first=Michael|title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press|year=2007|isbn=9781584886167|location=Boca Raton|pages=202}}</ref> सबसे पहले स्तंभों और पंक्तियों (कभी-कभी द्रव्यमान कहा जाता है) के लिए वजन के एक सेट की गणना करें,<ref>{{cite book | author = Greenacre, Michael | publisher=Academic Press |location= London | year = 1983 | title = पत्राचार विश्लेषण का सिद्धांत और अनुप्रयोग| isbn = 0-12-299050-1 }}</ref><ref>{{cite book|author=Greenacre, Michael|title=अभ्यास में पत्राचार विश्लेषण, दूसरा संस्करण|publisher=Chapman & Hall/CRC|year=2007|location=London|pages=202}}</ref> जहां पंक्ति और स्तंभ का भार क्रमशः पंक्ति और स्तंभ वैक्टर द्वारा दिया जाता है: | एल्गोरिदम के केंद्रीय कम्प्यूटेशनल चरण पर आगे बढ़ने से पहले, मैट्रिक्स सी में मानों को बदलना होगा। <ref name=":0">{{Cite book|last=Greenacre|first=Michael|title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press|year=2007|isbn=9781584886167|location=Boca Raton|pages=202}}</ref> सबसे पहले स्तंभों और पंक्तियों (कभी-कभी द्रव्यमान कहा जाता है) के लिए वजन के एक सेट की गणना करें, <ref>{{cite book | author = Greenacre, Michael | publisher=Academic Press |location= London | year = 1983 | title = पत्राचार विश्लेषण का सिद्धांत और अनुप्रयोग| isbn = 0-12-299050-1 }}</ref><ref>{{cite book|author=Greenacre, Michael|title=अभ्यास में पत्राचार विश्लेषण, दूसरा संस्करण|publisher=Chapman & Hall/CRC|year=2007|location=London|pages=202}}</ref> जहां पंक्ति और स्तंभ का भार क्रमशः पंक्ति और स्तंभ वैक्टर द्वारा दिया जाता है: | ||
:<math>w_m = \frac{1}{n_C} C \mathbf{1}, \quad w_n = \frac{1}{n_C}\mathbf{1}^T C.</math> | :<math>w_m = \frac{1}{n_C} C \mathbf{1}, \quad w_n = \frac{1}{n_C}\mathbf{1}^T C.</math> | ||
यहाँ <math>n_C = \sum_{i=1}^n \sum_{j=1}^m C_{ij} </math> मैट्रिक्स C में सभी सेल मानों का योग है, या C का योग संक्षेप में है, और <math>\mathbf{1}</math> उचित आयाम वाले लोगों की एक कॉलम पंक्ति और कॉलम वैक्टर है। | यहाँ <math>n_C = \sum_{i=1}^n \sum_{j=1}^m C_{ij} </math> मैट्रिक्स C में सभी सेल मानों का योग है, या C का योग संक्षेप में है, और <math>\mathbf{1}</math> उचित आयाम वाले लोगों की एक कॉलम पंक्ति और कॉलम वैक्टर है। | ||
Line 25: | Line 27: | ||
सरल शब्दों में, मैट्रिक्स <math>P</math> यह केवल डेटा मैट्रिक्स (आकस्मिकता तालिका या बाइनरी तालिका) है जो भागों में परिवर्तित हो जाती है यानी प्रत्येक सेल मान पूरी तालिका के योग का केवल सेल भाग है। | सरल शब्दों में, मैट्रिक्स <math>P</math> यह केवल डेटा मैट्रिक्स (आकस्मिकता तालिका या बाइनरी तालिका) है जो भागों में परिवर्तित हो जाती है यानी प्रत्येक सेल मान पूरी तालिका के योग का केवल सेल भाग है। | ||
अंत में, मैट्रिक्स की गणना करें<math>S</math>, जिसे कभी-कभी मानकीकृत अवशेषों का मैट्रिक्स भी कहा जाता है,<ref>{{Cite book|last=Greenacre|first=Michael|title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press|year=2007|isbn=9781584886167|location=Boca Raton|pages=202}}</ref> मैट्रिक्स गुणन द्वारा | अंत में, मैट्रिक्स की गणना करें<math>S</math>, जिसे कभी-कभी मानकीकृत अवशेषों का मैट्रिक्स भी कहा जाता है, <ref>{{Cite book|last=Greenacre|first=Michael|title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press|year=2007|isbn=9781584886167|location=Boca Raton|pages=202}}</ref> मैट्रिक्स गुणन द्वारा | ||
:<math>S = W_m(P - w_m w_n)W_n</math> | :<math>S = W_m(P - w_m w_n)W_n</math> | ||
ध्यान दें, वेक्टर <math>w_m</math> और <math>w_n</math> एक [[बाहरी उत्पाद]] में संयोजित होते हैं जिसके परिणामस्वरूप उसी [[आयाम (वेक्टर स्थान)]] का एक मैट्रिक्स बनता है <math>P</math>. शब्दों में सूत्र पढ़ता है: मैट्रिक्स <math>\operatorname{outer}(w_m, w_n)</math> मैट्रिक्स से घटाया गया है<math>P</math>और परिणामी मैट्रिक्स को विकर्ण मैट्रिक्स द्वारा स्केल (भारित) किया जाता है <math>W_m</math> और <math>W_n</math>. परिणामी मैट्रिक्स को विकर्ण आव्यूहों से गुणा करना, इसकी i-वीं पंक्ति (या स्तंभ) को इसके विकर्ण के i-वें तत्व से गुणा करने के बराबर है। <math>W_m</math> या <math>W_n</math>, क्रमश<ref>{{Cite book|last=Abadir|first=Karim|title=मैट्रिक्स बीजगणित|last2=Magnus|first2=Jan|publisher=Cambridge University Press|year=2005|isbn=9786612394256|location=Cambridge|pages=24}}</ref>. | ध्यान दें, वेक्टर <math>w_m</math> और <math>w_n</math> एक [[बाहरी उत्पाद]] में संयोजित होते हैं जिसके परिणामस्वरूप उसी [[आयाम (वेक्टर स्थान)]] का एक मैट्रिक्स बनता है <math>P</math>. शब्दों में सूत्र पढ़ता है: मैट्रिक्स <math>\operatorname{outer}(w_m, w_n)</math> मैट्रिक्स से घटाया गया है<math>P</math>और परिणामी मैट्रिक्स को विकर्ण मैट्रिक्स द्वारा स्केल (भारित) किया जाता है <math>W_m</math> और <math>W_n</math>. परिणामी मैट्रिक्स को विकर्ण आव्यूहों से गुणा करना, इसकी i-वीं पंक्ति (या स्तंभ) को इसके विकर्ण के i-वें तत्व से गुणा करने के बराबर है। <math>W_m</math> या <math>W_n</math>, क्रमश <ref>{{Cite book|last=Abadir|first=Karim|title=मैट्रिक्स बीजगणित|last2=Magnus|first2=Jan|publisher=Cambridge University Press|year=2005|isbn=9786612394256|location=Cambridge|pages=24}}</ref>. | ||
===प्रीप्रोसेसिंग की व्याख्या=== | ===प्रीप्रोसेसिंग की व्याख्या=== | ||
Line 35: | Line 37: | ||
===ऑर्थोगोनल घटक=== | ===ऑर्थोगोनल घटक=== | ||
टेबल<math>S</math>फिर विघटित हो जाता है<ref name=":0" />एक विलक्षण मूल्य अपघटन द्वारा | टेबल<math>S</math>फिर विघटित हो जाता है <ref name=":0" />एक विलक्षण मूल्य अपघटन द्वारा | ||
:<math>S = U\Sigma V^* \,</math> | :<math>S = U\Sigma V^* \,</math> | ||
Line 51: | Line 53: | ||
:<math>\Iota = \sum_{i=1}^n \sum_{j=1}^m s_{ij}^2. </math> | :<math>\Iota = \sum_{i=1}^n \sum_{j=1}^m s_{ij}^2. </math> | ||
एकवचन सदिशों के i-वें सेट द्वारा कवर की गई जड़ता की मात्रा है <math>\iota_i</math>, प्रमुख जड़ता. पहले कुछ एकवचन वैक्टर द्वारा कवर किया गया जड़त्व का भाग जितना अधिक होगा यानी कुल जड़त्व की तुलना में मुख्य जड़त्व का योग जितना बड़ा होगा, सीए उतना ही अधिक सफल होगा।<ref name=":2" />इसलिए सभी प्रमुख जड़त्व मानों को भाग के रूप में व्यक्त किया जाता है <math>\epsilon_i</math> कुल जड़ता का | एकवचन सदिशों के i-वें सेट द्वारा कवर की गई जड़ता की मात्रा है <math>\iota_i</math>, प्रमुख जड़ता. पहले कुछ एकवचन वैक्टर द्वारा कवर किया गया जड़त्व का भाग जितना अधिक होगा यानी कुल जड़त्व की तुलना में मुख्य जड़त्व का योग जितना बड़ा होगा, सीए उतना ही अधिक सफल होगा। <ref name=":2" />इसलिए सभी प्रमुख जड़त्व मानों को भाग के रूप में व्यक्त किया जाता है <math>\epsilon_i</math> कुल जड़ता का | ||
:<math>\epsilon_i = \sigma_i^2 / \sum_{i=1}^p \sigma_i^2</math> | :<math>\epsilon_i = \sigma_i^2 / \sum_{i=1}^p \sigma_i^2</math> | ||
Line 57: | Line 59: | ||
===निर्देशांक=== | ===निर्देशांक=== | ||
एकवचन वैक्टर को निर्देशांक में बदलने के लिए जो पंक्तियों या स्तंभों के बीच की दूरी को संरक्षित करता है, एक अतिरिक्त भार चरण आवश्यक है। परिणामी निर्देशांकों को प्रमुख निर्देशांक कहा जाता है<ref name=":0" />सीए पाठ्य पुस्तकों में। यदि पंक्तियों के लिए प्रमुख निर्देशांक का उपयोग किया जाता है तो उनके विज़ुअलाइज़ेशन को पंक्ति आइसोमेट्रिक कहा जाता है<ref>{{Cite book|last=Beh|first=Eric|title=पत्राचार विश्लेषण. सिद्धांत, अभ्यास और नई रणनीतियाँ|last2=Lombardo|first2=Rosaria|publisher=Wiley|year=2014|isbn=978-1-119-95324-1|location=Chichester|pages=132-134}}</ref> अर्थमिति में स्केलिंग और स्केलिंग 1<ref name=":1">{{Cite book|last=Legendre|first=Pierre|title=संख्यात्मक पारिस्थितिकी|last2=Legendre|first2=Louis|publisher=Elsevier|year=2012|isbn=978-0-444-53868-0|location=Amsterdam|pages=470}}</ref>पारिस्थितिकी में. चूंकि भार में एकल मान शामिल होते हैं <math>\Sigma</math> मानकीकृत अवशेषों के मैट्रिक्स का <math>S</math> इन निर्देशांकों को कभी-कभी एकवचन मान स्केल किए गए एकवचन वैक्टर के रूप में संदर्भित किया जाता है, या, थोड़ा भ्रामक, ईजेनवैल्यू स्केल्ड ईजेनवेक्टर के रूप में। वास्तव में गैर-तुच्छ eigenvectors <math>S S^* </math>बाएँ एकवचन सदिश हैं <math>U</math> का <math>S</math> और वे <math>S^* S </math> सही एकवचन सदिश हैं <math>V</math> का <math>S</math> जबकि इनमें से किसी भी आव्यूह के eigenvalues एकवचन मानों के वर्ग हैं <math>\Sigma</math>. लेकिन चूंकि सीए के लिए सभी आधुनिक एल्गोरिदम एक एकल मूल्य अपघटन पर आधारित हैं, इसलिए इस शब्दावली से बचना चाहिए। सीए की फ्रांसीसी परंपरा में निर्देशांक को कभी-कभी (कारक) स्कोर कहा जाता है। | एकवचन वैक्टर को निर्देशांक में बदलने के लिए जो पंक्तियों या स्तंभों के बीच की दूरी को संरक्षित करता है, एक अतिरिक्त भार चरण आवश्यक है। परिणामी निर्देशांकों को प्रमुख निर्देशांक कहा जाता है<ref name=":0" />सीए पाठ्य पुस्तकों में। यदि पंक्तियों के लिए प्रमुख निर्देशांक का उपयोग किया जाता है तो उनके विज़ुअलाइज़ेशन को पंक्ति आइसोमेट्रिक कहा जाता है <ref>{{Cite book|last=Beh|first=Eric|title=पत्राचार विश्लेषण. सिद्धांत, अभ्यास और नई रणनीतियाँ|last2=Lombardo|first2=Rosaria|publisher=Wiley|year=2014|isbn=978-1-119-95324-1|location=Chichester|pages=132-134}}</ref> अर्थमिति में स्केलिंग और स्केलिंग 1 <ref name=":1">{{Cite book|last=Legendre|first=Pierre|title=संख्यात्मक पारिस्थितिकी|last2=Legendre|first2=Louis|publisher=Elsevier|year=2012|isbn=978-0-444-53868-0|location=Amsterdam|pages=470}}</ref>पारिस्थितिकी में. चूंकि भार में एकल मान शामिल होते हैं <math>\Sigma</math> मानकीकृत अवशेषों के मैट्रिक्स का <math>S</math> इन निर्देशांकों को कभी-कभी एकवचन मान स्केल किए गए एकवचन वैक्टर के रूप में संदर्भित किया जाता है, या, थोड़ा भ्रामक, ईजेनवैल्यू स्केल्ड ईजेनवेक्टर के रूप में। वास्तव में गैर-तुच्छ eigenvectors <math>S S^* </math>बाएँ एकवचन सदिश हैं <math>U</math> का <math>S</math> और वे <math>S^* S </math> सही एकवचन सदिश हैं <math>V</math> का <math>S</math> जबकि इनमें से किसी भी आव्यूह के eigenvalues एकवचन मानों के वर्ग हैं <math>\Sigma</math>. लेकिन चूंकि सीए के लिए सभी आधुनिक एल्गोरिदम एक एकल मूल्य अपघटन पर आधारित हैं, इसलिए इस शब्दावली से बचना चाहिए। सीए की फ्रांसीसी परंपरा में निर्देशांक को कभी-कभी (कारक) स्कोर कहा जाता है। | ||
मैट्रिक्स सी की पंक्तियों के लिए कारक स्कोर या प्रमुख निर्देशांक की गणना की जाती है | मैट्रिक्स सी की पंक्तियों के लिए कारक स्कोर या प्रमुख निर्देशांक की गणना की जाती है | ||
Line 67: | Line 69: | ||
:<math>F_n = W_n V \Sigma.</math> | :<math>F_n = W_n V \Sigma.</math> | ||
सीए के परिणाम को एक उचित बाइप्लॉट में दर्शाने के लिए, उन श्रेणियों को जिन्हें प्रमुख निर्देशांक में प्लॉट नहीं किया जाता है, यानी कि चिस्क्वायर दूरी के निर्देशांक को संरक्षित करते हुए, तथाकथित मानक निर्देशांक में प्लॉट किया जाना चाहिए।<ref name=":0" />उन्हें मानक निर्देशांक कहा जाता है क्योंकि मानक निर्देशांक के प्रत्येक वेक्टर को माध्य 0 और विचरण 1 प्रदर्शित करने के लिए मानकीकृत किया गया है।<ref>{{Cite book |last=Greenacre |first=Michael |title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press |year=2017 |isbn=9781498731775 |edition=3rd |location=Boca Raton |pages=62}}</ref> मानक निर्देशांक की गणना करते समय एकवचन मानों को छोड़ दिया जाता है जो कि बिप्लॉट को लागू करने का प्रत्यक्ष परिणाम है जिसके द्वारा एकवचन वेक्टर मैट्रिक्स के दो सेटों में से एक को शून्य की शक्ति तक बढ़ाए गए एकवचन मानों द्वारा स्केल किया जाना चाहिए यानी एक से गुणा किया जाना चाहिए यानी एकवचन मानों को छोड़कर गणना की जानी चाहिए यदि एकवचन वैक्टर के दूसरे सेट को एकवचन मानों द्वारा स्केल किया गया है। यह निर्देशांक के दो सेटों के बीच एक [[डॉट उत्पाद]] के अस्तित्व को आश्वस्त करता है यानी यह एक बाइप्लॉट में उनके स्थानिक संबंधों की सार्थक व्याख्या की ओर ले जाता है। | सीए के परिणाम को एक उचित बाइप्लॉट में दर्शाने के लिए, उन श्रेणियों को जिन्हें प्रमुख निर्देशांक में प्लॉट नहीं किया जाता है, यानी कि चिस्क्वायर दूरी के निर्देशांक को संरक्षित करते हुए, तथाकथित मानक निर्देशांक में प्लॉट किया जाना चाहिए।<ref name=":0" />उन्हें मानक निर्देशांक कहा जाता है क्योंकि मानक निर्देशांक के प्रत्येक वेक्टर को माध्य 0 और विचरण 1 प्रदर्शित करने के लिए मानकीकृत किया गया है। <ref>{{Cite book |last=Greenacre |first=Michael |title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press |year=2017 |isbn=9781498731775 |edition=3rd |location=Boca Raton |pages=62}}</ref> मानक निर्देशांक की गणना करते समय एकवचन मानों को छोड़ दिया जाता है जो कि बिप्लॉट को लागू करने का प्रत्यक्ष परिणाम है जिसके द्वारा एकवचन वेक्टर मैट्रिक्स के दो सेटों में से एक को शून्य की शक्ति तक बढ़ाए गए एकवचन मानों द्वारा स्केल किया जाना चाहिए यानी एक से गुणा किया जाना चाहिए यानी एकवचन मानों को छोड़कर गणना की जानी चाहिए यदि एकवचन वैक्टर के दूसरे सेट को एकवचन मानों द्वारा स्केल किया गया है। यह निर्देशांक के दो सेटों के बीच एक [[डॉट उत्पाद]] के अस्तित्व को आश्वस्त करता है यानी यह एक बाइप्लॉट में उनके स्थानिक संबंधों की सार्थक व्याख्या की ओर ले जाता है। | ||
व्यावहारिक रूप में कोई मानक निर्देशांक को वेक्टर स्थान के वर्टेक्स (ज्यामिति) के रूप में सोच सकता है जिसमें प्रमुख निर्देशांक का सेट (यानी संबंधित बिंदु) मौजूद होता है।<ref>{{Cite book |last=Blasius |first=Jörg |title=पत्राचार विश्लेषण|publisher=Walter de Gruyter |year=2001 |isbn=9783486257304 |location=Berlin |pages=40,60 |language=de}}</ref> पंक्तियों के लिए मानक निर्देशांक हैं | व्यावहारिक रूप में कोई मानक निर्देशांक को वेक्टर स्थान के वर्टेक्स (ज्यामिति) के रूप में सोच सकता है जिसमें प्रमुख निर्देशांक का सेट (यानी संबंधित बिंदु) मौजूद होता है। <ref>{{Cite book |last=Blasius |first=Jörg |title=पत्राचार विश्लेषण|publisher=Walter de Gruyter |year=2001 |isbn=9783486257304 |location=Berlin |pages=40,60 |language=de}}</ref> पंक्तियों के लिए मानक निर्देशांक हैं | ||
:<math>G_m = W_m U</math> | :<math>G_m = W_m U</math> | ||
Line 75: | Line 77: | ||
:<math>G_n = W_n V</math> | :<math>G_n = W_n V</math> | ||
ध्यान दें कि स्केलिंग 1<ref name=":1" />पारिस्थितिकी में बिप्लॉट का तात्पर्य पंक्तियों को मूल निर्देशांक में और स्तंभों को मानक निर्देशांक में होना है, जबकि स्केलिंग 2 का तात्पर्य पंक्तियों को मानक में और स्तंभों को प्रमुख निर्देशांक में होना है। अर्थात। स्केलिंग 1 का तात्पर्य एक द्विप्लॉट से है <math>F_m</math>के साथ साथ <math>G_n</math> जबकि स्केलिंग 2 का तात्पर्य एक द्विप्लॉट से है <math>F_n</math>के साथ साथ <math>G_m</math>. | ध्यान दें कि स्केलिंग 1 <ref name=":1" />पारिस्थितिकी में बिप्लॉट का तात्पर्य पंक्तियों को मूल निर्देशांक में और स्तंभों को मानक निर्देशांक में होना है, जबकि स्केलिंग 2 का तात्पर्य पंक्तियों को मानक में और स्तंभों को प्रमुख निर्देशांक में होना है। अर्थात। स्केलिंग 1 का तात्पर्य एक द्विप्लॉट से है <math>F_m</math>के साथ साथ <math>G_n</math> जबकि स्केलिंग 2 का तात्पर्य एक द्विप्लॉट से है <math>F_n</math>के साथ साथ <math>G_m</math>. | ||
==परिणाम का चित्रमय प्रतिनिधित्व== | ==परिणाम का चित्रमय प्रतिनिधित्व== | ||
Line 86: | Line 88: | ||
सामान्य नियम के रूप में वह सेट (पंक्तियाँ या स्तंभ) जिसका विश्लेषण उसकी संरचना के संबंध में किया जाना चाहिए जैसा कि दूसरे सेट द्वारा मापा जाता है, प्रमुख निर्देशांक में प्रदर्शित होता है जबकि दूसरा सेट मानक निर्देशांक में प्रदर्शित होता है। जैसे जब ध्यान समान मतदान के अनुसार जिलों को क्रमबद्ध करने पर होता है, तो चुनावी जिले को पंक्तियों में और राजनीतिक दलों को गिनती वाले कक्षों के साथ कॉलम में प्रदर्शित करने वाली तालिका को प्रमुख निर्देशांक में जिलों (पंक्तियों) के साथ प्रदर्शित किया जा सकता है। | सामान्य नियम के रूप में वह सेट (पंक्तियाँ या स्तंभ) जिसका विश्लेषण उसकी संरचना के संबंध में किया जाना चाहिए जैसा कि दूसरे सेट द्वारा मापा जाता है, प्रमुख निर्देशांक में प्रदर्शित होता है जबकि दूसरा सेट मानक निर्देशांक में प्रदर्शित होता है। जैसे जब ध्यान समान मतदान के अनुसार जिलों को क्रमबद्ध करने पर होता है, तो चुनावी जिले को पंक्तियों में और राजनीतिक दलों को गिनती वाले कक्षों के साथ कॉलम में प्रदर्शित करने वाली तालिका को प्रमुख निर्देशांक में जिलों (पंक्तियों) के साथ प्रदर्शित किया जा सकता है। | ||
परंपरागत रूप से, सीए में फ्रांसीसी परंपरा से उत्पन्न,<ref>{{Cite book |last=Greenacre |first=Michael |title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press |year=2017 |isbn=9781498731775 |edition=3rd |location=Boca Raton |pages=70 |doi=10.1201/9781315369983}}</ref> प्रारंभिक सीए बाइप्लॉट्स ने दोनों संस्थाओं को एक ही समन्वय संस्करण में मैप किया, आमतौर पर प्रमुख निर्देशांक, लेकिन इस प्रकार का प्रदर्शन भ्रामक है: हालांकि इसे बाइप्लॉट कहा जाता है, इसमें पंक्ति और स्तंभ स्कोर के बीच कोई उपयोगी आंतरिक उत्पाद संबंध नहीं है, जैसा कि आर पैकेज एमएएसएस के अनुरक्षक ब्रायन डी. रिप्ले ने सही ढंग से बताया है।<ref>{{Cite web |last=Ripley |first=Brian |date=2022-01-13 |title=MASS R पैकेज मैनुअल|url=https://rdrr.io/cran/MASS/man/corresp.html |access-date=2022-03-17 |website=R Package Documentation (rdrr.io) |at=Details}}</ref> आज उस तरह के प्रदर्शन से बचना चाहिए क्योंकि आम लोगों को आमतौर पर दो बिंदु सेटों के बीच के संबंध की कमी के बारे में पता नहीं होता है। | परंपरागत रूप से, सीए में फ्रांसीसी परंपरा से उत्पन्न, <ref>{{Cite book |last=Greenacre |first=Michael |title=व्यवहार में पत्राचार विश्लेषण|publisher=CRC Press |year=2017 |isbn=9781498731775 |edition=3rd |location=Boca Raton |pages=70 |doi=10.1201/9781315369983}}</ref> प्रारंभिक सीए बाइप्लॉट्स ने दोनों संस्थाओं को एक ही समन्वय संस्करण में मैप किया, आमतौर पर प्रमुख निर्देशांक, लेकिन इस प्रकार का प्रदर्शन भ्रामक है: हालांकि इसे बाइप्लॉट कहा जाता है, इसमें पंक्ति और स्तंभ स्कोर के बीच कोई उपयोगी आंतरिक उत्पाद संबंध नहीं है, जैसा कि आर पैकेज एमएएसएस के अनुरक्षक ब्रायन डी. रिप्ले ने सही ढंग से बताया है। <ref>{{Cite web |last=Ripley |first=Brian |date=2022-01-13 |title=MASS R पैकेज मैनुअल|url=https://rdrr.io/cran/MASS/man/corresp.html |access-date=2022-03-17 |website=R Package Documentation (rdrr.io) |at=Details}}</ref> आज उस तरह के प्रदर्शन से बचना चाहिए क्योंकि आम लोगों को आमतौर पर दो बिंदु सेटों के बीच के संबंध की कमी के बारे में पता नहीं होता है। | ||
एक स्केलिंग 1<ref name=":1" />बाइप्लॉट (प्रमुख निर्देशांक में पंक्तियाँ, मानक निर्देशांक में स्तंभ) की व्याख्या इस प्रकार की जाती है:<ref>{{Cite book |last=Borcard |first=Daniel |title=आर के साथ संख्यात्मक पारिस्थितिकी|last2=Gillet |first2=Francois |last3=Legendre |first3=Pierre |publisher=Springer |year=2018 |isbn=9783319714042 |edition=2nd |location=Cham |page=175 |doi=10.1007/978-3-319-71404-2}}</ref> | एक स्केलिंग 1 <ref name=":1" />बाइप्लॉट (प्रमुख निर्देशांक में पंक्तियाँ, मानक निर्देशांक में स्तंभ) की व्याख्या इस प्रकार की जाती है: <ref>{{Cite book |last=Borcard |first=Daniel |title=आर के साथ संख्यात्मक पारिस्थितिकी|last2=Gillet |first2=Francois |last3=Legendre |first3=Pierre |publisher=Springer |year=2018 |isbn=9783319714042 |edition=2nd |location=Cham |page=175 |doi=10.1007/978-3-319-71404-2}}</ref> | ||
* पंक्ति बिंदुओं के बीच की दूरी उनकी ची-स्क्वायर दूरी का अनुमान लगाती है। एक दूसरे के निकट स्थित बिंदु मूल डेटा तालिका में बहुत समान मान वाली पंक्तियों का प्रतिनिधित्व करते हैं। यानी वे गिनती डेटा के मामले में समान आवृत्तियों या उपस्थिति/अनुपस्थिति डेटा के मामले में निकट से संबंधित बाइनरी मान प्रदर्शित कर सकते हैं। | * पंक्ति बिंदुओं के बीच की दूरी उनकी ची-स्क्वायर दूरी का अनुमान लगाती है। एक दूसरे के निकट स्थित बिंदु मूल डेटा तालिका में बहुत समान मान वाली पंक्तियों का प्रतिनिधित्व करते हैं। यानी वे गिनती डेटा के मामले में समान आवृत्तियों या उपस्थिति/अनुपस्थिति डेटा के मामले में निकट से संबंधित बाइनरी मान प्रदर्शित कर सकते हैं। | ||
* मानक निर्देशांक में (स्तंभ) बिंदु वेक्टर स्थान के शीर्षों का प्रतिनिधित्व करते हैं यानी किसी चीज़ के बाहरी कोने का बहुआयामी अंतरिक्ष में एक अनियमित पॉलीहेड्रॉन का आकार होता है। प्रोजेक्ट पंक्ति किसी स्तंभ के मूल और मानक निर्देशांक को जोड़ने वाली रेखा पर इंगित करती है; यदि उस कनेक्शन लाइन के साथ अनुमानित स्थिति मानक समन्वय की स्थिति के करीब है, तो वह पंक्ति बिंदु दृढ़ता से इस कॉलम से जुड़ा हुआ है यानी गिनती डेटा के मामले में पंक्ति में उस श्रेणी की उच्च आवृत्ति होती है और उपस्थिति/अनुपस्थिति डेटा के मामले में पंक्ति उस कॉलम में 1 प्रदर्शित करने की संभावना है। पंक्ति बिंदु जिनके प्रक्षेपण के लिए कनेक्शन लाइन को मूल से आगे बढ़ाने की आवश्यकता होगी, उस कॉलम में औसत मान से कम है। | * मानक निर्देशांक में (स्तंभ) बिंदु वेक्टर स्थान के शीर्षों का प्रतिनिधित्व करते हैं यानी किसी चीज़ के बाहरी कोने का बहुआयामी अंतरिक्ष में एक अनियमित पॉलीहेड्रॉन का आकार होता है। प्रोजेक्ट पंक्ति किसी स्तंभ के मूल और मानक निर्देशांक को जोड़ने वाली रेखा पर इंगित करती है; यदि उस कनेक्शन लाइन के साथ अनुमानित स्थिति मानक समन्वय की स्थिति के करीब है, तो वह पंक्ति बिंदु दृढ़ता से इस कॉलम से जुड़ा हुआ है यानी गिनती डेटा के मामले में पंक्ति में उस श्रेणी की उच्च आवृत्ति होती है और उपस्थिति/अनुपस्थिति डेटा के मामले में पंक्ति उस कॉलम में 1 प्रदर्शित करने की संभावना है। पंक्ति बिंदु जिनके प्रक्षेपण के लिए कनेक्शन लाइन को मूल से आगे बढ़ाने की आवश्यकता होगी, उस कॉलम में औसत मान से कम है। | ||
Line 95: | Line 97: | ||
सीए के कई प्रकार उपलब्ध हैं, जिनमें डिट्रेंडेड पत्राचार विश्लेषण (डीसीए) और कैनोनिकल पत्राचार विश्लेषण (सीसीए) शामिल हैं। उत्तरार्द्ध (सीसीए) का उपयोग तब किया जाता है जब जांच की गई संस्थाओं के बीच समानता के संभावित कारणों के बारे में जानकारी होती है। कई श्रेणीगत चरों तक पत्राचार विश्लेषण के विस्तार को एकाधिक पत्राचार विश्लेषण कहा जाता है। गुणात्मक चर (यानी, गुणात्मक डेटा के लिए [[विभेदक विश्लेषण]] के समतुल्य) के आधार पर भेदभाव की समस्या के लिए पत्राचार विश्लेषण के अनुकूलन को [[विभेदक पत्राचार विश्लेषण]] या बैरीसेंट्रिक विभेदक विश्लेषण कहा जाता है। | सीए के कई प्रकार उपलब्ध हैं, जिनमें डिट्रेंडेड पत्राचार विश्लेषण (डीसीए) और कैनोनिकल पत्राचार विश्लेषण (सीसीए) शामिल हैं। उत्तरार्द्ध (सीसीए) का उपयोग तब किया जाता है जब जांच की गई संस्थाओं के बीच समानता के संभावित कारणों के बारे में जानकारी होती है। कई श्रेणीगत चरों तक पत्राचार विश्लेषण के विस्तार को एकाधिक पत्राचार विश्लेषण कहा जाता है। गुणात्मक चर (यानी, गुणात्मक डेटा के लिए [[विभेदक विश्लेषण]] के समतुल्य) के आधार पर भेदभाव की समस्या के लिए पत्राचार विश्लेषण के अनुकूलन को [[विभेदक पत्राचार विश्लेषण]] या बैरीसेंट्रिक विभेदक विश्लेषण कहा जाता है। | ||
सामाजिक विज्ञान में, पत्राचार विश्लेषण, और विशेष रूप से इसके विस्तार एकाधिक पत्राचार विश्लेषण, फ्रांसीसी समाजशास्त्री [[पियरे बॉर्डियू]] के आवेदन के माध्यम से फ्रांस के बाहर ज्ञात किया गया था।<ref>{{cite book| last= Bourdieu| first= Pierre| title= भेद| year= 1984| publisher= [[Routledge]]| ISBN= 0674212770| pages= [https://archive.org/details/distinctionsocia0000bour/page/41 41]| url= https://archive.org/details/distinctionsocia0000bour/page/41}}</ref> | सामाजिक विज्ञान में, पत्राचार विश्लेषण, और विशेष रूप से इसके विस्तार एकाधिक पत्राचार विश्लेषण, फ्रांसीसी समाजशास्त्री [[पियरे बॉर्डियू]] के आवेदन के माध्यम से फ्रांस के बाहर ज्ञात किया गया था। <ref>{{cite book| last= Bourdieu| first= Pierre| title= भेद| year= 1984| publisher= [[Routledge]]| ISBN= 0674212770| pages= [https://archive.org/details/distinctionsocia0000bour/page/41 41]| url= https://archive.org/details/distinctionsocia0000bour/page/41}}</ref> | ||
Revision as of 22:17, 1 August 2023
पत्राचार विश्लेषण (सीए) एक बहुभिन्नरूपी सांख्यिकीय तकनीक है [1] जिसे हरमन ओटो हार्टले (हिर्शफेल्ड) द्वारा प्रस्तावित [2] और बाद में जीन-पॉल बेंज़ेक्रि द्वारा विकसित किया गया। [3] यह वैचारिक रूप से प्रमुख घटक विश्लेषण के समान है, परन्तु निरंतर आंकड़ों के बजाय श्रेणीबद्ध आंकड़ों पर लागू होता है। प्रमुख घटक विश्लेषण के समान तरीके से, यह आंकड़ों के एक सेट को द्वि-आयामी ग्राफिकल रूप में प्रदर्शित या सारांशित करने का एक साधन प्रदान करता है। इसका उद्देश्य डेटा तालिका की बहुभिन्नरूपी समायोजन में छिपी किसी भी संरचना को biplot में प्रदर्शित करना है। इस प्रकार यह बहुभिन्नरूपी समन्वयन (सांख्यिकी) के क्षेत्र की एक तकनीक है। चूंकि यहां वर्णित सीए के प्रकार को या तो पंक्तियों पर या स्तंभों पर ध्यान केंद्रित करके लागू किया जा सकता है, इसलिए इसे वास्तव में सरल (सममित) पत्राचार विश्लेषण कहा जाना चाहिए। [4]
इसे परंपरागत रूप से माप के स्तर#नाममात्र स्तर की एक जोड़ी की आकस्मिक तालिकाओं पर लागू किया जाता है, जहां प्रत्येक कोशिका में या तो एक गिनती या शून्य मान होता है। यदि दो से अधिक श्रेणीबद्ध चर को संक्षेप में प्रस्तुत किया जाना है, तो इसके बजाय एकाधिक पत्राचार विश्लेषण नामक एक संस्करण को चुना जाना चाहिए। सीए को बाइनरी डेटा पर भी लागू किया जा सकता है, उपस्थिति/अनुपस्थिति कोडिंग सरलीकृत गिनती डेटा का प्रतिनिधित्व करती है यानी 1 एक सकारात्मक गिनती का वर्णन करता है और 0 शून्य की गिनती के लिए है। उपयोग किए गए स्कोर के आधार पर सीए ची-स्क्वायर दूरी को सुरक्षित रखता है [5][6] तालिका की पंक्तियों या स्तंभों के बीच। क्योंकि सीए एक वर्णनात्मक तकनीक है, इसे महत्वपूर्ण ची-स्क्वायर परीक्षण की परवाह किए बिना तालिकाओं पर लागू किया जा सकता है। [7][8] यद्यपि सांख्यिकीय अनुमान में उपयोग किया जाने वाला आँकड़ा और ची-वर्ग दूरी कम्प्यूटेशनल रूप से संबंधित हैं, उन्हें भ्रमित नहीं होना चाहिए क्योंकि बाद वाला CA में बहुभिन्नरूपी विश्लेषण सांख्यिकीय दूरी माप के रूप में काम करता है जबकि आँकड़ा वास्तव में एक स्केलर (गणित) है न कि मीट्रिक (गणित)। [9]
विवरण
प्रमुख घटक विश्लेषण की तरह, पत्राचार विश्लेषण ओर्थोगोनालिटी घटक (या अक्ष) बनाता है और, तालिका में प्रत्येक आइटम के लिए यानी प्रत्येक पंक्ति के लिए, स्कोर का एक सेट (कभी-कभी कारक स्कोर भी कहा जाता है, कारक विश्लेषण देखें)। पत्राचार विश्लेषण डेटा तालिका पर किया जाता है, जिसे m × n आकार के मैट्रिक्स C के रूप में माना जाता है, जहां m पंक्तियों की संख्या है और n स्तंभों की संख्या है। विधि के निम्नलिखित गणितीय विवरण में इटैलिक में बड़े अक्षर एक मैट्रिक्स (गणित) को संदर्भित करते हैं जबकि इटैलिक में अक्षर पंक्ति और कॉलम वैक्टर को संदर्भित करते हैं। निम्नलिखित गणनाओं को समझने के लिए मैट्रिक्स गुणन का ज्ञान आवश्यक है।
प्रीप्रोसेसिंग
एल्गोरिदम के केंद्रीय कम्प्यूटेशनल चरण पर आगे बढ़ने से पहले, मैट्रिक्स सी में मानों को बदलना होगा। [10] सबसे पहले स्तंभों और पंक्तियों (कभी-कभी द्रव्यमान कहा जाता है) के लिए वजन के एक सेट की गणना करें, [11][12] जहां पंक्ति और स्तंभ का भार क्रमशः पंक्ति और स्तंभ वैक्टर द्वारा दिया जाता है:
यहाँ मैट्रिक्स C में सभी सेल मानों का योग है, या C का योग संक्षेप में है, और उचित आयाम वाले लोगों की एक कॉलम पंक्ति और कॉलम वैक्टर है।
सरल शब्दों में कहें तो, केवल एक वेक्टर है जिसके तत्व C की पंक्ति के योग को C के योग से विभाजित करते हैं, और एक वेक्टर है जिसके तत्व C के स्तंभ योग को C के योग से विभाजित किया जाता है।
भार विकर्ण मैट्रिक्स में परिवर्तित हो जाते हैं
और
जहां के विकर्ण तत्व हैं और वे हैं क्रमशः अर्थात सदिश तत्व द्रव्यमान के वर्गमूल के गुणक व्युत्क्रम होते हैं। सभी ऑफ-विकर्ण तत्व 0 हैं।
अगला, मैट्रिक्स की गणना करें विभाजित करके इसके योग से
सरल शब्दों में, मैट्रिक्स यह केवल डेटा मैट्रिक्स (आकस्मिकता तालिका या बाइनरी तालिका) है जो भागों में परिवर्तित हो जाती है यानी प्रत्येक सेल मान पूरी तालिका के योग का केवल सेल भाग है।
अंत में, मैट्रिक्स की गणना करें, जिसे कभी-कभी मानकीकृत अवशेषों का मैट्रिक्स भी कहा जाता है, [13] मैट्रिक्स गुणन द्वारा
ध्यान दें, वेक्टर और एक बाहरी उत्पाद में संयोजित होते हैं जिसके परिणामस्वरूप उसी आयाम (वेक्टर स्थान) का एक मैट्रिक्स बनता है . शब्दों में सूत्र पढ़ता है: मैट्रिक्स मैट्रिक्स से घटाया गया हैऔर परिणामी मैट्रिक्स को विकर्ण मैट्रिक्स द्वारा स्केल (भारित) किया जाता है और . परिणामी मैट्रिक्स को विकर्ण आव्यूहों से गुणा करना, इसकी i-वीं पंक्ति (या स्तंभ) को इसके विकर्ण के i-वें तत्व से गुणा करने के बराबर है। या , क्रमश [14].
प्रीप्रोसेसिंग की व्याख्या
वैक्टर और क्रमशः पंक्ति और स्तंभ द्रव्यमान या पंक्तियों और स्तंभों के लिए सीमांत संभावनाएं हैं। घटाव मैट्रिक्स मैट्रिक्स सेडेटा को डबल केन्द्रित मैट्रिक्स का मैट्रिक्स बीजगणित संस्करण है। इस अंतर को विकर्ण भार मैट्रिक्स से गुणा करने पर एक मैट्रिक्स बनता है जिसमें वेक्टर रिक्त स्थान के उदाहरणों की उत्पत्ति (गणित) से भारित विचलन होता है। यह मूल मैट्रिक्स द्वारा परिभाषित किया गया है .
वास्तव में मैट्रिक्स ची-स्क्वेर्ड परीक्षण में अपेक्षित आवृत्तियों के मैट्रिक्स के समान है। इसलिएकम्प्यूटेशनल रूप से उस परीक्षण में प्रयुक्त स्वतंत्रता मॉडल से संबंधित है। लेकिन चूंकि सीए एक अनुमानात्मक पद्धति नहीं है इसलिए स्वतंत्रता मॉडल शब्द यहां अनुपयुक्त है।
ऑर्थोगोनल घटक
टेबलफिर विघटित हो जाता है [10]एक विलक्षण मूल्य अपघटन द्वारा
कहाँ और के बाएँ और दाएँ एकवचन सदिश हैं और एकवचन मानों वाला एक वर्ग विकर्ण मैट्रिक्स है काविकर्ण पर. आयाम का है इस तरह आयाम m×p और का है n×p का है. रूढ़िवादिता के रूप में और पूरा
- .
दूसरे शब्दों में, बहुभिन्नरूपी जानकारी जो इसमें निहित है साथ ही इसमेंअब इसे दो (समन्वय) आव्यूहों में वितरित किया गया है और और एक विकर्ण (स्केलिंग) मैट्रिक्स . उनके द्वारा परिभाषित सदिश समष्टि में आयामों की संख्या p है, जो कि दो मानों, पंक्तियों की संख्या और स्तंभों की संख्या में से छोटा है, शून्य से 1।
जड़ता
जबकि एक प्रमुख घटक विश्लेषण को प्रमुख घटक विश्लेषण#कंप्यूटिंग पीसीए को सहप्रसरण विधि का उपयोग करके कहा जा सकता है|(सह)विचरण को विघटित करें, और इसलिए इसकी सफलता का माप पहले कुछ पीसीए अक्षों द्वारा कवर किए गए (सह-)विचरण की मात्रा है - जिसे आइगेनवैल्यू में मापा जाता है -, एक सीए एक भारित (सह-)विचरण के साथ काम करता है जिसे जड़ता कहा जाता है।[15] वर्ग एकवचन मानों का योग कुल जड़त्व है डेटा तालिका की गणना इस प्रकार की जाती है
कुल जड़ता डेटा तालिका की गणना सीधे भी की जा सकती हैजैसा
एकवचन सदिशों के i-वें सेट द्वारा कवर की गई जड़ता की मात्रा है , प्रमुख जड़ता. पहले कुछ एकवचन वैक्टर द्वारा कवर किया गया जड़त्व का भाग जितना अधिक होगा यानी कुल जड़त्व की तुलना में मुख्य जड़त्व का योग जितना बड़ा होगा, सीए उतना ही अधिक सफल होगा। [15]इसलिए सभी प्रमुख जड़त्व मानों को भाग के रूप में व्यक्त किया जाता है कुल जड़ता का
और एक डरावने कथानक के रूप में प्रस्तुत किये गये हैं। वास्तव में एक मिट्टी - रोढ़ी वाला भूखंड सभी प्रमुख जड़त्व भागों का एक बार चार्ट मात्र है .
निर्देशांक
एकवचन वैक्टर को निर्देशांक में बदलने के लिए जो पंक्तियों या स्तंभों के बीच की दूरी को संरक्षित करता है, एक अतिरिक्त भार चरण आवश्यक है। परिणामी निर्देशांकों को प्रमुख निर्देशांक कहा जाता है[10]सीए पाठ्य पुस्तकों में। यदि पंक्तियों के लिए प्रमुख निर्देशांक का उपयोग किया जाता है तो उनके विज़ुअलाइज़ेशन को पंक्ति आइसोमेट्रिक कहा जाता है [16] अर्थमिति में स्केलिंग और स्केलिंग 1 [17]पारिस्थितिकी में. चूंकि भार में एकल मान शामिल होते हैं मानकीकृत अवशेषों के मैट्रिक्स का इन निर्देशांकों को कभी-कभी एकवचन मान स्केल किए गए एकवचन वैक्टर के रूप में संदर्भित किया जाता है, या, थोड़ा भ्रामक, ईजेनवैल्यू स्केल्ड ईजेनवेक्टर के रूप में। वास्तव में गैर-तुच्छ eigenvectors बाएँ एकवचन सदिश हैं का और वे सही एकवचन सदिश हैं का जबकि इनमें से किसी भी आव्यूह के eigenvalues एकवचन मानों के वर्ग हैं . लेकिन चूंकि सीए के लिए सभी आधुनिक एल्गोरिदम एक एकल मूल्य अपघटन पर आधारित हैं, इसलिए इस शब्दावली से बचना चाहिए। सीए की फ्रांसीसी परंपरा में निर्देशांक को कभी-कभी (कारक) स्कोर कहा जाता है।
मैट्रिक्स सी की पंक्तियों के लिए कारक स्कोर या प्रमुख निर्देशांक की गणना की जाती है
यानी बाएं एकवचन वैक्टर को पंक्ति द्रव्यमान के वर्गमूल के व्युत्क्रम और एकवचन मानों द्वारा स्केल किया जाता है। क्योंकि प्रमुख निर्देशांक की गणना एकवचन मानों का उपयोग करके की जाती है, उनमें मूल तालिका में पंक्तियों (या स्तंभों) के बीच भिन्नता के बारे में जानकारी होती है। प्रमुख निर्देशांक में इकाइयों के बीच यूक्लिडियन दूरियों की गणना करने से ऐसे मान प्राप्त होते हैं जो उनकी चिस्क्वेयर दूरियों के बराबर होते हैं, यही कारण है कि सीए को चिस्क्वेयर दूरियों को संरक्षित करने के लिए कहा जाता है।
स्तंभों के लिए प्रमुख निर्देशांक की गणना करें
सीए के परिणाम को एक उचित बाइप्लॉट में दर्शाने के लिए, उन श्रेणियों को जिन्हें प्रमुख निर्देशांक में प्लॉट नहीं किया जाता है, यानी कि चिस्क्वायर दूरी के निर्देशांक को संरक्षित करते हुए, तथाकथित मानक निर्देशांक में प्लॉट किया जाना चाहिए।[10]उन्हें मानक निर्देशांक कहा जाता है क्योंकि मानक निर्देशांक के प्रत्येक वेक्टर को माध्य 0 और विचरण 1 प्रदर्शित करने के लिए मानकीकृत किया गया है। [18] मानक निर्देशांक की गणना करते समय एकवचन मानों को छोड़ दिया जाता है जो कि बिप्लॉट को लागू करने का प्रत्यक्ष परिणाम है जिसके द्वारा एकवचन वेक्टर मैट्रिक्स के दो सेटों में से एक को शून्य की शक्ति तक बढ़ाए गए एकवचन मानों द्वारा स्केल किया जाना चाहिए यानी एक से गुणा किया जाना चाहिए यानी एकवचन मानों को छोड़कर गणना की जानी चाहिए यदि एकवचन वैक्टर के दूसरे सेट को एकवचन मानों द्वारा स्केल किया गया है। यह निर्देशांक के दो सेटों के बीच एक डॉट उत्पाद के अस्तित्व को आश्वस्त करता है यानी यह एक बाइप्लॉट में उनके स्थानिक संबंधों की सार्थक व्याख्या की ओर ले जाता है।
व्यावहारिक रूप में कोई मानक निर्देशांक को वेक्टर स्थान के वर्टेक्स (ज्यामिति) के रूप में सोच सकता है जिसमें प्रमुख निर्देशांक का सेट (यानी संबंधित बिंदु) मौजूद होता है। [19] पंक्तियों के लिए मानक निर्देशांक हैं
और वे कॉलम के लिए हैं
ध्यान दें कि स्केलिंग 1 [17]पारिस्थितिकी में बिप्लॉट का तात्पर्य पंक्तियों को मूल निर्देशांक में और स्तंभों को मानक निर्देशांक में होना है, जबकि स्केलिंग 2 का तात्पर्य पंक्तियों को मानक में और स्तंभों को प्रमुख निर्देशांक में होना है। अर्थात। स्केलिंग 1 का तात्पर्य एक द्विप्लॉट से है के साथ साथ जबकि स्केलिंग 2 का तात्पर्य एक द्विप्लॉट से है के साथ साथ .
परिणाम का चित्रमय प्रतिनिधित्व
सीए परिणाम का विज़ुअलाइज़ेशन हमेशा पहले कुछ एकल वैक्टरों द्वारा प्रसार के सारांश की सफलता का मूल्यांकन करने के लिए प्रमुख जड़ता मूल्यों के स्क्री प्लॉट को प्रदर्शित करने के साथ शुरू होता है।
वास्तविक समन्वय एक ग्राफ़ में प्रस्तुत किया गया है जो - पहली नज़र में - एक जटिल बिखराव की साजिश के साथ भ्रमित हो सकता है। वास्तव में इसमें दो स्कैटर प्लॉट एक के ऊपर एक मुद्रित होते हैं, पंक्तियों के लिए बिंदुओं का एक सेट और स्तंभों के लिए एक सेट। लेकिन एक द्विप्लॉट होने के नाते एक स्पष्ट व्याख्या नियम उपयोग किए गए दो समन्वय मैट्रिक्स से संबंधित है।
आमतौर पर सीए समाधान के पहले दो आयामों को प्लॉट किया जाता है क्योंकि उनमें डेटा तालिका के बारे में अधिकतम जानकारी शामिल होती है जिसे 2डी में प्रदर्शित किया जा सकता है, हालांकि आयामों के अन्य संयोजनों की जांच एक बाइप्लॉट द्वारा की जा सकती है। बाइप्लॉट वास्तव में मूल तालिका में मौजूद जानकारी के एक हिस्से का आयामी कमी मानचित्र (गणित) है।
सामान्य नियम के रूप में वह सेट (पंक्तियाँ या स्तंभ) जिसका विश्लेषण उसकी संरचना के संबंध में किया जाना चाहिए जैसा कि दूसरे सेट द्वारा मापा जाता है, प्रमुख निर्देशांक में प्रदर्शित होता है जबकि दूसरा सेट मानक निर्देशांक में प्रदर्शित होता है। जैसे जब ध्यान समान मतदान के अनुसार जिलों को क्रमबद्ध करने पर होता है, तो चुनावी जिले को पंक्तियों में और राजनीतिक दलों को गिनती वाले कक्षों के साथ कॉलम में प्रदर्शित करने वाली तालिका को प्रमुख निर्देशांक में जिलों (पंक्तियों) के साथ प्रदर्शित किया जा सकता है।
परंपरागत रूप से, सीए में फ्रांसीसी परंपरा से उत्पन्न, [20] प्रारंभिक सीए बाइप्लॉट्स ने दोनों संस्थाओं को एक ही समन्वय संस्करण में मैप किया, आमतौर पर प्रमुख निर्देशांक, लेकिन इस प्रकार का प्रदर्शन भ्रामक है: हालांकि इसे बाइप्लॉट कहा जाता है, इसमें पंक्ति और स्तंभ स्कोर के बीच कोई उपयोगी आंतरिक उत्पाद संबंध नहीं है, जैसा कि आर पैकेज एमएएसएस के अनुरक्षक ब्रायन डी. रिप्ले ने सही ढंग से बताया है। [21] आज उस तरह के प्रदर्शन से बचना चाहिए क्योंकि आम लोगों को आमतौर पर दो बिंदु सेटों के बीच के संबंध की कमी के बारे में पता नहीं होता है।
एक स्केलिंग 1 [17]बाइप्लॉट (प्रमुख निर्देशांक में पंक्तियाँ, मानक निर्देशांक में स्तंभ) की व्याख्या इस प्रकार की जाती है: [22]
- पंक्ति बिंदुओं के बीच की दूरी उनकी ची-स्क्वायर दूरी का अनुमान लगाती है। एक दूसरे के निकट स्थित बिंदु मूल डेटा तालिका में बहुत समान मान वाली पंक्तियों का प्रतिनिधित्व करते हैं। यानी वे गिनती डेटा के मामले में समान आवृत्तियों या उपस्थिति/अनुपस्थिति डेटा के मामले में निकट से संबंधित बाइनरी मान प्रदर्शित कर सकते हैं।
- मानक निर्देशांक में (स्तंभ) बिंदु वेक्टर स्थान के शीर्षों का प्रतिनिधित्व करते हैं यानी किसी चीज़ के बाहरी कोने का बहुआयामी अंतरिक्ष में एक अनियमित पॉलीहेड्रॉन का आकार होता है। प्रोजेक्ट पंक्ति किसी स्तंभ के मूल और मानक निर्देशांक को जोड़ने वाली रेखा पर इंगित करती है; यदि उस कनेक्शन लाइन के साथ अनुमानित स्थिति मानक समन्वय की स्थिति के करीब है, तो वह पंक्ति बिंदु दृढ़ता से इस कॉलम से जुड़ा हुआ है यानी गिनती डेटा के मामले में पंक्ति में उस श्रेणी की उच्च आवृत्ति होती है और उपस्थिति/अनुपस्थिति डेटा के मामले में पंक्ति उस कॉलम में 1 प्रदर्शित करने की संभावना है। पंक्ति बिंदु जिनके प्रक्षेपण के लिए कनेक्शन लाइन को मूल से आगे बढ़ाने की आवश्यकता होगी, उस कॉलम में औसत मान से कम है।
एक्सटेंशन और अनुप्रयोग
सीए के कई प्रकार उपलब्ध हैं, जिनमें डिट्रेंडेड पत्राचार विश्लेषण (डीसीए) और कैनोनिकल पत्राचार विश्लेषण (सीसीए) शामिल हैं। उत्तरार्द्ध (सीसीए) का उपयोग तब किया जाता है जब जांच की गई संस्थाओं के बीच समानता के संभावित कारणों के बारे में जानकारी होती है। कई श्रेणीगत चरों तक पत्राचार विश्लेषण के विस्तार को एकाधिक पत्राचार विश्लेषण कहा जाता है। गुणात्मक चर (यानी, गुणात्मक डेटा के लिए विभेदक विश्लेषण के समतुल्य) के आधार पर भेदभाव की समस्या के लिए पत्राचार विश्लेषण के अनुकूलन को विभेदक पत्राचार विश्लेषण या बैरीसेंट्रिक विभेदक विश्लेषण कहा जाता है।
सामाजिक विज्ञान में, पत्राचार विश्लेषण, और विशेष रूप से इसके विस्तार एकाधिक पत्राचार विश्लेषण, फ्रांसीसी समाजशास्त्री पियरे बॉर्डियू के आवेदन के माध्यम से फ्रांस के बाहर ज्ञात किया गया था। [23]
कार्यान्वयन
- डेटा विज़ुअलाइज़ेशन सिस्टम ऑरेंज (सॉफ़्टवेयर) में मॉड्यूल शामिल है: orngCA।
- सांख्यिकीय प्रोग्रामिंग भाषा आर (प्रोग्रामिंग भाषा) में कई पैकेज शामिल हैं, जो (सरल सममित) पत्राचार विश्लेषण के लिए एक फ़ंक्शन प्रदान करते हैं। R नोटेशन [package_name::function_name] का उपयोग करते हुए पैकेज और संबंधित फ़ंक्शन हैं:
ade4::dudi.coa()
,ca::ca()
,ExPosition::epCA()
,FactoMineR::CA()
,MASS::corresp()
,vegan::cca()
. शुरुआती लोगों के लिए सबसे आसान तरीका हैca::ca()
चूँकि एक विस्तृत पाठ्य पुस्तक है[24] उस पैकेज के साथ. - फ्रीवेयर पास्ट (पैलियोन्टोलॉजिकल सांख्यिकी)[25] मेनू मल्टीवेरिएट/ऑर्डिनेशन/कॉरेस्पोंडेंस (सीए) के माध्यम से (सरल सममित) पत्राचार विश्लेषण प्रदान करता है।
यह भी देखें
संदर्भ
- ↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP ISBN 0-19-850994-4
- ↑ Hirschfeld, H.O. (1935) "A connection between correlation and contingency", Proc. Cambridge Philosophical Society, 31, 520–524
- ↑ Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod.
- ↑ Beh, Eric; Lombardo, Rosaria (2014). पत्राचार विश्लेषण. सिद्धांत, अभ्यास और नई रणनीतियाँ. Chichester: Wiley. p. 120. ISBN 978-1-119-95324-1.
- ↑ Greenacre, Michael (2007). व्यवहार में पत्राचार विश्लेषण. Boca Raton: CRC Press. p. 204. ISBN 9781584886167.
- ↑ Legendre, Pierre; Legendre, Louis (2012). संख्यात्मक पारिस्थितिकी. Amsterdam: Elsevier. p. 465. ISBN 978-0-444-53868-0.
- ↑ Greenacre, Michael (1983). पत्राचार विश्लेषण का सिद्धांत और अनुप्रयोग. London: Academic Press. ISBN 0-12-299050-1.
- ↑ Greenacre, Michael (2007). Correspondence Analysis in Practice, Second Edition. London: Chapman & Hall/CRC.
- ↑ Greenacre, Michael (2017). व्यवहार में पत्राचार विश्लेषण (3rd ed.). Boca Raton: CRC Press. pp. 26–29. ISBN 9781498731775.
- ↑ 10.0 10.1 10.2 10.3 Greenacre, Michael (2007). व्यवहार में पत्राचार विश्लेषण. Boca Raton: CRC Press. p. 202. ISBN 9781584886167.
- ↑ Greenacre, Michael (1983). पत्राचार विश्लेषण का सिद्धांत और अनुप्रयोग. London: Academic Press. ISBN 0-12-299050-1.
- ↑ Greenacre, Michael (2007). अभ्यास में पत्राचार विश्लेषण, दूसरा संस्करण. London: Chapman & Hall/CRC. p. 202.
- ↑ Greenacre, Michael (2007). व्यवहार में पत्राचार विश्लेषण. Boca Raton: CRC Press. p. 202. ISBN 9781584886167.
- ↑ Abadir, Karim; Magnus, Jan (2005). मैट्रिक्स बीजगणित. Cambridge: Cambridge University Press. p. 24. ISBN 9786612394256.
- ↑ 15.0 15.1 Beh, Eric; Lombardo, Rosaria (2014). पत्राचार विश्लेषण. सिद्धांत, अभ्यास और नई रणनीतियाँ. Chichester: Wiley. pp. 87, 129. ISBN 978-1-119-95324-1.
- ↑ Beh, Eric; Lombardo, Rosaria (2014). पत्राचार विश्लेषण. सिद्धांत, अभ्यास और नई रणनीतियाँ. Chichester: Wiley. pp. 132–134. ISBN 978-1-119-95324-1.
- ↑ 17.0 17.1 17.2 Legendre, Pierre; Legendre, Louis (2012). संख्यात्मक पारिस्थितिकी. Amsterdam: Elsevier. p. 470. ISBN 978-0-444-53868-0.
- ↑ Greenacre, Michael (2017). व्यवहार में पत्राचार विश्लेषण (3rd ed.). Boca Raton: CRC Press. p. 62. ISBN 9781498731775.
- ↑ Blasius, Jörg (2001). पत्राचार विश्लेषण (in Deutsch). Berlin: Walter de Gruyter. pp. 40, 60. ISBN 9783486257304.
- ↑ Greenacre, Michael (2017). व्यवहार में पत्राचार विश्लेषण (3rd ed.). Boca Raton: CRC Press. p. 70. doi:10.1201/9781315369983. ISBN 9781498731775.
- ↑ Ripley, Brian (2022-01-13). "MASS R पैकेज मैनुअल". R Package Documentation (rdrr.io). Details. Retrieved 2022-03-17.
- ↑ Borcard, Daniel; Gillet, Francois; Legendre, Pierre (2018). आर के साथ संख्यात्मक पारिस्थितिकी (2nd ed.). Cham: Springer. p. 175. doi:10.1007/978-3-319-71404-2. ISBN 9783319714042.
- ↑ Bourdieu, Pierre (1984). भेद. Routledge. pp. 41. ISBN 0674212770.
- ↑ Greenacre, Michael (2021). व्यवहार में पत्राचार विश्लेषण (third ed.). London: CRC PRESS. ISBN 9780367782511.
- ↑ Hammer, Øyvind. "Past 4 - the Past of the Future". Archived from the original on 2020-11-01. Retrieved 2021-09-14.
बाहरी संबंध
- Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias, BBVA Foundation, Madrid, Spanish translation of Correspondence Analysis in Practice, available for free download from BBVA Foundation publications
- Greenacre, Michael (2010), Biplots in Practice, BBVA Foundation, Madrid, available for free download at multivariatestatistics.org