कैननिकल सहसंबंध
Part of a series on |
Machine learning and data mining |
---|
आँकड़ों में, कैनोनिकल-सहसंबंध विश्लेषण (सीसीए), जिसे कैनोनिकल वेरिएट्स विश्लेषण भी कहा जाता है, क्रॉस-कॉवर्सियन आव्यूह से जानकारी का अनुमान लगाने का एक विधि है।[1] यदि हमारे पास यादृच्छिक चर के दो सदिश X = (X1, ..., Xn) और Y = (Y1, ..., Ym)हैं,[2] और चर के बीच सहसंबंध हैं, तो विहित-सहसंबंध विश्लेषण के रैखिक संयोजनों का पता लगाएगा X और Y जिनका आपस में अधिकतम संबंध है।[3] टी. आर. कन्नप ने नोट किया है कि "व्यावहारिक रूप से महत्व के सामान्यतः सामने आने वाले सभी पैरामीट्रिक परीक्षणों को विहित-सहसंबंध विश्लेषण के विशेष स्थितियों के रूप में माना जा सकता है जो चर के दो सेटों के बीच संबंधों की जांच करने की सामान्य प्रक्रिया है।" इस पद्धति को पहली बार 1936 में हेरोल्ड होटलिंग द्वारा प्रस्तुत किया गया था चूँकि फ्लैटों के बीच के कोणों के संदर्भ में गणितीय अवधारणा जॉर्डन द्वारा 1875 में प्रकाशित की गई थी।[4]
परिभाषा
दो स्तम्भ सदिश और परिमित दूसरे पलों के साथ यादृच्छिक चर कोई भी क्रॉस-सहप्रसरण परिभाषित कर सकता है जो आव्यूह है जिसकी प्रविष्टि सहप्रसरण है। व्यवहार में, हम और (अर्थात डेटा मैट्रिसेस की एक जोड़ी से) से सैंपल किए गए डेटा के आधार पर सहप्रसरणआव्यूह का अनुमान लगाएंगे।
कैननिकल-सहसंबंध विश्लेषण सदिश (और ^{m}}) की खोज करता है, जैसे कि यादृच्छिक चर और सहसंबंध को अधिकतम करें (स्केलर) यादृच्छिक चर और विहित चरों की पहली जोड़ी हैं। फिर एक समान सहसंबंध विषय को अधिकतम करने वाले सदिश की खोज करता है जो कि विहित चर की पहली जोड़ी के साथ असंबद्ध होना है; यह विहित चरों की दूसरी जोड़ी देता है। इस प्रक्रिया को बार तक जारी रखा जा सकता है।
संगणना
व्युत्पत्ति
चलो किसी भी जोड़ी (वेक्टर-आकार) यादृच्छिक चर और के लिए क्रॉस-सहप्रसरण आव्यूह बनें अधिकतम करने के लिए लक्ष्य कार्य है
पहला कदम आधार के परिवर्तन को परिभाषित करना और परिभाषित करना है
और इस प्रकार हमारे पास है
कॉची-श्वार्ज असमानता द्वारा हमारे पास है
यदि सदिश और समरेख हैं, तो समानता है। इसके अलावा, अधिकतम सहसंबंध प्राप्त होता है यदि आव्यूह के लिए अधिकतम ईजेनवेल्यू वाला ईजेनवेक्टर है (देखें रेले भागफल)। घटते हुए परिमाण के ईजेनवेक्टर का उपयोग करके बाद के जोड़े पाए जाते हैं। ऑर्थोगोनलिटी की आश्वासन सहसंबंध मैट्रिसेस की समरूपता द्वारा दी जाती है।
इस संगणना को देखने का एक अन्य तरीका यह है कि और , X और Y के सहसंबंध आव्यूह के बाएँ और दाएँ एकवचन सदिश हैं जो उच्चतम एकवचन मान के अनुरूप हैं।
समाधान
समाधान इसलिए है:
- का आइजनवेक्टर है
- के लिए आनुपातिक है
पारस्परिक रूप से, वहाँ भी है:
- का आइजनवेक्टर है
- के लिए आनुपातिक है
निर्देशांक के परिवर्तन को उलटने पर, हमारे पास वह है
- का आइजनवेक्टर , है
- के लिए आनुपातिक है
- का आइजनवेक्टर है
- के लिए आनुपातिक . है
विहित चर द्वारा परिभाषित किया गया है:
कार्यान्वयन
सीसीए की गणना सहसंबंध आव्यूह पर एकवचन मान अपघटन का उपयोग करके की जा सकती है।[5] यह एक कार्य के रूप में उपलब्ध है[6]
- मैटलैब कैननकॉर के रूप में (एम भी जीएनयू ऑक्टेव में)
- सीसीए और शाकाहारी।सहित मानक कार्य cancor और कई अन्य पैकेजों के रूप में R विहित सहसंबंध विश्लेषण में सांख्यिकीय परिकल्पना परीक्षण के लिए CCP
- SAS भाषा के रूप में proc cancorr
- पुस्तकालय में पायथन (प्रोग्रामिंग भाषा) क्रॉस अपघटन के रूप में स्किकिट-लर्न और कैनकॉर के रूप में स्टैट्समॉडल्स में।
- एसपीएसएस मैक्रो कैनकोर के रूप में मुख्य सॉफ्टवेयर के साथ भेज दिया गया
- जूलिया (प्रोग्रामिंग भाषा) MultivariateStats.jl पैकेज में *
एक सहसंबंध आव्यूह पर एकवचन मान अपघटन का उपयोग कर सीसीए गणना फ्लैटों के बीच के कोणों के कोज्या से संबंधित है। कोसाइन कार्य छोटे कोणों के लिए खराब स्थिति में है जिससे परिमित परिशुद्धता (कंप्यूटर विज्ञान) कंप्यूटर अंकगणित में अत्यधिक सहसंबद्ध प्रिंसिपल सदिश की बहुत गलत गणना होती है। कोण_बीच_फ्लैट या गणना के लिए वैकल्पिक एल्गोरिदम[7] में उपलब्ध हैं
- साइपी के रूप में रैखिक-बीजगणित कार्य उपस्थान_कोण
- मैटलैब फाइल एक्सचेंज कार्य उप-स्थानa के रूप में
परिकल्पना परीक्षण
प्रत्येक पंक्ति को निम्नलिखित विधि से महत्व के लिए परखा जा सकता है। चूँकि सहसंबंधों को क्रमबद्ध किया गया है यह कहना कि पंक्ति शून्य है का अर्थ है कि आगे के सभी सहसंबंध भी शून्य हैं। यदि हमारे पास नमूने में स्वतंत्र अवलोकन हैं और , के लिए अनुमानित सहसंबंध है। वीं पंक्ति के लिए परीक्षण आँकड़ा है:
जो बड़े के लिए स्वतंत्रता कीडिग्री के साथ ची-वर्ग के रूप में असम्बद्ध रूप से वितरित किया जाता है।[8] चूँकि से तक के सभी सहसंबंध तार्किक रूप से शून्य हैं (और उस तरह से भी अनुमान लगाया गया है) इस बिंदु के बाद की नियमो के लिए गुणनफल अप्रासंगिक है। ध्यान दें कि छोटे नमूना आकार सीमा में तब हमें आश्वासन दी जाती है कि शीर्ष सहसंबंध समान रूप से 1 होंगे और इसलिए परीक्षण अर्थहीन है। [9]
व्यावहारिक उपयोग
प्रायोगिक संदर्भ में विहित सहसंबंध के लिए एक विशिष्ट उपयोग चर के दो सेट लेना है और देखना है कि दो सेटों में क्या सामान्य है।[10] उदाहरण के लिए मनोवैज्ञानिक परीक्षण में दो सुस्थापित बहुआयामी व्यक्तित्व परीक्षण जैसे कि मिनेसोटा मल्टीफेसिक पर्सनैलिटी इन्वेंटरी (एमएमपीआई-2) और मनोविक्षुब्धता एक्सट्रोवर्शन ओपननेस व्यक्तित्व सूची ले सकता है। यह देखकर कि एमएमपीआई-2 कारक एनईओ कारकों से कैसे संबंधित हैं कोई व्यक्ति इस बात की जानकारी प्राप्त कर सकता है कि परीक्षणों के बीच कौन से आयाम सामान्य थे और कितना अंतर साझा किया गया था। उदाहरण के लिए कोई यह पा सकता है कि बहिर्मुखता और अंतर्मुखता या विक्षिप्तता आयाम दो परीक्षणों के बीच पर्याप्त मात्रा में साझा भिन्नता के लिए उत्तरदाई है।
कोई मॉडल समीकरण बनाने के लिए विहित-सहसंबंध विश्लेषण का भी उपयोग कर सकता है जो चर के दो सेटों से संबंधित है उदाहरण के लिए प्रदर्शन उपायों का एक सेट और व्याख्यात्मक चर का एक सेट या आउटपुट का एक सेट और इनपुट का सेट इस तरह के मॉडल पर प्रतिबंध प्रतिबंध लगाया जा सकता है जिससे यह सुनिश्चित हो सके कि यह सैद्धांतिक आवश्यकताओं या सहज रूप से स्पष्ट स्थितियों को दर्शाता है। इस प्रकार के मॉडल को अधिकतम सहसंबंध मॉडल के रूप में जाना जाता है।[11]
कैनोनिकल सहसंबंध के परिणामों का विज़ुअलाइज़ेशन सामान्यतः महत्वपूर्ण सहसंबंध दिखाने वाले कैनोनिकल प्रकार के जोड़े के लिए चर के दो सेटों के गुणांक के बार प्लॉट के माध्यम से होता है। कुछ लेखकों का सुझाव है कि उन्हें हेलीओग्राफ के रूप में प्लॉट करके सबसे अच्छी तरह से देखा जाता है एक गोलाकार प्रारूप जिसमें किरण जैसी बार होती है जिसमें प्रत्येक आधा चर के दो सेटों का प्रतिनिधित्व करता है।[12]
उदाहरण
चलो शून्य अपेक्षित मान अर्थात के साथ।
- यदि , अर्थात। और पूरी तरह से सहसंबद्ध हैं, तो, उदाहरण के लिए, और , जिससे पहली (और केवल इस उदाहरण में) विहित चरों की जोड़ी और .है
- यदि , अर्थात। और पूरी तरह से परस्पर विरोधी हैं, तो उदाहरण के लिए, और , जिससे पहली (और केवल इस उदाहरण में) विहित चरों की जोड़ी और है
हम देखते हैं कि दोनों स्थितियों में जो दर्शाता है कि विहित-सहसंबंध विश्लेषण सहसंबद्ध और प्रतिसहसंबद्ध चरों को समान रूप से व्यवहार करता है।
प्रमुख कोणों से संबंध
यह मानते हुए कि और के शून्य अपेक्षित मान हैं, अर्थात, , उनके सहप्रसरण आव्यूह और तदनुसार और की प्रविष्टियों के लिए एक आंतरिक उत्पाद में ग्राम आव्यूह के रूप में देखा जा सकता है। इस व्याख्या में यादृच्छिक चर की प्रविष्टि और की को सहप्रसरण द्वारा दिए गए एक आंतरिक उत्पाद के साथ सदिश स्थान के तत्वों के रूप में माना जाता है। कोवैरियंस #रिलेशनशिप टू इनर प्रोडक्ट्स देखें।
कैनोनिकल चर और की परिभाषा तब इस आंतरिक उत्पाद के संबंध में और की प्रविष्टियों द्वारा फैले उप-स्थानों की जोड़ी के लिए प्रमुख सदिश की परिभाषा के समान है। विहित सहसंबंध प्रमुख कोणों के कोज्या के समान है।
श्वेतकरण और संभाव्य विहित सहसंबंध विश्लेषण
सीसीए को एक विशेष श्वेत परिवर्तन र्मेशन के रूप में भी देखा जा सकता है जहाँ यादृच्छिक सदिश और एक साथ इस तरह से रूपांतरित होते हैं कि श्वेत किए गए सदिश और के बीच क्रॉस-सहसंबंध विकर्ण है।[13] फिर विहित सहसंबंधों की व्याख्या और को जोड़ने वाले प्रतिगमन गुणांक के रूप में की जाती है और यह ऋणात्मक भी हो सकता है। सीसीए का प्रतिगमन दृश्य साझा और गैर-साझा परिवर्तनशीलता का प्रतिनिधित्व करने वाले असंबद्ध छिपे हुए चर के साथ सीसीए के लिए एक अव्यक्त चर संभाव्य जनरेटिव मॉडल के निर्माण का एक विधि भी प्रदान करता है।
यह भी देखें
- सामान्यीकृत विहित सहसंबंध
- आरवी गुणांक
- फ्लैटों के बीच का कोण
- प्रमुख कंपोनेंट विश्लेषण
- रैखिक विभेदक विश्लेषण
- नियमित विहित सहसंबंध विश्लेषण
- विलक्षण मान अपघटन
- आंशिक न्यूनतम वर्ग प्रतिगमन
संदर्भ
- ↑ Härdle, Wolfgang; Simar, Léopold (2007). "Canonical Correlation Analysis". अनुप्रयुक्त बहुभिन्नरूपी सांख्यिकीय विश्लेषण. pp. 321–330. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
- ↑ Knapp, T. R. (1978). "Canonical correlation analysis: A general parametric significance-testing system". Psychological Bulletin. 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
- ↑ Hotelling, H. (1936). "चर के दो सेटों के बीच संबंध". Biometrika. 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.
- ↑ Jordan, C. (1875). "Essai sur la géométrie à dimensions". Bull. Soc. Math. France. 3: 103.
- ↑ Hsu, D.; Kakade, S. M.; Zhang, T. (2012). "हिडन मार्कोव मॉडल सीखने के लिए एक स्पेक्ट्रल एल्गोरिदम" (PDF). Journal of Computer and System Sciences. 78 (5): 1460. arXiv:0811.4413. doi:10.1016/j.jcss.2011.12.025. S2CID 220740158.
- ↑ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. (2009). "कर्नेल विहित सहसंबंध विश्लेषण और अनुप्रयोगों के साथ जुड़ाव के अरैखिक उपाय" (PDF). Journal of Statistical Planning and Inference. 139 (7): 2162. doi:10.1016/j.jspi.2008.10.011.
- ↑ Knyazev, A.V.; Argentati, M.E. (2002), "Principal Angles between Subspaces in an A-Based Scalar Product: Algorithms and Perturbation Estimates", SIAM Journal on Scientific Computing, 23 (6): 2009–2041, Bibcode:2002SJSC...23.2008K, CiteSeerX 10.1.1.73.2914, doi:10.1137/S1064827500377332
- ↑ Kanti V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press.
- ↑ Yang Song, Peter J. Schreier, David Ram´ırez, and Tanuj Hasija Canonical correlation analysis of high-dimensional data with very small sample support arXiv:1604.02047
- ↑ Sieranoja, S.; Sahidullah, Md; Kinnunen, T.; Komulainen, J.; Hadid, A. (July 2018). "अनुकूलित ऑडियो सुविधाओं के साथ ऑडियोविजुअल सिंक्रोनी डिटेक्शन" (PDF). IEEE 3rd Int. Conference on Signal and Image Processing (ICSIP 2018): 377–381. doi:10.1109/SIPROCESS.2018.8600424. ISBN 978-1-5386-6396-7. S2CID 51682024.
- ↑ Tofallis, C. (1999). "एकाधिक निर्भर चर और बाधाओं के साथ मॉडल बिल्डिंग". Journal of the Royal Statistical Society, Series D. 48 (3): 371–378. arXiv:1109.0725. doi:10.1111/1467-9884.00195. S2CID 8942357.
- ↑ Degani, A.; Shafto, M.; Olson, L. (2006). "Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns" (PDF). आरेखीय प्रतिनिधित्व और अनुमान. Lecture Notes in Computer Science. Vol. 4045. p. 93. CiteSeerX 10.1.1.538.5217. doi:10.1007/11783183_11. ISBN 978-3-540-35623-3.
- ↑ Jendoubi, T.; Strimmer, K. (2018). "ओमिक्स डेटा एकीकरण के लिए संभाव्य विहित सहसंबंध विश्लेषण के लिए एक श्वेत दृष्टिकोण". BMC Bioinformatics. 20 (1): 15. arXiv:1802.03490. doi:10.1186/s12859-018-2572-9. PMC 6327589. PMID 30626338.
बाहरी संबंध
- Discriminant Correlation Analysis (DCA)[1] (MATLAB)
- Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. (2004). "Canonical Correlation Analysis: An Overview with Application to Learning Methods". Neural Computation. 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452. doi:10.1162/0899766042321814. PMID 15516276. S2CID 202473.
- A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Also provides a FORTRAN program)- in Journal of Quantitative Economics 7(2), 2009, pp. 173–199
- Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in Journal of Applied Economic Sciences 4(1), 2009, pp. 115–124
- ↑ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition". IEEE Transactions on Information Forensics and Security. 11 (9): 1984–1996. doi:10.1109/TIFS.2016.2569061. S2CID 15624506.