पर्याप्त आयाम में कमी

From Vigyanwiki

आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ आयाम में कमी के विचारों को जोड़ता है।

आयाम में कमी लंबे समय से प्रतिगमन विश्लेषण का प्राथमिक लक्ष्य रहा है। प्रतिक्रिया चर y और p-आयामी पूर्वानुमान सदिश को देखते हुए , प्रतिगमन विश्लेषण का उद्देश्य वितरण का अध्ययन करना है। का सशर्त वितरण दिया गया। आयाम में कमी फलन है। जो कों उपसमुच्चय , k < p से मैप करता है। जिससे का आयाम (सदिश स्पेस) कम हो जाता है। का आयाम [1] उदाहरण के लिए, के एक या अधिक रैखिक संयोजन हो सकते हैं।

आयाम में कमी का वितरण पर्याप्त कहा जाता है। यदि का वितरण के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में, के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है। [1]

ग्राफिकल प्रेरणा

प्रतिगमन सेटिंग में, के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई बनाम एक या अधिक पूर्वानुमानो स्कैटर प्लॉट पर विचार कर सकता है। स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। पर्याप्त सारांश प्लॉट कहलाता है।


जब उच्च-आयामी है। जब , डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट बनाम निर्माण किया जा सकता है और सापेक्ष सरलता से व्याख्या की जा सकती है।

इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है।

अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है। जिसमें रैखिक संयोजन सम्मिलित होते हैं। इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।

आयाम में कमी उपसमुच्चय

मान लीजिए कि पर्याप्त आयाम कमी है। जहां A रैंक के साथ आव्यूह (गणित) है। फिर के लिए रिग्रेशन जानकारी का अनुमान के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। पर्याप्त सारांश प्लॉट है।

सामान्यता की हानि के बिना, केवल सदिश स्पेस रैखिक के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना के स्तंभ स्पेस के लिए आधार (रैखिक बीजगणित) बनें , और स्पेस को फैला दें और द्वारा निरूपित किया जाता है। यह पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है।

जहाँ उपयुक्त संचयी वितरण फलन को दर्शाता है। इस प्रोपर्टी को व्यक्त करने का एक और विधि है।

या y सशर्त रूप से दिए गए से स्वतंत्र है। फिर उपसमुच्चय को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।[2]

संरचनात्मक आयाम

प्रतिगमन के लिए , संरचनात्मक आयाम, , के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या है। के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप है। के उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।[2]

न्यूनतम आयाम कमी उपसमुच्चय

उपसमुच्चय के लिए न्यूनतम डीआरएस कहा जाता है। यदि यह डीआरएस है और इसका आयाम अन्य सभी डीआरएस से कम या समान है। न्यूनतम डीआरएस आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम का , के समान है।[2]

यदि आधार है और न्यूनतम डीआरएस है, तो y बनाम का प्लॉट न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (d + 1)-आयामी है।

केंद्रीय उपसमुच्चय

यदि उपसमुच्चय के लिए डीआरएस है, और यदि अन्य सभी डीआरएस के लिए , तो यह केंद्रीय आयाम कमी उपसमुच्चय है, या बस केंद्रीय उपसमुच्चय है, और इसे दूसरे शब्दों में, के लिए केंद्रीय उपसमुच्चय उपस्थित है। यदि और केवल यदि प्रतिच्छेदन सभी आयाम में कमी उपसमुच्चय भी आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय है।[2]

केंद्रीय उपसमुच्चय अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन आवश्यक रूप से डीआरएस नहीं है। चूँकि, यदि उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।[2]

केंद्रीय उपसमुच्चय का अस्तित्व

जबकि केंद्रीय उपसमुच्चय का अस्तित्व प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:

माना और के लिए आयाम कमी उपसमुच्चय है। यदि संभाव्यता घनत्व फलन है सभी के और लिए है। जहाँ उत्तल समुच्चय है, फिर प्रतिच्छेदन आयाम कमी उपसमुच्चय भी है।

यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय ऐसे के लिए उपस्थित है।[2]

आयाम कम करने के विधि

ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, कटा हुआ व्युत्क्रम प्रतिगमन (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।[3] चूँकि एसआईआर मूल रूप से प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है।

आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।[4] व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,[5] केंद्रीय समाधान स्पेस का आकलन,[6] चित्रमय प्रतिगमन,[2] लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन [7] इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।

सिद्धांत घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के विधि पर्याप्त सिद्धांत पर आधारित नहीं हैं।

उदाहरण: रैखिक प्रतिगमन

प्रतिगमन मॉडल पर विचार करें

ध्यान दें कि का वितरण के वितरण के समान है। इसलिए, की अवधि आयाम कमी उपसमुच्चय है। साथ ही, 1-आयामी है (जब तक ), तो इस प्रतिगमन का संरचनात्मक आयाम है।

सामान्य न्यूनतम वर्ग अनुमान का संगत अनुमानक है, और इसलिए की अवधि का सतत अनुमानक है। का कथानक बनाम इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।

यह भी देखें

टिप्पणियाँ

  1. 1.0 1.1 Cook & Adragni (2009) Sufficient Dimension Reduction and Prediction in Regression In: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906): 4385–4405
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Cook, R.D. (1998) Regression Graphics: Ideas for Studying Regressions Through Graphics, Wiley ISBN 0471193658
  3. Li, K-C. (1991) Sliced Inverse Regression for Dimension Reduction In: Journal of the American Statistical Association, 86(414): 316–327
  4. Cook, R.D. and Forzani, L. (2009) Likelihood-Based Sufficient Dimension Reduction In: Journal of the American Statistical Association, 104(485): 197–208
  5. Yin, X. and Cook, R.D. (2003) Estimating Central Subspaces via Inverse Third Moments In: Biometrika, 90(1): 113–125
  6. Li, B. and Dong, Y.D. (2009) Dimension Reduction for Nonelliptically Distributed Predictors In: Annals of Statistics, 37(3): 1272–1298
  7. Li, Bing; Artemiou, Andreas; Li, Lexin (2011). "रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें". The Annals of Statistics. 39 (6): 3182–3210. arXiv:1203.2790. doi:10.1214/11-AOS932. S2CID 88519106.

संदर्भ

बाहरी संबंध