पर्याप्त आयाम में कमी: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए | आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ [[आयाम में कमी]] के विचारों को जोड़ता है। | ||
आयाम में कमी लंबे समय से [[प्रतिगमन विश्लेषण]] का प्राथमिक लक्ष्य रहा है। | आयाम में कमी लंबे समय से [[प्रतिगमन विश्लेषण]] का प्राथमिक लक्ष्य रहा है। प्रतिक्रिया चर ''y'' और ''p''-आयामी पूर्वानुमान सदिश <math>\textbf{x}</math> को देखते हुए , प्रतिगमन विश्लेषण का उद्देश्य <math>y\mid\textbf{x}</math> वितरण का अध्ययन करना है। <math>y</math> का [[सशर्त वितरण]] <math>\textbf{x}</math> दिया गया। आयाम में कमी फलन <math>R(\textbf{x})</math> है। जो <math>\textbf{x}</math> कों उपसमुच्चय <math>\mathbb{R}^k</math>, k < p से मैप करता है। जिससे का [[आयाम (वेक्टर स्थान)|आयाम (सदिश स्पेस)]] कम हो जाता है। <math>\textbf{x}</math> का आयाम <ref name="Cook & Adragni:2009">Cook & Adragni (2009) [http://rsta.royalsocietypublishing.org/content/367/1906/4385.full ''Sufficient Dimension Reduction and Prediction in Regression''] In: ''Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences'', 367(1906): 4385–4405</ref> उदाहरण के लिए,<math>\textbf{x}</math> <math>R(\textbf{x})</math> के एक या अधिक [[रैखिक संयोजन]] हो सकते हैं। | ||
आयाम में कमी <math>R(\textbf{x})</math> का वितरण पर्याप्त कहा जाता है। यदि <math>y\mid R(\textbf{x})</math> का वितरण <math>\textbf{x}</math> <math>y\mid\textbf{x}</math> के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में,<math>\textbf{x}</math> के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है। <ref name="Cook & Adragni:2009" /> | |||
== ग्राफिकल प्रेरणा == | == ग्राफिकल प्रेरणा == | ||
प्रतिगमन सेटिंग में,<math>y\mid\textbf{x}</math> के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई <math>y</math> बनाम एक या अधिक पूर्वानुमानो [[स्कैटर प्लॉट]] पर विचार कर सकता है। | प्रतिगमन सेटिंग में,<math>y\mid\textbf{x}</math> के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई <math>y</math> बनाम एक या अधिक पूर्वानुमानो [[स्कैटर प्लॉट]] पर विचार कर सकता है। स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। पर्याप्त सारांश प्लॉट कहलाता है। | ||
जब <math>\textbf{x}</math> उच्च-आयामी है। जब <math>p\geq 3</math>, डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक कि त्रि-आयामी बिखराव भूखंडों को | जब <math>\textbf{x}</math> उच्च-आयामी है। जब <math>p\geq 3</math>, डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक कि त्रि-आयामी बिखराव भूखंडों को कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है <math>R(\textbf{x})</math> छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट <math>y</math> बनाम <math>R(\textbf{x})</math> निर्माण किया जा सकता है और सापेक्ष सरलता से व्याख्या की जा सकती है। | ||
इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल <math>y\mid\textbf{x}</math> अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है। | इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल <math>y\mid\textbf{x}</math> अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है। | ||
Line 15: | Line 15: | ||
== आयाम में कमी उपसमुच्चय == | == आयाम में कमी उपसमुच्चय == | ||
मान लीजिए कि <math>R(\textbf{x}) = A^T\textbf{x}</math> | मान लीजिए कि <math>R(\textbf{x}) = A^T\textbf{x}</math> पर्याप्त आयाम कमी है। जहां A <math>A</math> रैंक के साथ <math>p\times k</math> [[मैट्रिक्स (गणित)|आव्यूह (गणित)]] है। <math>k\leq p</math> फिर <math>y\mid\textbf{x}</math> के लिए रिग्रेशन जानकारी का अनुमान <math>y\mid A^T\textbf{x}</math> के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। <math>y\mid A^T\textbf{x}</math> पर्याप्त सारांश प्लॉट है। | ||
[[व्यापकता के नुकसान के बिना|सामान्यता की हानि के बिना]], केवल सदिश स्पेस रैखिक <math>A</math> के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना <math>\eta</math> के स्तंभ स्पेस के लिए | [[व्यापकता के नुकसान के बिना|सामान्यता की हानि के बिना]], केवल सदिश स्पेस रैखिक <math>A</math> के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना <math>\eta</math> के स्तंभ स्पेस के लिए [[आधार (रैखिक बीजगणित)]] बनें <math>A</math>, और स्पेस <math>\eta</math> को फैला दें और <math>\mathcal{S}(\eta)</math> द्वारा निरूपित किया जाता है। यह पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है। | ||
: <math>F_{y\mid x} = F_{y\mid\eta^Tx},</math> | : <math>F_{y\mid x} = F_{y\mid\eta^Tx},</math> | ||
Line 24: | Line 24: | ||
: <math>y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},</math> | : <math>y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},</math> | ||
या y [[सशर्त स्वतंत्रता|सशर्त]] रूप से <math>y</math> दिए गए <math>\eta^T\textbf{x}</math> से स्वतंत्र है। फिर उपसमुच्चय <math>\mathcal{S}(\eta)</math> को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।<ref name="Cook:1998">Cook, R.D. (1998) ''Regression Graphics: Ideas for Studying Regressions Through Graphics'', Wiley {{ISBN|0471193658}}</ref> | या y [[सशर्त स्वतंत्रता|सशर्त]] रूप से <math>y</math> दिए गए <math>\eta^T\textbf{x}</math> से स्वतंत्र है। फिर उपसमुच्चय <math>\mathcal{S}(\eta)</math> को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।<ref name="Cook:1998">Cook, R.D. (1998) ''Regression Graphics: Ideas for Studying Regressions Through Graphics'', Wiley {{ISBN|0471193658}}</ref> | ||
=== संरचनात्मक आयाम === | === संरचनात्मक आयाम === | ||
प्रतिगमन के लिए <math>y\mid\textbf{x}</math>, संरचनात्मक आयाम, <math>d</math>, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या <math>\textbf{x}</math> है। <math>y\mid\textbf{x}</math> के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप <math>\textbf{x}</math> है। <math>\mathbb{R}^d</math> के | प्रतिगमन के लिए <math>y\mid\textbf{x}</math>, संरचनात्मक आयाम, <math>d</math>, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या <math>\textbf{x}</math> है। <math>y\mid\textbf{x}</math> के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप <math>\textbf{x}</math> है। <math>\mathbb{R}^d</math> के उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।<ref name="Cook:1998" /> | ||
=== न्यूनतम आयाम कमी उपसमुच्चय === | === न्यूनतम आयाम कमी उपसमुच्चय === | ||
उपसमुच्चय <math>\mathcal{S}</math> के लिए न्यूनतम डीआरएस <math>y\mid\textbf{x}</math> कहा जाता है। यदि यह डीआरएस है और इसका आयाम अन्य सभी डीआरएस <math>y\mid\textbf{x}</math> से कम या समान है। न्यूनतम डीआरएस <math>\mathcal{S}</math> आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम <math>d</math> का <math>y\mid\textbf{x}</math>, के समान है।<ref name="Cook:1998" /> | |||
यदि <math>\mathcal{S}</math> आधार <math>\eta</math> है | यदि <math>\mathcal{S}</math> आधार <math>\eta</math> है और न्यूनतम डीआरएस है, तो y बनाम <math>\eta^T\textbf{x}</math> का प्लॉट न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (''d'' + 1)-आयामी है। | ||
== केंद्रीय उपसमुच्चय == | == केंद्रीय उपसमुच्चय == | ||
यदि | यदि उपसमुच्चय <math>\mathcal{S}</math> <math>y\mid\textbf{x}</math> के लिए डीआरएस है, और यदि <math>\mathcal{S}\subset\mathcal{S}_{drs}</math> अन्य सभी डीआरएस के लिए <math>\mathcal{S}_{drs}</math>, तो यह केंद्रीय आयाम कमी उपसमुच्चय है, या बस केंद्रीय उपसमुच्चय है, और इसे <math>\mathcal{S}_{y\mid x}</math> दूसरे शब्दों में, <math>y\mid\textbf{x}</math> के लिए केंद्रीय उपसमुच्चय उपस्थित है। [[अगर और केवल अगर|यदि और केवल यदि]] प्रतिच्छेदन <math display="inline">\bigcap\mathcal{S}_{drs}</math> सभी आयाम में कमी उपसमुच्चय भी आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> है।<ref name="Cook:1998" /> | ||
केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन <math display="inline">\bigcap\mathcal{S}_{drs}</math> आवश्यक रूप से | केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन <math display="inline">\bigcap\mathcal{S}_{drs}</math> आवश्यक रूप से डीआरएस नहीं है। चूँकि, यदि <math>\mathcal{S}_{y\mid x}</math> उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।<ref name="Cook:1998" /> | ||
=== '''केंद्रीय उपसमुच्चय का अस्तित्व''' === | === '''केंद्रीय उपसमुच्चय का अस्तित्व''' === | ||
जबकि केंद्रीय उपसमुच्चय का अस्तित्व <math>\mathcal{S}_{y\mid x}</math> प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें: | जबकि केंद्रीय उपसमुच्चय का अस्तित्व <math>\mathcal{S}_{y\mid x}</math> प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें: | ||
: माना <math>\mathcal{S}_1</math> और <math>\mathcal{S}_2</math> के लिए आयाम कमी उपसमुच्चय <math>y\mid\textbf{x}</math> है। यदि <math>\textbf{x}</math> संभाव्यता घनत्व <math>f(a) > 0</math> फलन है | : माना <math>\mathcal{S}_1</math> और <math>\mathcal{S}_2</math> के लिए आयाम कमी उपसमुच्चय <math>y\mid\textbf{x}</math> है। यदि <math>\textbf{x}</math> संभाव्यता घनत्व <math>f(a) > 0</math> फलन है सभी के <math>a\in\Omega_x</math> और <math>f(a) = 0</math> लिए है। जहाँ <math>\Omega_x</math> [[उत्तल सेट|उत्तल समुच्चय]] है, फिर प्रतिच्छेदन <math>\mathcal{S}_1\cap\mathcal{S}_2</math> आयाम कमी उपसमुच्चय भी है। | ||
यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> ऐसे <math>\textbf{x}</math> के लिए उपस्थित है।<ref name="Cook:1998" /> | यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> ऐसे <math>\textbf{x}</math> के लिए उपस्थित है।<ref name="Cook:1998" /> | ||
== आयाम कम करने के विधि == | == आयाम कम करने के विधि == | ||
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, [[कटा हुआ उलटा प्रतिगमन|कटा हुआ व्युत्क्रम प्रतिगमन]] (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।<ref name="Li:1991">Li, K-C. (1991) [https://www.jstor.org/stable/2290563 ''Sliced Inverse Regression for Dimension Reduction''] In: ''[[Journal of the American Statistical Association]]'', 86(414): 316–327</ref> चूँकि एसआईआर मूल रूप से | ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, [[कटा हुआ उलटा प्रतिगमन|कटा हुआ व्युत्क्रम प्रतिगमन]] (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।<ref name="Li:1991">Li, K-C. (1991) [https://www.jstor.org/stable/2290563 ''Sliced Inverse Regression for Dimension Reduction''] In: ''[[Journal of the American Statistical Association]]'', 86(414): 316–327</ref> चूँकि एसआईआर मूल रूप से प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है। | ||
आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।<ref name="Cook & Forzani(2009)">Cook, R.D. and Forzani, L. (2009) ''Likelihood-Based Sufficient Dimension Reduction'' In: [[Journal of the American Statistical Association]], 104(485): 197–208</ref> व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,<ref name="Yin & Cook:2003">Yin, X. and Cook, R.D. (2003) [https://www.jstor.org/stable/30042023 ''Estimating Central Subspaces via Inverse Third Moments''] In: ''[[Biometrika]]'', 90(1): 113–125</ref> केंद्रीय समाधान स्पेस का आकलन,<ref name="Li & Dong:2009">Li, B. and Dong, Y.D. (2009) [http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1239369022 ''Dimension Reduction for Nonelliptically Distributed Predictors''] In: ''[[Annals of Statistics]]'', 37(3): 1272–1298</ref> चित्रमय प्रतिगमन,<ref name="Cook:1998" /> लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन <ref>{{cite journal|last1=Li|first1=Bing|last2=Artemiou|first2=Andreas|last3=Li|first3=Lexin|title=रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें|journal=The Annals of Statistics|date=2011|volume=39|issue=6|pages=3182–3210|doi=10.1214/11-AOS932|arxiv=1203.2790|s2cid=88519106 }}</ref> इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें। | आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।<ref name="Cook & Forzani(2009)">Cook, R.D. and Forzani, L. (2009) ''Likelihood-Based Sufficient Dimension Reduction'' In: [[Journal of the American Statistical Association]], 104(485): 197–208</ref> व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,<ref name="Yin & Cook:2003">Yin, X. and Cook, R.D. (2003) [https://www.jstor.org/stable/30042023 ''Estimating Central Subspaces via Inverse Third Moments''] In: ''[[Biometrika]]'', 90(1): 113–125</ref> केंद्रीय समाधान स्पेस का आकलन,<ref name="Li & Dong:2009">Li, B. and Dong, Y.D. (2009) [http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1239369022 ''Dimension Reduction for Nonelliptically Distributed Predictors''] In: ''[[Annals of Statistics]]'', 37(3): 1272–1298</ref> चित्रमय प्रतिगमन,<ref name="Cook:1998" /> लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन <ref>{{cite journal|last1=Li|first1=Bing|last2=Artemiou|first2=Andreas|last3=Li|first3=Lexin|title=रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें|journal=The Annals of Statistics|date=2011|volume=39|issue=6|pages=3182–3210|doi=10.1214/11-AOS932|arxiv=1203.2790|s2cid=88519106 }}</ref> इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें। | ||
Line 61: | Line 53: | ||
: <math>y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.</math> | : <math>y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.</math> | ||
ध्यान दें कि <math>y\mid\textbf{x}</math> का वितरण <math>y\mid\beta^T\textbf{x}</math> के वितरण के समान है। इसलिए,<math>\beta</math> की अवधि | ध्यान दें कि <math>y\mid\textbf{x}</math> का वितरण <math>y\mid\beta^T\textbf{x}</math> के वितरण के समान है। इसलिए,<math>\beta</math> की अवधि आयाम कमी उपसमुच्चय है। साथ ही, <math>\beta^T\textbf{x}</math> 1-आयामी है (जब तक <math>\beta=\textbf{0}</math>), तो इस प्रतिगमन का संरचनात्मक आयाम <math>d=1</math> है। | ||
सामान्य न्यूनतम वर्ग अनुमान <math>\hat{\beta}</math> का <math>\beta</math> संगत अनुमानक है, और इसलिए <math>\hat{\beta}</math> की अवधि <math>\mathcal{S}_{y\mid x}</math> का | सामान्य न्यूनतम वर्ग अनुमान <math>\hat{\beta}</math> का <math>\beta</math> संगत अनुमानक है, और इसलिए <math>\hat{\beta}</math> की अवधि <math>\mathcal{S}_{y\mid x}</math> का सतत अनुमानक है। <math>y</math> का कथानक बनाम <math>\hat{\beta}^T\textbf{x}</math> इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है। | ||
== यह भी देखें == | == यह भी देखें == | ||
Line 75: | Line 67: | ||
== टिप्पणियाँ == | == टिप्पणियाँ == | ||
{{Reflist}} | {{Reflist}} | ||
== संदर्भ == | == संदर्भ == | ||
Line 84: | Line 75: | ||
*[[Ker-Chau Li|Li, K-C.]] (1991) "Sliced Inverse Regression for Dimension Reduction", [[Journal of the American Statistical Association]], 86(414), 316–327. [https://www.jstor.org/stable/2290563 Jstor] | *[[Ker-Chau Li|Li, K-C.]] (1991) "Sliced Inverse Regression for Dimension Reduction", [[Journal of the American Statistical Association]], 86(414), 316–327. [https://www.jstor.org/stable/2290563 Jstor] | ||
{{refend}} | {{refend}} | ||
== बाहरी संबंध == | == बाहरी संबंध == |
Revision as of 13:20, 27 May 2023
आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ आयाम में कमी के विचारों को जोड़ता है।
आयाम में कमी लंबे समय से प्रतिगमन विश्लेषण का प्राथमिक लक्ष्य रहा है। प्रतिक्रिया चर y और p-आयामी पूर्वानुमान सदिश को देखते हुए , प्रतिगमन विश्लेषण का उद्देश्य वितरण का अध्ययन करना है। का सशर्त वितरण दिया गया। आयाम में कमी फलन है। जो कों उपसमुच्चय , k < p से मैप करता है। जिससे का आयाम (सदिश स्पेस) कम हो जाता है। का आयाम [1] उदाहरण के लिए, के एक या अधिक रैखिक संयोजन हो सकते हैं।
आयाम में कमी का वितरण पर्याप्त कहा जाता है। यदि का वितरण के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में, के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है। [1]
ग्राफिकल प्रेरणा
प्रतिगमन सेटिंग में, के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई बनाम एक या अधिक पूर्वानुमानो स्कैटर प्लॉट पर विचार कर सकता है। स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। पर्याप्त सारांश प्लॉट कहलाता है।
जब उच्च-आयामी है। जब , डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक कि त्रि-आयामी बिखराव भूखंडों को कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट बनाम निर्माण किया जा सकता है और सापेक्ष सरलता से व्याख्या की जा सकती है।
इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है।
अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है। जिसमें रैखिक संयोजन सम्मिलित होते हैं। इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।
आयाम में कमी उपसमुच्चय
मान लीजिए कि पर्याप्त आयाम कमी है। जहां A रैंक के साथ आव्यूह (गणित) है। फिर के लिए रिग्रेशन जानकारी का अनुमान के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। पर्याप्त सारांश प्लॉट है।
सामान्यता की हानि के बिना, केवल सदिश स्पेस रैखिक के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना के स्तंभ स्पेस के लिए आधार (रैखिक बीजगणित) बनें , और स्पेस को फैला दें और द्वारा निरूपित किया जाता है। यह पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है।
जहाँ उपयुक्त संचयी वितरण फलन को दर्शाता है। इस प्रोपर्टी को व्यक्त करने का एक और विधि है।
या y सशर्त रूप से दिए गए से स्वतंत्र है। फिर उपसमुच्चय को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।[2]
संरचनात्मक आयाम
प्रतिगमन के लिए , संरचनात्मक आयाम, , के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या है। के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप है। के उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।[2]
न्यूनतम आयाम कमी उपसमुच्चय
उपसमुच्चय के लिए न्यूनतम डीआरएस कहा जाता है। यदि यह डीआरएस है और इसका आयाम अन्य सभी डीआरएस से कम या समान है। न्यूनतम डीआरएस आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम का , के समान है।[2]
यदि आधार है और न्यूनतम डीआरएस है, तो y बनाम का प्लॉट न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (d + 1)-आयामी है।
केंद्रीय उपसमुच्चय
यदि उपसमुच्चय के लिए डीआरएस है, और यदि अन्य सभी डीआरएस के लिए , तो यह केंद्रीय आयाम कमी उपसमुच्चय है, या बस केंद्रीय उपसमुच्चय है, और इसे दूसरे शब्दों में, के लिए केंद्रीय उपसमुच्चय उपस्थित है। यदि और केवल यदि प्रतिच्छेदन सभी आयाम में कमी उपसमुच्चय भी आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय है।[2]
केंद्रीय उपसमुच्चय अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन आवश्यक रूप से डीआरएस नहीं है। चूँकि, यदि उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।[2]
केंद्रीय उपसमुच्चय का अस्तित्व
जबकि केंद्रीय उपसमुच्चय का अस्तित्व प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:
- माना और के लिए आयाम कमी उपसमुच्चय है। यदि संभाव्यता घनत्व फलन है सभी के और लिए है। जहाँ उत्तल समुच्चय है, फिर प्रतिच्छेदन आयाम कमी उपसमुच्चय भी है।
यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय ऐसे के लिए उपस्थित है।[2]
आयाम कम करने के विधि
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, कटा हुआ व्युत्क्रम प्रतिगमन (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।[3] चूँकि एसआईआर मूल रूप से प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है।
आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।[4] व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,[5] केंद्रीय समाधान स्पेस का आकलन,[6] चित्रमय प्रतिगमन,[2] लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन [7] इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।
सिद्धांत घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के विधि पर्याप्त सिद्धांत पर आधारित नहीं हैं।
उदाहरण: रैखिक प्रतिगमन
प्रतिगमन मॉडल पर विचार करें
ध्यान दें कि का वितरण के वितरण के समान है। इसलिए, की अवधि आयाम कमी उपसमुच्चय है। साथ ही, 1-आयामी है (जब तक ), तो इस प्रतिगमन का संरचनात्मक आयाम है।
सामान्य न्यूनतम वर्ग अनुमान का संगत अनुमानक है, और इसलिए की अवधि का सतत अनुमानक है। का कथानक बनाम इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।
यह भी देखें
- आयाम में कमी
- कटा हुआ व्युत्क्रम प्रतिगमन
- प्रमुख कंपोनेंट विश्लेषण
- रैखिक विभेदक विश्लेषण
- परिमाणिकता का अपशब्द
- बहुरेखीय उप-स्पेस अधिगम
टिप्पणियाँ
- ↑ 1.0 1.1 Cook & Adragni (2009) Sufficient Dimension Reduction and Prediction in Regression In: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906): 4385–4405
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Cook, R.D. (1998) Regression Graphics: Ideas for Studying Regressions Through Graphics, Wiley ISBN 0471193658
- ↑ Li, K-C. (1991) Sliced Inverse Regression for Dimension Reduction In: Journal of the American Statistical Association, 86(414): 316–327
- ↑ Cook, R.D. and Forzani, L. (2009) Likelihood-Based Sufficient Dimension Reduction In: Journal of the American Statistical Association, 104(485): 197–208
- ↑ Yin, X. and Cook, R.D. (2003) Estimating Central Subspaces via Inverse Third Moments In: Biometrika, 90(1): 113–125
- ↑ Li, B. and Dong, Y.D. (2009) Dimension Reduction for Nonelliptically Distributed Predictors In: Annals of Statistics, 37(3): 1272–1298
- ↑ Li, Bing; Artemiou, Andreas; Li, Lexin (2011). "रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें". The Annals of Statistics. 39 (6): 3182–3210. arXiv:1203.2790. doi:10.1214/11-AOS932. S2CID 88519106.
संदर्भ
- Cook, R.D. (1998) Regression Graphics: Ideas for Studying Regressions through Graphics, Wiley Series in Probability and Statistics. Regression Graphics.
- Cook, R.D. and Adragni, K.P. (2009) "Sufficient Dimension Reduction and Prediction in Regression", Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906), 4385–4405. Full-text
- Cook, R.D. and Weisberg, S. (1991) "Sliced Inverse Regression for Dimension Reduction: Comment", Journal of the American Statistical Association, 86(414), 328–332. Jstor
- Li, K-C. (1991) "Sliced Inverse Regression for Dimension Reduction", Journal of the American Statistical Association, 86(414), 316–327. Jstor