पर्याप्त आयाम में कमी: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए एक प्रतिमान है जो पर्याप्त आंकड़ों की अवधारणा के साथ [[आयाम में कमी]] के विचारों को जोड़ता है।
आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए एक प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ [[आयाम में कमी]] के विचारों को जोड़ता है।


आयाम में कमी लंबे समय से [[प्रतिगमन विश्लेषण]] का प्राथमिक लक्ष्य रहा है। एक प्रतिक्रिया चर ''y'' और एक ''p''-आयामी भविष्यवक्ता वेक्टर को देखते हुए <math>\textbf{x}</math>, प्रतिगमन विश्लेषण का उद्देश्य वितरण का अध्ययन करना है <math>y\mid\textbf{x}</math>, का [[सशर्त वितरण]] <math>y</math> दिया गया <math>\textbf{x}</math>. आयाम में कमी एक कार्य है <math>R(\textbf{x})</math> वह मानचित्र <math>\textbf{x}</math> के एक सबसेट के लिए <math>\mathbb{R}^k</math>, k < p, जिससे का [[आयाम (वेक्टर स्थान)]] कम हो जाता है <math>\textbf{x}</math>.<ref name="Cook & Adragni:2009">Cook & Adragni (2009) [http://rsta.royalsocietypublishing.org/content/367/1906/4385.full ''Sufficient Dimension Reduction and Prediction in Regression''] In: ''Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences'', 367(1906): 4385–4405</ref> उदाहरण के लिए, <math>R(\textbf{x})</math> के एक या अधिक [[रैखिक संयोजन]] हो सकते हैं <math>\textbf{x}</math>.
आयाम में कमी लंबे समय से [[प्रतिगमन विश्लेषण]] का प्राथमिक लक्ष्य रहा है। एक प्रतिक्रिया चर ''y'' और एक ''p''-आयामी पूर्वानुमान सदिश <math>\textbf{x}</math> को देखते हुए , प्रतिगमन विश्लेषण का उद्देश्य <math>y\mid\textbf{x}</math> वितरण का अध्ययन करना है। <math>y</math> का [[सशर्त वितरण]] <math>\textbf{x}</math> दिया गया। आयाम में कमी एक फलन <math>R(\textbf{x})</math> है जो <math>\textbf{x}</math> कों उपसमुच्चय  <math>\mathbb{R}^k</math>, k < p से मैप करता है।  जिससे का [[आयाम (वेक्टर स्थान)|आयाम (सदिश स्पेस)]] कम हो जाता है। <math>\textbf{x}</math> का आयाम <ref name="Cook & Adragni:2009">Cook & Adragni (2009) [http://rsta.royalsocietypublishing.org/content/367/1906/4385.full ''Sufficient Dimension Reduction and Prediction in Regression''] In: ''Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences'', 367(1906): 4385–4405</ref> उदाहरण के लिए,<math>\textbf{x}</math> <math>R(\textbf{x})</math> के एक या अधिक [[रैखिक संयोजन]] हो सकते हैं।


एक आयाम में कमी <math>R(\textbf{x})</math> का वितरण पर्याप्त कहा जाता है <math>y\mid R(\textbf{x})</math> के समान है <math>y\mid\textbf{x}</math>. दूसरे शब्दों में, के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी नहीं खोई है <math>\textbf{x}</math> यदि कमी पर्याप्त है।<ref name="Cook & Adragni:2009" />
एक आयाम में कमी <math>R(\textbf{x})</math> का वितरण पर्याप्त कहा जाता है। यदि <math>y\mid R(\textbf{x})</math> का वितरण <math>\textbf{x}</math> <math>y\mid\textbf{x}</math> के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में,<math>\textbf{x}</math> के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है। <ref name="Cook & Adragni:2009" />
== ग्राफिकल प्रेरणा ==
प्रतिगमन सेटिंग में,<math>y\mid\textbf{x}</math> के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई <math>y</math> बनाम एक या अधिक पूर्वानुमानो [[स्कैटर प्लॉट]] पर विचार कर सकता है। एक स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। एक पर्याप्त सारांश प्लॉट कहलाता है।




== ग्राफिकल प्रेरणा ==
जब <math>\textbf{x}</math> उच्च-आयामी है। जब <math>p\geq 3</math>, डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को एक कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है <math>R(\textbf{x})</math> छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट <math>y</math> बनाम <math>R(\textbf{x})</math> निर्माण किया जा सकता है और सापेक्ष आसानी से व्याख्या की जा सकती है।
प्रतिगमन सेटिंग में, वितरण को संक्षेप में प्रस्तुत करना अक्सर उपयोगी होता है <math>y\mid\textbf{x}</math> रेखांकन। उदाहरण के लिए, कोई [[स्कैटर प्लॉट]] पर विचार कर सकता है <math>y</math> बनाम एक या अधिक भविष्यवक्ताओं। एक स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है, एक पर्याप्त सारांश प्लॉट कहलाता है।


कब <math>\textbf{x}</math> उच्च-आयामी है, खासकर जब <math>p\geq 3</math>, डेटा को कम किए बिना पर्याप्तता सारांश भूखंडों का निर्माण और नेत्रहीन व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को एक कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। हालाँकि, यदि पर्याप्त आयाम कमी मौजूद है <math>R(\textbf{x})</math> छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट <math>y</math> बनाम <math>R(\textbf{x})</math> निर्माण किया जा सकता है और सापेक्ष आसानी से व्याख्या की जा सकती है।
इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल <math>y\mid\textbf{x}</math> अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है।


इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल अंतर्ज्ञान की अनुमति देता है <math>y\mid\textbf{x}</math>, जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता।
अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है। जिसमें रैखिक संयोजन <math>\textbf{x}</math> सम्मिलित होते हैं। इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।


अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है जिसमें रैखिक संयोजन शामिल होते हैं <math>\textbf{x}</math>. इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।
== आयाम में कमी उपसमुच्चय ==
मान लीजिए कि <math>R(\textbf{x}) = A^T\textbf{x}</math> एक पर्याप्त आयाम कमी है। जहां A <math>A</math> रैंक के साथ  <math>p\times k</math> [[मैट्रिक्स (गणित)|आव्यूह (गणित)]] है। <math>k\leq p</math> फिर <math>y\mid\textbf{x}</math> के लिए रिग्रेशन जानकारी का अनुमान <math>y\mid A^T\textbf{x}</math> के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। <math>y\mid A^T\textbf{x}</math> एक पर्याप्त सारांश प्लॉट है।


== डायमेंशन रिडक्शन सबस्पेस ==
[[व्यापकता के नुकसान के बिना|सामान्यता की हानि के बिना]], केवल सदिश स्पेस रैखिक <math>A</math> के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना <math>\eta</math> के स्तंभ स्पेस के लिए एक [[आधार (रैखिक बीजगणित)]] बनें <math>A</math>, और स्पेस <math>\eta</math> को फैला दें और <math>\mathcal{S}(\eta)</math> द्वारा निरूपित किया जाता है। यह एक पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है।
कल्पना करना <math>R(\textbf{x}) = A^T\textbf{x}</math> एक पर्याप्त आयाम कमी है, जहां <math>A</math> एक है <math>p\times k</math> [[मैट्रिक्स (गणित)]] रैंक के साथ (रैखिक बीजगणित) <math>k\leq p</math>. फिर प्रतिगमन जानकारी के लिए <math>y\mid\textbf{x}</math> के वितरण का अध्ययन करके ज्ञात किया जा सकता है <math>y\mid A^T\textbf{x}</math>, और की साजिश <math>y</math> बनाम <math>A^T\textbf{x}</math> एक पर्याप्त सारांश प्लॉट है।
 
[[व्यापकता के नुकसान के बिना]], केवल सदिश अंतरिक्ष रैखिक के स्तंभों द्वारा फैला हुआ है <math>A</math> विचार करने की आवश्यकता है। होने देना <math>\eta</math> के स्तंभ स्थान के लिए एक [[आधार (रैखिक बीजगणित)]] बनें <math>A</math>, और अंतरिक्ष को फैला दें <math>\eta</math> द्वारा निरूपित किया जाए <math>\mathcal{S}(\eta)</math>. यह एक पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है


: <math>F_{y\mid x} = F_{y\mid\eta^Tx},</math>
: <math>F_{y\mid x} = F_{y\mid\eta^Tx},</math>
कहाँ <math>F</math> उपयुक्त संचयी वितरण समारोह को दर्शाता है। इस संपत्ति को व्यक्त करने का एक और तरीका है
जहाँ <math>F</math> उपयुक्त संचयी वितरण फलन को दर्शाता है। इस प्रोपर्टी को व्यक्त करने का एक और विधि है।


: <math>y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},</math>
: <math>y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},</math>
या <math>y</math> की [[सशर्त स्वतंत्रता]] है <math>\textbf{x}</math>, दिया गया <math>\eta^T\textbf{x}</math>. फिर उपक्षेत्र <math>\mathcal{S}(\eta)</math> एक डायमेंशन रिडक्शन सबस्पेस (DRS) के रूप में परिभाषित किया गया है।<ref name="Cook:1998">Cook, R.D. (1998)  ''Regression Graphics: Ideas for Studying Regressions Through Graphics'', Wiley {{ISBN|0471193658}}</ref>
या y [[सशर्त स्वतंत्रता|सशर्त]] रूप से <math>y</math> दिए गए <math>\eta^T\textbf{x}</math> से स्वतंत्र है। फिर उपसमुच्चय <math>\mathcal{S}(\eta)</math> को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।<ref name="Cook:1998">Cook, R.D. (1998)  ''Regression Graphics: Ideas for Studying Regressions Through Graphics'', Wiley {{ISBN|0471193658}}</ref>
 




=== संरचनात्मक आयाम ===
=== संरचनात्मक आयाम ===
प्रतिगमन के लिए <math>y\mid\textbf{x}</math>, संरचनात्मक आयाम, <math>d</math>, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या है <math>\textbf{x}</math> के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है <math>y\mid\textbf{x}</math>. दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मानचित्र है <math>\textbf{x}</math> के एक सबसेट के लिए <math>\mathbb{R}^d</math>. संबंधित डीआरएस डी-डायमेंशनल होगा।<ref name="Cook:1998" />
प्रतिगमन के लिए <math>y\mid\textbf{x}</math>, संरचनात्मक आयाम, <math>d</math>, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या <math>\textbf{x}</math> है। <math>y\mid\textbf{x}</math> के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप <math>\textbf{x}</math> है। <math>\mathbb{R}^d</math> के एक उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।<ref name="Cook:1998" />
 


=== न्यूनतम आयाम कमी उप-स्थान ===
एक उपस्थान <math>\mathcal{S}</math> के लिए न्यूनतम DRS कहा जाता है <math>y\mid\textbf{x}</math> यदि यह एक DRS है और इसका आयाम अन्य सभी DRS से कम या बराबर है <math>y\mid\textbf{x}</math>. एक न्यूनतम डीआरएस <math>\mathcal{S}</math> आवश्यक रूप से अद्वितीय नहीं है, लेकिन इसका आयाम संरचनात्मक आयाम के बराबर है <math>d</math> का <math>y\mid\textbf{x}</math>, परिभाषा से।<ref name="Cook:1998" />


अगर <math>\mathcal{S}</math> आधार है <math>\eta</math> और एक न्यूनतम DRS है, तो y बनाम का प्लॉट है <math>\eta^T\textbf{x}</math> एक न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (''d'' + 1)-आयामी है।
=== न्यूनतम आयाम कमी उपसमुच्चय ===
एक उपसमुच्चय <math>\mathcal{S}</math> के लिए न्यूनतम डीआरएस <math>y\mid\textbf{x}</math> कहा जाता है। यदि यह एक डीआरएस है और इसका आयाम अन्य सभी डीआरएस <math>y\mid\textbf{x}</math> से कम या समान है। एक न्यूनतम डीआरएस <math>\mathcal{S}</math> आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम  <math>d</math>  का <math>y\mid\textbf{x}</math>, के समान है।<ref name="Cook:1998" />


== केंद्रीय उपस्थान ==
यदि <math>\mathcal{S}</math> आधार <math>\eta</math> है  और एक न्यूनतम डीआरएस है, तो y बनाम <math>\eta^T\textbf{x}</math> का प्लॉट एक न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (''d'' + 1)-आयामी है।
यदि एक उपक्षेत्र <math>\mathcal{S}</math> के लिए डीआरएस है <math>y\mid\textbf{x}</math>, और अगर <math>\mathcal{S}\subset\mathcal{S}_{drs}</math> अन्य सभी ड्रेस के लिए <math>\mathcal{S}_{drs}</math>, तो यह एक केंद्रीय आयाम कमी उप-स्थान है, या बस एक केंद्रीय उप-स्थान है, और इसे इसके द्वारा दर्शाया गया है <math>\mathcal{S}_{y\mid x}</math>. दूसरे शब्दों में, के लिए एक केंद्रीय उप-स्थान <math>y\mid\textbf{x}</math> मौजूद है [[अगर और केवल अगर]] चौराहा <math display="inline">\bigcap\mathcal{S}_{drs}</math> सभी डायमेंशन रिडक्शन सबस्पेस भी एक डायमेंशन रिडक्शन सबस्पेस है, और वह चौराहा केंद्रीय सबस्पेस है <math>\mathcal{S}_{y\mid x}</math>.<ref name="Cook:1998" />


केंद्रीय उपक्षेत्र <math>\mathcal{S}_{y\mid x}</math> चौराहे के कारण जरूरी नहीं है <math display="inline">\bigcap\mathcal{S}_{drs}</math> जरूरी नहीं कि डीआरएस हो। हालांकि, यदि <math>\mathcal{S}_{y\mid x}</math> मौजूद है, तो यह अद्वितीय न्यूनतम आयाम कमी उप-स्थान भी है।<ref name="Cook:1998" />
== केंद्रीय उपसमुच्चय ==
यदि एक उपसमुच्चय <math>\mathcal{S}</math> <math>y\mid\textbf{x}</math> के लिए एक डीआरएस है, और यदि <math>\mathcal{S}\subset\mathcal{S}_{drs}</math> अन्य सभी डीआरएस के लिए <math>\mathcal{S}_{drs}</math>, तो यह एक केंद्रीय आयाम कमी उपसमुच्चय है, या बस एक केंद्रीय उपसमुच्चय है, और इसे <math>\mathcal{S}_{y\mid x}</math> दूसरे शब्दों में, <math>y\mid\textbf{x}</math> के लिए एक केंद्रीय उपसमुच्चय उपस्थित है [[अगर और केवल अगर|यदि और केवल यदि]] प्रतिच्छेदन <math display="inline">\bigcap\mathcal{S}_{drs}</math> सभी आयाम में कमी उपसमुच्चय भी एक आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> है।<ref name="Cook:1998" />


केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन <math display="inline">\bigcap\mathcal{S}_{drs}</math> आवश्यक रूप से एक डीआरएस नहीं है। चूँकि, यदि <math>\mathcal{S}_{y\mid x}</math> उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।<ref name="Cook:1998" />


=== '''केंद्रीय उपसमुच्चय का अस्तित्व''' ===
जबकि केंद्रीय उपसमुच्चय का अस्तित्व <math>\mathcal{S}_{y\mid x}</math> प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:


=== केंद्रीय उपस्थान === का अस्तित्व
: माना <math>\mathcal{S}_1</math> और <math>\mathcal{S}_2</math> के लिए आयाम कमी उपसमुच्चय <math>y\mid\textbf{x}</math> है। यदि <math>\textbf{x}</math> संभाव्यता घनत्व <math>f(a) > 0</math> फलन है सभी के <math>a\in\Omega_x</math> और <math>f(a) = 0</math>  लिए है। जहाँ <math>\Omega_x</math> [[उत्तल सेट|उत्तल समुच्चय]] है, फिर प्रतिच्छेदन <math>\mathcal{S}_1\cap\mathcal{S}_2</math> एक आयाम कमी उपसमुच्चय भी है।
जबकि केंद्रीय उप-स्थान का अस्तित्व <math>\mathcal{S}_{y\mid x}</math> प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके तहत इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:


: होने देना <math>\mathcal{S}_1</math> और <math>\mathcal{S}_2</math> के लिए आयाम कमी उप-स्थान बनें <math>y\mid\textbf{x}</math>. अगर <math>\textbf{x}</math> संभाव्यता घनत्व समारोह है <math>f(a) > 0</math> सभी के लिए <math>a\in\Omega_x</math> और <math>f(a) = 0</math> हर जगह, कहाँ <math>\Omega_x</math> [[उत्तल सेट]] है, फिर चौराहा <math>\mathcal{S}_1\cap\mathcal{S}_2</math> एक आयाम कमी उप-स्थान भी है।
यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> ऐसे <math>\textbf{x}</math> के लिए उपस्थित है।<ref name="Cook:1998" />


यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उप-स्थान <math>\mathcal{S}_{y\mid x}</math> ऐसे के लिए मौजूद है <math>\textbf{x}</math>.<ref name="Cook:1998" />




== आयाम कम करने के तरीके ==
== आयाम कम करने के विधि ==
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई मौजूदा तरीके हैं। उदाहरण के लिए, [[कटा हुआ उलटा प्रतिगमन]] (SIR) और कटा हुआ औसत विचरण अनुमान (SAVE) 1990 के दशक में पेश किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।<ref name="Li:1991">Li, K-C. (1991) [https://www.jstor.org/stable/2290563 ''Sliced Inverse Regression for Dimension Reduction''] In: ''[[Journal of the American Statistical Association]]'', 86(414): 316–327</ref> हालांकि एसआईआर मूल रूप से एक प्रभावी आयाम को कम करने वाले उप-स्थान का अनुमान लगाने के लिए डिज़ाइन किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उप-स्थान का अनुमान लगाता है, जो आम तौर पर अलग है।
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, [[कटा हुआ उलटा प्रतिगमन|कटा हुआ व्युत्क्रम प्रतिगमन]] (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।<ref name="Li:1991">Li, K-C. (1991) [https://www.jstor.org/stable/2290563 ''Sliced Inverse Regression for Dimension Reduction''] In: ''[[Journal of the American Statistical Association]]'', 86(414): 316–327</ref> चूँकि एसआईआर मूल रूप से एक प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है।


आयाम में कमी के लिए और अधिक हाल के तरीकों में संभावना कार्य-आधारित पर्याप्त आयाम में कमी शामिल है,<ref name="Cook & Forzani(2009)">Cook, R.D. and Forzani, L. (2009) ''Likelihood-Based Sufficient Dimension Reduction'' In: [[Journal of the American Statistical Association]], 104(485): 197–208</ref> व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उप-स्थान का अनुमान लगाना,<ref name="Yin & Cook:2003">Yin, X. and Cook, R.D. (2003) [https://www.jstor.org/stable/30042023 ''Estimating Central Subspaces via Inverse Third Moments''] In: ''[[Biometrika]]'', 90(1): 113–125</ref> केंद्रीय समाधान स्थान का आकलन,<ref name="Li & Dong:2009">Li, B. and Dong, Y.D. (2009) [http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1239369022 ''Dimension Reduction for Nonelliptically Distributed Predictors''] In: ''[[Annals of Statistics]]'', 37(3): 1272–1298</ref> चित्रमय प्रतिगमन,<ref name="Cook:1998" />लिफाफा मॉडल, और प्रमुख समर्थन वेक्टर मशीन।<ref>{{cite journal|last1=Li|first1=Bing|last2=Artemiou|first2=Andreas|last3=Li|first3=Lexin|title=रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें|journal=The Annals of Statistics|date=2011|volume=39|issue=6|pages=3182–3210|doi=10.1214/11-AOS932|arxiv=1203.2790|s2cid=88519106 }}</ref> इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।
आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।<ref name="Cook & Forzani(2009)">Cook, R.D. and Forzani, L. (2009) ''Likelihood-Based Sufficient Dimension Reduction'' In: [[Journal of the American Statistical Association]], 104(485): 197–208</ref> व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,<ref name="Yin & Cook:2003">Yin, X. and Cook, R.D. (2003) [https://www.jstor.org/stable/30042023 ''Estimating Central Subspaces via Inverse Third Moments''] In: ''[[Biometrika]]'', 90(1): 113–125</ref> केंद्रीय समाधान स्पेस का आकलन,<ref name="Li & Dong:2009">Li, B. and Dong, Y.D. (2009) [http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1239369022 ''Dimension Reduction for Nonelliptically Distributed Predictors''] In: ''[[Annals of Statistics]]'', 37(3): 1272–1298</ref> चित्रमय प्रतिगमन,<ref name="Cook:1998" /> लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन <ref>{{cite journal|last1=Li|first1=Bing|last2=Artemiou|first2=Andreas|last3=Li|first3=Lexin|title=रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें|journal=The Annals of Statistics|date=2011|volume=39|issue=6|pages=3182–3210|doi=10.1214/11-AOS932|arxiv=1203.2790|s2cid=88519106 }}</ref> इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।


प्रधान घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के तरीके पर्याप्तता सिद्धांत पर आधारित नहीं हैं।
सिद्धांत घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के विधि पर्याप्त सिद्धांत पर आधारित नहीं हैं।


=== उदाहरण: रैखिक प्रतिगमन ===
=== उदाहरण: रैखिक प्रतिगमन ===
Line 62: Line 61:


: <math>y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.</math>
: <math>y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.</math>
ध्यान दें कि का वितरण <math>y\mid\textbf{x}</math> के वितरण के समान है <math>y\mid\beta^T\textbf{x}</math>. इसलिए, की अवधि <math>\beta</math> एक आयाम कमी उप-स्थान है। भी, <math>\beta^T\textbf{x}</math> 1-आयामी है (जब तक <math>\beta=\textbf{0}</math>), तो इस प्रतिगमन का संरचनात्मक आयाम है <math>d=1</math>.
ध्यान दें कि <math>y\mid\textbf{x}</math> का वितरण <math>y\mid\beta^T\textbf{x}</math> के वितरण के समान है। इसलिए,<math>\beta</math> की अवधि  एक आयाम कमी उपसमुच्चय है। साथ ही, <math>\beta^T\textbf{x}</math> 1-आयामी है (जब तक <math>\beta=\textbf{0}</math>), तो इस प्रतिगमन का संरचनात्मक आयाम <math>d=1</math> है।


सामान्य न्यूनतम वर्ग अनुमान <math>\hat{\beta}</math> का <math>\beta</math> संगत अनुमानक है, और इसलिए की अवधि <math>\hat{\beta}</math> का एक सतत अनुमानक है <math>\mathcal{S}_{y\mid x}</math>. का कथानक <math>y</math> बनाम <math>\hat{\beta}^T\textbf{x}</math> इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।
सामान्य न्यूनतम वर्ग अनुमान <math>\hat{\beta}</math> का <math>\beta</math> संगत अनुमानक है, और इसलिए <math>\hat{\beta}</math> की अवधि <math>\mathcal{S}_{y\mid x}</math> का एक सतत अनुमानक है। <math>y</math> का कथानक  बनाम <math>\hat{\beta}^T\textbf{x}</math> इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।


== यह भी देखें ==
== यह भी देखें ==
*आयाम में कमी
*आयाम में कमी
* कटा हुआ उलटा प्रतिगमन
* कटा हुआ व्युत्क्रम प्रतिगमन
*[[प्रमुख कंपोनेंट विश्लेषण]]
*[[प्रमुख कंपोनेंट विश्लेषण]]
* [[रैखिक विभेदक विश्लेषण]]
* [[रैखिक विभेदक विश्लेषण]]
*[[परिमाणिकता का अभिशाप]]
*[[परिमाणिकता का अभिशाप|परिमाणिकता का अपशब्द]]
*बहुरेखीय उप-अंतरिक्ष अधिगम
*बहुरेखीय उप-स्पेस अधिगम


== टिप्पणियाँ ==
== टिप्पणियाँ ==

Revision as of 13:15, 27 May 2023

आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए एक प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ आयाम में कमी के विचारों को जोड़ता है।

आयाम में कमी लंबे समय से प्रतिगमन विश्लेषण का प्राथमिक लक्ष्य रहा है। एक प्रतिक्रिया चर y और एक p-आयामी पूर्वानुमान सदिश को देखते हुए , प्रतिगमन विश्लेषण का उद्देश्य वितरण का अध्ययन करना है। का सशर्त वितरण दिया गया। आयाम में कमी एक फलन है जो कों उपसमुच्चय , k < p से मैप करता है। जिससे का आयाम (सदिश स्पेस) कम हो जाता है। का आयाम [1] उदाहरण के लिए, के एक या अधिक रैखिक संयोजन हो सकते हैं।

एक आयाम में कमी का वितरण पर्याप्त कहा जाता है। यदि का वितरण के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में, के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है। [1]

ग्राफिकल प्रेरणा

प्रतिगमन सेटिंग में, के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई बनाम एक या अधिक पूर्वानुमानो स्कैटर प्लॉट पर विचार कर सकता है। एक स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। एक पर्याप्त सारांश प्लॉट कहलाता है।


जब उच्च-आयामी है। जब , डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को एक कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट बनाम निर्माण किया जा सकता है और सापेक्ष आसानी से व्याख्या की जा सकती है।

इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है।

अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है। जिसमें रैखिक संयोजन सम्मिलित होते हैं। इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।

आयाम में कमी उपसमुच्चय

मान लीजिए कि एक पर्याप्त आयाम कमी है। जहां A रैंक के साथ आव्यूह (गणित) है। फिर के लिए रिग्रेशन जानकारी का अनुमान के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। एक पर्याप्त सारांश प्लॉट है।

सामान्यता की हानि के बिना, केवल सदिश स्पेस रैखिक के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना के स्तंभ स्पेस के लिए एक आधार (रैखिक बीजगणित) बनें , और स्पेस को फैला दें और द्वारा निरूपित किया जाता है। यह एक पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है।

जहाँ उपयुक्त संचयी वितरण फलन को दर्शाता है। इस प्रोपर्टी को व्यक्त करने का एक और विधि है।

या y सशर्त रूप से दिए गए से स्वतंत्र है। फिर उपसमुच्चय को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।[2]


संरचनात्मक आयाम

प्रतिगमन के लिए , संरचनात्मक आयाम, , के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या है। के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप है। के एक उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।[2]


न्यूनतम आयाम कमी उपसमुच्चय

एक उपसमुच्चय के लिए न्यूनतम डीआरएस कहा जाता है। यदि यह एक डीआरएस है और इसका आयाम अन्य सभी डीआरएस से कम या समान है। एक न्यूनतम डीआरएस आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम का , के समान है।[2]

यदि आधार है और एक न्यूनतम डीआरएस है, तो y बनाम का प्लॉट एक न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (d + 1)-आयामी है।

केंद्रीय उपसमुच्चय

यदि एक उपसमुच्चय के लिए एक डीआरएस है, और यदि अन्य सभी डीआरएस के लिए , तो यह एक केंद्रीय आयाम कमी उपसमुच्चय है, या बस एक केंद्रीय उपसमुच्चय है, और इसे दूसरे शब्दों में, के लिए एक केंद्रीय उपसमुच्चय उपस्थित है यदि और केवल यदि प्रतिच्छेदन सभी आयाम में कमी उपसमुच्चय भी एक आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय है।[2]

केंद्रीय उपसमुच्चय अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन आवश्यक रूप से एक डीआरएस नहीं है। चूँकि, यदि उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।[2]

केंद्रीय उपसमुच्चय का अस्तित्व

जबकि केंद्रीय उपसमुच्चय का अस्तित्व प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:

माना और के लिए आयाम कमी उपसमुच्चय है। यदि संभाव्यता घनत्व फलन है सभी के और लिए है। जहाँ उत्तल समुच्चय है, फिर प्रतिच्छेदन एक आयाम कमी उपसमुच्चय भी है।

यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय ऐसे के लिए उपस्थित है।[2]


आयाम कम करने के विधि

ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, कटा हुआ व्युत्क्रम प्रतिगमन (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।[3] चूँकि एसआईआर मूल रूप से एक प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है।

आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।[4] व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,[5] केंद्रीय समाधान स्पेस का आकलन,[6] चित्रमय प्रतिगमन,[2] लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन [7] इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।

सिद्धांत घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के विधि पर्याप्त सिद्धांत पर आधारित नहीं हैं।

उदाहरण: रैखिक प्रतिगमन

प्रतिगमन मॉडल पर विचार करें

ध्यान दें कि का वितरण के वितरण के समान है। इसलिए, की अवधि एक आयाम कमी उपसमुच्चय है। साथ ही, 1-आयामी है (जब तक ), तो इस प्रतिगमन का संरचनात्मक आयाम है।

सामान्य न्यूनतम वर्ग अनुमान का संगत अनुमानक है, और इसलिए की अवधि का एक सतत अनुमानक है। का कथानक बनाम इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।

यह भी देखें

टिप्पणियाँ

  1. 1.0 1.1 Cook & Adragni (2009) Sufficient Dimension Reduction and Prediction in Regression In: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906): 4385–4405
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Cook, R.D. (1998) Regression Graphics: Ideas for Studying Regressions Through Graphics, Wiley ISBN 0471193658
  3. Li, K-C. (1991) Sliced Inverse Regression for Dimension Reduction In: Journal of the American Statistical Association, 86(414): 316–327
  4. Cook, R.D. and Forzani, L. (2009) Likelihood-Based Sufficient Dimension Reduction In: Journal of the American Statistical Association, 104(485): 197–208
  5. Yin, X. and Cook, R.D. (2003) Estimating Central Subspaces via Inverse Third Moments In: Biometrika, 90(1): 113–125
  6. Li, B. and Dong, Y.D. (2009) Dimension Reduction for Nonelliptically Distributed Predictors In: Annals of Statistics, 37(3): 1272–1298
  7. Li, Bing; Artemiou, Andreas; Li, Lexin (2011). "रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें". The Annals of Statistics. 39 (6): 3182–3210. arXiv:1203.2790. doi:10.1214/11-AOS932. S2CID 88519106.


संदर्भ


बाहरी संबंध