पर्याप्त आयाम में कमी: Difference between revisions

From Vigyanwiki
(Created page with "{{Multiple issues| {{one source|date=May 2017}} {{context|date=April 2013}} }} आंकड़ों में, पर्याप्त आयाम कमी (एसडी...")
 
No edit summary
 
(8 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Multiple issues|
आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ [[आयाम में कमी]] के विचारों को जोड़ता है।
{{one source|date=May 2017}}
{{context|date=April 2013}}
}}


आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए एक प्रतिमान है जो पर्याप्त आंकड़ों की अवधारणा के साथ [[आयाम में कमी]] के विचारों को जोड़ता है।
आयाम में कमी लंबे समय से [[प्रतिगमन विश्लेषण]] का प्राथमिक लक्ष्य रहा है। प्रतिक्रिया चर ''y'' और ''p''-आयामी पूर्वानुमान सदिश <math>\textbf{x}</math> को देखते हुए , प्रतिगमन विश्लेषण का उद्देश्य <math>y\mid\textbf{x}</math> वितरण का अध्ययन करना है। <math>y</math> का [[सशर्त वितरण]] <math>\textbf{x}</math> दिया गया। आयाम में कमी फलन <math>R(\textbf{x})</math> है। जो <math>\textbf{x}</math> कों उपसमुच्चय <math>\mathbb{R}^k</math>, k < p से मैप करता है। जिससे का [[आयाम (वेक्टर स्थान)|आयाम (सदिश स्पेस)]] कम हो जाता है। <math>\textbf{x}</math> का आयाम <ref name="Cook & Adragni:2009">Cook & Adragni (2009) [http://rsta.royalsocietypublishing.org/content/367/1906/4385.full ''Sufficient Dimension Reduction and Prediction in Regression''] In: ''Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences'', 367(1906): 4385–4405</ref> उदाहरण के लिए,<math>\textbf{x}</math> <math>R(\textbf{x})</math> के एक या अधिक [[रैखिक संयोजन]] हो सकते हैं।
 
आयाम में कमी लंबे समय से [[प्रतिगमन विश्लेषण]] का प्राथमिक लक्ष्य रहा है। एक प्रतिक्रिया चर ''y'' और एक ''p''-आयामी भविष्यवक्ता वेक्टर को देखते हुए <math>\textbf{x}</math>, प्रतिगमन विश्लेषण का उद्देश्य वितरण का अध्ययन करना है <math>y\mid\textbf{x}</math>, का [[सशर्त वितरण]] <math>y</math> दिया गया <math>\textbf{x}</math>. आयाम में कमी एक कार्य है <math>R(\textbf{x})</math> वह मानचित्र <math>\textbf{x}</math> के एक सबसेट के लिए <math>\mathbb{R}^k</math>, k < p, जिससे का [[आयाम (वेक्टर स्थान)]] कम हो जाता है <math>\textbf{x}</math>.<ref name="Cook & Adragni:2009">Cook & Adragni (2009) [http://rsta.royalsocietypublishing.org/content/367/1906/4385.full ''Sufficient Dimension Reduction and Prediction in Regression''] In: ''Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences'', 367(1906): 4385–4405</ref> उदाहरण के लिए, <math>R(\textbf{x})</math> के एक या अधिक [[रैखिक संयोजन]] हो सकते हैं <math>\textbf{x}</math>.
 
एक आयाम में कमी <math>R(\textbf{x})</math> का वितरण पर्याप्त कहा जाता है <math>y\mid R(\textbf{x})</math> के समान है <math>y\mid\textbf{x}</math>. दूसरे शब्दों में, के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी नहीं खोई है <math>\textbf{x}</math> यदि कमी पर्याप्त है।<ref name="Cook & Adragni:2009" />


आयाम में कमी <math>R(\textbf{x})</math> का वितरण पर्याप्त कहा जाता है। यदि <math>y\mid R(\textbf{x})</math> का वितरण <math>\textbf{x}</math> <math>y\mid\textbf{x}</math> के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में,<math>\textbf{x}</math> के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है। <ref name="Cook & Adragni:2009" />
== ग्राफिकल प्रेरणा ==
प्रतिगमन सेटिंग में,<math>y\mid\textbf{x}</math> के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई <math>y</math> बनाम एक या अधिक पूर्वानुमानो [[स्कैटर प्लॉट]] पर विचार कर सकता है। स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। पर्याप्त सारांश प्लॉट कहलाता है।


== ग्राफिकल प्रेरणा ==
प्रतिगमन सेटिंग में, वितरण को संक्षेप में प्रस्तुत करना अक्सर उपयोगी होता है <math>y\mid\textbf{x}</math> रेखांकन। उदाहरण के लिए, कोई [[स्कैटर प्लॉट]] पर विचार कर सकता है <math>y</math> बनाम एक या अधिक भविष्यवक्ताओं। एक स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है, एक पर्याप्त सारांश प्लॉट कहलाता है।


कब <math>\textbf{x}</math> उच्च-आयामी है, खासकर जब <math>p\geq 3</math>, डेटा को कम किए बिना पर्याप्तता सारांश भूखंडों का निर्माण और नेत्रहीन व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को एक कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। हालाँकि, यदि पर्याप्त आयाम कमी मौजूद है <math>R(\textbf{x})</math> छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट <math>y</math> बनाम <math>R(\textbf{x})</math> निर्माण किया जा सकता है और सापेक्ष आसानी से व्याख्या की जा सकती है।
जब <math>\textbf{x}</math> उच्च-आयामी है। जब <math>p\geq 3</math>, डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है <math>R(\textbf{x})</math> छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट <math>y</math> बनाम <math>R(\textbf{x})</math> निर्माण किया जा सकता है और सापेक्ष सरलता से व्याख्या की जा सकती है।


इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल अंतर्ज्ञान की अनुमति देता है <math>y\mid\textbf{x}</math>, जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता।
इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल <math>y\mid\textbf{x}</math> अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है।


अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है जिसमें रैखिक संयोजन शामिल होते हैं <math>\textbf{x}</math>. इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।
अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है। जिसमें रैखिक संयोजन <math>\textbf{x}</math> सम्मिलित होते हैं। इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।


== डायमेंशन रिडक्शन सबस्पेस ==
== आयाम में कमी उपसमुच्चय ==
कल्पना करना <math>R(\textbf{x}) = A^T\textbf{x}</math> एक पर्याप्त आयाम कमी है, जहां <math>A</math> एक है <math>p\times k</math> [[मैट्रिक्स (गणित)]] रैंक के साथ (रैखिक बीजगणित) <math>k\leq p</math>. फिर प्रतिगमन जानकारी के लिए <math>y\mid\textbf{x}</math> के वितरण का अध्ययन करके ज्ञात किया जा सकता है <math>y\mid A^T\textbf{x}</math>, और की साजिश <math>y</math> बनाम <math>A^T\textbf{x}</math> एक पर्याप्त सारांश प्लॉट है।
मान लीजिए कि <math>R(\textbf{x}) = A^T\textbf{x}</math> पर्याप्त आयाम कमी है। जहां A <math>A</math> रैंक के साथ <math>p\times k</math> [[मैट्रिक्स (गणित)|आव्यूह (गणित)]] है। <math>k\leq p</math> फिर <math>y\mid\textbf{x}</math> के लिए रिग्रेशन जानकारी का अनुमान <math>y\mid A^T\textbf{x}</math> के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। <math>y\mid A^T\textbf{x}</math> पर्याप्त सारांश प्लॉट है।


[[व्यापकता के नुकसान के बिना]], केवल सदिश अंतरिक्ष रैखिक के स्तंभों द्वारा फैला हुआ है <math>A</math> विचार करने की आवश्यकता है। होने देना <math>\eta</math> के स्तंभ स्थान के लिए एक [[आधार (रैखिक बीजगणित)]] बनें <math>A</math>, और अंतरिक्ष को फैला दें <math>\eta</math> द्वारा निरूपित किया जाए <math>\mathcal{S}(\eta)</math>. यह एक पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है
[[व्यापकता के नुकसान के बिना|सामान्यता की हानि के बिना]], केवल सदिश स्पेस रैखिक <math>A</math> के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना <math>\eta</math> के स्तंभ स्पेस के लिए [[आधार (रैखिक बीजगणित)]] बनें <math>A</math>, और स्पेस <math>\eta</math> को फैला दें और <math>\mathcal{S}(\eta)</math> द्वारा निरूपित किया जाता है। यह पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है।


: <math>F_{y\mid x} = F_{y\mid\eta^Tx},</math>
: <math>F_{y\mid x} = F_{y\mid\eta^Tx},</math>
कहाँ <math>F</math> उपयुक्त संचयी वितरण समारोह को दर्शाता है। इस संपत्ति को व्यक्त करने का एक और तरीका है
जहाँ <math>F</math> उपयुक्त संचयी वितरण फलन को दर्शाता है। इस प्रोपर्टी को व्यक्त करने का एक और विधि है।


: <math>y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},</math>
: <math>y\perp\!\!\!\perp\textbf{x}\mid\eta^T\textbf{x},</math>
या <math>y</math> की [[सशर्त स्वतंत्रता]] है <math>\textbf{x}</math>, दिया गया <math>\eta^T\textbf{x}</math>. फिर उपक्षेत्र <math>\mathcal{S}(\eta)</math> एक डायमेंशन रिडक्शन सबस्पेस (DRS) के रूप में परिभाषित किया गया है।<ref name="Cook:1998">Cook, R.D. (1998)  ''Regression Graphics: Ideas for Studying Regressions Through Graphics'', Wiley {{ISBN|0471193658}}</ref>
या y [[सशर्त स्वतंत्रता|सशर्त]] रूप से <math>y</math> दिए गए <math>\eta^T\textbf{x}</math> से स्वतंत्र है। फिर उपसमुच्चय <math>\mathcal{S}(\eta)</math> को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।<ref name="Cook:1998">Cook, R.D. (1998)  ''Regression Graphics: Ideas for Studying Regressions Through Graphics'', Wiley {{ISBN|0471193658}}</ref>
 
 
=== संरचनात्मक आयाम ===
=== संरचनात्मक आयाम ===
प्रतिगमन के लिए <math>y\mid\textbf{x}</math>, संरचनात्मक आयाम, <math>d</math>, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या है <math>\textbf{x}</math> के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है <math>y\mid\textbf{x}</math>. दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मानचित्र है <math>\textbf{x}</math> के एक सबसेट के लिए <math>\mathbb{R}^d</math>. संबंधित डीआरएस डी-डायमेंशनल होगा।<ref name="Cook:1998" />
प्रतिगमन के लिए <math>y\mid\textbf{x}</math>, संरचनात्मक आयाम, <math>d</math>, के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या <math>\textbf{x}</math> है। <math>y\mid\textbf{x}</math> के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप <math>\textbf{x}</math> है। <math>\mathbb{R}^d</math> के उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।<ref name="Cook:1998" />
 
=== न्यूनतम आयाम कमी उपसमुच्चय ===
 
उपसमुच्चय <math>\mathcal{S}</math> के लिए न्यूनतम डीआरएस <math>y\mid\textbf{x}</math> कहा जाता है। यदि यह डीआरएस है और इसका आयाम अन्य सभी डीआरएस <math>y\mid\textbf{x}</math> से कम या समान है। न्यूनतम डीआरएस <math>\mathcal{S}</math> आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम <math>d</math> का <math>y\mid\textbf{x}</math>, के समान है।<ref name="Cook:1998" />
=== न्यूनतम आयाम कमी उप-स्थान ===
एक उपस्थान <math>\mathcal{S}</math> के लिए न्यूनतम DRS कहा जाता है <math>y\mid\textbf{x}</math> यदि यह एक DRS है और इसका आयाम अन्य सभी DRS से कम या बराबर है <math>y\mid\textbf{x}</math>. एक न्यूनतम डीआरएस <math>\mathcal{S}</math> आवश्यक रूप से अद्वितीय नहीं है, लेकिन इसका आयाम संरचनात्मक आयाम के बराबर है <math>d</math> का <math>y\mid\textbf{x}</math>, परिभाषा से।<ref name="Cook:1998" />
 
अगर <math>\mathcal{S}</math> आधार है <math>\eta</math> और एक न्यूनतम DRS है, तो y बनाम का प्लॉट है <math>\eta^T\textbf{x}</math> एक न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (''d'' + 1)-आयामी है।
 
== केंद्रीय उपस्थान ==
यदि एक उपक्षेत्र <math>\mathcal{S}</math> के लिए डीआरएस है <math>y\mid\textbf{x}</math>, और अगर <math>\mathcal{S}\subset\mathcal{S}_{drs}</math> अन्य सभी ड्रेस के लिए <math>\mathcal{S}_{drs}</math>, तो यह एक केंद्रीय आयाम कमी उप-स्थान है, या बस एक केंद्रीय उप-स्थान है, और इसे इसके द्वारा दर्शाया गया है <math>\mathcal{S}_{y\mid x}</math>. दूसरे शब्दों में, के लिए एक केंद्रीय उप-स्थान <math>y\mid\textbf{x}</math> मौजूद है [[अगर और केवल अगर]] चौराहा <math display="inline">\bigcap\mathcal{S}_{drs}</math> सभी डायमेंशन रिडक्शन सबस्पेस भी एक डायमेंशन रिडक्शन सबस्पेस है, और वह चौराहा केंद्रीय सबस्पेस है <math>\mathcal{S}_{y\mid x}</math>.<ref name="Cook:1998" />
 
केंद्रीय उपक्षेत्र <math>\mathcal{S}_{y\mid x}</math> चौराहे के कारण जरूरी नहीं है <math display="inline">\bigcap\mathcal{S}_{drs}</math> जरूरी नहीं कि डीआरएस हो। हालांकि, यदि <math>\mathcal{S}_{y\mid x}</math> मौजूद है, तो यह अद्वितीय न्यूनतम आयाम कमी उप-स्थान भी है।<ref name="Cook:1998" />
 


यदि <math>\mathcal{S}</math> आधार <math>\eta</math> है और न्यूनतम डीआरएस है, तो y बनाम <math>\eta^T\textbf{x}</math> का प्लॉट न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (''d'' + 1)-आयामी है।


=== केंद्रीय उपस्थान === का अस्तित्व
== केंद्रीय उपसमुच्चय ==
जबकि केंद्रीय उप-स्थान का अस्तित्व <math>\mathcal{S}_{y\mid x}</math> प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके तहत इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:
यदि उपसमुच्चय <math>\mathcal{S}</math> <math>y\mid\textbf{x}</math> के लिए डीआरएस है, और यदि <math>\mathcal{S}\subset\mathcal{S}_{drs}</math> अन्य सभी डीआरएस के लिए <math>\mathcal{S}_{drs}</math>, तो यह केंद्रीय आयाम कमी उपसमुच्चय है, या बस केंद्रीय उपसमुच्चय है, और इसे <math>\mathcal{S}_{y\mid x}</math> दूसरे शब्दों में, <math>y\mid\textbf{x}</math> के लिए केंद्रीय उपसमुच्चय उपस्थित है। [[अगर और केवल अगर|यदि और केवल यदि]] प्रतिच्छेदन <math display="inline">\bigcap\mathcal{S}_{drs}</math> सभी आयाम में कमी उपसमुच्चय भी आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> है।<ref name="Cook:1998" />


: होने देना <math>\mathcal{S}_1</math> और <math>\mathcal{S}_2</math> के लिए आयाम कमी उप-स्थान बनें <math>y\mid\textbf{x}</math>. अगर <math>\textbf{x}</math> संभाव्यता घनत्व समारोह है <math>f(a) > 0</math> सभी के लिए <math>a\in\Omega_x</math> और <math>f(a) = 0</math> हर जगह, कहाँ <math>\Omega_x</math> [[उत्तल सेट]] है, फिर चौराहा <math>\mathcal{S}_1\cap\mathcal{S}_2</math> एक आयाम कमी उप-स्थान भी है।
केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन <math display="inline">\bigcap\mathcal{S}_{drs}</math> आवश्यक रूप से डीआरएस नहीं है। चूँकि, यदि <math>\mathcal{S}_{y\mid x}</math> उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।<ref name="Cook:1998" />


यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उप-स्थान <math>\mathcal{S}_{y\mid x}</math> ऐसे के लिए मौजूद है <math>\textbf{x}</math>.<ref name="Cook:1998" />
=== '''केंद्रीय उपसमुच्चय का अस्तित्व''' ===
जबकि केंद्रीय उपसमुच्चय का अस्तित्व <math>\mathcal{S}_{y\mid x}</math> प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:


: माना <math>\mathcal{S}_1</math> और <math>\mathcal{S}_2</math> के लिए आयाम कमी उपसमुच्चय <math>y\mid\textbf{x}</math> है। यदि <math>\textbf{x}</math> संभाव्यता घनत्व <math>f(a) > 0</math> फलन है सभी के <math>a\in\Omega_x</math> और <math>f(a) = 0</math> लिए है। जहाँ <math>\Omega_x</math> [[उत्तल सेट|उत्तल समुच्चय]] है, फिर प्रतिच्छेदन <math>\mathcal{S}_1\cap\mathcal{S}_2</math> आयाम कमी उपसमुच्चय भी है।


== आयाम कम करने के तरीके ==
यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय <math>\mathcal{S}_{y\mid x}</math> ऐसे <math>\textbf{x}</math> के लिए उपस्थित है।<ref name="Cook:1998" />
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई मौजूदा तरीके हैं। उदाहरण के लिए, [[कटा हुआ उलटा प्रतिगमन]] (SIR) और कटा हुआ औसत विचरण अनुमान (SAVE) 1990 के दशक में पेश किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।<ref name="Li:1991">Li, K-C. (1991) [https://www.jstor.org/stable/2290563 ''Sliced Inverse Regression for Dimension Reduction''] In: ''[[Journal of the American Statistical Association]]'', 86(414): 316–327</ref> हालांकि एसआईआर मूल रूप से एक प्रभावी आयाम को कम करने वाले उप-स्थान का अनुमान लगाने के लिए डिज़ाइन किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उप-स्थान का अनुमान लगाता है, जो आम तौर पर अलग है।
== आयाम कम करने के विधि ==
ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, [[कटा हुआ उलटा प्रतिगमन|कटा हुआ व्युत्क्रम प्रतिगमन]] (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।<ref name="Li:1991">Li, K-C. (1991) [https://www.jstor.org/stable/2290563 ''Sliced Inverse Regression for Dimension Reduction''] In: ''[[Journal of the American Statistical Association]]'', 86(414): 316–327</ref> चूँकि एसआईआर मूल रूप से प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है।


आयाम में कमी के लिए और अधिक हाल के तरीकों में संभावना कार्य-आधारित पर्याप्त आयाम में कमी शामिल है,<ref name="Cook & Forzani(2009)">Cook, R.D. and Forzani, L. (2009) ''Likelihood-Based Sufficient Dimension Reduction'' In: [[Journal of the American Statistical Association]], 104(485): 197–208</ref> व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उप-स्थान का अनुमान लगाना,<ref name="Yin & Cook:2003">Yin, X. and Cook, R.D. (2003) [https://www.jstor.org/stable/30042023 ''Estimating Central Subspaces via Inverse Third Moments''] In: ''[[Biometrika]]'', 90(1): 113–125</ref> केंद्रीय समाधान स्थान का आकलन,<ref name="Li & Dong:2009">Li, B. and Dong, Y.D. (2009) [http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1239369022 ''Dimension Reduction for Nonelliptically Distributed Predictors''] In: ''[[Annals of Statistics]]'', 37(3): 1272–1298</ref> चित्रमय प्रतिगमन,<ref name="Cook:1998" />लिफाफा मॉडल, और प्रमुख समर्थन वेक्टर मशीन।<ref>{{cite journal|last1=Li|first1=Bing|last2=Artemiou|first2=Andreas|last3=Li|first3=Lexin|title=रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें|journal=The Annals of Statistics|date=2011|volume=39|issue=6|pages=3182–3210|doi=10.1214/11-AOS932|arxiv=1203.2790|s2cid=88519106 }}</ref> इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।
आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।<ref name="Cook & Forzani(2009)">Cook, R.D. and Forzani, L. (2009) ''Likelihood-Based Sufficient Dimension Reduction'' In: [[Journal of the American Statistical Association]], 104(485): 197–208</ref> व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,<ref name="Yin & Cook:2003">Yin, X. and Cook, R.D. (2003) [https://www.jstor.org/stable/30042023 ''Estimating Central Subspaces via Inverse Third Moments''] In: ''[[Biometrika]]'', 90(1): 113–125</ref> केंद्रीय समाधान स्पेस का आकलन,<ref name="Li & Dong:2009">Li, B. and Dong, Y.D. (2009) [http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1239369022 ''Dimension Reduction for Nonelliptically Distributed Predictors''] In: ''[[Annals of Statistics]]'', 37(3): 1272–1298</ref> चित्रमय प्रतिगमन,<ref name="Cook:1998" /> लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन <ref>{{cite journal|last1=Li|first1=Bing|last2=Artemiou|first2=Andreas|last3=Li|first3=Lexin|title=रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें|journal=The Annals of Statistics|date=2011|volume=39|issue=6|pages=3182–3210|doi=10.1214/11-AOS932|arxiv=1203.2790|s2cid=88519106 }}</ref> इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।


प्रधान घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के तरीके पर्याप्तता सिद्धांत पर आधारित नहीं हैं।
सिद्धांत घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के विधि पर्याप्त सिद्धांत पर आधारित नहीं हैं।


=== उदाहरण: रैखिक प्रतिगमन ===
=== उदाहरण: रैखिक प्रतिगमन ===
Line 67: Line 53:


: <math>y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.</math>
: <math>y = \alpha + \beta^T\textbf{x} + \varepsilon,\text{ where }\varepsilon\perp\!\!\!\perp\textbf{x}.</math>
ध्यान दें कि का वितरण <math>y\mid\textbf{x}</math> के वितरण के समान है <math>y\mid\beta^T\textbf{x}</math>. इसलिए, की अवधि <math>\beta</math> एक आयाम कमी उप-स्थान है। भी, <math>\beta^T\textbf{x}</math> 1-आयामी है (जब तक <math>\beta=\textbf{0}</math>), तो इस प्रतिगमन का संरचनात्मक आयाम है <math>d=1</math>.
ध्यान दें कि <math>y\mid\textbf{x}</math> का वितरण <math>y\mid\beta^T\textbf{x}</math> के वितरण के समान है। इसलिए,<math>\beta</math> की अवधि आयाम कमी उपसमुच्चय है। साथ ही, <math>\beta^T\textbf{x}</math> 1-आयामी है (जब तक <math>\beta=\textbf{0}</math>), तो इस प्रतिगमन का संरचनात्मक आयाम <math>d=1</math> है।


सामान्य न्यूनतम वर्ग अनुमान <math>\hat{\beta}</math> का <math>\beta</math> संगत अनुमानक है, और इसलिए की अवधि <math>\hat{\beta}</math> का एक सतत अनुमानक है <math>\mathcal{S}_{y\mid x}</math>. का कथानक <math>y</math> बनाम <math>\hat{\beta}^T\textbf{x}</math> इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।
सामान्य न्यूनतम वर्ग अनुमान <math>\hat{\beta}</math> का <math>\beta</math> संगत अनुमानक है, और इसलिए <math>\hat{\beta}</math> की अवधि <math>\mathcal{S}_{y\mid x}</math> का सतत अनुमानक है। <math>y</math> का कथानक बनाम <math>\hat{\beta}^T\textbf{x}</math> इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।


== यह भी देखें ==
== यह भी देखें ==
*आयाम में कमी
*आयाम में कमी
* कटा हुआ उलटा प्रतिगमन
* कटा हुआ व्युत्क्रम प्रतिगमन
*[[प्रमुख कंपोनेंट विश्लेषण]]
*[[प्रमुख कंपोनेंट विश्लेषण]]
* [[रैखिक विभेदक विश्लेषण]]
* [[रैखिक विभेदक विश्लेषण]]
*[[परिमाणिकता का अभिशाप]]
*[[परिमाणिकता का अभिशाप|परिमाणिकता का अपशब्द]]
*बहुरेखीय उप-अंतरिक्ष अधिगम
*बहुरेखीय उप-स्पेस अधिगम


== टिप्पणियाँ ==
== टिप्पणियाँ ==
{{Reflist}}
{{Reflist}}


== संदर्भ ==
== संदर्भ ==
Line 90: Line 75:
*[[Ker-Chau Li|Li, K-C.]] (1991) "Sliced Inverse Regression for Dimension Reduction", [[Journal of the American Statistical Association]], 86(414), 316–327. [https://www.jstor.org/stable/2290563 Jstor]
*[[Ker-Chau Li|Li, K-C.]] (1991) "Sliced Inverse Regression for Dimension Reduction", [[Journal of the American Statistical Association]], 86(414), 316–327. [https://www.jstor.org/stable/2290563 Jstor]
{{refend}}
{{refend}}


== बाहरी संबंध ==
== बाहरी संबंध ==
* [http://www.stat.umn.edu/~dennis/SDR/ Sufficient Dimension Reduction]
* [http://www.stat.umn.edu/~dennis/SDR/ Sufficient Dimension Reduction]
[[Category: आयाम में कमी]]


[[Category: Machine Translated Page]]
[[Category:Created On 24/05/2023]]
[[Category:Created On 24/05/2023]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:आयाम में कमी]]

Latest revision as of 09:00, 15 June 2023

आंकड़ों में, पर्याप्त आयाम कमी (एसडीआर) डेटा का विश्लेषण करने के लिए प्रतिमान है। जो पर्याप्त आंकड़ों की अवधारणा के साथ आयाम में कमी के विचारों को जोड़ता है।

आयाम में कमी लंबे समय से प्रतिगमन विश्लेषण का प्राथमिक लक्ष्य रहा है। प्रतिक्रिया चर y और p-आयामी पूर्वानुमान सदिश को देखते हुए , प्रतिगमन विश्लेषण का उद्देश्य वितरण का अध्ययन करना है। का सशर्त वितरण दिया गया। आयाम में कमी फलन है। जो कों उपसमुच्चय , k < p से मैप करता है। जिससे का आयाम (सदिश स्पेस) कम हो जाता है। का आयाम [1] उदाहरण के लिए, के एक या अधिक रैखिक संयोजन हो सकते हैं।

आयाम में कमी का वितरण पर्याप्त कहा जाता है। यदि का वितरण के समान है। यदि कमी पर्याप्त है दूसरे शब्दों में, के आयाम को कम करने में प्रतिगमन के बारे में कोई जानकारी खो नहीं जाती है। [1]

ग्राफिकल प्रेरणा

प्रतिगमन सेटिंग में, के वितरण रेखांकन को संक्षेप में प्रस्तुत करना अधिकांशतः उपयोगी होता है। उदाहरण के लिए, कोई बनाम एक या अधिक पूर्वानुमानो स्कैटर प्लॉट पर विचार कर सकता है। स्कैटर प्लॉट जिसमें सभी उपलब्ध प्रतिगमन जानकारी होती है। पर्याप्त सारांश प्लॉट कहलाता है।


जब उच्च-आयामी है। जब , डेटा को कम किए बिना पर्याप्त सारांश भूखंडों का निर्माण और दृष्टिगत रूप से व्याख्या करना तेजी से चुनौतीपूर्ण हो जाता है। यहां तक ​​कि त्रि-आयामी बिखराव भूखंडों को कंप्यूटर प्रोग्राम के माध्यम से देखा जाना चाहिए, और तीसरे आयाम को केवल समन्वय अक्षों को घुमाकर देखा जा सकता है। चूँकि, यदि पर्याप्त आयाम कमी उपस्थित है छोटे पर्याप्त आयाम के साथ, पर्याप्त सारांश प्लॉट बनाम निर्माण किया जा सकता है और सापेक्ष सरलता से व्याख्या की जा सकती है।

इसलिए पर्याप्त आयाम में कमी के वितरण के बारे में ग्राफिकल अंतर्ज्ञान की अनुमति देता है। जो अन्यथा उच्च-आयामी डेटा के लिए उपलब्ध नहीं होता है।

अधिकांश ग्राफिकल कार्यप्रणाली मुख्य रूप से आयामों में कमी पर केंद्रित होती है। जिसमें रैखिक संयोजन सम्मिलित होते हैं। इस लेख का शेष भाग केवल ऐसी कटौतियों से संबंधित है।

आयाम में कमी उपसमुच्चय

मान लीजिए कि पर्याप्त आयाम कमी है। जहां A रैंक के साथ आव्यूह (गणित) है। फिर के लिए रिग्रेशन जानकारी का अनुमान के वितरण और प्लॉट का अध्ययन करके लगाया जा सकता है। पर्याप्त सारांश प्लॉट है।

सामान्यता की हानि के बिना, केवल सदिश स्पेस रैखिक के स्तंभों द्वारा फैला हुआ है। विचार करने की आवश्यकता है। माना के स्तंभ स्पेस के लिए आधार (रैखिक बीजगणित) बनें , और स्पेस को फैला दें और द्वारा निरूपित किया जाता है। यह पर्याप्त आयाम कमी की परिभाषा से अनुसरण करता है।

जहाँ उपयुक्त संचयी वितरण फलन को दर्शाता है। इस प्रोपर्टी को व्यक्त करने का एक और विधि है।

या y सशर्त रूप से दिए गए से स्वतंत्र है। फिर उपसमुच्चय को आयाम में कमी उपसमुच्चय (डीआरएस) के रूप में परिभाषित किया गया है।[2]

संरचनात्मक आयाम

प्रतिगमन के लिए , संरचनात्मक आयाम, , के विशिष्ट रैखिक संयोजनों की सबसे छोटी संख्या है। के सशर्त वितरण को संरक्षित करने के लिए आवश्यक है। दूसरे शब्दों में, सबसे छोटा आयाम कमी जो अभी भी पर्याप्त मैप है। के उपसमुच्चय के लिए संबंधित डीआरएस डी-डायमेंशनल होता है।[2]

न्यूनतम आयाम कमी उपसमुच्चय

उपसमुच्चय के लिए न्यूनतम डीआरएस कहा जाता है। यदि यह डीआरएस है और इसका आयाम अन्य सभी डीआरएस से कम या समान है। न्यूनतम डीआरएस आवश्यक रूप से अद्वितीय नहीं है। किन्तु इसका आयाम संरचनात्मक आयाम का , के समान है।[2]

यदि आधार है और न्यूनतम डीआरएस है, तो y बनाम का प्लॉट न्यूनतम पर्याप्त सारांश प्लॉट है, और यह (d + 1)-आयामी है।

केंद्रीय उपसमुच्चय

यदि उपसमुच्चय के लिए डीआरएस है, और यदि अन्य सभी डीआरएस के लिए , तो यह केंद्रीय आयाम कमी उपसमुच्चय है, या बस केंद्रीय उपसमुच्चय है, और इसे दूसरे शब्दों में, के लिए केंद्रीय उपसमुच्चय उपस्थित है। यदि और केवल यदि प्रतिच्छेदन सभी आयाम में कमी उपसमुच्चय भी आयाम में कमी उपसमुच्चय है, और वह प्रतिच्छेदन केंद्रीय उपसमुच्चय है।[2]

केंद्रीय उपसमुच्चय अनिवार्य रूप से उपस्थित नहीं है क्योंकि प्रतिच्छेदन आवश्यक रूप से डीआरएस नहीं है। चूँकि, यदि उपस्थित है तो यह अद्वितीय न्यूनतम आयाम कमी उपसमुच्चय भी है।[2]

केंद्रीय उपसमुच्चय का अस्तित्व

जबकि केंद्रीय उपसमुच्चय का अस्तित्व प्रत्येक प्रतिगमन स्थिति में इसकी गारंटी नहीं है, कुछ व्यापक स्थितियाँ हैं जिनके अनुसार इसका अस्तित्व प्रत्यक्ष रूप से अनुसरण करता है। उदाहरण के लिए, कुक (1998) के निम्नलिखित प्रस्ताव पर विचार करें:

माना और के लिए आयाम कमी उपसमुच्चय है। यदि संभाव्यता घनत्व फलन है सभी के और लिए है। जहाँ उत्तल समुच्चय है, फिर प्रतिच्छेदन आयाम कमी उपसमुच्चय भी है।

यह इस प्रस्ताव से अनुसरण करता है कि केंद्रीय उपसमुच्चय ऐसे के लिए उपस्थित है।[2]

आयाम कम करने के विधि

ग्राफिकल और न्यूमेरिक दोनों तरह के आयामों को कम करने के लिए कई वर्तमान विधि हैं। उदाहरण के लिए, कटा हुआ व्युत्क्रम प्रतिगमन (एसआईआर) और कटा हुआ औसत विचरण अनुमान (सेव) 1990 के दशक में प्रस्तुत किया गया था और व्यापक रूप से उपयोग किया जाना जारी है।[3] चूँकि एसआईआर मूल रूप से प्रभावी आयाम को कम करने वाले उपसमुच्चय का अनुमान लगाने के लिए रचना किया गया था, अब यह समझा जाता है कि यह केवल केंद्रीय उपसमुच्चय का अनुमान लगाता है। जो सामान्यतः अलग है।

आयाम में कमी के लिए और अधिक वर्तमान की विधियों में संभावना फलन-आधारित पर्याप्त आयाम में कमी सम्मिलित है।[4] व्युत्क्रम तीसरे क्षण (गणित) (या k वें क्षण) के आधार पर केंद्रीय उपसमुच्चय का अनुमान लगाना,[5] केंद्रीय समाधान स्पेस का आकलन,[6] चित्रमय प्रतिगमन,[2] लिफाफा मॉडल, और प्रमुख समर्थन सदिश मशीन [7] इन और अन्य विधियों के बारे में अधिक जानकारी के लिए, सांख्यिकीय साहित्य देखें।

सिद्धांत घटक विश्लेषण (पीसीए) और आयाम में कमी के लिए इसी तरह के विधि पर्याप्त सिद्धांत पर आधारित नहीं हैं।

उदाहरण: रैखिक प्रतिगमन

प्रतिगमन मॉडल पर विचार करें

ध्यान दें कि का वितरण के वितरण के समान है। इसलिए, की अवधि आयाम कमी उपसमुच्चय है। साथ ही, 1-आयामी है (जब तक ), तो इस प्रतिगमन का संरचनात्मक आयाम है।

सामान्य न्यूनतम वर्ग अनुमान का संगत अनुमानक है, और इसलिए की अवधि का सतत अनुमानक है। का कथानक बनाम इस प्रतिगमन के लिए पर्याप्त सारांश प्लॉट है।

यह भी देखें

टिप्पणियाँ

  1. 1.0 1.1 Cook & Adragni (2009) Sufficient Dimension Reduction and Prediction in Regression In: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906): 4385–4405
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Cook, R.D. (1998) Regression Graphics: Ideas for Studying Regressions Through Graphics, Wiley ISBN 0471193658
  3. Li, K-C. (1991) Sliced Inverse Regression for Dimension Reduction In: Journal of the American Statistical Association, 86(414): 316–327
  4. Cook, R.D. and Forzani, L. (2009) Likelihood-Based Sufficient Dimension Reduction In: Journal of the American Statistical Association, 104(485): 197–208
  5. Yin, X. and Cook, R.D. (2003) Estimating Central Subspaces via Inverse Third Moments In: Biometrika, 90(1): 113–125
  6. Li, B. and Dong, Y.D. (2009) Dimension Reduction for Nonelliptically Distributed Predictors In: Annals of Statistics, 37(3): 1272–1298
  7. Li, Bing; Artemiou, Andreas; Li, Lexin (2011). "रेखीय और अरैखिक पर्याप्त आयाम में कमी के लिए प्रिंसिपल सपोर्ट वेक्टर मशीनें". The Annals of Statistics. 39 (6): 3182–3210. arXiv:1203.2790. doi:10.1214/11-AOS932. S2CID 88519106.

संदर्भ

बाहरी संबंध