प्रमुख घटक प्रतिगमन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(24 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Regression bar}}
{{Regression bar}}
आंकड़ों में, प्रमुख घटक प्रतिगमन (पीसीआर) एक [[प्रतिगमन विश्लेषण]] तकनीक है जो प्रमुख घटक विश्लेषण (पीसीए) पर आधारित है। विशेषतः, पीसीआर का उपयोग रैखिक प्रतिगमन में अज्ञात रैखिक प्रतिगमन का [[अनुमान]] लगाने के लिए किया जाता है।
आंकड़ों में, '''प्रमुख घटक प्रतिगमन''' (पीसीआर) एक [[प्रतिगमन विश्लेषण]] तकनीक है जो प्रमुख घटक विश्लेषण (पीसीए) पर आधारित है। विशेषतः, पीसीआर का उपयोग रैखिक प्रतिगमन में अज्ञात रैखिक प्रतिगमन का [[अनुमान]] लगाने के लिए किया जाता है।


पीसीआर में, व्याख्यात्मक चर पर निर्भर चर को सीधे वापस लाने के अतिरिक्त, व्याख्यात्मक चर के प्रमुख घटक विश्लेषण का उपयोग [[आश्रित और स्वतंत्र चर]] के रूप में किया जाता है। सामान्यतः प्रतिगमन के लिए सभी प्रमुख घटकों के केवल एक उपसमूह का उपयोग किया जाता है, जिससे पीसीआर एक प्रकार की [[नियमितीकरण (गणित)|नियमितीकरण]] प्रक्रिया तथा एक प्रकार का संकोचन अनुमानक भी बन जाता है।
पीसीआर में, व्याख्यात्मक चर पर निर्भर चर को सीधे वापस लाने के अतिरिक्त, व्याख्यात्मक चर के प्रमुख घटक विश्लेषण का उपयोग [[आश्रित और स्वतंत्र चर]] के रूप में किया जाता है। सामान्यतः प्रतिगमन के लिए सभी प्रमुख घटकों के केवल एक उपसमूह का उपयोग किया जाता है, जिससे पीसीआर एक प्रकार की [[नियमितीकरण (गणित)|नियमितीकरण]] प्रक्रिया तथा एक प्रकार का संकोचन अनुमानक भी बन जाता है।
Line 16: Line 16:
  }}</ref>
  }}</ref>


पीसीआर का एक प्रमुख उपयोग बहुसंरेखता समस्या पर नियंत्रण पाने में निहित है जो तब उत्पन्न होती है जब दो या अधिक व्याख्यात्मक चर संरेख होने के निकट होते हैं।<ref>Dodge, Y. (2003) ''The Oxford Dictionary of Statistical Terms'', OUP. {{isbn|0-19-920613-9}}</ref> पीसीआर प्रतिगमन चरण में कुछ कम-विचरण वाले प्रमुख घटकों को छोड़कर ऐसी स्थितियों से उपयुक्त रूप से निपटा जा सकता है। इसके अतिरिक्त, सामान्यतः सभी प्रमुख घटकों के केवल एक उपसमुच्चय पर पीछे हटने से, पीसीआर अंतर्निहित प्रारूप की विशेषता वाले मापदंडों की प्रभावी संख्या को अत्यधिक कम करके [[आयामीता में कमी]] ला सकता है। यह उच्च-आयामी सांख्यिकी वाले समायोजनो में विशेष रूप से उपयोगी हो सकतें है। इसके अतिरिक्त, प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के उचित चयन के माध्यम से, पीसीआर कल्पित प्रारूप के आधार पर परिणाम की कुशल अनुमान लगाया जा सकता है।
पीसीआर का एक प्रमुख उपयोग बहुसंरेखता समस्या पर नियंत्रण पाने में निहित है जो तब उत्पन्न होती है जब दो या अधिक व्याख्यात्मक चर संरेख होने के निकट होते हैं।<ref>Dodge, Y. (2003) ''The Oxford Dictionary of Statistical Terms'', OUP. {{isbn|0-19-920613-9}}</ref> पीसीआर प्रतिगमन चरण में कुछ कम-प्रसरण वाले प्रमुख घटकों को छोड़कर ऐसी स्थितियों से उपयुक्त रूप से निपटा जा सकता है। इसके अतिरिक्त, सामान्यतः सभी प्रमुख घटकों के केवल एक उपसमुच्चय पर पीछे हटने से, पीसीआर अंतर्निहित प्रारूप की विशेषता वाले मापदंडों की प्रभावी संख्या को अत्यधिक कम करके [[आयामीता में कमी]] ला सकता है। यह उच्च-आयामी सांख्यिकी वाले समायोजनो में विशेष रूप से उपयोगी हो सकतें है। इसके अतिरिक्त, प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के उचित चयन के माध्यम से, पीसीआर कल्पित प्रारूप के आधार पर परिणाम की कुशल अनुमान लगाया जा सकता है।


==सिद्धांत==
==सिद्धांत==
Line 36: Line 36:
'''डेटा पूर्वसंस्करण:''' मान लीजिए कि <math> \mathbf{Y} </math> और <math> \mathbf{X} </math> के प्रत्येक <math> p </math> स्तंभों को पहले से ही [[केंद्रबद्ध मात्रिका|केंद्रबद्ध]] किया गया है, जिससे सभी में शून्य [[नमूना औसत और प्रारूप सहसंयोजन|नमूनी औसत]] हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम <math> \mathbf{X} </math> के स्तंभों के लिए) क्योंकि पीसीआर में <math> \mathbf{X} </math> पर पीसीए का उपयोग होता है और [[मुख्य संघटना विश्लेषण|पीसीए]] डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।
'''डेटा पूर्वसंस्करण:''' मान लीजिए कि <math> \mathbf{Y} </math> और <math> \mathbf{X} </math> के प्रत्येक <math> p </math> स्तंभों को पहले से ही [[केंद्रबद्ध मात्रिका|केंद्रबद्ध]] किया गया है, जिससे सभी में शून्य [[नमूना औसत और प्रारूप सहसंयोजन|नमूनी औसत]] हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम <math> \mathbf{X} </math> के स्तंभों के लिए) क्योंकि पीसीआर में <math> \mathbf{X} </math> पर पीसीए का उपयोग होता है और [[मुख्य संघटना विश्लेषण|पीसीए]] डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।


'''मूल प्रारूप:''' केंद्रीयन के बाद, <math> \mathbf{Y} </math> पर <math> \mathbf{X} </math> के लिए मानक [[गौस-मार्कोव सिद्धांत|गौस-मार्कोव]] [[रैखिक प्रतिस्थापन]] मॉडल निम्न रूप में दर्शाया जा सकता है: <math> \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, ;</math> जहां <math> \boldsymbol{\beta} \in \mathbb{R}^p </math> निर्ज्ञात मापदंड सदिश का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और <math> \boldsymbol{\varepsilon} </math> संख्यात्मक त्रुटियों का सदिश है जिसके लिए <math> \operatorname{E}\left(\boldsymbol{\varepsilon}\right) = \mathbf{0} ; </math> और <math> ; \operatorname{Var}\left(\boldsymbol{\varepsilon}\right) = \sigma^2I_{n \times n} </math> है, जहां कुछ अज्ञात [[विचलन]] मापदंड <math> \sigma^2 > 0 ;; </math> है।
'''मूल प्रारूप:''' केंद्रीयन के बाद, <math> \mathbf{Y} </math> पर <math> \mathbf{X} </math> के लिए मानक [[गौस-मार्कोव सिद्धांत|गौस-मार्कोव]] [[रैखिक प्रतिस्थापन]] प्रारूप निम्न रूप में दर्शाया जा सकता है: <math> \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, ;</math> जहां <math> \boldsymbol{\beta} \in \mathbb{R}^p </math> निर्ज्ञात मापदंड सदिश का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और <math> \boldsymbol{\varepsilon} </math> संख्यात्मक त्रुटियों का सदिश है जिसके लिए <math> \operatorname{E}\left(\boldsymbol{\varepsilon}\right) = \mathbf{0} ; </math> और <math> ; \operatorname{Var}\left(\boldsymbol{\varepsilon}\right) = \sigma^2I_{n \times n} </math> है, जहां कुछ अज्ञात [[विचलन]] मापदंड <math> \sigma^2 > 0 ;; </math> है।


'''उद्देश्य:''' मुख्य उद्देश्य डेटा पर आधारित मापदंड <math> \boldsymbol\beta </math> के लिए एक कुशल [[अनुमापक]] <math> \widehat{\boldsymbol\beta} </math> प्राप्त करना है। इसके लिए सामान्यतः प्रयुक्त दृष्टिकोण ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन होता है जो, <math> \mathbf{X} </math> को [[श्रेणी (लिनियर बहुलक)|पूर्ण स्तंभ श्रेणी]] मानते हुए, [[प्रतिस्थापन का द्रव्यमान|बिना उचितवादी अनुमापक]] उत्पन्न करता है: <math> \widehat{\boldsymbol\beta}_\mathrm{ols} = (\mathbf{X}^{T}\mathbf{X})^{-1} \mathbf{X}^{T}\mathbf{Y} </math> जो <math> \boldsymbol{\beta} </math> का [[अनुमापक का धौलेयता|धौलेय अनुमापक]] है। पीसीआर एक और तकनीक है जो <math> \boldsymbol{\beta} </math> के अनुमापन करने के लिए उपयोग की जा सकती है।
'''उद्देश्य:''' मुख्य उद्देश्य डेटा पर आधारित मापदंड <math> \boldsymbol\beta </math> के लिए एक कुशल [[अनुमापक]] <math> \widehat{\boldsymbol\beta} </math> प्राप्त करना है। इसके लिए सामान्यतः प्रयुक्त दृष्टिकोण ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन होता है जो, <math> \mathbf{X} </math> को [[श्रेणी (लिनियर बहुलक)|पूर्ण स्तंभ श्रेणी]] मानते हुए, [[प्रतिस्थापन का द्रव्यमान|बिना उचितवादी अनुमापक]] उत्पन्न करता है: <math> \widehat{\boldsymbol\beta}_\mathrm{ols} = (\mathbf{X}^{T}\mathbf{X})^{-1} \mathbf{X}^{T}\mathbf{Y} </math> जो <math> \boldsymbol{\beta} </math> का [[अनुमापक का धौलेयता|धौलेय अनुमापक]] है। पीसीआर एक और तकनीक है जो <math> \boldsymbol{\beta} </math> के अनुमापन करने के लिए उपयोग की जा सकती है।
Line 48: Line 48:
'''पीसीआर अनुमापक:''' <math> \widehat{\gamma}k = (W_k^T W_k)^{-1} W_k^T \mathbf{Y} \in \mathbb{R}^k </math> को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के सदिश को दर्शाता है, जो प्रतिक्रिया संकेतक <math> \mathbf{Y} </math> के ऊपर [[सामान्यत: कम्पता चौरस]] रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका <math> W{k} </math> पर। तो, किसी भी <math> k \in {1,\ldots,p}</math> के लिए, प्रथम <math> k </math> मुख्य संघटनाओं का उपयोग करके <math> \boldsymbol{\beta} </math> का अंतिम पीसीआर अनुमापक निम्न रूप में दिया जाता है: <math> \widehat{\boldsymbol{\beta}}_k = V_k \widehat{\gamma}_k \in \mathbb{R}^p </math>।
'''पीसीआर अनुमापक:''' <math> \widehat{\gamma}k = (W_k^T W_k)^{-1} W_k^T \mathbf{Y} \in \mathbb{R}^k </math> को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के सदिश को दर्शाता है, जो प्रतिक्रिया संकेतक <math> \mathbf{Y} </math> के ऊपर [[सामान्यत: कम्पता चौरस]] रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका <math> W{k} </math> पर। तो, किसी भी <math> k \in {1,\ldots,p}</math> के लिए, प्रथम <math> k </math> मुख्य संघटनाओं का उपयोग करके <math> \boldsymbol{\beta} </math> का अंतिम पीसीआर अनुमापक निम्न रूप में दिया जाता है: <math> \widehat{\boldsymbol{\beta}}_k = V_k \widehat{\gamma}_k \in \mathbb{R}^p </math>।


[[Category:Created On 07/07/2023|Principal Component Regression]]
 
[[Category:Machine Translated Page|Principal Component Regression]]
 
[[Category:Pages with empty portal template|Principal Component Regression]]
 
[[Category:Pages with script errors|Principal Component Regression]]
 
[[Category:Portal-inline template with redlinked portals|Principal Component Regression]]
 
[[Category:Templates Vigyan Ready|Principal Component Regression]]
 
[[Category:कारक विश्लेषण|Principal Component Regression]]
 
[[Category:प्रतिगमन विश्लेषण|Principal Component Regression]]
 


==पीसीआर अनुमानक की मौलिक विशेषताएं और अनुप्रयोग==
==पीसीआर अनुमानक की मौलिक विशेषताएं और अनुप्रयोग==


===दो बुनियादी गुण===
===दो आधारभूत गुण===
 
प्राप्त किए गए पीसीआर अनुमापक के प्राप्ति की प्रक्रिया में, प्रतिक्रिया संकेतक को विकल्पित डेटा मात्रिका <math> W_{k} </math> पर [[सदिशता|सदिश]] स्तंभों के साथ प्रतिगमित किया जाता है, जहां <math> k \in {1,\ldots,p}</math> के लिए मुख्य संघटनाएं एक दूसरे के प्रति [[सदिशता|सदिश]] होती हैं। इस प्रकार, प्रतिगमन चरण में, <math> k </math> चयनित मुख्य संघटनाओं को विकल्पित मान योजक के रूप में संयुक्त रूप से [[रैखिक प्रतिस्थापन|एकाधिक रैखिक प्रतिस्थापन]] करने के समान होता है जिसे <math> k </math> अलग-अलग [[रैखिक प्रतिस्थापन|सरल रैखिक प्रतिस्थापन]] या एकाधिक प्रतिस्थापन के रूप में प्रत्येक <math> k </math> के लिए चयनित मुख्य संघटनाओं को विकल्पित मान योजक के रूप में भिन्न-भिन्न प्रतिस्थापनों पर भिन्न-भिन्न प्रदर्शित किया जाता है।
 
जब सभी मुख्य संघटनाएं विकल्पित मानों के रूप में प्रतिस्थापित होती हैं जिससे <math> k = p </math> हो, तो पीसीआर अनुमापक अद्यतित [[ऑर्डनरी लीस्ट स्क्वेयर्स|सामान्य निम्न वर्गों]] अनुमापक के समान होता है। इसलिए, <math> \widehat{\boldsymbol{\beta}}{p} = \widehat{\boldsymbol{\beta}}\mathrm{ols} </math> में यह सरलता से देखा जा सकता है कि <math> W_{p} = \mathbf{X}V_{p} = \mathbf{X}V </math> होता है और साथ ही ध्यान देना होगा कि <math> V </math> एक [[अभिलंबी मात्रिका]] है।
 
 
 
 
 
 
 


पीसीआर अनुमानक प्राप्त करने के लिए फिटिंग प्रक्रिया में व्युत्पन्न डेटा मैट्रिक्स पर प्रतिक्रिया सदिश को पुनः प्राप्त करना शामिल है <math> W_{k} </math> जिसमें किसी के लिए ऑर्थोनॉर्मलिटी कॉलम हैं <math> k \in \{1,\ldots,p\}</math> चूँकि प्रमुख घटक एक-दूसरे से लम्बवत हैं। इस प्रकार प्रतिगमन चरण में, संयुक्त रूप से एक रेखीय प्रतिगमन निष्पादित करना <math> k </math> सहसंयोजक के रूप में चयनित प्रमुख घटकों को क्रियान्वित करने के बराबर है <math> k </math> प्रत्येक पर अलग-अलग स्वतंत्र रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन)। <math> k </math> सहसंयोजक के रूप में चयनित प्रमुख घटक।


जब सभी प्रमुख घटकों को प्रतिगमन के लिए चुना जाता है <math> k = p </math>, तो पीसीआर अनुमानक सामान्य न्यूनतम वर्ग अनुमानक के बराबर है। इस प्रकार, <math> \widehat{\boldsymbol{\beta}}_{p} = \widehat{\boldsymbol{\beta}}_\mathrm{ols} </math>. इसका अंदाजा इस बात से आसानी से लगाया जा सकता है <math> W_{p} = \mathbf{X}V_{p} = \mathbf{X}V </math> और उसका अवलोकन भी कर रहे हैं <math> V </math> एक [[ऑर्थोगोनल मैट्रिक्स]] है.


===विचरण में कमी===
===प्रसरण में कमी===


किसी के लिए <math> k \in \{1,\ldots,p\} </math>, का विचरण <math> \widehat{\boldsymbol{\beta}}_{k}</math> द्वारा दिया गया है
किसी भी <math> k \in {1,\ldots,p} </math>, <math> \widehat{\boldsymbol{\beta}}_{k}</math> का प्रसरण निम्नलिखित रूप में प्रदर्शित किया जाता है


: <math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \sigma^2 \; V_k (W_k^T W_k)^{-1} V_k^T = \sigma^2 \; V_k \; \operatorname{diag}\left(\lambda_1^{-1},\ldots,\lambda_k^{-1}\right) V_k^{T} = \sigma^2 \sideset{}{}\sum_{j = 1}^k \frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.</math>
: <math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \sigma^2 \; V_k (W_k^T W_k)^{-1} V_k^T = \sigma^2 \; V_k \; \operatorname{diag}\left(\lambda_1^{-1},\ldots,\lambda_k^{-1}\right) V_k^{T} = \sigma^2 \sideset{}{}\sum_{j = 1}^k \frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.</math>
Line 73: Line 82:


:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{p}) = \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \sigma^2 \sideset{}{}\sum_{j = 1}^{p}\frac{\mathbf{v}_j\mathbf{v}_j^{T}}{\lambda_j}.</math>
:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{p}) = \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \sigma^2 \sideset{}{}\sum_{j = 1}^{p}\frac{\mathbf{v}_j\mathbf{v}_j^{T}}{\lambda_j}.</math>
इसलिए सभी के लिए <math> k \in \{1,\ldots, p-1\} </math> अपने पास:
इसलिए सभी <math> k \in \{1,\ldots, p-1\} </math> के लिए हमारे पास:


:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{k}) = \sigma^2 \sideset{}{}\sum_{j = k+1}^p\frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.</math>
:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{k}) = \sigma^2 \sideset{}{}\sum_{j = k+1}^p\frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.</math>
इस प्रकार, सभी के लिए <math> k \in \{1,\ldots, p\} </math> अपने पास:
इस प्रकार, सभी <math> k \in \{1,\ldots, p\} </math> के लिए हमारे पास:
 
:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math>
 
यहां <math> A \succeq 0 </math> दिखाता है कि एक वर्गीय सममिश्रित मात्रिका <math> A </math> [[positive-definite matrix|गैर-नकारात्मक परिभाषित]] होती है। इसलिए, प्रत्येक दिए गए [[linear form|रेखीय रूप]] के पीसीआर अनुमापक की प्रसरण, साधारणतः, उसी समान [[linear form|रेखीय रूप]] के सामान्यतः निम्न वर्ग अनुमापक के प्रसरण की तुलना में कम होती है।
 
 
 
 
 
 
 
 
 
 
===बहुसंरेखता का समाधान===
 
 
[[बहुसंरेखता]] के अन्तर्गत, दो या दो से अधिक सहसंयोजक परस्पर अत्यधिक [[correlation and dependence|संबंधित]] होते हैं, इसलिए एक से अन्य को गैर-सामान्य निर्णय दायित्व के साथ अन्य सहसंयोजकों से रैखिक रूप से पूर्वानुमान किया जा सकता है। इसके परिणामस्वरूप, इन सहसंयोजकों के लिए आवधारणाओं के लिए अभिलंबी के लगभग संकेतक ज्यामिति के रूप में पड़ते हैं और इसलिए <math> \mathbf{X} </math> अपनी पूर्ण स्तंभ योग्यता वाली संरचना को खो देता है। और भी अधिकांशतः, <math> \mathbf{X}^{T}\mathbf{X} </math> के छोटे इजेनवैल्यूज का एक या एक से अधिक बड़े तुल्य होता है या बराबर होता है। ऊपरी प्रसरण घटकों को संकेत करते हैं कि इन छोटे इजेनवैल्यूज का वारियंस पर सबसे अधिक [[variance inflation factor|वारियंस विस्फोट]] होता है, अतः जब ये शून्य के आसपास होते हैं, तो अनुमापक को संतुलित रखने के लिए उन्हें सुरक्षित कर देते हैं। इस समस्या का समाधान इन छोटे इजेनवैल्यूज के सम्बन्धीत मुख्य संघटनाओं को छोड़कर प्राप्त पीसीआर अनुमापक का उपयोग करके सफलतापूर्वक किया जा सकता है।
 
 
 
 
 
 


:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math> कहाँ <math> A \succeq 0 </math> इंगित करता है कि एक वर्ग सममित मैट्रिक्स <math> A </math> [[सकारात्मक-निश्चित मैट्रिक्स]] है|गैर-नकारात्मक निश्चित। नतीजतन, पीसीआर अनुमानक के किसी भी दिए गए [[रैखिक रूप]] में सामान्य न्यूनतम वर्ग अनुमानक के समान रैखिक रूप की तुलना में कम भिन्नता होती है।


===बहुसंरेखता को संबोधित करना===


बहुसंरेखता के तहत, दो या दो से अधिक सहसंयोजक अत्यधिक [[सहसंबंध और निर्भरता]] वाले होते हैं, ताकि एक को सटीकता की गैर-तुच्छ डिग्री के साथ दूसरों से रैखिक रूप से भविष्यवाणी की जा सके। नतीजतन, डेटा मैट्रिक्स के कॉलम <math> \mathbf{X} </math> इन सहसंयोजकों के अवलोकनों के अनुरूप [[रैखिक स्वतंत्रता]] बनने की प्रवृत्ति होती है और इसलिए, <math> \mathbf{X} </math> अपनी पूर्ण स्तंभ रैंक संरचना खोकर रैंक (रैखिक बीजगणित) बन जाता है। अधिक मात्रात्मक रूप से, एक या अधिक छोटे eigenvalues <math> \mathbf{X}^{T}\mathbf{X} </math> बहुत करीब आ जाना या बिल्कुल बराबर हो जाना <math> 0 </math> ऐसी परिस्थितियों में. उपरोक्त विचरण अभिव्यक्तियाँ दर्शाती हैं कि इन छोटे eigenvalues ​​​​में न्यूनतम वर्ग अनुमानक के विचरण पर अधिकतम [[विचरण मुद्रास्फीति कारक]] होता है, जिससे जब वे करीब होते हैं तो अनुमानक मुद्रास्फीति कारक में महत्वपूर्ण रूप से परिवर्तन होता है। <math> 0</math>. इन छोटे eigenvalues ​​​​के अनुरूप प्रमुख घटकों को छोड़कर प्राप्त पीसीआर अनुमानक का उपयोग करके इस मुद्दे को प्रभावी ढंग से संबोधित किया जा सकता है।


===[[आयाम में कमी]]===
===[[आयाम संक्षेपण]]===


पीसीआर का उपयोग आयाम में कमी करने के लिए भी किया जा सकता है। इसे देखने के लिए आइए <math>L_k</math> किसी को निरूपित करें <math> p \times k </math> किसी के लिए भी ऑर्थोनॉर्मल कॉलम वाला मैट्रिक्स <math> k \in \{1,\ldots,p\}.</math> मान लीजिए कि अब हम प्रत्येक सहसंयोजक प्रेक्षण का अनुमान लगाना चाहते हैं <math> \mathbf{x}_i </math> रैंक के माध्यम से (रैखिक बीजगणित) <math> k </math> [[रैखिक परिवर्तन]] <math> L_k \mathbf{z}_i </math> कुछ के लिए <math> \mathbf{z}_i \in \mathbb{R}^{k} (1 \leq i \leq n) </math>.
पीसीआर का उपयोग आयाम संक्षेपण के लिए भी किया जा सकता है। इसे देखने के लिए, <math> L_k </math> को एक <math> p \times k </math> आव्यूह का प्रतिनिधित्व करने वाला मान लिया जाता है, जिसमें प्रत्येक स्तंभ किसी भी <math> k \in {1,\ldots,p} </math> के लिए परस्पर अनौपचारिक हैं। अब सोचें कि हमें प्रत्येक आयामी अवलोकन <math> \mathbf{x}_i </math> को एक आयामी <math> k </math> क्रम के रूप में <math> L_k \mathbf{z}_i </math> के माध्यम से अनुमानित करना है, जहां कुछ <math> \mathbf{z}_i \in \mathbb{R}^{k} (1 \leq i \leq n) </math> हैं।


तो फिर वो दिखाया जा सकता है
तो फिर यह प्रदर्शित किया जा सकता है


:<math> \sum_{i=1}^{n} \left \|\mathbf{x}_i - L_{k}\mathbf{z}_i \right \|^2 </math> पर न्यूनतम किया गया है <math>L_k = V_k,</math> पहले के साथ मैट्रिक्स <math>k</math> स्तंभों के रूप में प्रमुख घटक दिशाएँ, और <math>\mathbf{z}_i = \mathbf{x}_{i}^{k} = V_{k}^{T}\mathbf{x}_i,</math> इसी <math>k</math> आयामी व्युत्पन्न सहसंयोजक। इस प्रकार <math>k</math> आयामी प्रमुख घटक रैंक का सर्वोत्तम [[रैखिक सन्निकटन]] प्रदान करते हैं <math> k </math> प्रेक्षित डेटा मैट्रिक्स के लिए <math> \mathbf{X} </math>.
:<math> \sum_{i=1}^{n} \left |\mathbf{x}i - L{k}\mathbf{z}i \right |^2 </math> को <math>L_k = V_k</math> पर कम किया जाता है, जहां पहले <math>k</math> मुख्य घटक दिशाएँ स्तंभ के रूप में होती हैं, और <math>\mathbf{z}i = \mathbf{x}{i}^{k} = V{k}^{T}\mathbf{x}_i</math> होता है, संबंधित <math>k</math> आयामी उत्पन्न कोवेरियट्स। इस प्रकार, <math>k</math> आयामी मुख्य घटक प्रमुख द्वारा प्राप्त आंकड़ों का सर्वश्रेष्ठ [[रैंक संकेत]] प्रदान करती हैं, जो देखे गए आंकड़े मात्रिका <math> \mathbf{X} </math> के लिए समर्थित होता है।


आँकड़ों में संबंधित त्रुटियाँ और अवशेष इस प्रकार दिए गए हैं:
आँकड़ों में संबंधित त्रुटियाँ और अवशेष इस प्रकार दिए गए हैं:


:<math> \sum_{i=1}^{n} \left \|\mathbf{x}_i - V_{k}\mathbf{x}_{i}^{k} \right \|^2 = \begin{cases} \sum_{j = k+1}^{n} \lambda_j & 1 \leqslant k < p \\  0 & k = p \end{cases} </math>
:<math> \sum_{i=1}^{n} \left \|\mathbf{x}_i - V_{k}\mathbf{x}_{i}^{k} \right \|^2 = \begin{cases} \sum_{j = k+1}^{n} \lambda_j & 1 \leqslant k < p \\  0 & k = p \end{cases} </math>
इस प्रकार किसी भी संभावित आयाम में कमी को चुनकर प्राप्त किया जा सकता है <math> k </math>, उपयोग किए जाने वाले प्रमुख घटकों की संख्या, के [[eigenvalues]] ​​​​के संचयी योग पर उचित थ्रेशोल्डिंग के माध्यम से <math> \mathbf{X}^{T}\mathbf{X}</math>. चूँकि छोटे eigenvalues ​​​​संचयी योग में महत्वपूर्ण योगदान नहीं देते हैं, इसलिए जब तक वांछित सीमा सीमा पार नहीं हो जाती, तब तक संबंधित प्रमुख घटकों को हटाया जाना जारी रखा जा सकता है। समान मानदंड का उपयोग बहुसंरेखता मुद्दे को संबोधित करने के लिए भी किया जा सकता है, जिसके तहत छोटे eigenvalues ​​​​के अनुरूप प्रमुख घटकों को तब तक नजरअंदाज किया जा सकता है जब तक कि सीमा सीमा बनाए रखी जाती है।
 
इस प्रकार, किसी भी संभावित [[आयाम संक्षेप]] को <math> \mathbf{X}^{T}\mathbf{X} </math> के इगेनवैल्यूओं की जोड़ी के समाकलित योग पर उचित थ्रेशोल्डिंग के माध्यम से चुनकर प्राप्त किया जा सकता है, जहां <math> k </math> प्रमुख घटकों की संख्या होगी, जिसका उपयोग किया जाएगा। क्योंकि छोटे इगेनवैल्यूज़ कुमुलेटिव सम में महत्वपूर्ण योगदान नहीं देते हैं, इसलिए इसके संबंधित प्रमुख घटकों को तब तक छोड़ा जा सकता है जब तक वांछित थ्रेशोल्ड सीमा को पार नहीं किया जाता। यही मापदंड बहुसंरेखण विषय का समाधान करने के लिए भी उपयोग किया जा सकता है, जहां इगेनवैल्यूज़ के छोटे प्रमुख घटकों को अनदेखा किया जा सकता है जब तक थ्रेशोल्ड सीमा बनाए रखी जाती है।
 
 
 
 
 
 
 
 
 


===नियमितीकरण प्रभाव===
===नियमितीकरण प्रभाव===


चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसमुच्चय का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण (गणित) प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए <math> 1 \leqslant k < p</math>, पीसीआर अनुमानक <math> \widehat{\boldsymbol{\beta}}_k </math> निम्नलिखित [[विवश अनुकूलन]] समस्या के नियमित समाधान को दर्शाता है:
चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसमुच्चय का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए <math> 1 \leqslant k < p</math>, पीसीआर अनुमानक <math> \widehat{\boldsymbol{\beta}}_k </math> निम्नलिखित [[विवश अनुकूलन]] समस्या के नियमित समाधान को दर्शाता है:


: <math>\min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \left \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_* \right \|^2 \quad \text{ subject to } \quad  \boldsymbol{\beta}_* \perp \{\mathbf{v}_{k+1}, \ldots, \mathbf{v}_p\}.</math>
: <math>\min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \left \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_* \right \|^2 \quad \text{ subject to } \quad  \boldsymbol{\beta}_* \perp \{\mathbf{v}_{k+1}, \ldots, \mathbf{v}_p\}.</math>
बाधा को समान रूप से इस प्रकार लिखा जा सकता है:
बाधा को समान रूप से इस प्रकार लिखा जा सकता है:


:<math> V_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0},</math> कहाँ:
:<math> V_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0},</math> जहाँ:


:<math> V_{(p-k)} = \left[\mathbf{v}_{k+1},\ldots,\mathbf{v}_p\right]_{p\times (p-k)}. </math>
:<math> V_{(p-k)} = \left[\mathbf{v}_{k+1},\ldots,\mathbf{v}_p\right]_{p\times (p-k)}. </math>
इस प्रकार, जब प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक उचित उपसमूह चुना जाता है, तो प्राप्त पीसीआर अनुमानक नियमितीकरण (गणित) के एक कठिन रूप पर आधारित होता है जो परिणामी समाधान को चयनित प्रमुख घटक दिशाओं के कॉलम स्थान तक सीमित कर देता है, और परिणामस्वरूप इसे बहिष्कृत दिशाओं के लिए लंबनता तक सीमित कर दिया जाता है।
इस प्रकार, जब प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक उचित उपसमूह चुना जाता है, तो प्राप्त पीसीआर अनुमानक नियमितीकरण के एक कठिन रूप पर आधारित होता है जो परिणामी समाधान को चयनित प्रमुख घटक दिशाओं के कॉलम समष्टि तक सीमित कर देता है, और परिणामस्वरूप इसे बहिष्कृत दिशाओं के लिए लंबनता तक सीमित कर दिया जाता है।


===नियमित अनुमानकों के एक वर्ग के बीच पीसीआर की इष्टतमता===
===नियमित अनुमानकों के एक वर्ग के बीच पीसीआर की इष्टतमता===


जैसा कि ऊपर परिभाषित है, विवश न्यूनतमकरण समस्या को देखते हुए, इसके निम्नलिखित सामान्यीकृत संस्करण पर विचार करें:
दिए गए प्रतिबद्धता संख्याओं के रूप में परिभाषित, निम्नलिखित सामान्यीकृत संस्करण का विचार करें:


: <math> \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2 \quad \text{ subject to } \quad  L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0} </math>
: <math> \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2 \quad \text{ subject to } \quad  L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0} </math>
कहाँ, <math> L_{(p-k)} </math> क्रम के किसी भी पूर्ण स्तंभ रैंक मैट्रिक्स को दर्शाता है <math> p \times (p-k)</math> साथ <math> 1 \leqslant k < p</math>.


होने देना <math> \widehat{\boldsymbol{\beta}}_L </math> संगत समाधान को निरूपित करें। इस प्रकार
यहां, <math> L_{(p-k)} </math> किसी भी पूर्ण स्तंभ रैंक आव्यूह को प्रतिनिधित्व करता है, आदेश <math> p \times (p-k)</math> with <math> 1 \leqslant k < p</math> है।
 
प्रतिसंबंधी समाधान को <math> \widehat{\boldsymbol{\beta}}_L </math> से दर्शाया जाता है। इस प्रकार,


:<math> \widehat{\boldsymbol{\beta}}_L = \arg \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2  \quad \text{ subject to } \quad  L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0}.</math>
:<math> \widehat{\boldsymbol{\beta}}_L = \arg \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2  \quad \text{ subject to } \quad  L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0}.</math>
फिर प्रतिबंध मैट्रिक्स का इष्टतम विकल्प <math>L_{(p-k)}</math> जिसके लिए संबंधित अनुमानक <math>\widehat{\boldsymbol{\beta}}_{L}</math> न्यूनतम पूर्वानुमान त्रुटि प्राप्त होती है:<ref name="Park (1981)">{{Cite journal | author = Sung H. Park | title = प्रतिक्रियाओं का अनुमान लगाने के लिए प्रतिगमन पैरामीटर्स पर संरेखता और इष्टतम प्रतिबंध| journal = [[Technometrics]] | volume = 23 | issue = 3 | year = 1981 | pages = 289–295 | doi = 10.2307/1267793}}</ref>
 
: <math> L^{*}_{(p-k)} = V_{(p-k)} \Lambda_{(p-k)}^{1/2},</math> कहाँ
पुनः, जिसमें संबंधित अनुमानक <math>\widehat{\boldsymbol{\beta}}{L}</math> न्यूनतम पूर्वानुमान त्रुटि को प्राप्त करता है, उस निर्बाधता मान के लिए प्रमाणित किया जाने वाले मात्रिका <math>L{(p-k)}</math> का आदर्श चयन निम्नलिखित द्वारा दिया गया है:<ref name="Park (1981)">{{Cite journal | author = Sung H. Park | title = Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses | journal = [[Technometrics]] | volume = 23 | issue = 3 | year = 1981 | pages = 289–295 | doi = 10.2307/1267793}}</ref>
: <math> L^{*}_{(p-k)} = V_{(p-k)} \Lambda_{(p-k)}^{1/2},</math> जहाँ


:<math> \Lambda_{(p-k)}^{1/2} = \operatorname{diag} \left(\lambda_{k+1}^{1/2},\ldots,\lambda_p^{1/2}\right).</math>
:<math> \Lambda_{(p-k)}^{1/2} = \operatorname{diag} \left(\lambda_{k+1}^{1/2},\ldots,\lambda_p^{1/2}\right).</math>
बिल्कुल स्पष्ट रूप से, परिणामी इष्टतम अनुमानक <math> \widehat{\boldsymbol{\beta}}_{L^{*}} </math> फिर बस पीसीआर अनुमानक द्वारा दिया जाता है <math> \widehat{\boldsymbol{\beta}}_{k} </math> पहले पर आधारित <math> k </math> मूल घटक।
 
बहुत स्पष्ट रूप से, परिणामस्वरूप प्रासंगिक अनुमानक <math> \widehat{\boldsymbol{\beta}}{L^{*}} </math> फिर से पहले <math> k </math> मुख्य घटकों पर आधारित पीसीआर अनुमानक <math> \widehat{\boldsymbol{\beta}}{k} </math> द्वारा सीधे प्रदर्शित किया जाता है।
 
 
 
 
 
 
 
 
 


===दक्षता===
===दक्षता===


चूँकि सामान्य न्यूनतम वर्ग अनुमानक एक अनुमानक का पूर्वाग्रह है <math> \boldsymbol{\beta} </math>, अपने पास
चूँकि सामान्य न्यूनतम वर्ग अनुमानक एक अनुमानक <math> \boldsymbol{\beta} </math> का पूर्वाग्रह है हमारे पास


:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_\mathrm{ols}),</math> जहां, एमएसई माध्य वर्ग त्रुटि दर्शाता है। अब, यदि कुछ के लिए <math> k \in \{1,\ldots,p\} </math>, हमारे पास अतिरिक्त है: <math> V_{(p-k)}^T\boldsymbol{\beta} = \mathbf{0} </math>, फिर संगत <math> \widehat{\boldsymbol{\beta}}_k </math> के लिए एक अनुमानक का पूर्वाग्रह भी है <math>\boldsymbol{\beta} </math> और इसलिए
:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_\mathrm{ols}),</math>  
जहां, एमएसई माध्य वर्ग त्रुटि दर्शाता है। अब, यदि किसी <math> k \in \{1,\ldots,p\} </math>,के लिए हमारे पास अतिरिक्त <math> V_{(p-k)}^T\boldsymbol{\beta} = \mathbf{0} </math>, है:  फिर संगत <math> \widehat{\boldsymbol{\beta}}_k </math> के लिए एक अनुमानक पूर्वाग्रह भी है <math>\boldsymbol{\beta} </math> और इसलिए


:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_k).</math>
:<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_k).</math>
Line 143: Line 196:
ऐसा अब भी संभव है <math> \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math>, विशेष रूप से यदि <math> k </math> ऐसा है कि बहिष्कृत प्रमुख घटक छोटे स्वदेशी मानों के अनुरूप होते हैं, जिसके परिणामस्वरूप अनुमानक का पूर्वाग्रह कम होता है।
ऐसा अब भी संभव है <math> \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math>, विशेष रूप से यदि <math> k </math> ऐसा है कि बहिष्कृत प्रमुख घटक छोटे स्वदेशी मानों के अनुरूप होते हैं, जिसके परिणामस्वरूप अनुमानक का पूर्वाग्रह कम होता है।


एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए <math> \boldsymbol{\beta}</math>, पार्क (1981) <ref name="Park (1981)"/>प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें <math> j^{th} </math> प्रमुख घटक यदि और केवल यदि <math>\lambda_j < (p\sigma^2)/ \boldsymbol{\beta}^T \boldsymbol{\beta}.</math> इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात मॉडल मापदंडों के अनुमान की आवश्यकता होती है <math> \sigma^2 </math> और <math> \boldsymbol{\beta} </math>. सामान्य तौर पर, उनका अनुमान मूल पूर्ण मॉडल से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित समुच्चय प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है।<ref name="Park (1981)" />  
एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए <math> \boldsymbol{\beta}</math>, पार्क (1981) <ref name="Park (1981)"/>प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें <math> j^{th} </math> प्रमुख घटक यदि और केवल यदि <math>\lambda_j < (p\sigma^2)/ \boldsymbol{\beta}^T \boldsymbol{\beta}.</math> इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात प्रारूप मापदंडों के अनुमान की आवश्यकता होती है <math> \sigma^2 </math> और <math> \boldsymbol{\beta} </math>. सामान्यतः, उनका अनुमान मूल पूर्ण प्रारूप से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित समुच्चय प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है।<ref name="Park (1981)" />  
के eigenvalues ​​​​के संचयी योग पर आधारित मानदंडों के विपरीत <math> \mathbf{X}^T\mathbf{X} </math>, जो संभवतः बहुसंरेखता समस्या को संबोधित करने और आयाम में कमी करने के लिए अधिक उपयुक्त है, उपरोक्त मानदंड वास्तव में प्रिंसिपल के चयन की प्रक्रिया में परिणाम के साथ-साथ सहसंयोजक दोनों को शामिल करके पीसीआर अनुमानक की भविष्यवाणी और अनुमान दक्षता में सुधार करने का प्रयास करता है। प्रतिगमन चरण में उपयोग किए जाने वाले घटक। समान लक्ष्यों वाले वैकल्पिक दृष्टिकोणों में क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन या मैलोज़ सीपी|मैलोज़ सी के आधार पर प्रमुख घटकों का चयन शामिल है।<sub>p</sub>मानदंड। प्रायः, प्रमुख घटकों का चयन परिणाम के साथ उनके सहसंबंध और निर्भरता की डिग्री के आधार पर भी किया जाता है।
के eigenvalues ​​​​के संचयी योग पर आधारित मानदंडों के विपरीत <math> \mathbf{X}^T\mathbf{X} </math>, जो संभवतः बहुसंरेखता समस्या को संबोधित करने और आयाम में कमी करने के लिए अधिक उपयुक्त है, उपरोक्त मानदंड वास्तव में प्रिंसिपल के चयन की प्रक्रिया में परिणाम के साथ-साथ सहसंयोजक दोनों को शामिल करके पीसीआर अनुमानक की भविष्यवाणी और अनुमान दक्षता में सुधार करने का प्रयास करता है। प्रतिगमन चरण में उपयोग किए जाने वाले घटक। समान लक्ष्यों वाले वैकल्पिक दृष्टिकोणों में पार सत्यापन या मैलोज़ सी के आधार पर प्रमुख घटकों का चयन शामिल है।<sub>p</sub>मानदंड। प्रायः, प्रमुख घटकों का चयन परिणाम के साथ उनके सहसंबंध और निर्भरता के क्रम के आधार पर भी किया जाता है।
 
 
 


===पीसीआर का सिकुड़न प्रभाव===


सामान्य तौर पर, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च विचरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है <math> \mathbf{X}^T\mathbf{X} </math>) मॉडल में सहसंयोजक के रूप में और शेष कम विचरण घटकों को त्याग देता है (निचले eigenvalues ​​​​के अनुरूप) <math> \mathbf{X}^T\mathbf{X} </math>). इस प्रकार यह कम विचरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल मॉडल में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, [[ रिज प्रतिगमन ]] अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (गणित) (या ट्यूनिंग मापदंड) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993)<ref name="Frank and Friedman (1993)">{{Cite journal
 
 
 
 
 
===पीसीआर का संक्षेपण प्रभाव===
 
सामान्यतः, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च प्रसरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है <math> \mathbf{X}^T\mathbf{X} </math>) प्रारूप में सहसंयोजक के रूप में और शेष कम प्रसरण घटकों को त्याग देता है (निचले eigenvalues ​​​​के अनुरूप) <math> \mathbf{X}^T\mathbf{X} </math>). इस प्रकार यह कम प्रसरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल प्रारूप में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, [[ रिज प्रतिगमन ]] अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (या ट्यूनिंग मापदंड) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993)<ref name="Frank and Friedman (1993)">{{Cite journal
  |author1=Lldiko E. Frank  |author2=Jerome H. Friedman
  |author1=Lldiko E. Frank  |author2=Jerome H. Friedman
   |name-list-style=amp | title = A Statistical View of Some Chemometrics Regression Tools
   |name-list-style=amp | title = A Statistical View of Some Chemometrics Regression Tools
Line 159: Line 221:
  }}</ref> निष्कर्ष निकालें कि भविष्यवाणी के उद्देश्य से, रिज अनुमानक, अपने सहज संकोचन प्रभाव के कारण, असतत संकोचन प्रभाव वाले पीसीआर अनुमानक की तुलना में शायद एक बेहतर विकल्प है।
  }}</ref> निष्कर्ष निकालें कि भविष्यवाणी के उद्देश्य से, रिज अनुमानक, अपने सहज संकोचन प्रभाव के कारण, असतत संकोचन प्रभाव वाले पीसीआर अनुमानक की तुलना में शायद एक बेहतर विकल्प है।


इसके अतिरिक्त, प्रमुख घटक एकवचन मूल्य अपघटन|ईजेन-अपघटन से प्राप्त होते हैं <math> \mathbf{X} </math> इसमें केवल व्याख्यात्मक चर के लिए अवलोकन शामिल हैं। इसलिए, सहसंयोजक के रूप में इन प्रमुख घटकों का उपयोग करने से प्राप्त परिणामी पीसीआर अनुमानक को परिणाम के लिए संतोषजनक पूर्वानुमानित प्रदर्शन की आवश्यकता नहीं है। कुछ हद तक समान अनुमानक जो अपने निर्माण के माध्यम से इस मुद्दे को संबोधित करने का प्रयास करता है वह [[आंशिक न्यूनतम वर्ग]] (पीएलएस) अनुमानक है। पीसीआर के समान, पीएलएस भी निम्न आयामों के व्युत्पन्न सहसंयोजकों का उपयोग करता है। यद्यपि, पीसीआर के विपरीत, पीएलएस के लिए व्युत्पन्न सहसंयोजक परिणाम और सहसंयोजक दोनों के उपयोग के आधार पर प्राप्त किए जाते हैं। जबकि पीसीआर सहसंयोजक स्थान में उच्च विचरण दिशाओं की तलाश करता है, पीएलएस सहसंयोजक स्थान में उन दिशाओं की तलाश करता है जो परिणाम की भविष्यवाणी के लिए सबसे उपयोगी हैं।
इसके अतिरिक्त, प्रमुख घटक एकवचन मूल्य अपघटन|ईजेन-अपघटन से प्राप्त होते हैं <math> \mathbf{X} </math> इसमें केवल व्याख्यात्मक चर के लिए अवलोकन शामिल हैं। इसलिए, सहसंयोजक के रूप में इन प्रमुख घटकों का उपयोग करने से प्राप्त परिणामी पीसीआर अनुमानक को परिणाम के लिए संतोषजनक पूर्वानुमानित प्रदर्शन की आवश्यकता नहीं है। कुछ हद तक समान अनुमानक जो अपने निर्माण के माध्यम से इस मुद्दे को संबोधित करने का प्रयास करता है वह [[आंशिक न्यूनतम वर्ग]] (पीएलएस) अनुमानक है। पीसीआर के समान, पीएलएस भी निम्न आयामों के व्युत्पन्न सहसंयोजकों का उपयोग करता है। यद्यपि, पीसीआर के विपरीत, पीएलएस के लिए व्युत्पन्न सहसंयोजक परिणाम और सहसंयोजक दोनों के उपयोग के आधार पर प्राप्त किए जाते हैं। जबकि पीसीआर सहसंयोजक समष्टि में उच्च प्रसरण दिशाओं की तलाश करता है, पीएलएस सहसंयोजक समष्टि में उन दिशाओं की तलाश करता है जो परिणाम की भविष्यवाणी के लिए सबसे उपयोगी हैं।


2006 में क्लासिकल पीसीआर का एक संस्करण प्रस्तावित किया गया जिसे पर्यवेक्षित पीसीआर के नाम से जाना जाता है।<ref name="Bair et al. (2006)">{{Cite journal
2006 में पारंपरिक पीसीआर का एक संस्करण प्रस्तावित किया गया जिसे पर्यवेक्षित पीसीआर के नाम से जाना जाता है।<ref name="Bair et al. (2006)">{{Cite journal
  |author1=Eric Bair |author2=Trevor Hastie |author3=Debashis Paul |author4=Robert Tibshirani | title = Prediction by Supervised Principal Components
  |author1=Eric Bair |author2=Trevor Hastie |author3=Debashis Paul |author4=Robert Tibshirani | title = Prediction by Supervised Principal Components
  | journal = [[Journal of the American Statistical Association]]
  | journal = [[Journal of the American Statistical Association]]
Line 169: Line 231:
  | pages = 119–137
  | pages = 119–137
  | doi = 10.1198/016214505000000628
  | doi = 10.1198/016214505000000628
  |citeseerx=10.1.1.516.2313 }}</ref> पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक समुच्चय निष्पादित करके प्रारंभ होता है <math> p </math> रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है <math> p </math> सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए <math> m \in \{1,\ldots, p\}</math>, पहला <math> m </math> सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है <math> n \times m </math> चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा मैट्रिक्स। प्रयुक्त सहसंयोजकों की संख्या: <math> m \in \{1,\ldots, p\}</math> और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: <math> k \in \{1,\ldots, m\}</math> सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा चुना जाता है।
  |citeseerx=10.1.1.516.2313 }}</ref> पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक समुच्चय निष्पादित करके प्रारंभ होता है <math> p </math> रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है <math> p </math> सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए <math> m \in \{1,\ldots, p\}</math>, पहला <math> m </math> सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है <math> n \times m </math> चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा आव्यूह। प्रयुक्त सहसंयोजकों की संख्या: <math> m \in \{1,\ldots, p\}</math> और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: <math> k \in \{1,\ldots, m\}</math> सामान्यतः पार सत्यापन द्वारा चुना जाता है।
 
==कर्नेल समायोजन का सामान्यीकरण==
 
ऊपर वर्णित पारंपरिक पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम क अनुमान के लिए एक रैखिक प्रतिगमन पर आधारित है। यद्यपि, इसे सरलता से कर्नेल विधियों की समायोजन में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में [[रैखिकता]] की आवश्यकता नहीं होती है, बल्कि इसके अतिरिक्त यह किसी भी यादृच्छिक, सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट समष्टि से संबंधित हो सकता है। कार्य [[सकारात्मक-निश्चित कर्नेल]] रैखिक प्रतिगमन इस समायोजन का एक विशेष परिप्रेक्ष्य बन जाता है जब सकारात्मक-निश्चित कर्नेल को [[कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन]] के रूप में चुना जाता है।
 
सामान्यतः, [[कर्नल विधियाँ|कर्नल यंत्र]] समायोजन के अन्तर्गत, सहपरिवर्ती सदिश को पहले चयनित [[सकारात्मक परिभाषित कर्नल|कर्नल फलन]] द्वारा विशेषित एक [[आयाम (सदिश समष्टि)|उच्च-आयामी]] (संभावित रूप में [[आयाम (वेक्टर स्थान)|अनंत-आयामी]]) [[गुण समष्टियों]] में [[मानचित्रण (गणित)|मानचित्रित]] किया जाता है। इस प्रकार प्राप्त मानचित्र  को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक [[रैखिक संयोजन]] माना जाता है। इस प्रकार, कर्नेल विधियों की समायोजन में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल समुच्चय के अतिरिक्त, अनुमानकर्ताओ को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश समष्टि) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके [[डेटा परिवर्तन]] द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।
 
यद्यपि, [[कर्नल ट्रिक]] हमें वास्तविक रूप से [[कर्नल विधियाँ|फ़ीचर मानचित्र]] की प्रकट रूप से हिसाब न करते हुए [[फ़ीचर स्पेस]] में कार्य करने की क्षमता प्रदान करता है। यह पता चलता है कि देखे गए सहसंयोजक सदिशों के लिए फीचर मानचित्रों के बीच जोड़ीदार आंतरिक उत्पादों की गणना करना ही पर्याप्त है और ये आंतरिक उत्पाद केवल सहसंयोजक वैक्टरों के संबंधित जोड़े पर मूल्यांकन किए गए सकारात्मक-निश्चित कर्नेल के मूल्यों द्वारा दिए गए हैं। इस प्रकार प्राप्त जोड़ीवार आंतरिक उत्पादों को एक के रूप <math> n \times n </math> में दर्शाया जा सकता है। सममित गैर-नकारात्मक निश्चित आव्यूह को [[कर्नेल पीसीए]] के रूप में भी जाना जाता है।
 
[[कर्नेल यंत्र]] समायोजन में पीसीआर को अब इस प्रकार से क्रियान्वित किया जा सकता है: पहले इस [[फ़ीचर स्पेस]] के संदर्भ में कर्नल आव्यूह (K कहलाती है) को सही तरीके से [[कर्नल PCA|केंद्रित]] किया जाता है, और फिर केंद्रित कर्नल आव्यूह (K' कहलाती है) पर कर्नल पीसीए क्रियान्वित की जाती है, जिसके द्वारा K' का एक ईगेन-डिकम्पोज़ीशन प्राप्त किया जाता है। कर्नल पीसीआर पुनः (सामान्यतः) प्राप्त सभी ईगेनवेक्टरों में से कुछ उचिततम ईगेनवेक्टरों का चयन करके आगे बढ़ता है और फिर इन चयनित ईगेनवेक्टरों पर निर्गत सदिश के साथ सामान्यतः एक मानक रैखिक प्रतिसंघाति क्रियान्वित करता है। प्रतिसंघाति के लिए उपयोग किए जाने वाले ईगेनवेक्टरों का चयन सामान्यतः [[क्रॉस-सत्यापन (सांख्यिकी)|क्रॉस-सत्यापन]] का उपयोग करके होता है। प्राकृतिक निरीक्षण के लिए, अनुमानित प्रतिसंघाति संख्याओं (चयनित ईगेनवेक्टरों की संख्या के समान आयाम वाले) के साथ अनुमानित प्रतिसंघाति कारकों का उपयोग किया जाता है, और आगामी अवलोकन के लिए इन चयनित ईगेनवेक्टरों के साथ संबंधित अनुमानित प्रतिसंघाति संख्याओं का उपयोग किया जाता है। [[मशीन लर्निंग]] में, इस तकनीक को "स्पेक्ट्रल प्रतिसंघाति" भी कहा जाता है।
 
स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक भिन्न संकोचन प्रभाव होता है, जैसा कि पहले चर्चा की गई थी यह मुख्य घटकों पर पारंपरिक पीसीआर के भिन्न संकोचन प्रभाव के समान है। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर आरेख संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल यंत्र समायोजन के अंतर्गत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल आव्यूहों के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य पुनरावर्ती सूत्रण पर विचार करके इस समस्या के आसपास कार्य करता है। एक रैखिक प्रतिसंघाति प्रारूप के अंतर्गत (जो रैखिक कर्नल के रूप में कर्नल फलन का चयन करता है), इसे उपलब्ध <math> n \times n </math> कर्नल आव्यूह <math> \mathbf{X}\mathbf{X}^T </math> की एक विस्तृत संख्यापन की विचार किया जाता है और फिर प्राप्त ईगेनवेक्टरों के चयनित उपसंग के साथ निर्गत सदिश का प्रतिसंघाति की जाती है। यह सरलता से दिखाया जा सकता है कि यह मूल अंतर्गत प्रतिसंघाति प्रारूप के संदर्भ में पारंपरिक पीसीआर के संदर्भ में परिभाषित प्रमुख घटकों पर निर्गत सदिश का प्रतिसंघाति करने के समान है। इसमें प्रमुख अंतर है कि यहां उपयोग किए जाने वाले प्रमुख घटक अंतिमांकित होते हैं। इस प्रकार, रैखिक कर्नेल के लिए, पुनरावर्ती सूत्रण पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित पारंपरिक पीसीआर के बिल्कुल समान है। यद्यपि, यादृच्छिक विधि से और संभवतः गैर-रैखिक कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर आरेख की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस परिप्रेक्ष्य में पारंपरिक पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, परंतु पुनरावर्ती सूत्रण पर आधारित कर्नेल पीसीआर अभी भी वैध और संगणनीय रूप से उपयोगी बना हुआ है।
 
 
 


==कर्नेल समुच्चयिंग्स का सामान्यीकरण==


ऊपर वर्णित शास्त्रीय पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम की भविष्यवाणी के लिए एक रैखिक प्रतिगमन पर विचार करती है। यद्यपि, इसे आसानी से कर्नेल विधियों की समुच्चयिंग में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में [[रैखिकता]] की आवश्यकता नहीं होती है, बल्कि इसके बजाय यह किसी भी मनमानी (संभवतः रैखिकता | गैर-रैखिक), सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट स्थान से संबंधित हो सकता है। कार्य [[सकारात्मक-निश्चित कर्नेल]]। रैखिक प्रतिगमन इस समुच्चयिंग का एक विशेष मामला बन जाता है जब सकारात्मक-निश्चित कर्नेल को [[कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन]] के रूप में चुना जाता है।


सामान्य तौर पर, कर्नेल विधियों की समुच्चयिंग के तहत, सहसंयोजकों का सदिश एक आयाम (सदिश स्पेस) में पहला [[मानचित्र (गणित)]] होता है | उच्च-आयामी (संभावित आयाम (सदिश स्पेस) | अनंत-आयामी) [[ सुविधा स्थान ]] जो सकारात्मक-निश्चित द्वारा विशेषता है कर्नेल चुना गया. इस प्रकार प्राप्त मानचित्र (गणित) को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता (रैखिकता या रैखिकता | गैर-रैखिक हो सकती है) से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक [[रैखिक संयोजन]] माना जाता है। इस प्रकार, कर्नेल विधियों की समुच्चयिंग में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल समुच्चय के बजाय, भविष्यवक्ताओं को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश स्थान) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके [[डेटा परिवर्तन]] द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।


यद्यपि, [[कर्नेल चाल]] वास्तव में हमें कर्नेल विधियों की स्पष्ट रूप से गणना किए बिना फीचर स्पेस में काम करने में सक्षम बनाती है। यह पता चलता है कि देखे गए सहसंयोजक वैक्टरों के लिए फीचर मानचित्रों के बीच जोड़ीदार आंतरिक उत्पादों की गणना करना ही पर्याप्त है और ये आंतरिक उत्पाद केवल सहसंयोजक वैक्टरों के संबंधित जोड़े पर मूल्यांकन किए गए सकारात्मक-निश्चित कर्नेल के मूल्यों द्वारा दिए गए हैं। इस प्रकार प्राप्त जोड़ीवार आंतरिक उत्पादों को एक के रूप में दर्शाया जा सकता है <math> n \times n </math> सममित गैर-नकारात्मक निश्चित मैट्रिक्स को [[कर्नेल पीसीए]] के रूप में भी जाना जाता है।


[[कर्नेल मशीन]] समुच्चयिंग में पीसीआर को अब फीचर स्पेस के संबंध में पहले कर्नेल पीसीए, इस कर्नेल पीसीए (के, मान लीजिए) द्वारा कार्यान्वित किया जा सकता है और फिर कर्नेल पीसीए (के, मान लीजिए) पर कर्नेल पीसीए का प्रदर्शन किया जा सकता है, जिससे एक मैट्रिक्स का ईगेंडेकंपोजिशन किया जा सकता है। का ' प्राप्त होता है। कर्नेल पीसीआर तब (सामान्यतः) प्राप्त किए गए सभी आइजनसदिशों के एक सबसमुच्चय का चयन करके आगे बढ़ता है और फिर इन चयनित [[eigenvectors]] पर परिणाम सदिश का एक रैखिक प्रतिगमन करता है। प्रतिगमन के लिए उपयोग किए जाने वाले ईजेनसदिश सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके चुने जाते हैं। अनुमानित प्रतिगमन गुणांक (चयनित ईजेनसदिशों की संख्या के समान आयाम वाले) के साथ-साथ संबंधित चयनित ईजेनसदिशों का उपयोग भविष्य के अवलोकन के परिणाम की भविष्यवाणी करने के लिए किया जाता है। [[ यंत्र अधिगम ]] में इस तकनीक को स्पेक्ट्रल रिग्रेशन के रूप में भी जाना जाता है।


स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक अलग संकोचन प्रभाव होता है, जो कि मुख्य घटकों पर शास्त्रीय पीसीआर के अलग संकोचन प्रभाव के समान है, जैसा कि पहले चर्चा की गई थी। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर मैप संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल मशीन समुच्चयिंग के तहत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल मैट्रिक्स के मैट्रिक्स के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य दोहरे फॉर्मूलेशन पर विचार करके इस समस्या के आसपास काम करता है। रैखिक प्रतिगमन मॉडल के तहत (जो कर्नेल फ़ंक्शन को रैखिक कर्नेल के रूप में चुनने से मेल खाता है), यह संबंधित के वर्णक्रमीय अपघटन पर विचार करने के बराबर है <math> n \times n </math> कर्नेल मैट्रिक्स <math> \mathbf{X}\mathbf{X}^T </math> और फिर eigenvectors के एक चयनित उपसमूह पर परिणाम सदिश को पुनः प्राप्त करना <math> \mathbf{X}\mathbf{X}^T </math> तो प्राप्त हुआ. यह आसानी से दिखाया जा सकता है कि यह संबंधित प्रमुख घटकों (जो इस मामले में परिमित-आयामी हैं) पर परिणाम सदिश को पुनः प्राप्त करने के समान है, जैसा कि शास्त्रीय पीसीआर के संदर्भ में परिभाषित किया गया है। इस प्रकार, रैखिक कर्नेल के लिए, दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित शास्त्रीय पीसीआर के बिल्कुल बराबर है। यद्यपि, मनमाने ढंग से (और संभवतः गैर-रैखिक) कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर मैप की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस मामले में शास्त्रीय पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, लेकिन दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर अभी भी वैध और कम्प्यूटेशनल रूप से स्केलेबल बना हुआ है।


==यह भी देखें==
==यह भी देखें==
Line 199: Line 270:
* {{cite book |last=Theil |first=Henri |author-link=Henri Theil |title=Principles of Econometrics |publisher=Wiley |year=1971 |pages=[https://archive.org/details/principlesofecon0000thei/page/46 46–55] |isbn=978-0-471-85845-4 |url=https://archive.org/details/principlesofecon0000thei/page/46 }}
* {{cite book |last=Theil |first=Henri |author-link=Henri Theil |title=Principles of Econometrics |publisher=Wiley |year=1971 |pages=[https://archive.org/details/principlesofecon0000thei/page/46 46–55] |isbn=978-0-471-85845-4 |url=https://archive.org/details/principlesofecon0000thei/page/46 }}


{{DEFAULTSORT:Principal Component Regression}}[[Category: प्रतिगमन विश्लेषण]] [[Category: कारक विश्लेषण]]
{{DEFAULTSORT:Principal Component Regression}}


 
[[Category:Created On 07/07/2023|Principal Component Regression]]
 
[[Category:Machine Translated Page|Principal Component Regression]]
[[Category: Machine Translated Page]]
[[Category:Pages with empty portal template|Principal Component Regression]]
[[Category:Created On 07/07/2023]]
[[Category:Pages with maths render errors|Principal Component Regression]]
[[Category:Pages with script errors|Principal Component Regression]]
[[Category:Portal-inline template with redlinked portals|Principal Component Regression]]
[[Category:Templates Vigyan Ready|Principal Component Regression]]
[[Category:कारक विश्लेषण|Principal Component Regression]]
[[Category:प्रतिगमन विश्लेषण|Principal Component Regression]]

Latest revision as of 21:09, 15 July 2023

आंकड़ों में, प्रमुख घटक प्रतिगमन (पीसीआर) एक प्रतिगमन विश्लेषण तकनीक है जो प्रमुख घटक विश्लेषण (पीसीए) पर आधारित है। विशेषतः, पीसीआर का उपयोग रैखिक प्रतिगमन में अज्ञात रैखिक प्रतिगमन का अनुमान लगाने के लिए किया जाता है।

पीसीआर में, व्याख्यात्मक चर पर निर्भर चर को सीधे वापस लाने के अतिरिक्त, व्याख्यात्मक चर के प्रमुख घटक विश्लेषण का उपयोग आश्रित और स्वतंत्र चर के रूप में किया जाता है। सामान्यतः प्रतिगमन के लिए सभी प्रमुख घटकों के केवल एक उपसमूह का उपयोग किया जाता है, जिससे पीसीआर एक प्रकार की नियमितीकरण प्रक्रिया तथा एक प्रकार का संकोचन अनुमानक भी बन जाता है।

प्रायः, मुख्य संघटनाओं में से अधिक प्रसारण वाले संघटन (जो कि स्पष्ट कर्ण-मान के संचय-सह-संबंध आव्यूह के उदाहरण चर मान के उच्चतम समष्टियों के संबंध में स्वतः व्याख्यात्मक-सदिशों पर आधारित होते हैं) को प्रतिगामी के रूप में चुना जाता है। यद्यपि, परिणाम के अनुमान के उद्देश्य से, कम भिन्नता वाले प्रमुख घटक भी महत्वपूर्ण हो सकते हैं।[1]

पीसीआर का एक प्रमुख उपयोग बहुसंरेखता समस्या पर नियंत्रण पाने में निहित है जो तब उत्पन्न होती है जब दो या अधिक व्याख्यात्मक चर संरेख होने के निकट होते हैं।[2] पीसीआर प्रतिगमन चरण में कुछ कम-प्रसरण वाले प्रमुख घटकों को छोड़कर ऐसी स्थितियों से उपयुक्त रूप से निपटा जा सकता है। इसके अतिरिक्त, सामान्यतः सभी प्रमुख घटकों के केवल एक उपसमुच्चय पर पीछे हटने से, पीसीआर अंतर्निहित प्रारूप की विशेषता वाले मापदंडों की प्रभावी संख्या को अत्यधिक कम करके आयामीता में कमी ला सकता है। यह उच्च-आयामी सांख्यिकी वाले समायोजनो में विशेष रूप से उपयोगी हो सकतें है। इसके अतिरिक्त, प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के उचित चयन के माध्यम से, पीसीआर कल्पित प्रारूप के आधार पर परिणाम की कुशल अनुमान लगाया जा सकता है।

सिद्धांत

पीसीआर विधि को सामान्यतः तीन प्रमुख चरणों में विभाजित किया जा सकता है:

1. प्रमुख घटकों को प्राप्त करने के लिए व्याख्यात्मक चर के लिए देखे गए डेटा आव्यूह पर प्रमुख घटकों का विश्लेषण करें, और पुनः आगे के उपयोग के लिए प्राप्त प्रमुख घटकों के कुछ उचित मानदंडों के आधार पर एक उपसमूह का चयन करें।
2. अब चयनित प्रमुख घटकों पर परिणामों के देखे गए सदिश को सहसंयोजक के रूप में पुनः प्राप्त करें, अनुमानित प्रतिगमन गुणांक (चयनित प्रमुख घटकों की संख्या के बराबर आयाम के साथ) का एक सदिश प्राप्त करने के लिए साधारण न्यूनतम वर्ग प्रतिगमन तथा रैखिक प्रतिगमन का उपयोग करें।
3. अब परिवर्तन आव्यूह इस सदिश को वास्तविक सहसंयोजकों के मापदंड पर वापस लाता है, अंतिम पीसीआर अनुमानक (सहसंयोजकों की कुल संख्या के बराबर आयाम के साथ) प्राप्त करने के लिए चयनित प्रमुख घटक विश्लेषण (चयनित प्रमुख घटकों के अनुरूप ईजेनसदिश) का उपयोग करके मूल प्रारूप की विशेषता बताने वाले प्रतिगमन गुणांकों का अनुमान लगाता है।

विधि का विवरण

डेटा प्रतिनिधित्व: संज्ञायित परिणामों के सदिश को से दर्शाया जाता है और संबंधित संघटकों के प्रतिनिधित डेटा मात्रिका को से दर्शाया जाता है, यहाँ पर, और प्रामाणिकता में देखे गए प्रारूप के आकार और संख्या हैं, जिनमें, के प्रत्येक पंक्ति का प्रतिनिधित प्रकार आयामी संघटक के लिए एक अवलोकन प्रदान करता है और का संबंधित प्रविष्टि संबंधित निरूपित परिणाम को दर्शाती है।

डेटा पूर्वसंस्करण: मान लीजिए कि और के प्रत्येक स्तंभों को पहले से ही केंद्रबद्ध किया गया है, जिससे सभी में शून्य नमूनी औसत हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम के स्तंभों के लिए) क्योंकि पीसीआर में पर पीसीए का उपयोग होता है और पीसीए डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।

मूल प्रारूप: केंद्रीयन के बाद, पर के लिए मानक गौस-मार्कोव रैखिक प्रतिस्थापन प्रारूप निम्न रूप में दर्शाया जा सकता है: जहां निर्ज्ञात मापदंड सदिश का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और संख्यात्मक त्रुटियों का सदिश है जिसके लिए और है, जहां कुछ अज्ञात विचलन मापदंड है।

उद्देश्य: मुख्य उद्देश्य डेटा पर आधारित मापदंड के लिए एक कुशल अनुमापक प्राप्त करना है। इसके लिए सामान्यतः प्रयुक्त दृष्टिकोण ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन होता है जो, को पूर्ण स्तंभ श्रेणी मानते हुए, बिना उचितवादी अनुमापक उत्पन्न करता है: जो का धौलेय अनुमापक है। पीसीआर एक और तकनीक है जो के अनुमापन करने के लिए उपयोग की जा सकती है।

पीसीए चरण: पीसीआर केंद्रीयत डेटा मात्रिका पर पीसीए का अभ्यास करके प्रारंभ होता है। इसके लिए, से देखाया जाता है, यहाँ है जहां डेटा के गैर-नकारात्मक अद्वितीय मान को दर्शाते हैं, जबकि और की सदिश समुच्चय हैं जो उचितवादी सदिश को दर्शाते हैं और के अद्वितीय मानों के दाईं और बाईं अद्वितीय मान सदिशो को दर्शाते हैं।

मुख्य संघटनाएं: द्वारा के मान संघटना को प्रदर्शित किया जाता है, जहां होता है जहां गैर-नकारात्मक इगेनमूल्यांकन (जिन्हें मुख्य मान भी कहा जाता है) को दर्शाते हैं, जबकि की स्तंभें संबंधित अद्वितीय समुच्चय को दर्शाती हैं। तब, और प्रत्येक में अधिकतम मुख्य संघटना और मुख्य संघटना दिशा (या पीसीए लोडिंग) को दर्शाते हैं जो संबंधित अधिकतम मुख्य मान के लिए होते हैं, जहा द्वारा प्रदर्शित होता है।

प्राप्तित संबंधित रूपांतरण: किसी भी के लिए, यहां उपस्थित हो, जो एकाधिकार स्तंभों के साथ पूर्ण स्तंभ की पहली स्तंभों से मिलकर बने मात्रिका होती है। उपस्थित करती है, जो पहले मुख्य संघटनाओं को अपने स्तंभों के रूप में रखने वाली मात्रिका होती है। मूल्यों को उपयोग करके डेटा मात्रिका के रूप में देखा जा सकता है, रूपांतरित संबंधित डेटा का उपयोग करके करने के बजाय मूल बहुभिन्नरूपी संबंधित का उपयोग करने से प्राप्त होती है।

पीसीआर अनुमापक: को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के सदिश को दर्शाता है, जो प्रतिक्रिया संकेतक के ऊपर सामान्यत: कम्पता चौरस रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका पर। तो, किसी भी के लिए, प्रथम मुख्य संघटनाओं का उपयोग करके का अंतिम पीसीआर अनुमापक निम्न रूप में दिया जाता है:






पीसीआर अनुमानक की मौलिक विशेषताएं और अनुप्रयोग

दो आधारभूत गुण

प्राप्त किए गए पीसीआर अनुमापक के प्राप्ति की प्रक्रिया में, प्रतिक्रिया संकेतक को विकल्पित डेटा मात्रिका पर सदिश स्तंभों के साथ प्रतिगमित किया जाता है, जहां के लिए मुख्य संघटनाएं एक दूसरे के प्रति सदिश होती हैं। इस प्रकार, प्रतिगमन चरण में, चयनित मुख्य संघटनाओं को विकल्पित मान योजक के रूप में संयुक्त रूप से एकाधिक रैखिक प्रतिस्थापन करने के समान होता है जिसे अलग-अलग सरल रैखिक प्रतिस्थापन या एकाधिक प्रतिस्थापन के रूप में प्रत्येक के लिए चयनित मुख्य संघटनाओं को विकल्पित मान योजक के रूप में भिन्न-भिन्न प्रतिस्थापनों पर भिन्न-भिन्न प्रदर्शित किया जाता है।

जब सभी मुख्य संघटनाएं विकल्पित मानों के रूप में प्रतिस्थापित होती हैं जिससे हो, तो पीसीआर अनुमापक अद्यतित सामान्य निम्न वर्गों अनुमापक के समान होता है। इसलिए, में यह सरलता से देखा जा सकता है कि होता है और साथ ही ध्यान देना होगा कि एक अभिलंबी मात्रिका है।






प्रसरण में कमी

किसी भी , का प्रसरण निम्नलिखित रूप में प्रदर्शित किया जाता है

विशेष रूप से:

इसलिए सभी के लिए हमारे पास:

इस प्रकार, सभी के लिए हमारे पास:

यहां दिखाता है कि एक वर्गीय सममिश्रित मात्रिका गैर-नकारात्मक परिभाषित होती है। इसलिए, प्रत्येक दिए गए रेखीय रूप के पीसीआर अनुमापक की प्रसरण, साधारणतः, उसी समान रेखीय रूप के सामान्यतः निम्न वर्ग अनुमापक के प्रसरण की तुलना में कम होती है।






बहुसंरेखता का समाधान

बहुसंरेखता के अन्तर्गत, दो या दो से अधिक सहसंयोजक परस्पर अत्यधिक संबंधित होते हैं, इसलिए एक से अन्य को गैर-सामान्य निर्णय दायित्व के साथ अन्य सहसंयोजकों से रैखिक रूप से पूर्वानुमान किया जा सकता है। इसके परिणामस्वरूप, इन सहसंयोजकों के लिए आवधारणाओं के लिए अभिलंबी के लगभग संकेतक ज्यामिति के रूप में पड़ते हैं और इसलिए अपनी पूर्ण स्तंभ योग्यता वाली संरचना को खो देता है। और भी अधिकांशतः, के छोटे इजेनवैल्यूज का एक या एक से अधिक बड़े तुल्य होता है या बराबर होता है। ऊपरी प्रसरण घटकों को संकेत करते हैं कि इन छोटे इजेनवैल्यूज का वारियंस पर सबसे अधिक वारियंस विस्फोट होता है, अतः जब ये शून्य के आसपास होते हैं, तो अनुमापक को संतुलित रखने के लिए उन्हें सुरक्षित कर देते हैं। इस समस्या का समाधान इन छोटे इजेनवैल्यूज के सम्बन्धीत मुख्य संघटनाओं को छोड़कर प्राप्त पीसीआर अनुमापक का उपयोग करके सफलतापूर्वक किया जा सकता है।






आयाम संक्षेपण

पीसीआर का उपयोग आयाम संक्षेपण के लिए भी किया जा सकता है। इसे देखने के लिए, को एक आव्यूह का प्रतिनिधित्व करने वाला मान लिया जाता है, जिसमें प्रत्येक स्तंभ किसी भी के लिए परस्पर अनौपचारिक हैं। अब सोचें कि हमें प्रत्येक आयामी अवलोकन को एक आयामी क्रम के रूप में के माध्यम से अनुमानित करना है, जहां कुछ हैं।

तो फिर यह प्रदर्शित किया जा सकता है

को पर कम किया जाता है, जहां पहले मुख्य घटक दिशाएँ स्तंभ के रूप में होती हैं, और होता है, संबंधित आयामी उत्पन्न कोवेरियट्स। इस प्रकार, आयामी मुख्य घटक प्रमुख द्वारा प्राप्त आंकड़ों का सर्वश्रेष्ठ रैंक संकेत प्रदान करती हैं, जो देखे गए आंकड़े मात्रिका के लिए समर्थित होता है।

आँकड़ों में संबंधित त्रुटियाँ और अवशेष इस प्रकार दिए गए हैं:

इस प्रकार, किसी भी संभावित आयाम संक्षेप को के इगेनवैल्यूओं की जोड़ी के समाकलित योग पर उचित थ्रेशोल्डिंग के माध्यम से चुनकर प्राप्त किया जा सकता है, जहां प्रमुख घटकों की संख्या होगी, जिसका उपयोग किया जाएगा। क्योंकि छोटे इगेनवैल्यूज़ कुमुलेटिव सम में महत्वपूर्ण योगदान नहीं देते हैं, इसलिए इसके संबंधित प्रमुख घटकों को तब तक छोड़ा जा सकता है जब तक वांछित थ्रेशोल्ड सीमा को पार नहीं किया जाता। यही मापदंड बहुसंरेखण विषय का समाधान करने के लिए भी उपयोग किया जा सकता है, जहां इगेनवैल्यूज़ के छोटे प्रमुख घटकों को अनदेखा किया जा सकता है जब तक थ्रेशोल्ड सीमा बनाए रखी जाती है।






नियमितीकरण प्रभाव

चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसमुच्चय का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए , पीसीआर अनुमानक निम्नलिखित विवश अनुकूलन समस्या के नियमित समाधान को दर्शाता है:

बाधा को समान रूप से इस प्रकार लिखा जा सकता है:

जहाँ:

इस प्रकार, जब प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक उचित उपसमूह चुना जाता है, तो प्राप्त पीसीआर अनुमानक नियमितीकरण के एक कठिन रूप पर आधारित होता है जो परिणामी समाधान को चयनित प्रमुख घटक दिशाओं के कॉलम समष्टि तक सीमित कर देता है, और परिणामस्वरूप इसे बहिष्कृत दिशाओं के लिए लंबनता तक सीमित कर दिया जाता है।

नियमित अनुमानकों के एक वर्ग के बीच पीसीआर की इष्टतमता

दिए गए प्रतिबद्धता संख्याओं के रूप में परिभाषित, निम्नलिखित सामान्यीकृत संस्करण का विचार करें:

यहां, किसी भी पूर्ण स्तंभ रैंक आव्यूह को प्रतिनिधित्व करता है, आदेश with है।

प्रतिसंबंधी समाधान को से दर्शाया जाता है। इस प्रकार,

पुनः, जिसमें संबंधित अनुमानक न्यूनतम पूर्वानुमान त्रुटि को प्राप्त करता है, उस निर्बाधता मान के लिए प्रमाणित किया जाने वाले मात्रिका का आदर्श चयन निम्नलिखित द्वारा दिया गया है:[3]

जहाँ

बहुत स्पष्ट रूप से, परिणामस्वरूप प्रासंगिक अनुमानक फिर से पहले मुख्य घटकों पर आधारित पीसीआर अनुमानक द्वारा सीधे प्रदर्शित किया जाता है।






दक्षता

चूँकि सामान्य न्यूनतम वर्ग अनुमानक एक अनुमानक का पूर्वाग्रह है हमारे पास

जहां, एमएसई माध्य वर्ग त्रुटि दर्शाता है। अब, यदि किसी ,के लिए हमारे पास अतिरिक्त , है: फिर संगत के लिए एक अनुमानक पूर्वाग्रह भी है और इसलिए

वह हम पहले ही देख चुके हैं

जिसका तात्पर्य यह है:
उस विशेष के लिए . इस प्रकार उस मामले में, संगत का अधिक कुशल आकलनकर्ता होगा की तुलना में , प्रदर्शन मानदंड के रूप में माध्य वर्ग त्रुटि का उपयोग करने पर आधारित। इसके अतिरिक्त, किसी भी दिए गए संगत का रैखिक रूप समान रैखिक रूप की तुलना में कम माध्य वर्ग त्रुटि भी होगी .

अब मान लीजिए कि किसी दिए गए के लिए . फिर संगत के लिए एक अनुमानक का पूर्वाग्रह है . यद्यपि, जब से

ऐसा अब भी संभव है , विशेष रूप से यदि ऐसा है कि बहिष्कृत प्रमुख घटक छोटे स्वदेशी मानों के अनुरूप होते हैं, जिसके परिणामस्वरूप अनुमानक का पूर्वाग्रह कम होता है।

एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए , पार्क (1981) [3]प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें प्रमुख घटक यदि और केवल यदि इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात प्रारूप मापदंडों के अनुमान की आवश्यकता होती है और . सामान्यतः, उनका अनुमान मूल पूर्ण प्रारूप से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित समुच्चय प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है।[3] के eigenvalues ​​​​के संचयी योग पर आधारित मानदंडों के विपरीत , जो संभवतः बहुसंरेखता समस्या को संबोधित करने और आयाम में कमी करने के लिए अधिक उपयुक्त है, उपरोक्त मानदंड वास्तव में प्रिंसिपल के चयन की प्रक्रिया में परिणाम के साथ-साथ सहसंयोजक दोनों को शामिल करके पीसीआर अनुमानक की भविष्यवाणी और अनुमान दक्षता में सुधार करने का प्रयास करता है। प्रतिगमन चरण में उपयोग किए जाने वाले घटक। समान लक्ष्यों वाले वैकल्पिक दृष्टिकोणों में पार सत्यापन या मैलोज़ सी के आधार पर प्रमुख घटकों का चयन शामिल है।pमानदंड। प्रायः, प्रमुख घटकों का चयन परिणाम के साथ उनके सहसंबंध और निर्भरता के क्रम के आधार पर भी किया जाता है।






पीसीआर का संक्षेपण प्रभाव

सामान्यतः, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च प्रसरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है ) प्रारूप में सहसंयोजक के रूप में और शेष कम प्रसरण घटकों को त्याग देता है (निचले eigenvalues ​​​​के अनुरूप) ). इस प्रकार यह कम प्रसरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल प्रारूप में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, रिज प्रतिगमन अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (या ट्यूनिंग मापदंड) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993)[4] निष्कर्ष निकालें कि भविष्यवाणी के उद्देश्य से, रिज अनुमानक, अपने सहज संकोचन प्रभाव के कारण, असतत संकोचन प्रभाव वाले पीसीआर अनुमानक की तुलना में शायद एक बेहतर विकल्प है।

इसके अतिरिक्त, प्रमुख घटक एकवचन मूल्य अपघटन|ईजेन-अपघटन से प्राप्त होते हैं इसमें केवल व्याख्यात्मक चर के लिए अवलोकन शामिल हैं। इसलिए, सहसंयोजक के रूप में इन प्रमुख घटकों का उपयोग करने से प्राप्त परिणामी पीसीआर अनुमानक को परिणाम के लिए संतोषजनक पूर्वानुमानित प्रदर्शन की आवश्यकता नहीं है। कुछ हद तक समान अनुमानक जो अपने निर्माण के माध्यम से इस मुद्दे को संबोधित करने का प्रयास करता है वह आंशिक न्यूनतम वर्ग (पीएलएस) अनुमानक है। पीसीआर के समान, पीएलएस भी निम्न आयामों के व्युत्पन्न सहसंयोजकों का उपयोग करता है। यद्यपि, पीसीआर के विपरीत, पीएलएस के लिए व्युत्पन्न सहसंयोजक परिणाम और सहसंयोजक दोनों के उपयोग के आधार पर प्राप्त किए जाते हैं। जबकि पीसीआर सहसंयोजक समष्टि में उच्च प्रसरण दिशाओं की तलाश करता है, पीएलएस सहसंयोजक समष्टि में उन दिशाओं की तलाश करता है जो परिणाम की भविष्यवाणी के लिए सबसे उपयोगी हैं।

2006 में पारंपरिक पीसीआर का एक संस्करण प्रस्तावित किया गया जिसे पर्यवेक्षित पीसीआर के नाम से जाना जाता है।[5] पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक समुच्चय निष्पादित करके प्रारंभ होता है रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए , पहला सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा आव्यूह। प्रयुक्त सहसंयोजकों की संख्या: और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: सामान्यतः पार सत्यापन द्वारा चुना जाता है।

कर्नेल समायोजन का सामान्यीकरण

ऊपर वर्णित पारंपरिक पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम क अनुमान के लिए एक रैखिक प्रतिगमन पर आधारित है। यद्यपि, इसे सरलता से कर्नेल विधियों की समायोजन में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में रैखिकता की आवश्यकता नहीं होती है, बल्कि इसके अतिरिक्त यह किसी भी यादृच्छिक, सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट समष्टि से संबंधित हो सकता है। कार्य सकारात्मक-निश्चित कर्नेल रैखिक प्रतिगमन इस समायोजन का एक विशेष परिप्रेक्ष्य बन जाता है जब सकारात्मक-निश्चित कर्नेल को कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन के रूप में चुना जाता है।

सामान्यतः, कर्नल यंत्र समायोजन के अन्तर्गत, सहपरिवर्ती सदिश को पहले चयनित कर्नल फलन द्वारा विशेषित एक उच्च-आयामी (संभावित रूप में अनंत-आयामी) गुण समष्टियों में मानचित्रित किया जाता है। इस प्रकार प्राप्त मानचित्र को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक रैखिक संयोजन माना जाता है। इस प्रकार, कर्नेल विधियों की समायोजन में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल समुच्चय के अतिरिक्त, अनुमानकर्ताओ को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश समष्टि) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके डेटा परिवर्तन द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।

यद्यपि, कर्नल ट्रिक हमें वास्तविक रूप से फ़ीचर मानचित्र की प्रकट रूप से हिसाब न करते हुए फ़ीचर स्पेस में कार्य करने की क्षमता प्रदान करता है। यह पता चलता है कि देखे गए सहसंयोजक सदिशों के लिए फीचर मानचित्रों के बीच जोड़ीदार आंतरिक उत्पादों की गणना करना ही पर्याप्त है और ये आंतरिक उत्पाद केवल सहसंयोजक वैक्टरों के संबंधित जोड़े पर मूल्यांकन किए गए सकारात्मक-निश्चित कर्नेल के मूल्यों द्वारा दिए गए हैं। इस प्रकार प्राप्त जोड़ीवार आंतरिक उत्पादों को एक के रूप में दर्शाया जा सकता है। सममित गैर-नकारात्मक निश्चित आव्यूह को कर्नेल पीसीए के रूप में भी जाना जाता है।

कर्नेल यंत्र समायोजन में पीसीआर को अब इस प्रकार से क्रियान्वित किया जा सकता है: पहले इस फ़ीचर स्पेस के संदर्भ में कर्नल आव्यूह (K कहलाती है) को सही तरीके से केंद्रित किया जाता है, और फिर केंद्रित कर्नल आव्यूह (K' कहलाती है) पर कर्नल पीसीए क्रियान्वित की जाती है, जिसके द्वारा K' का एक ईगेन-डिकम्पोज़ीशन प्राप्त किया जाता है। कर्नल पीसीआर पुनः (सामान्यतः) प्राप्त सभी ईगेनवेक्टरों में से कुछ उचिततम ईगेनवेक्टरों का चयन करके आगे बढ़ता है और फिर इन चयनित ईगेनवेक्टरों पर निर्गत सदिश के साथ सामान्यतः एक मानक रैखिक प्रतिसंघाति क्रियान्वित करता है। प्रतिसंघाति के लिए उपयोग किए जाने वाले ईगेनवेक्टरों का चयन सामान्यतः क्रॉस-सत्यापन का उपयोग करके होता है। प्राकृतिक निरीक्षण के लिए, अनुमानित प्रतिसंघाति संख्याओं (चयनित ईगेनवेक्टरों की संख्या के समान आयाम वाले) के साथ अनुमानित प्रतिसंघाति कारकों का उपयोग किया जाता है, और आगामी अवलोकन के लिए इन चयनित ईगेनवेक्टरों के साथ संबंधित अनुमानित प्रतिसंघाति संख्याओं का उपयोग किया जाता है। मशीन लर्निंग में, इस तकनीक को "स्पेक्ट्रल प्रतिसंघाति" भी कहा जाता है।

स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक भिन्न संकोचन प्रभाव होता है, जैसा कि पहले चर्चा की गई थी यह मुख्य घटकों पर पारंपरिक पीसीआर के भिन्न संकोचन प्रभाव के समान है। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर आरेख संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल यंत्र समायोजन के अंतर्गत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल आव्यूहों के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य पुनरावर्ती सूत्रण पर विचार करके इस समस्या के आसपास कार्य करता है। एक रैखिक प्रतिसंघाति प्रारूप के अंतर्गत (जो रैखिक कर्नल के रूप में कर्नल फलन का चयन करता है), इसे उपलब्ध कर्नल आव्यूह की एक विस्तृत संख्यापन की विचार किया जाता है और फिर प्राप्त ईगेनवेक्टरों के चयनित उपसंग के साथ निर्गत सदिश का प्रतिसंघाति की जाती है। यह सरलता से दिखाया जा सकता है कि यह मूल अंतर्गत प्रतिसंघाति प्रारूप के संदर्भ में पारंपरिक पीसीआर के संदर्भ में परिभाषित प्रमुख घटकों पर निर्गत सदिश का प्रतिसंघाति करने के समान है। इसमें प्रमुख अंतर है कि यहां उपयोग किए जाने वाले प्रमुख घटक अंतिमांकित होते हैं। इस प्रकार, रैखिक कर्नेल के लिए, पुनरावर्ती सूत्रण पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित पारंपरिक पीसीआर के बिल्कुल समान है। यद्यपि, यादृच्छिक विधि से और संभवतः गैर-रैखिक कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर आरेख की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस परिप्रेक्ष्य में पारंपरिक पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, परंतु पुनरावर्ती सूत्रण पर आधारित कर्नेल पीसीआर अभी भी वैध और संगणनीय रूप से उपयोगी बना हुआ है।






यह भी देखें

संदर्भ

  1. Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.
  2. Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9
  3. 3.0 3.1 3.2 Sung H. Park (1981). "Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses". Technometrics. 23 (3): 289–295. doi:10.2307/1267793.
  4. Lldiko E. Frank & Jerome H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tools". Technometrics. 35 (2): 109–135. doi:10.1080/00401706.1993.10485033.
  5. Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani (2006). "Prediction by Supervised Principal Components". Journal of the American Statistical Association. 101 (473): 119–137. CiteSeerX 10.1.1.516.2313. doi:10.1198/016214505000000628.


अग्रिम पठन