प्रमुख घटक प्रतिगमन

आंकड़ों में, प्रमुख घटक प्रतिगमन (पीसीआर) एक प्रतिगमन विश्लेषण तकनीक है जो प्रमुख घटक विश्लेषण (पीसीए) पर आधारित है। विशेषतः, पीसीआर का उपयोग रैखिक प्रतिगमन में अज्ञात रैखिक प्रतिगमन का अनुमान लगाने के लिए किया जाता है।

पीसीआर में, व्याख्यात्मक चर पर निर्भर चर को सीधे वापस लाने के अतिरिक्त, व्याख्यात्मक चर के प्रमुख घटक विश्लेषण का उपयोग आश्रित और स्वतंत्र चर के रूप में किया जाता है। सामान्यतः प्रतिगमन के लिए सभी प्रमुख घटकों के केवल एक उपसमूह का उपयोग किया जाता है, जिससे पीसीआर एक प्रकार की नियमितीकरण प्रक्रिया तथा एक प्रकार का संकोचन अनुमानक भी बन जाता है।

प्रायः, मुख्य संघटनाओं में से अधिक प्रसारण वाले संघटन (जो कि स्पष्ट कर्ण-मान के संचय-सह-संबंध आव्यूह के उदाहरण चर मान के उच्चतम समष्टियों के संबंध में स्वतः व्याख्यात्मक-सदिशों पर आधारित होते हैं) को प्रतिगामी के रूप में चुना जाता है। यद्यपि, परिणाम के अनुमान के उद्देश्य से, कम भिन्नता वाले प्रमुख घटक भी महत्वपूर्ण हो सकते हैं।^[1]

पीसीआर का एक प्रमुख उपयोग बहुसंरेखता समस्या पर नियंत्रण पाने में निहित है जो तब उत्पन्न होती है जब दो या अधिक व्याख्यात्मक चर संरेख होने के निकट होते हैं।^[2] पीसीआर प्रतिगमन चरण में कुछ कम-प्रसरण वाले प्रमुख घटकों को छोड़कर ऐसी स्थितियों से उपयुक्त रूप से निपटा जा सकता है। इसके अतिरिक्त, सामान्यतः सभी प्रमुख घटकों के केवल एक उपसमुच्चय पर पीछे हटने से, पीसीआर अंतर्निहित प्रारूप की विशेषता वाले मापदंडों की प्रभावी संख्या को अत्यधिक कम करके आयामीता में कमी ला सकता है। यह उच्च-आयामी सांख्यिकी वाले समायोजनो में विशेष रूप से उपयोगी हो सकतें है। इसके अतिरिक्त, प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के उचित चयन के माध्यम से, पीसीआर कल्पित प्रारूप के आधार पर परिणाम की कुशल अनुमान लगाया जा सकता है।

सिद्धांत

पीसीआर विधि को सामान्यतः तीन प्रमुख चरणों में विभाजित किया जा सकता है:

1. प्रमुख घटकों को प्राप्त करने के लिए व्याख्यात्मक चर के लिए देखे गए डेटा आव्यूह पर प्रमुख घटकों का विश्लेषण करें, और पुनः आगे के उपयोग के लिए प्राप्त प्रमुख घटकों के कुछ उचित मानदंडों के आधार पर एक उपसमूह का चयन करें।

2. अब चयनित प्रमुख घटकों पर परिणामों के देखे गए सदिश को सहसंयोजक के रूप में पुनः प्राप्त करें, अनुमानित प्रतिगमन गुणांक (चयनित प्रमुख घटकों की संख्या के बराबर आयाम के साथ) का एक सदिश प्राप्त करने के लिए साधारण न्यूनतम वर्ग प्रतिगमन तथा रैखिक प्रतिगमन का उपयोग करें।

3.

\;\;

अब परिवर्तन आव्यूह इस सदिश को वास्तविक सहसंयोजकों के मापदंड पर वापस लाता है, अंतिम पीसीआर अनुमानक (सहसंयोजकों की कुल संख्या के बराबर आयाम के साथ) प्राप्त करने के लिए चयनित प्रमुख घटक विश्लेषण (चयनित प्रमुख घटकों के अनुरूप ईजेनसदिश) का उपयोग करके मूल प्रारूप की विशेषता बताने वाले प्रतिगमन गुणांकों का अनुमान लगाता है।

विधि का विवरण

डेटा प्रतिनिधित्व: संज्ञायित परिणामों के सदिश को $\mathbf {Y} {n\times 1}=\left(y_{1},\ldots ,y_{n}\right)^{T}$ से दर्शाया जाता है और संबंधित संघटकों के प्रतिनिधित डेटा मात्रिका को $\mathbf {X} {n\times p}=\left(\mathbf {x} _{1},\ldots ,\mathbf {x} _{n}\right)^{T}$ से दर्शाया जाता है, यहाँ पर, $n$ और $p$ प्रामाणिकता में देखे गए प्रारूप के आकार और संख्या हैं, जिनमें, $n\geq p$ । $\mathbf {X}$ के प्रत्येक पंक्ति का प्रतिनिधित प्रकार $p$ आयामी संघटक के लिए एक अवलोकन प्रदान करता है और $\mathbf {Y}$ का संबंधित प्रविष्टि संबंधित निरूपित परिणाम को दर्शाती है।

डेटा पूर्वसंस्करण: मान लीजिए कि $\mathbf {Y}$ और $\mathbf {X}$ के प्रत्येक $p$ स्तंभों को पहले से ही केंद्रबद्ध किया गया है, जिससे सभी में शून्य नमूनी औसत हों। यह केंद्रीयन कदम महत्वपूर्ण है (कम से कम $\mathbf {X}$ के स्तंभों के लिए) क्योंकि पीसीआर में $\mathbf {X}$ पर पीसीए का उपयोग होता है और पीसीए डेटा की केंद्रबद्धता के प्रति संवेदनशील होता है।

मूल प्रारूप: केंद्रीयन के बाद, $\mathbf {Y}$ पर $\mathbf {X}$ के लिए मानक गौस-मार्कोव रैखिक प्रतिस्थापन मॉडल निम्न रूप में दर्शाया जा सकता है: $\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},;$ जहां ${\boldsymbol {\beta }}\in \mathbb {R} ^{p}$ निर्ज्ञात मापदंड सदिश का उपन्यास किया जाता है जो प्रतिस्थापन संकेतकों का है और ${\boldsymbol {\varepsilon }}$ संख्यात्मक त्रुटियों का सदिश है जिसके लिए $\operatorname {E} \left({\boldsymbol {\varepsilon }}\right)=\mathbf {0} ;$ और $;\operatorname {Var} \left({\boldsymbol {\varepsilon }}\right)=\sigma ^{2}I_{n\times n}$ है, जहां कुछ अज्ञात विचलन मापदंड $\sigma ^{2}>0;;$ है।

उद्देश्य: मुख्य उद्देश्य डेटा पर आधारित मापदंड ${\boldsymbol {\beta }}$ के लिए एक कुशल अनुमापक ${\widehat {\boldsymbol {\beta }}}$ प्राप्त करना है। इसके लिए सामान्यतः प्रयुक्त दृष्टिकोण ऑर्डनरी लीस्ट स्क्वेयर्स रेग्रेशन होता है जो, $\mathbf {X}$ को पूर्ण स्तंभ श्रेणी मानते हुए, बिना उचितवादी अनुमापक उत्पन्न करता है: ${\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }=(\mathbf {X} ^{T}\mathbf {X} )^{-1}\mathbf {X} ^{T}\mathbf {Y}$ जो ${\boldsymbol {\beta }}$ का धौलेय अनुमापक है। पीसीआर एक और तकनीक है जो ${\boldsymbol {\beta }}$ के अनुमापन करने के लिए उपयोग की जा सकती है।

पीसीए चरण: पीसीआर केंद्रीयत डेटा मात्रिका $\mathbf {X}$ पर पीसीए का अभ्यास करके प्रारंभ होता है। इसके लिए, $\mathbf {X} =U\Delta V^{T}$ से देखाया जाता है, यहाँ $\Delta _{p\times p}=\operatorname {diag} \left[\delta _{1},\ldots ,\delta _{p}\right]$ है जहां $\delta _{1}\geq \cdots \geq \delta _{p}\geq 0$ डेटा के गैर-नकारात्मक अद्वितीय मान को दर्शाते हैं, जबकि $U_{n\times p}=[\mathbf {u} _{1},\ldots ,\mathbf {u} p]$ और $V{p\times p}=[\mathbf {v} _{1},\ldots ,\mathbf {v} _{p}]$ की सदिश समुच्चय हैं जो उचितवादी सदिश को दर्शाते हैं और $\mathbf {X}$ के अद्वितीय मानों के दाईं और बाईं अद्वितीय मान सदिशो को दर्शाते हैं।

मुख्य संघटनाएं: $V\Lambda V^{T}$ द्वारा $\mathbf {X} ^{T}\mathbf {X}$ के मान संघटना को प्रदर्शित किया जाता है, जहां $\Lambda _{p\times p}=\operatorname {diag} \left[\lambda _{1},\ldots ,\lambda _{p}\right]=\operatorname {diag} \left[\delta _{1}^{2},\ldots ,\delta _{p}^{2}\right]=\Delta ^{2}$ होता है जहां $\lambda _{1}\geq \cdots \geq \lambda _{p}\geq 0$ गैर-नकारात्मक इगेनमूल्यांकन (जिन्हें मुख्य मान भी कहा जाता है) को दर्शाते हैं, जबकि $V$ की स्तंभें संबंधित अद्वितीय समुच्चय को दर्शाती हैं। तब, $\mathbf {X} \mathbf {v} _{j}$ और $\mathbf {v} _{j}$ प्रत्येक में $j^{\text{th}}$ अधिकतम मुख्य संघटना और $j^{\text{th}}$ मुख्य संघटना दिशा (या पीसीए लोडिंग) को दर्शाते हैं जो संबंधित अधिकतम मुख्य मान $\lambda _{j}$ के लिए होते हैं, जहा $j\in {1,\ldots ,p}$ द्वारा प्रदर्शित होता है।

प्राप्तित संबंधित रूपांतरण: किसी भी $k\in {1,\ldots ,p}$ के लिए, यहां $V_{k}$ उपस्थित हो, जो एकाधिकार स्तंभों के साथ पूर्ण स्तंभ की पहली $k$ स्तंभों से मिलकर बने $p\times k$ मात्रिका होती है। $W_{k}=\mathbf {X} V_{k}$ $=[\mathbf {X} \mathbf {v} _{1},\ldots ,\mathbf {X} \mathbf {v} _{k}]$ उपस्थित करती है, जो पहले $k$ मुख्य संघटनाओं को अपने स्तंभों के रूप में रखने वाली $n\times k$ मात्रिका होती है। $W$ मूल्यों को उपयोग करके डेटा मात्रिका के रूप में देखा जा सकता है, रूपांतरित संबंधित डेटा $\mathbf {x} _{i}^{k}=V_{k}^{T}\mathbf {x} _{i}\in \mathbb {R} ^{k}$ का उपयोग करके करने के बजाय मूल बहुभिन्नरूपी संबंधित $\mathbf {x} _{i}\in \mathbb {R} ^{p};;\forall ;;1\leq i\leq n$ का उपयोग करने से प्राप्त होती है।

पीसीआर अनुमापक: ${\widehat {\gamma }}k=(W_{k}^{T}W_{k})^{-1}W_{k}^{T}\mathbf {Y} \in \mathbb {R} ^{k}$ को उपयोग करके प्राप्त अनुमापित प्रतिस्थापन संकेतकों के सदिश को दर्शाता है, जो प्रतिक्रिया संकेतक $\mathbf {Y}$ के ऊपर सामान्यत: कम्पता चौरस रेग्रेशन के माध्यम से प्राप्त किया जाता है, डेटा मात्रिका $W{k}$ पर। तो, किसी भी $k\in {1,\ldots ,p}$ के लिए, प्रथम $k$ मुख्य संघटनाओं का उपयोग करके ${\boldsymbol {\beta }}$ का अंतिम पीसीआर अनुमापक निम्न रूप में दिया जाता है: ${\widehat {\boldsymbol {\beta }}}_{k}=V_{k}{\widehat {\gamma }}_{k}\in \mathbb {R} ^{p}$ ।

पीसीआर अनुमानक की मौलिक विशेषताएं और अनुप्रयोग

दो आधारभूत गुण

प्राप्त किए गए पीसीआर अनुमापक के प्राप्ति की प्रक्रिया में, प्रतिक्रिया संकेतक को विकल्पित डेटा मात्रिका $W_{k}$ पर सदिश स्तंभों के साथ प्रतिगमित किया जाता है, जहां $k\in {1,\ldots ,p}$ के लिए मुख्य संघटनाएं एक दूसरे के प्रति सदिश होती हैं। इस प्रकार, प्रतिगमन चरण में, $k$ चयनित मुख्य संघटनाओं को विकल्पित मान योजक के रूप में संयुक्त रूप से एकाधिक रैखिक प्रतिस्थापन करने के समान होता है जिसे $k$ अलग-अलग सरल रैखिक प्रतिस्थापन या एकाधिक प्रतिस्थापन के रूप में प्रत्येक $k$ के लिए चयनित मुख्य संघटनाओं को विकल्पित मान योजक के रूप में भिन्न-भिन्न प्रतिस्थापनों पर भिन्न-भिन्न प्रदर्शित किया जाता है।

जब सभी मुख्य संघटनाएं विकल्पित मानों के रूप में प्रतिस्थापित होती हैं जिससे $k=p$ हो, तो पीसीआर अनुमापक अद्यतित सामान्य निम्न वर्गों अनुमापक के समान होता है। इसलिए, ${\widehat {\boldsymbol {\beta }}}{p}={\widehat {\boldsymbol {\beta }}}\mathrm {ols}$ में यह सरलता से देखा जा सकता है कि $W_{p}=\mathbf {X} V_{p}=\mathbf {X} V$ होता है और साथ ही ध्यान देना होगा कि $V$ एक अभिलंबी मात्रिका है।

प्रसरण में कमी

किसी भी $k\in {1,\ldots ,p}$ , ${\widehat {\boldsymbol {\beta }}}_{k}$ का प्रसरण निम्नलिखित रूप में प्रदर्शित किया जाता है

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\sigma ^{2}\;V_{k}(W_{k}^{T}W_{k})^{-1}V_{k}^{T}=\sigma ^{2}\;V_{k}\;\operatorname {diag} \left(\lambda _{1}^{-1},\ldots ,\lambda _{k}^{-1}\right)V_{k}^{T}=\sigma ^{2}\sideset {}{}\sum _{j=1}^{k}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.

विशेष रूप से:

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{p})=\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })=\sigma ^{2}\sideset {}{}\sum _{j=1}^{p}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.

इसलिए सभी $k\in \{1,\ldots ,p-1\}$ के लिए अपने पास:

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\sigma ^{2}\sideset {}{}\sum _{j=k+1}^{p}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.

इस प्रकार, सभी $k\in \{1,\ldots ,p\}$ के लिए अपने पास:

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0

यहां $A\succeq 0$ दिखाता है कि एक वर्गीय सममिश्रित मात्रिका $A$ गैर-नकारात्मक परिभाषित होती है। इसलिए, प्रत्येक दिए गए रेखीय रूप के पीसीआर अनुमापक की प्रसरण, साधारणतः, उसी समान रेखीय रूप के सामान्यतः निम्न वर्ग अनुमापक के प्रसरण की तुलना में कम होती है।

बहुसंरेखता का समाधान

बहुसंरेखता के अन्तर्गत, दो या दो से अधिक सहसंयोजक परस्पर अत्यधिक संबंधित होते हैं, इसलिए एक से अन्य को गैर-सामान्य निर्णय दायित्व के साथ अन्य सहसंयोजकों से रैखिक रूप से पूर्वानुमान किया जा सकता है। इसके परिणामस्वरूप, इन सहसंयोजकों के लिए आवधारणाओं के लिए अभिलंबी के लगभग संकेतक ज्यामिति के रूप में पड़ते हैं और इसलिए $\mathbf {X}$ अपनी पूर्ण स्तंभ योग्यता वाली संरचना को खो देता है। और भी अधिकांशतः, $\mathbf {X} ^{T}\mathbf {X}$ के छोटे इजेनवैल्यूज का एक या एक से अधिक बड़े तुल्य होता है या बराबर होता है। ऊपरी प्रसरण घटकों को संकेत करते हैं कि इन छोटे इजेनवैल्यूज का वारियंस पर सबसे अधिक वारियंस विस्फोट होता है, अतः जब ये शून्य के आसपास होते हैं, तो अनुमापक को संतुलित रखने के लिए उन्हें सुरक्षित कर देते हैं। इस समस्या का समाधान इन छोटे इजेनवैल्यूज के सम्बन्धीत मुख्य संघटनाओं को छोड़कर प्राप्त पीसीआर अनुमापक का उपयोग करके सफलतापूर्वक किया जा सकता है।

आयाम संक्षेपण

पीसीआर का उपयोग आयाम संक्षेपण के लिए भी किया जा सकता है। इसे देखने के लिए, $L_{k}$ को एक $p\times k$ आव्यूह का प्रतिनिधित्व करने वाला मान लिया जाता है, जिसमें प्रत्येक स्तंभ किसी भी $k\in {1,\ldots ,p}$ के लिए परस्पर अनौपचारिक हैं। अब सोचें कि हमें प्रत्येक आयामी अवलोकन $\mathbf {x} _{i}$ को एक आयामी $k$ क्रम के रूप में $L_{k}\mathbf {z} _{i}$ के माध्यम से अनुमानित करना है, जहां कुछ $\mathbf {z} _{i}\in \mathbb {R} ^{k}(1\leq i\leq n)$ हैं।

तो फिर यह प्रदर्शित किया जा सकता है

\sum _{i=1}^{n}\left|\mathbf {x} i-L{k}\mathbf {z} i\right|^{2}

को

L_{k}=V_{k}

पर कम किया जाता है, जहां पहले

k

मुख्य घटक दिशाएँ स्तंभ के रूप में होती हैं, और

\mathbf {z} i=\mathbf {x} {i}^{k}=V{k}^{T}\mathbf {x} _{i}

होता है, संबंधित

k

आयामी उत्पन्न कोवेरियट्स। इस प्रकार,

k

आयामी मुख्य घटक प्रमुख द्वारा प्राप्त आंकड़ों का सर्वश्रेष्ठ रैंक संकेत प्रदान करती हैं, जो देखे गए आंकड़े मात्रिका

\mathbf {X}

के लिए समर्थित होता है।

आँकड़ों में संबंधित त्रुटियाँ और अवशेष इस प्रकार दिए गए हैं:

\sum _{i=1}^{n}\left\|\mathbf {x} _{i}-V_{k}\mathbf {x} _{i}^{k}\right\|^{2}={\begin{cases}\sum _{j=k+1}^{n}\lambda _{j}&1\leqslant k<p\\0&k=p\end{cases}}

इस प्रकार, किसी भी संभावित आयाम संक्षेप को $\mathbf {X} ^{T}\mathbf {X}$ के इगेनवैल्यूओं की जोड़ी के समाकलित योग पर उचित थ्रेशोल्डिंग के माध्यम से चुनकर प्राप्त किया जा सकता है, जहां $k$ प्रमुख घटकों की संख्या होगी, जिसका उपयोग किया जाएगा। क्योंकि छोटे इगेनवैल्यूज़ कुमुलेटिव सम में महत्वपूर्ण योगदान नहीं देते हैं, इसलिए इसके संबंधित प्रमुख घटकों को तब तक छोड़ा जा सकता है जब तक वांछित थ्रेशोल्ड सीमा को पार नहीं किया जाता। यही मापदंड बहुसंरेखण विषय का समाधान करने के लिए भी उपयोग किया जा सकता है, जहां इगेनवैल्यूज़ के छोटे प्रमुख घटकों को अनदेखा किया जा सकता है जब तक थ्रेशोल्ड सीमा बनाए रखी जाती है।

नियमितीकरण प्रभाव

चूंकि पीसीआर अनुमानक आम तौर पर प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक सबसमुच्चय का उपयोग करता है, इसे किसी प्रकार के नियमितीकरण (गणित) प्रक्रिया के रूप में देखा जा सकता है। अधिक विशेष रूप से, किसी के लिए $1\leqslant k<p$ , पीसीआर अनुमानक ${\widehat {\boldsymbol {\beta }}}_{k}$ निम्नलिखित विवश अनुकूलन समस्या के नियमित समाधान को दर्शाता है:

\min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\left\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\right\|^{2}\quad {\text{ subject to }}\quad {\boldsymbol {\beta }}_{*}\perp \{\mathbf {v} _{k+1},\ldots ,\mathbf {v} _{p}\}.

बाधा को समान रूप से इस प्रकार लिखा जा सकता है:

V_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0} ,

कहाँ:

V_{(p-k)}=\left[\mathbf {v} _{k+1},\ldots ,\mathbf {v} _{p}\right]_{p\times (p-k)}.

इस प्रकार, जब प्रतिगमन के लिए सभी प्रमुख घटकों का केवल एक उचित उपसमूह चुना जाता है, तो प्राप्त पीसीआर अनुमानक नियमितीकरण (गणित) के एक कठिन रूप पर आधारित होता है जो परिणामी समाधान को चयनित प्रमुख घटक दिशाओं के कॉलम समष्टि तक सीमित कर देता है, और परिणामस्वरूप इसे बहिष्कृत दिशाओं के लिए लंबनता तक सीमित कर दिया जाता है।

नियमित अनुमानकों के एक वर्ग के बीच पीसीआर की इष्टतमता

दिए गए प्रतिबद्धता संख्याओं के रूप में परिभाषित, निम्नलिखित सामान्यीकृत संस्करण का विचार करें:

\min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\|^{2}\quad {\text{ subject to }}\quad L_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0}

यहां, $L_{(p-k)}$ किसी भी पूर्ण स्तंभ रैंक मैट्रिक्स को प्रतिनिधित्व करता है, आदेश $p\times (p-k)$ with $1\leqslant k<p$ है।

प्रतिसंबंधी समाधान को ${\widehat {\boldsymbol {\beta }}}_{L}$ से दर्शाया जाता है। इस प्रकार,

{\widehat {\boldsymbol {\beta }}}_{L}=\arg \min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\|^{2}\quad {\text{ subject to }}\quad L_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0} .

पुनः, जिसमें संबंधित अनुमानक ${\widehat {\boldsymbol {\beta }}}{L}$ न्यूनतम पूर्वानुमान त्रुटि को प्राप्त करता है, उस निर्बाधता मान के लिए प्रमाणित किया जाने वाले मात्रिका $L{(p-k)}$ का आदर्श चयन निम्नलिखित द्वारा दिया गया है:^[3]

L_{(p-k)}^{*}=V_{(p-k)}\Lambda _{(p-k)}^{1/2},

जहाँ

\Lambda _{(p-k)}^{1/2}=\operatorname {diag} \left(\lambda _{k+1}^{1/2},\ldots ,\lambda _{p}^{1/2}\right).

बहुत स्पष्ट रूप से, परिणामस्वरूप प्रासंगिक अनुमानक ${\widehat {\boldsymbol {\beta }}}{L^{*}}$ फिर से पहले $k$ मुख्य घटकों पर आधारित पीसीआर अनुमानक ${\widehat {\boldsymbol {\beta }}}{k}$ द्वारा सीधे दिया जाता है।

दक्षता

चूँकि सामान्य न्यूनतम वर्ग अनुमानक एक अनुमानक ${\boldsymbol {\beta }}$ का पूर्वाग्रह है अपने पास

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })=\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }),

जहां, एमएसई माध्य वर्ग त्रुटि दर्शाता है। अब, यदि किसी $k\in \{1,\ldots ,p\}$ ,के लिए हमारे पास अतिरिक्त $V_{(p-k)}^{T}{\boldsymbol {\beta }}=\mathbf {0}$ , है: फिर संगत ${\widehat {\boldsymbol {\beta }}}_{k}$ के लिए एक अनुमानक पूर्वाग्रह भी है ${\boldsymbol {\beta }}$ और इसलिए

\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k}).

वह हम पहले ही देख चुके हैं

\forall j\in \{1,\ldots ,p\}:\quad \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{j})\succeq 0,

जिसका तात्पर्य यह है:

\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0

उस विशेष के लिए

k

. इस प्रकार उस मामले में, संगत

{\widehat {\boldsymbol {\beta }}}_{k}

का अधिक कुशल आकलनकर्ता होगा

{\boldsymbol {\beta }}

की तुलना में

{\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }

, प्रदर्शन मानदंड के रूप में माध्य वर्ग त्रुटि का उपयोग करने पर आधारित। इसके अतिरिक्त, किसी भी दिए गए संगत का रैखिक रूप

{\widehat {\boldsymbol {\beta }}}_{k}

समान रैखिक रूप की तुलना में कम माध्य वर्ग त्रुटि भी होगी

{\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }

.

अब मान लीजिए कि किसी दिए गए के लिए $k\in \{1,\ldots ,p\},V_{(p-k)}^{\boldsymbol {\beta }}\neq \mathbf {0}$ . फिर संगत ${\widehat {\boldsymbol {\beta }}}_{k}$ के लिए एक अनुमानक का पूर्वाग्रह है ${\boldsymbol {\beta }}$ . यद्यपि, जब से

\forall k\in \{1,\ldots ,p\}:\quad \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0,

ऐसा अब भी संभव है $\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0$ , विशेष रूप से यदि $k$ ऐसा है कि बहिष्कृत प्रमुख घटक छोटे स्वदेशी मानों के अनुरूप होते हैं, जिसके परिणामस्वरूप अनुमानक का पूर्वाग्रह कम होता है।

एक अनुमानक के रूप में पीसीआर के कुशल अनुमान और भविष्यवाणी प्रदर्शन को सुनिश्चित करने के लिए ${\boldsymbol {\beta }}$ , पार्क (1981) ^[3]प्रतिगमन के लिए उपयोग किए जाने वाले प्रमुख घटकों के चयन के लिए निम्नलिखित दिशानिर्देश का प्रस्ताव है: ड्रॉप करें $j^{th}$ प्रमुख घटक यदि और केवल यदि $\lambda _{j}<(p\sigma ^{2})/{\boldsymbol {\beta }}^{T}{\boldsymbol {\beta }}.$ इस दिशानिर्देश के व्यावहारिक कार्यान्वयन के लिए निश्चित रूप से अज्ञात मॉडल मापदंडों के अनुमान की आवश्यकता होती है $\sigma ^{2}$ और ${\boldsymbol {\beta }}$ . सामान्यतः, उनका अनुमान मूल पूर्ण मॉडल से प्राप्त अप्रतिबंधित न्यूनतम वर्ग अनुमानों का उपयोग करके लगाया जा सकता है। पार्क (1981) हालांकि अनुमानों का थोड़ा संशोधित समुच्चय प्रदान करता है जो इस उद्देश्य के लिए बेहतर अनुकूल हो सकता है।^[3] के eigenvalues के संचयी योग पर आधारित मानदंडों के विपरीत $\mathbf {X} ^{T}\mathbf {X}$ , जो संभवतः बहुसंरेखता समस्या को संबोधित करने और आयाम में कमी करने के लिए अधिक उपयुक्त है, उपरोक्त मानदंड वास्तव में प्रिंसिपल के चयन की प्रक्रिया में परिणाम के साथ-साथ सहसंयोजक दोनों को शामिल करके पीसीआर अनुमानक की भविष्यवाणी और अनुमान दक्षता में सुधार करने का प्रयास करता है। प्रतिगमन चरण में उपयोग किए जाने वाले घटक। समान लक्ष्यों वाले वैकल्पिक दृष्टिकोणों में क्रॉस-वैलिडेशन या मैलोज़ सी के आधार पर प्रमुख घटकों का चयन शामिल है।_pमानदंड। प्रायः, प्रमुख घटकों का चयन परिणाम के साथ उनके सहसंबंध और निर्भरता की डिग्री के आधार पर भी किया जाता है।

पीसीआर का सिकुड़न प्रभाव

सामान्यतः, पीसीआर अनिवार्य रूप से एक संकोचन अनुमानक है जो सामान्यतः उच्च प्रसरण वाले प्रमुख घटकों (उच्च स्वदेशी मूल्यों के अनुरूप) को बनाए रखता है $\mathbf {X} ^{T}\mathbf {X}$ ) मॉडल में सहसंयोजक के रूप में और शेष कम प्रसरण घटकों को त्याग देता है (निचले eigenvalues के अनुरूप) $\mathbf {X} ^{T}\mathbf {X}$ ). इस प्रकार यह कम प्रसरण वाले घटकों पर एक पृथक संकोचन अनुमानक लगाता है जो मूल मॉडल में उनके योगदान को पूरी तरह से समाप्त कर देता है। इसके विपरीत, रिज प्रतिगमन अनुमानक इसके निर्माण में स्वाभाविक रूप से शामिल नियमितीकरण (गणित) (या ट्यूनिंग मापदंड) के माध्यम से एक सहज संकोचन प्रभाव डालता है। यद्यपि यह किसी भी घटक को पूरी तरह से नहीं हटाता है, यह उन सभी पर निरंतर तरीके से सिकुड़न प्रभाव डालता है ताकि कम भिन्नता वाले घटकों के लिए संकोचन की सीमा अधिक हो और उच्च भिन्नता वाले घटकों के लिए कम हो। फ्रैंक और फ्रीडमैन (1993)^[4] निष्कर्ष निकालें कि भविष्यवाणी के उद्देश्य से, रिज अनुमानक, अपने सहज संकोचन प्रभाव के कारण, असतत संकोचन प्रभाव वाले पीसीआर अनुमानक की तुलना में शायद एक बेहतर विकल्प है।

इसके अतिरिक्त, प्रमुख घटक एकवचन मूल्य अपघटन|ईजेन-अपघटन से प्राप्त होते हैं $\mathbf {X}$ इसमें केवल व्याख्यात्मक चर के लिए अवलोकन शामिल हैं। इसलिए, सहसंयोजक के रूप में इन प्रमुख घटकों का उपयोग करने से प्राप्त परिणामी पीसीआर अनुमानक को परिणाम के लिए संतोषजनक पूर्वानुमानित प्रदर्शन की आवश्यकता नहीं है। कुछ हद तक समान अनुमानक जो अपने निर्माण के माध्यम से इस मुद्दे को संबोधित करने का प्रयास करता है वह आंशिक न्यूनतम वर्ग (पीएलएस) अनुमानक है। पीसीआर के समान, पीएलएस भी निम्न आयामों के व्युत्पन्न सहसंयोजकों का उपयोग करता है। यद्यपि, पीसीआर के विपरीत, पीएलएस के लिए व्युत्पन्न सहसंयोजक परिणाम और सहसंयोजक दोनों के उपयोग के आधार पर प्राप्त किए जाते हैं। जबकि पीसीआर सहसंयोजक समष्टि में उच्च प्रसरण दिशाओं की तलाश करता है, पीएलएस सहसंयोजक समष्टि में उन दिशाओं की तलाश करता है जो परिणाम की भविष्यवाणी के लिए सबसे उपयोगी हैं।

2006 में क्लासिकल पीसीआर का एक संस्करण प्रस्तावित किया गया जिसे पर्यवेक्षित पीसीआर के नाम से जाना जाता है।^[5] पीएलएस के समान भावना में, यह एक मानदंड के आधार पर निचले आयामों के व्युत्पन्न सहसंयोजक प्राप्त करने का प्रयास करता है जिसमें परिणाम और सहसंयोजक दोनों शामिल होते हैं। विधि का एक समुच्चय निष्पादित करके प्रारंभ होता है $p$ रैखिक प्रतिगमन (या अविभाज्य प्रतिगमन) जिसमें परिणाम सदिश को प्रत्येक पर अलग से प्रतिगमन किया जाता है $p$ सहसंयोजकों को एक-एक करके लिया गया। फिर, कुछ के लिए $m\in \{1,\ldots ,p\}$ , पहला $m$ सहसंयोजक जो परिणाम के साथ सबसे अधिक सहसंबद्ध होते हैं (संबंधित अनुमानित प्रतिगमन गुणांक के महत्व की डिग्री के आधार पर) आगे के उपयोग के लिए चुने जाते हैं। जैसा कि पहले बताया गया है, एक पारंपरिक पीसीआर का प्रदर्शन किया जाता है, लेकिन अब यह केवल पर आधारित है $n\times m$ चयनित सहसंयोजकों के अवलोकनों के अनुरूप डेटा मैट्रिक्स। प्रयुक्त सहसंयोजकों की संख्या: $m\in \{1,\ldots ,p\}$ और बाद में उपयोग किए गए प्रमुख घटकों की संख्या: $k\in \{1,\ldots ,m\}$ सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन द्वारा चुना जाता है।

कर्नेल समायोजन्स का सामान्यीकरण

ऊपर वर्णित पारंपरिक पीसीआर विधि प्रमुख घटक विश्लेषण पर आधारित है और सहसंयोजकों के आधार पर परिणाम क अनुमान के लिए एक रैखिक प्रतिगमन पर आधारित है। यद्यपि, इसे सरलता से कर्नेल विधियों की समायोजन में सामान्यीकृत किया जा सकता है, जिससे प्रतिगमन विश्लेषण के लिए सहसंयोजकों में रैखिकता की आवश्यकता नहीं होती है, बल्कि इसके अतिरिक्त यह किसी भी यादृच्छिक, सममित से जुड़े पुनरुत्पादन कर्नेल हिल्बर्ट समष्टि से संबंधित हो सकता है। कार्य सकारात्मक-निश्चित कर्नेल रैखिक प्रतिगमन इस समायोजन का एक विशेष परिप्रेक्ष्य बन जाता है जब सकारात्मक-निश्चित कर्नेल को कर्नेल हिल्बर्ट स्पेस का पुनरुत्पादन के रूप में चुना जाता है।

सामान्यतः, कर्नेल विधियों की समायोजन के अंतर्गत, सहसंयोजकों का सदिश एक आयाम में पहला मानचित्र होता है | उच्च-आयामी सुविधा समष्टि जो सकारात्मक-निश्चित द्वारा विशेषता है कर्नेल चुना गया. इस प्रकार प्राप्त मानचित्र (गणित) को कर्नेल विधियों के रूप में जाना जाता है और इसकी प्रत्येक समन्वय प्रणाली, जिसे कर्नेल विधियों के रूप में भी जाना जाता है, सहसंयोजकों की एक विशेषता (रैखिकता या रैखिकता | गैर-रैखिक हो सकती है) से मेल खाती है। फिर प्रतिगमन विश्लेषण को इन कर्नेल विधियों का एक रैखिक संयोजन माना जाता है। इस प्रकार, कर्नेल विधियों की समायोजन में प्रतिगमन विश्लेषण अनिवार्य रूप से एक रैखिक प्रतिगमन है, इस समझ के साथ कि सहसंयोजकों के मूल समुच्चय के बजाय, भविष्यवक्ताओं को अब कर्नेल विधियों के सदिश (संभावित आयाम (सदिश समष्टि) | अनंत-आयामी) द्वारा दिया जाता है कर्नेल विधियों का उपयोग करके डेटा परिवर्तन द्वारा वास्तविक सहसंयोजक प्राप्त किए जाते हैं।

यद्यपि, कर्नेल चाल वास्तव में हमें कर्नेल विधियों की स्पष्ट रूप से गणना किए बिना फीचर स्पेस में काम करने में सक्षम बनाती है। यह पता चलता है कि देखे गए सहसंयोजक वैक्टरों के लिए फीचर मानचित्रों के बीच जोड़ीदार आंतरिक उत्पादों की गणना करना ही पर्याप्त है और ये आंतरिक उत्पाद केवल सहसंयोजक वैक्टरों के संबंधित जोड़े पर मूल्यांकन किए गए सकारात्मक-निश्चित कर्नेल के मूल्यों द्वारा दिए गए हैं। इस प्रकार प्राप्त जोड़ीवार आंतरिक उत्पादों को एक के रूप में दर्शाया जा सकता है $n\times n$ सममित गैर-नकारात्मक निश्चित मैट्रिक्स को कर्नेल पीसीए के रूप में भी जाना जाता है।

कर्नेल मशीन समायोजन में पीसीआर को अब फीचर स्पेस के संबंध में पहले कर्नेल पीसीए, इस कर्नेल पीसीए (के, मान लीजिए) द्वारा कार्यान्वित किया जा सकता है और फिर कर्नेल पीसीए (के, मान लीजिए) पर कर्नेल पीसीए का प्रदर्शन किया जा सकता है, जिससे एक मैट्रिक्स का ईगेंडेकंपोजिशन किया जा सकता है। का ' प्राप्त होता है। कर्नेल पीसीआर तब (सामान्यतः) प्राप्त किए गए सभी आइजनसदिशों के एक सबसमुच्चय का चयन करके आगे बढ़ता है और फिर इन चयनित eigenvectors पर परिणाम सदिश का एक रैखिक प्रतिगमन करता है। प्रतिगमन के लिए उपयोग किए जाने वाले ईजेनसदिश सामान्यतः क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन का उपयोग करके चुने जाते हैं। अनुमानित प्रतिगमन गुणांक (चयनित ईजेनसदिशों की संख्या के समान आयाम वाले) के साथ-साथ संबंधित चयनित ईजेनसदिशों का उपयोग भविष्य के अवलोकन के परिणाम की भविष्यवाणी करने के लिए किया जाता है। यंत्र अधिगम में इस तकनीक को स्पेक्ट्रल रिग्रेशन के रूप में भी जाना जाता है।

स्पष्ट रूप से, कर्नेल पीसीआर का K' के आइजनसदिशों पर एक अलग संकोचन प्रभाव होता है, जो कि मुख्य घटकों पर शास्त्रीय पीसीआर के अलग संकोचन प्रभाव के समान है, जैसा कि पहले चर्चा की गई थी। यद्यपि, चुने गए कर्नेल से जुड़ा फ़ीचर मैप संभावित रूप से अनंत-आयामी हो सकता है, और इसलिए संबंधित प्रमुख घटक और प्रमुख घटक दिशाएँ भी अनंत-आयामी हो सकती हैं। इसलिए, कर्नेल मशीन समायोजन के तहत ये मात्राएँ प्रायः व्यावहारिक रूप से कठिन होती हैं। कर्नेल पीसीआर अनिवार्य रूप से संबंधित कर्नेल मैट्रिक्स के मैट्रिक्स के ईगेंडेकंपोजीशन का उपयोग करने के आधार पर एक समतुल्य दोहरे फॉर्मूलेशन पर विचार करके इस समस्या के आसपास काम करता है। रैखिक प्रतिगमन मॉडल के तहत (जो कर्नेल फ़ंक्शन को रैखिक कर्नेल के रूप में चुनने से मेल खाता है), यह संबंधित के वर्णक्रमीय अपघटन पर विचार करने के बराबर है $n\times n$ कर्नेल मैट्रिक्स $\mathbf {X} \mathbf {X} ^{T}$ और फिर eigenvectors के एक चयनित उपसमूह पर परिणाम सदिश को पुनः प्राप्त करना $\mathbf {X} \mathbf {X} ^{T}$ तो प्राप्त हुआ. यह आसानी से दिखाया जा सकता है कि यह संबंधित प्रमुख घटकों (जो इस मामले में परिमित-आयामी हैं) पर परिणाम सदिश को पुनः प्राप्त करने के समान है, जैसा कि शास्त्रीय पीसीआर के संदर्भ में परिभाषित किया गया है। इस प्रकार, रैखिक कर्नेल के लिए, दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर, प्राइमल फॉर्मूलेशन पर आधारित शास्त्रीय पीसीआर के बिल्कुल बराबर है। यद्यपि, मनमाने ढंग से (और संभवतः गैर-रैखिक) कर्नेल के लिए, यह प्रारंभिक सूत्रीकरण संबंधित फीचर मैप की अनंत आयामीता के कारण कठिन हो सकता है। इस प्रकार उस मामले में शास्त्रीय पीसीआर व्यावहारिक रूप से अव्यवहार्य हो जाता है, लेकिन दोहरे फॉर्मूलेशन पर आधारित कर्नेल पीसीआर अभी भी वैध और कम्प्यूटेशनल रूप से स्केलेबल बना हुआ है।

यह भी देखें

प्रमुख कंपोनेंट विश्लेषण
आंशिक न्यूनतम वर्ग प्रतिगमन
कटक प्रतिगमन
विहित सहसंबंध
प्रतिगमन की मांग करना
वर्गों का कुल योग

संदर्भ

↑ Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.
↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9
↑ ^3.0 ^3.1 ^3.2 Sung H. Park (1981). "Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses". Technometrics. 23 (3): 289–295. doi:10.2307/1267793.
↑ Lldiko E. Frank & Jerome H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tools". Technometrics. 35 (2): 109–135. doi:10.1080/00401706.1993.10485033.
↑ Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani (2006). "Prediction by Supervised Principal Components". Journal of the American Statistical Association. 101 (473): 119–137. CiteSeerX 10.1.1.516.2313. doi:10.1198/016214505000000628.

अग्रिम पठन

Amemiya, Takeshi (1985). Advanced Econometrics. Harvard University Press. pp. 57–60. ISBN 978-0-674-00560-0.
Theil, Henri (1971). Principles of Econometrics. Wiley. pp. 46–55. ISBN 978-0-471-85845-4.

[1] Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.

[2] Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9

[Park_(1981)-3] 3.0 ^3.1 ^3.2 Sung H. Park (1981). "Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses". Technometrics. 23 (3): 289–295. doi:10.2307/1267793.

[Frank_and_Friedman_(1993)-4] Lldiko E. Frank & Jerome H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tools". Technometrics. 35 (2): 109–135. doi:10.1080/00401706.1993.10485033.

[Bair_et_al._(2006)-5] Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani (2006). "Prediction by Supervised Principal Components". Journal of the American Statistical Association. 101 (473): 119–137. CiteSeerX 10.1.1.516.2313. doi:10.1198/016214505000000628.

[1]

[2]

[3]

[4]

[5]

Anonymous

Search

प्रमुख घटक प्रतिगमन

Namespaces

More

Page actions

Contents

सिद्धांत

विधि का विवरण