प्रक्षेपण अनुसरण प्रतिगमन: Difference between revisions

From Vigyanwiki
(Created page with "{{no footnotes|date=November 2010}} सांख्यिकी में, प्रोजेक्शन परस्यूट रिग्रेशन (पीपीआर)...")
 
No edit summary
Line 1: Line 1:
{{no footnotes|date=November 2010}}
सांख्यिकी में, प्रोजेक्शन परस्यूट रिग्रेशन (पीपीआर) जेरोम एच. फ्रीडमैन और [[वर्नर स्टुट्ज़ल]] द्वारा विकसित [[सांख्यिकीय मॉडल]] है जो [[ योगात्मक मॉडल |योगात्मक मॉडल]] का विस्तार है। यह मॉडल एडिटिव मॉडल को इस तरह से अनुकूलित करता है कि यह इन व्याख्यात्मक चरों पर स्मूथिंग फ़ंक्शंस लागू करने से पहले व्याख्यात्मक चर के [[डेटा मैट्रिक्स (बहुभिन्नरूपी आँकड़े)]] को इष्टतम दिशा में प्रोजेक्ट करता है।
 
सांख्यिकी में, प्रोजेक्शन परस्यूट रिग्रेशन (पीपीआर) जेरोम एच. फ्रीडमैन और [[वर्नर स्टुट्ज़ल]] द्वारा विकसित एक [[सांख्यिकीय मॉडल]] है जो [[ योगात्मक मॉडल ]] का विस्तार है। यह मॉडल एडिटिव मॉडल को इस तरह से अनुकूलित करता है कि यह इन व्याख्यात्मक चरों पर स्मूथिंग फ़ंक्शंस लागू करने से पहले व्याख्यात्मक चर के [[डेटा मैट्रिक्स (बहुभिन्नरूपी आँकड़े)]] को इष्टतम दिशा में प्रोजेक्ट करता है।


== मॉडल सिंहावलोकन ==
== मॉडल सिंहावलोकन ==
Line 7: Line 5:


:<math>y_i=\beta_0 + \sum_{j=1}^r f_j (\beta_j^{\mathrm{T}}x_i) + \varepsilon_i ,</math>
:<math>y_i=\beta_0 + \sum_{j=1}^r f_j (\beta_j^{\mathrm{T}}x_i) + \varepsilon_i ,</math>
कहां एक्स<sub>i</sub>[[डिज़ाइन मैट्रिक्स]] की एक 1 × p पंक्ति है जिसमें उदाहरण के लिए i, y जैसे व्याख्यात्मक चर शामिल हैं<sub>i</sub>1 × 1 भविष्यवाणी है, {β<sub>j</sub>} आर वैक्टर का एक संग्रह है (प्रत्येक लंबाई पी का एक इकाई वेक्टर) जिसमें अज्ञात पैरामीटर शामिल हैं, {एफ<sub>j</sub>} आर का एक संग्रह है जो शुरू में अज्ञात सुचारू फ़ंक्शन है जो ℝ → ℝ से मैप होता है, और आर एक हाइपरपैरामीटर है। आर के लिए अच्छे मान क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन या फॉरवर्ड स्टेज-वार रणनीति के माध्यम से निर्धारित किए जा सकते हैं जो तब रुक जाता है जब मॉडल फिट में महत्वपूर्ण सुधार नहीं किया जा सकता है। जैसे-जैसे r अनंत तक पहुंचता है और कार्यों के उचित सेट के साथ {f<sub>j</sub>}, पीपीआर मॉडल एक [[सार्वभौमिक अनुमानक]] है, क्योंकि यह ℝ में किसी भी निरंतर फ़ंक्शन का अनुमान लगा सकता है<sup>प</sup>.
कहां एक्स<sub>i</sub>[[डिज़ाइन मैट्रिक्स]] की 1 × p पंक्ति है जिसमें उदाहरण के लिए i, y जैसे व्याख्यात्मक चर शामिल हैं<sub>i</sub>1 × 1 भविष्यवाणी है, {β<sub>j</sub>} आर वैक्टर का संग्रह है (प्रत्येक लंबाई पी का इकाई वेक्टर) जिसमें अज्ञात पैरामीटर शामिल हैं, {एफ<sub>j</sub>} आर का संग्रह है जो शुरू में अज्ञात सुचारू फ़ंक्शन है जो ℝ → ℝ से मैप होता है, और आर हाइपरपैरामीटर है। आर के लिए अच्छे मान क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन या फॉरवर्ड स्टेज-वार रणनीति के माध्यम से निर्धारित किए जा सकते हैं जो तब रुक जाता है जब मॉडल फिट में महत्वपूर्ण सुधार नहीं किया जा सकता है। जैसे-जैसे r अनंत तक पहुंचता है और कार्यों के उचित सेट के साथ {f<sub>j</sub>}, पीपीआर मॉडल [[सार्वभौमिक अनुमानक]] है, क्योंकि यह ℝ में किसी भी निरंतर फ़ंक्शन का अनुमान लगा सकता है<sup>प</sup>.


== मॉडल अनुमान ==
== मॉडल अनुमान ==
Line 13: Line 11:


:<math>\min_{f_j, \beta_j} S=\sum_{i=1}^n \left[ y_i - \sum_{j=1}^r f_j (\beta_j^{\mathrm{T}} x_i) \right]^2</math>
:<math>\min_{f_j, \beta_j} S=\sum_{i=1}^n \left[ y_i - \sum_{j=1}^r f_j (\beta_j^{\mathrm{T}} x_i) \right]^2</math>
कार्यों के ऊपर <math>f_j</math> और वैक्टर <math>\beta_j</math>. सभी चरों को एक साथ हल करने की कोई विधि मौजूद नहीं है, लेकिन इसे [[वैकल्पिक अनुकूलन]] के माध्यम से हल किया जा सकता है। सबसे पहले, प्रत्येक पर विचार करें <math>(f_j, \beta_j)</math> व्यक्तिगत रूप से जोड़ी: अन्य सभी मापदंडों को तय होने दें, और एक अवशिष्ट खोजें, आउटपुट का विचरण उन अन्य मापदंडों के हिसाब से नहीं है, जो दिए गए हैं
कार्यों के ऊपर <math>f_j</math> और वैक्टर <math>\beta_j</math>. सभी चरों को साथ हल करने की कोई विधि मौजूद नहीं है, लेकिन इसे [[वैकल्पिक अनुकूलन]] के माध्यम से हल किया जा सकता है। सबसे पहले, प्रत्येक पर विचार करें <math>(f_j, \beta_j)</math> व्यक्तिगत रूप से जोड़ी: अन्य सभी मापदंडों को तय होने दें, और अवशिष्ट खोजें, आउटपुट का विचरण उन अन्य मापदंडों के हिसाब से नहीं है, जो दिए गए हैं


:<math>r_i = y_i - \sum_{l \ne j} f_l (\beta_l^{\mathrm{T}} x_i)</math>
:<math>r_i = y_i - \sum_{l \ne j} f_l (\beta_l^{\mathrm{T}} x_i)</math>
Line 21: Line 19:
प्रत्येक j के लिए बारी-बारी से। आम तौर पर नया <math>(f_j, \beta_j)</math> जोड़े को आगे चरण-वार फैशन में मॉडल में जोड़ा जाता है।
प्रत्येक j के लिए बारी-बारी से। आम तौर पर नया <math>(f_j, \beta_j)</math> जोड़े को आगे चरण-वार फैशन में मॉडल में जोड़ा जाता है।


<ब्लॉककोट>एक तरफ: नई फिट-जोड़ियों को [[बैकफ़िटिंग एल्गोरिदम]] नामक एल्गोरिदम द्वारा निर्धारित करने के बाद पहले से फिट जोड़े को दोबारा समायोजित किया जा सकता है, जिसमें पिछली जोड़ी पर पुनर्विचार करना, शेष जोड़े को दोबारा गणना करना, अन्य जोड़े कैसे बदल गए हैं, उस नए के लिए खाते में फिर से फिट करना शामिल है जानकारी, और फिर सभी फिट-जोड़ियों के माध्यम से इस तरह से तब तक साइकिल चलाना जब तक पैरामीटर एकाग्र न हो जाएं। इस प्रक्रिया के परिणामस्वरूप आम तौर पर एक मॉडल तैयार होता है जो कम फिट-जोड़ियों के साथ बेहतर प्रदर्शन करता है, हालांकि इसे प्रशिक्षित करने में अधिक समय लगता है, और आमतौर पर बैकफिटिंग को छोड़कर और मॉडल में अधिक फिट जोड़कर (आर बढ़ाकर) समान प्रदर्शन प्राप्त करना संभव है।< /ब्लॉककोट>
'''<ब्लॉककोट>''' तरफ: नई फिट-जोड़ियों को [[बैकफ़िटिंग एल्गोरिदम]] नामक एल्गोरिदम द्वारा निर्धारित करने के बाद पहले से फिट जोड़े को दोबारा समायोजित किया जा सकता है, जिसमें पिछली जोड़ी पर पुनर्विचार करना, शेष जोड़े को दोबारा गणना करना, अन्य जोड़े कैसे बदल गए हैं, उस नए के लिए खाते में फिर से फिट करना शामिल है जानकारी, और फिर सभी फिट-जोड़ियों के माध्यम से इस तरह से तब तक साइकिल चलाना जब तक पैरामीटर एकाग्र न हो जाएं। इस प्रक्रिया के परिणामस्वरूप आम तौर पर मॉडल तैयार होता है जो कम फिट-जोड़ियों के साथ बेहतर प्रदर्शन करता है, हालांकि इसे प्रशिक्षित करने में अधिक समय लगता है, और आमतौर पर बैकफिटिंग को छोड़कर और मॉडल में अधिक फिट जोड़कर (आर बढ़ाकर) समान प्रदर्शन प्राप्त करना संभव है।'''< /ब्लॉककोट>'''


निर्धारित करने के लिए सरलीकृत त्रुटि फ़ंक्शन को हल करना <math>(f_j, \beta_j)</math> जोड़ी को वैकल्पिक अनुकूलन के साथ किया जा सकता है, जहां पहले एक यादृच्छिक <math>\beta_j</math> प्रोजेक्ट करने के लिए उपयोग किया जाता है <math>X</math> 1D स्थान में, और फिर इष्टतम <math>f_j</math> आपके पसंदीदा स्कैटर प्लॉट प्रतिगमन विधि के माध्यम से उस प्रक्षेपण और अवशेषों के बीच संबंध का वर्णन करने के लिए पाया गया है। तो अगर <math>f_j</math> यह मानते हुए स्थिर रखा गया है <math>f_j</math> एक बार विभेदित होने पर, इष्टतम अद्यतन भार <math>\beta_j</math> [[गॉस-न्यूटन एल्गोरिथम]] के माध्यम से पाया जा सकता है | गॉस-न्यूटन विधि - एक अर्ध-न्यूटन विधि जिसमें दूसरे व्युत्पन्न से जुड़े हेसियन के हिस्से को छोड़ दिया जाता है। इसे प्राप्त करने के लिए, पहली [[टेलर श्रृंखला]] <math>f_j(\beta_j^{T}x_i) \approx f_j(\beta_{j,old}^{T}x_i) + \dot{f_j}(\beta_{j,old}^{T}x_i)(\beta_j^{T}x_i - \beta_{j,old}^{T}x_i)</math>, फिर विस्तार को सरलीकृत त्रुटि फ़ंक्शन में वापस प्लग करें <math>S'</math> और इसे फॉर्म में रखने के लिए कुछ बीजगणितीय हेरफेर करें
निर्धारित करने के लिए सरलीकृत त्रुटि फ़ंक्शन को हल करना <math>(f_j, \beta_j)</math> जोड़ी को वैकल्पिक अनुकूलन के साथ किया जा सकता है, जहां पहले यादृच्छिक <math>\beta_j</math> प्रोजेक्ट करने के लिए उपयोग किया जाता है <math>X</math> 1D स्थान में, और फिर इष्टतम <math>f_j</math> आपके पसंदीदा स्कैटर प्लॉट प्रतिगमन विधि के माध्यम से उस प्रक्षेपण और अवशेषों के बीच संबंध का वर्णन करने के लिए पाया गया है। तो अगर <math>f_j</math> यह मानते हुए स्थिर रखा गया है <math>f_j</math> बार विभेदित होने पर, इष्टतम अद्यतन भार <math>\beta_j</math> [[गॉस-न्यूटन एल्गोरिथम]] के माध्यम से पाया जा सकता है | गॉस-न्यूटन विधि - अर्ध-न्यूटन विधि जिसमें दूसरे व्युत्पन्न से जुड़े हेसियन के हिस्से को छोड़ दिया जाता है। इसे प्राप्त करने के लिए, पहली [[टेलर श्रृंखला]] <math>f_j(\beta_j^{T}x_i) \approx f_j(\beta_{j,old}^{T}x_i) + \dot{f_j}(\beta_{j,old}^{T}x_i)(\beta_j^{T}x_i - \beta_{j,old}^{T}x_i)</math>, फिर विस्तार को सरलीकृत त्रुटि फ़ंक्शन में वापस प्लग करें <math>S'</math> और इसे फॉर्म में रखने के लिए कुछ बीजगणितीय हेरफेर करें


:<math> \min_{\beta_j} S' \approx \sum_{i=1}^n \underbrace{\dot{f_j}(\beta_{j,old}^{T}x_i)^2}_w \Bigg[\bigg(\underbrace{\beta_{j,old}^{T}x_i + \frac{r_i - f_j(\beta_{j,old}^{T}x_i)}{\dot{f_j}(\beta_{j,old}^{T}x_i)}}_{\hat{b}}\bigg) - \beta_j^{T}x_i \Bigg]^2</math>
:<math> \min_{\beta_j} S' \approx \sum_{i=1}^n \underbrace{\dot{f_j}(\beta_{j,old}^{T}x_i)^2}_w \Bigg[\bigg(\underbrace{\beta_{j,old}^{T}x_i + \frac{r_i - f_j(\beta_{j,old}^{T}x_i)}{\dot{f_j}(\beta_{j,old}^{T}x_i)}}_{\hat{b}}\bigg) - \beta_j^{T}x_i \Bigg]^2</math>
यह एक [[भारित न्यूनतम वर्ग]] समस्या है। यदि हम सभी भारों को हल करें <math>w</math> और उन्हें एक विकर्ण मैट्रिक्स में रखें <math>W</math>, सभी नए लक्ष्यों को ढेर करें <math>\hat{b}</math> एक वेक्टर में, और पूर्ण डेटा मैट्रिक्स का उपयोग करें <math>X</math> एक उदाहरण के बजाय <math>x_i</math>, फिर इष्टतम <math>\beta_j</math> बंद प्रपत्र द्वारा दिया गया है
यह [[भारित न्यूनतम वर्ग]] समस्या है। यदि हम सभी भारों को हल करें <math>w</math> और उन्हें विकर्ण मैट्रिक्स में रखें <math>W</math>, सभी नए लक्ष्यों को ढेर करें <math>\hat{b}</math> वेक्टर में, और पूर्ण डेटा मैट्रिक्स का उपयोग करें <math>X</math> उदाहरण के बजाय <math>x_i</math>, फिर इष्टतम <math>\beta_j</math> बंद प्रपत्र द्वारा दिया गया है


:<math>\underset{\beta_j}{\operatorname{arg\,min}} \Big\|\vec{\hat{b}} - X\beta_j \Big\|_{W}^2 = (X^{\mathrm{T}} WX)^{-1} X^{\mathrm{T}} W \vec{\hat{b}}</math>
:<math>\underset{\beta_j}{\operatorname{arg\,min}} \Big\|\vec{\hat{b}} - X\beta_j \Big\|_{W}^2 = (X^{\mathrm{T}} WX)^{-1} X^{\mathrm{T}} W \vec{\hat{b}}</math>
इस अद्यतन का प्रयोग करें <math>\beta_j</math> का एक नया प्रक्षेपण खोजने के लिए <math>X</math> और फिर से फिट करें <math>f_j</math> नए स्कैटर प्लॉट के लिए। फिर उस नये का उपयोग करें <math>f_j</math> अद्यतन करने के लिए <math>\beta_j</math> उपरोक्त को हल करके, और इस वैकल्पिक प्रक्रिया को तब तक जारी रखें <math>(f_j, \beta_j)</math> जुटता है.
इस अद्यतन का प्रयोग करें <math>\beta_j</math> का नया प्रक्षेपण खोजने के लिए <math>X</math> और फिर से फिट करें <math>f_j</math> नए स्कैटर प्लॉट के लिए। फिर उस नये का उपयोग करें <math>f_j</math> अद्यतन करने के लिए <math>\beta_j</math> उपरोक्त को हल करके, और इस वैकल्पिक प्रक्रिया को तब तक जारी रखें <math>(f_j, \beta_j)</math> जुटता है.


यह दिखाया गया है कि अभिसरण दर, पूर्वाग्रह और विचरण के अनुमान से प्रभावित होते हैं <math>\beta_j</math> और <math>f_j</math>.
यह दिखाया गया है कि अभिसरण दर, पूर्वाग्रह और विचरण के अनुमान से प्रभावित होते हैं <math>\beta_j</math> और <math>f_j</math>.


==चर्चा==
==चर्चा==
पीपीआर मॉडल एक बुनियादी एडिटिव मॉडल का रूप लेता है लेकिन अतिरिक्त के साथ <math>\beta_j</math> घटक, तो प्रत्येक <math>f_j</math> के स्कैटर प्लॉट में फिट बैठता है <math>\beta_j^{T}X^T</math> स्वयं कच्चे इनपुट का उपयोग करने के बजाय प्रशिक्षण के दौरान अवशिष्ट (अस्पष्टीकृत भिन्नता) बनाम। यह प्रत्येक को खोजने की समस्या को रोकता है <math>f_j</math> निम्न आयाम तक, इसे सामान्य न्यूनतम वर्ग या स्पलाइन फिटिंग विधियों के साथ हल करने योग्य बनाना और प्रशिक्षण के दौरान आयाम के अभिशाप को दूर करना। क्योंकि <math>f_j</math> के प्रक्षेपण से लिया गया है <math>X</math>, परिणाम प्रक्षेपण आयाम के लिए एक रिज ऑर्थोगोनल जैसा दिखता है <math>\{f_j\}</math> अक्सर रिज फ़ंक्शंस कहा जाता है। दिशानिर्देश <math>\beta_j</math> उनके संबंधित रिज कार्यों के फिट को अनुकूलित करने के लिए चुना जाता है।
पीपीआर मॉडल बुनियादी एडिटिव मॉडल का रूप लेता है लेकिन अतिरिक्त के साथ <math>\beta_j</math> घटक, तो प्रत्येक <math>f_j</math> के स्कैटर प्लॉट में फिट बैठता है <math>\beta_j^{T}X^T</math> स्वयं कच्चे इनपुट का उपयोग करने के बजाय प्रशिक्षण के दौरान अवशिष्ट (अस्पष्टीकृत भिन्नता) बनाम। यह प्रत्येक को खोजने की समस्या को रोकता है <math>f_j</math> निम्न आयाम तक, इसे सामान्य न्यूनतम वर्ग या स्पलाइन फिटिंग विधियों के साथ हल करने योग्य बनाना और प्रशिक्षण के दौरान आयाम के अभिशाप को दूर करना। क्योंकि <math>f_j</math> के प्रक्षेपण से लिया गया है <math>X</math>, परिणाम प्रक्षेपण आयाम के लिए रिज ऑर्थोगोनल जैसा दिखता है <math>\{f_j\}</math> अक्सर रिज फ़ंक्शंस कहा जाता है। दिशानिर्देश <math>\beta_j</math> उनके संबंधित रिज कार्यों के फिट को अनुकूलित करने के लिए चुना जाता है।


ध्यान दें कि क्योंकि पीपीआर डेटा के अनुमानों को फिट करने का प्रयास करता है, इसलिए फिट किए गए मॉडल की समग्र रूप से व्याख्या करना मुश्किल हो सकता है, क्योंकि प्रत्येक इनपुट चर का हिसाब जटिल और बहुआयामी तरीके से किया गया है। यह मॉडल को डेटा को समझने की तुलना में भविष्यवाणी के लिए अधिक उपयोगी बना सकता है, हालांकि व्यक्तिगत रिज फ़ंक्शंस की कल्पना करना और इस बात पर विचार करना कि मॉडल किन अनुमानों की खोज कर रहा है, कुछ अंतर्दृष्टि प्राप्त कर सकते हैं।
ध्यान दें कि क्योंकि पीपीआर डेटा के अनुमानों को फिट करने का प्रयास करता है, इसलिए फिट किए गए मॉडल की समग्र रूप से व्याख्या करना मुश्किल हो सकता है, क्योंकि प्रत्येक इनपुट चर का हिसाब जटिल और बहुआयामी तरीके से किया गया है। यह मॉडल को डेटा को समझने की तुलना में भविष्यवाणी के लिए अधिक उपयोगी बना सकता है, हालांकि व्यक्तिगत रिज फ़ंक्शंस की कल्पना करना और इस बात पर विचार करना कि मॉडल किन अनुमानों की खोज कर रहा है, कुछ अंतर्दृष्टि प्राप्त कर सकते हैं।
Line 54: Line 52:
*गणना को सरल बनाने के लिए साधारण न्यूनतम वर्गों का उपयोग किया जा सकता है क्योंकि अक्सर डेटा में मजबूत गैर-रैखिकताएं नहीं होती हैं।
*गणना को सरल बनाने के लिए साधारण न्यूनतम वर्गों का उपयोग किया जा सकता है क्योंकि अक्सर डेटा में मजबूत गैर-रैखिकताएं नहीं होती हैं।
*पीपीआर के लिए दिशा वैक्टर चुनने के लिए स्लाइस्ड इनवर्स रिग्रेशन (एसआईआर) का उपयोग किया गया है।
*पीपीआर के लिए दिशा वैक्टर चुनने के लिए स्लाइस्ड इनवर्स रिग्रेशन (एसआईआर) का उपयोग किया गया है।
*सामान्यीकृत पीपीआर नियमित पीपीआर को पुनरावृत्त रूप से पुनः भारित न्यूनतम वर्ग (आईआरएलएस) और बाइनरी डेटा का अनुमान लगाने के लिए एक [[लिंक फ़ंक्शन]] के साथ जोड़ता है।
*सामान्यीकृत पीपीआर नियमित पीपीआर को पुनरावृत्त रूप से पुनः भारित न्यूनतम वर्ग (आईआरएलएस) और बाइनरी डेटा का अनुमान लगाने के लिए [[लिंक फ़ंक्शन]] के साथ जोड़ता है।


== पीपीआर बनाम तंत्रिका नेटवर्क (एनएन) ==
== पीपीआर बनाम तंत्रिका नेटवर्क (एनएन) ==
दोनों प्रक्षेपण प्रतिगमन प्रतिगमन और एक छिपी हुई परत के साथ पूरी तरह से जुड़े हुए तंत्रिका नेटवर्क एक आयामी हाइपरप्लेन पर इनपुट वेक्टर को प्रोजेक्ट करते हैं और फिर इनपुट चर के एक गैर-रेखीय परिवर्तन को लागू करते हैं जो फिर एक रैखिक फैशन में जोड़े जाते हैं। इस प्रकार दोनों आयामीता के अभिशाप को दूर करने के लिए समान कदमों का पालन करते हैं। मुख्य अंतर यह है कि कार्य <math>f_j </math> पीपीआर में फिट किया जाना इनपुट चर के प्रत्येक संयोजन के लिए अलग-अलग हो सकता है और एक समय में एक का अनुमान लगाया जाता है और फिर वजन के साथ अद्यतन किया जाता है, जबकि एनएन में ये सभी पहले से निर्दिष्ट होते हैं और एक साथ अनुमानित होते हैं।
दोनों प्रक्षेपण प्रतिगमन प्रतिगमन और छिपी हुई परत के साथ पूरी तरह से जुड़े हुए तंत्रिका नेटवर्क आयामी हाइपरप्लेन पर इनपुट वेक्टर को प्रोजेक्ट करते हैं और फिर इनपुट चर के गैर-रेखीय परिवर्तन को लागू करते हैं जो फिर रैखिक फैशन में जोड़े जाते हैं। इस प्रकार दोनों आयामीता के अभिशाप को दूर करने के लिए समान कदमों का पालन करते हैं। मुख्य अंतर यह है कि कार्य <math>f_j </math> पीपीआर में फिट किया जाना इनपुट चर के प्रत्येक संयोजन के लिए अलग-अलग हो सकता है और समय में का अनुमान लगाया जाता है और फिर वजन के साथ अद्यतन किया जाता है, जबकि एनएन में ये सभी पहले से निर्दिष्ट होते हैं और साथ अनुमानित होते हैं।


इस प्रकार, पीपीआर अनुमान में पीपीआर में चर के परिवर्तन डेटा संचालित होते हैं जबकि एकल-परत तंत्रिका नेटवर्क में ये परिवर्तन तय होते हैं।
इस प्रकार, पीपीआर अनुमान में पीपीआर में चर के परिवर्तन डेटा संचालित होते हैं जबकि एकल-परत तंत्रिका नेटवर्क में ये परिवर्तन तय होते हैं।
Line 65: Line 63:


== संदर्भ ==
== संदर्भ ==
<!--- See [[Wikipedia:Footnotes]] on how to create references using <ref></ref> tags which will then appear here automatically -->
{{Reflist}}
{{Reflist}}
*Friedman, J.H. and Stuetzle, W. (1981) [http://inspirehep.net/record/152302/files/slac-pub-2466.pdf Projection Pursuit Regression]. Journal of the American Statistical Association, 76, 817–823.
*Friedman, J.H. and Stuetzle, W. (1981) [http://inspirehep.net/record/152302/files/slac-pub-2466.pdf Projection Pursuit Regression]. Journal of the American Statistical Association, 76, 817–823.

Revision as of 16:07, 11 July 2023

सांख्यिकी में, प्रोजेक्शन परस्यूट रिग्रेशन (पीपीआर) जेरोम एच. फ्रीडमैन और वर्नर स्टुट्ज़ल द्वारा विकसित सांख्यिकीय मॉडल है जो योगात्मक मॉडल का विस्तार है। यह मॉडल एडिटिव मॉडल को इस तरह से अनुकूलित करता है कि यह इन व्याख्यात्मक चरों पर स्मूथिंग फ़ंक्शंस लागू करने से पहले व्याख्यात्मक चर के डेटा मैट्रिक्स (बहुभिन्नरूपी आँकड़े) को इष्टतम दिशा में प्रोजेक्ट करता है।

मॉडल सिंहावलोकन

मॉडल में रिज फ़ंक्शन के रैखिक संयोजन शामिल हैं: व्याख्यात्मक चर के रैखिक संयोजनों के गैर-रेखीय परिवर्तन। मूल मॉडल रूप लेता है

कहां एक्सiडिज़ाइन मैट्रिक्स की 1 × p पंक्ति है जिसमें उदाहरण के लिए i, y जैसे व्याख्यात्मक चर शामिल हैंi1 × 1 भविष्यवाणी है, {βj} आर वैक्टर का संग्रह है (प्रत्येक लंबाई पी का इकाई वेक्टर) जिसमें अज्ञात पैरामीटर शामिल हैं, {एफj} आर का संग्रह है जो शुरू में अज्ञात सुचारू फ़ंक्शन है जो ℝ → ℝ से मैप होता है, और आर हाइपरपैरामीटर है। आर के लिए अच्छे मान क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन या फॉरवर्ड स्टेज-वार रणनीति के माध्यम से निर्धारित किए जा सकते हैं जो तब रुक जाता है जब मॉडल फिट में महत्वपूर्ण सुधार नहीं किया जा सकता है। जैसे-जैसे r अनंत तक पहुंचता है और कार्यों के उचित सेट के साथ {fj}, पीपीआर मॉडल सार्वभौमिक अनुमानक है, क्योंकि यह ℝ में किसी भी निरंतर फ़ंक्शन का अनुमान लगा सकता है.

मॉडल अनुमान

डेटा के किसी दिए गए सेट के लिए , लक्ष्य त्रुटि फ़ंक्शन को कम करना है

कार्यों के ऊपर और वैक्टर . सभी चरों को साथ हल करने की कोई विधि मौजूद नहीं है, लेकिन इसे वैकल्पिक अनुकूलन के माध्यम से हल किया जा सकता है। सबसे पहले, प्रत्येक पर विचार करें व्यक्तिगत रूप से जोड़ी: अन्य सभी मापदंडों को तय होने दें, और अवशिष्ट खोजें, आउटपुट का विचरण उन अन्य मापदंडों के हिसाब से नहीं है, जो दिए गए हैं

त्रुटि फ़ंक्शन को न्यूनतम करने का कार्य अब हल करने तक कम हो गया है

प्रत्येक j के लिए बारी-बारी से। आम तौर पर नया जोड़े को आगे चरण-वार फैशन में मॉडल में जोड़ा जाता है।

<ब्लॉककोट> तरफ: नई फिट-जोड़ियों को बैकफ़िटिंग एल्गोरिदम नामक एल्गोरिदम द्वारा निर्धारित करने के बाद पहले से फिट जोड़े को दोबारा समायोजित किया जा सकता है, जिसमें पिछली जोड़ी पर पुनर्विचार करना, शेष जोड़े को दोबारा गणना करना, अन्य जोड़े कैसे बदल गए हैं, उस नए के लिए खाते में फिर से फिट करना शामिल है जानकारी, और फिर सभी फिट-जोड़ियों के माध्यम से इस तरह से तब तक साइकिल चलाना जब तक पैरामीटर एकाग्र न हो जाएं। इस प्रक्रिया के परिणामस्वरूप आम तौर पर मॉडल तैयार होता है जो कम फिट-जोड़ियों के साथ बेहतर प्रदर्शन करता है, हालांकि इसे प्रशिक्षित करने में अधिक समय लगता है, और आमतौर पर बैकफिटिंग को छोड़कर और मॉडल में अधिक फिट जोड़कर (आर बढ़ाकर) समान प्रदर्शन प्राप्त करना संभव है।< /ब्लॉककोट>

निर्धारित करने के लिए सरलीकृत त्रुटि फ़ंक्शन को हल करना जोड़ी को वैकल्पिक अनुकूलन के साथ किया जा सकता है, जहां पहले यादृच्छिक प्रोजेक्ट करने के लिए उपयोग किया जाता है 1D स्थान में, और फिर इष्टतम आपके पसंदीदा स्कैटर प्लॉट प्रतिगमन विधि के माध्यम से उस प्रक्षेपण और अवशेषों के बीच संबंध का वर्णन करने के लिए पाया गया है। तो अगर यह मानते हुए स्थिर रखा गया है बार विभेदित होने पर, इष्टतम अद्यतन भार गॉस-न्यूटन एल्गोरिथम के माध्यम से पाया जा सकता है | गॉस-न्यूटन विधि - अर्ध-न्यूटन विधि जिसमें दूसरे व्युत्पन्न से जुड़े हेसियन के हिस्से को छोड़ दिया जाता है। इसे प्राप्त करने के लिए, पहली टेलर श्रृंखला , फिर विस्तार को सरलीकृत त्रुटि फ़ंक्शन में वापस प्लग करें और इसे फॉर्म में रखने के लिए कुछ बीजगणितीय हेरफेर करें

यह भारित न्यूनतम वर्ग समस्या है। यदि हम सभी भारों को हल करें और उन्हें विकर्ण मैट्रिक्स में रखें , सभी नए लक्ष्यों को ढेर करें वेक्टर में, और पूर्ण डेटा मैट्रिक्स का उपयोग करें उदाहरण के बजाय , फिर इष्टतम बंद प्रपत्र द्वारा दिया गया है

इस अद्यतन का प्रयोग करें का नया प्रक्षेपण खोजने के लिए और फिर से फिट करें नए स्कैटर प्लॉट के लिए। फिर उस नये का उपयोग करें अद्यतन करने के लिए उपरोक्त को हल करके, और इस वैकल्पिक प्रक्रिया को तब तक जारी रखें जुटता है.

यह दिखाया गया है कि अभिसरण दर, पूर्वाग्रह और विचरण के अनुमान से प्रभावित होते हैं और .

चर्चा

पीपीआर मॉडल बुनियादी एडिटिव मॉडल का रूप लेता है लेकिन अतिरिक्त के साथ घटक, तो प्रत्येक के स्कैटर प्लॉट में फिट बैठता है स्वयं कच्चे इनपुट का उपयोग करने के बजाय प्रशिक्षण के दौरान अवशिष्ट (अस्पष्टीकृत भिन्नता) बनाम। यह प्रत्येक को खोजने की समस्या को रोकता है निम्न आयाम तक, इसे सामान्य न्यूनतम वर्ग या स्पलाइन फिटिंग विधियों के साथ हल करने योग्य बनाना और प्रशिक्षण के दौरान आयाम के अभिशाप को दूर करना। क्योंकि के प्रक्षेपण से लिया गया है , परिणाम प्रक्षेपण आयाम के लिए रिज ऑर्थोगोनल जैसा दिखता है अक्सर रिज फ़ंक्शंस कहा जाता है। दिशानिर्देश उनके संबंधित रिज कार्यों के फिट को अनुकूलित करने के लिए चुना जाता है।

ध्यान दें कि क्योंकि पीपीआर डेटा के अनुमानों को फिट करने का प्रयास करता है, इसलिए फिट किए गए मॉडल की समग्र रूप से व्याख्या करना मुश्किल हो सकता है, क्योंकि प्रत्येक इनपुट चर का हिसाब जटिल और बहुआयामी तरीके से किया गया है। यह मॉडल को डेटा को समझने की तुलना में भविष्यवाणी के लिए अधिक उपयोगी बना सकता है, हालांकि व्यक्तिगत रिज फ़ंक्शंस की कल्पना करना और इस बात पर विचार करना कि मॉडल किन अनुमानों की खोज कर रहा है, कुछ अंतर्दृष्टि प्राप्त कर सकते हैं।

पीपीआर आकलन के लाभ

  • यह उनके बहुभिन्नरूपी रूप के बजाय यूनीवेरिएट रिग्रेशन फ़ंक्शंस का उपयोग करता है, इस प्रकार आयामीता के अभिशाप से प्रभावी ढंग से निपटता है
  • यूनिवेरिएट रिग्रेशन सरल और कुशल अनुमान की अनुमति देता है
  • सामान्यीकृत योगात्मक मॉडल के सापेक्ष, पीपीआर कार्यों के अधिक समृद्ध वर्ग का अनुमान लगा सकता है
  • स्थानीय औसत तरीकों (जैसे कि के-निकटतम पड़ोसियों) के विपरीत, पीपीआर कम व्याख्यात्मक शक्ति वाले चर को अनदेखा कर सकता है।

पीपीआर आकलन के नुकसान

  • पीपीआर को अनुमान लगाने के लिए एम-आयामी पैरामीटर स्थान की जांच करने की आवश्यकता होती है .
  • इसके लिए स्मूथिंग पैरामीटर का चयन करना होगा .
  • मॉडल की व्याख्या करना अक्सर कठिन होता है

पीपीआर का विस्तार

  • रेडियल फ़ंक्शन, हार्मोनिक फ़ंक्शन और एडिटिव फ़ंक्शन जैसे वैकल्पिक स्मूथर्स का सुझाव दिया गया है और उनका प्रदर्शन उपयोग किए गए डेटा सेट के आधार पर भिन्न होता है।
  • वैकल्पिक अनुकूलन मानदंड का भी उपयोग किया गया है, जैसे मानक निरपेक्ष विचलन और माध्य निरपेक्ष विचलन।
  • गणना को सरल बनाने के लिए साधारण न्यूनतम वर्गों का उपयोग किया जा सकता है क्योंकि अक्सर डेटा में मजबूत गैर-रैखिकताएं नहीं होती हैं।
  • पीपीआर के लिए दिशा वैक्टर चुनने के लिए स्लाइस्ड इनवर्स रिग्रेशन (एसआईआर) का उपयोग किया गया है।
  • सामान्यीकृत पीपीआर नियमित पीपीआर को पुनरावृत्त रूप से पुनः भारित न्यूनतम वर्ग (आईआरएलएस) और बाइनरी डेटा का अनुमान लगाने के लिए लिंक फ़ंक्शन के साथ जोड़ता है।

पीपीआर बनाम तंत्रिका नेटवर्क (एनएन)

दोनों प्रक्षेपण प्रतिगमन प्रतिगमन और छिपी हुई परत के साथ पूरी तरह से जुड़े हुए तंत्रिका नेटवर्क आयामी हाइपरप्लेन पर इनपुट वेक्टर को प्रोजेक्ट करते हैं और फिर इनपुट चर के गैर-रेखीय परिवर्तन को लागू करते हैं जो फिर रैखिक फैशन में जोड़े जाते हैं। इस प्रकार दोनों आयामीता के अभिशाप को दूर करने के लिए समान कदमों का पालन करते हैं। मुख्य अंतर यह है कि कार्य पीपीआर में फिट किया जाना इनपुट चर के प्रत्येक संयोजन के लिए अलग-अलग हो सकता है और समय में का अनुमान लगाया जाता है और फिर वजन के साथ अद्यतन किया जाता है, जबकि एनएन में ये सभी पहले से निर्दिष्ट होते हैं और साथ अनुमानित होते हैं।

इस प्रकार, पीपीआर अनुमान में पीपीआर में चर के परिवर्तन डेटा संचालित होते हैं जबकि एकल-परत तंत्रिका नेटवर्क में ये परिवर्तन तय होते हैं।

यह भी देखें

  • प्रक्षेपण अनुसरण

संदर्भ

  • Friedman, J.H. and Stuetzle, W. (1981) Projection Pursuit Regression. Journal of the American Statistical Association, 76, 817–823.
  • Hand, D., Mannila, H. and Smyth, P, (2001) Principles of Data Mining. MIT Press. ISBN 0-262-08290-X
  • Hall, P. (1988) Estimating the direction in which a data set is the most interesting, Probab. Theory Related Fields, 80, 51–77.
  • Hastie, T. J., Tibshirani, R. J. and Friedman, J.H. (2009). The Elements of Statistical Learning: Data Mining, Inference and Prediction. Springer. ISBN 978-0-387-84857-0
  • Klinke, S. and Grassmann, J. (2000) ‘Projection Pursuit Regression’ in Smoothing and Regression: Approaches, Computation and Application. Ed. Schimek, M.G.. Wiley Interscience.
  • Lingjarde, O. C. and Liestol, K. (1998) Generalized Projection Pursuit Regression. SIAM Journal of Scientific Computing, 20, 844–857.