प्रतिगमन क्षीणन: Difference between revisions
m (Deepak moved page प्रतिगमन कमजोर पड़ना to प्रतिगमन क्षीणन without leaving a redirect) |
No edit summary |
||
(6 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
[[File:Visualization of errors-in-variables linear regression.png|thumb|right|260px|[[एरर-इन-वैरिएबल मॉडल]] में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन | [[File:Visualization of errors-in-variables linear regression.png|thumb|right|260px|[[एरर-इन-वैरिएबल मॉडल]] में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन क्षीणन पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला स्लोप तब प्राप्त होता है जब स्वतंत्र चर (या भविष्यवक्ता) भुज (एक्स-अक्ष) पर होता है। तीव्र स्लोप तब प्राप्त होता है जब स्वतंत्र चर कोटि (y-अक्ष) पर होता है। परिपाटी से, x-अक्ष पर स्वतंत्र चर के साथ, उथला स्लोप प्राप्त होता है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ मनमाने डिब्बे के अंदर औसत होती हैं। ध्यान दें कि तेज हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।]]'''प्रतिगमन क्षीणन''' पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, [[स्वतंत्र चर]] में त्रुटियों के कारण रैखिक प्रतिगमन [[प्रतिगमन ढलान|प्रतिगमन स्लोप]] का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की [[पूर्वाग्रह (सांख्यिकी)]] है। | ||
परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त शून्य के समीप पहुंचना चाहिए। | |||
[[File:Scheme regression dilution.jpg|thumb|मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, | [[File:Scheme regression dilution.jpg|thumb|मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, किन्तु हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी स्लोप की ओर ले जाती है, यथार्त वे एक ही डेटा का ध्वनि संस्करण हों।]]यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।<ref>{{cite book | ||
|title = Applied Regression Analysis | |title = Applied Regression Analysis | ||
|edition = 3rd |pages= 19 | |edition = 3rd |pages= 19 | ||
Line 9: | Line 9: | ||
|year = 1998 | |year = 1998 | ||
|isbn = 0-471-17082-8}}</ref> | |isbn = 0-471-17082-8}}</ref> | ||
== स्लोप सुधार == | |||
प्रतिगमन स्लोप और अन्य [[प्रतिगमन गुणांक]] को निम्नानुसार अलग किया जा सकता है। | |||
=== एक निश्चित x चर का स्थिति === | |||
यह स्थिति कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।<ref name="Riggs1978">{{cite journal | last1 = Riggs | first1 = D. S. | last2 = Guarnieri | first2 = J. A. |display-authors=etal | year = 1978 | title = सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों| journal = Life Sciences | volume = 22 | issue = 13–15 | pages = 1305–60 | doi=10.1016/0024-3205(78)90098-x| pmid = 661506 }}</ref> इसे सामान्य रूप से कुल न्यूनतम वर्ग<ref name="vanLoan1980">{{cite journal | last1=Golub | first1=Gene H. | last2=van Loan | first2=Charles F. | title=टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण| journal=SIAM Journal on Numerical Analysis | publisher=Society for Industrial & Applied Mathematics (SIAM) | volume=17 | issue=6 | year=1980 | issn=0036-1429 | doi=10.1137/0717073 | pages=883–893| hdl=1813/6251 | hdl-access=free }}</ref> और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है। | |||
== | ==== यादृच्छिक रूप से वितरित x चर का स्थिति ==== | ||
वह स्थिति जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है। | |||
कुछ मान्यताओं (सामान्यतः [[सामान्य वितरण]] मान्यताओं) के तहत वास्तविक स्लोप और अपेक्षित अनुमानित स्लोप के बीच एक ज्ञात [[अनुपात]] होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप को ठीक करते हैं।<ref name="Frost2000">Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." [[Journal of the Royal Statistical Society]] Series '''A''' 163: 173–190.</ref> शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो।<ref>{{cite journal | last1 = Longford | first1 = N. T. | year = 2001 | title = पत्र-व्यवहार| journal = Journal of the Royal Statistical Society, Series A | volume = 164 | issue = 3 | page = 565 | doi=10.1111/1467-985x.00219| s2cid = 247674444 }}</ref> [[वेन फुलर]] (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।<ref name="Fuller1987">{{cite book |last=Fuller |first=W. A. |year=1987 |title=मापन त्रुटि मॉडल|location=New York |publisher=Wiley |isbn=9780470317334 |url=https://books.google.com/books?id=Nalc0DkAJRYC }}</ref> | |||
=== | ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।<ref name="Hughes1993">{{cite journal | last1 = Hughes | first1 = M. D. | year = 1993 | title = आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना| journal = Biometrics | volume = 49 | issue = 4 | pages = 1056–1066 | doi=10.2307/2532247| jstor = 2532247 | pmid = 8117900 }}</ref> रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।<ref>{{cite journal | last1 = Rosner | first1 = B. | last2 = Spiegelman | first2 = D. |display-authors=etal | year = 1992 | title = लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार| journal = American Journal of Epidemiology | volume = 136 | issue = 11 | pages = 1400–1403 | doi=10.1093/oxfordjournals.aje.a116453| pmid = 1488967 }}</ref> कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।<ref name="Carroll1995">Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.</ref> | ||
सामान्यतः, संरचनात्मक मॉडल के विधियों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा। | |||
=== एकाधिक एक्स चर === | === एकाधिक एक्स चर === | ||
परिवर्तनशीलता (संभवतः [[सहसंबद्ध]]) के अधीन कई पूर्वसूचक चर के | परिवर्तनशीलता (संभवतः [[सहसंबद्ध]]) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।<ref name="Fuller1987"/><ref name="Carroll1995"/> अन्य गैर-रैखिक मॉडल, जैसे [[उत्तरजीविता विश्लेषण]] के लिए [[आनुपातिक खतरों के मॉडल]], परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।<ref name="Hughes1993"/> | ||
== सहसंबंध सुधार == | == सहसंबंध सुधार == | ||
[[चार्ल्स स्पीयरमैन]] ने 1904 में प्रतिगमन | [[चार्ल्स स्पीयरमैन]] ने 1904 में प्रतिगमन क्षीणन पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,<ref name="Spearman1904">{{cite journal | last=Spearman | first=C. | title=दो चीजों के बीच संबंध का प्रमाण और माप| journal=The American Journal of Psychology | publisher=University of Illinois Press | volume=15 | issue=1 | year=1904 | issn=0002-9556 | jstor=1412159 | pages=72–101 | doi=10.2307/1412159 | url=http://www.jstor.org/stable/1412159 | access-date=2021-07-10}}</ref> यानी, [[माप त्रुटि]] के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक को मुक्त करना है।<ref name="Jensen1998">{{cite book | last=Jensen | first=A.R. | title=[[The g Factor: The Science of Mental Ability]] | publisher=Praeger | series=Human evolution, behavior, and intelligence | year=1998 | isbn=978-0-275-96103-9 }}</ref> | ||
[[माप]]न और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।<ref name="Osborne 2003">{{cite journal | last=Osborne | first=Jason W. | title=Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology | journal=Practical Assessment, Research, and Evaluation | date=2003-05-27 | volume=8 | issue=1 | doi=10.7275/0k9h-tq64 | url=https://scholarworks.umass.edu/pare/vol8/iss1/11 | access-date=2021-07-10}}</ref> | |||
सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में [[पियर्सन सहसंबंध गुणांक]] का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का | [[माप]]न और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।<ref name="Osborne 2003">{{cite journal | last=Osborne | first=Jason W. | title=Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology | journal=Practical Assessment, Research, and Evaluation | date=2003-05-27 | volume=8 | issue=1 | doi=10.7275/0k9h-tq64 | url=https://scholarworks.umass.edu/pare/vol8/iss1/11 | access-date=2021-07-10}}</ref> सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में [[पियर्सन सहसंबंध गुणांक]] का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का गणना कि जाती है।<ref>{{Cite journal|last1=Franks|first1=Alexander|last2=Airoldi|first2=Edoardo|last3=Slavov|first3=Nikolai|date=2017-05-08|title=मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन|journal=PLOS Computational Biology|volume=13|issue=5|pages=e1005535|doi=10.1371/journal.pcbi.1005535|issn=1553-7358|pmc=5440056|pmid=28481885}}</ref> | ||
=== सूत्रीकरण === | === सूत्रीकरण === | ||
मान लीजिए <math>\beta</math> और <math>\theta</math> किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मान हैं। ये मान इस धारणा के आधार पर परिवर्तनशील हैं कि वे जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। मान लीजिए कि <math>\hat{\beta}</math> और <math>\hat{\theta}</math>, <math>\beta</math> और <math>\theta</math> के अनुमान हैं जो सीधे रूप से त्रुटि के साथ अवलोकन द्वारा या राश मॉडल जैसे माप मॉडल के अनुप्रयोग से प्राप्त किए गए हैं। चलो भी | |||
::<math> | ::<math> | ||
\hat{\beta} = \beta + \epsilon_{\beta} , \quad\quad \hat{\theta} = \theta + \epsilon_\theta, | \hat{\beta} = \beta + \epsilon_{\beta} , \quad\quad \hat{\theta} = \theta + \epsilon_\theta, | ||
</math> | </math> | ||
जहाँ <math>\epsilon_{\beta}</math> और <math>\epsilon_\theta</math> अनुमान <math>\hat{\beta}</math> और <math>\hat{\theta}</math>. से जुड़ी माप त्रुटियां हैं। | |||
अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है | अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है | ||
Line 63: | Line 63: | ||
=\rho \sqrt{R_\beta R_\theta}, | =\rho \sqrt{R_\beta R_\theta}, | ||
</math> | </math> | ||
जहां <math>R_\beta</math> <math>\beta</math> के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, <math>R_\beta</math> एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है: | |||
:<math> | :<math> | ||
R_\beta=\frac{\operatorname{var}[\beta]}{\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta]}=\frac{\operatorname{var}[\hat{\beta}]-\operatorname{var}[\epsilon_\beta]}{\operatorname{var}[\hat{\beta}]}, | R_\beta=\frac{\operatorname{var}[\beta]}{\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta]}=\frac{\operatorname{var}[\hat{\beta}]-\operatorname{var}[\epsilon_\beta]}{\operatorname{var}[\hat{\beta}]}, | ||
</math> | </math> | ||
जहां व्यक्ति | जहां व्यक्ति अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों <math>\epsilon_\beta</math> के विचरण का अनुमान देती है। मानक त्रुटियाँ आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (रैश मॉडल अनुमान देखें)। | ||
पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है | पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है | ||
Line 75: | Line 77: | ||
\rho = \frac{\mbox{corr}(\hat{\beta},\hat{\theta})}{\sqrt{R_\beta R_\theta}}. | \rho = \frac{\mbox{corr}(\hat{\beta},\hat{\theta})}{\sqrt{R_\beta R_\theta}}. | ||
</math> | </math> | ||
अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। | अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। मौलिक परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है। | ||
दो यादृच्छिक चर | दो यादृच्छिक चर <math>X^\prime</math> और <math>Y^\prime</math> को मापे गए सहसंबंध <math>r_{xy}</math> के साथ <math>X</math>और <math>Y</math>के रूप में मापा गया है और प्रत्येक चर, <math>r_{xx}</math> और <math>r_{yy}</math> के लिए एक ज्ञात विश्वसनीयता दी गई है, <math>X^\prime</math> के बीच अनुमानित सहसंबंध है और <math>Y^\prime</math> क्षीणन के लिए सही किया गया है | ||
:<math>r_{x'y'} = \frac{r_{xy}}{\sqrt{r_{xx}r_{yy}}}</math>. | :<math>r_{x'y'} = \frac{r_{xy}}{\sqrt{r_{xx}r_{yy}}}</math>. | ||
कितनी अच्छी तरह चर मापा जाता है एक्स और | कितनी अच्छी तरह चर मापा जाता है एक्स और y के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और y' को सही विश्वसनीयता के साथ माप सकता है। | ||
इस प्रकार यदि <math>X</math> और <math>Y</math> अंतर्निहित | इस प्रकार यदि <math>X</math>और <math>Y</math>को स्वतंत्र त्रुटियों के साथ अंतर्निहित चर <math>X'</math> और <math>Y'</math> का अपूर्ण माप माना जाता है, तो <math>r_{x'y'}</math> <math>X'</math> और <math>Y'</math> के बीच सही सहसंबंध का अनुमान लगाता है। | ||
==क्या सुधार आवश्यक है?== | ==क्या सुधार आवश्यक है?== | ||
प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; [[भविष्य कहनेवाला मॉडलिंग]] अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। y | प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; [[भविष्य कहनेवाला मॉडलिंग|पूर्वानुमानित मॉडलिंग]] अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप पर देखा गया रक्तचाप हो सकता है।<ref name="Frost2000"/> यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप x पर y की प्रतिगमन रेखा से कम होता है। | ||
क्या यह मायने रखता है? | क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है। | ||
ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की | ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप की आवश्यकता है, न कि w पर y की है यह [[महामारी विज्ञान]] में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े [[नैदानिक परीक्षण]] ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप से लगाया जाना चाहिए। | ||
एक अन्य परिस्थिति | एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक अभ्यास में सामान्य से अधिक स्पष्टता के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।<ref>{{cite journal | last1 = Stevens | first1 = R. J. | last2 = Kothari | first2 = V. | last3 = Adler | first3 = A. I. | last4 = Stratton | first4 = I. M. | last5 = Holman | first5 = R. R. | year = 2001 | title = Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56) | journal = Clinical Science | volume = 101 | pages = 671–679 | doi=10.1042/cs20000335}}</ref> | ||
===चेतावनी === | ===चेतावनी === | ||
इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के | इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के स्थिति में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के रूपरेखा ) को मानते हुए। | ||
यह चर्चा की गई है कि प्रतिगमन | यह चर्चा की गई है कि प्रतिगमन क्षीणन पड़ने के लिए एक खराब निष्पादित सुधार विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक हानि पहुंचा सकता है।<ref>{{cite journal |last1=Davey Smith |first1=G. |author-link=George Davey Smith |first2=A. N. |last2=Phillips |year=1996 |title=Inflation in epidemiology: 'The proof and measurement of association between two things' revisited |journal=[[British Medical Journal]] |volume=312 |issue=7047 |pages=1659–1661 |pmc=2351357 |doi=10.1136/bmj.312.7047.1659 |pmid=8664725}}</ref> | ||
==अग्रिम पठन== | ==अग्रिम पठन== | ||
प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।<ref name=":0">{{cite journal|last1=Spearman|first1=C|year=1904|title=The proof and measurement of association between two things|journal=American Journal of Psychology|volume=15|issue=1|pages=72–101|doi=10.2307/1412159|jstor=1412159|url=https://archive.org/details/proofmeasurement00speauoft}}</ref> जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।<ref name="Frost20002">Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." [[Journal of the Royal Statistical Society]] Series '''A''' 163: 173–190.</ref> | |||
== यह भी देखें == | |||
== यह भी देखें == | |||
*एरर-इन-वैरिएबल मॉडल | *एरर-इन-वैरिएबल मॉडल | ||
*[[परिमाणीकरण (सिग्नल प्रोसेसिंग)]] - व्याख्यात्मक या स्वतंत्र चर में त्रुटि का एक सामान्य स्रोत | *[[परिमाणीकरण (सिग्नल प्रोसेसिंग)]] - व्याख्यात्मक या स्वतंत्र चर में त्रुटि का एक सामान्य स्रोत | ||
Line 112: | Line 113: | ||
<references/> | <references/> | ||
{{DEFAULTSORT:Regression Dilution}} | {{DEFAULTSORT:Regression Dilution}} | ||
[[Category: Machine Translated Page]] | [[Category:Created On 20/06/2023|Regression Dilution]] | ||
[[Category: | [[Category:Machine Translated Page|Regression Dilution]] | ||
[[Category:Templates Vigyan Ready]] | |||
[[Category:प्रतिगमन मॉडल|Regression Dilution]] |
Latest revision as of 19:23, 12 July 2023
प्रतिगमन क्षीणन पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, स्वतंत्र चर में त्रुटियों के कारण रैखिक प्रतिगमन प्रतिगमन स्लोप का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की पूर्वाग्रह (सांख्यिकी) है।
परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त शून्य के समीप पहुंचना चाहिए।
यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।[1]
स्लोप सुधार
प्रतिगमन स्लोप और अन्य प्रतिगमन गुणांक को निम्नानुसार अलग किया जा सकता है।
एक निश्चित x चर का स्थिति
यह स्थिति कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।[2] इसे सामान्य रूप से कुल न्यूनतम वर्ग[3] और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है।
यादृच्छिक रूप से वितरित x चर का स्थिति
वह स्थिति जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।
कुछ मान्यताओं (सामान्यतः सामान्य वितरण मान्यताओं) के तहत वास्तविक स्लोप और अपेक्षित अनुमानित स्लोप के बीच एक ज्ञात अनुपात होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप को ठीक करते हैं।[4] शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो।[5] वेन फुलर (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।[6]
ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।[7] रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।[8] कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।[9]
सामान्यतः, संरचनात्मक मॉडल के विधियों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।
एकाधिक एक्स चर
परिवर्तनशीलता (संभवतः सहसंबद्ध) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।[6][9] अन्य गैर-रैखिक मॉडल, जैसे उत्तरजीविता विश्लेषण के लिए आनुपातिक खतरों के मॉडल, परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।[7]
सहसंबंध सुधार
चार्ल्स स्पीयरमैन ने 1904 में प्रतिगमन क्षीणन पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,[10] यानी, माप त्रुटि के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक को मुक्त करना है।[11]
मापन और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।[12] सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में पियर्सन सहसंबंध गुणांक का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का गणना कि जाती है।[13]
सूत्रीकरण
मान लीजिए और किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मान हैं। ये मान इस धारणा के आधार पर परिवर्तनशील हैं कि वे जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। मान लीजिए कि और , और के अनुमान हैं जो सीधे रूप से त्रुटि के साथ अवलोकन द्वारा या राश मॉडल जैसे माप मॉडल के अनुप्रयोग से प्राप्त किए गए हैं। चलो भी
जहाँ और अनुमान और . से जुड़ी माप त्रुटियां हैं।
अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है
जो, यह मानते हुए कि त्रुटियां एक दूसरे के साथ और सही विशेषता मानों के साथ असंबद्ध हैं, देता है
जहां के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है:
जहां व्यक्ति अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों के विचरण का अनुमान देती है। मानक त्रुटियाँ आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (रैश मॉडल अनुमान देखें)।
पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है
अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। मौलिक परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।
दो यादृच्छिक चर और को मापे गए सहसंबंध के साथ और के रूप में मापा गया है और प्रत्येक चर, और के लिए एक ज्ञात विश्वसनीयता दी गई है, के बीच अनुमानित सहसंबंध है और क्षीणन के लिए सही किया गया है
- .
कितनी अच्छी तरह चर मापा जाता है एक्स और y के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और y' को सही विश्वसनीयता के साथ माप सकता है।
इस प्रकार यदि और को स्वतंत्र त्रुटियों के साथ अंतर्निहित चर और का अपूर्ण माप माना जाता है, तो और के बीच सही सहसंबंध का अनुमान लगाता है।
क्या सुधार आवश्यक है?
प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; पूर्वानुमानित मॉडलिंग अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप पर देखा गया रक्तचाप हो सकता है।[4] यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप x पर y की प्रतिगमन रेखा से कम होता है।
क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है।
ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप की आवश्यकता है, न कि w पर y की है यह महामारी विज्ञान में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े नैदानिक परीक्षण ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप से लगाया जाना चाहिए।
एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक अभ्यास में सामान्य से अधिक स्पष्टता के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।[14]
चेतावनी
इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के स्थिति में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के रूपरेखा ) को मानते हुए।
यह चर्चा की गई है कि प्रतिगमन क्षीणन पड़ने के लिए एक खराब निष्पादित सुधार विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक हानि पहुंचा सकता है।[15]
अग्रिम पठन
प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।[16] जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।[17]
यह भी देखें
- एरर-इन-वैरिएबल मॉडल
- परिमाणीकरण (सिग्नल प्रोसेसिंग) - व्याख्यात्मक या स्वतंत्र चर में त्रुटि का एक सामान्य स्रोत
संदर्भ
- ↑ Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. p. 19. ISBN 0-471-17082-8.
- ↑ Riggs, D. S.; Guarnieri, J. A.; et al. (1978). "सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों". Life Sciences. 22 (13–15): 1305–60. doi:10.1016/0024-3205(78)90098-x. PMID 661506.
- ↑ Golub, Gene H.; van Loan, Charles F. (1980). "टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण". SIAM Journal on Numerical Analysis. Society for Industrial & Applied Mathematics (SIAM). 17 (6): 883–893. doi:10.1137/0717073. hdl:1813/6251. ISSN 0036-1429.
- ↑ 4.0 4.1 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.
- ↑ Longford, N. T. (2001). "पत्र-व्यवहार". Journal of the Royal Statistical Society, Series A. 164 (3): 565. doi:10.1111/1467-985x.00219. S2CID 247674444.
- ↑ 6.0 6.1 Fuller, W. A. (1987). मापन त्रुटि मॉडल. New York: Wiley. ISBN 9780470317334.
- ↑ 7.0 7.1 Hughes, M. D. (1993). "आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना". Biometrics. 49 (4): 1056–1066. doi:10.2307/2532247. JSTOR 2532247. PMID 8117900.
- ↑ Rosner, B.; Spiegelman, D.; et al. (1992). "लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार". American Journal of Epidemiology. 136 (11): 1400–1403. doi:10.1093/oxfordjournals.aje.a116453. PMID 1488967.
- ↑ 9.0 9.1 Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.
- ↑ Spearman, C. (1904). "दो चीजों के बीच संबंध का प्रमाण और माप". The American Journal of Psychology. University of Illinois Press. 15 (1): 72–101. doi:10.2307/1412159. ISSN 0002-9556. JSTOR 1412159. Retrieved 2021-07-10.
- ↑ Jensen, A.R. (1998). The g Factor: The Science of Mental Ability. Human evolution, behavior, and intelligence. Praeger. ISBN 978-0-275-96103-9.
- ↑ Osborne, Jason W. (2003-05-27). "Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology". Practical Assessment, Research, and Evaluation. 8 (1). doi:10.7275/0k9h-tq64. Retrieved 2021-07-10.
- ↑ Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai (2017-05-08). "मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन". PLOS Computational Biology. 13 (5): e1005535. doi:10.1371/journal.pcbi.1005535. ISSN 1553-7358. PMC 5440056. PMID 28481885.
- ↑ Stevens, R. J.; Kothari, V.; Adler, A. I.; Stratton, I. M.; Holman, R. R. (2001). "Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56)". Clinical Science. 101: 671–679. doi:10.1042/cs20000335.
- ↑ Davey Smith, G.; Phillips, A. N. (1996). "Inflation in epidemiology: 'The proof and measurement of association between two things' revisited". British Medical Journal. 312 (7047): 1659–1661. doi:10.1136/bmj.312.7047.1659. PMC 2351357. PMID 8664725.
- ↑ Spearman, C (1904). "The proof and measurement of association between two things". American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159. JSTOR 1412159.
- ↑ Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.