प्रतिगमन क्षीणन: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
[[File:Visualization of errors-in-variables linear regression.png|thumb|right|260px|[[एरर-इन-वैरिएबल मॉडल]] में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन क्षीणन पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला स्लोप | [[File:Visualization of errors-in-variables linear regression.png|thumb|right|260px|[[एरर-इन-वैरिएबल मॉडल]] में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन क्षीणन पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला स्लोप तब प्राप्त होता है जब स्वतंत्र चर (या भविष्यवक्ता) भुज (एक्स-अक्ष) पर होता है। तीव्र स्लोप तब प्राप्त होता है जब स्वतंत्र चर कोटि (y-अक्ष) पर होता है। परिपाटी से, x-अक्ष पर स्वतंत्र चर के साथ, उथला स्लोप प्राप्त होता है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ मनमाने डिब्बे के अंदर औसत होती हैं। ध्यान दें कि तेज हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।]]'''प्रतिगमन क्षीणन''' पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, [[स्वतंत्र चर]] में त्रुटियों के कारण रैखिक प्रतिगमन [[प्रतिगमन ढलान|प्रतिगमन स्लोप]] का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की [[पूर्वाग्रह (सांख्यिकी)]] है। | ||
परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त | परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त शून्य के समीप पहुंचना चाहिए। | ||
[[File:Scheme regression dilution.jpg|thumb|मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, किन्तु हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी स्लोप | [[File:Scheme regression dilution.jpg|thumb|मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, किन्तु हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी स्लोप की ओर ले जाती है, यथार्त वे एक ही डेटा का ध्वनि संस्करण हों।]]यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।<ref>{{cite book | ||
|title = Applied Regression Analysis | |title = Applied Regression Analysis | ||
|edition = 3rd |pages= 19 | |edition = 3rd |pages= 19 | ||
Line 9: | Line 9: | ||
|year = 1998 | |year = 1998 | ||
|isbn = 0-471-17082-8}}</ref> | |isbn = 0-471-17082-8}}</ref> | ||
== स्लोप | == स्लोप सुधार == | ||
प्रतिगमन स्लोप | प्रतिगमन स्लोप और अन्य [[प्रतिगमन गुणांक]] को निम्नानुसार अलग किया जा सकता है। | ||
=== एक निश्चित x चर का स्थिति === | === एक निश्चित x चर का स्थिति === | ||
यह स्थिति | यह स्थिति कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।<ref name="Riggs1978">{{cite journal | last1 = Riggs | first1 = D. S. | last2 = Guarnieri | first2 = J. A. |display-authors=etal | year = 1978 | title = सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों| journal = Life Sciences | volume = 22 | issue = 13–15 | pages = 1305–60 | doi=10.1016/0024-3205(78)90098-x| pmid = 661506 }}</ref> इसे सामान्य रूप से कुल न्यूनतम वर्ग<ref name="vanLoan1980">{{cite journal | last1=Golub | first1=Gene H. | last2=van Loan | first2=Charles F. | title=टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण| journal=SIAM Journal on Numerical Analysis | publisher=Society for Industrial & Applied Mathematics (SIAM) | volume=17 | issue=6 | year=1980 | issn=0036-1429 | doi=10.1137/0717073 | pages=883–893| hdl=1813/6251 | hdl-access=free }}</ref> और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है। | ||
==== यादृच्छिक रूप से वितरित x चर का स्थिति ==== | ==== यादृच्छिक रूप से वितरित x चर का स्थिति ==== | ||
वह स्थिति | वह स्थिति जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है। | ||
कुछ मान्यताओं (सामान्यतः [[सामान्य वितरण]] मान्यताओं) के तहत वास्तविक स्लोप | कुछ मान्यताओं (सामान्यतः [[सामान्य वितरण]] मान्यताओं) के तहत वास्तविक स्लोप और अपेक्षित अनुमानित स्लोप के बीच एक ज्ञात [[अनुपात]] होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप को ठीक करते हैं।<ref name="Frost2000">Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." [[Journal of the Royal Statistical Society]] Series '''A''' 163: 173–190.</ref> शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो।<ref>{{cite journal | last1 = Longford | first1 = N. T. | year = 2001 | title = पत्र-व्यवहार| journal = Journal of the Royal Statistical Society, Series A | volume = 164 | issue = 3 | page = 565 | doi=10.1111/1467-985x.00219| s2cid = 247674444 }}</ref> [[वेन फुलर]] (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।<ref name="Fuller1987">{{cite book |last=Fuller |first=W. A. |year=1987 |title=मापन त्रुटि मॉडल|location=New York |publisher=Wiley |isbn=9780470317334 |url=https://books.google.com/books?id=Nalc0DkAJRYC }}</ref> | ||
ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।<ref name="Hughes1993">{{cite journal | last1 = Hughes | first1 = M. D. | year = 1993 | title = आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना| journal = Biometrics | volume = 49 | issue = 4 | pages = 1056–1066 | doi=10.2307/2532247| jstor = 2532247 | pmid = 8117900 }}</ref> रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।<ref>{{cite journal | last1 = Rosner | first1 = B. | last2 = Spiegelman | first2 = D. |display-authors=etal | year = 1992 | title = लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार| journal = American Journal of Epidemiology | volume = 136 | issue = 11 | pages = 1400–1403 | doi=10.1093/oxfordjournals.aje.a116453| pmid = 1488967 }}</ref> कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।<ref name="Carroll1995">Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.</ref> | ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।<ref name="Hughes1993">{{cite journal | last1 = Hughes | first1 = M. D. | year = 1993 | title = आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना| journal = Biometrics | volume = 49 | issue = 4 | pages = 1056–1066 | doi=10.2307/2532247| jstor = 2532247 | pmid = 8117900 }}</ref> रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।<ref>{{cite journal | last1 = Rosner | first1 = B. | last2 = Spiegelman | first2 = D. |display-authors=etal | year = 1992 | title = लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार| journal = American Journal of Epidemiology | volume = 136 | issue = 11 | pages = 1400–1403 | doi=10.1093/oxfordjournals.aje.a116453| pmid = 1488967 }}</ref> कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।<ref name="Carroll1995">Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.</ref> | ||
Line 25: | Line 25: | ||
=== एकाधिक एक्स चर === | === एकाधिक एक्स चर === | ||
परिवर्तनशीलता (संभवतः [[सहसंबद्ध]]) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।<ref name="Fuller1987"/><ref name="Carroll1995"/> | परिवर्तनशीलता (संभवतः [[सहसंबद्ध]]) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।<ref name="Fuller1987"/><ref name="Carroll1995"/> अन्य गैर-रैखिक मॉडल, जैसे [[उत्तरजीविता विश्लेषण]] के लिए [[आनुपातिक खतरों के मॉडल]], परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।<ref name="Hughes1993"/> | ||
Line 42: | Line 42: | ||
\hat{\beta} = \beta + \epsilon_{\beta} , \quad\quad \hat{\theta} = \theta + \epsilon_\theta, | \hat{\beta} = \beta + \epsilon_{\beta} , \quad\quad \hat{\theta} = \theta + \epsilon_\theta, | ||
</math> | </math> | ||
जहाँ <math>\epsilon_{\beta}</math> और <math>\epsilon_\theta</math> अनुमान | जहाँ <math>\epsilon_{\beta}</math> और <math>\epsilon_\theta</math> अनुमान <math>\hat{\beta}</math> और <math>\hat{\theta}</math>. से जुड़ी माप त्रुटियां हैं। | ||
अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है | अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है | ||
Line 65: | Line 65: | ||
जहां <math>R_\beta</math> | जहां <math>R_\beta</math> <math>\beta</math> के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, <math>R_\beta</math> एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है: | ||
:<math> | :<math> | ||
Line 88: | Line 88: | ||
==क्या सुधार आवश्यक है?== | ==क्या सुधार आवश्यक है?== | ||
प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; [[भविष्य कहनेवाला मॉडलिंग|पूर्वानुमानित मॉडलिंग]] अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप | प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; [[भविष्य कहनेवाला मॉडलिंग|पूर्वानुमानित मॉडलिंग]] अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप पर देखा गया रक्तचाप हो सकता है।<ref name="Frost2000"/> यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप x पर y की प्रतिगमन रेखा से कम होता है। | ||
क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है। | क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है। | ||
ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप | ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप की आवश्यकता है, न कि w पर y की है यह [[महामारी विज्ञान]] में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े [[नैदानिक परीक्षण]] ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप से लगाया जाना चाहिए। | ||
एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक अभ्यास में सामान्य से अधिक स्पष्टता | एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक अभ्यास में सामान्य से अधिक स्पष्टता के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।<ref>{{cite journal | last1 = Stevens | first1 = R. J. | last2 = Kothari | first2 = V. | last3 = Adler | first3 = A. I. | last4 = Stratton | first4 = I. M. | last5 = Holman | first5 = R. R. | year = 2001 | title = Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56) | journal = Clinical Science | volume = 101 | pages = 671–679 | doi=10.1042/cs20000335}}</ref> | ||
Line 104: | Line 104: | ||
==अग्रिम पठन== | ==अग्रिम पठन== | ||
Regression dilution was first mentioned, under the name attenuation, by [[Charles Spearman|Spearman]] (1904).<ref name=":0">{{cite journal|last1=Spearman|first1=C|year=1904|title=The proof and measurement of association between two things|journal=American Journal of Psychology|volume=15|issue=1|pages=72–101|doi=10.2307/1412159|jstor=1412159|url=https://archive.org/details/proofmeasurement00speauoft}}</ref> | Regression dilution was first mentioned, under the name attenuation, by [[Charles Spearman|Spearman]] (1904).<ref name=":0">{{cite journal|last1=Spearman|first1=C|year=1904|title=The proof and measurement of association between two things|journal=American Journal of Psychology|volume=15|issue=1|pages=72–101|doi=10.2307/1412159|jstor=1412159|url=https://archive.org/details/proofmeasurement00speauoft}}</ref> Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).<ref name="Frost20002">Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." [[Journal of the Royal Statistical Society]] Series '''A''' 163: 173–190.</ref> | ||
प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।<ref name=":0" /> जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।<ref name="Frost20002" /> | प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।<ref name=":0" /> जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।<ref name="Frost20002" /> | ||
== यह भी देखें == | == यह भी देखें == |
Revision as of 21:43, 4 July 2023
प्रतिगमन क्षीणन पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, स्वतंत्र चर में त्रुटियों के कारण रैखिक प्रतिगमन प्रतिगमन स्लोप का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की पूर्वाग्रह (सांख्यिकी) है।
परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त शून्य के समीप पहुंचना चाहिए।
यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।[1]
स्लोप सुधार
प्रतिगमन स्लोप और अन्य प्रतिगमन गुणांक को निम्नानुसार अलग किया जा सकता है।
एक निश्चित x चर का स्थिति
यह स्थिति कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।[2] इसे सामान्य रूप से कुल न्यूनतम वर्ग[3] और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है।
यादृच्छिक रूप से वितरित x चर का स्थिति
वह स्थिति जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।
कुछ मान्यताओं (सामान्यतः सामान्य वितरण मान्यताओं) के तहत वास्तविक स्लोप और अपेक्षित अनुमानित स्लोप के बीच एक ज्ञात अनुपात होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप को ठीक करते हैं।[4] शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो।[5] वेन फुलर (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।[6]
ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।[7] रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।[8] कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।[9]
सामान्यतः, संरचनात्मक मॉडल के विधियों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।
एकाधिक एक्स चर
परिवर्तनशीलता (संभवतः सहसंबद्ध) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।[6][9] अन्य गैर-रैखिक मॉडल, जैसे उत्तरजीविता विश्लेषण के लिए आनुपातिक खतरों के मॉडल, परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।[7]
सहसंबंध सुधार
चार्ल्स स्पीयरमैन ने 1904 में प्रतिगमन क्षीणन पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,[10] यानी, माप त्रुटि के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक को मुक्त करना है।[11]
मापन और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।[12] सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में पियर्सन सहसंबंध गुणांक का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का गणना कि जाती है।[13]
सूत्रीकरण
मान लीजिए और किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मान हैं। ये मान इस धारणा के आधार पर परिवर्तनशील हैं कि वे जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। मान लीजिए कि और , और के अनुमान हैं जो सीधे रूप से त्रुटि के साथ अवलोकन द्वारा या राश मॉडल जैसे माप मॉडल के अनुप्रयोग से प्राप्त किए गए हैं। चलो भी
जहाँ और अनुमान और . से जुड़ी माप त्रुटियां हैं।
अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है
जो, यह मानते हुए कि त्रुटियां एक दूसरे के साथ और सही विशेषता मानों के साथ असंबद्ध हैं, देता है
जहां के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है:
जहां व्यक्ति अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों के विचरण का अनुमान देती है। मानक त्रुटियाँ आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (रैश मॉडल अनुमान देखें)।
पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है
अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। मौलिक परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।
दो यादृच्छिक चर और को मापे गए सहसंबंध के साथ और के रूप में मापा गया है और प्रत्येक चर, और के लिए एक ज्ञात विश्वसनीयता दी गई है, के बीच अनुमानित सहसंबंध है और क्षीणन के लिए सही किया गया है
- .
कितनी अच्छी तरह चर मापा जाता है एक्स और y के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और y' को सही विश्वसनीयता के साथ माप सकता है।
इस प्रकार यदि और को स्वतंत्र त्रुटियों के साथ अंतर्निहित चर और का अपूर्ण माप माना जाता है, तो और के बीच सही सहसंबंध का अनुमान लगाता है।
क्या सुधार आवश्यक है?
प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; पूर्वानुमानित मॉडलिंग अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप पर देखा गया रक्तचाप हो सकता है।[4] यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप x पर y की प्रतिगमन रेखा से कम होता है।
क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है।
ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप की आवश्यकता है, न कि w पर y की है यह महामारी विज्ञान में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े नैदानिक परीक्षण ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप से लगाया जाना चाहिए।
एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक अभ्यास में सामान्य से अधिक स्पष्टता के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।[14]
चेतावनी
इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के स्थिति में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के रूपरेखा ) को मानते हुए।
यह चर्चा की गई है कि प्रतिगमन क्षीणन पड़ने के लिए एक खराब निष्पादित सुधार विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक हानि पहुंचा सकता है।[15]
अग्रिम पठन
Regression dilution was first mentioned, under the name attenuation, by Spearman (1904).[16] Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).[17]
प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।[16] जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।[17]
यह भी देखें
- एरर-इन-वैरिएबल मॉडल
- परिमाणीकरण (सिग्नल प्रोसेसिंग) - व्याख्यात्मक या स्वतंत्र चर में त्रुटि का एक सामान्य स्रोत
संदर्भ
- ↑ Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. p. 19. ISBN 0-471-17082-8.
- ↑ Riggs, D. S.; Guarnieri, J. A.; et al. (1978). "सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों". Life Sciences. 22 (13–15): 1305–60. doi:10.1016/0024-3205(78)90098-x. PMID 661506.
- ↑ Golub, Gene H.; van Loan, Charles F. (1980). "टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण". SIAM Journal on Numerical Analysis. Society for Industrial & Applied Mathematics (SIAM). 17 (6): 883–893. doi:10.1137/0717073. hdl:1813/6251. ISSN 0036-1429.
- ↑ 4.0 4.1 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.
- ↑ Longford, N. T. (2001). "पत्र-व्यवहार". Journal of the Royal Statistical Society, Series A. 164 (3): 565. doi:10.1111/1467-985x.00219. S2CID 247674444.
- ↑ 6.0 6.1 Fuller, W. A. (1987). मापन त्रुटि मॉडल. New York: Wiley. ISBN 9780470317334.
- ↑ 7.0 7.1 Hughes, M. D. (1993). "आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना". Biometrics. 49 (4): 1056–1066. doi:10.2307/2532247. JSTOR 2532247. PMID 8117900.
- ↑ Rosner, B.; Spiegelman, D.; et al. (1992). "लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार". American Journal of Epidemiology. 136 (11): 1400–1403. doi:10.1093/oxfordjournals.aje.a116453. PMID 1488967.
- ↑ 9.0 9.1 Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.
- ↑ Spearman, C. (1904). "दो चीजों के बीच संबंध का प्रमाण और माप". The American Journal of Psychology. University of Illinois Press. 15 (1): 72–101. doi:10.2307/1412159. ISSN 0002-9556. JSTOR 1412159. Retrieved 2021-07-10.
- ↑ Jensen, A.R. (1998). The g Factor: The Science of Mental Ability. Human evolution, behavior, and intelligence. Praeger. ISBN 978-0-275-96103-9.
- ↑ Osborne, Jason W. (2003-05-27). "Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology". Practical Assessment, Research, and Evaluation. 8 (1). doi:10.7275/0k9h-tq64. Retrieved 2021-07-10.
- ↑ Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai (2017-05-08). "मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन". PLOS Computational Biology. 13 (5): e1005535. doi:10.1371/journal.pcbi.1005535. ISSN 1553-7358. PMC 5440056. PMID 28481885.
- ↑ Stevens, R. J.; Kothari, V.; Adler, A. I.; Stratton, I. M.; Holman, R. R. (2001). "Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56)". Clinical Science. 101: 671–679. doi:10.1042/cs20000335.
- ↑ Davey Smith, G.; Phillips, A. N. (1996). "Inflation in epidemiology: 'The proof and measurement of association between two things' revisited". British Medical Journal. 312 (7047): 1659–1661. doi:10.1136/bmj.312.7047.1659. PMC 2351357. PMID 8664725.
- ↑ 16.0 16.1 Spearman, C (1904). "The proof and measurement of association between two things". American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159. JSTOR 1412159.
- ↑ 17.0 17.1 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.