प्रतिगमन क्षीणन: Difference between revisions

From Vigyanwiki
No edit summary
Line 1: Line 1:
[[File:Visualization of errors-in-variables linear regression.png|thumb|right|260px|[[एरर-इन-वैरिएबल मॉडल]] में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन कमजोर पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला ढलान तब प्राप्त होता है जब स्वतंत्र चर (या भविष्यवक्ता) भुज (एक्स-अक्ष) पर होता है। तीव्र ढलान तब प्राप्त होता है जब स्वतंत्र चर कोटि (y-अक्ष) पर होता है। परिपाटी से, x-अक्ष पर स्वतंत्र चर के साथ, उथला ढलान प्राप्त होता है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ मनमाने डिब्बे के भीतर औसत होती हैं। ध्यान दें कि तेज हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।]]प्रतिगमन कमजोर पड़ने, जिसे प्रतिगमन क्षीणन के रूप में भी जाना जाता है, [[स्वतंत्र चर]] में त्रुटियों के कारण रैखिक प्रतिगमन [[प्रतिगमन ढलान]] का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की [[पूर्वाग्रह (सांख्यिकी)]] है।
[[File:Visualization of errors-in-variables linear regression.png|thumb|right|260px|[[एरर-इन-वैरिएबल मॉडल]] में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन क्षीणन पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला स्लोप  तब प्राप्त होता है जब स्वतंत्र चर (या भविष्यवक्ता) भुज (एक्स-अक्ष) पर होता है। तीव्र स्लोप  तब प्राप्त होता है जब स्वतंत्र चर कोटि (y-अक्ष) पर होता है। परिपाटी से, x-अक्ष पर स्वतंत्र चर के साथ, उथला स्लोप  प्राप्त होता है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ मनमाने डिब्बे के भीतर औसत होती हैं। ध्यान दें कि तेज हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।]]'''प्रतिगमन क्षीणन''' पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, [[स्वतंत्र चर]] में त्रुटियों के कारण रैखिक प्रतिगमन [[प्रतिगमन ढलान|प्रतिगमन स्लोप]] का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की [[पूर्वाग्रह (सांख्यिकी)]] है।


एक परिणामी चर ''y'' के संबंध के लिए एक पूर्वसूचक चर ''x'' के संबंध के लिए एक सीधी रेखा पर विचार करें, और रेखा के ढलान का अनुमान लगाएं। 'वाई' चर में सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या यादृच्छिक शोर अनुमानित ढलान में [[अनिश्चितता]] का कारण बनता है, लेकिन पूर्वाग्रह नहीं (आंकड़े): औसतन, प्रक्रिया सही ढलान की गणना करती है। हालांकि, 'x' चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक शोर अनुमानित ढलान (साथ ही अशुद्धि) में पूर्वाग्रह का कारण बनता है। ''x'' माप में जितना अधिक विचरण होगा, अनुमानित ढलान को वास्तविक मान के बजाय शून्य के करीब पहुंचना चाहिए।
परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त  शून्य के समीप पहुंचना चाहिए।
[[File:Scheme regression dilution.jpg|thumb|मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, लेकिन हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ। y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी ढलान की ओर ले जाती है, भले ही वे एक ही डेटा का शोर संस्करण हों।]]यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में शोर एक पूर्वाग्रह को प्रेरित करता है, लेकिन परिणाम चर y में शोर नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की भविष्यवाणी करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की भविष्यवाणी करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।<ref>{{cite book
[[File:Scheme regression dilution.jpg|thumb|मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, किन्तु हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ। y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी स्लोप  की ओर ले जाती है, भले ही वे एक ही डेटा का ध्वनि संस्करण हों।]]यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।<ref>{{cite book
|title = Applied Regression Analysis
|title = Applied Regression Analysis
|edition = 3rd |pages= 19
|edition = 3rd |pages= 19
Line 9: Line 9:
|year = 1998
|year = 1998
|isbn = 0-471-17082-8}}</ref>
|isbn = 0-471-17082-8}}</ref>
== स्लोप  सुधार ==
प्रतिगमन स्लोप  और अन्य [[प्रतिगमन गुणांक]] को निम्नानुसार अलग किया जा सकता है।


=== एक निश्चित x चर का स्थिति ===
यह स्थिति  कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।<ref name="Riggs1978">{{cite journal | last1 = Riggs | first1 = D. S. | last2 = Guarnieri | first2 = J. A. |display-authors=etal  | year = 1978 | title = सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों| journal = Life Sciences | volume = 22 | issue = 13–15 | pages = 1305–60 | doi=10.1016/0024-3205(78)90098-x| pmid = 661506 }}</ref> इसे सामान्य रूप से कुल न्यूनतम वर्ग<ref name="vanLoan1980">{{cite journal | last1=Golub | first1=Gene H. | last2=van Loan | first2=Charles F. | title=टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण| journal=SIAM Journal on Numerical Analysis | publisher=Society for Industrial & Applied Mathematics (SIAM) | volume=17 | issue=6 | year=1980 | issn=0036-1429 | doi=10.1137/0717073 | pages=883–893| hdl=1813/6251 | hdl-access=free }}</ref> और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है।


== ढलान सुधार ==
==== यादृच्छिक रूप से वितरित x चर का स्थिति ====
प्रतिगमन ढलान और अन्य [[प्रतिगमन गुणांक]]ों को निम्नानुसार अलग किया जा सकता है।
वह स्थिति  जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।


=== एक निश्चित x चर === का मामला
कुछ मान्यताओं (सामान्यतः [[सामान्य वितरण]] मान्यताओं) के तहत वास्तविक स्लोप  और अपेक्षित अनुमानित स्लोप  के बीच एक ज्ञात [[अनुपात]] होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप  को ठीक करते हैं।<ref name="Frost2000">Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." [[Journal of the Royal Statistical Society]] Series '''A''' 163: 173–190.</ref> शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो।<ref>{{cite journal | last1 = Longford | first1 = N. T. | year = 2001 | title = पत्र-व्यवहार| journal = Journal of the Royal Statistical Society, Series A | volume = 164 | issue = 3 | page = 565 | doi=10.1111/1467-985x.00219| s2cid = 247674444 }}</ref> [[वेन फुलर]] (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।<ref name="Fuller1987">{{cite book |last=Fuller |first=W. A. |year=1987 |title=मापन त्रुटि मॉडल|location=New York |publisher=Wiley |isbn=9780470317334 |url=https://books.google.com/books?id=Nalc0DkAJRYC }}</ref>
वह मामला जो x निश्चित है, लेकिन शोर से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।<ref name=Riggs1978>{{cite journal | last1 = Riggs | first1 = D. S. | last2 = Guarnieri | first2 = J. A. |display-authors=etal  | year = 1978 | title = सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों| journal = Life Sciences | volume = 22 | issue = 13–15 | pages = 1305–60 | doi=10.1016/0024-3205(78)90098-x| pmid = 661506 }}</ref>
इसे कुल कम से कम वर्गों का उपयोग करके ठीक किया जा सकता है<ref name="vanLoan1980">{{cite journal | last1=Golub | first1=Gene H. | last2=van Loan | first2=Charles F. | title=टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण| journal=SIAM Journal on Numerical Analysis | publisher=Society for Industrial & Applied Mathematics (SIAM) | volume=17 | issue=6 | year=1980 | issn=0036-1429 | doi=10.1137/0717073 | pages=883–893| hdl=1813/6251 | hdl-access=free }}</ref> और एरर-इन-वैरिएबल मॉडल सामान्य रूप से।


=== यादृच्छिक रूप से वितरित x चर === का मामला
ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।<ref name="Hughes1993">{{cite journal | last1 = Hughes | first1 = M. D. | year = 1993 | title = आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना| journal = Biometrics | volume = 49 | issue = 4 | pages = 1056–1066 | doi=10.2307/2532247| jstor = 2532247 | pmid = 8117900 }}</ref> रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।<ref>{{cite journal | last1 = Rosner | first1 = B. | last2 = Spiegelman | first2 = D. |display-authors=etal  | year = 1992 | title = लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार| journal = American Journal of Epidemiology | volume = 136 | issue = 11 | pages = 1400–1403 | doi=10.1093/oxfordjournals.aje.a116453| pmid = 1488967 }}</ref> कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।<ref name="Carroll1995">Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.</ref>
मामला है कि एक्स चर यादृच्छिक रूप से उत्पन्न होता है जिसे संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से नमूने के रूप में भर्ती किया जाता है, और उनकी विशेषताओं जैसे कि [[रक्तचाप]] को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।


कुछ मान्यताओं (आमतौर पर, [[सामान्य वितरण]] मान्यताओं) के तहत वास्तविक ढलान और अपेक्षित अनुमानित ढलान के बीच एक ज्ञात [[अनुपात]] होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई तरीकों की समीक्षा करते हैं और इसलिए अनुमानित ढलान को ठीक करते हैं।<ref name="Frost2000">Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." [[Journal of the Royal Statistical Society]] Series '''A''' 163: 173–190.</ref> शब्द प्रतिगमन कमजोर पड़ने का अनुपात, हालांकि सभी लेखकों द्वारा समान तरीके से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार लागू होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य तरीकों के लिए संदर्भित करता है, एक्स चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, ताकि कोई पूर्वाग्रह उत्पन्न न हो।<ref>{{cite journal | last1 = Longford | first1 = N. T. | year = 2001 | title = पत्र-व्यवहार| journal = Journal of the Royal Statistical Society, Series A | volume = 164 | issue = 3 | page = 565 | doi=10.1111/1467-985x.00219| s2cid = 247674444 }}</ref> [[वेन फुलर]] (1987) प्रतिगमन कमजोर पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।<ref name="Fuller1987">{{cite book |last=Fuller |first=W. A. |year=1987 |title=मापन त्रुटि मॉडल|location=New York |publisher=Wiley |isbn=9780470317334 |url=https://books.google.com/books?id=Nalc0DkAJRYC }}</ref>
सामान्यतः, संरचनात्मक मॉडल के विधियों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।
ह्यूजेस (1993) से पता चलता है कि प्रतिगमन कमजोर पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग लागू होता है।<ref name="Hughes1993">{{cite journal | last1 = Hughes | first1 = M. D. | year = 1993 | title = आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना| journal = Biometrics | volume = 49 | issue = 4 | pages = 1056–1066 | doi=10.2307/2532247| jstor = 2532247 | pmid = 8117900 }}</ref> रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग लागू होती हैं।<ref>{{cite journal | last1 = Rosner | first1 = B. | last2 = Spiegelman | first2 = D. |display-authors=etal  | year = 1992 | title = लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार| journal = American Journal of Epidemiology | volume = 136 | issue = 11 | pages = 1400–1403 | doi=10.1093/oxfordjournals.aje.a116453| pmid = 1488967 }}</ref> कैरोल एट अल। (1995) अरैखिक मॉडलों में प्रतिगमन कमजोर पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम मामले के रूप में प्रतिगमन कमजोर पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी शामिल किए जा सकते हैं।<ref name="Carroll1995">Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.</ref>
सामान्य तौर पर, संरचनात्मक मॉडल के तरीकों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।


=== एकाधिक एक्स चर ===
=== एकाधिक एक्स चर ===
परिवर्तनशीलता (संभवतः [[सहसंबद्ध]]) के अधीन कई पूर्वसूचक चर के मामले का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।<ref name="Fuller1987"/><ref name="Carroll1995"/>  अन्य गैर-रैखिक मॉडल, जैसे [[उत्तरजीविता विश्लेषण]] के लिए [[आनुपातिक खतरों के मॉडल]], परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।<ref name="Hughes1993"/>
परिवर्तनशीलता (संभवतः [[सहसंबद्ध]]) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।<ref name="Fuller1987"/><ref name="Carroll1995"/>  अन्य गैर-रैखिक मॉडल, जैसे [[उत्तरजीविता विश्लेषण]] के लिए [[आनुपातिक खतरों के मॉडल]], परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।<ref name="Hughes1993"/>




== सहसंबंध सुधार ==
== सहसंबंध सुधार ==
[[चार्ल्स स्पीयरमैन]] ने 1904 में प्रतिगमन कमजोर पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,<ref name="Spearman1904">{{cite journal | last=Spearman | first=C. | title=दो चीजों के बीच संबंध का प्रमाण और माप| journal=The American Journal of Psychology | publisher=University of Illinois Press | volume=15 | issue=1 | year=1904 | issn=0002-9556 | jstor=1412159 | pages=72–101 | doi=10.2307/1412159 | url=http://www.jstor.org/stable/1412159 | access-date=2021-07-10}}</ref> यानी, [[माप त्रुटि]] के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक से छुटकारा पाने के लिए।<ref name="Jensen1998">{{cite book | last=Jensen | first=A.R. | title=[[The g Factor: The Science of Mental Ability]] | publisher=Praeger | series=Human evolution, behavior, and intelligence | year=1998 | isbn=978-0-275-96103-9 }}</ref>
[[चार्ल्स स्पीयरमैन]] ने 1904 में प्रतिगमन क्षीणन पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,<ref name="Spearman1904">{{cite journal | last=Spearman | first=C. | title=दो चीजों के बीच संबंध का प्रमाण और माप| journal=The American Journal of Psychology | publisher=University of Illinois Press | volume=15 | issue=1 | year=1904 | issn=0002-9556 | jstor=1412159 | pages=72–101 | doi=10.2307/1412159 | url=http://www.jstor.org/stable/1412159 | access-date=2021-07-10}}</ref> यानी, [[माप त्रुटि]] के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक को मुक्त करना है।<ref name="Jensen1998">{{cite book | last=Jensen | first=A.R. | title=[[The g Factor: The Science of Mental Ability]] | publisher=Praeger | series=Human evolution, behavior, and intelligence | year=1998 | isbn=978-0-275-96103-9 }}</ref>
[[माप]]न और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।<ref name="Osborne 2003">{{cite journal | last=Osborne | first=Jason W. | title=Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology | journal=Practical Assessment, Research, and Evaluation | date=2003-05-27 | volume=8 | issue=1 | doi=10.7275/0k9h-tq64 | url=https://scholarworks.umass.edu/pare/vol8/iss1/11 | access-date=2021-07-10}}</ref>
 
सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में [[पियर्सन सहसंबंध गुणांक]] का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का हिसाब लगाया जाता है।<ref>{{Cite journal|last1=Franks|first1=Alexander|last2=Airoldi|first2=Edoardo|last3=Slavov|first3=Nikolai|date=2017-05-08|title=मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन|journal=PLOS Computational Biology|volume=13|issue=5|pages=e1005535|doi=10.1371/journal.pcbi.1005535|issn=1553-7358|pmc=5440056|pmid=28481885}}</ref>
[[माप]]न और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।<ref name="Osborne 2003">{{cite journal | last=Osborne | first=Jason W. | title=Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology | journal=Practical Assessment, Research, and Evaluation | date=2003-05-27 | volume=8 | issue=1 | doi=10.7275/0k9h-tq64 | url=https://scholarworks.umass.edu/pare/vol8/iss1/11 | access-date=2021-07-10}}</ref> सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में [[पियर्सन सहसंबंध गुणांक]] का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का गणना कि जाती है।<ref>{{Cite journal|last1=Franks|first1=Alexander|last2=Airoldi|first2=Edoardo|last3=Slavov|first3=Nikolai|date=2017-05-08|title=मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन|journal=PLOS Computational Biology|volume=13|issue=5|pages=e1005535|doi=10.1371/journal.pcbi.1005535|issn=1553-7358|pmc=5440056|pmid=28481885}}</ref>
 




=== सूत्रीकरण ===
=== सूत्रीकरण ===


होने देना <math>\beta</math> और <math>\theta</math> किसी व्यक्ति या [[सांख्यिकीय इकाई]] की दो विशेषताओं के वास्तविक मूल्य हों। ये मूल्य इस धारणा के आधार पर चर हैं कि वे [[सांख्यिकीय जनसंख्या]] में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। होने देना <math>\hat{\beta}</math> और <math>\hat{\theta}</math> का अनुमान हो  <math>\beta</math> और <math>\theta</math> या तो प्रत्यक्ष रूप से अवलोकन-के-त्रुटि से या माप मॉडल के अनुप्रयोग से, जैसे [[ रैपिड मॉडल ]] से व्युत्पन्न। इसके अलावा, चलो
मान लीजिए <math>\beta</math> और <math>\theta</math> किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मान हैं। ये मान इस धारणा के आधार पर परिवर्तनशील हैं कि वे जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। मान लीजिए कि <math>\hat{\beta}</math> और <math>\hat{\theta}</math>, <math>\beta</math> और <math>\theta</math> के अनुमान हैं जो सीधे रूप से त्रुटि के साथ अवलोकन द्वारा या राश मॉडल जैसे माप मॉडल के अनुप्रयोग से प्राप्त किए गए हैं। चलो भी


::<math>
::<math>
\hat{\beta} = \beta + \epsilon_{\beta} , \quad\quad \hat{\theta} = \theta + \epsilon_\theta,
\hat{\beta} = \beta + \epsilon_{\beta} , \quad\quad \hat{\theta} = \theta + \epsilon_\theta,
</math>
</math>
कहाँ <math>\epsilon_{\beta}</math> और <math>\epsilon_\theta</math> अनुमानों से जुड़ी माप त्रुटियाँ हैं <math>\hat{\beta}</math> और <math>\hat{\theta}</math>.
जहाँ <math>\epsilon_{\beta}</math> और <math>\epsilon_\theta</math> अनुमान  <math>\hat{\beta}</math> और <math>\hat{\theta}</math>. से जुड़ी माप त्रुटियां हैं।


अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है
अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है
Line 63: Line 63:
=\rho \sqrt{R_\beta R_\theta},
=\rho \sqrt{R_\beta R_\theta},
</math>
</math>
कहाँ <math>R_\beta</math> के अनुमानों के समुच्चय का पृथक्करण सूचकांक है <math>\beta</math>, जो क्रोनबैक के अल्फ़ा के अनुरूप है; यानी [[शास्त्रीय परीक्षण सिद्धांत]] के संदर्भ में, <math>R_\beta</math> विश्वसनीयता गुणांक के समान है। विशेष रूप से, पृथक्करण सूचकांक निम्नानुसार दिया गया है:
 
 
जहां <math>R_\beta</math> <math>\beta</math> के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, <math>R_\beta</math> एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है:


:<math>
:<math>
R_\beta=\frac{\operatorname{var}[\beta]}{\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta]}=\frac{\operatorname{var}[\hat{\beta}]-\operatorname{var}[\epsilon_\beta]}{\operatorname{var}[\hat{\beta}]},
R_\beta=\frac{\operatorname{var}[\beta]}{\operatorname{var}[\beta]+\operatorname{var}[\epsilon_\beta]}=\frac{\operatorname{var}[\hat{\beta}]-\operatorname{var}[\epsilon_\beta]}{\operatorname{var}[\hat{\beta}]},
</math>
</math>
जहां व्यक्ति के अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों के विचरण का अनुमान देती है, <math>\epsilon_\beta</math>. मानक त्रुटियां आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं ([[राश मॉडल अनुमान]] देखें)।
जहां व्यक्ति अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों <math>\epsilon_\beta</math> के विचरण का अनुमान देती है। मानक त्रुटियाँ आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (रैश मॉडल अनुमान देखें)।


पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है
पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है
Line 75: Line 77:
\rho = \frac{\mbox{corr}(\hat{\beta},\hat{\theta})}{\sqrt{R_\beta R_\theta}}.
\rho = \frac{\mbox{corr}(\hat{\beta},\hat{\theta})}{\sqrt{R_\beta R_\theta}}.
</math>
</math>
अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। शास्त्रीय परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।
अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। मौलिक परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।


दो यादृच्छिक चर दिए गए हैं <math>X^\prime</math> और <math>Y^\prime</math> के रूप में मापा गया <math>X</math> और <math>Y</math> मापा सहसंबंध के साथ <math>r_{xy}</math> और एक ज्ञात विश्वसनीयता (सांख्यिकी) # प्रत्येक चर के लिए शास्त्रीय परीक्षण सिद्धांत, <math>r_{xx}</math> और <math>r_{yy}</math>, के बीच अनुमानित सहसंबंध <math>X^\prime</math> और <math>Y^\prime</math> क्षीणन के लिए ठीक किया गया है
दो यादृच्छिक चर <math>X^\prime</math> और <math>Y^\prime</math> को मापे गए सहसंबंध <math>r_{xy}</math> के साथ <math>X</math>और <math>Y</math>के रूप में मापा गया है और प्रत्येक चर, <math>r_{xx}</math> और <math>r_{yy}</math> के लिए एक ज्ञात विश्वसनीयता दी गई है, <math>X^\prime</math> के बीच अनुमानित सहसंबंध है और <math>Y^\prime</math> क्षीणन के लिए सही किया गया है
:<math>r_{x'y'} = \frac{r_{xy}}{\sqrt{r_{xx}r_{yy}}}</math>.
:<math>r_{x'y'} = \frac{r_{xy}}{\sqrt{r_{xx}r_{yy}}}</math>.


कितनी अच्छी तरह चर मापा जाता है एक्स और वाई के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और वाई' को सही विश्वसनीयता के साथ माप सकता है।
कितनी अच्छी तरह चर मापा जाता है एक्स और y के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और y' को सही विश्वसनीयता के साथ माप सकता है।


इस प्रकार यदि <math>X</math> और <math>Y</math> अंतर्निहित चरों के अपूर्ण माप के रूप में लिया जाता है <math>X'</math> और <math>Y'</math> स्वतंत्र त्रुटियों के साथ, फिर <math>r_{x'y'}</math> के बीच सही संबंध का अनुमान लगाता है <math>X'</math> और <math>Y'</math>.
इस प्रकार यदि <math>X</math>और <math>Y</math>को स्वतंत्र त्रुटियों के साथ अंतर्निहित चर <math>X'</math> और <math>Y'</math> का अपूर्ण माप माना जाता है, तो <math>r_{x'y'}</math> <math>X'</math> और <math>Y'</math> के बीच सही सहसंबंध का अनुमान लगाता है।


==क्या सुधार आवश्यक है?==
==क्या सुधार आवश्यक है?==


प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; [[भविष्य कहनेवाला मॉडलिंग]] अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। y को परिणाम चर होने दें, x सही भविष्यवक्ता चर हो, और w x का अनुमानित अवलोकन हो। उदाहरण के लिए, फ़्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक रोगी का सच्चा, दीर्घकालिक रक्तचाप हो सकता है, और w क्लिनिक में एक विशेष दौरे पर देखा गया रक्तचाप हो सकता है।<ref name="Frost2000"/>  यदि हम y और x के बीच संबंध में रुचि रखते हैं, लेकिन y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन कमजोर पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का ढलान x पर y की प्रतिगमन रेखा से कम होता है।
प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; [[भविष्य कहनेवाला मॉडलिंग|पूर्वानुमानित मॉडलिंग]] अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप  पर देखा गया रक्तचाप हो सकता है।<ref name="Frost2000"/>  यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप  x पर y की प्रतिगमन रेखा से कम होता है।


क्या यह मायने रखता है? भविष्यवाणी मॉडलिंग में, नहीं। मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में, यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष भविष्यवाणियां देता है।
क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है।


ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की भविष्यवाणी है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की ढलान की आवश्यकता है, y पर w की नहीं। यह [[महामारी विज्ञान]] में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, शायद एक बड़े [[नैदानिक ​​परीक्षण]] ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; फिर y पर संभावित प्रभाव, नए उपचार के तहत, x पर y के प्रतिगमन में ढलान से अनुमान लगाया जाना चाहिए।
ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप  की आवश्यकता है, न कि w पर y की है यह [[महामारी विज्ञान]] में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े [[नैदानिक ​​परीक्षण]] ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप  से लगाया जाना चाहिए।


एक अन्य परिस्थिति भविष्य कहनेवाला मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, लेकिन (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक ​​​​अभ्यास में सामान्य से अधिक सटीकता के साथ मापा गया रक्तचाप शामिल है। इसका एक विशिष्ट उदाहरण नैदानिक ​​परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक ​​​​अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप आमतौर पर एक माप होता है।<ref>{{cite journal | last1 = Stevens | first1 = R. J. | last2 = Kothari | first2 = V. | last3 = Adler | first3 = A. I. | last4 = Stratton | first4 = I. M. | last5 = Holman | first5 = R. R. | year = 2001 | title = Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56) | journal = Clinical Science | volume = 101 | pages = 671–679 | doi=10.1042/cs20000335}}</ref>
एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक ​​​​अभ्यास में सामान्य से अधिक स्पष्टता  के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक ​​परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक ​​​​अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।<ref>{{cite journal | last1 = Stevens | first1 = R. J. | last2 = Kothari | first2 = V. | last3 = Adler | first3 = A. I. | last4 = Stratton | first4 = I. M. | last5 = Holman | first5 = R. R. | year = 2001 | title = Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56) | journal = Clinical Science | volume = 101 | pages = 671–679 | doi=10.1042/cs20000335}}</ref>




===चेतावनी ===
===चेतावनी ===
इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के मामले में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के ढांचे) को मानते हुए।
इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के स्थिति में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के रूपरेखा ) को मानते हुए।


यह चर्चा की गई है कि प्रतिगमन कमजोर पड़ने के लिए एक खराब निष्पादित सुधार, विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक नुकसान पहुंचा सकता है।<ref>{{cite journal |last1=Davey Smith |first1=G. |author-link=George Davey Smith |first2=A. N. |last2=Phillips |year=1996 |title=Inflation in epidemiology: 'The proof and measurement of association between two things' revisited |journal=[[British Medical Journal]] |volume=312 |issue=7047 |pages=1659–1661 |pmc=2351357 |doi=10.1136/bmj.312.7047.1659 |pmid=8664725}}</ref>
यह चर्चा की गई है कि प्रतिगमन क्षीणन पड़ने के लिए एक खराब निष्पादित सुधार विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक हानि पहुंचा सकता है।<ref>{{cite journal |last1=Davey Smith |first1=G. |author-link=George Davey Smith |first2=A. N. |last2=Phillips |year=1996 |title=Inflation in epidemiology: 'The proof and measurement of association between two things' revisited |journal=[[British Medical Journal]] |volume=312 |issue=7047 |pages=1659–1661 |pmc=2351357 |doi=10.1136/bmj.312.7047.1659 |pmid=8664725}}</ref>




==अग्रिम पठन==
==अग्रिम पठन==
Regression dilution was first mentioned, under the name attenuation, by [[Charles Spearman|Spearman]] (1904).<ref>{{cite journal | last1 = Spearman | first1 = C | year = 1904 | title = The proof and measurement of association between two things | journal = American Journal of Psychology | volume = 15 | issue = 1 | pages = 72–101 | doi=10.2307/1412159| jstor = 1412159 | url = https://archive.org/details/proofmeasurement00speauoft }}</ref>  Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).<ref name="Frost2000"/>
Regression dilution was first mentioned, under the name attenuation, by [[Charles Spearman|Spearman]] (1904).<ref name=":0">{{cite journal|last1=Spearman|first1=C|year=1904|title=The proof and measurement of association between two things|journal=American Journal of Psychology|volume=15|issue=1|pages=72–101|doi=10.2307/1412159|jstor=1412159|url=https://archive.org/details/proofmeasurement00speauoft}}</ref>  Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).<ref name="Frost20002">Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." [[Journal of the Royal Statistical Society]] Series '''A''' 163: 173–190.</ref>
 
प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।<ref name=":0" /> जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।<ref name="Frost20002" />
 





Revision as of 21:41, 4 July 2023

एरर-इन-वैरिएबल मॉडल में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन क्षीणन पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला स्लोप तब प्राप्त होता है जब स्वतंत्र चर (या भविष्यवक्ता) भुज (एक्स-अक्ष) पर होता है। तीव्र स्लोप तब प्राप्त होता है जब स्वतंत्र चर कोटि (y-अक्ष) पर होता है। परिपाटी से, x-अक्ष पर स्वतंत्र चर के साथ, उथला स्लोप प्राप्त होता है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ मनमाने डिब्बे के भीतर औसत होती हैं। ध्यान दें कि तेज हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।

प्रतिगमन क्षीणन पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, स्वतंत्र चर में त्रुटियों के कारण रैखिक प्रतिगमन प्रतिगमन स्लोप का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की पूर्वाग्रह (सांख्यिकी) है।

परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त शून्य के समीप पहुंचना चाहिए।

मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, किन्तु हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ। y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी स्लोप की ओर ले जाती है, भले ही वे एक ही डेटा का ध्वनि संस्करण हों।

यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।[1]

स्लोप सुधार

प्रतिगमन स्लोप और अन्य प्रतिगमन गुणांक को निम्नानुसार अलग किया जा सकता है।

एक निश्चित x चर का स्थिति

यह स्थिति कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।[2] इसे सामान्य रूप से कुल न्यूनतम वर्ग[3] और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है।

यादृच्छिक रूप से वितरित x चर का स्थिति

वह स्थिति जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।

कुछ मान्यताओं (सामान्यतः सामान्य वितरण मान्यताओं) के तहत वास्तविक स्लोप और अपेक्षित अनुमानित स्लोप के बीच एक ज्ञात अनुपात होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप को ठीक करते हैं।[4] शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो।[5] वेन फुलर (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।[6]

ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।[7] रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।[8] कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।[9]

सामान्यतः, संरचनात्मक मॉडल के विधियों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।

एकाधिक एक्स चर

परिवर्तनशीलता (संभवतः सहसंबद्ध) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।[6][9] अन्य गैर-रैखिक मॉडल, जैसे उत्तरजीविता विश्लेषण के लिए आनुपातिक खतरों के मॉडल, परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।[7]


सहसंबंध सुधार

चार्ल्स स्पीयरमैन ने 1904 में प्रतिगमन क्षीणन पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,[10] यानी, माप त्रुटि के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक को मुक्त करना है।[11]

मापन और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।[12] सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में पियर्सन सहसंबंध गुणांक का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का गणना कि जाती है।[13]


सूत्रीकरण

मान लीजिए और किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मान हैं। ये मान इस धारणा के आधार पर परिवर्तनशील हैं कि वे जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। मान लीजिए कि और , और के अनुमान हैं जो सीधे रूप से त्रुटि के साथ अवलोकन द्वारा या राश मॉडल जैसे माप मॉडल के अनुप्रयोग से प्राप्त किए गए हैं। चलो भी

जहाँ और अनुमान और . से जुड़ी माप त्रुटियां हैं।

अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है

जो, यह मानते हुए कि त्रुटियां एक दूसरे के साथ और सही विशेषता मानों के साथ असंबद्ध हैं, देता है


जहां के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है:

जहां व्यक्ति अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों के विचरण का अनुमान देती है। मानक त्रुटियाँ आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (रैश मॉडल अनुमान देखें)।

पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है

अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। मौलिक परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।

दो यादृच्छिक चर और को मापे गए सहसंबंध के साथ और के रूप में मापा गया है और प्रत्येक चर, और के लिए एक ज्ञात विश्वसनीयता दी गई है, के बीच अनुमानित सहसंबंध है और क्षीणन के लिए सही किया गया है

.

कितनी अच्छी तरह चर मापा जाता है एक्स और y के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और y' को सही विश्वसनीयता के साथ माप सकता है।

इस प्रकार यदि और को स्वतंत्र त्रुटियों के साथ अंतर्निहित चर और का अपूर्ण माप माना जाता है, तो और के बीच सही सहसंबंध का अनुमान लगाता है।

क्या सुधार आवश्यक है?

प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; पूर्वानुमानित मॉडलिंग अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप पर देखा गया रक्तचाप हो सकता है।[4] यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप x पर y की प्रतिगमन रेखा से कम होता है।

क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है।

ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप की आवश्यकता है, न कि w पर y की है यह महामारी विज्ञान में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े नैदानिक ​​परीक्षण ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप से लगाया जाना चाहिए।

एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक ​​​​अभ्यास में सामान्य से अधिक स्पष्टता के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक ​​परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक ​​​​अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।[14]


चेतावनी

इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के स्थिति में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के रूपरेखा ) को मानते हुए।

यह चर्चा की गई है कि प्रतिगमन क्षीणन पड़ने के लिए एक खराब निष्पादित सुधार विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक हानि पहुंचा सकता है।[15]


अग्रिम पठन

Regression dilution was first mentioned, under the name attenuation, by Spearman (1904).[16] Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).[17]

प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।[16] जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।[17]


यह भी देखें

संदर्भ

  1. Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. p. 19. ISBN 0-471-17082-8.
  2. Riggs, D. S.; Guarnieri, J. A.; et al. (1978). "सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों". Life Sciences. 22 (13–15): 1305–60. doi:10.1016/0024-3205(78)90098-x. PMID 661506.
  3. Golub, Gene H.; van Loan, Charles F. (1980). "टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण". SIAM Journal on Numerical Analysis. Society for Industrial & Applied Mathematics (SIAM). 17 (6): 883–893. doi:10.1137/0717073. hdl:1813/6251. ISSN 0036-1429.
  4. 4.0 4.1 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.
  5. Longford, N. T. (2001). "पत्र-व्यवहार". Journal of the Royal Statistical Society, Series A. 164 (3): 565. doi:10.1111/1467-985x.00219. S2CID 247674444.
  6. 6.0 6.1 Fuller, W. A. (1987). मापन त्रुटि मॉडल. New York: Wiley. ISBN 9780470317334.
  7. 7.0 7.1 Hughes, M. D. (1993). "आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना". Biometrics. 49 (4): 1056–1066. doi:10.2307/2532247. JSTOR 2532247. PMID 8117900.
  8. Rosner, B.; Spiegelman, D.; et al. (1992). "लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार". American Journal of Epidemiology. 136 (11): 1400–1403. doi:10.1093/oxfordjournals.aje.a116453. PMID 1488967.
  9. 9.0 9.1 Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.
  10. Spearman, C. (1904). "दो चीजों के बीच संबंध का प्रमाण और माप". The American Journal of Psychology. University of Illinois Press. 15 (1): 72–101. doi:10.2307/1412159. ISSN 0002-9556. JSTOR 1412159. Retrieved 2021-07-10.
  11. Jensen, A.R. (1998). The g Factor: The Science of Mental Ability. Human evolution, behavior, and intelligence. Praeger. ISBN 978-0-275-96103-9.
  12. Osborne, Jason W. (2003-05-27). "Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology". Practical Assessment, Research, and Evaluation. 8 (1). doi:10.7275/0k9h-tq64. Retrieved 2021-07-10.
  13. Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai (2017-05-08). "मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन". PLOS Computational Biology. 13 (5): e1005535. doi:10.1371/journal.pcbi.1005535. ISSN 1553-7358. PMC 5440056. PMID 28481885.
  14. Stevens, R. J.; Kothari, V.; Adler, A. I.; Stratton, I. M.; Holman, R. R. (2001). "Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56)". Clinical Science. 101: 671–679. doi:10.1042/cs20000335.
  15. Davey Smith, G.; Phillips, A. N. (1996). "Inflation in epidemiology: 'The proof and measurement of association between two things' revisited". British Medical Journal. 312 (7047): 1659–1661. doi:10.1136/bmj.312.7047.1659. PMC 2351357. PMID 8664725.
  16. 16.0 16.1 Spearman, C (1904). "The proof and measurement of association between two things". American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159. JSTOR 1412159.
  17. 17.0 17.1 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.