प्रतिगमन क्षीणन

From Vigyanwiki
एरर-इन-वैरिएबल मॉडल में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन कमजोर पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला ढलान तब प्राप्त होता है जब स्वतंत्र चर (या भविष्यवक्ता) भुज (एक्स-अक्ष) पर होता है। तीव्र ढलान तब प्राप्त होता है जब स्वतंत्र चर कोटि (y-अक्ष) पर होता है। परिपाटी से, x-अक्ष पर स्वतंत्र चर के साथ, उथला ढलान प्राप्त होता है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ मनमाने डिब्बे के भीतर औसत होती हैं। ध्यान दें कि तेज हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।

प्रतिगमन कमजोर पड़ने, जिसे प्रतिगमन क्षीणन के रूप में भी जाना जाता है, स्वतंत्र चर में त्रुटियों के कारण रैखिक प्रतिगमन प्रतिगमन ढलान का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की पूर्वाग्रह (सांख्यिकी) है।

एक परिणामी चर y के संबंध के लिए एक पूर्वसूचक चर x के संबंध के लिए एक सीधी रेखा पर विचार करें, और रेखा के ढलान का अनुमान लगाएं। 'वाई' चर में सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या यादृच्छिक शोर अनुमानित ढलान में अनिश्चितता का कारण बनता है, लेकिन पूर्वाग्रह नहीं (आंकड़े): औसतन, प्रक्रिया सही ढलान की गणना करती है। हालांकि, 'x' चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक शोर अनुमानित ढलान (साथ ही अशुद्धि) में पूर्वाग्रह का कारण बनता है। x माप में जितना अधिक विचरण होगा, अनुमानित ढलान को वास्तविक मान के बजाय शून्य के करीब पहुंचना चाहिए।

मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, लेकिन हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ। y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी ढलान की ओर ले जाती है, भले ही वे एक ही डेटा का शोर संस्करण हों।

यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में शोर एक पूर्वाग्रह को प्रेरित करता है, लेकिन परिणाम चर y में शोर नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की भविष्यवाणी करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की भविष्यवाणी करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।[1]


ढलान सुधार

प्रतिगमन ढलान और अन्य प्रतिगमन गुणांकों को निम्नानुसार अलग किया जा सकता है।

=== एक निश्चित x चर === का मामला वह मामला जो x निश्चित है, लेकिन शोर से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।[2] इसे कुल कम से कम वर्गों का उपयोग करके ठीक किया जा सकता है[3] और एरर-इन-वैरिएबल मॉडल सामान्य रूप से।

=== यादृच्छिक रूप से वितरित x चर === का मामला मामला है कि एक्स चर यादृच्छिक रूप से उत्पन्न होता है जिसे संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से नमूने के रूप में भर्ती किया जाता है, और उनकी विशेषताओं जैसे कि रक्तचाप को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।

कुछ मान्यताओं (आमतौर पर, सामान्य वितरण मान्यताओं) के तहत वास्तविक ढलान और अपेक्षित अनुमानित ढलान के बीच एक ज्ञात अनुपात होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई तरीकों की समीक्षा करते हैं और इसलिए अनुमानित ढलान को ठीक करते हैं।[4] शब्द प्रतिगमन कमजोर पड़ने का अनुपात, हालांकि सभी लेखकों द्वारा समान तरीके से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार लागू होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य तरीकों के लिए संदर्भित करता है, एक्स चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, ताकि कोई पूर्वाग्रह उत्पन्न न हो।[5] वेन फुलर (1987) प्रतिगमन कमजोर पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।[6] ह्यूजेस (1993) से पता चलता है कि प्रतिगमन कमजोर पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग लागू होता है।[7] रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग लागू होती हैं।[8] कैरोल एट अल। (1995) अरैखिक मॉडलों में प्रतिगमन कमजोर पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम मामले के रूप में प्रतिगमन कमजोर पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी शामिल किए जा सकते हैं।[9] सामान्य तौर पर, संरचनात्मक मॉडल के तरीकों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।

एकाधिक एक्स चर

परिवर्तनशीलता (संभवतः सहसंबद्ध) के अधीन कई पूर्वसूचक चर के मामले का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।[6][9] अन्य गैर-रैखिक मॉडल, जैसे उत्तरजीविता विश्लेषण के लिए आनुपातिक खतरों के मॉडल, परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।[7]


सहसंबंध सुधार

चार्ल्स स्पीयरमैन ने 1904 में प्रतिगमन कमजोर पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,[10] यानी, माप त्रुटि के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक से छुटकारा पाने के लिए।[11] मापन और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।[12] सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में पियर्सन सहसंबंध गुणांक का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का हिसाब लगाया जाता है।[13]


सूत्रीकरण

होने देना और किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मूल्य हों। ये मूल्य इस धारणा के आधार पर चर हैं कि वे सांख्यिकीय जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। होने देना और का अनुमान हो और या तो प्रत्यक्ष रूप से अवलोकन-के-त्रुटि से या माप मॉडल के अनुप्रयोग से, जैसे रैपिड मॉडल से व्युत्पन्न। इसके अलावा, चलो

कहाँ और अनुमानों से जुड़ी माप त्रुटियाँ हैं और .

अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है

जो, यह मानते हुए कि त्रुटियां एक दूसरे के साथ और सही विशेषता मानों के साथ असंबद्ध हैं, देता है

कहाँ के अनुमानों के समुच्चय का पृथक्करण सूचकांक है , जो क्रोनबैक के अल्फ़ा के अनुरूप है; यानी शास्त्रीय परीक्षण सिद्धांत के संदर्भ में, विश्वसनीयता गुणांक के समान है। विशेष रूप से, पृथक्करण सूचकांक निम्नानुसार दिया गया है:

जहां व्यक्ति के अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों के विचरण का अनुमान देती है, . मानक त्रुटियां आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (राश मॉडल अनुमान देखें)।

पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है

अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। शास्त्रीय परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।

दो यादृच्छिक चर दिए गए हैं और के रूप में मापा गया और मापा सहसंबंध के साथ और एक ज्ञात विश्वसनीयता (सांख्यिकी) # प्रत्येक चर के लिए शास्त्रीय परीक्षण सिद्धांत, और , के बीच अनुमानित सहसंबंध और क्षीणन के लिए ठीक किया गया है

.

कितनी अच्छी तरह चर मापा जाता है एक्स और वाई के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और वाई' को सही विश्वसनीयता के साथ माप सकता है।

इस प्रकार यदि और अंतर्निहित चरों के अपूर्ण माप के रूप में लिया जाता है और स्वतंत्र त्रुटियों के साथ, फिर के बीच सही संबंध का अनुमान लगाता है और .

क्या सुधार आवश्यक है?

प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; भविष्य कहनेवाला मॉडलिंग अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। y को परिणाम चर होने दें, x सही भविष्यवक्ता चर हो, और w x का अनुमानित अवलोकन हो। उदाहरण के लिए, फ़्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक रोगी का सच्चा, दीर्घकालिक रक्तचाप हो सकता है, और w क्लिनिक में एक विशेष दौरे पर देखा गया रक्तचाप हो सकता है।[4] यदि हम y और x के बीच संबंध में रुचि रखते हैं, लेकिन y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन कमजोर पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का ढलान x पर y की प्रतिगमन रेखा से कम होता है।

क्या यह मायने रखता है? भविष्यवाणी मॉडलिंग में, नहीं। मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में, यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष भविष्यवाणियां देता है।

ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की भविष्यवाणी है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की ढलान की आवश्यकता है, y पर w की नहीं। यह महामारी विज्ञान में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, शायद एक बड़े नैदानिक ​​परीक्षण ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; फिर y पर संभावित प्रभाव, नए उपचार के तहत, x पर y के प्रतिगमन में ढलान से अनुमान लगाया जाना चाहिए।

एक अन्य परिस्थिति भविष्य कहनेवाला मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, लेकिन (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक ​​​​अभ्यास में सामान्य से अधिक सटीकता के साथ मापा गया रक्तचाप शामिल है। इसका एक विशिष्ट उदाहरण नैदानिक ​​परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक ​​​​अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप आमतौर पर एक माप होता है।[14]


चेतावनी

इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के मामले में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के ढांचे) को मानते हुए।

यह चर्चा की गई है कि प्रतिगमन कमजोर पड़ने के लिए एक खराब निष्पादित सुधार, विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक नुकसान पहुंचा सकता है।[15]


अग्रिम पठन

Regression dilution was first mentioned, under the name attenuation, by Spearman (1904).[16] Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).[4]


यह भी देखें

संदर्भ

  1. Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. p. 19. ISBN 0-471-17082-8.
  2. Riggs, D. S.; Guarnieri, J. A.; et al. (1978). "सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों". Life Sciences. 22 (13–15): 1305–60. doi:10.1016/0024-3205(78)90098-x. PMID 661506.
  3. Golub, Gene H.; van Loan, Charles F. (1980). "टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण". SIAM Journal on Numerical Analysis. Society for Industrial & Applied Mathematics (SIAM). 17 (6): 883–893. doi:10.1137/0717073. hdl:1813/6251. ISSN 0036-1429.
  4. 4.0 4.1 4.2 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.
  5. Longford, N. T. (2001). "पत्र-व्यवहार". Journal of the Royal Statistical Society, Series A. 164 (3): 565. doi:10.1111/1467-985x.00219. S2CID 247674444.
  6. 6.0 6.1 Fuller, W. A. (1987). मापन त्रुटि मॉडल. New York: Wiley. ISBN 9780470317334.
  7. 7.0 7.1 Hughes, M. D. (1993). "आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना". Biometrics. 49 (4): 1056–1066. doi:10.2307/2532247. JSTOR 2532247. PMID 8117900.
  8. Rosner, B.; Spiegelman, D.; et al. (1992). "लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार". American Journal of Epidemiology. 136 (11): 1400–1403. doi:10.1093/oxfordjournals.aje.a116453. PMID 1488967.
  9. 9.0 9.1 Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.
  10. Spearman, C. (1904). "दो चीजों के बीच संबंध का प्रमाण और माप". The American Journal of Psychology. University of Illinois Press. 15 (1): 72–101. doi:10.2307/1412159. ISSN 0002-9556. JSTOR 1412159. Retrieved 2021-07-10.
  11. Jensen, A.R. (1998). The g Factor: The Science of Mental Ability. Human evolution, behavior, and intelligence. Praeger. ISBN 978-0-275-96103-9.
  12. Osborne, Jason W. (2003-05-27). "Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology". Practical Assessment, Research, and Evaluation. 8 (1). doi:10.7275/0k9h-tq64. Retrieved 2021-07-10.
  13. Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai (2017-05-08). "मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन". PLOS Computational Biology. 13 (5): e1005535. doi:10.1371/journal.pcbi.1005535. ISSN 1553-7358. PMC 5440056. PMID 28481885.
  14. Stevens, R. J.; Kothari, V.; Adler, A. I.; Stratton, I. M.; Holman, R. R. (2001). "Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56)". Clinical Science. 101: 671–679. doi:10.1042/cs20000335.
  15. Davey Smith, G.; Phillips, A. N. (1996). "Inflation in epidemiology: 'The proof and measurement of association between two things' revisited". British Medical Journal. 312 (7047): 1659–1661. doi:10.1136/bmj.312.7047.1659. PMC 2351357. PMID 8664725.
  16. Spearman, C (1904). "The proof and measurement of association between two things". American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159. JSTOR 1412159.