प्रतिगमन क्षीणन

From Vigyanwiki
एरर-इन-वैरिएबल मॉडल में प्रतिगमन अनुमानों की एक श्रृंखला द्वारा प्रतिगमन क्षीणन पड़ने (या क्षीणन पूर्वाग्रह) का चित्रण। दो प्रतिगमन रेखाएँ (लाल) रैखिक प्रतिगमन संभावनाओं की सीमा को बाध्य करती हैं। उथला स्लोप तब प्राप्त होता है जब स्वतंत्र चर (या भविष्यवक्ता) भुज (एक्स-अक्ष) पर होता है। तीव्र स्लोप तब प्राप्त होता है जब स्वतंत्र चर कोटि (y-अक्ष) पर होता है। परिपाटी से, x-अक्ष पर स्वतंत्र चर के साथ, उथला स्लोप प्राप्त होता है। हरे रंग की संदर्भ रेखाएँ प्रत्येक धुरी के साथ मनमाने डिब्बे के भीतर औसत होती हैं। ध्यान दें कि तेज हरे और लाल प्रतिगमन अनुमान y-अक्ष चर में छोटी त्रुटियों के साथ अधिक संगत हैं।

प्रतिगमन क्षीणन पड़ने को प्रतिगमन क्षीणन के रूप में भी जाना जाता है, स्वतंत्र चर में त्रुटियों के कारण रैखिक प्रतिगमन प्रतिगमन स्लोप का शून्य (इसके पूर्ण मूल्य का कम अनुमान) की पूर्वाग्रह (सांख्यिकी) है।

परिणाम चर y और भविष्यवक्ता चर x के संबंध के लिए एक सीधी रेखा फिट करने और रेखा के स्लोप का अनुमान लगाने पर विचार करें। सांख्यिकीय परिवर्तनशीलता, माप त्रुटि या y चर में यादृच्छिक ध्वनि अनुमानित स्लोप में अनिश्चितता का कारण बनता है, किन्तु पूर्वाग्रह नहीं: औसतन, प्रक्रिया सही स्लोप की गणना करती है। चूँकि, x चर में परिवर्तनशीलता, माप त्रुटि या यादृच्छिक ध्वनि अनुमानित स्लोप (साथ ही अशुद्धता) में पूर्वाग्रह का कारण बनता है। x माप में विचरण जितना अधिक होगा, अनुमानित स्लोप वास्तविक मान के अतिरिक्त शून्य के समीप पहुंचना चाहिए।

मान लीजिए कि हरे और नीले डेटा बिंदु एक ही डेटा को कैप्चर करते हैं, किन्तु हरे बिंदुओं के लिए त्रुटियों (या तो +1 या -1 x-अक्ष पर) के साथ। y-अक्ष पर न्यूनतम त्रुटि हरे बिंदुओं के लिए एक छोटी स्लोप की ओर ले जाती है, भले ही वे एक ही डेटा का ध्वनि संस्करण हों।

यह प्रति-सहज लग सकता है कि पूर्वसूचक चर x में ध्वनि एक पूर्वाग्रह को प्रेरित करता है, किन्तु परिणाम चर y में ध्वनि नहीं होता है। याद रखें कि रैखिक प्रतिगमन सममित नहीं है: x से y की पूर्वानुमानित करने के लिए सबसे उपयुक्त रेखा (सामान्य रैखिक प्रतिगमन) y से x की पूर्वानुमानित करने के लिए सर्वोत्तम फिट की रेखा के समान नहीं है।[1]

स्लोप सुधार

प्रतिगमन स्लोप और अन्य प्रतिगमन गुणांक को निम्नानुसार अलग किया जा सकता है।

एक निश्चित x चर का स्थिति

यह स्थिति कि x स्थिर है, किन्तु ध्वनि से मापा जाता है, कार्यात्मक मॉडल या कार्यात्मक संबंध के रूप में जाना जाता है।[2] इसे सामान्य रूप से कुल न्यूनतम वर्ग[3] और चर-में-त्रुटियों वाले मॉडल का उपयोग करके ठीक किया जा सकता है।

यादृच्छिक रूप से वितरित x चर का स्थिति

वह स्थिति जिसमें x चर यादृच्छिक रूप से उत्पन्न होता है, संरचनात्मक मॉडल या संरचनात्मक संबंध के रूप में जाना जाता है। उदाहरण के लिए, एक चिकित्सा अध्ययन में रोगियों को आबादी से एक नमूने के रूप में भर्ती किया जाता है, और रक्तचाप जैसी उनकी विशेषताओं को एक यादृच्छिक नमूने से उत्पन्न होने के रूप में देखा जा सकता है।

कुछ मान्यताओं (सामान्यतः सामान्य वितरण मान्यताओं) के तहत वास्तविक स्लोप और अपेक्षित अनुमानित स्लोप के बीच एक ज्ञात अनुपात होता है। फ्रॉस्ट और थॉम्पसन (2000) इस अनुपात का अनुमान लगाने के लिए कई विधियों की समीक्षा करते हैं और इसलिए अनुमानित स्लोप को ठीक करते हैं।[4] शब्द प्रतिगमन क्षीणन पड़ने का अनुपात, चूँकि सभी लेखकों द्वारा समान विधि से परिभाषित नहीं किया गया है, इस सामान्य दृष्टिकोण के लिए उपयोग किया जाता है, जिसमें सामान्य रैखिक प्रतिगमन फिट होता है, और फिर एक सुधार प्रयुक्त होता है। लॉन्गफोर्ड (2001) द्वारा फ्रॉस्ट एंड थॉम्पसन का उत्तर पाठक को अन्य विधियों के लिए संदर्भित करता है, x चर में परिवर्तनशीलता को स्वीकार करने के लिए प्रतिगमन मॉडल का विस्तार करता है, जिससे कोई पूर्वाग्रह उत्पन्न न हो।[5] वेन फुलर (1987) प्रतिगमन क्षीणन पड़ने के आकलन और सुधार के लिए मानक संदर्भों में से एक है।[6]

ह्यूजेस (1993) से पता चलता है कि प्रतिगमन क्षीणन पड़ने का अनुपात उत्तरजीविता मॉडल में लगभग प्रयुक्त होता है।[7] रोसनर (1992) दर्शाता है कि अनुपात विधियाँ लॉजिस्टिक प्रतिगमन मॉडल पर लगभग प्रयुक्त होती हैं।[8] कैरोल एट अल (1995) अरैखिक मॉडलों में प्रतिगमन क्षीणन पड़ने पर अधिक विवरण दें, प्रतिगमन अंशांकन विधियों के सरलतम स्थिति के रूप में प्रतिगमन क्षीणन पड़ने के अनुपात विधियों को प्रस्तुत करते हुए, जिसमें अतिरिक्त सहसंयोजक भी सम्मिलित किए जा सकते हैं।[9]

सामान्यतः, संरचनात्मक मॉडल के विधियों के लिए x चर की परिवर्तनशीलता के कुछ अनुमान की आवश्यकता होती है। इसके लिए मुख्य डेटा सेट के उप-अध्ययन में, या एक अलग डेटा सेट में, समान व्यक्तियों में x चर के बार-बार माप की आवश्यकता होगी। इस जानकारी के बिना सुधार करना संभव नहीं होगा।

एकाधिक एक्स चर

परिवर्तनशीलता (संभवतः सहसंबद्ध) के अधीन कई पूर्वसूचक चर के स्थिति का रैखिक प्रतिगमन और कुछ गैर-रैखिक प्रतिगमन मॉडल के लिए अच्छी तरह से अध्ययन किया गया है।[6][9] अन्य गैर-रैखिक मॉडल, जैसे उत्तरजीविता विश्लेषण के लिए आनुपातिक खतरों के मॉडल, परिवर्तनशीलता के अधीन केवल एक भविष्यवक्ता के साथ माने गए हैं।[7]


सहसंबंध सुधार

चार्ल्स स्पीयरमैन ने 1904 में प्रतिगमन क्षीणन पड़ने के लिए सहसंबंधों को सही करने के लिए एक प्रक्रिया विकसित की,[10] यानी, माप त्रुटि के कमजोर पड़ने वाले प्रभाव से सहसंबंध गुणांक को मुक्त करना है।[11]

मापन और सांख्यिकी में, प्रक्रिया को सहसंबंध विक्षोभ या सहसंबंध विक्षोभ भी कहा जाता है।[12] सुधार यह सुनिश्चित करता है कि चर के दो सेटों के बीच डेटा इकाइयों (उदाहरण के लिए, लोग) में पियर्सन सहसंबंध गुणांक का अनुमान इस तरह से लगाया जाता है कि उन चरों के माप में निहित त्रुटि का गणना कि जाती है।[13]


सूत्रीकरण

मान लीजिए और किसी व्यक्ति या सांख्यिकीय इकाई की दो विशेषताओं के वास्तविक मान हैं। ये मान इस धारणा के आधार पर परिवर्तनशील हैं कि वे जनसंख्या में विभिन्न सांख्यिकीय इकाइयों के लिए भिन्न हैं। मान लीजिए कि और , और के अनुमान हैं जो सीधे रूप से त्रुटि के साथ अवलोकन द्वारा या राश मॉडल जैसे माप मॉडल के अनुप्रयोग से प्राप्त किए गए हैं। चलो भी

जहाँ और अनुमान और . से जुड़ी माप त्रुटियां हैं।

अनुमानों के दो सेटों के बीच अनुमानित सहसंबंध है

जो, यह मानते हुए कि त्रुटियां एक दूसरे के साथ और सही विशेषता मानों के साथ असंबद्ध हैं, देता है


जहां के अनुमानों के सेट का पृथक्करण सूचकांक है, जो क्रोनबैक के अल्फा के अनुरूप है; अर्थात्, मौलिक परीक्षण सिद्धांत के संदर्भ में, एक विश्वसनीयता गुणांक के अनुरूप है। विशेष रूप से, पृथक्करण सूचकांक इस प्रकार दिया गया है:

जहां व्यक्ति अनुमान की माध्य वर्ग मानक त्रुटि त्रुटियों के विचरण का अनुमान देती है। मानक त्रुटियाँ आम तौर पर अनुमान प्रक्रिया के उप-उत्पाद के रूप में उत्पन्न होती हैं (रैश मॉडल अनुमान देखें)।

पैरामीटर अनुमानों के दो सेटों के बीच सहसंबंध का असतत अनुमान इसलिए है

अर्थात्, अनुमानों के दो सेटों के पृथक्करण सूचकांकों के ज्यामितीय माध्य द्वारा अनुमानों के बीच सहसंबंध को विभाजित करके असंतुष्ट सहसंबंध अनुमान प्राप्त किया जाता है। मौलिक परीक्षण सिद्धांत के संदर्भ में व्यक्त, सहसंबंध को दो परीक्षणों की विश्वसनीयता गुणांक के ज्यामितीय माध्य से विभाजित किया गया है।

दो यादृच्छिक चर और को मापे गए सहसंबंध के साथ और के रूप में मापा गया है और प्रत्येक चर, और के लिए एक ज्ञात विश्वसनीयता दी गई है, के बीच अनुमानित सहसंबंध है और क्षीणन के लिए सही किया गया है

.

कितनी अच्छी तरह चर मापा जाता है एक्स और y के सहसंबंध को प्रभावित करता है। क्षीणन के लिए सुधार एक को बताता है कि अनुमानित सहसंबंध क्या होने की उम्मीद है यदि कोई एक्स 'और y' को सही विश्वसनीयता के साथ माप सकता है।

इस प्रकार यदि और को स्वतंत्र त्रुटियों के साथ अंतर्निहित चर और का अपूर्ण माप माना जाता है, तो और के बीच सही सहसंबंध का अनुमान लगाता है।

क्या सुधार आवश्यक है?

प्रतिगमन गुणांक के आधार पर सांख्यिकीय अनुमान में, हाँ; पूर्वानुमानित मॉडलिंग अनुप्रयोगों में, सुधार न तो आवश्यक है और न ही उचित है। इसे समझने के लिए माप त्रुटि पर विचार करें। मान लीजिए कि y परिणाम चर है, x सच्चा भविष्यवक्ता चर है, और w x का अनुमानित अवलोकन है। उदाहरण के लिए, फ्रॉस्ट और थॉम्पसन सुझाव देते हैं कि x एक मरीज का वास्तविक दीर्घकालिक रक्तचाप हो सकता है और w क्लिनिक में एक विशेष रूप पर देखा गया रक्तचाप हो सकता है।[4] यदि हम y और x के बीच संबंध में रुचि रखते हैं, किन्तु y और w के बीच संबंध का अनुमान लगाते हैं, तो प्रतिगमन क्षीणन पड़ जाता है। क्योंकि w को परिवर्तनशीलता के साथ मापा जाता है, w पर y की प्रतिगमन रेखा का स्लोप x पर y की प्रतिगमन रेखा से कम होता है।

क्या यह मायने रखता है? पूर्वानुमानित मॉडलिंग में, नहीं मानक विधियाँ पूर्वाग्रह के बिना w पर y के प्रतिगमन को फिट कर सकती हैं। पूर्वाग्रह तभी होता है जब हम w पर y के प्रतिगमन का उपयोग x पर y के प्रतिगमन के सन्निकटन के रूप में करते हैं। उदाहरण में यह मानते हुए कि भविष्य के रोगियों में रक्तचाप माप समान रूप से परिवर्तनशील हैं, w पर y की हमारी प्रतिगमन रेखा (रक्तचाप मनाया गया) निष्पक्ष पूर्वानुमानित देती है।

ऐसी परिस्थिति का एक उदाहरण जिसमें सुधार वांछित है, परिवर्तन की पूर्वानुमानित है। मान लीजिए कि x में परिवर्तन कुछ नई परिस्थितियों में जाना जाता है: एक परिणाम चर y में संभावित परिवर्तन का अनुमान लगाने के लिए, x पर y के प्रतिगमन की स्लोप की आवश्यकता है, न कि w पर y की है यह महामारी विज्ञान में उत्पन्न होता है। उस उदाहरण को जारी रखने के लिए जिसमें एक्स रक्तचाप को दर्शाता है, संभवतः एक बड़े नैदानिक ​​परीक्षण ने एक नए उपचार के तहत रक्तचाप में परिवर्तन का अनुमान प्रदान किया है; तो नए उपचार के तहत y पर संभावित प्रभाव का अनुमान x पर y के प्रतिगमन में स्लोप से लगाया जाना चाहिए।

एक अन्य परिस्थिति पूर्वानुमानित मॉडलिंग है जिसमें भविष्य के अवलोकन भी परिवर्तनशील होते हैं, किन्तु (ऊपर प्रयुक्त वाक्यांश में) समान रूप से परिवर्तनशील नहीं होते हैं। उदाहरण के लिए, यदि वर्तमान डेटा सेट में नैदानिक ​​​​अभ्यास में सामान्य से अधिक स्पष्टता के साथ मापा गया रक्तचाप सम्मिलित है। इसका एक विशिष्ट उदाहरण नैदानिक ​​परीक्षण के आधार पर एक प्रतिगमन समीकरण विकसित करते समय सामने आया, जिसमें रक्तचाप नैदानिक ​​​​अभ्यास में उपयोग के लिए छह मापों का औसत था, जहां रक्तचाप सामान्यतः एक माप होता है।[14]


चेतावनी

इन सभी परिणामों को गणितीय रूप से दिखाया जा सकता है, साधारण रेखीय प्रतिगमन के स्थिति में सामान्य वितरण (फ्रॉस्ट एंड थॉम्पसन के रूपरेखा ) को मानते हुए।

यह चर्चा की गई है कि प्रतिगमन क्षीणन पड़ने के लिए एक खराब निष्पादित सुधार विशेष रूप से जब अंतर्निहित धारणाओं की जांच किए बिना प्रदर्शन किया जाता है, तो सुधार की तुलना में अनुमान को अधिक हानि पहुंचा सकता है।[15]


अग्रिम पठन

Regression dilution was first mentioned, under the name attenuation, by Spearman (1904).[16] Those seeking a readable mathematical treatment might like to start with Frost and Thompson (2000).[17]

प्रतिगमन तनुकरण का उल्लेख सबसे पहले स्पीयरमैन (1904) द्वारा क्षीणन नाम से किया गया था।[16] जो लोग पठनीय गणितीय उपचार चाहते हैं वे फ्रॉस्ट और थॉम्पसन (2000) से प्रारंभ करना पसंद कर सकते हैं।[17]


यह भी देखें

संदर्भ

  1. Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. p. 19. ISBN 0-471-17082-8.
  2. Riggs, D. S.; Guarnieri, J. A.; et al. (1978). "सीधी रेखाओं को फ़िट करना जब दोनों चर त्रुटि के अधीन हों". Life Sciences. 22 (13–15): 1305–60. doi:10.1016/0024-3205(78)90098-x. PMID 661506.
  3. Golub, Gene H.; van Loan, Charles F. (1980). "टोटल लीस्ट स्क्वायर प्रॉब्लम का विश्लेषण". SIAM Journal on Numerical Analysis. Society for Industrial & Applied Mathematics (SIAM). 17 (6): 883–893. doi:10.1137/0717073. hdl:1813/6251. ISSN 0036-1429.
  4. 4.0 4.1 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.
  5. Longford, N. T. (2001). "पत्र-व्यवहार". Journal of the Royal Statistical Society, Series A. 164 (3): 565. doi:10.1111/1467-985x.00219. S2CID 247674444.
  6. 6.0 6.1 Fuller, W. A. (1987). मापन त्रुटि मॉडल. New York: Wiley. ISBN 9780470317334.
  7. 7.0 7.1 Hughes, M. D. (1993). "आनुपातिक खतरों के मॉडल में प्रतिगमन कमजोर पड़ना". Biometrics. 49 (4): 1056–1066. doi:10.2307/2532247. JSTOR 2532247. PMID 8117900.
  8. Rosner, B.; Spiegelman, D.; et al. (1992). "लॉजिस्टिक रिग्रेशन रिलेटिव रिस्क एस्टीमेट और रैंडम इन-पर्सन मेजरमेंट एरर के लिए कॉन्फिडेंस इंटरवल का सुधार". American Journal of Epidemiology. 136 (11): 1400–1403. doi:10.1093/oxfordjournals.aje.a116453. PMID 1488967.
  9. 9.0 9.1 Carroll, R. J., Ruppert, D., and Stefanski, L. A. (1995). Measurement error in non-linear models. New York, Wiley.
  10. Spearman, C. (1904). "दो चीजों के बीच संबंध का प्रमाण और माप". The American Journal of Psychology. University of Illinois Press. 15 (1): 72–101. doi:10.2307/1412159. ISSN 0002-9556. JSTOR 1412159. Retrieved 2021-07-10.
  11. Jensen, A.R. (1998). The g Factor: The Science of Mental Ability. Human evolution, behavior, and intelligence. Praeger. ISBN 978-0-275-96103-9.
  12. Osborne, Jason W. (2003-05-27). "Effect Sizes and the Disattenuation of Correlation and Regression Coefficients: Lessons from Educational Psychology". Practical Assessment, Research, and Evaluation. 8 (1). doi:10.7275/0k9h-tq64. Retrieved 2021-07-10.
  13. Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai (2017-05-08). "मानव ऊतकों में पोस्ट-ट्रांसक्रिप्शनल विनियमन". PLOS Computational Biology. 13 (5): e1005535. doi:10.1371/journal.pcbi.1005535. ISSN 1553-7358. PMC 5440056. PMID 28481885.
  14. Stevens, R. J.; Kothari, V.; Adler, A. I.; Stratton, I. M.; Holman, R. R. (2001). "Appendix to "The UKPDS Risk Engine: a model for the risk of coronary heart disease in type 2 diabetes UKPDS 56)". Clinical Science. 101: 671–679. doi:10.1042/cs20000335.
  15. Davey Smith, G.; Phillips, A. N. (1996). "Inflation in epidemiology: 'The proof and measurement of association between two things' revisited". British Medical Journal. 312 (7047): 1659–1661. doi:10.1136/bmj.312.7047.1659. PMC 2351357. PMID 8664725.
  16. 16.0 16.1 Spearman, C (1904). "The proof and measurement of association between two things". American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159. JSTOR 1412159.
  17. 17.0 17.1 Frost, C. and S. Thompson (2000). "Correcting for regression dilution bias: comparison of methods for a single predictor variable." Journal of the Royal Statistical Society Series A 163: 173–190.