डेमिंग प्रतिगमन: Difference between revisions

From Vigyanwiki
No edit summary
Line 1: Line 1:
{{Short description|Algorithm for the line of best fit for a two-dimensional dataset}}
{{Short description|Algorithm for the line of best fit for a two-dimensional dataset}}
[[Image:Total least squares.svg|thumb|डेमिंग प्रतिगमन, लाल रेखाएँ x और y दोनों में त्रुटि दर्शाती हैं। यह परंपरागत कम से कम वर्ग विधि से अलग है जो y अक्ष के समानांतर त्रुटि को मापता है। दिखाई गयी स्थिति, लंबवत रूप से मापे गए विचलन के साथ, तब उत्पन्न होती है जब x और y में समान भिन्नताएँ होती हैं।]]आंकड़ों में, डेमिंग प्रतिगमन, डब्ल्यू एडवर्ड्स डेमिंग के नाम पर, एक एरर-इन-वैरिएबल मॉडल है जो दो-आयामी डेटासेट के लिए सर्वोत्तम फिट की रेखा ढूंढने का प्रयास करता है। यह [[सरल रेखीय प्रतिगमन]] से भिन्न है जिसमें यह ''x''- और ''y''-अक्ष दोनों पर टिप्पणियों में आंकड़ों में त्रुटियों और अवशिष्टों के लिए खाता है। यह [[कुल न्यूनतम वर्ग|कुल न्यूनतम वर्गों]] का एक विशेष स्थिति है, जो भविष्यवक्ताओं की किसी भी संख्या और अधिक जटिल त्रुटि संरचना की अनुमति देता है।
[[Image:Total least squares.svg|thumb|डेमिंग प्रतिगमन, लाल रेखाएँ x और y दोनों में त्रुटि दर्शाती हैं। यह परंपरागत कम से कम वर्ग विधि से अलग है जो y अक्ष के समानांतर त्रुटि को मापता है। दिखाई गयी स्थिति, लंबवत रूप से मापे गए विचलन के साथ, तब उत्पन्न होती है जब x और y में समान भिन्नताएँ होती हैं।]]आंकड़ों में, डेमिंग प्रतिगमन, डब्ल्यू एडवर्ड्स डेमिंग के नाम पर, एरर-इन-वैरिएबल मॉडल है जो दो-आयामी डेटासेट के लिए सर्वोत्तम फिट की रेखा ढूंढने का प्रयास करता है। यह [[सरल रेखीय प्रतिगमन]] से भिन्न है जिसमें यह ''x''- और ''y''-अक्ष दोनों पर टिप्पणियों में आंकड़ों में त्रुटियों और अवशिष्टों के लिए लेखा है। यह [[कुल न्यूनतम वर्ग|कुल न्यूनतम वर्गों]] की विशेष स्थिति है, जो भविष्यवक्ताओं की किसी भी संख्या और अधिक जटिल त्रुटि संरचना की अनुमति देती है।


डेमिंग प्रतिगमन एक [[एरर-इन-वैरिएबल मॉडल]] के अधिकतम संभावना अनुमान के बराबर है जिसमें दो चर के लिए त्रुटियों को स्वतंत्र और [[सामान्य वितरण|सामान्य]] रूप से वितरित माना जाता है, और उनके प्रसरण का अनुपात, जिसे ''δ'' के रूप में निरुपित किया जाता है।''', जाना जाता है''' .{{sfn|Linnet|1993}} व्यवहार में, इस अनुपात का अनुमान संबंधित डेटा-स्रोतों से लगाया जा सकता है; चूँकि, इस अनुपात का अनुमान लगाने में संभावित त्रुटियों के लिए प्रतिगमन प्रक्रिया कोई ध्यान नहीं देती है।
डेमिंग प्रतिगमन [[एरर-इन-वैरिएबल मॉडल]] के अधिकतम संभावना अनुमान के बराबर है जिसमें दो चर के लिए त्रुटियों को स्वतंत्र और [[सामान्य वितरण|सामान्य]] रूप से वितरित माना जाता है, और उनके प्रसरण का अनुपात, जिसे ''δ'' के रूप में निरुपित किया जाता है।{{sfn|Linnet|1993}} व्यवहार में, इस अनुपात का अनुमान संबंधित डेटा-स्रोतों से लगाया जा सकता है; चूँकि, इस अनुपात का अनुमान लगाने में संभावित त्रुटियों के लिए प्रतिगमन प्रक्रिया कोई ध्यान नहीं देती है।


साधारण रेखीय प्रतिगमन की तुलना में डेमिंग प्रतिगमन की गणना करना थोड़ा अधिक कठिन है। क्लिनिकल केमिस्ट्री में उपयोग किए जाने वाले अधिकांश सांख्यिकीय सॉफ़्टवेयर पैकेज डेमिंग प्रतिगमन प्रदान करते हैं।
साधारण रेखीय प्रतिगमन की तुलना में डेमिंग प्रतिगमन की गणना करना थोड़ा अधिक कठिन है। नैदानिक रसायन में उपयोग किए जाने वाले अधिकांश सांख्यिकीय सॉफ़्टवेयर पैकेज डेमिंग प्रतिगमन प्रदान करते हैं।


मॉडल मूल रूप से {{harvtxt|एडकॉक|1878}} द्वारा प्रस्तुत किया गया था, जिन्होंने स्थिति δ = 1 पर विचार किया, और फिर अधिक सामान्य रूप से {{harvtxt|Kummell|1879}} मनमाने δ के साथ। चूँकि, उनके विचार 50 से अधिक वर्षों तक बड़े पैमाने पर किसी के ध्यान नहीं रहे, जब तक कि उन्हें {{harvtxt|कोपमैन्स|1936}} द्वारा पुनर्जीवित नहीं किया गया और बाद में {{harvtxt|डेमिंग|1943}} द्वारा और भी अधिक प्रचारित किया गया। '''उनके''' '''विचारों को 50 से अधिक वर्षों तक काफी हद तक किसी का ध्यान नहीं गया, जब तक कि उन्हें  और बाद में और भी प्रचारित किया .''' बाद की पुस्तक [[ नैदानिक ​​रसायन विज्ञान ]] और संबंधित क्षेत्रों में इतनी लोकप्रिय हो गई कि इस पद्धति को उन क्षेत्रों में डेमिंग प्रतिगमन भी कहा जाने लगा।।{{sfn|Cornbleet|Gochman|1979}}
मॉडल मूल रूप से {{harvtxt|एडकॉक|1878}} द्वारा प्रस्तुत किया गया था, जिन्होंने स्थिति δ = 1 पर विचार किया, और फिर अधिक सामान्य रूप से {{harvtxt|कुम्मेल|1879}} द्वारा इच्छानुसार δ के साथ प्रस्तुत किया गया था। चूँकि, उनके विचार 50 से अधिक वर्षों तक बड़े पैमाने पर किसी के ध्यान नहीं रहे, जब तक कि उन्हें {{harvtxt|कोपमैन्स|1936}} द्वारा पुनर्जीवित नहीं किया गया और बाद में {{harvtxt|डेमिंग|1943}} द्वारा और भी अधिक प्रचारित किया गया। बाद की पुस्तक [[ नैदानिक ​​रसायन विज्ञान |नैदानिक ​​रसायन विज्ञान]] और संबंधित क्षेत्रों में इतनी लोकप्रिय हो गई कि इस पद्धति को उन क्षेत्रों में डेमिंग प्रतिगमन भी कहा जाने लगा था।{{sfn|Cornbleet|Gochman|1979}}


== विशिष्टता ==
== विशिष्टता ==
Line 17: Line 17:
जहां त्रुटियां ε और η स्वतंत्र हैं और उनके भिन्नताओं का अनुपात ज्ञात माना जाता है:
जहां त्रुटियां ε और η स्वतंत्र हैं और उनके भिन्नताओं का अनुपात ज्ञात माना जाता है:
: <math> \delta = \frac{\sigma_\varepsilon^2}{\sigma_\eta^2}. </math>
: <math> \delta = \frac{\sigma_\varepsilon^2}{\sigma_\eta^2}. </math>
व्यवहार में, अनुपात के भिन्न <math>x</math> और <math>y</math> पैरामीटर अधिकांशतः अज्ञात होते हैं, जो <math> \delta </math> के अनुमान को जटिल बनाता है। ध्यान दें कि जब माप पद्धति के लिए <math>x</math> और <math>y</math> समान है, इन भिन्नताओं के बराबर होने की संभावना है, इसलिए <math> \delta = 1 </math> इस स्थिति के लिए, '''प्रसरण समान होने की संभावना है, इसलिए <math> \delta = 1 </math> इस स्थिति के लिए'''।
व्यवहार में, अनुपात के भिन्न <math>x</math> और <math>y</math> पैरामीटर अधिकांशतः अज्ञात होते हैं, जो <math> \delta </math> के अनुमान को जटिल बनाता है। ध्यान दें कि जब माप पद्धति के लिए <math>x</math> और <math>y</math> समान है, इन भिन्नताओं के बराबर होने की संभावना है, इसलिए <math> \delta = 1 </math> इस स्थिति के लिए,


हम "सर्वोत्तम फिट" की रेखा ढूँढना चाहते हैं:
हम "सर्वोत्तम फिट" की रेखा ढूँढना चाहते हैं:
Line 23: Line 23:
जैसे कि मॉडल के वर्गित अवशेषों का भारित योग कम से कम हो:{{sfn|Fuller|1987|loc=Ch. 1.3.3}}
जैसे कि मॉडल के वर्गित अवशेषों का भारित योग कम से कम हो:{{sfn|Fuller|1987|loc=Ch. 1.3.3}}
: <math>SSR = \sum_{i=1}^n\bigg(\frac{\varepsilon_i^2}{\sigma_\varepsilon^2} + \frac{\eta_i^2}{\sigma_\eta^2}\bigg) = \frac{1}{\sigma_\varepsilon^2} \sum_{i=1}^n\Big((y_i-\beta_0-\beta_1x^*_i)^2 + \delta(x_i-x^*_i)^2\Big) \ \to\ \min_{\beta_0,\beta_1,x_1^*,\ldots,x_n^*} SSR</math>
: <math>SSR = \sum_{i=1}^n\bigg(\frac{\varepsilon_i^2}{\sigma_\varepsilon^2} + \frac{\eta_i^2}{\sigma_\eta^2}\bigg) = \frac{1}{\sigma_\varepsilon^2} \sum_{i=1}^n\Big((y_i-\beta_0-\beta_1x^*_i)^2 + \delta(x_i-x^*_i)^2\Big) \ \to\ \min_{\beta_0,\beta_1,x_1^*,\ldots,x_n^*} SSR</math>
'''देखना  पूर्ण व्युत्पत्ति के लिए।''' पूर्ण व्युत्पत्ति के लिए {{harvtxt|जेन्सेन|2007}} देखें।
पूर्ण व्युत्पत्ति के लिए {{harvtxt|जेन्सेन|2007}} देखें।


== समाधान ==
== समाधान ==
Line 42: Line 42:


==ऑर्थोगोनल प्रतिगमन==
==ऑर्थोगोनल प्रतिगमन==
समान त्रुटि प्रसरण की स्थिति में, अर्थात जब <math>\delta=1</math>, डेमिंग प्रतिगमन ऑर्थोगोनल प्रतिगमन बन जाता है: यह डेटा बिंदुओं से प्रतिगमन रेखा तक वर्ग लंबवत दूरी के योग को कम करता है। इस स्थिति में, प्रत्येक अवलोकन को जटिल विमान में एक बिंदु ''z<sub>j</sub>'' के रूप में निरूपित करें '''अवलोकन को बिंदु z के रूप में निरूपित करें<sub>''j''</sub> जटिल विमान में''' (अर्थात्, बिंदु (x<sub>''j''</sub>, और y<sub>''j''</sub>) को ''z<sub>j</sub>'' = ''x<sub>j</sub>'' + ''iy<sub>j</sub>'' के रूप में लिखा जाता है'''<sub>''j''</sub> = एक्स<sub>''j''</sub> + गंध<sub>''j''</sub>''' जहां ''i'' [[काल्पनिक इकाई]] है)। '''जेड के रूप में निरूपित करें''' केंद्र से डेटा बिंदुओं के वर्ग अंतर का योग (जटिल निर्देशांक में भी चिह्नित) Z के रूप में निरूपित करें, जो कि बिंदु है जिसका क्षैतिज और ऊर्ध्वाधर स्थान डेटा बिंदुओं के औसत हैं। तब:{{sfn|Minda|Phelps|2008|loc=Theorem 2.3}}
समान त्रुटि प्रसरण की स्थिति में, अर्थात जब <math>\delta=1</math>, डेमिंग प्रतिगमन ऑर्थोगोनल प्रतिगमन बन जाता है: यह डेटा बिंदुओं से प्रतिगमन रेखा तक वर्ग लंबवत दूरी के योग को कम करता है। इस स्थिति में, प्रत्येक अवलोकन को जटिल विमान में बिंदु ''z<sub>j</sub>'' के रूप में निरूपित करें (अर्थात्, बिंदु (x<sub>''j''</sub>, और y<sub>''j''</sub>) को ''z<sub>j</sub>'' = ''x<sub>j</sub>'' + ''iy<sub>j</sub>'' के रूप में लिखा जाता है, जहां ''i'' [[काल्पनिक इकाई]] है)। केंद्र से डेटा बिंदुओं के वर्ग अंतर का योग (जटिल निर्देशांक में भी चिह्नित) Z के रूप में निरूपित करें, जो कि बिंदु है जिसका क्षैतिज और ऊर्ध्वाधर स्थान डेटा बिंदुओं के औसत हैं। तब:{{sfn|Minda|Phelps|2008|loc=Theorem 2.3}}


*यदि Z = 0, तो केन्द्रक के माध्यम से प्रत्येक रेखा सर्वश्रेष्ठ ऑर्थोगोनल फिट की एक रेखा है।
*यदि Z = 0, तो केन्द्रक के माध्यम से प्रत्येक रेखा सर्वश्रेष्ठ ऑर्थोगोनल फिट की रेखा है।
*यदि Z ≠ 0, ओर्थोगोनल प्रतिगमन रेखा केन्द्रक के माध्यम से जाती है और मूल से <math>\sqrt{Z}</math> सदिश के समानांतर है।
*यदि Z ≠ 0, ओर्थोगोनल प्रतिगमन रेखा केन्द्रक के माध्यम से जाती है और मूल से <math>\sqrt{Z}</math> सदिश के समानांतर है।


Line 51: Line 51:
=== अनुप्रयोग ===
=== अनुप्रयोग ===


'''तीन [[रेखा (ज्यामिति)]] के मामले में |''' समतल में गैर-संरेख बिंदुओं की स्थिति में, इन बिंदुओं वाले [[त्रिकोण|त्रिभुज]] के शीर्षों के रूप में एक अद्वितीय '''स्टेनर इनलिप्स होता है''' [[स्टाइनर इनलिप्स]] होता है जो त्रिभुज की भुजाओं को उनके मध्यबिंदुओं पर स्पर्श करता है। इस दीर्घवृत्त की प्रमुख धुरी तीन शीर्षों के लिए ओर्थोगोनल प्रतिगमन रेखा पर पड़ती है। '''दीर्घवृत्त # दीर्घवृत्त के तत्व तीन शीर्षों के लिए ऑर्थोगोनल प्रतिगमन रेखा पर आते हैं।'''{{sfn|Minda|Phelps|2008|loc=Corollary 2.4}} दो रिपोर्टर [[सिंथेटिक जैविक सर्किट|सिंथेटिक जैविक परिपथ]] के देखे गए व्यवहार के लिए डेमिंग प्रतिगमन प्रयुक्त करने पर एक जैविक सेल के आंतरिक [[सेलुलर शोर|कोशिकीय रव]] की मात्रा निर्धारित की जा सकती है।{{sfn|Quarton|2020}}
समतल में गैर-संरेख बिंदुओं की स्थिति में, इन बिंदुओं वाले [[त्रिकोण|त्रिभुज]] के शीर्षों के रूप में अद्वितीय [[स्टाइनर इनलिप्स]] होता है जो त्रिभुज की भुजाओं को उनके मध्यबिंदुओं पर स्पर्श करता है। इस दीर्घवृत्त की प्रमुख धुरी तीन शीर्षों के लिए ओर्थोगोनल प्रतिगमन रेखा पर पड़ती है।{{sfn|Minda|Phelps|2008|loc=Corollary 2.4}} दो रिपोर्टर [[सिंथेटिक जैविक सर्किट|सिंथेटिक जैविक परिपथ]] के देखे गए व्यवहार के लिए डेमिंग प्रतिगमन प्रयुक्त करने पर जैविक सेल के आंतरिक [[सेलुलर शोर|कोशिकीय रव]] की मात्रा निर्धारित की जा सकती है।{{sfn|Quarton|2020}}


== यह भी देखें ==
== यह भी देखें ==

Revision as of 01:11, 12 March 2023

डेमिंग प्रतिगमन, लाल रेखाएँ x और y दोनों में त्रुटि दर्शाती हैं। यह परंपरागत कम से कम वर्ग विधि से अलग है जो y अक्ष के समानांतर त्रुटि को मापता है। दिखाई गयी स्थिति, लंबवत रूप से मापे गए विचलन के साथ, तब उत्पन्न होती है जब x और y में समान भिन्नताएँ होती हैं।

आंकड़ों में, डेमिंग प्रतिगमन, डब्ल्यू एडवर्ड्स डेमिंग के नाम पर, एरर-इन-वैरिएबल मॉडल है जो दो-आयामी डेटासेट के लिए सर्वोत्तम फिट की रेखा ढूंढने का प्रयास करता है। यह सरल रेखीय प्रतिगमन से भिन्न है जिसमें यह x- और y-अक्ष दोनों पर टिप्पणियों में आंकड़ों में त्रुटियों और अवशिष्टों के लिए लेखा है। यह कुल न्यूनतम वर्गों की विशेष स्थिति है, जो भविष्यवक्ताओं की किसी भी संख्या और अधिक जटिल त्रुटि संरचना की अनुमति देती है।

डेमिंग प्रतिगमन एरर-इन-वैरिएबल मॉडल के अधिकतम संभावना अनुमान के बराबर है जिसमें दो चर के लिए त्रुटियों को स्वतंत्र और सामान्य रूप से वितरित माना जाता है, और उनके प्रसरण का अनुपात, जिसे δ के रूप में निरुपित किया जाता है।[1] व्यवहार में, इस अनुपात का अनुमान संबंधित डेटा-स्रोतों से लगाया जा सकता है; चूँकि, इस अनुपात का अनुमान लगाने में संभावित त्रुटियों के लिए प्रतिगमन प्रक्रिया कोई ध्यान नहीं देती है।

साधारण रेखीय प्रतिगमन की तुलना में डेमिंग प्रतिगमन की गणना करना थोड़ा अधिक कठिन है। नैदानिक रसायन में उपयोग किए जाने वाले अधिकांश सांख्यिकीय सॉफ़्टवेयर पैकेज डेमिंग प्रतिगमन प्रदान करते हैं।

मॉडल मूल रूप से एडकॉक (1878) द्वारा प्रस्तुत किया गया था, जिन्होंने स्थिति δ = 1 पर विचार किया, और फिर अधिक सामान्य रूप से कुम्मेल (1879) द्वारा इच्छानुसार δ के साथ प्रस्तुत किया गया था। चूँकि, उनके विचार 50 से अधिक वर्षों तक बड़े पैमाने पर किसी के ध्यान नहीं रहे, जब तक कि उन्हें कोपमैन्स (1936) द्वारा पुनर्जीवित नहीं किया गया और बाद में डेमिंग (1943) द्वारा और भी अधिक प्रचारित किया गया। बाद की पुस्तक नैदानिक ​​रसायन विज्ञान और संबंधित क्षेत्रों में इतनी लोकप्रिय हो गई कि इस पद्धति को उन क्षेत्रों में डेमिंग प्रतिगमन भी कहा जाने लगा था।[2]

विशिष्टता

मान लें कि उपलब्ध डेटा (yi, xi) "वास्तविक" मानों (yi*, xi*) के मापित अवलोकन हैं, जो प्रतिगमन रेखा पर स्थित हैं:

जहां त्रुटियां ε और η स्वतंत्र हैं और उनके भिन्नताओं का अनुपात ज्ञात माना जाता है:

व्यवहार में, अनुपात के भिन्न और पैरामीटर अधिकांशतः अज्ञात होते हैं, जो के अनुमान को जटिल बनाता है। ध्यान दें कि जब माप पद्धति के लिए और समान है, इन भिन्नताओं के बराबर होने की संभावना है, इसलिए इस स्थिति के लिए,

हम "सर्वोत्तम फिट" की रेखा ढूँढना चाहते हैं:

जैसे कि मॉडल के वर्गित अवशेषों का भारित योग कम से कम हो:[3]

पूर्ण व्युत्पत्ति के लिए जेन्सेन (2007) देखें।

समाधान

समाधान को दूसरी डिग्री के नमूना क्षणों के रूप में व्यक्त किया जा सकता है। अर्थात्, हम पहले निम्नलिखित मात्राओं की गणना करते हैं (सभी राशियाँ i = 1 से n तक जाते हैं):

अंत में, मॉडल के मापदंडों का न्यूनतम-वर्ग अनुमान होगा:[4]


ऑर्थोगोनल प्रतिगमन

समान त्रुटि प्रसरण की स्थिति में, अर्थात जब , डेमिंग प्रतिगमन ऑर्थोगोनल प्रतिगमन बन जाता है: यह डेटा बिंदुओं से प्रतिगमन रेखा तक वर्ग लंबवत दूरी के योग को कम करता है। इस स्थिति में, प्रत्येक अवलोकन को जटिल विमान में बिंदु zj के रूप में निरूपित करें (अर्थात्, बिंदु (xj, और yj) को zj = xj + iyj के रूप में लिखा जाता है, जहां i काल्पनिक इकाई है)। केंद्र से डेटा बिंदुओं के वर्ग अंतर का योग (जटिल निर्देशांक में भी चिह्नित) Z के रूप में निरूपित करें, जो कि बिंदु है जिसका क्षैतिज और ऊर्ध्वाधर स्थान डेटा बिंदुओं के औसत हैं। तब:[5]

  • यदि Z = 0, तो केन्द्रक के माध्यम से प्रत्येक रेखा सर्वश्रेष्ठ ऑर्थोगोनल फिट की रेखा है।
  • यदि Z ≠ 0, ओर्थोगोनल प्रतिगमन रेखा केन्द्रक के माध्यम से जाती है और मूल से सदिश के समानांतर है।

1913 में कूलिज द्वारा ऑर्थोगोनल प्रतिगमन रेखा का त्रिकोणमिति प्रतिनिधित्व दिया गया था।[6]

अनुप्रयोग

समतल में गैर-संरेख बिंदुओं की स्थिति में, इन बिंदुओं वाले त्रिभुज के शीर्षों के रूप में अद्वितीय स्टाइनर इनलिप्स होता है जो त्रिभुज की भुजाओं को उनके मध्यबिंदुओं पर स्पर्श करता है। इस दीर्घवृत्त की प्रमुख धुरी तीन शीर्षों के लिए ओर्थोगोनल प्रतिगमन रेखा पर पड़ती है।[7] दो रिपोर्टर सिंथेटिक जैविक परिपथ के देखे गए व्यवहार के लिए डेमिंग प्रतिगमन प्रयुक्त करने पर जैविक सेल के आंतरिक कोशिकीय रव की मात्रा निर्धारित की जा सकती है।[8]

यह भी देखें

संदर्भ

Notes
Bibliography