डेमिंग प्रतिगमन: Difference between revisions
No edit summary |
|||
Line 17: | Line 17: | ||
जहां त्रुटियां ε और η स्वतंत्र हैं और उनके भिन्नताओं का अनुपात ज्ञात माना जाता है: | जहां त्रुटियां ε और η स्वतंत्र हैं और उनके भिन्नताओं का अनुपात ज्ञात माना जाता है: | ||
: <math> \delta = \frac{\sigma_\varepsilon^2}{\sigma_\eta^2}. </math> | : <math> \delta = \frac{\sigma_\varepsilon^2}{\sigma_\eta^2}. </math> | ||
व्यवहार में, के भिन्न <math>x</math> और <math>y</math> पैरामीटर | व्यवहार में, अनुपात के भिन्न <math>x</math> और <math>y</math> पैरामीटर अधिकांशतः अज्ञात होते हैं, जो <math> \delta </math> के अनुमान को जटिल बनाता है। ध्यान दें कि जब माप पद्धति के लिए <math>x</math> और <math>y</math> समान है, इन भिन्नताओं के बराबर होने की संभावना है, इसलिए <math> \delta = 1 </math> इस स्थिति के लिए, '''प्रसरण समान होने की संभावना है, इसलिए <math> \delta = 1 </math> इस स्थिति के लिए'''। | ||
हम सर्वोत्तम फिट की रेखा | हम "सर्वोत्तम फिट" की रेखा ढूँढना चाहते हैं: | ||
: <math>y^* = \beta_0 + \beta_1 x^*,</math> | : <math>y^* = \beta_0 + \beta_1 x^*,</math> | ||
जैसे कि मॉडल के वर्गित अवशेषों का भारित योग कम से कम हो:{{sfn|Fuller|1987|loc=Ch. 1.3.3}} | जैसे कि मॉडल के वर्गित अवशेषों का भारित योग कम से कम हो:{{sfn|Fuller|1987|loc=Ch. 1.3.3}} | ||
: <math>SSR = \sum_{i=1}^n\bigg(\frac{\varepsilon_i^2}{\sigma_\varepsilon^2} + \frac{\eta_i^2}{\sigma_\eta^2}\bigg) = \frac{1}{\sigma_\varepsilon^2} \sum_{i=1}^n\Big((y_i-\beta_0-\beta_1x^*_i)^2 + \delta(x_i-x^*_i)^2\Big) \ \to\ \min_{\beta_0,\beta_1,x_1^*,\ldots,x_n^*} SSR</math> | : <math>SSR = \sum_{i=1}^n\bigg(\frac{\varepsilon_i^2}{\sigma_\varepsilon^2} + \frac{\eta_i^2}{\sigma_\eta^2}\bigg) = \frac{1}{\sigma_\varepsilon^2} \sum_{i=1}^n\Big((y_i-\beta_0-\beta_1x^*_i)^2 + \delta(x_i-x^*_i)^2\Big) \ \to\ \min_{\beta_0,\beta_1,x_1^*,\ldots,x_n^*} SSR</math> | ||
देखना {{harvtxt| | '''देखना पूर्ण व्युत्पत्ति के लिए।''' पूर्ण व्युत्पत्ति के लिए {{harvtxt|जेन्सेन|2007}} देखें। | ||
== समाधान == | == समाधान == | ||
समाधान को दूसरी डिग्री के नमूना क्षणों के रूप में व्यक्त किया जा सकता है। | समाधान को दूसरी डिग्री के नमूना क्षणों के रूप में व्यक्त किया जा सकता है। अर्थात्, हम पहले निम्नलिखित मात्राओं की गणना करते हैं (सभी राशियाँ ''i = 1'' से ''n'' तक जाते हैं): | ||
: <math>\begin{align} | : <math>\begin{align} | ||
& \overline{x} = \frac{1}{n}\sum x_i, \quad \overline{y} = \frac{1}{n}\sum y_i, \\ | & \overline{x} = \frac{1}{n}\sum x_i, \quad \overline{y} = \frac{1}{n}\sum y_i, \\ | ||
Line 33: | Line 33: | ||
& s_{yy} = \tfrac{1}{n}\sum (y_i-\overline{y})^2. | & s_{yy} = \tfrac{1}{n}\sum (y_i-\overline{y})^2. | ||
\end{align}</math> | \end{align}</math> | ||
अंत में, मॉडल के मापदंडों का न्यूनतम-वर्ग अनुमान होगा{{sfn|Glaister|2001}} | अंत में, मॉडल के मापदंडों का न्यूनतम-वर्ग अनुमान होगा:{{sfn|Glaister|2001}} | ||
: <math>\begin{align} | : <math>\begin{align} | ||
& \hat\beta_1 = \frac{s_{yy}-\delta s_{xx} + \sqrt{(s_{yy}-\delta s_{xx})^2 + 4\delta s_{xy}^2}}{2s_{xy}}, \\ | & \hat\beta_1 = \frac{s_{yy}-\delta s_{xx} + \sqrt{(s_{yy}-\delta s_{xx})^2 + 4\delta s_{xy}^2}}{2s_{xy}}, \\ | ||
Line 42: | Line 42: | ||
==ऑर्थोगोनल प्रतिगमन== | ==ऑर्थोगोनल प्रतिगमन== | ||
समान त्रुटि प्रसरण | समान त्रुटि प्रसरण की स्थिति में, अर्थात जब <math>\delta=1</math>, डेमिंग प्रतिगमन ऑर्थोगोनल प्रतिगमन बन जाता है: यह डेटा बिंदुओं से प्रतिगमन रेखा तक वर्ग लंबवत दूरी के योग को कम करता है। इस स्थिति में, प्रत्येक अवलोकन को जटिल विमान में एक बिंदु ''z<sub>j</sub>'' के रूप में निरूपित करें '''अवलोकन को बिंदु z के रूप में निरूपित करें<sub>''j''</sub> जटिल विमान में''' (अर्थात्, बिंदु (x<sub>''j''</sub>, और y<sub>''j''</sub>) को ''z<sub>j</sub>'' = ''x<sub>j</sub>'' + ''iy<sub>j</sub>'' के रूप में लिखा जाता है'''<sub>''j''</sub> = एक्स<sub>''j''</sub> + गंध<sub>''j''</sub>''' जहां ''i'' [[काल्पनिक इकाई]] है)। '''जेड के रूप में निरूपित करें''' केंद्र से डेटा बिंदुओं के वर्ग अंतर का योग (जटिल निर्देशांक में भी चिह्नित) Z के रूप में निरूपित करें, जो कि बिंदु है जिसका क्षैतिज और ऊर्ध्वाधर स्थान डेटा बिंदुओं के औसत हैं। तब:{{sfn|Minda|Phelps|2008|loc=Theorem 2.3}} | ||
*यदि Z = 0, तो केन्द्रक के माध्यम से प्रत्येक रेखा सर्वश्रेष्ठ ऑर्थोगोनल फिट की एक रेखा है। | *यदि Z = 0, तो केन्द्रक के माध्यम से प्रत्येक रेखा सर्वश्रेष्ठ ऑर्थोगोनल फिट की एक रेखा है। | ||
*यदि Z ≠ 0, ओर्थोगोनल प्रतिगमन रेखा केन्द्रक के माध्यम से जाती है और मूल से | *यदि Z ≠ 0, ओर्थोगोनल प्रतिगमन रेखा केन्द्रक के माध्यम से जाती है और मूल से <math>\sqrt{Z}</math> सदिश के समानांतर है। | ||
1913 में कूलिज द्वारा ऑर्थोगोनल प्रतिगमन | 1913 में कूलिज द्वारा ऑर्थोगोनल प्रतिगमन रेखा का [[त्रिकोणमिति]] प्रतिनिधित्व दिया गया था।{{sfn|Coolidge|1913}} | ||
=== | === अनुप्रयोग === | ||
तीन [[रेखा (ज्यामिति)]] के मामले में | समतल में गैर-संरेख | '''तीन [[रेखा (ज्यामिति)]] के मामले में |''' समतल में गैर-संरेख बिंदुओं की स्थिति में, इन बिंदुओं वाले [[त्रिकोण|त्रिभुज]] के शीर्षों के रूप में एक अद्वितीय '''स्टेनर इनलिप्स होता है''' [[स्टाइनर इनलिप्स]] होता है जो त्रिभुज की भुजाओं को उनके मध्यबिंदुओं पर स्पर्श करता है। इस दीर्घवृत्त की प्रमुख धुरी तीन शीर्षों के लिए ओर्थोगोनल प्रतिगमन रेखा पर पड़ती है। '''दीर्घवृत्त # दीर्घवृत्त के तत्व तीन शीर्षों के लिए ऑर्थोगोनल प्रतिगमन रेखा पर आते हैं।'''{{sfn|Minda|Phelps|2008|loc=Corollary 2.4}} दो रिपोर्टर [[सिंथेटिक जैविक सर्किट|सिंथेटिक जैविक परिपथ]] के देखे गए व्यवहार के लिए डेमिंग प्रतिगमन प्रयुक्त करने पर एक जैविक सेल के आंतरिक [[सेलुलर शोर|कोशिकीय रव]] की मात्रा निर्धारित की जा सकती है।{{sfn|Quarton|2020}} | ||
== यह भी देखें == | == यह भी देखें == |
Revision as of 00:59, 12 March 2023
आंकड़ों में, डेमिंग प्रतिगमन, डब्ल्यू एडवर्ड्स डेमिंग के नाम पर, एक एरर-इन-वैरिएबल मॉडल है जो दो-आयामी डेटासेट के लिए सर्वोत्तम फिट की रेखा ढूंढने का प्रयास करता है। यह सरल रेखीय प्रतिगमन से भिन्न है जिसमें यह x- और y-अक्ष दोनों पर टिप्पणियों में आंकड़ों में त्रुटियों और अवशिष्टों के लिए खाता है। यह कुल न्यूनतम वर्गों का एक विशेष स्थिति है, जो भविष्यवक्ताओं की किसी भी संख्या और अधिक जटिल त्रुटि संरचना की अनुमति देता है।
डेमिंग प्रतिगमन एक एरर-इन-वैरिएबल मॉडल के अधिकतम संभावना अनुमान के बराबर है जिसमें दो चर के लिए त्रुटियों को स्वतंत्र और सामान्य रूप से वितरित माना जाता है, और उनके प्रसरण का अनुपात, जिसे δ के रूप में निरुपित किया जाता है।, जाना जाता है .[1] व्यवहार में, इस अनुपात का अनुमान संबंधित डेटा-स्रोतों से लगाया जा सकता है; चूँकि, इस अनुपात का अनुमान लगाने में संभावित त्रुटियों के लिए प्रतिगमन प्रक्रिया कोई ध्यान नहीं देती है।
साधारण रेखीय प्रतिगमन की तुलना में डेमिंग प्रतिगमन की गणना करना थोड़ा अधिक कठिन है। क्लिनिकल केमिस्ट्री में उपयोग किए जाने वाले अधिकांश सांख्यिकीय सॉफ़्टवेयर पैकेज डेमिंग प्रतिगमन प्रदान करते हैं।
मॉडल मूल रूप से एडकॉक (1878) द्वारा प्रस्तुत किया गया था, जिन्होंने स्थिति δ = 1 पर विचार किया, और फिर अधिक सामान्य रूप से Kummell (1879) मनमाने δ के साथ। चूँकि, उनके विचार 50 से अधिक वर्षों तक बड़े पैमाने पर किसी के ध्यान नहीं रहे, जब तक कि उन्हें कोपमैन्स (1936) द्वारा पुनर्जीवित नहीं किया गया और बाद में डेमिंग (1943) द्वारा और भी अधिक प्रचारित किया गया। उनके विचारों को 50 से अधिक वर्षों तक काफी हद तक किसी का ध्यान नहीं गया, जब तक कि उन्हें और बाद में और भी प्रचारित किया . बाद की पुस्तक नैदानिक रसायन विज्ञान और संबंधित क्षेत्रों में इतनी लोकप्रिय हो गई कि इस पद्धति को उन क्षेत्रों में डेमिंग प्रतिगमन भी कहा जाने लगा।।[2]
विशिष्टता
मान लें कि उपलब्ध डेटा (yi, xi) "वास्तविक" मानों (yi*, xi*) के मापित अवलोकन हैं, जो प्रतिगमन रेखा पर स्थित हैं:
जहां त्रुटियां ε और η स्वतंत्र हैं और उनके भिन्नताओं का अनुपात ज्ञात माना जाता है:
व्यवहार में, अनुपात के भिन्न और पैरामीटर अधिकांशतः अज्ञात होते हैं, जो के अनुमान को जटिल बनाता है। ध्यान दें कि जब माप पद्धति के लिए और समान है, इन भिन्नताओं के बराबर होने की संभावना है, इसलिए इस स्थिति के लिए, प्रसरण समान होने की संभावना है, इसलिए इस स्थिति के लिए।
हम "सर्वोत्तम फिट" की रेखा ढूँढना चाहते हैं:
जैसे कि मॉडल के वर्गित अवशेषों का भारित योग कम से कम हो:[3]
देखना पूर्ण व्युत्पत्ति के लिए। पूर्ण व्युत्पत्ति के लिए जेन्सेन (2007) देखें।
समाधान
समाधान को दूसरी डिग्री के नमूना क्षणों के रूप में व्यक्त किया जा सकता है। अर्थात्, हम पहले निम्नलिखित मात्राओं की गणना करते हैं (सभी राशियाँ i = 1 से n तक जाते हैं):
अंत में, मॉडल के मापदंडों का न्यूनतम-वर्ग अनुमान होगा:[4]
ऑर्थोगोनल प्रतिगमन
समान त्रुटि प्रसरण की स्थिति में, अर्थात जब , डेमिंग प्रतिगमन ऑर्थोगोनल प्रतिगमन बन जाता है: यह डेटा बिंदुओं से प्रतिगमन रेखा तक वर्ग लंबवत दूरी के योग को कम करता है। इस स्थिति में, प्रत्येक अवलोकन को जटिल विमान में एक बिंदु zj के रूप में निरूपित करें अवलोकन को बिंदु z के रूप में निरूपित करेंj जटिल विमान में (अर्थात्, बिंदु (xj, और yj) को zj = xj + iyj के रूप में लिखा जाता हैj = एक्सj + गंधj जहां i काल्पनिक इकाई है)। जेड के रूप में निरूपित करें केंद्र से डेटा बिंदुओं के वर्ग अंतर का योग (जटिल निर्देशांक में भी चिह्नित) Z के रूप में निरूपित करें, जो कि बिंदु है जिसका क्षैतिज और ऊर्ध्वाधर स्थान डेटा बिंदुओं के औसत हैं। तब:[5]
- यदि Z = 0, तो केन्द्रक के माध्यम से प्रत्येक रेखा सर्वश्रेष्ठ ऑर्थोगोनल फिट की एक रेखा है।
- यदि Z ≠ 0, ओर्थोगोनल प्रतिगमन रेखा केन्द्रक के माध्यम से जाती है और मूल से सदिश के समानांतर है।
1913 में कूलिज द्वारा ऑर्थोगोनल प्रतिगमन रेखा का त्रिकोणमिति प्रतिनिधित्व दिया गया था।[6]
अनुप्रयोग
तीन रेखा (ज्यामिति) के मामले में | समतल में गैर-संरेख बिंदुओं की स्थिति में, इन बिंदुओं वाले त्रिभुज के शीर्षों के रूप में एक अद्वितीय स्टेनर इनलिप्स होता है स्टाइनर इनलिप्स होता है जो त्रिभुज की भुजाओं को उनके मध्यबिंदुओं पर स्पर्श करता है। इस दीर्घवृत्त की प्रमुख धुरी तीन शीर्षों के लिए ओर्थोगोनल प्रतिगमन रेखा पर पड़ती है। दीर्घवृत्त # दीर्घवृत्त के तत्व तीन शीर्षों के लिए ऑर्थोगोनल प्रतिगमन रेखा पर आते हैं।[7] दो रिपोर्टर सिंथेटिक जैविक परिपथ के देखे गए व्यवहार के लिए डेमिंग प्रतिगमन प्रयुक्त करने पर एक जैविक सेल के आंतरिक कोशिकीय रव की मात्रा निर्धारित की जा सकती है।[8]
यह भी देखें
संदर्भ
- Notes
- ↑ Linnet 1993.
- ↑ Cornbleet & Gochman 1979.
- ↑ Fuller 1987, Ch. 1.3.3.
- ↑ Glaister 2001.
- ↑ Minda & Phelps 2008, Theorem 2.3.
- ↑ Coolidge 1913.
- ↑ Minda & Phelps 2008, Corollary 2.4.
- ↑ Quarton 2020.
- Bibliography
- Adcock, R. J. (1878). "A problem in least squares". The Analyst. 5 (2): 53–54. doi:10.2307/2635758. JSTOR 2635758.
- Coolidge, J. L. (1913). "Two geometrical applications of the mathematics of least squares". The American Mathematical Monthly. 20 (6): 187–190. doi:10.2307/2973072. JSTOR 2973072.
- Cornbleet, P.J.; Gochman, N. (1979). "Incorrect Least–Squares Regression Coefficients". Clinical Chemistry. 25 (3): 432–438. doi:10.1093/clinchem/25.3.432. PMID 262186.
- Deming, W. E. (1943). Statistical adjustment of data. Wiley, NY (Dover Publications edition, 1985). ISBN 0-486-64685-8.
- Fuller, Wayne A. (1987). Measurement error models. John Wiley & Sons, Inc. ISBN 0-471-86187-1.
- Glaister, P. (2001). "Least squares revisited". The Mathematical Gazette. 85: 104–107. doi:10.2307/3620485. JSTOR 3620485. S2CID 125949467.
- Jensen, Anders Christian (2007). "Deming regression, MethComp package" (PDF). Gentofte, Denmark: Steno Diabetes Center.
- Koopmans, T. C. (1936). Linear regression analysis of economic time series. DeErven F. Bohn, Haarlem, Netherlands.
- Kummell, C. H. (1879). "Reduction of observation equations which contain more than one observed quantity". The Analyst. 6 (4): 97–105. doi:10.2307/2635646. JSTOR 2635646.
- Linnet, K. (1993). "Evaluation of regression procedures for method comparison studies". Clinical Chemistry. 39 (3): 424–432. doi:10.1093/clinchem/39.3.424. PMID 8448852.
- Minda, D.; Phelps, S. (2008). "Triangles, ellipses, and cubic polynomials". American Mathematical Monthly. 115 (8): 679–689. doi:10.1080/00029890.2008.11920581. MR 2456092. S2CID 15049234.
- Quarton, T. G. (2020). "Uncoupling gene expression noise along the central dogma using genome engineered human cell lines". Nucleic Acids Research. 48 (16): 9406–9413. doi:10.1093/nar/gkaa668. PMC 7498316. PMID 32810265.