डेमिंग प्रतिगमन

डेमिंग प्रतिगमन, लाल रेखाएँ x और y दोनों में त्रुटि दर्शाती हैं। यह परंपरागत कम से कम वर्ग विधि से अलग है जो y अक्ष के समानांतर त्रुटि को मापता है। दिखाई गयी स्थिति, लंबवत रूप से मापे गए विचलन के साथ, तब उत्पन्न होती है जब x और y में समान भिन्नताएँ होती हैं।

आंकड़ों में, डेमिंग प्रतिगमन, डब्ल्यू एडवर्ड्स डेमिंग के नाम पर, एरर-इन-वैरिएबल मॉडल है जो दो-आयामी डेटासेट के लिए सर्वोत्तम फिट की रेखा ढूंढने का प्रयास करता है। यह सरल रेखीय प्रतिगमन से भिन्न है जिसमें यह x- और y-अक्ष दोनों पर टिप्पणियों में आंकड़ों में त्रुटियों और अवशिष्टों के लिए लेखा है। यह कुल न्यूनतम वर्गों की विशेष स्थिति है, जो भविष्यवक्ताओं की किसी भी संख्या और अधिक जटिल त्रुटि संरचना की अनुमति देती है।

डेमिंग प्रतिगमन एरर-इन-वैरिएबल मॉडल के अधिकतम संभावना अनुमान के बराबर है जिसमें दो चर के लिए त्रुटियों को स्वतंत्र और सामान्य रूप से वितरित माना जाता है, और उनके प्रसरण का अनुपात, जिसे δ के रूप में निरुपित किया जाता है।^[1] व्यवहार में, इस अनुपात का अनुमान संबंधित डेटा-स्रोतों से लगाया जा सकता है; चूँकि, इस अनुपात का अनुमान लगाने में संभावित त्रुटियों के लिए प्रतिगमन प्रक्रिया कोई ध्यान नहीं देती है।

साधारण रेखीय प्रतिगमन की तुलना में डेमिंग प्रतिगमन की गणना करना थोड़ा अधिक कठिन है। नैदानिक रसायन में उपयोग किए जाने वाले अधिकांश सांख्यिकीय सॉफ़्टवेयर पैकेज डेमिंग प्रतिगमन प्रदान करते हैं।

मॉडल मूल रूप से एडकॉक (1878) द्वारा प्रस्तुत किया गया था, जिन्होंने स्थिति δ = 1 पर विचार किया, और फिर अधिक सामान्य रूप से कुम्मेल (1879) द्वारा इच्छानुसार δ के साथ प्रस्तुत किया गया था। चूँकि, उनके विचार 50 से अधिक वर्षों तक बड़े पैमाने पर किसी के ध्यान नहीं रहे, जब तक कि उन्हें कोपमैन्स (1936) द्वारा पुनर्जीवित नहीं किया गया और बाद में डेमिंग (1943) द्वारा और भी अधिक प्रचारित किया गया। बाद की पुस्तक नैदानिक रसायन विज्ञान और संबंधित क्षेत्रों में इतनी लोकप्रिय हो गई कि इस पद्धति को उन क्षेत्रों में डेमिंग प्रतिगमन भी कहा जाने लगा था।^[2]

विशिष्टता

मान लें कि उपलब्ध डेटा (y_i, x_i) "वास्तविक" मानों (y_i*, x_i*) के मापित अवलोकन हैं, जो प्रतिगमन रेखा पर स्थित हैं:

{\begin{aligned}y_{i}&=y_{i}^{*}+\varepsilon _{i},\\x_{i}&=x_{i}^{*}+\eta _{i},\end{aligned}}

जहां त्रुटियां ε और η स्वतंत्र हैं और उनके भिन्नताओं का अनुपात ज्ञात माना जाता है:

\delta ={\frac {\sigma _{\varepsilon }^{2}}{\sigma _{\eta }^{2}}}.

व्यवहार में, अनुपात के भिन्न $x$ और $y$ पैरामीटर अधिकांशतः अज्ञात होते हैं, जो $\delta$ के अनुमान को जटिल बनाता है। ध्यान दें कि जब माप पद्धति के लिए $x$ और $y$ समान है, इन भिन्नताओं के बराबर होने की संभावना है, इसलिए $\delta =1$ इस स्थिति के लिए,

हम "सर्वोत्तम फिट" की रेखा ढूँढना चाहते हैं:

y^{*}=\beta _{0}+\beta _{1}x^{*},

जैसे कि मॉडल के वर्गित अवशेषों का भारित योग कम से कम हो:^[3]

SSR=\sum _{i=1}^{n}{\bigg (}{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}+{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}{\bigg )}={\frac {1}{\sigma _{\varepsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{1}^{*},\ldots ,x_{n}^{*}}SSR

पूर्ण व्युत्पत्ति के लिए जेन्सेन (2007) देखें।

समाधान

समाधान को दूसरी डिग्री के नमूना क्षणों के रूप में व्यक्त किया जा सकता है। अर्थात्, हम पहले निम्नलिखित मात्राओं की गणना करते हैं (सभी राशियाँ i = 1 से n तक जाते हैं):

{\begin{aligned}&{\overline {x}}={\frac {1}{n}}\sum x_{i},\quad {\overline {y}}={\frac {1}{n}}\sum y_{i},\\&s_{xx}={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})^{2},\\&s_{xy}={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})(y_{i}-{\overline {y}}),\\&s_{yy}={\tfrac {1}{n}}\sum (y_{i}-{\overline {y}})^{2}.\end{aligned}}

अंत में, मॉडल के मापदंडों का न्यूनतम-वर्ग अनुमान होगा:^[4]

{\begin{aligned}&{\hat {\beta }}_{1}={\frac {s_{yy}-\delta s_{xx}+{\sqrt {(s_{yy}-\delta s_{xx})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}},\\&{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}},\\&{\hat {x}}_{i}^{*}=x_{i}+{\frac {{\hat {\beta }}_{1}}{{\hat {\beta }}_{1}^{2}+\delta }}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}).\end{aligned}}

ऑर्थोगोनल प्रतिगमन

समान त्रुटि प्रसरण की स्थिति में, अर्थात जब $\delta =1$ , डेमिंग प्रतिगमन ऑर्थोगोनल प्रतिगमन बन जाता है: यह डेटा बिंदुओं से प्रतिगमन रेखा तक वर्ग लंबवत दूरी के योग को कम करता है। इस स्थिति में, प्रत्येक अवलोकन को जटिल विमान में बिंदु z_j के रूप में निरूपित करें (अर्थात्, बिंदु (x_j, और y_j) को z_j = x_j + iy_j के रूप में लिखा जाता है, जहां i काल्पनिक इकाई है)। केंद्र से डेटा बिंदुओं के वर्ग अंतर का योग (जटिल निर्देशांक में भी चिह्नित) Z के रूप में निरूपित करें, जो कि बिंदु है जिसका क्षैतिज और ऊर्ध्वाधर स्थान डेटा बिंदुओं के औसत हैं। तब:^[5]

यदि Z = 0, तो केन्द्रक के माध्यम से प्रत्येक रेखा सर्वश्रेष्ठ ऑर्थोगोनल फिट की रेखा है।
यदि Z ≠ 0, ओर्थोगोनल प्रतिगमन रेखा केन्द्रक के माध्यम से जाती है और मूल से ${\sqrt {Z}}$ सदिश के समानांतर है।

1913 में कूलिज द्वारा ऑर्थोगोनल प्रतिगमन रेखा का त्रिकोणमिति प्रतिनिधित्व दिया गया था।^[6]

अनुप्रयोग

समतल में गैर-संरेख बिंदुओं की स्थिति में, इन बिंदुओं वाले त्रिभुज के शीर्षों के रूप में अद्वितीय स्टाइनर इनलिप्स होता है जो त्रिभुज की भुजाओं को उनके मध्यबिंदुओं पर स्पर्श करता है। इस दीर्घवृत्त की प्रमुख धुरी तीन शीर्षों के लिए ओर्थोगोनल प्रतिगमन रेखा पर पड़ती है।^[7] दो रिपोर्टर सिंथेटिक जैविक परिपथ के देखे गए व्यवहार के लिए डेमिंग प्रतिगमन प्रयुक्त करने पर जैविक सेल के आंतरिक कोशिकीय रव की मात्रा निर्धारित की जा सकती है।^[8]

यह भी देखें

लाइन फिटिंग

संदर्भ

Notes

↑ Linnet 1993.
↑ Cornbleet & Gochman 1979.
↑ Fuller 1987, Ch. 1.3.3.
↑ Glaister 2001.
↑ Minda & Phelps 2008, Theorem 2.3.
↑ Coolidge 1913.
↑ Minda & Phelps 2008, Corollary 2.4.
↑ Quarton 2020.

Bibliography

Adcock, R. J. (1878). "A problem in least squares". The Analyst. 5 (2): 53–54. doi:10.2307/2635758. JSTOR 2635758.
Coolidge, J. L. (1913). "Two geometrical applications of the mathematics of least squares". The American Mathematical Monthly. 20 (6): 187–190. doi:10.2307/2973072. JSTOR 2973072.
Cornbleet, P.J.; Gochman, N. (1979). "Incorrect Least–Squares Regression Coefficients". Clinical Chemistry. 25 (3): 432–438. doi:10.1093/clinchem/25.3.432. PMID 262186.
Deming, W. E. (1943). Statistical adjustment of data. Wiley, NY (Dover Publications edition, 1985). ISBN 0-486-64685-8.
Fuller, Wayne A. (1987). Measurement error models. John Wiley & Sons, Inc. ISBN 0-471-86187-1.
Glaister, P. (2001). "Least squares revisited". The Mathematical Gazette. 85: 104–107. doi:10.2307/3620485. JSTOR 3620485. S2CID 125949467.
Jensen, Anders Christian (2007). "Deming regression, MethComp package" (PDF). Gentofte, Denmark: Steno Diabetes Center.
Koopmans, T. C. (1936). Linear regression analysis of economic time series. DeErven F. Bohn, Haarlem, Netherlands.
Kummell, C. H. (1879). "Reduction of observation equations which contain more than one observed quantity". The Analyst. 6 (4): 97–105. doi:10.2307/2635646. JSTOR 2635646.
Linnet, K. (1993). "Evaluation of regression procedures for method comparison studies". Clinical Chemistry. 39 (3): 424–432. doi:10.1093/clinchem/39.3.424. PMID 8448852.
Minda, D.; Phelps, S. (2008). "Triangles, ellipses, and cubic polynomials". American Mathematical Monthly. 115 (8): 679–689. doi:10.1080/00029890.2008.11920581. MR 2456092. S2CID 15049234.
Quarton, T. G. (2020). "Uncoupling gene expression noise along the central dogma using genome engineered human cell lines". Nucleic Acids Research. 48 (16): 9406–9413. doi:10.1093/nar/gkaa668. PMC 7498316. PMID 32810265.

[FOOTNOTELinnet1993-1] Linnet 1993.

[FOOTNOTECornbleetGochman1979-2] Cornbleet & Gochman 1979.

[FOOTNOTEFuller1987Ch._1.3.3-3] Fuller 1987, Ch. 1.3.3.

[FOOTNOTEGlaister2001-4] Glaister 2001.

[FOOTNOTEMindaPhelps2008Theorem_2.3-5] Minda & Phelps 2008, Theorem 2.3.

[FOOTNOTECoolidge1913-6] Coolidge 1913.

[FOOTNOTEMindaPhelps2008Corollary_2.4-7] Minda & Phelps 2008, Corollary 2.4.

[FOOTNOTEQuarton2020-8] Quarton 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Anonymous

Search

डेमिंग प्रतिगमन

Namespaces

More

Page actions

Contents

विशिष्टता

समाधान

ऑर्थोगोनल प्रतिगमन

अनुप्रयोग

यह भी देखें

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

डेमिंग प्रतिगमन

विशिष्टता

समाधान

ऑर्थोगोनल प्रतिगमन

अनुप्रयोग

यह भी देखें

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories