प्रतिगमन सत्यापन: Difference between revisions
(Created page with "{{Short description|Statistics concept}} {{Regression bar}} आंकड़ों में, प्रतिगमन सत्यापन यह निर्णय लेन...") |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Statistics concept}} | {{Short description|Statistics concept}} | ||
{{Regression bar}} | {{Regression bar}} | ||
आंकड़ों में, प्रतिगमन सत्यापन यह निर्णय लेने की प्रक्रिया है कि क्या [[प्रतिगमन विश्लेषण]] से प्राप्त चरों के बीच परिकल्पित संबंधों को परिमाणित करने वाले संख्यात्मक परिणाम, डेटा के विवरण के रूप में स्वीकार्य हैं। सत्यापन प्रक्रिया में प्रतिगमन के फिट की | आंकड़ों में, प्रतिगमन सत्यापन यह निर्णय लेने की प्रक्रिया है कि क्या [[प्रतिगमन विश्लेषण]] से प्राप्त चरों के बीच परिकल्पित संबंधों को परिमाणित करने वाले संख्यात्मक परिणाम, डेटा के विवरण के रूप में स्वीकार्य हैं। सत्यापन प्रक्रिया में प्रतिगमन के फिट की अवधारणा का विश्लेषण करना सम्मिलित हो सकता है, यह विश्लेषण करना कि क्या [[अवशिष्ट (सांख्यिकी)]] यादृच्छिक हैं, और यह जांचना कि क्या मॉडल के अनुमान में उपयोग नहीं किए गए डेटा पर लागू होने पर मॉडल का पूर्वानुमान प्रदर्शन काफी अनियंत्रित हो जाता है। | ||
== फिट | == फिट होने का निर्धारण == | ||
{{Main| | {{Main|फिट होने का निर्धारण}} | ||
फिट | फिट होने के निर्धारण का एक उपाय R<sup>2</sup> है ([[निर्धारण का गुणांक]]), जो अंतर्ग्रहण वाले सामान्य न्यूनतम वर्गों में 0 और 1 के बीच होता है। हालांकि, एक R<sup>2</sup> 1 के करीब यह निश्चितता नहीं देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है: जैसा कि अंसकोम्बे की परिकल्पना दिखाती है, एक उच्च R<sup>2</sup> किसी संबंध के कार्यात्मक रूप के गलत विवरण की उपस्थिति में या वास्तविक संबंध को विकृत करने वाले बाह्य कारकों की उपस्थिति में हो सकता है। | ||
R<sup>2</sup> के साथ एक समस्या मॉडल की वैधता के एक उपाय के रूप में यह है कि मॉडल में अधिक चर जोड़कर इसे सदैव बढ़ाया जा सकता है, सिवाय उस असंभावित घटना के कि अतिरिक्त चर उपयोग किए जा रहे डेटा नमूने में निर्भर चर के साथ बिल्कुल असंबद्ध हैं। R<sup>2</sup> में वृद्धि के सांख्यिकीय महत्व का एफ-परीक्षण करके इस समस्या से बचा जा सकता है, या इसके बजाय समायोजित R-वर्ग का उपयोग करके इसका निर्धारण किया जा सकता है। | |||
== अवशेषों का विश्लेषण == | == अवशेषों का विश्लेषण == | ||
{{Main article| | {{Main article|अवशेष विश्लेषण}} | ||
फिट किए गए मॉडल से [[आँकड़ों में त्रुटियां और अवशेष]] व्याख्यात्मक चर के मूल्यों के प्रत्येक संयोजन पर देखी गई प्रतिक्रियाओं और प्रतिगमन | फिट किए गए मॉडल से [[आँकड़ों में त्रुटियां और अवशेष]] व्याख्यात्मक चर के मूल्यों के प्रत्येक संयोजन पर देखी गई प्रतिक्रियाओं और प्रतिगमन फलन का उपयोग करके गणना की गई प्रतिक्रिया की संबंधित पूर्वधारणा के बीच अंतर हैं। गणितीय रूप से, i के लिए अवशिष्ट की परिभाषा [[डेटा सेट]] में अवलोकन निर्दिष्ट करता है, | ||
:<math> | :<math> | ||
e_i = y_i - f(x_i;\hat{\beta}), | e_i = y_i - f(x_i;\hat{\beta}), | ||
</math> | </math> | ||
y के साथ <sub>i</sub>i को दर्शाता है, डेटा सेट में प्रतिक्रिया और x<sub>i</sub> व्याख्यात्मक चर के वेक्टर, i में पाए जाने वाले संबंधित मानों पर प्रत्येक सेट डेटा सेट में अवलोकन करता है। | |||
यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं। इसलिए, यदि अवशिष्ट | यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं। इसलिए, यदि अवशिष्ट अनियंत्रित माध्यमों से व्यवहार करते दिखाई देते हैं, तो यह सुझाव देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है। दूसरी ओर, यदि अवशेषों में गैर-यादृच्छिक संरचना स्पष्ट है, तो यह एक स्पष्ट संकेत है कि मॉडल डेटा को निष्क्रिय तरीके से फिट करता है। अगला खंड एक मॉडल के विभिन्न पहलुओं का परीक्षण करने के लिए उपयोग किए जाने वाले भूखंडों के प्रकारों का विवरण देता है और प्रत्येक प्रकार के भूखंडों के लिए देखे जा सकने वाले विभिन्न परिणामों की सही व्याख्या करता है। | ||
=== अवशिष्टों का चित्रमय विश्लेषण === | === अवशिष्टों का चित्रमय विश्लेषण === | ||
{{See also| | {{See also|सांख्यिकीय रेखांकन}} | ||
फिट किए गए मॉडल से अवशेषों के विभिन्न प्रकार [[अंतराल साजिश]] मॉडल के विभिन्न पहलुओं की पर्याप्तता के बारे में जानकारी प्रदान करते हैं। | एक बुनियादी, हालांकि मात्रात्मक रूप से सटीक नहीं है, एक मॉडल को अपर्याप्त प्रस्तुत करने वाली समस्याओं की जांच करने का तरीका यादृच्छिकता से स्पष्ट विचलन देखने के लिए अवशिष्टों (मॉडल को मापने में उपयोग किए गए डेटा की गलत पूर्वधारणा) की एक दृश्य परीक्षा आयोजित करना है। यदि एक दृश्य परीक्षा, उदाहरण के लिए, [[विषमलैंगिकता|हेटेरोस्केडिस्टिक]] की संभावित उपस्थिति (मॉडल त्रुटियों के विचरण और एक स्वतंत्र चर के अवलोकनों के आकार के बीच एक संबंध) का सुझाव देती है, तो इस अनुमान की पुष्टि या अस्वीकार करने के लिए सांख्यिकीय परीक्षण किए जा सकते हैं; यदि इसकी पुष्टि हो जाती है, तो विभिन्न मॉडलिंग प्रक्रियाओं को बुलाया जाता है। यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं। | ||
मॉडल के कार्यात्मक भाग की | |||
# डेटा में गैर-निरंतर भिन्नता: अवशिष्ट बनाम भविष्यवक्ताओं के | फिट किए गए मॉडल से अवशेषों के विभिन्न प्रकार [[अंतराल साजिश|अंतराल भूखंड]] मॉडल के विभिन्न पहलुओं की पर्याप्तता के बारे में जानकारी प्रदान करते हैं। | ||
# त्रुटियों में | |||
मॉडल के कार्यात्मक भाग की पर्याप्तता: अवशिष्ट बनाम भविष्यवक्ताओं के [[स्कैटर प्लॉट|अदिश प्लॉट]] | |||
# डेटा में गैर-निरंतर भिन्नता: अवशिष्ट बनाम भविष्यवक्ताओं के अदिश प्लॉट; समय के साथ एकत्र किए गए डेटा के लिए, समय के विरुद्ध अवशेषों के प्लॉट | |||
# त्रुटियों में निरंतरता (समय के साथ एकत्र किया गया डेटा): प्रतिक्रिया और त्रुटियों बनाम समय के चार्ट | |||
#त्रुटियों की स्वतंत्रता: अंतराल प्लॉट | #त्रुटियों की स्वतंत्रता: अंतराल प्लॉट | ||
#त्रुटियों की सामान्यता: [[हिस्टोग्राम]] और [[सामान्य संभावना प्लॉट]] | #त्रुटियों की सामान्यता: [[हिस्टोग्राम]] और [[सामान्य संभावना प्लॉट]] | ||
Line 33: | Line 35: | ||
=== अवशिष्टों का मात्रात्मक विश्लेषण === | === अवशिष्टों का मात्रात्मक विश्लेषण === | ||
{{Main| | {{Main|रिग्रेशन डायग्नोस्टिक}} | ||
मॉडल सत्यापन में संख्यात्मक तरीके भी महत्वपूर्ण भूमिका निभाते हैं। उदाहरण के लिए, फिट की | |||
मॉडल सत्यापन में संख्यात्मक तरीके भी महत्वपूर्ण भूमिका निभाते हैं। उदाहरण के लिए, फिट की अवधारणा मॉडल के कार्यात्मक भाग की शुद्धता का आकलन करने के लिए फिट की कमी का परीक्षण एक सीमावर्ती अवशिष्ट भूखंड की व्याख्या करने में सहायता कर सकता है। एक सामान्य स्थिति जब संख्यात्मक सत्यापन विधियों को ग्राफिकल विधियों पर प्राथमिकता दी जाती है, जब अनुमानित [[सांख्यिकीय पैरामीटर]] की संख्या डेटा सेट के आकार के अपेक्षाकृत करीब होती है। इस स्थिति में अज्ञात मापदंडों के अनुमान द्वारा लगाए गए अवशेषों पर बाधाओं के कारण अवशिष्ट भूखंडों की व्याख्या करना प्रायः मुश्किल होता है। एक क्षेत्र जिसमें यह सामान्यतः होता है, डिज़ाइन किए गए प्रयोगों का उपयोग करके अनुकूलन अनुप्रयोगों में होता है। [[बाइनरी डेटा]] के साथ [[ संभार तन्त्र परावर्तन |संभार तन्त्र परावर्तन]] एक अन्य क्षेत्र है जिसमें ग्राफिकल अवशिष्ट विश्लेषण मुश्किल हो सकता है। यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं। | |||
अवशिष्टों का | अवशिष्टों का आनुक्रमिक सहसंबंध मॉडल के गलत विवरण का संकेत दे सकता है, और इसे डर्बिन-वाटसन सांख्यिकी के साथ जांचा जा सकता है। [[विषमलैंगिकता|हेटेरोस्केडिस्टिक]] की समस्या को कई तरीकों से जांचा जा सकता है। | ||
<!--here, should talk about | <!--here, should talk about | ||
significant terms missing/misspecified in the functional part of the model | significant terms missing/misspecified in the functional part of the model | ||
Line 44: | Line 47: | ||
== आउट-ऑफ-नमूना मूल्यांकन == | == आउट-ऑफ-नमूना मूल्यांकन == | ||
{{main| | {{main|क्रॉस-वैलिडेशन (सांख्यिकी){{!}}क्रॉस-वैलिडेशन}} | ||
क्रॉस-सत्यापन यह आकलन करने की प्रक्रिया है कि कैसे एक सांख्यिकीय विश्लेषण के परिणाम एक स्वतंत्र डेटा सेट के लिए सामान्यीकृत होंगे। यदि मॉडल का अनुमान कुछ उपलब्ध आंकड़ों पर लगाया गया है, लेकिन सभी पर नहीं, तो अनुमानित मापदंडों का उपयोग करने वाले मॉडल का उपयोग हेल्ड-बैक डेटा की | |||
क्रॉस-सत्यापन यह आकलन करने की प्रक्रिया है कि कैसे एक सांख्यिकीय विश्लेषण के परिणाम एक स्वतंत्र डेटा सेट के लिए सामान्यीकृत होंगे। यदि मॉडल का अनुमान कुछ उपलब्ध आंकड़ों पर लगाया गया है, लेकिन सभी पर नहीं, तो अनुमानित मापदंडों का उपयोग करने वाले मॉडल का उपयोग हेल्ड-बैक डेटा की पूर्वधारणा करने के लिए किया जा सकता है। यदि, उदाहरण के लिए, आउट-ऑफ़-सैंपल [[मतलब चुकता त्रुटि|चुकता त्रुटि]], जिसे [[मतलब चुकता भविष्यवाणी त्रुटि|चुकता पूर्वधारणा त्रुटि]] के रूप में भी जाना जाता है, इन-सैंपल मीन स्क्वायर त्रुटि से काफी अधिक है, यह मॉडल में कमी का संकेत है। | |||
चिकित्सा सांख्यिकी में एक विकास मेटा-विश्लेषण में आउट-ऑफ़-सैंपल क्रॉस सत्यापन तकनीकों का उपयोग है। यह सत्यापन सांख्यिकी, Vn का आधार बनाता है, जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। अनिवार्य रूप से यह एक प्रकार की सामान्यीकृत | चिकित्सा सांख्यिकी में एक विकास मेटा-विश्लेषण में आउट-ऑफ़-सैंपल क्रॉस सत्यापन तकनीकों का उपयोग है। यह सत्यापन सांख्यिकी, Vn का आधार बनाता है, जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। अनिवार्य रूप से यह एक प्रकार की सामान्यीकृत पूर्वधारणा त्रुटि को मापता है और इसका 1 डिग्री चर वितरण χ<sup>2</sup> का एक रैखिक संयोजन है। <ref>{{cite journal | author = Willis BH, Riley RD | year = 2017 | title = क्लिनिकल अभ्यास में उपयोग के लिए सारांश मेटा-विश्लेषण और मेटा-रिग्रेशन परिणामों की सांख्यिकीय वैधता को मापना| journal = Statistics in Medicine | volume = 36 | issue = 21 | pages = 3283–3301 | doi = 10.1002/sim.7372| pmid = 28620945 | pmc = 5575530 }}</ref> | ||
Line 53: | Line 57: | ||
* [[सभी मॉडल गलत हैं]] | * [[सभी मॉडल गलत हैं]] | ||
* [[मॉडल चयन]] | * [[मॉडल चयन]] | ||
* [[भविष्यवाणी त्रुटि]] | * [[भविष्यवाणी त्रुटि|पूर्वधारणा त्रुटि]] | ||
* [[भविष्यवाणी अंतराल]] | * [[भविष्यवाणी अंतराल|पूर्वधारणा अंतराल]] | ||
* [[पुनर्नमूनाकरण (सांख्यिकी)]] | * [[पुनर्नमूनाकरण (सांख्यिकी)]] | ||
* [[सांख्यिकीय निष्कर्ष वैधता]] | * [[सांख्यिकीय निष्कर्ष वैधता]] | ||
Line 65: | Line 69: | ||
==संदर्भ== | ==संदर्भ== | ||
{{reflist}} | {{reflist}} | ||
Revision as of 17:29, 3 April 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
आंकड़ों में, प्रतिगमन सत्यापन यह निर्णय लेने की प्रक्रिया है कि क्या प्रतिगमन विश्लेषण से प्राप्त चरों के बीच परिकल्पित संबंधों को परिमाणित करने वाले संख्यात्मक परिणाम, डेटा के विवरण के रूप में स्वीकार्य हैं। सत्यापन प्रक्रिया में प्रतिगमन के फिट की अवधारणा का विश्लेषण करना सम्मिलित हो सकता है, यह विश्लेषण करना कि क्या अवशिष्ट (सांख्यिकी) यादृच्छिक हैं, और यह जांचना कि क्या मॉडल के अनुमान में उपयोग नहीं किए गए डेटा पर लागू होने पर मॉडल का पूर्वानुमान प्रदर्शन काफी अनियंत्रित हो जाता है।
फिट होने का निर्धारण
फिट होने के निर्धारण का एक उपाय R2 है (निर्धारण का गुणांक), जो अंतर्ग्रहण वाले सामान्य न्यूनतम वर्गों में 0 और 1 के बीच होता है। हालांकि, एक R2 1 के करीब यह निश्चितता नहीं देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है: जैसा कि अंसकोम्बे की परिकल्पना दिखाती है, एक उच्च R2 किसी संबंध के कार्यात्मक रूप के गलत विवरण की उपस्थिति में या वास्तविक संबंध को विकृत करने वाले बाह्य कारकों की उपस्थिति में हो सकता है।
R2 के साथ एक समस्या मॉडल की वैधता के एक उपाय के रूप में यह है कि मॉडल में अधिक चर जोड़कर इसे सदैव बढ़ाया जा सकता है, सिवाय उस असंभावित घटना के कि अतिरिक्त चर उपयोग किए जा रहे डेटा नमूने में निर्भर चर के साथ बिल्कुल असंबद्ध हैं। R2 में वृद्धि के सांख्यिकीय महत्व का एफ-परीक्षण करके इस समस्या से बचा जा सकता है, या इसके बजाय समायोजित R-वर्ग का उपयोग करके इसका निर्धारण किया जा सकता है।
अवशेषों का विश्लेषण
फिट किए गए मॉडल से आँकड़ों में त्रुटियां और अवशेष व्याख्यात्मक चर के मूल्यों के प्रत्येक संयोजन पर देखी गई प्रतिक्रियाओं और प्रतिगमन फलन का उपयोग करके गणना की गई प्रतिक्रिया की संबंधित पूर्वधारणा के बीच अंतर हैं। गणितीय रूप से, i के लिए अवशिष्ट की परिभाषा डेटा सेट में अवलोकन निर्दिष्ट करता है,
y के साथ ii को दर्शाता है, डेटा सेट में प्रतिक्रिया और xi व्याख्यात्मक चर के वेक्टर, i में पाए जाने वाले संबंधित मानों पर प्रत्येक सेट डेटा सेट में अवलोकन करता है।
यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं। इसलिए, यदि अवशिष्ट अनियंत्रित माध्यमों से व्यवहार करते दिखाई देते हैं, तो यह सुझाव देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है। दूसरी ओर, यदि अवशेषों में गैर-यादृच्छिक संरचना स्पष्ट है, तो यह एक स्पष्ट संकेत है कि मॉडल डेटा को निष्क्रिय तरीके से फिट करता है। अगला खंड एक मॉडल के विभिन्न पहलुओं का परीक्षण करने के लिए उपयोग किए जाने वाले भूखंडों के प्रकारों का विवरण देता है और प्रत्येक प्रकार के भूखंडों के लिए देखे जा सकने वाले विभिन्न परिणामों की सही व्याख्या करता है।
अवशिष्टों का चित्रमय विश्लेषण
एक बुनियादी, हालांकि मात्रात्मक रूप से सटीक नहीं है, एक मॉडल को अपर्याप्त प्रस्तुत करने वाली समस्याओं की जांच करने का तरीका यादृच्छिकता से स्पष्ट विचलन देखने के लिए अवशिष्टों (मॉडल को मापने में उपयोग किए गए डेटा की गलत पूर्वधारणा) की एक दृश्य परीक्षा आयोजित करना है। यदि एक दृश्य परीक्षा, उदाहरण के लिए, हेटेरोस्केडिस्टिक की संभावित उपस्थिति (मॉडल त्रुटियों के विचरण और एक स्वतंत्र चर के अवलोकनों के आकार के बीच एक संबंध) का सुझाव देती है, तो इस अनुमान की पुष्टि या अस्वीकार करने के लिए सांख्यिकीय परीक्षण किए जा सकते हैं; यदि इसकी पुष्टि हो जाती है, तो विभिन्न मॉडलिंग प्रक्रियाओं को बुलाया जाता है। यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं।
फिट किए गए मॉडल से अवशेषों के विभिन्न प्रकार अंतराल भूखंड मॉडल के विभिन्न पहलुओं की पर्याप्तता के बारे में जानकारी प्रदान करते हैं।
मॉडल के कार्यात्मक भाग की पर्याप्तता: अवशिष्ट बनाम भविष्यवक्ताओं के अदिश प्लॉट
- डेटा में गैर-निरंतर भिन्नता: अवशिष्ट बनाम भविष्यवक्ताओं के अदिश प्लॉट; समय के साथ एकत्र किए गए डेटा के लिए, समय के विरुद्ध अवशेषों के प्लॉट
- त्रुटियों में निरंतरता (समय के साथ एकत्र किया गया डेटा): प्रतिक्रिया और त्रुटियों बनाम समय के चार्ट
- त्रुटियों की स्वतंत्रता: अंतराल प्लॉट
- त्रुटियों की सामान्यता: हिस्टोग्राम और सामान्य संभावना प्लॉट
मॉडल सत्यापन के लिए संख्यात्मक तरीकों पर ग्राफिकल तरीकों का लाभ होता है क्योंकि वे मॉडल और डेटा के बीच संबंधों के जटिल पहलुओं की एक विस्तृत श्रृंखला को आसानी से चित्रित करते हैं।
अवशिष्टों का मात्रात्मक विश्लेषण
मॉडल सत्यापन में संख्यात्मक तरीके भी महत्वपूर्ण भूमिका निभाते हैं। उदाहरण के लिए, फिट की अवधारणा मॉडल के कार्यात्मक भाग की शुद्धता का आकलन करने के लिए फिट की कमी का परीक्षण एक सीमावर्ती अवशिष्ट भूखंड की व्याख्या करने में सहायता कर सकता है। एक सामान्य स्थिति जब संख्यात्मक सत्यापन विधियों को ग्राफिकल विधियों पर प्राथमिकता दी जाती है, जब अनुमानित सांख्यिकीय पैरामीटर की संख्या डेटा सेट के आकार के अपेक्षाकृत करीब होती है। इस स्थिति में अज्ञात मापदंडों के अनुमान द्वारा लगाए गए अवशेषों पर बाधाओं के कारण अवशिष्ट भूखंडों की व्याख्या करना प्रायः मुश्किल होता है। एक क्षेत्र जिसमें यह सामान्यतः होता है, डिज़ाइन किए गए प्रयोगों का उपयोग करके अनुकूलन अनुप्रयोगों में होता है। बाइनरी डेटा के साथ संभार तन्त्र परावर्तन एक अन्य क्षेत्र है जिसमें ग्राफिकल अवशिष्ट विश्लेषण मुश्किल हो सकता है। यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं।
अवशिष्टों का आनुक्रमिक सहसंबंध मॉडल के गलत विवरण का संकेत दे सकता है, और इसे डर्बिन-वाटसन सांख्यिकी के साथ जांचा जा सकता है। हेटेरोस्केडिस्टिक की समस्या को कई तरीकों से जांचा जा सकता है।
आउट-ऑफ-नमूना मूल्यांकन
क्रॉस-सत्यापन यह आकलन करने की प्रक्रिया है कि कैसे एक सांख्यिकीय विश्लेषण के परिणाम एक स्वतंत्र डेटा सेट के लिए सामान्यीकृत होंगे। यदि मॉडल का अनुमान कुछ उपलब्ध आंकड़ों पर लगाया गया है, लेकिन सभी पर नहीं, तो अनुमानित मापदंडों का उपयोग करने वाले मॉडल का उपयोग हेल्ड-बैक डेटा की पूर्वधारणा करने के लिए किया जा सकता है। यदि, उदाहरण के लिए, आउट-ऑफ़-सैंपल चुकता त्रुटि, जिसे चुकता पूर्वधारणा त्रुटि के रूप में भी जाना जाता है, इन-सैंपल मीन स्क्वायर त्रुटि से काफी अधिक है, यह मॉडल में कमी का संकेत है।
चिकित्सा सांख्यिकी में एक विकास मेटा-विश्लेषण में आउट-ऑफ़-सैंपल क्रॉस सत्यापन तकनीकों का उपयोग है। यह सत्यापन सांख्यिकी, Vn का आधार बनाता है, जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। अनिवार्य रूप से यह एक प्रकार की सामान्यीकृत पूर्वधारणा त्रुटि को मापता है और इसका 1 डिग्री चर वितरण χ2 का एक रैखिक संयोजन है। [1]
यह भी देखें
- सभी मॉडल गलत हैं
- मॉडल चयन
- पूर्वधारणा त्रुटि
- पूर्वधारणा अंतराल
- पुनर्नमूनाकरण (सांख्यिकी)
- सांख्यिकीय निष्कर्ष वैधता
- सांख्यिकीय मॉडल विनिर्देश
- सांख्यिकीय मॉडल सत्यापन
- वैधता (सांख्यिकी)
- निर्धारण का गुणांक
- वर्गों का अभाव-योग्य योग
- कम ची-स्क्वायर
संदर्भ
- ↑ Willis BH, Riley RD (2017). "क्लिनिकल अभ्यास में उपयोग के लिए सारांश मेटा-विश्लेषण और मेटा-रिग्रेशन परिणामों की सांख्यिकीय वैधता को मापना". Statistics in Medicine. 36 (21): 3283–3301. doi:10.1002/sim.7372. PMC 5575530. PMID 28620945.
अग्रिम पठन
- Arboretti Giancristofaro, R.; Salmaso, L. (2003), "Model performance analysis and model validation in logistic regression", Statistica, 63: 375–396
- Kmenta, Jan (1986), Elements of Econometrics (Second ed.), Macmillan, pp. 593–600; republished in 1997 by University of Michigan Press
बाहरी संबंध
- How can I tell if a model fits my data? (NIST)
- NIST/SEMATECH e-Handbook of Statistical Methods
- Model Diagnostics (Eberly College of Science)
This article incorporates public domain material from the National Institute of Standards and Technology.