प्रतिगमन सत्यापन
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
आंकड़ों में, प्रतिगमन सत्यापन यह निर्णय लेने की प्रक्रिया है कि क्या प्रतिगमन विश्लेषण से प्राप्त चरों के बीच परिकल्पित संबंधों को परिमाणित करने वाले संख्यात्मक परिणाम, डेटा के विवरण के रूप में स्वीकार्य हैं। सत्यापन प्रक्रिया में प्रतिगमन के फिट की अच्छाई का विश्लेषण करना शामिल हो सकता है, यह विश्लेषण करना कि क्या अवशिष्ट (सांख्यिकी) यादृच्छिक हैं, और यह जांचना कि क्या मॉडल के अनुमान में उपयोग नहीं किए गए डेटा पर लागू होने पर मॉडल का पूर्वानुमान प्रदर्शन काफी बिगड़ जाता है।
फिट की अच्छाई
फिट की अच्छाई का एक उपाय आर है2 (निर्धारण का गुणांक), जो इंटरसेप्ट वाले सामान्य न्यूनतम वर्गों में 0 और 1 के बीच होता है। हालांकि, एक R2 1 के करीब यह गारंटी नहीं देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है: जैसा कि Anscombe की चौकड़ी दिखाती है, एक उच्च R2 किसी संबंध के कार्यात्मक रूप के गलत विवरण की उपस्थिति में या वास्तविक संबंध को विकृत करने वाले बाह्य कारकों की उपस्थिति में हो सकता है।
आर के साथ एक समस्या2 मॉडल की वैधता के एक उपाय के रूप में यह है कि मॉडल में अधिक चर जोड़कर इसे हमेशा बढ़ाया जा सकता है, सिवाय उस असंभावित घटना के कि अतिरिक्त चर उपयोग किए जा रहे डेटा नमूने में निर्भर चर के साथ बिल्कुल असंबद्ध हैं। आर में वृद्धि के सांख्यिकीय महत्व का एफ-परीक्षण करके इस समस्या से बचा जा सकता है2, या इसके बजाय समायोजित R-वर्ग का उपयोग करके।
अवशेषों का विश्लेषण
फिट किए गए मॉडल से आँकड़ों में त्रुटियां और अवशेष व्याख्यात्मक चर के मूल्यों के प्रत्येक संयोजन पर देखी गई प्रतिक्रियाओं और प्रतिगमन फ़ंक्शन का उपयोग करके गणना की गई प्रतिक्रिया की संबंधित भविष्यवाणी के बीच अंतर हैं। गणितीय रूप से, i के लिए अवशिष्ट की परिभाषावें डेटा सेट में अवलोकन लिखा है
वाई के साथii को दर्शाता हैवां डेटा सेट में प्रतिक्रिया और xiव्याख्यात्मक चर के वेक्टर, i में पाए जाने वाले संबंधित मानों पर प्रत्येक सेटवें डेटा सेट में अवलोकन।
यदि डेटा के लिए उपयुक्त मॉडल सही थे, तो अवशिष्ट यादृच्छिक त्रुटियों का अनुमान लगाएंगे जो व्याख्यात्मक चर और प्रतिक्रिया चर के बीच एक सांख्यिकीय संबंध बनाते हैं। इसलिए, यदि अवशिष्ट बेतरतीब ढंग से व्यवहार करते दिखाई देते हैं, तो यह सुझाव देता है कि मॉडल डेटा को अच्छी तरह से फिट करता है। दूसरी ओर, यदि अवशेषों में गैर-यादृच्छिक संरचना स्पष्ट है, तो यह एक स्पष्ट संकेत है कि मॉडल डेटा को खराब तरीके से फिट करता है। अगला खंड एक मॉडल के विभिन्न पहलुओं का परीक्षण करने के लिए उपयोग किए जाने वाले भूखंडों के प्रकारों का विवरण देता है और प्रत्येक प्रकार के भूखंडों के लिए देखे जा सकने वाले विभिन्न परिणामों की सही व्याख्या करता है।
अवशिष्टों का चित्रमय विश्लेषण
एक बुनियादी, हालांकि मात्रात्मक रूप से सटीक नहीं है, एक मॉडल को अपर्याप्त प्रस्तुत करने वाली समस्याओं की जांच करने का तरीका यादृच्छिकता से स्पष्ट विचलन देखने के लिए अवशिष्टों (मॉडल को मापने में उपयोग किए गए डेटा की गलत भविष्यवाणी) की एक दृश्य परीक्षा आयोजित करना है। यदि एक दृश्य परीक्षा, उदाहरण के लिए, विषमलैंगिकता की संभावित उपस्थिति (मॉडल त्रुटियों के विचरण और एक स्वतंत्र चर के अवलोकनों के आकार के बीच एक संबंध) का सुझाव देती है, तो इस कूबड़ की पुष्टि या अस्वीकार करने के लिए सांख्यिकीय परीक्षण किए जा सकते हैं; यदि इसकी पुष्टि हो जाती है, तो विभिन्न मॉडलिंग प्रक्रियाओं को बुलाया जाता है।
फिट किए गए मॉडल से अवशेषों के विभिन्न प्रकार अंतराल साजिश मॉडल के विभिन्न पहलुओं की पर्याप्तता के बारे में जानकारी प्रदान करते हैं। मॉडल के कार्यात्मक भाग की #पर्याप्तता: अवशिष्ट बनाम भविष्यवक्ताओं के स्कैटर प्लॉट
- डेटा में गैर-निरंतर भिन्नता: अवशिष्ट बनाम भविष्यवक्ताओं के स्कैटर प्लॉट; समय के साथ एकत्र किए गए डेटा के लिए, समय के विरुद्ध अवशेषों के प्लॉट भी
- त्रुटियों में बहाव (समय के साथ एकत्र किया गया डेटा): प्रतिक्रिया और त्रुटियों बनाम समय के चार्ट चलाएं
- त्रुटियों की स्वतंत्रता: अंतराल प्लॉट
- त्रुटियों की सामान्यता: हिस्टोग्राम और सामान्य संभावना प्लॉट
मॉडल सत्यापन के लिए संख्यात्मक तरीकों पर ग्राफिकल तरीकों का लाभ होता है क्योंकि वे मॉडल और डेटा के बीच संबंधों के जटिल पहलुओं की एक विस्तृत श्रृंखला को आसानी से चित्रित करते हैं।
अवशिष्टों का मात्रात्मक विश्लेषण
मॉडल सत्यापन में संख्यात्मक तरीके भी महत्वपूर्ण भूमिका निभाते हैं। उदाहरण के लिए, फिट की अच्छाई | मॉडल के कार्यात्मक भाग की शुद्धता का आकलन करने के लिए फिट की कमी का परीक्षण एक सीमावर्ती अवशिष्ट भूखंड की व्याख्या करने में सहायता कर सकता है। एक सामान्य स्थिति जब संख्यात्मक सत्यापन विधियों को ग्राफिकल विधियों पर प्राथमिकता दी जाती है, जब अनुमानित सांख्यिकीय पैरामीटर की संख्या डेटा सेट के आकार के अपेक्षाकृत करीब होती है। इस स्थिति में अज्ञात मापदंडों के अनुमान द्वारा लगाए गए अवशेषों पर बाधाओं के कारण अवशिष्ट भूखंडों की व्याख्या करना अक्सर मुश्किल होता है। एक क्षेत्र जिसमें यह आम तौर पर होता है, डिज़ाइन किए गए प्रयोगों का उपयोग करके अनुकूलन अनुप्रयोगों में होता है। बाइनरी डेटा के साथ संभार तन्त्र परावर्तन एक अन्य क्षेत्र है जिसमें ग्राफिकल अवशिष्ट विश्लेषण मुश्किल हो सकता है।
अवशिष्टों का सीरियल सहसंबंध मॉडल के गलत विवरण का संकेत दे सकता है, और डर्बिन-वाटसन आँकड़ों के साथ इसकी जाँच की जा सकती है। हेटेरोस्केडैस्टिकिटी की समस्या को किसी भी हेटेरोस्केडैस्टिकिटी#डिटेक्शन में चेक किया जा सकता है।
आउट-ऑफ-नमूना मूल्यांकन
क्रॉस-सत्यापन यह आकलन करने की प्रक्रिया है कि कैसे एक सांख्यिकीय विश्लेषण के परिणाम एक स्वतंत्र डेटा सेट के लिए सामान्यीकृत होंगे। यदि मॉडल का अनुमान कुछ उपलब्ध आंकड़ों पर लगाया गया है, लेकिन सभी पर नहीं, तो अनुमानित मापदंडों का उपयोग करने वाले मॉडल का उपयोग हेल्ड-बैक डेटा की भविष्यवाणी करने के लिए किया जा सकता है। यदि, उदाहरण के लिए, आउट-ऑफ़-सैंपल मतलब चुकता त्रुटि, जिसे मतलब चुकता भविष्यवाणी त्रुटि के रूप में भी जाना जाता है, इन-सैंपल मीन स्क्वायर एरर से काफी अधिक है, यह मॉडल में कमी का संकेत है।
चिकित्सा सांख्यिकी में एक विकास मेटा-विश्लेषण में आउट-ऑफ़-सैंपल क्रॉस सत्यापन तकनीकों का उपयोग है। यह सत्यापन सांख्यिकी, Vn का आधार बनाता है, जिसका उपयोग मेटा-विश्लेषण सारांश अनुमानों की सांख्यिकीय वैधता का परीक्षण करने के लिए किया जाता है। अनिवार्य रूप से यह एक प्रकार की सामान्यीकृत भविष्यवाणी त्रुटि को मापता है और इसका वितरण χ का एक रैखिक संयोजन है2 डिग्री 1 के चर। [1]
यह भी देखें
- सभी मॉडल गलत हैं
- मॉडल चयन
- भविष्यवाणी त्रुटि
- भविष्यवाणी अंतराल
- पुनर्नमूनाकरण (सांख्यिकी)
- सांख्यिकीय निष्कर्ष वैधता
- सांख्यिकीय मॉडल विनिर्देश
- सांख्यिकीय मॉडल सत्यापन
- वैधता (सांख्यिकी)
- निर्धारण का गुणांक
- वर्गों का अभाव-योग्य योग
- कम ची-स्क्वायर
संदर्भ
This article needs additional citations for verification. (March 2010) (Learn how and when to remove this template message) |
- ↑ Willis BH, Riley RD (2017). "क्लिनिकल अभ्यास में उपयोग के लिए सारांश मेटा-विश्लेषण और मेटा-रिग्रेशन परिणामों की सांख्यिकीय वैधता को मापना". Statistics in Medicine. 36 (21): 3283–3301. doi:10.1002/sim.7372. PMC 5575530. PMID 28620945.
अग्रिम पठन
- Arboretti Giancristofaro, R.; Salmaso, L. (2003), "Model performance analysis and model validation in logistic regression", Statistica, 63: 375–396
- Kmenta, Jan (1986), Elements of Econometrics (Second ed.), Macmillan, pp. 593–600; republished in 1997 by University of Michigan Press
बाहरी संबंध
- How can I tell if a model fits my data? (NIST)
- NIST/SEMATECH e-Handbook of Statistical Methods
- Model Diagnostics (Eberly College of Science)
This article incorporates public domain material from the National Institute of Standards and Technology.