सांख्यिकीय मॉडल सत्यापन: Difference between revisions
mNo edit summary |
m (→अवलोकन) |
||
Line 1: | Line 1: | ||
सांख्यिकी में, चुना गया [[सांख्यिकीय मॉडल|सांख्यिकीय प्रतिरूपण]] उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इसलिए, एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक निरंतर रह सकता है या नहीं यह परीक्षण करने के लिए प्रतिरूपण सत्यापन का उपयोग किया जाता है। सामान्यतया, प्रतिरूपण चयन और प्रतिरूपण सत्यापन समान प्रतीत होते है जो भ्रम उत्पन्न करते है पर प्रतिरूपण चयन कि प्रक्रिया में विभिन्न उपलब्ध प्रतिरूपण के प्रकार में से किसी एक का चयन करना होता है परन्तु प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक रचना को इतना महत्व नहीं देता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए उत्पादन के बीच स्थिरता का परीक्षण करता है। | सांख्यिकी में, चुना गया [[सांख्यिकीय मॉडल|सांख्यिकीय प्रतिरूपण]] उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इसलिए, एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक निरंतर रह सकता है या नहीं यह परीक्षण करने के लिए प्रतिरूपण सत्यापन का उपयोग किया जाता है। सामान्यतया, प्रतिरूपण चयन और प्रतिरूपण सत्यापन समान प्रतीत होते है जो भ्रम उत्पन्न करते है पर प्रतिरूपण चयन कि प्रक्रिया में विभिन्न उपलब्ध प्रतिरूपण के प्रकार में से किसी एक का चयन करना होता है परन्तु प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक रचना को इतना महत्व नहीं देता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए उत्पादन के बीच स्थिरता का परीक्षण करता है। | ||
प्रतिरूपण को प्रमाणित करने के विभिन्न तरीके हैं। [[वर्गों का अवशिष्ट योग]] वास्तविक डेटा और प्रतिरूपण | प्रतिरूपण को प्रमाणित करने के विभिन्न तरीके हैं। [[वर्गों का अवशिष्ट योग]] वास्तविक डेटा और प्रतिरूपण के पूर्वानुमान के बीच भिन्नता को दर्शाता है: [[वर्गों का अवशिष्ट योग]] में सहसंबंध प्रतिरूपण में त्रुटि का संकेत दे सकता है। [[क्रॉस-सत्यापन (सांख्यिकी)]] प्रतिरूपण सत्यापन की एक विधि है जो प्रतिरूपण को पुनरावृत्त रूप से परिष्कृत करती है, हर बार केवल एक छोटा सा नमूना छोड़ती है और तुलना करती है कि क्या छोड़े गए नमूने प्रतिरूपण द्वारा अनुमानित हैं: क्रॉस-सत्यापन (सांख्यिकी) # प्रकार हैं। [[भविष्य कहनेवाला मॉडलिंग|भविष्य कहनेवाला प्रतिरूपणिंग]] का उपयोग सिम्युलेटेड डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है। बाहरी वैधता में प्रतिरूपण को नए डेटा में फ़िट करना शामिल है। Akaike सूचना मानदंड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है। | ||
== अवलोकन == | == अवलोकन == | ||
प्रतिरूपण सत्यापन विभिन्न रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध डिजाइन की बाधा होती है। जोर देने के लिए, इसका मतलब यह है कि प्रतिरूपण को प्रमाणित करने के लिए कोई एक आकार-फिट-सभी विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित सेट के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन फ्रेमवर्क का उपयोग करके अपने प्रतिरूपण के फिट होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के फिट का परीक्षण करने पर विचार कर सकते हैं। . हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक डेटा है और वह विभिन्न नेस्टेड प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ स्वयं को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ दें। ये दो अमूर्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक पेचीदगियों पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितिजन्य होते हैं। | प्रतिरूपण सत्यापन विभिन्न रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध डिजाइन की बाधा होती है। जोर देने के लिए, इसका मतलब यह है कि प्रतिरूपण को प्रमाणित करने के लिए कोई एक आकार-फिट-सभी विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित सेट के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन फ्रेमवर्क का उपयोग करके अपने प्रतिरूपण के फिट होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के फिट का परीक्षण करने पर विचार कर सकते हैं। . हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक डेटा है और वह विभिन्न नेस्टेड प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ स्वयं को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ दें। ये दो अमूर्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक पेचीदगियों पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितिजन्य होते हैं। | ||
सामान्य तौर पर, प्रतिरूपण को | सामान्य तौर पर, प्रतिरूपण को उपलब्ध डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है। | ||
=== उपलब्ध डेटा के साथ सत्यापन === | === उपलब्ध डेटा के साथ सत्यापन === | ||
उपलब्ध डेटा के आधार पर सत्यापन में प्रतिरूपण के फिट होने की अच्छाई का विश्लेषण करना या विश्लेषण करना शामिल है कि क्या त्रुटियां और अवशिष्ट यादृच्छिक प्रतीत होते हैं (यानी #अवशिष्ट निदान)। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना शामिल है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा की भविष्यवाणी करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपद फ़ंक्शन दिखाता है। हम देखते हैं कि बहुपद फलन डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है। | |||
[[Image:Overfitted Data.png|thumb|300px|चित्र 1. डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक सुडौल [[बहुपद]] द्वारा पूरी तरह से फिट किया गया है।]] | [[Image:Overfitted Data.png|thumb|300px|चित्र 1. डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक सुडौल [[बहुपद]] द्वारा पूरी तरह से फिट किया गया है।]] | ||
=== नए डेटा के साथ सत्यापन === | === नए डेटा के साथ सत्यापन === | ||
यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी की जाती है या नहीं, इसका आकलन करके | यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी की जाती है या नहीं, इसका आकलन करके उपलब्ध प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी नहीं की जाती है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है। | ||
=== सावधानी का एक नोट === | === सावधानी का एक नोट === |
Revision as of 12:39, 31 March 2023
सांख्यिकी में, चुना गया सांख्यिकीय प्रतिरूपण उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इसलिए, एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक निरंतर रह सकता है या नहीं यह परीक्षण करने के लिए प्रतिरूपण सत्यापन का उपयोग किया जाता है। सामान्यतया, प्रतिरूपण चयन और प्रतिरूपण सत्यापन समान प्रतीत होते है जो भ्रम उत्पन्न करते है पर प्रतिरूपण चयन कि प्रक्रिया में विभिन्न उपलब्ध प्रतिरूपण के प्रकार में से किसी एक का चयन करना होता है परन्तु प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक रचना को इतना महत्व नहीं देता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए उत्पादन के बीच स्थिरता का परीक्षण करता है।
प्रतिरूपण को प्रमाणित करने के विभिन्न तरीके हैं। वर्गों का अवशिष्ट योग वास्तविक डेटा और प्रतिरूपण के पूर्वानुमान के बीच भिन्नता को दर्शाता है: वर्गों का अवशिष्ट योग में सहसंबंध प्रतिरूपण में त्रुटि का संकेत दे सकता है। क्रॉस-सत्यापन (सांख्यिकी) प्रतिरूपण सत्यापन की एक विधि है जो प्रतिरूपण को पुनरावृत्त रूप से परिष्कृत करती है, हर बार केवल एक छोटा सा नमूना छोड़ती है और तुलना करती है कि क्या छोड़े गए नमूने प्रतिरूपण द्वारा अनुमानित हैं: क्रॉस-सत्यापन (सांख्यिकी) # प्रकार हैं। भविष्य कहनेवाला प्रतिरूपणिंग का उपयोग सिम्युलेटेड डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है। बाहरी वैधता में प्रतिरूपण को नए डेटा में फ़िट करना शामिल है। Akaike सूचना मानदंड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है।
अवलोकन
प्रतिरूपण सत्यापन विभिन्न रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध डिजाइन की बाधा होती है। जोर देने के लिए, इसका मतलब यह है कि प्रतिरूपण को प्रमाणित करने के लिए कोई एक आकार-फिट-सभी विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित सेट के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन फ्रेमवर्क का उपयोग करके अपने प्रतिरूपण के फिट होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के फिट का परीक्षण करने पर विचार कर सकते हैं। . हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक डेटा है और वह विभिन्न नेस्टेड प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ स्वयं को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ दें। ये दो अमूर्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक पेचीदगियों पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितिजन्य होते हैं।
सामान्य तौर पर, प्रतिरूपण को उपलब्ध डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।
उपलब्ध डेटा के साथ सत्यापन
उपलब्ध डेटा के आधार पर सत्यापन में प्रतिरूपण के फिट होने की अच्छाई का विश्लेषण करना या विश्लेषण करना शामिल है कि क्या त्रुटियां और अवशिष्ट यादृच्छिक प्रतीत होते हैं (यानी #अवशिष्ट निदान)। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना शामिल है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा की भविष्यवाणी करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपद फ़ंक्शन दिखाता है। हम देखते हैं कि बहुपद फलन डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है।
नए डेटा के साथ सत्यापन
यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी की जाती है या नहीं, इसका आकलन करके उपलब्ध प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी नहीं की जाती है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।
सावधानी का एक नोट
एक प्रतिरूपण को केवल कुछ अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।[1][2] एक प्रतिरूपण जो एक आवेदन के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से इनपुट का उपयोग करता है, तो वक्र एक स्वीकार्य प्रतिरूपण हो सकता है।
सत्यापन के तरीके
सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय, संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।[3] ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी; अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों से निपटने के लिए सामान्य तरीकों में निम्नलिखित शामिल हैं: प्रतिरूपण के निर्माण में की गई धारणाओं की जाँच करना; उपलब्ध डेटा और संबंधित प्रतिरूपण आउटपुट की जांच करना; विशेषज्ञ निर्णय लागू करना।[1]ध्यान दें कि विशेषज्ञ निर्णय के लिए सामान्यतौर पर आवेदन क्षेत्र में विशेषज्ञता की आवश्यकता होती है।[1] वास्तविक डेटा प्राप्त किए बिना भविष्यवाणी की वैधता का आकलन करने के लिए कभी-कभी विशेषज्ञ निर्णय का उपयोग किया जा सकता है: उदा। चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि पर्याप्त एक्सट्रपलेशन अमान्य होगा। इसके अतिरिक्त, ट्यूरिंग टेस्ट-टाइप टेस्ट में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।[4] सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन विश्लेषण के माध्यम से प्राप्त किया गया था, तो प्रतिगमन प्रतिरूपण सत्यापन के लिए विशेष विश्लेषण मौजूद हैं और सामान्यतौर पर कार्यरत हैं।
अवशिष्ट निदान
अवशिष्ट निदान में त्रुटियों और अवशिष्टों का विश्लेषण शामिल है ताकि यह निर्धारित किया जा सके कि अवशिष्ट प्रभावी रूप से यादृच्छिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में सामान्यतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार चलाकर प्राप्त किया जा सकता है, यानी बार-बार स्टोचैस्टिक सिमुलेशन (प्रतिरूपण में यादृच्छिक चर के लिए एक छद्म यादृच्छिक संख्या जनरेटर को नियोजित करना) का उपयोग करके।
यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन#अवशिष्टों का विश्लेषण|प्रतिगमन-अवशिष्ट निदान मौजूद है और इसका उपयोग किया जा सकता है; इस तरह के डायग्नोस्टिक्स का अच्छी तरह से अध्ययन किया गया है।
क्रॉस सत्यापन
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को फिटिंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो डेटा छोड़े गए हैं वे करीब हैं या दूर हैं जहां से प्रतिरूपण भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को फिट करती है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो प्रतिरूपण शायद गलत है।
यह भी देखें
- सभी मॉडल गलत हैं
- क्रॉस-वैलिडेशन (सांख्यिकी)
- पहचान क्षमता विश्लेषण
- आंतरिक वैधता
- मॉडल पहचान
- ओवरफिटिंग
- घबराहट
- भविष्यवाणी मॉडल
- संवेदनशीलता का विश्लेषण
- नकली रिश्ते
- सांख्यिकीय निष्कर्ष वैधता
- सांख्यिकीय मॉडल चयन
- सांख्यिकीय मॉडल विनिर्देश
- वैधता (सांख्यिकी)
संदर्भ
- ↑ 1.0 1.1 1.2 National Research Council (2012), "Chapter 5: Model validation and prediction", Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification, Washington, DC: National Academies Press, pp. 52–85, doi:10.17226/13395, ISBN 978-0-309-25634-6
{{citation}}
: CS1 maint: multiple names: authors list (link). - ↑ Batzel, J. J.; Bachar, M.; Karemaker, J. M.; Kappel, F. (2013), "Chapter 1: Merging mathematical and physiological knowledge", in Batzel, J. J.; Bachar, M.; Kappel, F. (eds.), Mathematical Modeling and Validation in Physiology, Springer, pp. 3–19, doi:10.1007/978-3-642-32882-4_1.
- ↑ Deaton, M. L. (2006), "Simulation models, validation of", in Kotz, S.; et al. (eds.), Encyclopedia of Statistical Sciences, Wiley.
- ↑ Mayer, D. G.; Butler, D.G. (1993), "Statistical validation", Ecological Modelling, 68 (1–2): 21–32, doi:10.1016/0304-3800(93)90105-2.
अग्रिम पठन
- Barlas, Y. (1996), "Formal aspects of model validity and validation in system dynamics", System Dynamics Review, 12 (3): 183–210, doi:10.1002/(SICI)1099-1727(199623)12:3<183::AID-SDR103>3.0.CO;2-4
- Good, P. I.; Hardin, J. W. (2012), "Chapter 15: Validation", Common Errors in Statistics (Fourth ed.), John Wiley & Sons, pp. 277–285
- Huber, P. J. (2002), "Chapter 3: Approximate models", in Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M. (eds.), Goodness-of-Fit Tests and Model Validity, Springer, pp. 25–41
बाहरी संबंध
- How can I tell if a model fits my data? —Handbook of Statistical Methods (NIST)
- Hicks, Dan (July 14, 2017). "What are core statistical model validation techniques?". Stack Exchange.