सांख्यिकीय मॉडल सत्यापन: Difference between revisions

From Vigyanwiki
(Created page with "{{Redirect|Model validation|the investment banking role|Quantitative analysis (finance) #Model validation}} आँकड़ों में, मॉडल सत्यापन...")
 
mNo edit summary
Line 1: Line 1:
{{Redirect|Model validation|the investment banking role|Quantitative analysis (finance) #Model validation}}
सांख्यिकी में, चुना गया [[सांख्यिकीय मॉडल|सांख्यिकीय प्रतिरूपण]] उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इससे निपटने के लिए, प्रतिरूपण सत्यापन का उपयोग यह परीक्षण करने के लिए किया जाता है कि क्या एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक टिक सकता है। इस विषय को [[मॉडल चयन|प्रतिरूपण चयन]] के बारीकी से संबंधित कार्य के साथ भ्रमित नहीं होना है, कई उम्मीदवार प्रतिरूपण के बीच भेदभाव की प्रक्रिया: प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक डिजाइन की इतनी चिंता नहीं करता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए के बीच स्थिरता का परीक्षण करता है आउटपुट।
आँकड़ों में, मॉडल सत्यापन यह मूल्यांकन करने का कार्य है कि चुना गया [[सांख्यिकीय मॉडल]] उपयुक्त है या नहीं। अक्सर सांख्यिकीय अनुमानों में, मॉडल से अनुमान जो उनके डेटा को फिट करने के लिए प्रकट होते हैं, अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके मॉडल की वास्तविक प्रासंगिकता के शोधकर्ताओं द्वारा गलतफहमी हो सकती है। इससे निपटने के लिए, मॉडल सत्यापन का उपयोग यह परीक्षण करने के लिए किया जाता है कि क्या एक सांख्यिकीय मॉडल डेटा में क्रमपरिवर्तन तक टिक सकता है। इस विषय को [[मॉडल चयन]] के बारीकी से संबंधित कार्य के साथ भ्रमित नहीं होना है, कई उम्मीदवार मॉडल के बीच भेदभाव की प्रक्रिया: मॉडल सत्यापन मॉडल के वैचारिक डिजाइन की इतनी चिंता नहीं करता है क्योंकि यह केवल एक चुने हुए मॉडल और उसके बताए गए के बीच स्थिरता का परीक्षण करता है आउटपुट।


मॉडल को प्रमाणित करने के कई तरीके हैं। [[वर्गों का अवशिष्ट योग]] वास्तविक डेटा और मॉडल की भविष्यवाणियों के बीच अंतर को दर्शाता है: अवशिष्ट भूखंडों में सहसंबंध मॉडल में दोष का संकेत दे सकता है। [[क्रॉस-सत्यापन (सांख्यिकी)]] मॉडल सत्यापन की एक विधि है जो मॉडल को पुनरावृत्त रूप से परिष्कृत करती है, हर बार केवल एक छोटा सा नमूना छोड़ती है और तुलना करती है कि क्या छोड़े गए नमूने मॉडल द्वारा अनुमानित हैं: क्रॉस-सत्यापन (सांख्यिकी) # प्रकार हैं। [[भविष्य कहनेवाला मॉडलिंग]] का उपयोग सिम्युलेटेड डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है। बाहरी वैधता में मॉडल को नए डेटा में फ़िट करना शामिल है। Akaike सूचना मानदंड एक मॉडल की गुणवत्ता का अनुमान लगाता है।
प्रतिरूपण को प्रमाणित करने के कई तरीके हैं। [[वर्गों का अवशिष्ट योग]] वास्तविक डेटा और प्रतिरूपण की भविष्यवाणियों के बीच अंतर को दर्शाता है: अवशिष्ट भूखंडों में सहसंबंध प्रतिरूपण में दोष का संकेत दे सकता है। [[क्रॉस-सत्यापन (सांख्यिकी)]] प्रतिरूपण सत्यापन की एक विधि है जो प्रतिरूपण को पुनरावृत्त रूप से परिष्कृत करती है, हर बार केवल एक छोटा सा नमूना छोड़ती है और तुलना करती है कि क्या छोड़े गए नमूने प्रतिरूपण द्वारा अनुमानित हैं: क्रॉस-सत्यापन (सांख्यिकी) # प्रकार हैं। [[भविष्य कहनेवाला मॉडलिंग|भविष्य कहनेवाला प्रतिरूपणिंग]] का उपयोग सिम्युलेटेड डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है। बाहरी वैधता में प्रतिरूपण को नए डेटा में फ़िट करना शामिल है। Akaike सूचना मानदंड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है।


== सिंहावलोकन ==
== सिंहावलोकन ==
मॉडल सत्यापन कई रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले मॉडल सत्यापन की विशिष्ट विधि अक्सर उनके शोध डिजाइन की बाधा होती है। जोर देने के लिए, इसका मतलब यह है कि मॉडल को प्रमाणित करने के लिए कोई एक आकार-फिट-सभी विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित सेट के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन फ्रेमवर्क का उपयोग करके अपने मॉडल के फिट होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने मॉडल के फिट का परीक्षण करने पर विचार कर सकते हैं। . हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक डेटा है और वह कई नेस्टेड मॉडल का परीक्षण कर रहा है, तो ये स्थितियाँ स्वयं को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ दें। ये दो अमूर्त उदाहरण हैं और किसी भी वास्तविक मॉडल सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक पेचीदगियों पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि मॉडल सत्यापन के तरीके हमेशा परिस्थितिजन्य होते हैं।
प्रतिरूपण सत्यापन कई रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध डिजाइन की बाधा होती है। जोर देने के लिए, इसका मतलब यह है कि प्रतिरूपण को प्रमाणित करने के लिए कोई एक आकार-फिट-सभी विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित सेट के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन फ्रेमवर्क का उपयोग करके अपने प्रतिरूपण के फिट होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के फिट का परीक्षण करने पर विचार कर सकते हैं। . हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक डेटा है और वह कई नेस्टेड प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ स्वयं को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ दें। ये दो अमूर्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक पेचीदगियों पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितिजन्य होते हैं।


सामान्य तौर पर, मॉडल को मौजूदा डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।
सामान्य तौर पर, प्रतिरूपण को मौजूदा डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।


=== मौजूदा डेटा के साथ मान्यता ===
=== मौजूदा डेटा के साथ मान्यता ===
मौजूदा डेटा के आधार पर सत्यापन में मॉडल के फिट होने की अच्छाई का विश्लेषण करना या विश्लेषण करना शामिल है कि क्या त्रुटियां और अवशिष्ट यादृच्छिक प्रतीत होते हैं (यानी #अवशिष्ट निदान)। इस पद्धति में डेटा के मॉडल की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना शामिल है कि मॉडल कितनी अच्छी तरह अपने डेटा की भविष्यवाणी करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपद फ़ंक्शन दिखाता है। हम देखते हैं कि बहुपद फलन डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद मॉडल को अमान्य कर सकता है।
मौजूदा डेटा के आधार पर सत्यापन में प्रतिरूपण के फिट होने की अच्छाई का विश्लेषण करना या विश्लेषण करना शामिल है कि क्या त्रुटियां और अवशिष्ट यादृच्छिक प्रतीत होते हैं (यानी #अवशिष्ट निदान)। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना शामिल है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा की भविष्यवाणी करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपद फ़ंक्शन दिखाता है। हम देखते हैं कि बहुपद फलन डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है।


  [[Image:Overfitted Data.png|thumb|300px|चित्र 1.  डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक सुडौल [[बहुपद]] द्वारा पूरी तरह से फिट किया गया है।]]
  [[Image:Overfitted Data.png|thumb|300px|चित्र 1.  डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक सुडौल [[बहुपद]] द्वारा पूरी तरह से फिट किया गया है।]]


=== नए डेटा के साथ मान्यता ===
=== नए डेटा के साथ मान्यता ===
यदि नया डेटा उपलब्ध हो जाता है, तो पुराने मॉडल द्वारा नए डेटा की भविष्यवाणी की जाती है या नहीं, इसका आकलन करके मौजूदा मॉडल को मान्य किया जा सकता है। यदि पुराने मॉडल द्वारा नए डेटा की भविष्यवाणी नहीं की जाती है, तो मॉडल शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।
यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी की जाती है या नहीं, इसका आकलन करके मौजूदा प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी नहीं की जाती है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।


=== सावधानी का एक नोट ===
=== सावधानी का एक नोट ===
एक मॉडल को केवल कुछ अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।<ref name="NRC12" /><ref name="BBKK">{{citation | author1-first= J. J. | author1-last= Batzel | author2-first= M. | author2-last= Bachar | author3-first= J. M. | author3-last= Karemaker | author4-first= F. | author4-last= Kappel | pages= 3–19 | chapter= Chapter 1: Merging mathematical and physiological knowledge | editor1-first= J. J. | editor1-last= Batzel | editor2-first= M. | editor2-last= Bachar | editor3-first= F. | editor3-last= Kappel | title= Mathematical Modeling and Validation in Physiology | publisher= [[Springer Science+Business Media|Springer]] | year= 2013 | doi= 10.1007/978-3-642-32882-4_1}}.</ref> एक मॉडल जो एक आवेदन के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से इनपुट का उपयोग करता है, तो वक्र एक स्वीकार्य मॉडल हो सकता है।
एक प्रतिरूपण को केवल कुछ अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।<ref name="NRC12" /><ref name="BBKK">{{citation | author1-first= J. J. | author1-last= Batzel | author2-first= M. | author2-last= Bachar | author3-first= J. M. | author3-last= Karemaker | author4-first= F. | author4-last= Kappel | pages= 3–19 | chapter= Chapter 1: Merging mathematical and physiological knowledge | editor1-first= J. J. | editor1-last= Batzel | editor2-first= M. | editor2-last= Bachar | editor3-first= F. | editor3-last= Kappel | title= Mathematical Modeling and Validation in Physiology | publisher= [[Springer Science+Business Media|Springer]] | year= 2013 | doi= 10.1007/978-3-642-32882-4_1}}.</ref> एक प्रतिरूपण जो एक आवेदन के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से इनपुट का उपयोग करता है, तो वक्र एक स्वीकार्य प्रतिरूपण हो सकता है।


== सत्यापन के तरीके ==
== सत्यापन के तरीके ==
सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय, संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।<ref name="ESS06">{{citation| first= M. L. | last= Deaton | title= Simulation models, validation of | encyclopedia= [[Encyclopedia of Statistical Sciences]] | editor1-first= S. | editor1-last= Kotz | editor1-link= Samuel Kotz |display-editors=etal | year= 2006 | publisher= [[Wiley (publisher)|Wiley]]}}.</ref> ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी; अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों से निपटने के लिए सामान्य तरीकों में निम्नलिखित शामिल हैं: मॉडल के निर्माण में की गई धारणाओं की जाँच करना; उपलब्ध डेटा और संबंधित मॉडल आउटपुट की जांच करना; विशेषज्ञ निर्णय लागू करना।<ref name="NRC12" />ध्यान दें कि विशेषज्ञ निर्णय के लिए आमतौर पर आवेदन क्षेत्र में विशेषज्ञता की आवश्यकता होती है।<ref name="NRC12">{{citation | chapter= Chapter 5: Model validation and prediction | chapter-url= https://www.nap.edu/read/13395/chapter/7 | author= [[National Academies of Sciences, Engineering, and Medicine|National Research Council]] | year= 2012 | title= Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification | location= Washington, DC | publisher= [[National Academies Press]] | pages= 52–85 | doi= 10.17226/13395 | isbn= 978-0-309-25634-6 }}. </ref> वास्तविक डेटा प्राप्त किए बिना भविष्यवाणी की वैधता का आकलन करने के लिए कभी-कभी विशेषज्ञ निर्णय का उपयोग किया जा सकता है: उदा। चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि पर्याप्त एक्सट्रपलेशन अमान्य होगा। इसके अतिरिक्त, [[ट्यूरिंग टेस्ट]]-टाइप टेस्ट में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित मॉडल आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।<ref name= "MB93">{{citation | author1-first= D. G. | author1-last=Mayer | author2-first= D.G. | author2-last= Butler | title= Statistical validation | journal= [[Ecological Modelling]] | year= 1993 | volume= 68 | issue=1–2 | pages= 21–32 | doi= 10.1016/0304-3800(93)90105-2}}.</ref>
सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय, संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।<ref name="ESS06">{{citation| first= M. L. | last= Deaton | title= Simulation models, validation of | encyclopedia= [[Encyclopedia of Statistical Sciences]] | editor1-first= S. | editor1-last= Kotz | editor1-link= Samuel Kotz |display-editors=etal | year= 2006 | publisher= [[Wiley (publisher)|Wiley]]}}.</ref> ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी; अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों से निपटने के लिए सामान्य तरीकों में निम्नलिखित शामिल हैं: प्रतिरूपण के निर्माण में की गई धारणाओं की जाँच करना; उपलब्ध डेटा और संबंधित प्रतिरूपण आउटपुट की जांच करना; विशेषज्ञ निर्णय लागू करना।<ref name="NRC12" />ध्यान दें कि विशेषज्ञ निर्णय के लिए आमतौर पर आवेदन क्षेत्र में विशेषज्ञता की आवश्यकता होती है।<ref name="NRC12">{{citation | chapter= Chapter 5: Model validation and prediction | chapter-url= https://www.nap.edu/read/13395/chapter/7 | author= [[National Academies of Sciences, Engineering, and Medicine|National Research Council]] | year= 2012 | title= Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification | location= Washington, DC | publisher= [[National Academies Press]] | pages= 52–85 | doi= 10.17226/13395 | isbn= 978-0-309-25634-6 }}. </ref> वास्तविक डेटा प्राप्त किए बिना भविष्यवाणी की वैधता का आकलन करने के लिए कभी-कभी विशेषज्ञ निर्णय का उपयोग किया जा सकता है: उदा। चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि पर्याप्त एक्सट्रपलेशन अमान्य होगा। इसके अतिरिक्त, [[ट्यूरिंग टेस्ट]]-टाइप टेस्ट में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।<ref name= "MB93">{{citation | author1-first= D. G. | author1-last=Mayer | author2-first= D.G. | author2-last= Butler | title= Statistical validation | journal= [[Ecological Modelling]] | year= 1993 | volume= 68 | issue=1–2 | pages= 21–32 | doi= 10.1016/0304-3800(93)90105-2}}.</ref>
सांख्यिकीय मॉडल के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय मॉडल एक [[प्रतिगमन विश्लेषण]] के माध्यम से प्राप्त किया गया था, तो [[प्रतिगमन मॉडल सत्यापन]] के लिए विशेष विश्लेषण मौजूद हैं और आम तौर पर कार्यरत हैं।
सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक [[प्रतिगमन विश्लेषण]] के माध्यम से प्राप्त किया गया था, तो [[प्रतिगमन मॉडल सत्यापन|प्रतिगमन प्रतिरूपण सत्यापन]] के लिए विशेष विश्लेषण मौजूद हैं और आम तौर पर कार्यरत हैं।


=== अवशिष्ट निदान ===
=== अवशिष्ट निदान ===
{{expand section|date=February 2019}}
अवशिष्ट निदान में त्रुटियों और अवशिष्टों का विश्लेषण शामिल है ताकि यह निर्धारित किया जा सके कि अवशिष्ट प्रभावी रूप से यादृच्छिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में आमतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार चलाकर प्राप्त किया जा सकता है, यानी बार-बार [[स्टोचैस्टिक सिमुलेशन]] (प्रतिरूपण में यादृच्छिक चर के लिए एक [[छद्म यादृच्छिक संख्या जनरेटर]] को नियोजित करना) का उपयोग करके।
अवशिष्ट निदान में त्रुटियों और अवशिष्टों का विश्लेषण शामिल है ताकि यह निर्धारित किया जा सके कि अवशिष्ट प्रभावी रूप से यादृच्छिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में आमतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर मॉडल को बार-बार चलाकर प्राप्त किया जा सकता है, यानी बार-बार [[स्टोचैस्टिक सिमुलेशन]] (मॉडल में यादृच्छिक चर के लिए एक [[छद्म यादृच्छिक संख्या जनरेटर]] को नियोजित करना) का उपयोग करके।


यदि सांख्यिकीय मॉडल एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन#अवशिष्टों का विश्लेषण|प्रतिगमन-अवशिष्ट निदान मौजूद है और इसका उपयोग किया जा सकता है; इस तरह के डायग्नोस्टिक्स का अच्छी तरह से अध्ययन किया गया है।
यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन#अवशिष्टों का विश्लेषण|प्रतिगमन-अवशिष्ट निदान मौजूद है और इसका उपयोग किया जा सकता है; इस तरह के डायग्नोस्टिक्स का अच्छी तरह से अध्ययन किया गया है।


=== क्रॉस सत्यापन ===
=== क्रॉस सत्यापन ===
{{See|Cross-validation (statistics)}}
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को फिटिंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो डेटा छोड़े गए हैं वे करीब हैं या दूर हैं जहां से प्रतिरूपण भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को फिट करती है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो प्रतिरूपण शायद गलत है।
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को फिटिंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो डेटा छोड़े गए हैं वे करीब हैं या दूर हैं जहां से मॉडल भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार मॉडल को फिट करती है और प्रत्येक मॉडल की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि मॉडल बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो मॉडल शायद गलत है।


== यह भी देखें ==
== यह भी देखें ==

Revision as of 11:53, 31 March 2023

सांख्यिकी में, चुना गया सांख्यिकीय प्रतिरूपण उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इससे निपटने के लिए, प्रतिरूपण सत्यापन का उपयोग यह परीक्षण करने के लिए किया जाता है कि क्या एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक टिक सकता है। इस विषय को प्रतिरूपण चयन के बारीकी से संबंधित कार्य के साथ भ्रमित नहीं होना है, कई उम्मीदवार प्रतिरूपण के बीच भेदभाव की प्रक्रिया: प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक डिजाइन की इतनी चिंता नहीं करता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए के बीच स्थिरता का परीक्षण करता है आउटपुट।

प्रतिरूपण को प्रमाणित करने के कई तरीके हैं। वर्गों का अवशिष्ट योग वास्तविक डेटा और प्रतिरूपण की भविष्यवाणियों के बीच अंतर को दर्शाता है: अवशिष्ट भूखंडों में सहसंबंध प्रतिरूपण में दोष का संकेत दे सकता है। क्रॉस-सत्यापन (सांख्यिकी) प्रतिरूपण सत्यापन की एक विधि है जो प्रतिरूपण को पुनरावृत्त रूप से परिष्कृत करती है, हर बार केवल एक छोटा सा नमूना छोड़ती है और तुलना करती है कि क्या छोड़े गए नमूने प्रतिरूपण द्वारा अनुमानित हैं: क्रॉस-सत्यापन (सांख्यिकी) # प्रकार हैं। भविष्य कहनेवाला प्रतिरूपणिंग का उपयोग सिम्युलेटेड डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है। बाहरी वैधता में प्रतिरूपण को नए डेटा में फ़िट करना शामिल है। Akaike सूचना मानदंड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है।

सिंहावलोकन

प्रतिरूपण सत्यापन कई रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध डिजाइन की बाधा होती है। जोर देने के लिए, इसका मतलब यह है कि प्रतिरूपण को प्रमाणित करने के लिए कोई एक आकार-फिट-सभी विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित सेट के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन फ्रेमवर्क का उपयोग करके अपने प्रतिरूपण के फिट होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के फिट का परीक्षण करने पर विचार कर सकते हैं। . हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक डेटा है और वह कई नेस्टेड प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ स्वयं को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ दें। ये दो अमूर्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक पेचीदगियों पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितिजन्य होते हैं।

सामान्य तौर पर, प्रतिरूपण को मौजूदा डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।

मौजूदा डेटा के साथ मान्यता

मौजूदा डेटा के आधार पर सत्यापन में प्रतिरूपण के फिट होने की अच्छाई का विश्लेषण करना या विश्लेषण करना शामिल है कि क्या त्रुटियां और अवशिष्ट यादृच्छिक प्रतीत होते हैं (यानी #अवशिष्ट निदान)। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना शामिल है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा की भविष्यवाणी करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपद फ़ंक्शन दिखाता है। हम देखते हैं कि बहुपद फलन डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है।

चित्र 1.  डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक सुडौल बहुपद द्वारा पूरी तरह से फिट किया गया है।

नए डेटा के साथ मान्यता

यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी की जाती है या नहीं, इसका आकलन करके मौजूदा प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा की भविष्यवाणी नहीं की जाती है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।

सावधानी का एक नोट

एक प्रतिरूपण को केवल कुछ अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।[1][2] एक प्रतिरूपण जो एक आवेदन के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से इनपुट का उपयोग करता है, तो वक्र एक स्वीकार्य प्रतिरूपण हो सकता है।

सत्यापन के तरीके

सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय, संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।[3] ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी; अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों से निपटने के लिए सामान्य तरीकों में निम्नलिखित शामिल हैं: प्रतिरूपण के निर्माण में की गई धारणाओं की जाँच करना; उपलब्ध डेटा और संबंधित प्रतिरूपण आउटपुट की जांच करना; विशेषज्ञ निर्णय लागू करना।[1]ध्यान दें कि विशेषज्ञ निर्णय के लिए आमतौर पर आवेदन क्षेत्र में विशेषज्ञता की आवश्यकता होती है।[1] वास्तविक डेटा प्राप्त किए बिना भविष्यवाणी की वैधता का आकलन करने के लिए कभी-कभी विशेषज्ञ निर्णय का उपयोग किया जा सकता है: उदा। चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि पर्याप्त एक्सट्रपलेशन अमान्य होगा। इसके अतिरिक्त, ट्यूरिंग टेस्ट-टाइप टेस्ट में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।[4] सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन विश्लेषण के माध्यम से प्राप्त किया गया था, तो प्रतिगमन प्रतिरूपण सत्यापन के लिए विशेष विश्लेषण मौजूद हैं और आम तौर पर कार्यरत हैं।

अवशिष्ट निदान

अवशिष्ट निदान में त्रुटियों और अवशिष्टों का विश्लेषण शामिल है ताकि यह निर्धारित किया जा सके कि अवशिष्ट प्रभावी रूप से यादृच्छिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में आमतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार चलाकर प्राप्त किया जा सकता है, यानी बार-बार स्टोचैस्टिक सिमुलेशन (प्रतिरूपण में यादृच्छिक चर के लिए एक छद्म यादृच्छिक संख्या जनरेटर को नियोजित करना) का उपयोग करके।

यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन#अवशिष्टों का विश्लेषण|प्रतिगमन-अवशिष्ट निदान मौजूद है और इसका उपयोग किया जा सकता है; इस तरह के डायग्नोस्टिक्स का अच्छी तरह से अध्ययन किया गया है।

क्रॉस सत्यापन

क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को फिटिंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो डेटा छोड़े गए हैं वे करीब हैं या दूर हैं जहां से प्रतिरूपण भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को फिट करती है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो प्रतिरूपण शायद गलत है।

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 National Research Council (2012), "Chapter 5: Model validation and prediction", Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification, Washington, DC: National Academies Press, pp. 52–85, doi:10.17226/13395, ISBN 978-0-309-25634-6{{citation}}: CS1 maint: multiple names: authors list (link).
  2. Batzel, J. J.; Bachar, M.; Karemaker, J. M.; Kappel, F. (2013), "Chapter 1: Merging mathematical and physiological knowledge", in Batzel, J. J.; Bachar, M.; Kappel, F. (eds.), Mathematical Modeling and Validation in Physiology, Springer, pp. 3–19, doi:10.1007/978-3-642-32882-4_1.
  3. Deaton, M. L. (2006), "Simulation models, validation of", in Kotz, S.; et al. (eds.), Encyclopedia of Statistical Sciences, Wiley.
  4. Mayer, D. G.; Butler, D.G. (1993), "Statistical validation", Ecological Modelling, 68 (1–2): 21–32, doi:10.1016/0304-3800(93)90105-2.


अग्रिम पठन


बाहरी संबंध