सांख्यिकीय मॉडल सत्यापन: Difference between revisions

From Vigyanwiki
(Created page with "{{Redirect|Model validation|the investment banking role|Quantitative analysis (finance) #Model validation}} आँकड़ों में, मॉडल सत्यापन...")
 
No edit summary
 
(21 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Redirect|Model validation|the investment banking role|Quantitative analysis (finance) #Model validation}}
सांख्यिकी में, चुना गया [[सांख्यिकीय मॉडल|सांख्यिकीय प्रतिरूपण]] उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इसलिए, एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक निरंतर रह सकता है या नहीं यह परीक्षण करने के लिए प्रतिरूपण सत्यापन का उपयोग किया जाता है। सामान्यतया, प्रतिरूपण चयन और प्रतिरूपण सत्यापन समान प्रतीत होते है जो भ्रम उत्पन्न करते है पर प्रतिरूपण चयन कि प्रक्रिया में विभिन्न उपलब्ध प्रतिरूपण के प्रकार में से किसी एक का चयन करना होता है परन्तु प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक रचना को इतना महत्व नहीं देता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए उत्पादन के बीच स्थिरता का परीक्षण करता है।
आँकड़ों में, मॉडल सत्यापन यह मूल्यांकन करने का कार्य है कि चुना गया [[सांख्यिकीय मॉडल]] उपयुक्त है या नहीं। अक्सर सांख्यिकीय अनुमानों में, मॉडल से अनुमान जो उनके डेटा को फिट करने के लिए प्रकट होते हैं, अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके मॉडल की वास्तविक प्रासंगिकता के शोधकर्ताओं द्वारा गलतफहमी हो सकती है। इससे निपटने के लिए, मॉडल सत्यापन का उपयोग यह परीक्षण करने के लिए किया जाता है कि क्या एक सांख्यिकीय मॉडल डेटा में क्रमपरिवर्तन तक टिक सकता है। इस विषय को [[मॉडल चयन]] के बारीकी से संबंधित कार्य के साथ भ्रमित नहीं होना है, कई उम्मीदवार मॉडल के बीच भेदभाव की प्रक्रिया: मॉडल सत्यापन मॉडल के वैचारिक डिजाइन की इतनी चिंता नहीं करता है क्योंकि यह केवल एक चुने हुए मॉडल और उसके बताए गए के बीच स्थिरता का परीक्षण करता है आउटपुट।


मॉडल को प्रमाणित करने के कई तरीके हैं। [[वर्गों का अवशिष्ट योग]] वास्तविक डेटा और मॉडल की भविष्यवाणियों के बीच अंतर को दर्शाता है: अवशिष्ट भूखंडों में सहसंबंध मॉडल में दोष का संकेत दे सकता है। [[क्रॉस-सत्यापन (सांख्यिकी)]] मॉडल सत्यापन की एक विधि है जो मॉडल को पुनरावृत्त रूप से परिष्कृत करती है, हर बार केवल एक छोटा सा नमूना छोड़ती है और तुलना करती है कि क्या छोड़े गए नमूने मॉडल द्वारा अनुमानित हैं: क्रॉस-सत्यापन (सांख्यिकी) # प्रकार हैं। [[भविष्य कहनेवाला मॉडलिंग]] का उपयोग सिम्युलेटेड डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है। बाहरी वैधता में मॉडल को नए डेटा में फ़िट करना शामिल है। Akaike सूचना मानदंड एक मॉडल की गुणवत्ता का अनुमान लगाता है।
प्रतिरूपण को प्रमाणित करने के विभिन्न तरीके हैं जैसे [[वर्गों का अवशिष्ट योग|वर्गों का अवशेष योग]] वास्तविक डेटा और प्रतिरूपण के पूर्वानुमान के बीच भिन्नता को दर्शाता है और इसमें सहसंबंध प्रतिरूपण में त्रुटि का संकेत दे सकता है। [[क्रॉस-सत्यापन (सांख्यिकी)]] प्रतिरूपण सत्यापन की एक विधि है जो प्रतिरूपण को गतिशील रूप से परिष्कृत करती है। इसमें प्रत्येक बार जांच करने के लिए थोड़ा डेटा छोड़ देते है और तुलना करते हैं की छोड़े गए डेटा प्रतिरूपण द्वारा अनुमानित है या नहीं। क्रॉस-सत्यापन विभिन्न प्रकार के होते है;[[भविष्य कहनेवाला मॉडलिंग|अनुमानित सतत अनुकरण]] का उपयोग कृत्रिम डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है, बाहरी सत्यापन प्रतिरूपण को नए डेटा के अनुकूल करता है और एकैके सूचना मापदण्ड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है।


== सिंहावलोकन ==
== अवलोकन ==
मॉडल सत्यापन कई रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले मॉडल सत्यापन की विशिष्ट विधि अक्सर उनके शोध डिजाइन की बाधा होती है। जोर देने के लिए, इसका मतलब यह है कि मॉडल को प्रमाणित करने के लिए कोई एक आकार-फिट-सभी विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित सेट के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन फ्रेमवर्क का उपयोग करके अपने मॉडल के फिट होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने मॉडल के फिट का परीक्षण करने पर विचार कर सकते हैं। . हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक डेटा है और वह कई नेस्टेड मॉडल का परीक्षण कर रहा है, तो ये स्थितियाँ स्वयं को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ दें। ये दो अमूर्त उदाहरण हैं और किसी भी वास्तविक मॉडल सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक पेचीदगियों पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि मॉडल सत्यापन के तरीके हमेशा परिस्थितिजन्य होते हैं।
प्रतिरूपण सत्यापन विभिन्न रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध रूप-रेखा की बाधा होती है। अधिक सरलता से, इसका अर्थ यह है कि प्रतिरूपण को सिद्ध करने की कोई एक विशिष्ट विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित समूह के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन रूपरेखा का उपयोग करके अपने प्रतिरूपण के उपयुक्त होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के उपयुक्त परीक्षण करने पर विचार कर सकते हैं। हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक मात्रा में डेटा है और वह विभिन्न स्थिर प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ शोधकर्ता को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ना पड़ सकता है। ये दो संक्षिप्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक जटिलता पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितियों पर निर्भर करते हैं।


सामान्य तौर पर, मॉडल को मौजूदा डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।
सामान्य तौर पर, प्रतिरूपण को उपलब्ध डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।


=== मौजूदा डेटा के साथ मान्यता ===
=== उपलब्ध डेटा के साथ सत्यापन ===
मौजूदा डेटा के आधार पर सत्यापन में मॉडल के फिट होने की अच्छाई का विश्लेषण करना या विश्लेषण करना शामिल है कि क्या त्रुटियां और अवशिष्ट यादृच्छिक प्रतीत होते हैं (यानी #अवशिष्ट निदान)। इस पद्धति में डेटा के मॉडल की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना शामिल है कि मॉडल कितनी अच्छी तरह अपने डेटा की भविष्यवाणी करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपद फ़ंक्शन दिखाता है। हम देखते हैं कि बहुपद फलन डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद मॉडल को अमान्य कर सकता है।
उपलब्ध डेटा के आधार पर सत्यापन में प्रतिरूपण के उपयुक्त होने के गुण का विश्लेषण करना या प्रतिरूपण में अवशेष के आधार पर आकस्मिक त्रुटियों का विश्लेषण करना सम्मिलित हैं। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना सम्मिलित है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा को अनुमानित करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपदीय कार्य दिखाता है। हम देखते हैं कि बहुपद कार्य डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है।


  [[Image:Overfitted Data.png|thumb|300px|चित्र 1.  डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक सुडौल [[बहुपद]] द्वारा पूरी तरह से फिट किया गया है।]]
  [[Image:Overfitted Data.png|thumb|300px|चित्र 1.  डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक उत्तम [[बहुपद]] द्वारा पूरी तरह से उपयुक्त किया गया है।]]


=== नए डेटा के साथ मान्यता ===
=== नए डेटा के साथ सत्यापन ===
यदि नया डेटा उपलब्ध हो जाता है, तो पुराने मॉडल द्वारा नए डेटा की भविष्यवाणी की जाती है या नहीं, इसका आकलन करके मौजूदा मॉडल को मान्य किया जा सकता है। यदि पुराने मॉडल द्वारा नए डेटा की भविष्यवाणी नहीं की जाती है, तो मॉडल शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।
यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित किया जा  सकता है या नहीं इसका आकलन करके उपलब्ध प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित नहीं किया जाता है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।


=== सावधानी का एक नोट ===
=== सावधानी का एक नोट ===
एक मॉडल को केवल कुछ अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।<ref name="NRC12" /><ref name="BBKK">{{citation | author1-first= J. J. | author1-last= Batzel | author2-first= M. | author2-last= Bachar | author3-first= J. M. | author3-last= Karemaker | author4-first= F. | author4-last= Kappel | pages= 3–19 | chapter= Chapter 1: Merging mathematical and physiological knowledge | editor1-first= J. J. | editor1-last= Batzel | editor2-first= M. | editor2-last= Bachar | editor3-first= F. | editor3-last= Kappel | title= Mathematical Modeling and Validation in Physiology | publisher= [[Springer Science+Business Media|Springer]] | year= 2013 | doi= 10.1007/978-3-642-32882-4_1}}.</ref> एक मॉडल जो एक आवेदन के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से इनपुट का उपयोग करता है, तो वक्र एक स्वीकार्य मॉडल हो सकता है।
एक प्रतिरूपण को केवल कुछ संबंधित अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।<ref name="NRC12" /><ref name="BBKK">{{citation | author1-first= J. J. | author1-last= Batzel | author2-first= M. | author2-last= Bachar | author3-first= J. M. | author3-last= Karemaker | author4-first= F. | author4-last= Kappel | pages= 3–19 | chapter= Chapter 1: Merging mathematical and physiological knowledge | editor1-first= J. J. | editor1-last= Batzel | editor2-first= M. | editor2-last= Bachar | editor3-first= F. | editor3-last= Kappel | title= Mathematical Modeling and Validation in Physiology | publisher= [[Springer Science+Business Media|Springer]] | year= 2013 | doi= 10.1007/978-3-642-32882-4_1}}.</ref> एक प्रतिरूपण जो एक अनुप्रयोग के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से निविष्ट का उपयोग करता है, तो वक्र एक स्वीकार्य प्रतिरूपण हो सकता है।


== सत्यापन के तरीके ==
== सत्यापन के तरीके ==
सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय, संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।<ref name="ESS06">{{citation| first= M. L. | last= Deaton | title= Simulation models, validation of | encyclopedia= [[Encyclopedia of Statistical Sciences]] | editor1-first= S. | editor1-last= Kotz | editor1-link= Samuel Kotz |display-editors=etal | year= 2006 | publisher= [[Wiley (publisher)|Wiley]]}}.</ref> ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी; अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों से निपटने के लिए सामान्य तरीकों में निम्नलिखित शामिल हैं: मॉडल के निर्माण में की गई धारणाओं की जाँच करना; उपलब्ध डेटा और संबंधित मॉडल आउटपुट की जांच करना; विशेषज्ञ निर्णय लागू करना।<ref name="NRC12" />ध्यान दें कि विशेषज्ञ निर्णय के लिए आमतौर पर आवेदन क्षेत्र में विशेषज्ञता की आवश्यकता होती है।<ref name="NRC12">{{citation | chapter= Chapter 5: Model validation and prediction | chapter-url= https://www.nap.edu/read/13395/chapter/7 | author= [[National Academies of Sciences, Engineering, and Medicine|National Research Council]] | year= 2012 | title= Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification | location= Washington, DC | publisher= [[National Academies Press]] | pages= 52–85 | doi= 10.17226/13395 | isbn= 978-0-309-25634-6 }}. </ref> वास्तविक डेटा प्राप्त किए बिना भविष्यवाणी की वैधता का आकलन करने के लिए कभी-कभी विशेषज्ञ निर्णय का उपयोग किया जा सकता है: उदा। चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि पर्याप्त एक्सट्रपलेशन अमान्य होगा। इसके अतिरिक्त, [[ट्यूरिंग टेस्ट]]-टाइप टेस्ट में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित मॉडल आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।<ref name= "MB93">{{citation | author1-first= D. G. | author1-last=Mayer | author2-first= D.G. | author2-last= Butler | title= Statistical validation | journal= [[Ecological Modelling]] | year= 1993 | volume= 68 | issue=1–2 | pages= 21–32 | doi= 10.1016/0304-3800(93)90105-2}}.</ref>
सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।<ref name="ESS06">{{citation| first= M. L. | last= Deaton | title= Simulation models, validation of | encyclopedia= [[Encyclopedia of Statistical Sciences]] | editor1-first= S. | editor1-last= Kotz | editor1-link= Samuel Kotz |display-editors=etal | year= 2006 | publisher= [[Wiley (publisher)|Wiley]]}}.</ref> ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी और अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों को सुलझाने के तरीकों में; प्रतिरूपण के निर्माण में की गई धारणाओं की जाँच करना, उपलब्ध डेटा और संबंधित प्रतिरूपण आउटपुट की जांच करना और विशेषज्ञ निर्णय लागू करना सम्मिलित हैं।<ref name="NRC12" /> विशेषज्ञ निर्णय के लिए सामान्यतौर पर अनुप्रयोग क्षेत्र में अनुमान लगाने के लिए विशेषज्ञान की आवश्यकता होती है।<ref name="NRC12">{{citation | chapter= Chapter 5: Model validation and prediction | chapter-url= https://www.nap.edu/read/13395/chapter/7 | author= [[National Academies of Sciences, Engineering, and Medicine|National Research Council]] | year= 2012 | title= Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification | location= Washington, DC | publisher= [[National Academies Press]] | pages= 52–85 | doi= 10.17226/13395 | isbn= 978-0-309-25634-6 }}. </ref>  
सांख्यिकीय मॉडल के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय मॉडल एक [[प्रतिगमन विश्लेषण]] के माध्यम से प्राप्त किया गया था, तो [[प्रतिगमन मॉडल सत्यापन]] के लिए विशेष विश्लेषण मौजूद हैं और आम तौर पर कार्यरत हैं।


=== अवशिष्ट निदान ===
कभी-कभी विशेषज्ञ निर्णय का उपयोग वास्तविक डेटा प्राप्त किए बिना अनुमानित परिणाम की मान्यता का आकलन करने के लिए किया जा सकता है: उदाहरण; चित्र 1 में, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि वक्र के लिए वास्तविक अनुमान लगाना अमान्य होगा। इसके अतिरिक्त, [[ट्यूरिंग टेस्ट|ट्यूरिंग परीक्षण]] जैसे [[ट्यूरिंग टेस्ट|परीक्षण]] में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।<ref name="MB93">{{citation | author1-first= D. G. | author1-last=Mayer | author2-first= D.G. | author2-last= Butler | title= Statistical validation | journal= [[Ecological Modelling]] | year= 1993 | volume= 68 | issue=1–2 | pages= 21–32 | doi= 10.1016/0304-3800(93)90105-2}}.</ref>
{{expand section|date=February 2019}}
अवशिष्ट निदान में त्रुटियों और अवशिष्टों का विश्लेषण शामिल है ताकि यह निर्धारित किया जा सके कि अवशिष्ट प्रभावी रूप से यादृच्छिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में आमतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर मॉडल को बार-बार चलाकर प्राप्त किया जा सकता है, यानी बार-बार [[स्टोचैस्टिक सिमुलेशन]] (मॉडल में यादृच्छिक चर के लिए एक [[छद्म यादृच्छिक संख्या जनरेटर]] को नियोजित करना) का उपयोग करके।


यदि सांख्यिकीय मॉडल एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन#अवशिष्टों का विश्लेषण|प्रतिगमन-अवशिष्ट निदान मौजूद है और इसका उपयोग किया जा सकता है; इस तरह के डायग्नोस्टिक्स का अच्छी तरह से अध्ययन किया गया है।
सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक [[प्रतिगमन विश्लेषण]] के माध्यम से प्राप्त किया गया था, तो सामान्यतौर पर उसी प्रतिरूपण का उपयोग किया जाता है जो [[प्रतिगमन मॉडल सत्यापन|प्रतिगमन प्रतिरूपण सत्यापन]] के लिए विशेष विश्लेषण उपलब्ध हैं।
 
=== अवशेष निदान ===
अवशेष निदान में यह निर्धारित करने के लिए अवशेषों का विश्लेषण सम्मिलित है कि अवशेष प्रभावी रूप से आकस्मिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में सामान्यतौर पर अवशेषों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशेषों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार उपयोग करके प्राप्त किया जा सकता है, यानी आकस्मिक चर के लिए बार-बार [[छद्म यादृच्छिक संख्या जनरेटर|प्रारंभिक आकस्मिक संख्या उत्पादक]] या [[स्टोचैस्टिक सिमुलेशन|काल्पनिक]] सतत अनुकरण का उपयोग किया जा सकता है।
 
यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन अवशेष निदान का उपयोग किया जा सकता है और इस तरह के निदान का अच्छी तरह से अध्ययन किया गया है।


=== क्रॉस सत्यापन ===
=== क्रॉस सत्यापन ===
{{See|Cross-validation (statistics)}}
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को उपयुक्त फिटिंग प्रक्रिया से बाहर किया जाता है और फिर यह देखा जाता है की छोड़ा गया डाटा, जहाँ पर प्रतिरूपण अनुमान करता है उस बिंदु से दूर है या नजदीक। व्यवहारिक रूप से इसका मतलब यह है कि क्रॉस मान्यकरण तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को स्थित करता है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करता है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण उस डेटा का बहुत ही कम वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो संभवतः प्रतिरूपण गलत है।
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को फिटिंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो डेटा छोड़े गए हैं वे करीब हैं या दूर हैं जहां से मॉडल भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार मॉडल को फिट करती है और प्रत्येक मॉडल की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि मॉडल बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो मॉडल शायद गलत है।


== यह भी देखें ==
== यह भी देखें ==
Line 65: Line 65:
*[http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd44.htm How can I tell if a model fits my data?] &nbsp;—''Handbook of Statistical Methods'' ([[National Institute of Standards and Technology|NIST]])  
*[http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd44.htm How can I tell if a model fits my data?] &nbsp;—''Handbook of Statistical Methods'' ([[National Institute of Standards and Technology|NIST]])  
*{{cite web |first=Dan |last=Hicks |date=July 14, 2017 |title=What are core statistical model validation techniques? |work=[[Stack Exchange]] |url=https://stats.stackexchange.com/q/291481 }}
*{{cite web |first=Dan |last=Hicks |date=July 14, 2017 |title=What are core statistical model validation techniques? |work=[[Stack Exchange]] |url=https://stats.stackexchange.com/q/291481 }}
[[Category: सांख्यिकीय मॉडल]] [[Category: वैधता (सांख्यिकी)]]


[[Category: Machine Translated Page]]
[[Category:CS1 maint]]
[[Category:Created On 21/03/2023]]
[[Category:Created On 21/03/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Multi-column templates]]
[[Category:Pages using div col with small parameter]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates using TemplateData]]
[[Category:Templates using under-protected Lua modules]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:वैधता (सांख्यिकी)]]
[[Category:सांख्यिकीय मॉडल]]

Latest revision as of 18:32, 21 April 2023

सांख्यिकी में, चुना गया सांख्यिकीय प्रतिरूपण उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इसलिए, एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक निरंतर रह सकता है या नहीं यह परीक्षण करने के लिए प्रतिरूपण सत्यापन का उपयोग किया जाता है। सामान्यतया, प्रतिरूपण चयन और प्रतिरूपण सत्यापन समान प्रतीत होते है जो भ्रम उत्पन्न करते है पर प्रतिरूपण चयन कि प्रक्रिया में विभिन्न उपलब्ध प्रतिरूपण के प्रकार में से किसी एक का चयन करना होता है परन्तु प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक रचना को इतना महत्व नहीं देता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए उत्पादन के बीच स्थिरता का परीक्षण करता है।

प्रतिरूपण को प्रमाणित करने के विभिन्न तरीके हैं जैसे वर्गों का अवशेष योग वास्तविक डेटा और प्रतिरूपण के पूर्वानुमान के बीच भिन्नता को दर्शाता है और इसमें सहसंबंध प्रतिरूपण में त्रुटि का संकेत दे सकता है। क्रॉस-सत्यापन (सांख्यिकी) प्रतिरूपण सत्यापन की एक विधि है जो प्रतिरूपण को गतिशील रूप से परिष्कृत करती है। इसमें प्रत्येक बार जांच करने के लिए थोड़ा डेटा छोड़ देते है और तुलना करते हैं की छोड़े गए डेटा प्रतिरूपण द्वारा अनुमानित है या नहीं। क्रॉस-सत्यापन विभिन्न प्रकार के होते है;अनुमानित सतत अनुकरण का उपयोग कृत्रिम डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है, बाहरी सत्यापन प्रतिरूपण को नए डेटा के अनुकूल करता है और एकैके सूचना मापदण्ड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है।

अवलोकन

प्रतिरूपण सत्यापन विभिन्न रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध रूप-रेखा की बाधा होती है। अधिक सरलता से, इसका अर्थ यह है कि प्रतिरूपण को सिद्ध करने की कोई एक विशिष्ट विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित समूह के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन रूपरेखा का उपयोग करके अपने प्रतिरूपण के उपयुक्त होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के उपयुक्त परीक्षण करने पर विचार कर सकते हैं। हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक मात्रा में डेटा है और वह विभिन्न स्थिर प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ शोधकर्ता को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ना पड़ सकता है। ये दो संक्षिप्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक जटिलता पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितियों पर निर्भर करते हैं।

सामान्य तौर पर, प्रतिरूपण को उपलब्ध डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।

उपलब्ध डेटा के साथ सत्यापन

उपलब्ध डेटा के आधार पर सत्यापन में प्रतिरूपण के उपयुक्त होने के गुण का विश्लेषण करना या प्रतिरूपण में अवशेष के आधार पर आकस्मिक त्रुटियों का विश्लेषण करना सम्मिलित हैं। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना सम्मिलित है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा को अनुमानित करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपदीय कार्य दिखाता है। हम देखते हैं कि बहुपद कार्य डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है।

चित्र 1.  डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक उत्तम बहुपद द्वारा पूरी तरह से उपयुक्त किया गया है।

नए डेटा के साथ सत्यापन

यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित किया जा सकता है या नहीं इसका आकलन करके उपलब्ध प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित नहीं किया जाता है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।

सावधानी का एक नोट

एक प्रतिरूपण को केवल कुछ संबंधित अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।[1][2] एक प्रतिरूपण जो एक अनुप्रयोग के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से निविष्ट का उपयोग करता है, तो वक्र एक स्वीकार्य प्रतिरूपण हो सकता है।

सत्यापन के तरीके

सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।[3] ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी और अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों को सुलझाने के तरीकों में; प्रतिरूपण के निर्माण में की गई धारणाओं की जाँच करना, उपलब्ध डेटा और संबंधित प्रतिरूपण आउटपुट की जांच करना और विशेषज्ञ निर्णय लागू करना सम्मिलित हैं।[1] विशेषज्ञ निर्णय के लिए सामान्यतौर पर अनुप्रयोग क्षेत्र में अनुमान लगाने के लिए विशेषज्ञान की आवश्यकता होती है।[1]

कभी-कभी विशेषज्ञ निर्णय का उपयोग वास्तविक डेटा प्राप्त किए बिना अनुमानित परिणाम की मान्यता का आकलन करने के लिए किया जा सकता है: उदाहरण; चित्र 1 में, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि वक्र के लिए वास्तविक अनुमान लगाना अमान्य होगा। इसके अतिरिक्त, ट्यूरिंग परीक्षण जैसे परीक्षण में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।[4]

सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन विश्लेषण के माध्यम से प्राप्त किया गया था, तो सामान्यतौर पर उसी प्रतिरूपण का उपयोग किया जाता है जो प्रतिगमन प्रतिरूपण सत्यापन के लिए विशेष विश्लेषण उपलब्ध हैं।

अवशेष निदान

अवशेष निदान में यह निर्धारित करने के लिए अवशेषों का विश्लेषण सम्मिलित है कि अवशेष प्रभावी रूप से आकस्मिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में सामान्यतौर पर अवशेषों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशेषों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार उपयोग करके प्राप्त किया जा सकता है, यानी आकस्मिक चर के लिए बार-बार प्रारंभिक आकस्मिक संख्या उत्पादक या काल्पनिक सतत अनुकरण का उपयोग किया जा सकता है।

यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन अवशेष निदान का उपयोग किया जा सकता है और इस तरह के निदान का अच्छी तरह से अध्ययन किया गया है।

क्रॉस सत्यापन

क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को उपयुक्त फिटिंग प्रक्रिया से बाहर किया जाता है और फिर यह देखा जाता है की छोड़ा गया डाटा, जहाँ पर प्रतिरूपण अनुमान करता है उस बिंदु से दूर है या नजदीक। व्यवहारिक रूप से इसका मतलब यह है कि क्रॉस मान्यकरण तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को स्थित करता है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करता है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण उस डेटा का बहुत ही कम वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो संभवतः प्रतिरूपण गलत है।

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 National Research Council (2012), "Chapter 5: Model validation and prediction", Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification, Washington, DC: National Academies Press, pp. 52–85, doi:10.17226/13395, ISBN 978-0-309-25634-6{{citation}}: CS1 maint: multiple names: authors list (link).
  2. Batzel, J. J.; Bachar, M.; Karemaker, J. M.; Kappel, F. (2013), "Chapter 1: Merging mathematical and physiological knowledge", in Batzel, J. J.; Bachar, M.; Kappel, F. (eds.), Mathematical Modeling and Validation in Physiology, Springer, pp. 3–19, doi:10.1007/978-3-642-32882-4_1.
  3. Deaton, M. L. (2006), "Simulation models, validation of", in Kotz, S.; et al. (eds.), Encyclopedia of Statistical Sciences, Wiley.
  4. Mayer, D. G.; Butler, D.G. (1993), "Statistical validation", Ecological Modelling, 68 (1–2): 21–32, doi:10.1016/0304-3800(93)90105-2.


अग्रिम पठन


बाहरी संबंध