सांख्यिकीय मॉडल सत्यापन: Difference between revisions

From Vigyanwiki
mNo edit summary
mNo edit summary
Line 24: Line 24:
कभी-कभी विशेषज्ञ निर्णय का उपयोग वास्तविक डेटा प्राप्त किए बिना अनुमानित परिणाम की वैधता का आकलन करने के लिए किया जा सकता है: उदाहरण; चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि वास्तविक अनुमान लगाना अमान्य होगा। इसके अतिरिक्त, [[ट्यूरिंग टेस्ट|ट्यूरिंग परीक्षण]] जैसे [[ट्यूरिंग टेस्ट|परीक्षण]] में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।<ref name="MB93">{{citation | author1-first= D. G. | author1-last=Mayer | author2-first= D.G. | author2-last= Butler | title= Statistical validation | journal= [[Ecological Modelling]] | year= 1993 | volume= 68 | issue=1–2 | pages= 21–32 | doi= 10.1016/0304-3800(93)90105-2}}.</ref>
कभी-कभी विशेषज्ञ निर्णय का उपयोग वास्तविक डेटा प्राप्त किए बिना अनुमानित परिणाम की वैधता का आकलन करने के लिए किया जा सकता है: उदाहरण; चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि वास्तविक अनुमान लगाना अमान्य होगा। इसके अतिरिक्त, [[ट्यूरिंग टेस्ट|ट्यूरिंग परीक्षण]] जैसे [[ट्यूरिंग टेस्ट|परीक्षण]] में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।<ref name="MB93">{{citation | author1-first= D. G. | author1-last=Mayer | author2-first= D.G. | author2-last= Butler | title= Statistical validation | journal= [[Ecological Modelling]] | year= 1993 | volume= 68 | issue=1–2 | pages= 21–32 | doi= 10.1016/0304-3800(93)90105-2}}.</ref>


सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक [[प्रतिगमन विश्लेषण]] के माध्यम से प्राप्त किया गया था, तो [[प्रतिगमन मॉडल सत्यापन|प्रतिगमन प्रतिरूपण सत्यापन]] के लिए विशेष विश्लेषण मौजूद हैं और सामान्यतौर पर कार्यरत हैं।
सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक [[प्रतिगमन विश्लेषण]] के माध्यम से प्राप्त किया गया था, तो सामान्यतौर पर उसी प्रतिरूपण का उपयोग किया जाता है [[प्रतिगमन मॉडल सत्यापन|प्रतिगमन प्रतिरूपण सत्यापन]] के लिए विशेष विश्लेषण मौजूद हैं।


=== अवशिष्ट निदान ===
=== अवशिष्ट निदान ===
अवशिष्ट निदान में त्रुटियों और अवशिष्टों का विश्लेषण शामिल है ताकि यह निर्धारित किया जा सके कि अवशिष्ट प्रभावी रूप से यादृच्छिक प्रतीत होते हैं या नहीं। इस तरह के विश्लेषणों में सामान्यतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार चलाकर प्राप्त किया जा सकता है, यानी बार-बार [[स्टोचैस्टिक सिमुलेशन]] (प्रतिरूपण में यादृच्छिक चर के लिए एक [[छद्म यादृच्छिक संख्या जनरेटर]] को नियोजित करना) का उपयोग करके।
अवशिष्ट निदान में यह निर्धारित करने के लिए अवशिष्टों का विश्लेषण शामिल है कि, क्या अवशिष्ट प्रभावी रूप से आकस्मिक प्रतीत होते हैं। इस तरह के विश्लेषणों में सामान्यतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार उपयोग करके प्राप्त किया जा सकता है, यानी बार-बार [[स्टोचैस्टिक सिमुलेशन|काल्पनिक]] सतत अनुकरण प्रतिरूपण में आकस्मिक चर के लिए एक [[छद्म यादृच्छिक संख्या जनरेटर|प्रारंभिक आकस्मिक संख्या उत्पादक]] का उपयोग करके।


यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन#अवशिष्टों का विश्लेषण|प्रतिगमन-अवशिष्ट निदान मौजूद है और इसका उपयोग किया जा सकता है; इस तरह के डायग्नोस्टिक्स का अच्छी तरह से अध्ययन किया गया है।
यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन अवशिष्ट निदान का उपयोग किया जा सकता है और इस तरह के निदान का अच्छी तरह से अध्ययन किया गया है।


=== क्रॉस सत्यापन ===
=== क्रॉस सत्यापन ===
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को उपयुक्त   िंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो डेटा छोड़े गए हैं वे करीब हैं या दूर हैं जहां से प्रतिरूपण भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को उपयुक्त    करती है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो प्रतिरूपण शायद गलत है।
क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को उपयुक्त फिटिंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो छोड़े गए डेटा हैं वे करीब हैं या दूर हैं जहां से प्रतिरूपण भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को उपयुक्त    करती है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो प्रतिरूपण शायद गलत है।


== यह भी देखें ==
== यह भी देखें ==

Revision as of 12:33, 3 April 2023

सांख्यिकी में, चुना गया सांख्यिकीय प्रतिरूपण उपयुक्त है या नहीं यह मूल्यांकन करने का कार्य प्रतिरूपण सत्यापन करता है। सामान्यतया सांख्यिकीय अनुमानों में, डेटा को उपयुक्त करने के लिए जो अनुमान प्रतिरूपण से लिए जाते है वो अस्थायी हो सकते हैं, जिसके परिणामस्वरूप उनके प्रतिरूपण की वास्तविक संबद्धता के शोधकर्ताओं द्वारा भ्रम उत्पन्न हो सकता है। इसलिए, एक सांख्यिकीय प्रतिरूपण डेटा में क्रमपरिवर्तन तक निरंतर रह सकता है या नहीं यह परीक्षण करने के लिए प्रतिरूपण सत्यापन का उपयोग किया जाता है। सामान्यतया, प्रतिरूपण चयन और प्रतिरूपण सत्यापन समान प्रतीत होते है जो भ्रम उत्पन्न करते है पर प्रतिरूपण चयन कि प्रक्रिया में विभिन्न उपलब्ध प्रतिरूपण के प्रकार में से किसी एक का चयन करना होता है परन्तु प्रतिरूपण सत्यापन प्रतिरूपण के वैचारिक रचना को इतना महत्व नहीं देता है क्योंकि यह केवल एक चुने हुए प्रतिरूपण और उसके बताए गए उत्पादन के बीच स्थिरता का परीक्षण करता है।

प्रतिरूपण को प्रमाणित करने के विभिन्न तरीके हैं। वर्गों का अवशिष्ट योग वास्तविक डेटा और प्रतिरूपण के पूर्वानुमान के बीच भिन्नता को दर्शाता है: वर्गों का अवशिष्ट योग में सहसंबंध प्रतिरूपण में त्रुटि का संकेत दे सकता है। क्रॉस-सत्यापन (सांख्यिकी) प्रतिरूपण सत्यापन की एक विधि है जिसमे प्रतिरूपण द्वारा अनुमानित डेटा कि तुलना करने के लिए प्रत्येक बार जांच करने के लिए थोड़ा डेटा छोड़ देते है,जो प्रतिरूपण को पुनरावृत्त रूप से परिष्कृत करता है। क्रॉस-सत्यापनविभिन्न प्रकार के होते है;अनुमानित सतत अनुकरण का उपयोग कृत्रिम डेटा की वास्तविक डेटा से तुलना करने के लिए किया जाता है, बाहरी सत्यापन प्रतिरूपण को नए डेटा के अनुकूल करता है और एकैके सूचना मापदण्ड एक प्रतिरूपण की गुणवत्ता का अनुमान लगाता है।

अवलोकन

प्रतिरूपण सत्यापन विभिन्न रूपों में आता है और शोधकर्ता द्वारा उपयोग किए जाने वाले प्रतिरूपण सत्यापन की विशिष्ट विधि अक्सर उनके शोध रूप-रेखा की बाधा होती है। अधिक सरलता से, इसका अर्थ यह है कि प्रतिरूपण को सिद्ध करने की कोई एक विशिष्ट विधि नहीं है। उदाहरण के लिए, यदि कोई शोधकर्ता डेटा के बहुत सीमित समूह के साथ काम कर रहा है, लेकिन डेटा के बारे में उनकी पूर्व धारणाएँ मजबूत हैं, तो वे बायेसियन रूपरेखा का उपयोग करके अपने प्रतिरूपण के उपयुक्त होने और विभिन्न पूर्व वितरणों का उपयोग करके अपने प्रतिरूपण के उपयुक्त परीक्षण करने पर विचार कर सकते हैं। हालाँकि, यदि किसी शोधकर्ता के पास बहुत अधिक मात्रा में डेटा है और वह विभिन्न स्थिर प्रतिरूपण का परीक्षण कर रहा है, तो ये स्थितियाँ शोधकर्ता को क्रॉस सत्यापन की ओर ले जा सकती हैं और संभवत: एक परीक्षण को छोड़ना पड़ सकता है। ये दो संक्षिप्त उदाहरण हैं और किसी भी वास्तविक प्रतिरूपण सत्यापन को यहां बताए गए विवरणों की तुलना में कहीं अधिक जटिलता पर विचार करना होगा, लेकिन ये उदाहरण बताते हैं कि प्रतिरूपण सत्यापन के तरीके हमेशा परिस्थितियों पर निर्भर करते हैं।

सामान्य तौर पर, प्रतिरूपण को उपलब्ध डेटा या नए डेटा के साथ मान्य किया जा सकता है, और दोनों विधियों पर निम्नलिखित उपखंडों में अधिक चर्चा की गई है, और सावधानी का एक नोट भी प्रदान किया गया है।

उपलब्ध डेटा के साथ सत्यापन

उपलब्ध डेटा के आधार पर सत्यापन में प्रतिरूपण के उपयुक्त होने के गुण का विश्लेषण करना या प्रतिरूपण में अविष्ट निदान के आधार पर आकस्मिक त्रुटियों का विश्लेषण करना शामिल हैं। इस पद्धति में डेटा के प्रतिरूपण की निकटता के विश्लेषण का उपयोग करना और यह समझने की कोशिश करना शामिल है कि प्रतिरूपण कितनी अच्छी तरह अपने डेटा को अनुमानित करता है। इस पद्धति का एक उदाहरण चित्र 1 में है, जो कुछ डेटा के लिए उपयुक्त बहुपदीय फलन दिखाता है। हम देखते हैं कि बहुपद फलन डेटा के अनुरूप नहीं है, जो रैखिक प्रतीत होता है, और इस बहुपद प्रतिरूपण को अमान्य कर सकता है।

चित्र 1.  डेटा (काले बिंदु), जो सीधी रेखा और कुछ अतिरिक्त शोर के माध्यम से उत्पन्न किया गया था, एक सुडौल बहुपद द्वारा पूरी तरह से उपयुक्त किया गया है।

नए डेटा के साथ सत्यापन

यदि नया डेटा उपलब्ध हो जाता है, तो पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित किया जा सकता है या नहीं, इसका आकलन करके उपलब्ध प्रतिरूपण को मान्य किया जा सकता है। यदि पुराने प्रतिरूपण द्वारा नए डेटा को अनुमानित नहीं किया जाता है, तो प्रतिरूपण शोधकर्ता के लक्ष्यों के लिए मान्य नहीं हो सकता है।

सावधानी का एक नोट

एक प्रतिरूपण को केवल कुछ संबंधित अनुप्रयोग क्षेत्र के सापेक्ष मान्य किया जा सकता है।[1][2] एक प्रतिरूपण जो एक अनुप्रयोग के लिए मान्य है वह कुछ अन्य अनुप्रयोगों के लिए अमान्य हो सकता है। एक उदाहरण के रूप में, चित्र 1 में वक्र पर विचार करें: यदि अनुप्रयोग केवल अंतराल [0, 2] से निविष्ट का उपयोग करता है, तो वक्र एक स्वीकार्य प्रतिरूपण हो सकता है।

सत्यापन के तरीके

सांख्यिकीय विज्ञान के विश्वकोश के अनुसार, सत्यापन करते समय, संभावित कठिनाई के तीन उल्लेखनीय कारण होते हैं।[3] ये तीन कारण हैं: डेटा की कमी; इनपुट चर के नियंत्रण की कमी और अंतर्निहित संभाव्यता वितरण और सहसंबंधों के बारे में अनिश्चितता। सत्यापन में कठिनाइयों को सुलझाने के तरीकों में; प्रतिरूपण के निर्माण में की गई धारणाओं की जाँच करना; उपलब्ध डेटा और संबंधित प्रतिरूपण आउटपुट की जांच करना और विशेषज्ञ निर्णय लागू करना शामिल हैं:।[1] विशेषज्ञ निर्णय के लिए सामान्यतौर पर अनुप्रयोग क्षेत्र में अनुमान लगाने के लिए विशेषज्ञान की आवश्यकता होती है।[1]

कभी-कभी विशेषज्ञ निर्णय का उपयोग वास्तविक डेटा प्राप्त किए बिना अनुमानित परिणाम की वैधता का आकलन करने के लिए किया जा सकता है: उदाहरण; चित्र 1 में वक्र के लिए, एक विशेषज्ञ अच्छी तरह से यह आकलन करने में सक्षम हो सकता है कि वास्तविक अनुमान लगाना अमान्य होगा। इसके अतिरिक्त, ट्यूरिंग परीक्षण जैसे परीक्षण में विशेषज्ञ निर्णय का उपयोग किया जा सकता है, जहां विशेषज्ञों को वास्तविक डेटा और संबंधित प्रतिरूपण आउटपुट दोनों के साथ प्रस्तुत किया जाता है और फिर दोनों के बीच अंतर करने के लिए कहा जाता है।[4]

सांख्यिकीय प्रतिरूपण के कुछ वर्गों के लिए, सत्यापन करने के विशेष तरीके उपलब्ध हैं। एक उदाहरण के रूप में, यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन विश्लेषण के माध्यम से प्राप्त किया गया था, तो सामान्यतौर पर उसी प्रतिरूपण का उपयोग किया जाता है प्रतिगमन प्रतिरूपण सत्यापन के लिए विशेष विश्लेषण मौजूद हैं।

अवशिष्ट निदान

अवशिष्ट निदान में यह निर्धारित करने के लिए अवशिष्टों का विश्लेषण शामिल है कि, क्या अवशिष्ट प्रभावी रूप से आकस्मिक प्रतीत होते हैं। इस तरह के विश्लेषणों में सामान्यतौर पर अवशिष्टों के लिए संभाव्यता वितरण के अनुमानों की आवश्यकता होती है। अवशिष्टों के वितरण का अनुमान अक्सर प्रतिरूपण को बार-बार उपयोग करके प्राप्त किया जा सकता है, यानी बार-बार काल्पनिक सतत अनुकरण प्रतिरूपण में आकस्मिक चर के लिए एक प्रारंभिक आकस्मिक संख्या उत्पादक का उपयोग करके।

यदि सांख्यिकीय प्रतिरूपण एक प्रतिगमन के माध्यम से प्राप्त किया गया था, तो प्रतिगमन सत्यापन अवशिष्ट निदान का उपयोग किया जा सकता है और इस तरह के निदान का अच्छी तरह से अध्ययन किया गया है।

क्रॉस सत्यापन

क्रॉस सत्यापन नमूनाकरण की एक विधि है जिसमें डेटा के कुछ हिस्सों को उपयुक्त फिटिंग प्रक्रिया से बाहर करना शामिल है और फिर यह देखना है कि जो छोड़े गए डेटा हैं वे करीब हैं या दूर हैं जहां से प्रतिरूपण भविष्यवाणी करता है कि वे होंगे। व्यावहारिक रूप से इसका मतलब यह है कि क्रॉस वैलिडेशन तकनीक डेटा के एक हिस्से के साथ कई बार प्रतिरूपण को उपयुक्त करती है और प्रत्येक प्रतिरूपण की तुलना उस हिस्से से करती है जिसका उसने उपयोग नहीं किया था। यदि प्रतिरूपण बहुत कम ही उस डेटा का वर्णन करते हैं जिस पर उन्हें प्रशिक्षित नहीं किया गया था, तो प्रतिरूपण शायद गलत है।

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 National Research Council (2012), "Chapter 5: Model validation and prediction", Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification, Washington, DC: National Academies Press, pp. 52–85, doi:10.17226/13395, ISBN 978-0-309-25634-6{{citation}}: CS1 maint: multiple names: authors list (link).
  2. Batzel, J. J.; Bachar, M.; Karemaker, J. M.; Kappel, F. (2013), "Chapter 1: Merging mathematical and physiological knowledge", in Batzel, J. J.; Bachar, M.; Kappel, F. (eds.), Mathematical Modeling and Validation in Physiology, Springer, pp. 3–19, doi:10.1007/978-3-642-32882-4_1.
  3. Deaton, M. L. (2006), "Simulation models, validation of", in Kotz, S.; et al. (eds.), Encyclopedia of Statistical Sciences, Wiley.
  4. Mayer, D. G.; Butler, D.G. (1993), "Statistical validation", Ecological Modelling, 68 (1–2): 21–32, doi:10.1016/0304-3800(93)90105-2.


अग्रिम पठन


बाहरी संबंध