गुडनेस ऑफ़ फिट: Difference between revisions

From Vigyanwiki
Line 28: Line 28:
* [[निर्धारण का गुणांक]] (फिट की अच्छाई का आर-वर्ग माप);
* [[निर्धारण का गुणांक]] (फिट की अच्छाई का आर-वर्ग माप);
* वर्गों के योग का अभाव;
* वर्गों के योग का अभाव;
* मैलोज़ का सीपी|मैलोज़ का सीपी मानदंड
* मैलोज़ का सीपी मानदंड
* [[पूर्वानुमान त्रुटि]]
* [[पूर्वानुमान त्रुटि]]
* [[कम ची-स्क्वायर]]
* [[कम ची-स्क्वायर]]
Line 38: Line 38:
===पियर्सन का ची-स्क्वायर परीक्षण===
===पियर्सन का ची-स्क्वायर परीक्षण===


पियर्सन का ची-स्क्वायर परीक्षण फिट की अच्छाई के माप का उपयोग करता है जो प्रेक्षित और [[अपेक्षित मूल्य]] आवृत्तियों (अर्थात, अवलोकनों की गिनती) के बीच अंतर का योग है, प्रत्येक वर्ग और अपेक्षा से विभाजित होता है:
पियर्सन का ची-स्क्वायर परीक्षण फिट की अच्छाई के माप का उपयोग करता है जो प्रेक्षित और [[अपेक्षित मूल्य]] आवृत्तियों (अर्थात, अवलोकनों की गिनती) के बीच अंतर का योग है, प्रत्येक वर्ग और अनुमानों से विभाजित होता है:


<math display="block"> \chi^2 = \sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}</math> कहाँ:
<math display="block"> \chi^2 = \sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}</math> जहाँ:
*<sub>i</sub>= बिन i के लिए एक प्रेक्षित गणना
*''O<sub>i</sub>'' = bin ''i'' के लिए एक प्रेक्षित गणना
*<sub>i</sub>= बिन i के लिए एक अपेक्षित गिनती, जो [[शून्य परिकल्पना]] द्वारा बताई गई है।
*''E<sub>i</sub>''  = bin ''i'' के लिए एक अपेक्षित गिनती, जो [[शून्य परिकल्पना]] द्वारा बताई गई है।


अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है:
अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है:
<math display="block">E_i \, = \, \bigg( F(Y_u) \, - \, F(Y_l) \bigg) \, N</math>
<math display="block">E_i \, = \, \bigg( F(Y_u) \, - \, F(Y_l) \bigg) \, N</math>
कहाँ:
जहाँ:
*एफ = परीक्षण किए जा रहे संभाव्यता वितरण के लिए संचयी वितरण फ़ंक्शन।
*F = परीक्षण किए जा रहे संभाव्यता वितरण के लिए संचयी वितरण फ़ंक्शन।
*<sub>u</sub>= कक्षा I के लिए ऊपरी सीमा,
*Y<sub>u</sub>= कक्षा I के लिए ऊपरी सीमा,
*<sub>l</sub>= कक्षा I के लिए निचली सीमा, और
*Y<sub>l</sub>= कक्षा I के लिए निचली सीमा, और
*एन = नमूना आकार
*N = प्रारूप आकार


फिट की अच्छाई निर्धारित करने के लिए परिणामी मूल्य की तुलना [[ची-स्क्वायर वितरण]] से की जा सकती है। ची-स्क्वायर वितरण में (k - c) [[स्वतंत्रता की डिग्री (सांख्यिकी)]] है, जहां k गैर-रिक्त कोशिकाओं की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों (स्थान और पैमाने के मापदंडों और आकार मापदंडों सहित) की संख्या है। उदाहरण के लिए, 3-पैरामीटर [[वेइबुल वितरण]] के लिए, c = 4.
फिट की अच्छाई निर्धारित करने के लिए परिणामी मान की तुलना [[ची-स्क्वायर वितरण]] से की जा सकती है। ची-स्क्वायर वितरण में (k - c) [[स्वतंत्रता की डिग्री (सांख्यिकी)|स्वतंत्रता की डिग्री]] है, जहां k गैर-रिक्त कोशिकाओं की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों की संख्या है। उदाहरण के लिए, 3-पैरामीटर [[वेइबुल वितरण]] के लिए, c = 4 होगा।


====उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ====
====उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ====


उदाहरण के लिए, इस परिकल्पना का परीक्षण करने के लिए कि 100 लोगों का एक यादृच्छिक नमूना एक आबादी से लिया गया है जिसमें पुरुषों और महिलाओं की आवृत्ति समान है, पुरुषों और महिलाओं की देखी गई संख्या की तुलना 50 पुरुषों और 50 महिलाओं की सैद्धांतिक आवृत्तियों से की जाएगी। यदि नमूने में 44 पुरुष और 56 महिलाएँ थीं, तो
उदाहरण के लिए, इस परिकल्पना का परीक्षण करने के लिए कि 100 लोगों का एक यादृच्छिक प्रारूप एक आबादी से लिया गया है जिसमें पुरुषों और महिलाओं की आवृत्ति समान है, पुरुषों और महिलाओं की देखी गई संख्या की तुलना 50 पुरुषों और 50 महिलाओं की सैद्धांतिक आवृत्तियों से की जाएगी। यदि नमूने में 44 पुरुष और 56 महिलाएँ थीं, तो


<math display="block"> \chi^2 = {(44 - 50)^2 \over 50} + {(56 - 50)^2 \over 50} = 1.44</math>
<math display="block"> \chi^2 = {(44 - 50)^2 \over 50} + {(56 - 50)^2 \over 50} = 1.44</math>
Line 63: Line 63:
स्वतंत्रता की 1 डिग्री के लिए ची-स्क्वायर वितरण के परामर्श से पता चलता है कि अंतर देखने की संचयी संभावना इससे अधिक है <math>\chi^2=1.44</math> यदि जनसंख्या में पुरुष और महिलाएँ समान रूप से संख्या में हैं तो लगभग 0.23 है। यह संभावना सांख्यिकीय महत्व (.001-.05 की संभावना) के लिए पारंपरिक रूप से स्वीकृत मानदंड से अधिक है, इसलिए आम तौर पर हम शून्य परिकल्पना को अस्वीकार नहीं करेंगे कि जनसंख्या में पुरुषों की संख्या महिलाओं की संख्या के समान है (यानी हम अपने नमूने को 50/50 पुरुष/महिला अनुपात के लिए हमारी अपेक्षा की सीमा के भीतर मानेंगे।)
स्वतंत्रता की 1 डिग्री के लिए ची-स्क्वायर वितरण के परामर्श से पता चलता है कि अंतर देखने की संचयी संभावना इससे अधिक है <math>\chi^2=1.44</math> यदि जनसंख्या में पुरुष और महिलाएँ समान रूप से संख्या में हैं तो लगभग 0.23 है। यह संभावना सांख्यिकीय महत्व (.001-.05 की संभावना) के लिए पारंपरिक रूप से स्वीकृत मानदंड से अधिक है, इसलिए आम तौर पर हम शून्य परिकल्पना को अस्वीकार नहीं करेंगे कि जनसंख्या में पुरुषों की संख्या महिलाओं की संख्या के समान है (यानी हम अपने नमूने को 50/50 पुरुष/महिला अनुपात के लिए हमारी अपेक्षा की सीमा के भीतर मानेंगे।)


इस धारणा पर ध्यान दें कि जिस तंत्र ने नमूना तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक <math display="inline">{(O_i - E_i)}^2</math> जबकि प्रत्येक में 4 गुना वृद्धि होगी <math display="inline">E_i</math> 2 गुना बढ़ जाएगी। सांख्यिकी का मूल्य दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गिनती करनी चाहिए। सामान्य तौर पर, तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण आँकड़ा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से बहुत भिन्न हो सकता है।<ref>{{cite book |last1=Maindonald |first1=J. H. |last2=Braun |first2=W. J. |year=2010 |title=आर का उपयोग करके डेटा विश्लेषण और ग्राफिक्स। एक उदाहरण-आधारित दृष्टिकोण।|url=https://archive.org/details/dataanalysisgrap00main_071 |url-access=limited |location=New York |publisher=Cambridge University Press |edition=Third |isbn=978-0-521-76293-9 |pages=[https://archive.org/details/dataanalysisgrap00main_071/page/n143 116]-118}}</ref>
इस धारणा पर ध्यान दें कि जिस तंत्र ने प्रारूप तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक <math display="inline">{(O_i - E_i)}^2</math> जबकि प्रत्येक में 4 गुना वृद्धि होगी <math display="inline">E_i</math> 2 गुना बढ़ जाएगी। सांख्यिकी का मूल्य दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गिनती करनी चाहिए। सामान्य तौर पर, तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण आँकड़ा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से बहुत भिन्न हो सकता है।<ref>{{cite book |last1=Maindonald |first1=J. H. |last2=Braun |first2=W. J. |year=2010 |title=आर का उपयोग करके डेटा विश्लेषण और ग्राफिक्स। एक उदाहरण-आधारित दृष्टिकोण।|url=https://archive.org/details/dataanalysisgrap00main_071 |url-access=limited |location=New York |publisher=Cambridge University Press |edition=Third |isbn=978-0-521-76293-9 |pages=[https://archive.org/details/dataanalysisgrap00main_071/page/n143 116]-118}}</ref>





Revision as of 01:26, 7 August 2023

एक सांख्यिकीय मॉडल की फिट की अच्छाई बताती है कि यह अवलोकनों के एक समुच्चय पर कितनी अच्छी तरह फिट बैठता है। फिट की अच्छाई के उपाय सामान्यतः देखे गए मान और प्रश्न में मॉडल के अंतर्गत अपेक्षित मानों के बीच विसंगति को संक्षेप में प्रस्तुत करते हैं। ऐसे उपायों का उपयोग सांख्यिकीय परिकल्पना परीक्षण में किया जा सकता है, उदाहरण के लिए आँकड़ों में त्रुटियों और अवशेषों की सामान्यता परीक्षण के लिए, यह परीक्षण करने के लिए कि क्या दो प्रारूप समान वितरण से लिए गए हैं (कोलमोगोरोव-स्मिरनोव परीक्षण देखें), या क्या परिणाम आवृत्तियाँ एक निर्दिष्ट वितरण का पालन करती हैं (पियर्सन का ची-स्क्वायर परीक्षण देखें)। प्रसरण के विश्लेषण में, उन घटकों में से एक जिसमें प्रसरण को विभाजित किया गया है, वर्गों का फिट न होने वाला योग हो सकता है।

वितरण के फ़िट

यह आकलन करने में कि क्या कोई दिया गया वितरण डेटा-समुच्चय के लिए उपयुक्त है, निम्नलिखित सांख्यिकीय परिकल्पना परीक्षण और उनके फिट के अंतर्निहित उपायों का उपयोग किया जा सकता है:


प्रतिगमन विश्लेषण

प्रतिगमन विश्लेषण में, विशेष रूप से प्रतिगमन सत्यापन में, निम्नलिखित विषय फिट की अच्छाई से संबंधित हैं:

श्रेणीबद्ध डेटा

निम्नलिखित उदाहरण हैं जो श्रेणीबद्ध डेटा के संदर्भ में उत्पन्न होते हैं।

पियर्सन का ची-स्क्वायर परीक्षण

पियर्सन का ची-स्क्वायर परीक्षण फिट की अच्छाई के माप का उपयोग करता है जो प्रेक्षित और अपेक्षित मूल्य आवृत्तियों (अर्थात, अवलोकनों की गिनती) के बीच अंतर का योग है, प्रत्येक वर्ग और अनुमानों से विभाजित होता है:

जहाँ:

  • Oi = bin i के लिए एक प्रेक्षित गणना
  • Ei = bin i के लिए एक अपेक्षित गिनती, जो शून्य परिकल्पना द्वारा बताई गई है।

अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है:

जहाँ:

  • F = परीक्षण किए जा रहे संभाव्यता वितरण के लिए संचयी वितरण फ़ंक्शन।
  • Yu= कक्षा I के लिए ऊपरी सीमा,
  • Yl= कक्षा I के लिए निचली सीमा, और
  • N = प्रारूप आकार

फिट की अच्छाई निर्धारित करने के लिए परिणामी मान की तुलना ची-स्क्वायर वितरण से की जा सकती है। ची-स्क्वायर वितरण में (k - c) स्वतंत्रता की डिग्री है, जहां k गैर-रिक्त कोशिकाओं की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों की संख्या है। उदाहरण के लिए, 3-पैरामीटर वेइबुल वितरण के लिए, c = 4 होगा।

उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ

उदाहरण के लिए, इस परिकल्पना का परीक्षण करने के लिए कि 100 लोगों का एक यादृच्छिक प्रारूप एक आबादी से लिया गया है जिसमें पुरुषों और महिलाओं की आवृत्ति समान है, पुरुषों और महिलाओं की देखी गई संख्या की तुलना 50 पुरुषों और 50 महिलाओं की सैद्धांतिक आवृत्तियों से की जाएगी। यदि नमूने में 44 पुरुष और 56 महिलाएँ थीं, तो

यदि शून्य परिकल्पना सत्य है (यानी, पुरुषों और महिलाओं को नमूने में समान संभावना के साथ चुना जाता है), तो परीक्षण आँकड़ा स्वतंत्रता की एक डिग्री (सांख्यिकी) के साथ ची-स्क्वायर वितरण से लिया जाएगा। हालाँकि कोई स्वतंत्रता की दो डिग्री (पुरुषों और महिलाओं के लिए एक-एक) की उम्मीद कर सकता है, हमें यह ध्यान में रखना चाहिए कि पुरुषों और महिलाओं की कुल संख्या सीमित है (100), और इस प्रकार स्वतंत्रता की केवल एक डिग्री है (2 − 1)। दूसरे शब्दों में, यदि पुरुष गणना ज्ञात है तो महिला गणना निर्धारित की जाती है, और इसके विपरीत।

स्वतंत्रता की 1 डिग्री के लिए ची-स्क्वायर वितरण के परामर्श से पता चलता है कि अंतर देखने की संचयी संभावना इससे अधिक है यदि जनसंख्या में पुरुष और महिलाएँ समान रूप से संख्या में हैं तो लगभग 0.23 है। यह संभावना सांख्यिकीय महत्व (.001-.05 की संभावना) के लिए पारंपरिक रूप से स्वीकृत मानदंड से अधिक है, इसलिए आम तौर पर हम शून्य परिकल्पना को अस्वीकार नहीं करेंगे कि जनसंख्या में पुरुषों की संख्या महिलाओं की संख्या के समान है (यानी हम अपने नमूने को 50/50 पुरुष/महिला अनुपात के लिए हमारी अपेक्षा की सीमा के भीतर मानेंगे।)

इस धारणा पर ध्यान दें कि जिस तंत्र ने प्रारूप तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक जबकि प्रत्येक में 4 गुना वृद्धि होगी 2 गुना बढ़ जाएगी। सांख्यिकी का मूल्य दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गिनती करनी चाहिए। सामान्य तौर पर, तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण आँकड़ा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से बहुत भिन्न हो सकता है।[7]


द्विपद स्थिति

एक द्विपद प्रयोग स्वतंत्र परीक्षणों का एक क्रम है जिसमें परीक्षणों के परिणामस्वरूप दो परिणामों में से एक हो सकता है, सफलता या विफलता। ऐसे n परीक्षण हैं जिनमें से प्रत्येक की सफलता की संभावना है, जिसे p द्वारा दर्शाया गया है। बशर्ते कि एन.पीi≫ प्रत्येक i के लिए 1 (जहां i = 1, 2, ...,k), फिर

इसमें लगभग k-1 डिग्री स्वतंत्रता के साथ एक ची-स्क्वायर वितरण है। तथ्य यह है कि स्वतंत्रता की k-1 डिग्री प्रतिबंध का परिणाम है . हम जानते हैं कि k अवलोकित कोशिका गणनाएँ हैं, हालाँकि, एक बार k − 1 ज्ञात हो जाने पर, शेष को विशिष्ट रूप से निर्धारित किया जाता है। मूल रूप से, कोई कह सकता है, केवल k − 1 स्वतंत्र रूप से निर्धारित कोशिका गणना होती है, इस प्रकार k − 1 डिग्री की स्वतंत्रता होती है।

जी-परीक्षण

जी-परीक्षण|जी-परीक्षण सांख्यिकीय महत्व के संभावना अनुपात परीक्षण|संभावना-अनुपात परीक्षण हैं जिनका उपयोग उन स्थितियों में तेजी से किया जा रहा है जहां पहले पियर्सन के ची-स्क्वायर परीक्षणों की सिफारिश की गई थी।[8] G का सामान्य सूत्र है

कहाँ और ची-स्क्वायर परीक्षण के समान ही हैं, प्राकृतिक लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त कोशिकाओं पर लिया जाता है। इसके अलावा, कुल देखी गई गिनती कुल अपेक्षित गिनती के बराबर होनी चाहिए:

कहाँ प्रेक्षणों की कुल संख्या है.

कम से कम रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के 1981 संस्करण के बाद से जी-परीक्षणों की सिफारिश की गई है।[9]


यह भी देखें

संदर्भ

  1. Berk, Robert H.; Jones, Douglas H. (1979). "फिट-की-फिट परीक्षण आँकड़े जो कोलमोगोरोव आँकड़ों पर हावी हैं". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 47 (1): 47–59. doi:10.1007/BF00533250.
  2. Moscovich, Amit; Nadler, Boaz; Spiegelman, Clifford (2016). "सटीक बर्क-जोन्स आँकड़े और उनकी पी-वैल्यू गणना पर". Electronic Journal of Statistics. 10 (2). doi:10.1214/16-EJS1172.
  3. Liu, Qiang; Lee, Jason; Jordan, Michael (20 June 2016). "अच्छाई-की-फिट परीक्षणों के लिए एक कर्नेलाइज्ड स्टीन विसंगति". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 276–284.
  4. Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 June 2016). "फिट की अच्छाई का एक कर्नेल परीक्षण". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 2606–2615.
  5. Zhang, Jin (2002). "संभावना अनुपात के आधार पर शक्तिशाली अच्छाई-की-फिट परीक्षण" (PDF). J. R. Stat. Soc. B. 64 (2): 281–294. doi:10.1111/1467-9868.00337. Retrieved 5 November 2018.
  6. Vexler, Albert; Gurevich, Gregory (2010). "अनुभवजन्य संभावना अनुपात नमूना एन्ट्रॉपी के आधार पर फिट-ऑफ-फिट परीक्षणों पर लागू होता है". Computational Statistics and Data Analysis. 54 (2): 531–545. doi:10.1016/j.csda.2009.09.025.
  7. Maindonald, J. H.; Braun, W. J. (2010). आर का उपयोग करके डेटा विश्लेषण और ग्राफिक्स। एक उदाहरण-आधारित दृष्टिकोण। (Third ed.). New York: Cambridge University Press. pp. 116-118. ISBN 978-0-521-76293-9.
  8. McDonald, J.H. (2014). "G–test of goodness-of-fit". जैविक सांख्यिकी की पुस्तिका (Third ed.). Baltimore, Maryland: Sparky House Publishing. pp. 53–58.
  9. Sokal, R. R.; Rohlf, F. J. (1981). Biometry: The Principles and Practice of Statistics in Biological Research (Second ed.). W. H. Freeman. ISBN 0-7167-2411-1.


अग्रिम पठन

  • Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M., eds. (2002), Goodness-of-Fit Tests and Model Validity, Springer
  • Ingster, Yu. I.; Suslina, I. A. (2003), Nonparametric Goodness-of-Fit Testing Under Gaussian Models, Springer
  • Rayner, J. C. W.; Thas, O.; Best, D. J. (2009), Smooth Tests of Goodness of Fit (2nd ed.), Wiley
  • Vexler, Albert; Gurevich, Gregory (2010), "Empirical likelihood ratios applied to goodness-of-fit tests based on sample entropy", Computational Statistics & Data Analysis, 54 (2): 531–545, doi:10.1016/j.csda.2009.09.025