गुडनेस ऑफ़ फिट: Difference between revisions
No edit summary |
No edit summary |
||
(4 intermediate revisions by 3 users not shown) | |||
Line 34: | Line 34: | ||
==श्रेणीबद्ध डेटा== | ==श्रेणीबद्ध डेटा== | ||
श्रेणीबद्ध डेटा के संदर्भ में उत्पन्न होने वाले निम्नलिखित उदाहरण हैं। | |||
===पियर्सन का ची-स्क्वायर परीक्षण=== | ===पियर्सन का ची-स्क्वायर परीक्षण=== | ||
पियर्सन का ची-स्क्वायर परीक्षण गुडनेस ऑफ़ फिट के माप का उपयोग करता है जो प्रेक्षित और [[अपेक्षित मूल्य]] आवृत्तियों (अर्थात, अवलोकनों की | पियर्सन का ची-स्क्वायर परीक्षण गुडनेस ऑफ़ फिट के माप का उपयोग करता है जो प्रेक्षित और [[अपेक्षित मूल्य]] आवृत्तियों (अर्थात, अवलोकनों की गणना) के बीच अंतर का योग है, प्रत्येक वर्ग और अनुमानों से विभाजित होता है: | ||
<math display="block"> \chi^2 = \sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}</math> जहाँ: | <math display="block"> \chi^2 = \sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}</math> जहाँ: | ||
*''O<sub>i</sub>'' = bin ''i'' के लिए एक प्रेक्षित गणना | *''O<sub>i</sub>'' = bin ''i'' के लिए एक प्रेक्षित गणना | ||
*''E<sub>i</sub>'' = bin ''i'' के लिए एक अपेक्षित | *''E<sub>i</sub>'' = bin ''i'' के लिए एक अपेक्षित गणना, जो [[शून्य परिकल्पना]] द्वारा प्रदर्शित किया जाता है। | ||
अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है: | अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है: | ||
Line 59: | Line 59: | ||
<math display="block"> \chi^2 = {(44 - 50)^2 \over 50} + {(56 - 50)^2 \over 50} = 1.44</math> | <math display="block"> \chi^2 = {(44 - 50)^2 \over 50} + {(56 - 50)^2 \over 50} = 1.44</math> | ||
यदि शून्य परिकल्पना सत्य है (अर्थात, पुरुषों और महिलाओं को प्रारूप में समान [[संभावना]] के साथ चुना जाता है), तो परीक्षण | यदि शून्य परिकल्पना सत्य है (अर्थात, पुरुषों और महिलाओं को प्रारूप में समान [[संभावना]] के साथ चुना जाता है), तो परीक्षण डाटा स्वतंत्रता की एक डिग्री के साथ ची-स्क्वायर वितरण से लिया जाएगा। यद्यपि कोई स्वतंत्रता की दो डिग्री (पुरुषों और महिलाओं के लिए एक-एक) की आशा कर सकता है, हमें यह ध्यान में रखना चाहिए कि पुरुषों और महिलाओं की कुल संख्या सीमित है (100), और इस प्रकार स्वतंत्रता की केवल एक डिग्री है (2 − 1)। दूसरे शब्दों में, यदि पुरुष गणना ज्ञात है तो महिला गणना निर्धारित की जाती है, और यदि महिला गणना ज्ञात है तों पुरुषों की संख्या निर्धारित की जा सकती है। | ||
1 डिग्री की स्वतंत्रता के लिए [[चाइ-स्क्वायर वितरण]] की परामर्श के अनुसार, यदि पुरुष और महिलाएँ जनसंख्या में समान संख्या में हैं, तो <math>\chi^2=1.44</math> से अधिक अंतर देखने की कुल संभावना लगभग 0.23 है। यह संभावना सामान्यतः [[सांख्यिकीय महत्वपूर्णता]] के लिए स्वीकृत मानक मापदंडों (0.001-0.05 की संभावना) से ऊपर है, इसलिए सामान्य रूप से हम निराकरण करते हैं कि पुरुषों की संख्या और महिलाओं की संख्या में कोई अंतर नहीं है अर्थात् हम एक 50/50 पुरुष/महिला अनुपात के लिए हमारा प्रारूप उस सीमा के भीतर मानेंगे जो हम आशा करते हैं। | 1 डिग्री की स्वतंत्रता के लिए [[चाइ-स्क्वायर वितरण]] की परामर्श के अनुसार, यदि पुरुष और महिलाएँ जनसंख्या में समान संख्या में हैं, तो <math>\chi^2=1.44</math> से अधिक अंतर देखने की कुल संभावना लगभग 0.23 है। यह संभावना सामान्यतः [[सांख्यिकीय महत्वपूर्णता]] के लिए स्वीकृत मानक मापदंडों (0.001-0.05 की संभावना) से ऊपर है, इसलिए सामान्य रूप से हम निराकरण करते हैं कि पुरुषों की संख्या और महिलाओं की संख्या में कोई अंतर नहीं है अर्थात् हम एक 50/50 पुरुष/महिला अनुपात के लिए हमारा प्रारूप उस सीमा के भीतर मानेंगे जो हम आशा करते हैं। | ||
इस धारणा पर ध्यान दें कि जिस तंत्र ने प्रारूप तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक <math display="inline">{(O_i - E_i)}^2</math> जबकि प्रत्येक में 4 गुना वृद्धि होगी <math display="inline">E_i</math> 2 गुना बढ़ जाएगी। सांख्यिकी का मान दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की | इस धारणा पर ध्यान दें कि जिस तंत्र ने प्रारूप तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक <math display="inline">{(O_i - E_i)}^2</math> जबकि प्रत्येक में 4 गुना वृद्धि होगी <math display="inline">E_i</math> 2 गुना बढ़ जाएगी। सांख्यिकी का मान दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गणना करनी चाहिए। सामान्यतः, तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण डाटा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से अति भिन्न हो सकता है।<ref>{{cite book |last1=Maindonald |first1=J. H. |last2=Braun |first2=W. J. |year=2010 |title=आर का उपयोग करके डेटा विश्लेषण और ग्राफिक्स। एक उदाहरण-आधारित दृष्टिकोण।|url=https://archive.org/details/dataanalysisgrap00main_071 |url-access=limited |location=New York |publisher=Cambridge University Press |edition=Third |isbn=978-0-521-76293-9 |pages=[https://archive.org/details/dataanalysisgrap00main_071/page/n143 116]-118}}</ref> | ||
====द्विपद स्थिति==== | ====द्विपद स्थिति==== | ||
Line 89: | Line 89: | ||
G का सामान्य सूत्र है | G का सामान्य सूत्र है | ||
:<math> G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, </math> | :<math> G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, </math> | ||
जहाँ <math display="inline">O_i</math> और <math display="inline">E_i</math> ची-स्क्वायर परीक्षण के समान ही हैं, <math display="inline">\ln</math> [[प्राकृतिक]] लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त खंडों पर लिया जाता है। इसके अतिरिक्त, कुल देखी गई | जहाँ <math display="inline">O_i</math> और <math display="inline">E_i</math> ची-स्क्वायर परीक्षण के समान ही हैं, <math display="inline">\ln</math> [[प्राकृतिक]] लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त खंडों पर लिया जाता है। इसके अतिरिक्त, कुल देखी गई गणना कुल अपेक्षित गणना के बराबर होनी चाहिए:<math display="block">\sum_i O_i = \sum_i E_i = N</math>जहाँ <math display="inline">N</math> प्रेक्षणों की कुल संख्या है. | ||
रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के कम से कम 1981 संस्करण के बाद से ही जी-परीक्षणों को प्रस्तावित किया गया | रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के कम से कम 1981 संस्करण के बाद से ही जी-परीक्षणों को प्रस्तावित किया गया था।<ref>{{cite book |last1=Sokal |first1=R. R. |last2=Rohlf |first2=F. J. |year=1981 |title=Biometry: The Principles and Practice of Statistics in Biological Research |publisher=[[W. H. Freeman]] |edition=Second |isbn=0-7167-2411-1 |url-access=registration |url=https://archive.org/details/biometryprincipl00soka_0 }}</ref> | ||
Line 111: | Line 111: | ||
*{{citation | first1= J. C. W. | last1= Rayner | first2= O. | last2= Thas | first3= D. J. | last3= Best | title= Smooth Tests of Goodness of Fit | publisher= [[Wiley (publisher)|Wiley]] | year= 2009 | edition= 2nd}} | *{{citation | first1= J. C. W. | last1= Rayner | first2= O. | last2= Thas | first3= D. J. | last3= Best | title= Smooth Tests of Goodness of Fit | publisher= [[Wiley (publisher)|Wiley]] | year= 2009 | edition= 2nd}} | ||
*{{citation | author1-first= Albert | author1-last= Vexler | author2-first= Gregory | author2-last= Gurevich | title= Empirical likelihood ratios applied to goodness-of-fit tests based on sample entropy | journal= [[Computational Statistics & Data Analysis]] | year= 2010 | volume= 54 | issue= 2 | pages= 531–545 | doi= 10.1016/j.csda.2009.09.025 }} | *{{citation | author1-first= Albert | author1-last= Vexler | author2-first= Gregory | author2-last= Gurevich | title= Empirical likelihood ratios applied to goodness-of-fit tests based on sample entropy | journal= [[Computational Statistics & Data Analysis]] | year= 2010 | volume= 54 | issue= 2 | pages= 531–545 | doi= 10.1016/j.csda.2009.09.025 }} | ||
[[Category:Created On 26/07/2023]] | [[Category:Created On 26/07/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with empty portal template]] | |||
[[Category:Pages with script errors|Short description/doc]] | |||
[[Category:Portal-inline template with redlinked portals]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Template documentation pages|Short description/doc]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:सांख्यिकीय सिद्धांत]] |
Latest revision as of 11:43, 12 August 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
किसी सांख्यिकीय मॉडल का गुडनेस ऑफ़ फिट बताता है कि यह अवलोकनों के एक समुच्चय पर कितनी अच्छी तरह फिट होता है। गुडनेस ऑफ़ फिट के उपाय सामान्यतः अवलोकन मान और प्रश्न में मॉडल के अंतर्गत अपेक्षित मानों के बीच विसंगति को संक्षेप में प्रस्तुत करते हैं। ऐसे उपायों का उपयोग सांख्यिकीय परिकल्पना परीक्षण, उदाहरण के लिए आँकड़ों में त्रुटियों और अवशेषों की सामान्यता परीक्षण के लिएमें किया जा सकता है, यह परीक्षण करने के लिए कि क्या दो प्रारूप समान वितरण से लिए गए हैं (कोलमोगोरोव-स्मिरनोव परीक्षण देखें), या क्या परिणाम आवृत्तियाँ एक निर्दिष्ट वितरण का पालन करती हैं (पियर्सन का ची-स्क्वायर परीक्षण देखें)। प्रसरण के विश्लेषण में, उन घटकों में से एक जिसमें प्रसरण को विभाजित किया गया है, वर्गों का फिट न होने वाला योग हो सकता है।
वितरण के फ़िट
यह आकलन करने में कि क्या कोई दिया गया वितरण डेटा-समुच्चय के लिए उपयुक्त है, निम्नलिखित सांख्यिकीय परिकल्पना परीक्षण और उनके फिट के अंतर्निहित उपायों का उपयोग किया जा सकता है:
- बायेसियन सूचना मानदंड
- कोलमोगोरोव-स्मिरनोव परीक्षण
- क्रैमर-वॉन मिज़ मानदंड
- एंडरसन-डार्लिंग परीक्षण
- बर्क-जोन्स परीक्षण[1][2]
- शापिरो-विल्क परीक्षण
- ची-वर्ग परीक्षण
- अकैके सूचना मानदंड
- होस्मर-लेमेशो परीक्षण
- कुइपर का परीक्षण
- कर्नेलाइज़्ड स्टीन विसंगति[3][4]
- झांग का ZK, ZC और ZA परीक्षण[5]
- मोरन परीक्षण
- घनत्व आधारित अनुभवजन्य संभावना अनुपात परीक्षण[6]
प्रतिगमन विश्लेषण
प्रतिगमन विश्लेषण में, विशेष रूप से प्रतिगमन सत्यापन में, निम्नलिखित विषय गुडनेस ऑफ़ फिट से संबंधित हैं:
- निर्धारण का गुणांक (गुडनेस ऑफ़ फिट का आर-वर्ग माप);
- वर्गों के योग का अभाव;
- मैलोज़ का सीपी मानदंड
- पूर्वानुमान त्रुटि
- कम ची-स्क्वायर
श्रेणीबद्ध डेटा
श्रेणीबद्ध डेटा के संदर्भ में उत्पन्न होने वाले निम्नलिखित उदाहरण हैं।
पियर्सन का ची-स्क्वायर परीक्षण
पियर्सन का ची-स्क्वायर परीक्षण गुडनेस ऑफ़ फिट के माप का उपयोग करता है जो प्रेक्षित और अपेक्षित मूल्य आवृत्तियों (अर्थात, अवलोकनों की गणना) के बीच अंतर का योग है, प्रत्येक वर्ग और अनुमानों से विभाजित होता है:
- Oi = bin i के लिए एक प्रेक्षित गणना
- Ei = bin i के लिए एक अपेक्षित गणना, जो शून्य परिकल्पना द्वारा प्रदर्शित किया जाता है।
अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है:
- F = परीक्षण किए जा रहे संभाव्यता वितरण के लिए संचयी वितरण फ़ंक्शन।
- Yu= कक्षा I के लिए ऊपरी सीमा,
- Yl= कक्षा I के लिए निचली सीमा, और
- N = प्रारूप आकार
गुडनेस ऑफ़ फिट निर्धारित करने के लिए परिणामी मान की तुलना ची-स्क्वायर वितरण से की जा सकती है। ची-स्क्वायर वितरण में (k - c) स्वतंत्रता की डिग्री है, जहां k गैर-रिक्त खंडों की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों की संख्या है। उदाहरण के लिए, 3-पैरामीटर वेइबुल वितरण के लिए, c = 4 होगा।
उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ
उदाहरण के लिए, इस परिकल्पना का परीक्षण करने के लिए कि 100 लोगों का एक यादृच्छिक प्रारूप किसी जनसंख्या से लिया गया है जिसमें पुरुषों और महिलाओं की आवृत्ति समान है, पुरुषों और महिलाओं की देखी गई संख्या की तुलना 50 पुरुषों और 50 महिलाओं की सैद्धांतिक आवृत्तियों से की जाएगी। यदि प्रारूप में 44 पुरुष और 56 महिलाएँ थीं, तो
1 डिग्री की स्वतंत्रता के लिए चाइ-स्क्वायर वितरण की परामर्श के अनुसार, यदि पुरुष और महिलाएँ जनसंख्या में समान संख्या में हैं, तो से अधिक अंतर देखने की कुल संभावना लगभग 0.23 है। यह संभावना सामान्यतः सांख्यिकीय महत्वपूर्णता के लिए स्वीकृत मानक मापदंडों (0.001-0.05 की संभावना) से ऊपर है, इसलिए सामान्य रूप से हम निराकरण करते हैं कि पुरुषों की संख्या और महिलाओं की संख्या में कोई अंतर नहीं है अर्थात् हम एक 50/50 पुरुष/महिला अनुपात के लिए हमारा प्रारूप उस सीमा के भीतर मानेंगे जो हम आशा करते हैं।
इस धारणा पर ध्यान दें कि जिस तंत्र ने प्रारूप तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक जबकि प्रत्येक में 4 गुना वृद्धि होगी 2 गुना बढ़ जाएगी। सांख्यिकी का मान दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गणना करनी चाहिए। सामान्यतः, तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण डाटा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से अति भिन्न हो सकता है।[7]
द्विपद स्थिति
द्विपद प्रयोग स्वतंत्र परीक्षणों का एक क्रम है जिसमें परीक्षणों के परिणामस्वरूप दो परिणामों में से एक हो सकता है, सफलता या विफलता। ऐसे n परीक्षण हैं जिनमें से प्रत्येक की सफलता की संभावना है, जिसे p द्वारा दर्शाया गया है। बशर्ते कि npi ≫ 1 प्रत्येक i के लिए 1 हो (जहां i = 1, 2, ...,k), फिर
जी-परीक्षण
जी-परीक्षण सांख्यिकीय महत्व के संभावना अनुपात परीक्षण हैं जिनका उपयोग उन स्थितियों में तीव्रता से किया जा रहा है जहां पहले पियर्सन के ची-स्क्वायर परीक्षणों को प्रस्तावित किया गया था।[8]
G का सामान्य सूत्र है
जहाँ और ची-स्क्वायर परीक्षण के समान ही हैं, प्राकृतिक लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त खंडों पर लिया जाता है। इसके अतिरिक्त, कुल देखी गई गणना कुल अपेक्षित गणना के बराबर होनी चाहिए:
रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के कम से कम 1981 संस्करण के बाद से ही जी-परीक्षणों को प्रस्तावित किया गया था।[9]
यह भी देखें
- सभी मॉडल ग़लत हैं
- विचलन (सांख्यिकी) (सामान्यीकृत रैखिक मॉडल से संबंधित)
- ओवरफिटिंग
- सांख्यिकीय मॉडल सत्यापन
- थीइल-सेन अनुमानक
संदर्भ
- ↑ Berk, Robert H.; Jones, Douglas H. (1979). "फिट-की-फिट परीक्षण आँकड़े जो कोलमोगोरोव आँकड़ों पर हावी हैं". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 47 (1): 47–59. doi:10.1007/BF00533250.
- ↑ Moscovich, Amit; Nadler, Boaz; Spiegelman, Clifford (2016). "सटीक बर्क-जोन्स आँकड़े और उनकी पी-वैल्यू गणना पर". Electronic Journal of Statistics. 10 (2). doi:10.1214/16-EJS1172.
- ↑ Liu, Qiang; Lee, Jason; Jordan, Michael (20 June 2016). "अच्छाई-की-फिट परीक्षणों के लिए एक कर्नेलाइज्ड स्टीन विसंगति". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 276–284.
- ↑ Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 June 2016). "फिट की अच्छाई का एक कर्नेल परीक्षण". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 2606–2615.
- ↑ Zhang, Jin (2002). "संभावना अनुपात के आधार पर शक्तिशाली अच्छाई-की-फिट परीक्षण" (PDF). J. R. Stat. Soc. B. 64 (2): 281–294. doi:10.1111/1467-9868.00337. Retrieved 5 November 2018.
- ↑ Vexler, Albert; Gurevich, Gregory (2010). "अनुभवजन्य संभावना अनुपात नमूना एन्ट्रॉपी के आधार पर फिट-ऑफ-फिट परीक्षणों पर लागू होता है". Computational Statistics and Data Analysis. 54 (2): 531–545. doi:10.1016/j.csda.2009.09.025.
- ↑ Maindonald, J. H.; Braun, W. J. (2010). आर का उपयोग करके डेटा विश्लेषण और ग्राफिक्स। एक उदाहरण-आधारित दृष्टिकोण। (Third ed.). New York: Cambridge University Press. pp. 116-118. ISBN 978-0-521-76293-9.
- ↑ McDonald, J.H. (2014). "G–test of goodness-of-fit". जैविक सांख्यिकी की पुस्तिका (Third ed.). Baltimore, Maryland: Sparky House Publishing. pp. 53–58.
- ↑ Sokal, R. R.; Rohlf, F. J. (1981). Biometry: The Principles and Practice of Statistics in Biological Research (Second ed.). W. H. Freeman. ISBN 0-7167-2411-1.
अग्रिम पठन
- Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M., eds. (2002), Goodness-of-Fit Tests and Model Validity, Springer
- Ingster, Yu. I.; Suslina, I. A. (2003), Nonparametric Goodness-of-Fit Testing Under Gaussian Models, Springer
- Rayner, J. C. W.; Thas, O.; Best, D. J. (2009), Smooth Tests of Goodness of Fit (2nd ed.), Wiley
- Vexler, Albert; Gurevich, Gregory (2010), "Empirical likelihood ratios applied to goodness-of-fit tests based on sample entropy", Computational Statistics & Data Analysis, 54 (2): 531–545, doi:10.1016/j.csda.2009.09.025