गुडनेस ऑफ़ फिट: Difference between revisions
Line 52: | Line 52: | ||
*N = प्रारूप आकार | *N = प्रारूप आकार | ||
फिट की अच्छाई निर्धारित करने के लिए परिणामी मान की तुलना [[ची-स्क्वायर वितरण]] से की जा सकती है। ची-स्क्वायर वितरण में (k - c) [[स्वतंत्रता की डिग्री (सांख्यिकी)|स्वतंत्रता की डिग्री]] है, जहां k गैर-रिक्त | फिट की अच्छाई निर्धारित करने के लिए परिणामी मान की तुलना [[ची-स्क्वायर वितरण]] से की जा सकती है। ची-स्क्वायर वितरण में (k - c) [[स्वतंत्रता की डिग्री (सांख्यिकी)|स्वतंत्रता की डिग्री]] है, जहां k गैर-रिक्त खंडों की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों की संख्या है। उदाहरण के लिए, 3-पैरामीटर [[वेइबुल वितरण]] के लिए, c = 4 होगा। | ||
====उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ==== | ====उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ==== | ||
Line 78: | Line 78: | ||
====द्विपद स्थिति==== | ====द्विपद स्थिति==== | ||
द्विपद प्रयोग स्वतंत्र परीक्षणों का एक क्रम है जिसमें परीक्षणों के परिणामस्वरूप दो परिणामों में से एक हो सकता है, सफलता या विफलता। ऐसे n परीक्षण हैं जिनमें से प्रत्येक की सफलता की संभावना है, जिसे p द्वारा दर्शाया गया है। बशर्ते कि ''np<sub>i</sub>'' ≫ 1 प्रत्येक i के लिए 1 हो (जहां i = 1, 2, ...,k), फिर | |||
<math display="block"> \chi^2 = \sum_{i=1}^{k} {\frac{(N_i - np_i)^2}{np_i}} = \sum_{\mathrm{all\ cells}}^{} {\frac{(\mathrm{O} - \mathrm{E})^2}{\mathrm{E}}}.</math> | <math display="block"> \chi^2 = \sum_{i=1}^{k} {\frac{(N_i - np_i)^2}{np_i}} = \sum_{\mathrm{all\ cells}}^{} {\frac{(\mathrm{O} - \mathrm{E})^2}{\mathrm{E}}}.</math> | ||
इसमें लगभग k-1 डिग्री स्वतंत्रता के साथ एक ची-स्क्वायर वितरण है। तथ्य यह है कि स्वतंत्रता की k-1 डिग्री | इसमें लगभग k-1 डिग्री स्वतंत्रता के साथ एक ची-स्क्वायर वितरण है। तथ्य यह है कि स्वतंत्रता की k-1 डिग्री <math display="inline"> \sum N_i=n</math> प्रतिबंध का परिणाम है। हम जानते हैं कि k अवलोकित खंड गणनाएँ हैं, यद्यपि, एक बार k − 1 ज्ञात हो जाने पर, शेष को विशिष्ट रूप से निर्धारित किया जाता है। मूल रूप से, हम कह सकतें है की केवल k − 1 स्वतंत्र रूप से निर्धारित खंड गणना होती है, इस प्रकार k − 1 डिग्री की स्वतंत्रता होती है। | ||
===जी-परीक्षण=== | ===जी-परीक्षण=== | ||
जी-परीक्षण सांख्यिकीय महत्व के संभावना अनुपात परीक्षण हैं जिनका उपयोग उन स्थितियों में तीव्रता से किया जा रहा है जहां पहले पियर्सन के ची-स्क्वायर परीक्षणों को प्रस्तावित किया गया था।<ref>{{cite book|author=McDonald, J.H.|year=2014|title=जैविक सांख्यिकी की पुस्तिका|location=Baltimore, Maryland|publisher=Sparky House Publishing|edition=Third|chapter=G–test of goodness-of-fit|url=http://www.biostathandbook.com/gtestgof.html|pages=53–58}}</ref> | |||
G का सामान्य सूत्र है | G का सामान्य सूत्र है | ||
:<math> G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, </math> | :<math> G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, </math> | ||
जहाँ <math display="inline">O_i</math> और <math display="inline">E_i</math> ची-स्क्वायर परीक्षण के समान ही हैं, <math display="inline">\ln</math> [[प्राकृतिक]] लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त खंडों पर लिया जाता है। इसके अतिरिक्त, कुल देखी गई गिनती कुल अपेक्षित गिनती के बराबर होनी चाहिए:<math display="block">\sum_i O_i = \sum_i E_i = N</math>जहाँ <math display="inline">N</math> प्रेक्षणों की कुल संख्या है. | |||
रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के कम से कम 1981 संस्करण के बाद से ही जी-परीक्षणों को प्रस्तावित किया गया है।<ref>{{cite book |last1=Sokal |first1=R. R. |last2=Rohlf |first2=F. J. |year=1981 |title=Biometry: The Principles and Practice of Statistics in Biological Research |publisher=[[W. H. Freeman]] |edition=Second |isbn=0-7167-2411-1 |url-access=registration |url=https://archive.org/details/biometryprincipl00soka_0 }}</ref> | |||
Revision as of 01:40, 7 August 2023
एक श्रृंखला का हिस्सा |
प्रतिगमन विश्लेषण |
---|
मॉडल |
अनुमान |
पार्श्वभूमि |
|
एक सांख्यिकीय मॉडल की फिट की अच्छाई बताती है कि यह अवलोकनों के एक समुच्चय पर कितनी अच्छी तरह फिट बैठता है। फिट की अच्छाई के उपाय सामान्यतः देखे गए मान और प्रश्न में मॉडल के अंतर्गत अपेक्षित मानों के बीच विसंगति को संक्षेप में प्रस्तुत करते हैं। ऐसे उपायों का उपयोग सांख्यिकीय परिकल्पना परीक्षण में किया जा सकता है, उदाहरण के लिए आँकड़ों में त्रुटियों और अवशेषों की सामान्यता परीक्षण के लिए, यह परीक्षण करने के लिए कि क्या दो प्रारूप समान वितरण से लिए गए हैं (कोलमोगोरोव-स्मिरनोव परीक्षण देखें), या क्या परिणाम आवृत्तियाँ एक निर्दिष्ट वितरण का पालन करती हैं (पियर्सन का ची-स्क्वायर परीक्षण देखें)। प्रसरण के विश्लेषण में, उन घटकों में से एक जिसमें प्रसरण को विभाजित किया गया है, वर्गों का फिट न होने वाला योग हो सकता है।
वितरण के फ़िट
यह आकलन करने में कि क्या कोई दिया गया वितरण डेटा-समुच्चय के लिए उपयुक्त है, निम्नलिखित सांख्यिकीय परिकल्पना परीक्षण और उनके फिट के अंतर्निहित उपायों का उपयोग किया जा सकता है:
- बायेसियन सूचना मानदंड
- कोलमोगोरोव-स्मिरनोव परीक्षण
- क्रैमर-वॉन मिज़ मानदंड
- एंडरसन-डार्लिंग परीक्षण
- बर्क-जोन्स परीक्षण[1][2]
- शापिरो-विल्क परीक्षण
- ची-वर्ग परीक्षण
- अकैके सूचना मानदंड
- होस्मर-लेमेशो परीक्षण
- कुइपर का परीक्षण
- कर्नेलाइज़्ड स्टीन विसंगति[3][4]
- झांग का ZK, ZC और ZA परीक्षण[5]
- मोरन परीक्षण
- घनत्व आधारित अनुभवजन्य संभावना अनुपात परीक्षण[6]
प्रतिगमन विश्लेषण
प्रतिगमन विश्लेषण में, विशेष रूप से प्रतिगमन सत्यापन में, निम्नलिखित विषय फिट की अच्छाई से संबंधित हैं:
- निर्धारण का गुणांक (फिट की अच्छाई का आर-वर्ग माप);
- वर्गों के योग का अभाव;
- मैलोज़ का सीपी मानदंड
- पूर्वानुमान त्रुटि
- कम ची-स्क्वायर
श्रेणीबद्ध डेटा
निम्नलिखित उदाहरण हैं जो श्रेणीबद्ध डेटा के संदर्भ में उत्पन्न होते हैं।
पियर्सन का ची-स्क्वायर परीक्षण
पियर्सन का ची-स्क्वायर परीक्षण फिट की अच्छाई के माप का उपयोग करता है जो प्रेक्षित और अपेक्षित मूल्य आवृत्तियों (अर्थात, अवलोकनों की गिनती) के बीच अंतर का योग है, प्रत्येक वर्ग और अनुमानों से विभाजित होता है:
- Oi = bin i के लिए एक प्रेक्षित गणना
- Ei = bin i के लिए एक अपेक्षित गिनती, जो शून्य परिकल्पना द्वारा बताई गई है।
अपेक्षित आवृत्ति की गणना इस प्रकार की जाती है:
- F = परीक्षण किए जा रहे संभाव्यता वितरण के लिए संचयी वितरण फ़ंक्शन।
- Yu= कक्षा I के लिए ऊपरी सीमा,
- Yl= कक्षा I के लिए निचली सीमा, और
- N = प्रारूप आकार
फिट की अच्छाई निर्धारित करने के लिए परिणामी मान की तुलना ची-स्क्वायर वितरण से की जा सकती है। ची-स्क्वायर वितरण में (k - c) स्वतंत्रता की डिग्री है, जहां k गैर-रिक्त खंडों की संख्या है और c वितरण प्लस वन के लिए अनुमानित मापदंडों की संख्या है। उदाहरण के लिए, 3-पैरामीटर वेइबुल वितरण के लिए, c = 4 होगा।
उदाहरण: पुरुषों और महिलाओं की समान आवृत्तियाँ
उदाहरण के लिए, इस परिकल्पना का परीक्षण करने के लिए कि 100 लोगों का एक यादृच्छिक प्रारूप किसी जनसंख्या से लिया गया है जिसमें पुरुषों और महिलाओं की आवृत्ति समान है, पुरुषों और महिलाओं की देखी गई संख्या की तुलना 50 पुरुषों और 50 महिलाओं की सैद्धांतिक आवृत्तियों से की जाएगी। यदि प्रारूप में 44 पुरुष और 56 महिलाएँ थीं, तो
1 डिग्री की स्वतंत्रता के लिए चाइ-स्क्वायर वितरण की परामर्श के अनुसार, यदि पुरुष और महिलाएँ जनसंख्या में समान संख्या में हैं, तो से अधिक अंतर देखने की कुल संभावना लगभग 0.23 है। यह संभावना सामान्यतः सांख्यिकीय महत्वपूर्णता के लिए स्वीकृत मानक मापदंडों (0.001-0.05 की संभावना) से ऊपर है, इसलिए सामान्य रूप से हम निराकरण करते हैं कि पुरुषों की संख्या और महिलाओं की संख्या में कोई अंतर नहीं है अर्थात् हम एक 50/50 पुरुष/महिला अनुपात के लिए हमारा प्रारूप उस सीमा के भीतर मानेंगे जो हम आशा करते हैं।
इस धारणा पर ध्यान दें कि जिस तंत्र ने प्रारूप तैयार किया है वह यादृच्छिक है, समान संभावना के साथ स्वतंत्र यादृच्छिक चयन के अर्थ में, यहां पुरुषों और महिलाओं दोनों के लिए 0.5 है। यदि, उदाहरण के लिए, चुने गए 44 पुरुषों में से प्रत्येक एक पुरुष मित्र लाया, और 56 महिलाओं में से प्रत्येक एक महिला मित्र लाई, तो प्रत्येक जबकि प्रत्येक में 4 गुना वृद्धि होगी 2 गुना बढ़ जाएगी। सांख्यिकी का मान दोगुना होकर 2.88 हो जाएगा। इस अंतर्निहित तंत्र को जानते हुए, हमें निश्चित रूप से जोड़ियों की गिनती करनी चाहिए। सामान्यतः , तंत्र, यदि रक्षात्मक रूप से यादृच्छिक नहीं है, तो ज्ञात नहीं होगा। तदनुसार, जिस वितरण को परीक्षण आँकड़ा संदर्भित किया जाना चाहिए, वह ची-स्क्वायर से बहुत भिन्न हो सकता है।[7]
द्विपद स्थिति
द्विपद प्रयोग स्वतंत्र परीक्षणों का एक क्रम है जिसमें परीक्षणों के परिणामस्वरूप दो परिणामों में से एक हो सकता है, सफलता या विफलता। ऐसे n परीक्षण हैं जिनमें से प्रत्येक की सफलता की संभावना है, जिसे p द्वारा दर्शाया गया है। बशर्ते कि npi ≫ 1 प्रत्येक i के लिए 1 हो (जहां i = 1, 2, ...,k), फिर
जी-परीक्षण
जी-परीक्षण सांख्यिकीय महत्व के संभावना अनुपात परीक्षण हैं जिनका उपयोग उन स्थितियों में तीव्रता से किया जा रहा है जहां पहले पियर्सन के ची-स्क्वायर परीक्षणों को प्रस्तावित किया गया था।[8]
G का सामान्य सूत्र है
जहाँ और ची-स्क्वायर परीक्षण के समान ही हैं, प्राकृतिक लघुगणक को दर्शाता है, और योग सभी गैर-रिक्त खंडों पर लिया जाता है। इसके अतिरिक्त, कुल देखी गई गिनती कुल अपेक्षित गिनती के बराबर होनी चाहिए:
रॉबर्ट आर. सोकल और एफ. जेम्स रोहल्फ़ की लोकप्रिय सांख्यिकी पाठ्यपुस्तक के कम से कम 1981 संस्करण के बाद से ही जी-परीक्षणों को प्रस्तावित किया गया है।[9]
यह भी देखें
- सभी मॉडल ग़लत हैं
- विचलन (सांख्यिकी) (सामान्यीकृत रैखिक मॉडल से संबंधित)
- ओवरफिटिंग
- सांख्यिकीय मॉडल सत्यापन
- थीइल-सेन अनुमानक
संदर्भ
- ↑ Berk, Robert H.; Jones, Douglas H. (1979). "फिट-की-फिट परीक्षण आँकड़े जो कोलमोगोरोव आँकड़ों पर हावी हैं". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 47 (1): 47–59. doi:10.1007/BF00533250.
- ↑ Moscovich, Amit; Nadler, Boaz; Spiegelman, Clifford (2016). "सटीक बर्क-जोन्स आँकड़े और उनकी पी-वैल्यू गणना पर". Electronic Journal of Statistics. 10 (2). doi:10.1214/16-EJS1172.
- ↑ Liu, Qiang; Lee, Jason; Jordan, Michael (20 June 2016). "अच्छाई-की-फिट परीक्षणों के लिए एक कर्नेलाइज्ड स्टीन विसंगति". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 276–284.
- ↑ Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 June 2016). "फिट की अच्छाई का एक कर्नेल परीक्षण". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 2606–2615.
- ↑ Zhang, Jin (2002). "संभावना अनुपात के आधार पर शक्तिशाली अच्छाई-की-फिट परीक्षण" (PDF). J. R. Stat. Soc. B. 64 (2): 281–294. doi:10.1111/1467-9868.00337. Retrieved 5 November 2018.
- ↑ Vexler, Albert; Gurevich, Gregory (2010). "अनुभवजन्य संभावना अनुपात नमूना एन्ट्रॉपी के आधार पर फिट-ऑफ-फिट परीक्षणों पर लागू होता है". Computational Statistics and Data Analysis. 54 (2): 531–545. doi:10.1016/j.csda.2009.09.025.
- ↑ Maindonald, J. H.; Braun, W. J. (2010). आर का उपयोग करके डेटा विश्लेषण और ग्राफिक्स। एक उदाहरण-आधारित दृष्टिकोण। (Third ed.). New York: Cambridge University Press. pp. 116-118. ISBN 978-0-521-76293-9.
- ↑ McDonald, J.H. (2014). "G–test of goodness-of-fit". जैविक सांख्यिकी की पुस्तिका (Third ed.). Baltimore, Maryland: Sparky House Publishing. pp. 53–58.
- ↑ Sokal, R. R.; Rohlf, F. J. (1981). Biometry: The Principles and Practice of Statistics in Biological Research (Second ed.). W. H. Freeman. ISBN 0-7167-2411-1.
अग्रिम पठन
- Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M., eds. (2002), Goodness-of-Fit Tests and Model Validity, Springer
- Ingster, Yu. I.; Suslina, I. A. (2003), Nonparametric Goodness-of-Fit Testing Under Gaussian Models, Springer
- Rayner, J. C. W.; Thas, O.; Best, D. J. (2009), Smooth Tests of Goodness of Fit (2nd ed.), Wiley
- Vexler, Albert; Gurevich, Gregory (2010), "Empirical likelihood ratios applied to goodness-of-fit tests based on sample entropy", Computational Statistics & Data Analysis, 54 (2): 531–545, doi:10.1016/j.csda.2009.09.025