संभाव्यता वितरण फिटिंग: Difference between revisions
No edit summary |
|||
Line 5: | Line 5: | ||
==वितरण का चयन== | ==वितरण का चयन== | ||
[[File:Normal Distribution PDF.svg|thumb|माध्य μ और विचरण σ के आधार पर सममित सामान्य वितरण के विभिन्न आकार<sup>2</sup>]] | [[File:Normal Distribution PDF.svg|thumb|माध्य μ और विचरण σ के आधार पर सममित सामान्य वितरण के विभिन्न आकार<sup>2</sup>]]उपयुक्त वितरण का चयन केंद्रीय प्रवृत्ति के संबंध में डेटा सेट की समरूपता की मौजूदगी या अनुपस्थिति पर निर्भर करता है। | ||
सममित वितरण | ''सममित वितरण'' | ||
जब डेटा को माध्य के चारों ओर सममित रूप से वितरित किया जाता है, जबकि माध्य से दूर डेटा की घटना की आवृत्ति कम हो जाती है, उदाहरण के लिए कोई [[सामान्य वितरण]], लॉजिस्टिक वितरण | जब डेटा को माध्य के चारों ओर सममित रूप से वितरित किया जाता है, जबकि माध्य से दूर डेटा की घटना की आवृत्ति कम हो जाती है, तो उदाहरण के लिए कोई [[सामान्य वितरण]], लॉजिस्टिक वितरण या छात्र के टी-वितरण का चयन कर सकता है। पहले दो बहुत समान हैं, जबकि अंतिम, एक डिग्री की स्वतंत्रता के साथ, "भारी पट" है जिसका अर्थ है कि माध्य से दूर के मान अपेक्षाकृत अधिक बार होते हैं (यानी कर्टोसिस अधिक होता है)। [[कॉची वितरण]] भी सममित है। | ||
दाईं ओर | ''दाईं ओर विषम वितरण'' | ||
बायीं ओर | जब बड़े मान छोटे मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के दाईं ओर तिरछा वितरण होता है (अर्थात धनात्मक विषमता होती है), उदाहरण के लिए, कोई व्यक्ति लॉग-सामान्य वितरण का चयन कर सकता है (यानी डेटा के लॉग मान सामान्य रूप से वितरित होते हैं), लॉग-लॉजिस्टिक वितरण (यानी डेटा के लॉग मान लॉजिस्टिक वितरण का पालन करते हैं), गम्बेल वितरण, घातीय वितरण, पारेतो वितरण, वेइबुल वितरण, बूर वितरण, या फ़्रेचेट वितरण। अंतिम चार वितरण बाईं ओर सीमित हैं। | ||
[[File:Negative and positive skew diagrams (English).svg|thumb|220px|बाएँ और दाएँ तिरछापन]]''बायीं'' ''ओर विषम वितरण'' | |||
जब छोटे मान बड़े मानों की तुलना में माध्य से अधिक दूर होते हैं, तो बाईं ओर | जब छोटे मान बड़े मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के बाईं ओर तिरछा वितरण होता है (यानी ऋणात्मक विषमता होती है), उदाहरण के लिए, व्यक्ति वर्ग-सामान्य वितरण का चयन कर सकता है (अर्थात उस पर लागू सामान्य वितरण डेटा मानों का वर्ग),<ref name="skew">Left (negatively) skewed frequency histograms can be fitted to square Normal or mirrored Gumbel probability functions. On line: [https://www.researchgate.net/publication/338633570_Left_negatively_skewed_frequency_histograms_can_be_fitted_to_square_Normal_or_mirrored_Gumbel_probability_functions]</ref> उलटा (प्रतिबिंबित) गंबेल वितरण,<ref name="skew" /> डैगम वितरण (प्रतिबिंबित बूर वितरण), या [[गोम्पर्ट्ज़ वितरण]], जो बाईं ओर घिरा हुआ है। | ||
==फिटिंग की | ==फिटिंग की तकनीकें== | ||
वितरण फिटिंग की निम्नलिखित तकनीकें मौजूद हैं:<ref>''Frequency and Regression Analysis''. Chapter 6 in: H.P.Ritzema (ed., 1994), ''Drainage Principles and Applications'', Publ. 16, pp. 175–224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. {{ISBN|9070754339}}. Free download from the webpage [http://www.waterlog.info/articles.htm] under nr. 12, or directly as PDF : [http://www.waterlog.info/pdf/freqtxt.pdf]</ref> | वितरण फिटिंग की निम्नलिखित तकनीकें मौजूद हैं:<ref>''Frequency and Regression Analysis''. Chapter 6 in: H.P.Ritzema (ed., 1994), ''Drainage Principles and Applications'', Publ. 16, pp. 175–224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. {{ISBN|9070754339}}. Free download from the webpage [http://www.waterlog.info/articles.htm] under nr. 12, or directly as PDF : [http://www.waterlog.info/pdf/freqtxt.pdf]</ref> | ||
Line 24: | Line 24: | ||
**[[क्षणों की विधि (सांख्यिकी)]] | **[[क्षणों की विधि (सांख्यिकी)]] | ||
**[[अधिकतम अंतर अनुमान]] | **[[अधिकतम अंतर अनुमान]] | ||
** | **L-क्षणों की विधि<ref>{{cite journal | last=Hosking | first=J.R.M. | year=1990 | title=L-moments: analysis and estimation of distributions using linear combinations of order statistics | journal=Journal of the Royal Statistical Society, Series B | volume=52 | pages=105–124 | jstor=2345653}}</ref> | ||
**अधिकतम संभावना विधि<ref>{{cite journal | last = Aldrich | first = John | title = R. A. Fisher and the making of maximum likelihood 1912–1922 | year = 1997 | journal = Statistical Science | volume = 12 | issue = 3 | pages = 162–176 | doi = 10.1214/ss/1030037906 | mr = 1617519 | ref = citeref Aldrich1997| doi-access = free }}</ref> | **अधिकतम संभावना विधि<ref>{{cite journal | last = Aldrich | first = John | title = R. A. Fisher and the making of maximum likelihood 1912–1922 | year = 1997 | journal = Statistical Science | volume = 12 | issue = 3 | pages = 162–176 | doi = 10.1214/ss/1030037906 | mr = 1617519 | ref = citeref Aldrich1997| doi-access = free }}</ref> | ||
::{| class="wikitable" | ::{| class="wikitable" |
Revision as of 22:31, 17 July 2023
संभाव्यता वितरण फिटिंग या पूर्णतः वितरण फिटिंग एक चर घटना के बार-बार माप से संबंधित डेटा की एक श्रृंखला के लिए संभाव्यता वितरण की फिटिंग है। वितरण फिटिंग का उद्देश्य किसी निश्चित अंतराल में घटना की भयावहता की संभावना की भविष्यवाणी करना या घटित होने की आवृत्ति का पूर्वानुमान लगाना है।
कई संभाव्यता वितरण हैं (संभाव्यता वितरण की सूची देखें) जिनमें से कुछ को घटना और वितरण की विशेषताओं के आधार पर, दूसरों की तुलना में डेटा की देखी गई आवृत्ति के अधिक समीप से उपयुक्त किया जा सकता है। यह माना जाता है कि वितरण एक करीबी फिट देता है जिससे अच्छी भविष्यवाणियाँ होती हैं। इसलिए, वितरण फिटिंग में, किसी को ऐसे वितरण का चयन करने की आवश्यकता होती है जो डेटा के लिए उपयुक्त हो।
वितरण का चयन
उपयुक्त वितरण का चयन केंद्रीय प्रवृत्ति के संबंध में डेटा सेट की समरूपता की मौजूदगी या अनुपस्थिति पर निर्भर करता है।
सममित वितरण
जब डेटा को माध्य के चारों ओर सममित रूप से वितरित किया जाता है, जबकि माध्य से दूर डेटा की घटना की आवृत्ति कम हो जाती है, तो उदाहरण के लिए कोई सामान्य वितरण, लॉजिस्टिक वितरण या छात्र के टी-वितरण का चयन कर सकता है। पहले दो बहुत समान हैं, जबकि अंतिम, एक डिग्री की स्वतंत्रता के साथ, "भारी पट" है जिसका अर्थ है कि माध्य से दूर के मान अपेक्षाकृत अधिक बार होते हैं (यानी कर्टोसिस अधिक होता है)। कॉची वितरण भी सममित है।
दाईं ओर विषम वितरण
जब बड़े मान छोटे मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के दाईं ओर तिरछा वितरण होता है (अर्थात धनात्मक विषमता होती है), उदाहरण के लिए, कोई व्यक्ति लॉग-सामान्य वितरण का चयन कर सकता है (यानी डेटा के लॉग मान सामान्य रूप से वितरित होते हैं), लॉग-लॉजिस्टिक वितरण (यानी डेटा के लॉग मान लॉजिस्टिक वितरण का पालन करते हैं), गम्बेल वितरण, घातीय वितरण, पारेतो वितरण, वेइबुल वितरण, बूर वितरण, या फ़्रेचेट वितरण। अंतिम चार वितरण बाईं ओर सीमित हैं।
बायीं ओर विषम वितरण
जब छोटे मान बड़े मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के बाईं ओर तिरछा वितरण होता है (यानी ऋणात्मक विषमता होती है), उदाहरण के लिए, व्यक्ति वर्ग-सामान्य वितरण का चयन कर सकता है (अर्थात उस पर लागू सामान्य वितरण डेटा मानों का वर्ग),[1] उलटा (प्रतिबिंबित) गंबेल वितरण,[1] डैगम वितरण (प्रतिबिंबित बूर वितरण), या गोम्पर्ट्ज़ वितरण, जो बाईं ओर घिरा हुआ है।
फिटिंग की तकनीकें
वितरण फिटिंग की निम्नलिखित तकनीकें मौजूद हैं:[2]
- पैरामीटर विधियाँ, जिनके द्वारा डेटा श्रृंखला से वितरण के मापदंडों की गणना की जाती है।[3] पैरामीट्रिक विधियाँ हैं:
- क्षणों की विधि (सांख्यिकी)
- अधिकतम अंतर अनुमान
- L-क्षणों की विधि[4]
- अधिकतम संभावना विधि[5]
For example, the parameter (the expectation) can be estimated by the mean of the data and the parameter (the variance) can be estimated from the standard deviation of the data. The mean is found as , where is the data value and the number of data, while the standard deviation is calculated as . With these parameters many distributions, e.g. the normal distribution, are completely defined.
फ़ाइल:FitGumbelDistr.tif|thumb|220px|CumFreq का उपयोग करके अतिरिक्त आत्मविश्वास बैंड के साथ प्रतिगमन विधि द्वारा सूरीनाम में अधिकतम एक दिवसीय अक्टूबर वर्षा के लिए संचयी गम्बल वितरण फिट किया गया
- संचयी वितरण फ़ंक्शन के परिवर्तन का उपयोग करके प्लॉटिंग स्थिति प्लस रिग्रेशन विश्लेषण, ताकि संचयी संभाव्यता और डेटा के मूल्यों के बीच एक रैखिक संबंध पाया जा सके, जिसे चयनित संभाव्यता वितरण के आधार पर रूपांतरित करने की भी आवश्यकता हो सकती है। इस विधि में प्लॉटिंग स्थिति द्वारा संचयी संभाव्यता का अनुमान लगाने की आवश्यकता होती है[6]
For example, the cumulative Gumbel distribution can be linearized to , where is the data variable and , with being the cumulative probability, i.e. the probability that the data value is less than . Thus, using the plotting position for , one finds the parameters and from a linear regression of on , and the Gumbel distribution is fully defined.
वितरण का सामान्यीकरण
सममित वितरण (सामान्य वितरण और लॉजिस्टिक वितरण की तरह) को फिट करने के लिए डेटा को लॉगरिदमिक रूप से परिवर्तित करने की प्रथा है, जो वितरण का पालन करने वाले डेटा में सकारात्मक रूप से तिरछा होता है (यानी दाईं ओर तिरछा, माध्य> मोड (सांख्यिकी) के साथ, और दाहिने हाथ की पूंछ के साथ) जो बाएं हाथ की पूंछ से अधिक लंबी है), लॉगनॉर्मल डिस्ट्रीब्यूशन और लॉगलॉजिस्टिक डिस्ट्रीब्यूशन देखें। डेटा का वर्गमूल लेकर एक समान प्रभाव प्राप्त किया जा सकता है।
नकारात्मक रूप से तिरछे वितरण (यानी बाईं ओर तिरछा, माध्य <मोड (सांख्यिकी) के साथ, और दाएं हाथ की पूंछ के साथ यह बाएं हाथ की पूंछ से छोटा होता है) का पालन करने वाले डेटा में एक सममित वितरण फिट करने के लिए कोई व्यक्ति के वर्ग मान का उपयोग कर सकता है फिट पूरा करने के लिए डेटा।
किसी भी विषमता के वितरण का पालन करते हुए डेटा में सममित वितरण फिट करने के लिए आम तौर पर कोई डेटा को पावर पी तक बढ़ा सकता है, जिससे तिरछापन सकारात्मक होने पर पी <1 और तिरछापन नकारात्मक होने पर पी > 1 हो सकता है। पी का इष्टतम मान संख्यात्मक विधि द्वारा ज्ञात किया जाना है। संख्यात्मक विधि में पी मानों की एक श्रृंखला को मानना, फिर सभी कल्पित पी मानों के लिए वितरण फिटिंग प्रक्रिया को बार-बार लागू करना और अंत में पी के मान का चयन करना शामिल हो सकता है जिसके लिए मापी गई आवृत्तियों (ची) से गणना की गई संभावनाओं के विचलन के वर्गों का योग होता है। -वर्ग परीक्षण) न्यूनतम है, जैसा कि CumFreq में किया जाता है।
सामान्यीकरण संभाव्यता वितरण के लचीलेपन को बढ़ाता है और वितरण फिटिंग में उनकी प्रयोज्यता को बढ़ाता है।[6]
सामान्यीकरण की बहुमुखी प्रतिभा इसे संभव बनाती है, उदाहरण के लिए, लगभग सामान्य रूप से वितरित डेटा सेट को बड़ी संख्या में विभिन्न संभाव्यता वितरणों में फिट करना,[7] जबकि नकारात्मक रूप से विषम वितरणों को फिट किया जा सकता है वर्ग सामान्य और प्रतिबिंबित गम्बेल वितरण।[8]
तिरछापन का व्युत्क्रम
संचयी वितरण फ़ंक्शन (F) की गणितीय अभिव्यक्ति को इसके पूरक द्वारा प्रतिस्थापित करके तिरछे वितरण को उलटा (या प्रतिबिंबित) किया जा सकता है: F'=1-F, संचयी वितरण फ़ंक्शन #पूरक संचयी वितरण फ़ंक्शन (पूंछ वितरण) प्राप्त करना (भी) उत्तरजीविता फ़ंक्शन कहा जाता है) जो एक दर्पण छवि देता है। इस प्रकार, एक वितरण जो दाईं ओर तिरछा है, एक ऐसे वितरण में बदल जाता है जो बाईं ओर तिरछा है और इसके विपरीत।
Example. The F-expression of the positively skewed Gumbel distribution is: F=exp[-exp{-(X-u)/0.78s}], where u is the mode (i.e. the value occurring most frequently) and s is the standard deviation. The Gumbel distribution can be transformed using F'=1-exp[-exp{-(x-u)/0.78s}] . This transformation yields the inverse, mirrored, or complementary Gumbel distribution that may fit a data series obeying a negatively skewed distribution.
तिरछापन व्युत्क्रमण की तकनीक वितरण फिटिंग के लिए उपलब्ध संभाव्यता वितरणों की संख्या को बढ़ाती है और वितरण फिटिंग के अवसरों को बढ़ाती है।
वितरण का स्थानांतरण
कुछ संभाव्यता वितरण, जैसे घातीय वितरण, नकारात्मक डेटा मान (X) का समर्थन नहीं करते हैं। फिर भी, जब नकारात्मक डेटा मौजूद होता है, तब भी ऐसे वितरणों का उपयोग X को Y=X-Xm से प्रतिस्थापित करके किया जा सकता है, जहां Xm, X का न्यूनतम मान है। यह प्रतिस्थापन संभाव्यता वितरण के सकारात्मक दिशा में बदलाव का प्रतिनिधित्व करता है, यानी दाईं ओर, क्योंकि एक्सएम ऋणात्मक है। Y की वितरण फिटिंग को पूरा करने के बाद, संबंधित X-मान X=Y+Xm से पाए जाते हैं, जो नकारात्मक दिशा में, यानी बाईं ओर वितरण के बैक-शिफ्ट का प्रतिनिधित्व करता है।
वितरण स्थानांतरण की तकनीक उचित रूप से उपयुक्त संभाव्यता वितरण खोजने का मौका बढ़ाती है।
समग्र वितरण
विकल्प दो अलग-अलग संभाव्यता वितरणों का उपयोग करने के लिए मौजूद है, एक निम्न डेटा रेंज के लिए, और एक उच्चतर के लिए, उदाहरण के लिए लाप्लास वितरण। श्रेणियाँ एक ब्रेक-पॉइंट द्वारा अलग की जाती हैं। ऐसे समग्र (असंतत) संभाव्यता वितरण का उपयोग तब उपयुक्त हो सकता है जब अध्ययन की गई घटना का डेटा दो अलग-अलग परिस्थितियों में प्राप्त किया गया हो।[6]
भविष्यवाणी की अनिश्चितता
फिट किए गए संभाव्यता वितरण के आधार पर घटना की भविष्यवाणियां अनिश्चितता के अधीन हैं, जो निम्नलिखित स्थितियों से उत्पन्न होती हैं:
- घटनाओं का वास्तविक संभाव्यता वितरण फिट किए गए वितरण से विचलित हो सकता है, क्योंकि देखी गई डेटा श्रृंखला यादृच्छिक त्रुटि के कारण घटना के घटित होने की वास्तविक संभावना का पूरी तरह से प्रतिनिधि नहीं हो सकती है।
- किसी अन्य स्थिति में या भविष्य में घटनाओं की घटना फिट किए गए वितरण से विचलित हो सकती है क्योंकि यह घटना यादृच्छिक त्रुटि के अधीन भी हो सकती है
- पर्यावरणीय परिस्थितियों में बदलाव से घटना के घटित होने की संभावना में बदलाव हो सकता है
फ़ाइल:SampleFreqCurves.tif|thumb|सैद्धांतिक 1000 साल के रिकॉर्ड (बेस लाइन) से 50-वर्षीय नमूनों के बाएँ वक्र, बेन्सन से डेटा[11]पहले और दूसरे मामले में अनिश्चितता का अनुमान द्विपद वितरण के साथ प्राप्त किया जा सकता है, उदाहरण के लिए पे की अधिकता की संभावना (यानी घटना एक्स, एक्स के संदर्भ मान एक्सआर से बड़ी है) और गैर की संभावना का उपयोग करके। अधिकता Pn (अर्थात् घटना X, संदर्भ मान Xr से छोटी या उसके बराबर होने की संभावना, इसे संचयी संभाव्यता भी कहा जाता है)। इस मामले में केवल दो संभावनाएँ हैं: या तो अति है या अति है। यह द्वंद्व ही कारण है कि द्विपद वितरण लागू होता है।
द्विपद वितरण से कोई पूर्वानुमान अंतराल प्राप्त कर सकता है। ऐसा अंतराल विफलता के जोखिम का भी अनुमान लगाता है, यानी संभावना है कि अनुमानित घटना अभी भी विश्वास अंतराल के बाहर बनी हुई है। आत्मविश्वास या जोखिम विश्लेषण में रिटर्न अवधि T=1/Pe शामिल हो सकती है जैसा कि जल विज्ञान में किया जाता है।
फिट की अच्छाई
विभिन्न वितरणों की उपयुक्तता की रैंकिंग करके कोई यह अनुमान लगा सकता है कि कौन सा वितरण स्वीकार्य है और कौन सा नहीं।
हिस्टोग्राम और घनत्व फ़ंक्शन
संचयी वितरण फ़ंक्शन (सीडीएफ) से कोई हिस्टोग्राम और संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) प्राप्त कर सकता है।
यह भी देखें
संदर्भ
- ↑ 1.0 1.1 Left (negatively) skewed frequency histograms can be fitted to square Normal or mirrored Gumbel probability functions. On line: [1]
- ↑ Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175–224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 9070754339. Free download from the webpage [2] under nr. 12, or directly as PDF : [3]
- ↑ H. Cramér, "Mathematical methods of statistics" , Princeton Univ. Press (1946)
- ↑ Hosking, J.R.M. (1990). "L-moments: analysis and estimation of distributions using linear combinations of order statistics". Journal of the Royal Statistical Society, Series B. 52: 105–124. JSTOR 2345653.
- ↑ Aldrich, John (1997). "R. A. Fisher and the making of maximum likelihood 1912–1922". Statistical Science. 12 (3): 162–176. doi:10.1214/ss/1030037906. MR 1617519.
- ↑ 6.0 6.1 6.2 Software for Generalized and Composite Probability Distributions. International Journal of Mathematical and Computational Methods, 4, 1-9 [4] or [5]
- ↑ Example of an approximately normally distributed data set to which a large number of different probability distributions can be fitted, [6]
- ↑ Left (negatively) skewed frequency histograms can be fitted to square normal or mirrored Gumbel probability functions. [7]
- ↑ Intro to composite probability distributions
- ↑ Frequency predictions and their binomial confidence limits. In: International Commission on Irrigation and Drainage, Special Technical Session: Economic Aspects of Flood Control and non-Structural Measures, Dubrovnik, Yugoslavia, 1988. On line
- ↑ Benson, M.A. 1960. Characteristics of frequency curves based on a theoretical 1000 year record. In: T.Dalrymple (Ed.), Flood frequency analysis. U.S. Geological Survey Water Supply Paper, 1543-A, pp. 51-71.
- ↑ Software for probability distribution fitting