संभाव्यता वितरण फिटिंग: Difference between revisions

From Vigyanwiki
Line 27: Line 27:
**अधिकतम संभावना विधि<ref>{{cite journal | last = Aldrich | first = John  | title = R. A. Fisher and the making of maximum likelihood 1912–1922 | year = 1997 | journal = Statistical Science | volume = 12 | issue = 3 | pages = 162–176 | doi = 10.1214/ss/1030037906 | mr = 1617519 | ref = citeref Aldrich1997| doi-access = free }}</ref>
**अधिकतम संभावना विधि<ref>{{cite journal | last = Aldrich | first = John  | title = R. A. Fisher and the making of maximum likelihood 1912–1922 | year = 1997 | journal = Statistical Science | volume = 12 | issue = 3 | pages = 162–176 | doi = 10.1214/ss/1030037906 | mr = 1617519 | ref = citeref Aldrich1997| doi-access = free }}</ref>
::{| class="wikitable"
::{| class="wikitable"
| bgcolor="white" | ''For example, the parameter <math>\mu</math> (the'' ''[[expected value|expectation]]) can be estimated by the [[Arithmetic mean|mean]] of the data and the parameter <math>\sigma^2</math> (the [[variance]]) can be estimated from the [[standard deviation]] of the data. The mean is found as <math display="inline">m=\sum{X}/n</math>, where <math>X</math> is the data value and <math>n</math> the number of data, while the standard deviation is calculated as <math display="inline">s = \sqrt{\frac{1}{n-1} \sum{(X-m)^2}}</math>. With these parameters many distributions, e.g. the normal distribution, are completely defined.''
| bgcolor="white" | उदाहरण के लिए, पैरामीटर ''<math>\mu</math>'' (अपेक्षा) का अनुमान डेटा के माध्यम से लगाया जा सकता है और पैरामीटर ''<math>\sigma^2</math>''(विचरण) का अनुमान डेटा के मानक विचलन से लगाया जा सकता है। माध्य ''<math display="inline">m=\sum{X}/n</math>'' के रूप में पाया जाता है, जहां ''<math>X</math>'' डेटा मूल्य है और ''<math>n</math>'' डेटा की संख्या है, जबकि मानक विचलन की गणना ''<math display="inline">s = \sqrt{\frac{1}{n-1} \sum{(X-m)^2}}</math>'' के रूप में की जाती है। इन पैरामीटर्स के साथ कई वितरण, उदा. सामान्य वितरण, पूर्णतः परिभाषित हैं।
|}
|}
फ़ाइल:FitGumbelDistr.tif|thumb|220px|[[CumFreq]] का उपयोग करके अतिरिक्त [[आत्मविश्वास बैंड]] के साथ प्रतिगमन विधि द्वारा [[सूरीनाम]] में अधिकतम एक दिवसीय अक्टूबर वर्षा के लिए संचयी गम्बल वितरण फिट किया गया
फ़ाइल:FitGumbelDistr.tif|thumb|220px|[[CumFreq]] का उपयोग करके अतिरिक्त [[आत्मविश्वास बैंड]] के साथ प्रतिगमन विधि द्वारा [[सूरीनाम]] में अधिकतम एक दिवसीय अक्टूबर वर्षा के लिए संचयी गम्बल वितरण फिट किया गया

Revision as of 22:45, 17 July 2023

संभाव्यता वितरण फिटिंग या पूर्णतः वितरण फिटिंग एक चर घटना के बार-बार माप से संबंधित डेटा की एक श्रृंखला के लिए संभाव्यता वितरण की फिटिंग है। वितरण फिटिंग का उद्देश्य किसी निश्चित अंतराल में घटना की भयावहता की संभावना की भविष्यवाणी करना या घटित होने की आवृत्ति का पूर्वानुमान लगाना है।

कई संभाव्यता वितरण हैं (संभाव्यता वितरण की सूची देखें) जिनमें से कुछ को घटना और वितरण की विशेषताओं के आधार पर, दूसरों की तुलना में डेटा की देखी गई आवृत्ति के अधिक समीप से उपयुक्त किया जा सकता है। यह माना जाता है कि वितरण एक करीबी फिट देता है जिससे अच्छी भविष्यवाणियाँ होती हैं। इसलिए, वितरण फिटिंग में, किसी को ऐसे वितरण का चयन करने की आवश्यकता होती है जो डेटा के लिए उपयुक्त हो।

वितरण का चयन

माध्य μ और विचरण σ के आधार पर सममित सामान्य वितरण के विभिन्न आकार2

उपयुक्त वितरण का चयन केंद्रीय प्रवृत्ति के संबंध में डेटा सेट की समरूपता की मौजूदगी या अनुपस्थिति पर निर्भर करता है।

सममित वितरण

जब डेटा को माध्य के चारों ओर सममित रूप से वितरित किया जाता है, जबकि माध्य से दूर डेटा की घटना की आवृत्ति कम हो जाती है, तो उदाहरण के लिए कोई सामान्य वितरण, लॉजिस्टिक वितरण या छात्र के टी-वितरण का चयन कर सकता है। पहले दो बहुत समान हैं, जबकि अंतिम, एक डिग्री की स्वतंत्रता के साथ, "भारी पट" है जिसका अर्थ है कि माध्य से दूर के मान अपेक्षाकृत अधिक बार होते हैं (यानी कर्टोसिस अधिक होता है)। कॉची वितरण भी सममित है।

दाईं ओर विषम वितरण

जब बड़े मान छोटे मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के दाईं ओर तिरछा वितरण होता है (अर्थात धनात्मक विषमता होती है), उदाहरण के लिए, कोई व्यक्ति लॉग-सामान्य वितरण का चयन कर सकता है (यानी डेटा के लॉग मान सामान्य रूप से वितरित होते हैं), लॉग-लॉजिस्टिक वितरण (यानी डेटा के लॉग मान लॉजिस्टिक वितरण का पालन करते हैं), गम्बेल वितरण, घातीय वितरण, पारेतो वितरण, वेइबुल वितरण, बूर वितरण, या फ़्रेचेट वितरण। अंतिम चार वितरण बाईं ओर सीमित हैं।

बाएँ और दाएँ तिरछापन

बायीं ओर विषम वितरण

जब छोटे मान बड़े मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के बाईं ओर तिरछा वितरण होता है (यानी ऋणात्मक विषमता होती है), उदाहरण के लिए, व्यक्ति वर्ग-सामान्य वितरण का चयन कर सकता है (अर्थात उस पर लागू सामान्य वितरण डेटा मानों का वर्ग),[1] उलटा (प्रतिबिंबित) गंबेल वितरण,[1] डैगम वितरण (प्रतिबिंबित बूर वितरण), या गोम्पर्ट्ज़ वितरण, जो बाईं ओर घिरा हुआ है।

फिटिंग की तकनीकें

वितरण फिटिंग की निम्नलिखित तकनीकें मौजूद हैं:[2]

उदाहरण के लिए, पैरामीटर (अपेक्षा) का अनुमान डेटा के माध्यम से लगाया जा सकता है और पैरामीटर (विचरण) का अनुमान डेटा के मानक विचलन से लगाया जा सकता है। माध्य के रूप में पाया जाता है, जहां डेटा मूल्य है और डेटा की संख्या है, जबकि मानक विचलन की गणना के रूप में की जाती है। इन पैरामीटर्स के साथ कई वितरण, उदा. सामान्य वितरण, पूर्णतः परिभाषित हैं।

फ़ाइल:FitGumbelDistr.tif|thumb|220px|CumFreq का उपयोग करके अतिरिक्त आत्मविश्वास बैंड के साथ प्रतिगमन विधि द्वारा सूरीनाम में अधिकतम एक दिवसीय अक्टूबर वर्षा के लिए संचयी गम्बल वितरण फिट किया गया

  • संचयी वितरण फ़ंक्शन के परिवर्तन का उपयोग करके प्लॉटिंग स्थिति प्लस रिग्रेशन विश्लेषण, ताकि संचयी संभाव्यता और डेटा के मूल्यों के बीच एक रैखिक संबंध पाया जा सके, जिसे चयनित संभाव्यता वितरण के आधार पर रूपांतरित करने की भी आवश्यकता हो सकती है। इस विधि में प्लॉटिंग स्थिति द्वारा संचयी संभाव्यता का अनुमान लगाने की आवश्यकता होती है[6]
For example, the cumulative Gumbel distribution can be linearized to , where is the data variable and , with being the cumulative probability, i.e. the probability that the data value is less than . Thus, using the plotting position for , one finds the parameters and from a linear regression of on , and the Gumbel distribution is fully defined.


वितरण का सामान्यीकरण

सममित वितरण (सामान्य वितरण और लॉजिस्टिक वितरण की तरह) को फिट करने के लिए डेटा को लॉगरिदमिक रूप से परिवर्तित करने की प्रथा है, जो वितरण का पालन करने वाले डेटा में सकारात्मक रूप से तिरछा होता है (यानी दाईं ओर तिरछा, माध्य> मोड (सांख्यिकी) के साथ, और दाहिने हाथ की पूंछ के साथ) जो बाएं हाथ की पूंछ से अधिक लंबी है), लॉगनॉर्मल डिस्ट्रीब्यूशन और लॉगलॉजिस्टिक डिस्ट्रीब्यूशन देखें। डेटा का वर्गमूल लेकर एक समान प्रभाव प्राप्त किया जा सकता है।

नकारात्मक रूप से तिरछे वितरण (यानी बाईं ओर तिरछा, माध्य <मोड (सांख्यिकी) के साथ, और दाएं हाथ की पूंछ के साथ यह बाएं हाथ की पूंछ से छोटा होता है) का पालन करने वाले डेटा में एक सममित वितरण फिट करने के लिए कोई व्यक्ति के वर्ग मान का उपयोग कर सकता है फिट पूरा करने के लिए डेटा।

किसी भी विषमता के वितरण का पालन करते हुए डेटा में सममित वितरण फिट करने के लिए आम तौर पर कोई डेटा को पावर पी तक बढ़ा सकता है, जिससे तिरछापन सकारात्मक होने पर पी <1 और तिरछापन नकारात्मक होने पर पी > 1 हो सकता है। पी का इष्टतम मान संख्यात्मक विधि द्वारा ज्ञात किया जाना है। संख्यात्मक विधि में पी मानों की एक श्रृंखला को मानना, फिर सभी कल्पित पी मानों के लिए वितरण फिटिंग प्रक्रिया को बार-बार लागू करना और अंत में पी के मान का चयन करना शामिल हो सकता है जिसके लिए मापी गई आवृत्तियों (ची) से गणना की गई संभावनाओं के विचलन के वर्गों का योग होता है। -वर्ग परीक्षण) न्यूनतम है, जैसा कि CumFreq में किया जाता है।

सामान्यीकरण संभाव्यता वितरण के लचीलेपन को बढ़ाता है और वितरण फिटिंग में उनकी प्रयोज्यता को बढ़ाता है।[6]

सामान्यीकरण की बहुमुखी प्रतिभा इसे संभव बनाती है, उदाहरण के लिए, लगभग सामान्य रूप से वितरित डेटा सेट को बड़ी संख्या में विभिन्न संभाव्यता वितरणों में फिट करना,[7] जबकि नकारात्मक रूप से विषम वितरणों को फिट किया जा सकता है वर्ग सामान्य और प्रतिबिंबित गम्बेल वितरण।[8]


तिरछापन का व्युत्क्रम

(ए) गंबेल संभाव्यता वितरण दाईं ओर तिरछा है और (बी) गंबेल बाईं ओर तिरछा प्रतिबिंबित है

संचयी वितरण फ़ंक्शन (F) की गणितीय अभिव्यक्ति को इसके पूरक द्वारा प्रतिस्थापित करके तिरछे वितरण को उलटा (या प्रतिबिंबित) किया जा सकता है: F'=1-F, संचयी वितरण फ़ंक्शन #पूरक संचयी वितरण फ़ंक्शन (पूंछ वितरण) प्राप्त करना (भी) उत्तरजीविता फ़ंक्शन कहा जाता है) जो एक दर्पण छवि देता है। इस प्रकार, एक वितरण जो दाईं ओर तिरछा है, एक ऐसे वितरण में बदल जाता है जो बाईं ओर तिरछा है और इसके विपरीत।

Example. The F-expression of the positively skewed Gumbel distribution is: F=exp[-exp{-(X-u)/0.78s}], where u is the mode (i.e. the value occurring most frequently) and s is the standard deviation. The Gumbel distribution can be transformed using F'=1-exp[-exp{-(x-u)/0.78s}] . This transformation yields the inverse, mirrored, or complementary Gumbel distribution that may fit a data series obeying a negatively skewed distribution.

तिरछापन व्युत्क्रमण की तकनीक वितरण फिटिंग के लिए उपलब्ध संभाव्यता वितरणों की संख्या को बढ़ाती है और वितरण फिटिंग के अवसरों को बढ़ाती है।

वितरण का स्थानांतरण

कुछ संभाव्यता वितरण, जैसे घातीय वितरण, नकारात्मक डेटा मान (X) का समर्थन नहीं करते हैं। फिर भी, जब नकारात्मक डेटा मौजूद होता है, तब भी ऐसे वितरणों का उपयोग X को Y=X-Xm से प्रतिस्थापित करके किया जा सकता है, जहां Xm, X का न्यूनतम मान है। यह प्रतिस्थापन संभाव्यता वितरण के सकारात्मक दिशा में बदलाव का प्रतिनिधित्व करता है, यानी दाईं ओर, क्योंकि एक्सएम ऋणात्मक है। Y की वितरण फिटिंग को पूरा करने के बाद, संबंधित X-मान X=Y+Xm से पाए जाते हैं, जो नकारात्मक दिशा में, यानी बाईं ओर वितरण के बैक-शिफ्ट का प्रतिनिधित्व करता है।
वितरण स्थानांतरण की तकनीक उचित रूप से उपयुक्त संभाव्यता वितरण खोजने का मौका बढ़ाती है।

समग्र वितरण

आत्मविश्वास बेल्ट के साथ समग्र (असंतत) वितरण[9]

विकल्प दो अलग-अलग संभाव्यता वितरणों का उपयोग करने के लिए मौजूद है, एक निम्न डेटा रेंज के लिए, और एक उच्चतर के लिए, उदाहरण के लिए लाप्लास वितरण। श्रेणियाँ एक ब्रेक-पॉइंट द्वारा अलग की जाती हैं। ऐसे समग्र (असंतत) संभाव्यता वितरण का उपयोग तब उपयुक्त हो सकता है जब अध्ययन की गई घटना का डेटा दो अलग-अलग परिस्थितियों में प्राप्त किया गया हो।[6]


भविष्यवाणी की अनिश्चितता

Uncertainty analysis with confidence belts using the binomial distribution [10]

फिट किए गए संभाव्यता वितरण के आधार पर घटना की भविष्यवाणियां अनिश्चितता के अधीन हैं, जो निम्नलिखित स्थितियों से उत्पन्न होती हैं:

  • घटनाओं का वास्तविक संभाव्यता वितरण फिट किए गए वितरण से विचलित हो सकता है, क्योंकि देखी गई डेटा श्रृंखला यादृच्छिक त्रुटि के कारण घटना के घटित होने की वास्तविक संभावना का पूरी तरह से प्रतिनिधि नहीं हो सकती है।
  • किसी अन्य स्थिति में या भविष्य में घटनाओं की घटना फिट किए गए वितरण से विचलित हो सकती है क्योंकि यह घटना यादृच्छिक त्रुटि के अधीन भी हो सकती है
  • पर्यावरणीय परिस्थितियों में बदलाव से घटना के घटित होने की संभावना में बदलाव हो सकता है

फ़ाइल:SampleFreqCurves.tif|thumb|सैद्धांतिक 1000 साल के रिकॉर्ड (बेस लाइन) से 50-वर्षीय नमूनों के बाएँ वक्र, बेन्सन से डेटा[11]पहले और दूसरे मामले में अनिश्चितता का अनुमान द्विपद वितरण के साथ प्राप्त किया जा सकता है, उदाहरण के लिए पे की अधिकता की संभावना (यानी घटना एक्स, एक्स के संदर्भ मान एक्सआर से बड़ी है) और गैर की संभावना का उपयोग करके। अधिकता Pn (अर्थात् घटना X, संदर्भ मान Xr से छोटी या उसके बराबर होने की संभावना, इसे संचयी संभाव्यता भी कहा जाता है)। इस मामले में केवल दो संभावनाएँ हैं: या तो अति है या अति है। यह द्वंद्व ही कारण है कि द्विपद वितरण लागू होता है।

द्विपद वितरण से कोई पूर्वानुमान अंतराल प्राप्त कर सकता है। ऐसा अंतराल विफलता के जोखिम का भी अनुमान लगाता है, यानी संभावना है कि अनुमानित घटना अभी भी विश्वास अंतराल के बाहर बनी हुई है। आत्मविश्वास या जोखिम विश्लेषण में रिटर्न अवधि T=1/Pe शामिल हो सकती है जैसा कि जल विज्ञान में किया जाता है।

फिट की अच्छाई के आधार पर क्रमबद्ध संभाव्यता वितरण की सूची।[12]
जीईवी वितरण को फिट करने वाले डेटा सेट का हिस्टोग्राम और संभाव्यता घनत्व

फिट की अच्छाई

विभिन्न वितरणों की उपयुक्तता की रैंकिंग करके कोई यह अनुमान लगा सकता है कि कौन सा वितरण स्वीकार्य है और कौन सा नहीं।

हिस्टोग्राम और घनत्व फ़ंक्शन

संचयी वितरण फ़ंक्शन (सीडीएफ) से कोई हिस्टोग्राम और संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) प्राप्त कर सकता है।

यह भी देखें

संदर्भ

  1. 1.0 1.1 Left (negatively) skewed frequency histograms can be fitted to square Normal or mirrored Gumbel probability functions. On line: [1]
  2. Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175–224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 9070754339. Free download from the webpage [2] under nr. 12, or directly as PDF : [3]
  3. H. Cramér, "Mathematical methods of statistics" , Princeton Univ. Press (1946)
  4. Hosking, J.R.M. (1990). "L-moments: analysis and estimation of distributions using linear combinations of order statistics". Journal of the Royal Statistical Society, Series B. 52: 105–124. JSTOR 2345653.
  5. Aldrich, John (1997). "R. A. Fisher and the making of maximum likelihood 1912–1922". Statistical Science. 12 (3): 162–176. doi:10.1214/ss/1030037906. MR 1617519.
  6. 6.0 6.1 6.2 Software for Generalized and Composite Probability Distributions. International Journal of Mathematical and Computational Methods, 4, 1-9 [4] or [5]
  7. Example of an approximately normally distributed data set to which a large number of different probability distributions can be fitted, [6]
  8. Left (negatively) skewed frequency histograms can be fitted to square normal or mirrored Gumbel probability functions. [7]
  9. Intro to composite probability distributions
  10. Frequency predictions and their binomial confidence limits. In: International Commission on Irrigation and Drainage, Special Technical Session: Economic Aspects of Flood Control and non-Structural Measures, Dubrovnik, Yugoslavia, 1988. On line
  11. Benson, M.A. 1960. Characteristics of frequency curves based on a theoretical 1000 year record. In: T.Dalrymple (Ed.), Flood frequency analysis. U.S. Geological Survey Water Supply Paper, 1543-A, pp. 51-71.
  12. Software for probability distribution fitting

Template:Distribution fitting software