संभाव्यता वितरण फिटिंग
संभाव्यता वितरण फिटिंग या पूर्णतः वितरण फिटिंग एक चर घटना के बार-बार माप से संबंधित डेटा की एक श्रृंखला के लिए संभाव्यता वितरण की फिटिंग है। वितरण फिटिंग का उद्देश्य किसी निश्चित अंतराल में घटना की भयावहता की संभावना की भविष्यवाणी करना या घटित होने की आवृत्ति का पूर्वानुमान लगाना है।
कई संभाव्यता वितरण हैं (संभाव्यता वितरण की सूची देखें) जिनमें से कुछ को घटना और वितरण की विशेषताओं के आधार पर, दूसरों की तुलना में डेटा की देखी गई आवृत्ति के अधिक समीप से उपयुक्त किया जा सकता है। यह माना जाता है कि वितरण एक करीबी उपयुक्त देता है जिससे अच्छी भविष्यवाणियाँ होती हैं। इसलिए, वितरण फिटिंग में, किसी को ऐसे वितरण का चयन करने की आवश्यकता होती है जो डेटा के लिए उपयुक्त हो।
वितरण का चयन
उपयुक्त वितरण का चयन केंद्रीय प्रवृत्ति के संबंध में डेटा सेट की समरूपता की उपस्थिति या अनुपस्थिति पर निर्भर करता है।
सममित वितरण
जब डेटा को माध्य के चारों ओर सममित रूप से वितरित किया जाता है, जबकि माध्य से दूर डेटा की घटना की आवृत्ति कम हो जाती है, तो उदाहरण के लिए कोई सामान्य वितरण, लॉजिस्टिक वितरण या छात्र के टी-वितरण का चयन कर सकता है। पहले दो बहुत समान हैं, जबकि अंतिम, एक डिग्री की स्वतंत्रता के साथ, "हेवियर टेल्स" है जिसका अर्थ है कि माध्य से दूर के मान अपेक्षाकृत अधिक बार होते हैं (यानी कर्टोसिस अधिक होता है)। कॉची वितरण भी सममित है।
दाईं ओर विषम (स्केव) वितरण
जब बड़े मान छोटे मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के दाईं ओर विषम वितरण होता है (अर्थात धनात्मक विषमता होती है), उदाहरण के लिए, कोई व्यक्ति लॉग-सामान्य वितरण का चयन कर सकता है (यानी डेटा के लॉग मान सामान्य रूप से वितरित होते हैं), लॉग-लॉजिस्टिक वितरण (यानी डेटा के लॉग मान लॉजिस्टिक वितरण का पालन करते हैं), गम्बेल वितरण, घातीय वितरण, पारेतो वितरण, वेइबुल वितरण, बूर वितरण, या फ़्रेचेट वितरण। अंतिम चार वितरण बाईं ओर सीमित हैं।
बायीं ओर विषम वितरण
जब छोटे मान बड़े मानों की तुलना में माध्य से अधिक दूर होते हैं, तो व्यक्ति के बाईं ओर विषम वितरण होता है (यानी ऋणात्मक विषमता होती है), उदाहरण के लिए, व्यक्ति वर्ग-सामान्य वितरण का चयन कर सकता है (अर्थात उस पर लागू सामान्य वितरण डेटा मानों का वर्ग),[1] उलटा (प्रतिबिंबित) गंबेल वितरण,[1] डैगम वितरण (प्रतिबिंबित बूर वितरण), या गोम्पर्ट्ज़ वितरण, जो बाईं ओर घिरा हुआ है।
फिटिंग की तकनीकें
वितरण फिटिंग की निम्नलिखित तकनीकें उपस्थित हैं:[2]
- पैरामीटर विधियाँ, जिनके द्वारा डेटा श्रृंखला से वितरण के मापदंडों की गणना की जाती है।[3] पैरामीट्रिक विधियाँ हैं:
- क्षणों की विधि (सांख्यिकी)
- अधिकतम अंतर अनुमान
- L-क्षणों की विधि[4]
- अधिकतम संभावना विधि[5]
उदाहरण के लिए, पैरामीटर (अपेक्षा) का अनुमान डेटा के माध्यम से लगाया जा सकता है और पैरामीटर (विचरण) का अनुमान डेटा के मानक विचलन से लगाया जा सकता है। माध्य के रूप में पाया जाता है, जहां डेटा मूल्य है और डेटा की संख्या है, जबकि मानक विचलन की गणना के रूप में की जाती है। इन पैरामीटर्स के साथ कई वितरण, उदा. सामान्य वितरण, पूर्णतः परिभाषित हैं।
- संचयी वितरण फ़ंक्शन के परिवर्तन का उपयोग करके प्लॉटिंग स्थिति प्लस प्रतिगमन विश्लेषण, ताकि संचयी संभाव्यता और डेटा के मूल्यों के बीच एक रैखिक संबंध पाया जा सके, जिसे चयनित संभाव्यता वितरण के आधार पर बदलने की भी आवश्यकता हो सकती है। इस विधि में प्लॉटिंग स्थिति द्वारा संचयी संभाव्यता का अनुमान लगाने की आवश्यकता होती है।[6]
उदाहरण के लिए, संचयी गम्बेल वितरण को पर रेखीयकृत किया जा सकता है, जहां डेटा चर है और , संचयी संभाव्यता होने के साथ, अर्थात संभावना है कि डेटा मान से कम है। इस प्रकार, के लिए प्लॉटिंग स्थिति का उपयोग करते हुए, कोई पर के एक रैखिक प्रतिगमन से पैरामीटर और पाता है, और गम्बेल वितरण पूरी तरह से परिभाषित होता है।
वितरणों का सामान्यीकरण
सममित वितरण (सामान्य और लॉजिस्टिक की तरह) को उपयुक्त करने के लिए डेटा को लॉगरिदमिक रूप से परिवर्तित करने की प्रथा है, जो कि वितरण का पालन करने वाले डेटा में सकारात्मक रूप से विषम होता है (यानी दाईं ओर विषम होता है, माध्य> मोड के साथ, और दाएं हाथ की पूंछ के साथ जो इससे अधिक लंबी होती है) बाएँ हाथ का पट), लॉगनॉर्मल वितरण और लॉग-लॉजिस्टिक वितरण देखें। एक समान प्रभाव डेटा का वर्गमूल लेकर प्राप्त किया जा सकता है।
किसी भी विषमता के वितरण का पालन करने वाले डेटा में सममित वितरण को उपयुक्त करने के लिए सामान्यतः कोई डेटा को पावर p तक बढ़ा सकता है, जिससे विषमता धनात्मक होने पर p <1 और विषमता ऋणात्मक होने पर p > 1 हो सकता है। p का इष्टतम मान संख्यात्मक विधि से ज्ञात किया जाना है। संख्यात्मक विधि में पी मानों की एक श्रृंखला को मानना, फिर सभी अनुमानित पी मानों के लिए वितरण फिटिंग प्रक्रिया को बार-बार लागू करना और अंत में p के मान का चयन करना सम्मिलित हो सकता है जिसके लिए मापी गई आवृत्तियों से गणना की गई संभावनाओं के विचलन के वर्गों का योग (ची) सम्मिलित हो सकता है। चुकता) न्यूनतम है, जैसा कमफ़्रीक में किया जाता है।
सामान्यीकरण संभाव्यता वितरण के नम्यता को बढ़ाता है और वितरण फिटिंग में उनकी प्रयोज्यता को बढ़ाता है।[6]
सामान्यीकरण की बहुमुखी प्रतिभा इसे संभव बनाती है, उदाहरण के लिए, लगभग सामान्य रूप से वितरित डेटा सेट को बड़ी संख्या में अलग-अलग संभाव्यता वितरणों में उपयुक्त करना,[7] जबकि ऋणात्मक रूप से विषमता वितरणों को वर्गाकार सामान्य और प्रतिबिंबित गम्बेल वितरणों में उपयुक्त किया जा सकता है।[8]
वैषम्य का व्युत्क्रमण
संचयी वितरण फ़ंक्शन (F) की गणितीय अभिव्यक्ति को इसके पूरक द्वारा प्रतिस्थापित करके विषम वितरण को उलटा (या प्रतिबिंबित) किया जा सकता है: F'=1-F पूरक वितरण फ़ंक्शन (जिसे उत्तरजीविता फ़ंक्शन भी कहा जाता है) प्राप्त करना जो एक दर्पण छवि देता है। इस तरीके से, एक वितरण जो दाईं ओर विषम है, एक ऐसे वितरण में बदल जाता है जो बाईं ओर विषम है और इसके विपरीत।
उदाहरण। धनात्मक रूप से विषम गम्बेल वितरण की एफ-अभिव्यक्ति है: F=exp[-exp{-(X-u)/0.78s}] जहां u मोड है (अर्थात सबसे अधिक बार होने वाला मान) और s मानक विचलन है। गम्बेल वितरण को F'=1-exp[-exp{-(x-u)/0.78s}] का उपयोग करके बदला जा सकता है। यह परिवर्तन व्युत्क्रम, प्रतिबिंबित, या पूरक गम्बेल वितरण उत्पन्न करता है जो ऋणात्मक रूप से विषम वितरण का पालन करने वाली डेटा श्रृंखला में उपयुक्त हो सकता है।
विषम व्युत्क्रमण की तकनीक वितरण फिटिंग के लिए उपलब्ध संभाव्यता वितरणों की संख्या बढ़ाती है और वितरण फिटिंग के अवसरों को बढ़ाती है।
वितरण का स्थानांतरण
कुछ संभाव्यता वितरण, जैसे घातांक, ऋणात्मक डेटा मान (X) का समर्थन नहीं करते हैं। फिर भी, जब ऋणात्मक डेटा उपस्थित होता है, तब भी ऐसे वितरणों का उपयोग X को Y=X-Xm से प्रतिस्थापित करके किया जा सकता है, जहां Xm, X का न्यूनतम मान है। यह प्रतिस्थापन संभाव्यता वितरण के धनात्मक दिशा में बदलाव को दर्शाता है, अर्थात दाईं ओर, क्योंकि Xm ऋणात्मक है. Y की वितरण फिटिंग को पूरा करने के बाद, संबंधित X-मान X=Y+Xm से पाए जाते हैं, जो ऋणात्मक दिशा में, यानी बाईं ओर वितरण के बैक-शिफ्ट का प्रतिनिधित्व करता है।
वितरण स्थानांतरण की तकनीक उचित रूप से उपयुक्त संभाव्यता वितरण खोजने का अवसर बढ़ाती है।
समग्र वितरण
विकल्प दो अलग-अलग संभाव्यता वितरणों का उपयोग करने के लिए उपस्थित है, निम्न डेटा रेंज के लिए, और उच्च के लिए, उदाहरण के लिए लाप्लास वितरण। श्रेणियाँ ब्रेक-पॉइंट द्वारा अलग की जाती हैं। इस तरह के मिश्रित (असंतत) संभाव्यता वितरण का उपयोग तब उचित हो सकता है जब अध्ययन की गई घटना के लिए डेटा दो अलग-अलग स्थितियों के तहत प्राप्त किया गया हो।[6]
पूर्वानुमान की अनिश्चितता
उपयुक्त संभाव्यता वितरणों के आधार पर घटना की भविष्यवाणियाँ अनिश्चितता के अधीन हैं, जो निम्नलिखित स्थितियों से उत्पन्न होती हैं:
- घटनाओं का वास्तविक संभाव्यता वितरण उपयुक्त किए गए वितरण से विचलित हो सकता है, क्योंकि देखी गई डेटा श्रृंखला यादृच्छिक त्रुटि के कारण घटना के घटित होने की वास्तविक संभावना का पूरी तरह से प्रतिनिधि नहीं हो सकती है।
- किसी अन्य स्थिति में या भविष्य में घटनाओं की घटना उपयुक्त किए गए वितरण से विचलित हो सकती है क्योंकि यह घटना यादृच्छिक त्रुटि के अधीन भी हो सकती है
- पर्यावरणीय परिस्थितियों में बदलाव से घटना के घटित होने की संभावना में बदलाव हो सकता है।[11]
पहले और दूसरे स्तिथि में अनिश्चितता का अनुमान द्विपद संभाव्यता वितरण के साथ प्राप्त किया जा सकता है, उदाहरण के लिए पे की अधिकता की संभावना (यानी घटना X, X के संदर्भ मूल्य एक्सआर से बड़ी है) और गैर की संभावना का उपयोग करके प्राप्त किया जा सकता है। -अतिरिक्त Pn (अर्थात् घटना X के संदर्भ मान Xr से छोटा या बराबर होने की संभावना, इसे संचयी संभाव्यता भी कहा जाता है)। इस स्तिथि में, केवल दो संभावनाएँ हैं: या तो अति है या अति नहीं है। इस द्वैत के कारण ही द्विपद वितरण लागू होता है।
द्विपद वितरण से कोई पूर्वानुमान अंतराल प्राप्त कर सकता है। ऐसा अंतराल विफलता के जोखिम का भी अनुमान लगाता है, यानी संभावना है कि पूर्वानुमानित घटना अभी भी विश्वास अंतराल से बाहर है। विश्वास या जोखिम विश्लेषण में रिटर्न अवधि T=1/Pe सम्मिलित हो सकती है, जैसा कि जल विज्ञान में किया जाता है।
उपयुक्तता की अच्छाई
विभिन्न वितरणों की उपयुक्तता की रैंकिंग करके कोई यह आभास प्राप्त कर सकता है कि कौन सा वितरण स्वीकार्य है और कौन सा नहीं।
हिस्टोग्राम और सघनता फलन
संचयी वितरण फलन (सीडीएफ) से कोई हिस्टोग्राम और संभाव्यता घनत्व फलन (पीडीएफ) प्राप्त कर सकता है।
यह भी देखें
संदर्भ
- ↑ 1.0 1.1 Left (negatively) skewed frequency histograms can be fitted to square Normal or mirrored Gumbel probability functions. On line: [1]
- ↑ Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175–224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 9070754339. Free download from the webpage [2] under nr. 12, or directly as PDF : [3]
- ↑ H. Cramér, "Mathematical methods of statistics" , Princeton Univ. Press (1946)
- ↑ Hosking, J.R.M. (1990). "L-moments: analysis and estimation of distributions using linear combinations of order statistics". Journal of the Royal Statistical Society, Series B. 52: 105–124. JSTOR 2345653.
- ↑ Aldrich, John (1997). "R. A. Fisher and the making of maximum likelihood 1912–1922". Statistical Science. 12 (3): 162–176. doi:10.1214/ss/1030037906. MR 1617519.
- ↑ 6.0 6.1 6.2 Software for Generalized and Composite Probability Distributions. International Journal of Mathematical and Computational Methods, 4, 1-9 [4] or [5]
- ↑ Example of an approximately normally distributed data set to which a large number of different probability distributions can be fitted, [6]
- ↑ Left (negatively) skewed frequency histograms can be fitted to square normal or mirrored Gumbel probability functions. [7]
- ↑ Intro to composite probability distributions
- ↑ Frequency predictions and their binomial confidence limits. In: International Commission on Irrigation and Drainage, Special Technical Session: Economic Aspects of Flood Control and non-Structural Measures, Dubrovnik, Yugoslavia, 1988. On line
- ↑ Benson, M.A. 1960. Characteristics of frequency curves based on a theoretical 1000 year record. In: T.Dalrymple (Ed.), Flood frequency analysis. U.S. Geological Survey Water Supply Paper, 1543-A, pp. 51-71.
- ↑ Software for probability distribution fitting