मिश्रण वितरण: Difference between revisions

Latest revision as of 15:56, 13 September 2023

संभाव्यता और आंकड़ों में, एक मिश्रण वितरण एक यादृच्छिक चर का संभाव्यता वितरण है जो अन्य यादृच्छिक चर के संग्रह से प्राप्त होता है: पहले, चयन की दी गई संभावनाओं के अनुसार संग्रह से एक यादृच्छिक चर का चयन किया जाता है, और फिर चयनित यादृच्छिक चर का मान प्राप्त होता है। अंतर्निहित यादृच्छिक चर यादृच्छिक वास्तविक संख्या हो सकते हैं, या वे यादृच्छिक वैक्टर (प्रत्येक समान आयाम वाले) हो सकते हैं, इस स्थिति में मिश्रण वितरण एक बहुभिन्नरूपी वितरण है।

ऐसे स्थितियों में जहां अंतर्निहित यादृच्छिक चर में से प्रत्येक निरंतर यादृच्छिक चर है, परिणाम चर भी निरंतर होगा और इसकी संभावना घनत्व समारोह को कभी-कभी मिश्रण घनत्व के रूप में संदर्भित किया जाता है। संचयी वितरण फलन (और संभावना घनत्व फलन यदि उपस्थित है) को अन्य वितरण कार्यों और घनत्व कार्यों के उत्तल संयोजन (अर्थात् एक भारित योग, गैर-ऋणात्मक भार के साथ 1 तक) के रूप में व्यक्त किया जा सकता है। व्यक्तिगत वितरण जो मिश्रण वितरण बनाने के लिए संयुक्त होते हैं उन्हें मिश्रण घटक कहा जाता है, और प्रत्येक घटक से जुड़ी संभावनाओं (या भार) को मिश्रण भार कहा जाता है। मिश्रण वितरण में घटकों की संख्या अधिकांश परिमित होने तक सीमित होती है, चूंकि कुछ स्थितियों में घटक संख्या में गणनीय हो सकते हैं। अधिक सामान्य स्थिति (अर्थात् घटक वितरण का एक अगणनीय सेट), साथ ही साथ गणनीय स्थिति, यौगिक संभाव्यता वितरण के शीर्षक के अनुसार माना जाता है।

एक यादृच्छिक चर के बीच एक अंतर बनाने की आवश्यकता है जिसका वितरण कार्य या घनत्व घटकों के एक सेट (अर्थात् एक मिश्रण वितरण) का योग है और एक यादृच्छिक चर जिसका मान दो या दो से अधिक अंतर्निहित यादृच्छिक चर के मानों का योग है, में किस स्थिति में कनवल्शन ऑपरेटर द्वारा वितरण दिया जाता है। एक उदाहरण के रूप में, दो बहुभिन्नरूपी सामान्य वितरण यादृच्छिक चर का योग, प्रत्येक अलग-अलग साधनों के साथ, अभी भी एक सामान्य वितरण होगा। दूसरी ओर, अलग-अलग साधनों के साथ दो सामान्य वितरणों के मिश्रण के रूप में निर्मित मिश्रण घनत्व में दो चोटियाँ होंगी, किन्तु दो साधन काफी दूर हों, यह दर्शाता है कि यह वितरण सामान्य वितरण से मौलिक रूप से भिन्न है।

मिश्रण वितरण साहित्य में कई संदर्भों में उत्पन्न होता है और स्वाभाविक रूप से उत्पन्न होता है जहां एक सांख्यिकीय जनसंख्या में दो या दो से अधिक उप-जनसंख्या होती है। उन्हें कभी-कभी गैर-सामान्य वितरण का प्रतिनिधित्व करने के साधन के रूप में भी उपयोग किया जाता है। मिश्रण वितरण से जुड़े सांख्यिकीय मॉडल से संबंधित डेटा विश्लेषण पर मिश्रण मॉडल के शीर्षक के अनुसार चर्चा की गई है, जबकि वर्तमान लेख मिश्रण वितरण के सरल संभाव्य और सांख्यिकीय गुणों पर ध्यान केंद्रित करता है और ये अंतर्निहित वितरण के गुणों से कैसे संबंधित हैं।

परिमित और गणनीय मिश्रण

समान भार वाले तीन सामान्य वितरण (μ= 5, 10, 15, σ = 2) के मिश्रण का घनत्व। प्रत्येक घटक को भारित घनत्व के रूप में दिखाया गया है (प्रत्येक 1/3 को एकीकृत करता है)

संभाव्यता घनत्व कार्यों p₁(x), ..., p_n(x), या संगत संचयी वितरण कार्यों P₁(x), ..., P_n(x) और भार w₁, ..., w_n ऐसे दिए गए हैं कि w_i ≥ 0 और Σw_i = 1, मिश्रण वितरण को या तो घनत्व, f, या वितरण फलन, F, को योग के रूप में लिखकर प्रदर्शित किया जा सकता है (जो दोनों ही स्थितियों में एक उत्तल संयोजन है):

F(x)=\sum _{i=1}^{n}\,w_{i}\,P_{i}(x),

f(x)=\sum _{i=1}^{n}\,w_{i}\,p_{i}(x).

इस प्रकार का मिश्रण, एक परिमित राशि होने के कारण, एक परिमित मिश्रण कहा जाता है, और अनुप्रयोगों में, मिश्रण घनत्व के लिए एक अयोग्य संदर्भ का अर्थ सामान्यतः एक परिमित मिश्रण होता है। घटकों के एक अनगिनत अनंत सेट के स्थिति को अनुमति देकर $n=\infty \!$ औपचारिक रूप से कवर किया गया है।

अगणनीय मिश्रण

जहां घटक वितरण का सेट अगणनीय होता है, परिणाम को अधिकांश यौगिक संभाव्यता वितरण कहा जाता है। इस तरह के वितरण के निर्माण में मिश्रण वितरण के लिए एक औपचारिक समानता होती है, जिसमें या तो अनंत योग या परिमित मिश्रण के लिए उपयोग किए जाने वाले परिमित योगों की जगह अभिन्न अंग होते हैं।

प्रायिकता घनत्व फलन p(x;a) पर एक चर x के लिए विचार करें, जिसे a द्वारा परिचालित किया गया है। अर्थात्, किसी समुच्चय A में a के प्रत्येक मान के लिए, p(x;a) x के संबंध में प्रायिकता घनत्व फलन है। प्रायिकता घनत्व फलन w दिया गया है (जिसका अर्थ है कि w गैर-ऋणात्मक है और 1 को एकीकृत करता है), फलन

f(x)=\int _{A}\,w(a)\,p(x;a)\,da

फिर से x के लिए प्रायिकता घनत्व फलन है। संचयी वितरण समारोह के लिए एक समान अभिन्न लिखा जा सकता है। ध्यान दें कि यहाँ सूत्र परिमित या अनंत मिश्रण के स्थिति में कम हो जाते हैं यदि घनत्व w को असतत वितरण के संचयी वितरण समारोह के व्युत्पन्न का प्रतिनिधित्व करने वाला एक सामान्यीकृत कार्य होने की अनुमति है।

एक पैरामीट्रिक परिवार के अन्दर मिश्रण

मिश्रण के घटक अधिकांश मनमाना संभाव्यता वितरण नहीं होते हैं, किन्तु इसके अतिरिक्त एक पैरामीट्रिक परिवार (जैसे सामान्य वितरण) के सदस्य होते हैं, एक पैरामीटर या पैरामीटर के लिए अलग-अलग मान होते हैं। ऐसे स्थितियों में, यह मानते हुए कि यह उपस्थित है, घनत्व को योग के रूप में लिखा जा सकता है:

f(x;a_{1},\ldots ,a_{n})=\sum _{i=1}^{n}\,w_{i}\,p(x;a_{i})

एक पैरामीटर के लिए, या

f(x;a_{1},\ldots ,a_{n},b_{1},\ldots ,b_{n})=\sum _{i=1}^{n}\,w_{i}\,p(x;a_{i},b_{i})

दो मापदंडों के लिए, और इसी प्रकार।

गुण

उत्तलता

संभाव्यता घनत्व कार्यों का एक सामान्य रैखिक संयोजन अनिवार्य रूप से एक संभावना घनत्व नहीं है, क्योंकि यह ऋणात्मक हो सकता है या यह 1 के अतिरिक्त किसी अन्य चीज़ से एकीकृत हो सकता है। चूंकि, संभावना घनत्व कार्यों का एक उत्तल संयोजन इन दोनों गुणों (गैर-ऋणात्मकता और एकीकृत) को संरक्षित करता है से 1), और इस प्रकार मिश्रण घनत्व स्वयं संभाव्यता घनत्व कार्य हैं।

क्षण

चलो x₁, ..., x_n n घटक वितरण से यादृच्छिक चर को निरूपित करें, और X को मिश्रण वितरण से एक यादृच्छिक चर को निरूपित करें। फिर, किसी भी फलन H(·) के लिए जिसके लिए $\operatorname {E} [H(X_{i})]$ उपस्थित है, और यह मानते हुए कि घटक घनत्व P_i(x) उपस्थित है,

{\begin{aligned}\operatorname {E} [H(X)]&=\int _{-\infty }^{\infty }H(x)\sum _{i=1}^{n}w_{i}p_{i}(x)\,dx\\&=\sum _{i=1}^{n}w_{i}\int _{-\infty }^{\infty }p_{i}(x)H(x)\,dx=\sum _{i=1}^{n}w_{i}\operatorname {E} [H(X_{i})].\end{aligned}}

जेवाँ क्षण शून्य के बारे में (अर्थात चुनना H(x) = x^j) घटकों के जेवें क्षणों का भारित औसत है। माध्य के बारे में क्षण H(x) = (x − μ)^j एक द्विपद विस्तार सम्मिलित है:^[1]

{\begin{aligned}\operatorname {E} [(X-\mu )^{j}]&=\sum _{i=1}^{n}w_{i}\operatorname {E} [(X_{i}-\mu _{i}+\mu _{i}-\mu )^{j}]\\&=\sum _{i=1}^{n}w_{i}\sum _{k=0}^{j}\left({\begin{array}{c}j\\k\end{array}}\right)(\mu _{i}-\mu )^{j-k}\operatorname {E} [(X_{i}-\mu _{i})^{k}],\end{aligned}}

जहाँ μ_iIवें घटक के माध्य को दर्शाता है।

भार w_i के साथ एक आयामी वितरण के मिश्रण के स्थिति में, μ_i और भिन्नता σ_i² का अर्थ है, कुल माध्य और भिन्नता होगी:

\operatorname {E} [X]=\mu =\sum _{i=1}^{n}w_{i}\mu _{i},

{\begin{aligned}\operatorname {E} [(X-\mu )^{2}]&=\sigma ^{2}\\&=\operatorname {E} [X^{2}]-\mu ^{2}&(\mathrm {standard} \ \mathrm {variance} \ \mathrm {reformulation} )\\&=\left(\sum _{i=1}^{n}w_{i}(\operatorname {E} [X_{i}^{2}])\right)-\mu ^{2}\\&=\sum _{i=1}^{n}w_{i}(\sigma _{i}^{2}+\mu _{i}^{2})-\mu ^{2}&(\mathrm {from} \ \sigma _{i}^{2}=\operatorname {E} [X_{i}^{2}]-\mu _{i}^{2},\mathrm {therefore} \,\operatorname {E} [X_{i}^{2}]=\sigma _{i}^{2}+\mu _{i}^{2}.)\end{aligned}}

ये संबंध गैर-तुच्छ उच्च-क्रम के क्षणों जैसे तिरछापन और वक्रता (वसा पूंछ) और बहु-मोडलिटी को प्रदर्शित करने के लिए मिश्रण वितरण की क्षमता को प्रकाशित करते हैं, यहां तक कि घटकों के अन्दर ऐसी विशेषताओं की अनुपस्थिति में भी होता है। मैरोन और वैंड (1992) इस संरचना के लचीलेपन का उदाहरण देते हैं।^[2]

मोड

बहुविध वितरण का प्रश्न कुछ स्थितियों के लिए सरल है, जैसे कि घातीय बंटनों का मिश्रण: ऐसे सभी मिश्रण एकरूपता वाले होते हैं।^[3] चूंकि, सामान्य वितरण के मिश्रण के स्थिति में, यह एक जटिल है। रे एंड लिंडसे द्वारा एक बहुभिन्नरूपी सामान्य मिश्रण में मोड की संख्या के लिए शर्तों का पता लगाया जाता है^[4] जो पहले के काम को एकतरफा^[5]^[6] और बहुभिन्नरूपी^[7] वितरण पर बढ़ाते हैं।

यहाँ एक डी डायमेंशनल स्पेस में एक एन घटक मिश्रण के मोड के मूल्यांकन की समस्या को महत्वपूर्ण बिंदुओं (स्थानीय न्यूनतम, अधिकतम और सैडल बिन्दुओं) की पहचान के लिए कम किया जाता है, जिसे कई गुना रिजलाइन सतह के रूप में संदर्भित किया जाता है, जो की छवि है। रिजलाइन फलन

x^{*}(\alpha )=\left[\sum _{i=1}^{n}\alpha _{i}\Sigma _{i}^{-1}\right]^{-1}\times \left[\sum _{i=1}^{n}\alpha _{i}\Sigma _{i}^{-1}\mu _{i}\right],

जहाँ $\alpha$ $(n-1)$ -आयामी मानक संकेतन से संबंधित है:

${\mathcal {S}}_{n}=\{\alpha \in \mathbb {R} ^{n}:\alpha _{i}\in [0,1],\sum _{i=1}^{n}\alpha _{i}=1\}$

और $\Sigma _{i}\in R^{D\times D},\,\mu _{i}\in R^{D}$ सहप्रसरण और i^वें घटक के माध्य के अनुरूप है। रे और लिंडसे^[4] उस स्थिति में विचार करते है जिसमे $n-1<D$ मिश्रण के मोड और रिज एलिवेशन फलन $h(\alpha )=q(x^{*}(\alpha )$ पर एक-से-एक पत्राचार दिखा रहा है इस प्रकार $\alpha$ के संबंध में ${\frac {dh(\alpha )}{d\alpha }}=0$ का समाधान करके और मान $x^{*}(\alpha )$ निर्धारित करके मोड की पहचान कर सकता हैं।

ग्राफिकल टूल का उपयोग करते हुए, $n\in \{2,3\}$ घटकों की संख्या के साथ मिश्रण की संभावित बहु-रूपता प्रदर्शित की जाती है; विशेष रूप से यह दिखाया गया है कि मोड की संख्या $n$ से अधिक हो सकती है और मोड घटक के साथ मेल नहीं खा सकते हैं। दो घटकों के लिए वे विश्लेषण के लिए एक ग्राफिकल टूल विकसित करते हैं, इसके बजाय पहले मिश्रण भार $w_{1}$ (जो दूसरे मिश्रण भार को भी निर्धारित करता है $w_{2}=1-w_{1}$ ) के संबंध में पूर्वोक्त अंतर को समाधान करके और समाधान को एक फलन $\Pi (\alpha ),\,\alpha \in [0,1]$ के रूप में व्यक्त करते हैं जिससे $w_{1}$ के दिए गए मान के लिए मोड की संख्या और स्थान रेखा $\Pi (\alpha )=w_{1}$ पर ग्राफ के चौराहों की संख्या से मेल खाती है. यह बदले में ग्राफ के दोलनों की संख्या से संबंधित हो सकता है और इसलिए के समाधान के लिए ${\frac {d\Pi (\alpha )}{d\alpha }}=0$ के साथ दो घटक मिश्रण के स्थिति के लिए एक स्पष्ट समाधान के लिए अग्रणी $\Sigma _{1}=\Sigma _{2}=\Sigma$ (कभी-कभी समलिंगी मिश्रण कहा जाता है) द्वारा दिया गया

1-\alpha (1-\alpha )d_{M}(\mu _{1},\mu _{2},\Sigma )^{2}

जहाँ $d_{M}(\mu _{1},\mu _{2},\Sigma )={\sqrt {(\mu _{2}-\mu _{1})^{T}\Sigma ^{-1}(\mu _{2}-\mu _{1})}}$ महालनोबिस $\mu _{1}$ और $\mu _{2}$ के बीच की दूरी है। .

चूंकि उपरोक्त द्विघात है, इसलिए यह इस प्रकार है कि इस उदाहरण में आयाम या भार के अतिरिक्त अधिकतम दो मोड हैं।

सामान्य $n>2$ और $D>1$ के साथ सामान्य मिश्रण के लिए, संभावित मोड की अधिकतम संख्या के लिए एक निचली सीमा, और सशर्त रूप से इस धारणा पर कि अधिकतम संख्या परिमित है – एक ऊपरी सीमा ज्ञात है। $n$ और $D$ के उन संयोजनों के लिए जिनके लिए अधिकतम संख्या ज्ञात है, यह निचली सीमा से मेल खाता है।^[8]

उदाहरण

दो सामान्य वितरण

सरल उदाहरण दो सामान्य वितरणों के मिश्रण द्वारा दिए जा सकते हैं। (अधिक विवरण के लिए मल्टीमॉडल वितरण # दो सामान्य वितरणों का मिश्रण देखें।)

एक ही मानक विचलन और अलग-अलग साधनों (समरूपता) के साथ दो सामान्य वितरणों के बराबर (50/50) मिश्रण को देखते हुए, समग्र वितरण एकल सामान्य वितरण के सापेक्ष कम वक्रता प्रदर्शित करेगा - उप-जनसंख्या के साधन कंधों पर पड़ते हैं समग्र वितरण। यदि पर्याप्त रूप से अलग किया जाता है, अर्थात् दो बार (सामान्य) मानक विचलन द्वारा, इसलिए $\left|\mu _{1}-\mu _{2}\right|>2\sigma ,$ ये एक बिमोडल वितरण बनाते हैं, अन्यथा इसका केवल एक विस्तृत शिखर होता है।^[9] समग्र जनसंख्या की भिन्नता भी दो उप-जनसंख्याओं (विभिन्न माध्यमों से फैलने के कारण) की भिन्नता से अधिक होगी, और इस प्रकार निश्चित भिन्नता $\sigma ,$ के साथ एक सामान्य वितरण के सापेक्ष अधिक फैलाव प्रदर्शित करती है। चूंकि यह समग्र जनसंख्या के भिन्नता के बराबर भिन्नता के साथ सामान्य वितरण के सापेक्ष अतिप्रसारित नहीं होगा।

वैकल्पिक रूप से, एक ही माध्य और विभिन्न मानक विचलन के साथ दो उप-जनसंख्या दी गई है, समग्र जनसंख्या एकल वितरण की तुलना में एक तेज चोटी और भारी पूंछ (और इसी तरह उथले कंधे) के साथ उच्च वक्रता प्रदर्शित करेगी।

द्विभाजित वितरण दिखाते हुए, एक-भिन्न मिश्रण वितरण
बहुभिन्नरूपी मिश्रण वितरण, चार मोड दिखा रहा है

एक सामान्य और एक कॉची वितरण

निम्नलिखित उदाहरण हम्पेल से लिया गया है,^[10] जो जॉन टुकी को श्रेय देता है।

द्वारा परिभाषित मिश्रण वितरण पर विचार करें

F (x) = (1 - 10 -10) (standard normal) + 10 -10 (standard Cauchy)

.

i.i.d का अर्थ से अवलोकन $F (x)$ सामान्य रूप से बड़े नमूनों को छोड़कर सामान्य रूप से व्यवहार करता है, चूंकि इसका अर्थ है $F (x)$ उपस्थित ही नहीं है।

अनुप्रयोग

मिश्रण घनत्व सरल घनत्व (मिश्रण घटकों) के संदर्भ में अभिव्यक्त जटिल घनत्व हैं, और दोनों का उपयोग किया जाता है क्योंकि वे कुछ डेटा सेटों के लिए एक अच्छा मॉडल प्रदान करते हैं (जहां डेटा के विभिन्न उपसमुच्चय अलग-अलग विशेषताओं को प्रदर्शित करते हैं और अलग-अलग मॉडल किए जा सकते हैं), और क्योंकि वे अधिक गणितीय रूप से ट्रैक्टेबल हो सकते हैं, क्योंकि समग्र मिश्रण घनत्व की तुलना में व्यक्तिगत मिश्रण घटकों का अधिक आसानी से अध्ययन किया जा सकता है।

उप-जनसंख्या के साथ एक सांख्यिकीय जनसंख्या को मॉडल करने के लिए मिश्रण घनत्व का उपयोग किया जा सकता है, जहां मिश्रण घटक उप-जनसंख्या पर घनत्व होते हैं, और भार समग्र जनसंख्या में प्रत्येक उप-जनसंख्या का अनुपात होता है।

मिश्रण घनत्व का उपयोग प्रायोगिक त्रुटि या संदूषण के मॉडल के लिए भी किया जा सकता है - एक यह मानता है कि अधिकांश मानक एक अलग, गलत वितरण से कुछ मानकों के साथ वांछित घटना को मापते हैं।

पैरामीट्रिक आँकड़े जो कोई त्रुटि नहीं मानते हैं, अधिकांश ऐसे मिश्रण घनत्वों पर विफल होते हैं - उदाहरण के लिए, सामान्य मान लेने वाले आँकड़े अधिकांश कुछ बाहरी कारकों के कारण की उपस्थिति में विनाशकारी रूप से विफल होते हैं - और इसके अतिरिक्त कोई मजबूत आँकड़ों का उपयोग करता है।

अलग-अलग अध्ययनों के मेटा-विश्लेषण में, विषमता का अध्ययन परिणामों के वितरण को मिश्रण वितरण का कारण बनता है, और अनुमानित त्रुटि के सापेक्ष परिणामों के अतिप्रसार की ओर जाता है। उदाहरण के लिए, एक सांख्यिकीय सर्वेक्षण में, त्रुटि का मार्जिन (नमूना आकार द्वारा निर्धारित) नमूनाकरण त्रुटि की भविष्यवाणी करता है और इसलिए बार-बार सर्वेक्षणों पर परिणामों का फैलाव होता है। अध्ययन की विषमता (अध्ययनों में अलग-अलग नमूनाकरण पूर्वाग्रह हैं) की उपस्थिति त्रुटि के अंतर के सापेक्ष फैलाव को बढ़ाती है।

यह भी देखें

यौगिक वितरण
दूषित सामान्य वितरण
उत्तल संयोजन
अपेक्षा-अधिकतमकरण एल्गोरिथम | अपेक्षा-अधिकतमकरण (ईएम) एल्गोरिथम
भ्रमित न हों: संभाव्यता वितरण के संकल्पों की सूची
उत्पाद वितरण