नमूने का वितरण

आँकड़ों में, एक नमूना वितरण या परिमित-नमूना वितरण एक दिए गए यादृच्छिक नमूने का संभाव्यता वितरण है। यादृच्छिक-नमूना-आधारित आँकड़ा। यदि मनमाने ढंग से बड़ी संख्या में नमूने, जिनमें से प्रत्येक में कई अवलोकन (डेटा बिंदु) शामिल हैं, को प्रत्येक नमूने के लिए एक आँकड़ा (जैसे, उदाहरण के लिए, नमूना माध्य या नमूना प्रसरण) के एक मूल्य की गणना करने के लिए अलग-अलग उपयोग किया जाता है, तो नमूनाकरण बंटन उन मानों का संभाव्यता बंटन है जिन पर आँकड़ा लगता है। कई संदर्भों में, केवल एक नमूना देखा जाता है, लेकिन नमूनाकरण वितरण सैद्धांतिक रूप से पाया जा सकता है।

प्रतिचयन वितरण आंकड़ों में महत्वपूर्ण हैं क्योंकि वे सांख्यिकीय अनुमान के मार्ग में एक प्रमुख सरलीकरण प्रदान करते हैं। अधिक विशेष रूप से, वे सभी व्यक्तिगत नमूना मूल्यों के संयुक्त संभाव्यता वितरण के बजाय विश्लेषणात्मक विचारों को एक आंकड़े के संभाव्यता वितरण पर आधारित होने की अनुमति देते हैं।

परिचय

एक आंकड़े का नमूनाकरण वितरण उस आंकड़े का संभाव्यता वितरण है, जिसे एक यादृच्छिक चर के रूप में माना जाता है, जब आकार के एक यादृच्छिक नमूने से प्राप्त किया जाता है। $n$ . इसे दिए गए नमूना आकार की समान जनसंख्या से सभी संभावित नमूनों के लिए आंकड़ों के वितरण के रूप में माना जा सकता है। नमूनाकरण वितरण जनसंख्या के अंतर्निहित संभाव्यता वितरण पर निर्भर करता है, आंकड़े पर विचार किया जा रहा है, नमूनाकरण प्रक्रिया नियोजित है, और नमूना आकार का उपयोग किया जाता है। अक्सर इस बात में काफी रुचि होती है कि क्या नमूनाकरण वितरण को एक स्पर्शोन्मुख वितरण द्वारा अनुमानित किया जा सकता है, जो सीमित मामले से मेल खाता है या तो परिमित आकार के यादृच्छिक नमूनों की संख्या के रूप में, एक अनंत आबादी से लिया जाता है और वितरण का उत्पादन करने के लिए उपयोग किया जाता है, अनंत की ओर जाता है , या जब समान जनसंख्या का केवल एक समान-अनंत-आकार का नमूना लिया जाता है।

उदाहरण के लिए, माध्य के साथ एक सामान्य वितरण जनसंख्या पर विचार करें $\mu$ और विचरण $\sigma ^{2}$ . मान लें कि हम बार-बार इस जनसंख्या से दिए गए आकार के नमूने लेते हैं और अंकगणितीय माध्य की गणना करते हैं ${\bar {x}}$ प्रत्येक नमूने के लिए - इस आंकड़े को नमूना माध्य कहा जाता है। इन साधनों, या औसतों के वितरण को नमूना माध्य का नमूना वितरण कहा जाता है। यह वितरण सामान्य है ${\mathcal {N}}(\mu ,\sigma ^{2}/n)$ (n नमूना आकार है) चूंकि अंतर्निहित जनसंख्या सामान्य है, हालांकि नमूना वितरण भी अक्सर सामान्य के करीब हो सकता है, भले ही जनसंख्या वितरण न हो (केंद्रीय सीमा प्रमेय देखें)। नमूना माध्य का एक विकल्प नमूना माध्यिका है। जब एक ही जनसंख्या से गणना की जाती है, तो इसका मतलब के लिए एक अलग नमूनाकरण वितरण होता है और आम तौर पर सामान्य नहीं होता है (लेकिन यह बड़े नमूना आकारों के करीब हो सकता है)।

सामान्य वितरण वाली आबादी से नमूने का मतलब सबसे सरल सांख्यिकीय आबादी में से एक से लिया गया एक साधारण आंकड़ा है। अन्य आँकड़ों और अन्य आबादी के लिए सूत्र अधिक जटिल होते हैं, और अक्सर वे बंद-रूप अभिव्यक्ति में मौजूद नहीं होते हैं। बंद-रूप। ऐसे मामलों में नमूनाकरण वितरण को मोंटे कार्लो सिमुलेशन के माध्यम से अनुमानित किया जा सकता है,^[1] बूटस्ट्रैपिंग (सांख्यिकी) विधियाँ, या स्पर्शोन्मुख वितरण सिद्धांत।

मानक त्रुटि

किसी सांख्यिकी के प्रतिचयन वितरण के मानक विचलन को कहा जाता है उस मात्रा की मानक त्रुटि (सांख्यिकी)। ऐसे मामले के लिए जहां आँकड़ा नमूना माध्य है, और नमूने असंबद्ध हैं, मानक त्रुटि है:

\sigma _{\bar {x}}={\frac {\sigma }{\sqrt {n}}}

कहाँ

\sigma

उस मात्रा के जनसंख्या वितरण का मानक विचलन है और

n

नमूना आकार है (नमूने में वस्तुओं की संख्या)।

इस सूत्र का एक महत्वपूर्ण निहितार्थ यह है कि आधा (1/2) माप त्रुटि प्राप्त करने के लिए नमूना आकार को चौगुना (4 से गुणा) किया जाना चाहिए। सांख्यिकीय अध्ययनों को डिजाइन करते समय जहां लागत एक कारक है, लागत-लाभ व्यापार को समझने में इसकी भूमिका हो सकती है।

ऐसे मामले के लिए जहां आंकड़ा कुल नमूना है, और नमूने असंबद्ध हैं, मानक त्रुटि है:

\sigma _{\Sigma x}=\sigma {\sqrt {n}}

कहाँ, फिर से,

\sigma

उस मात्रा के जनसंख्या वितरण का मानक विचलन है और

n

नमूना आकार है (नमूने में वस्तुओं की संख्या)।

उदाहरण

Population	Statistic	Sampling distribution
Normal: ${\mathcal {N}}(\mu ,\sigma ^{2})$	Sample mean ${\bar {X}}$ from samples of size n	${\bar {X}}\sim {\mathcal {N}}{\Big (}\mu ,\,{\frac {\sigma ^{2}}{n}}{\Big )}$ . If the standard deviation $\sigma$ is not known, one can consider $T=\left({\bar {X}}-\mu \right){\frac {\sqrt {n}}{S}}$ , which follows the Student's t-distribution with $\nu =n-1$ degrees of freedom. Here $S^{2}$ is the sample variance, and $T$ is a pivotal quantity, whose distribution does not depend on $\sigma$ .
Bernoulli: $\operatorname {Bernoulli} (p)$	Sample proportion of "successful trials" ${\bar {X}}$	$n{\bar {X}}\sim \operatorname {Binomial} (n,p)$
Two independent normal populations: ${\mathcal {N}}(\mu _{1},\sigma _{1}^{2})$ and ${\mathcal {N}}(\mu _{2},\sigma _{2}^{2})$	Difference between sample means, ${\bar {X}}_{1}-{\bar {X}}_{2}$	${\bar {X}}_{1}-{\bar {X}}_{2}\sim {\mathcal {N}}\!\left(\mu _{1}-\mu _{2},\,{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}\right)$
Any absolutely continuous distribution F with density f	Median $X_{(k)}$ from a sample of size n = 2k − 1, where sample is ordered $X_{(1)}$ to $X_{(n)}$	$f_{X_{(k)}}(x)={\frac {(2k-1)!}{(k-1)!^{2}}}f(x){\Big (}F(x)(1-F(x)){\Big )}^{k-1}$
Any distribution with distribution function F	Maximum $M=\max \ X_{k}$ from a random sample of size n	$F_{M}(x)=P(M\leq x)=\prod P(X_{k}\leq x)=\left(F(x)\right)^{n}$