सांख्यिकीय प्रतिरूप: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(17 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Short description|Type of mathematical model}}
{{Short description|Type of mathematical model}}
सांख्यिकीय प्रतिरूप एक गणितीय प्रतिरूप है जो प्रतिरूप आँकड़े (और एक बड़ी आबादी से समान आँकड़े) की पीढ़ी से संबंधित सांख्यिकीय मान्यताओं के एक समूह का प्रतीक है। एक सांख्यिकीय प्रतिरूप, अक्सर पर्याप्त आदर्श रूप से, आंकड़े उत्पन्न करना की प्रक्रिया का प्रतिनिधित्व करता है।<ref>{{Harvnb | Cox | 2006 | page=178}}</ref> एक सांख्यिकीय प्रतिरूप को आमतौर पर एक या अधिक यादृच्छिक चर और अन्य गैर-यादृच्छिक चर के बीच गणितीय संबंध के रूप में निर्दिष्ट किया जाता है। जैसे, एक सांख्यिकीय प्रतिरूप एक "सिद्धांत का औपचारिक प्रतिनिधित्व" है (केनेथ बोलन द्वारा उद्धृत हरमन एडर)।<ref>{{Harvnb|Adèr|2008|p=[https://books.google.com/books?id=LCnOj4ZFyjkC&pg=PA280 280]}}</ref> सांख्यिकीय प्रतिरूपण के माध्यम से सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमानक प्राप्त किए जाते हैं। आम तौर पर, सांख्यिकीय प्रतिरूप सांख्यिकीय अनुमान के आधार का हिस्सा होते हैं।
'''सांख्यिकीय प्रतिरूप''', एक गणितीय प्रतिरूप है जो प्रतिरूप आँकड़े (और एक बड़ी आबादी से समान आँकड़े) की पीढ़ी से संबंधित सांख्यिकीय मान्यताओं के एक समुच्चय का प्रतीक है। एक सांख्यिकीय प्रतिरूप, अक्सर पर्याप्त आदर्श रूप से, आंकड़े उत्पन्न करना की प्रक्रिया का प्रतिनिधित्व करता है।<ref>{{Harvnb | Cox | 2006 | page=178}}</ref> एक सांख्यिकीय प्रतिरूप को आमतौर पर एक या अधिक यादृच्छिक चर और अन्य गैर-यादृच्छिक चर के बीच गणितीय संबंध के रूप में निर्दिष्ट किया जाता है। जैसे, सांख्यिकीय प्रतिरूप एक "सिद्धांत का औपचारिक प्रतिनिधित्व" है। (केनेथ बोलन द्वारा उद्धृत हरमन एडर)।<ref>{{Harvnb|Adèr|2008|p=[https://books.google.com/books?id=LCnOj4ZFyjkC&pg=PA280 280]}}</ref> सांख्यिकीय प्रतिरूपण के माध्यम से सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमानक प्राप्त किए जाते हैं। आम तौर पर, सांख्यिकीय प्रतिरूप सांख्यिकीय अनुमान के आधार का हिस्सा होते हैं।


== परिचय ==
== परिचय ==
अनौपचारिक रूप से, एक सांख्यिकीय प्रतिरूप को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं का सेट) के रूप में माना जा सकता है: यह धारणा हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है। एक उदाहरण के रूप में, साधारण छः भुजाओं वाले पासों के एक जोड़े पर विचार करें। हम पासे के बारे में दो भिन्न सांख्यिकीय मान्यताओं का अध्ययन करेंगे।
अनौपचारिक रूप से, एक सांख्यिकीय प्रतिरूप को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं का समुच्चय) के रूप में माना जा सकता है: यह धारणा, हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है। एक उदाहरण के रूप में, साधारण छह-पक्षीय वाले पासों के एक जोड़े पर विचार करें। हम पासे के बारे में दो भिन्न सांख्यिकीय मान्यताओं का अध्ययन करेंगे।


पहली सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, प्रत्येक चेहरे (1, 2, 3, 4, 5, और 6) के खींचे जाने की 1/6 संभावना है। उस धारणा से, हम इस संभावना की गणना कर सकते हैं कि दोनों पासे 5:  1/6 × 1/6 = 1/36 के रूप में निकलेंगे। सामान्य तौर पर, हम किसी भी घटना की संभावना की गणना कर सकते हैं: उदाहरण (1 और 2) या (3 और 3) या (5 और 6)।
पहली सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, प्रत्येक पक्ष (1, 2, 3, 4, 5, और 6) के आने की 1/6 संभावना है। उस धारणा से, हम इस संभावना की गणना कर सकते हैं कि दोनों पासे 5:  1/6 × 1/6 = 1/36 के रूप में निकलेंगे। सामान्य तौर पर, हम किसी भी घटना की संभावना की गणना कर सकते हैं: उदाहरण (1 और 2) या (3 और 3) या (5 और 6)।


वैकल्पिक सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, एक फलक 5 प्राप्त करने की प्रायिकता 1/8 है (चूंकि पासों को भारित किया जाता है)। उस धारणा से, हम इस प्रायिकता की गणना कर सकते हैं कि दोनों पासे 5:  1/8 × 1/8 = 1/64 के रूप में निकलेंगे। यद्यपि, हम किसी अन्य गैर महत्वहीन घटना की प्रायिकता की गणना नहीं कर सकते, क्योंकि अन्य चेहरों की प्रायिकताएँ अज्ञात हैं।
वैकल्पिक सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, एक फलक 5 प्राप्त करने की प्रायिकता 1/8 है (चूंकि पासों को भारित किया जाता है)। उस धारणा से, हम इस प्रायिकता की गणना कर सकते हैं कि दोनों पासे 5:  1/8 × 1/8 = 1/64 के रूप में निकलेंगे। यद्यपि, हम किसी अन्य गैर महत्वहीन घटना की प्रायिकता की गणना नहीं कर सकते, क्योंकि अन्य पक्षों की प्रायिकताएँ अज्ञात हैं।


पहली सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप बनाती है: क्योंकि केवल धारणा के साथ, हम किसी भी घटना की संभावना की गणना कर सकते हैं। वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप नहीं बनाती है: क्योंकि केवल धारणा के साथ, हम प्रत्येक घटना की संभावना की गणना नहीं कर सकते हैं।
पहली सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप बनाती है: क्योंकि केवल धारणा के साथ, हम किसी भी घटना की संभावना की गणना कर सकते हैं। वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप नहीं बनाती है: क्योंकि केवल धारणा के साथ, हम प्रत्येक घटना की संभावना की गणना नहीं कर सकते हैं।
Line 14: Line 14:


== औपचारिक परिभाषा ==
== औपचारिक परिभाषा ==
गणितीय शब्दों में, एक सांख्यिकीय मॉडल को आमतौर पर एक जोड़ी के रूप में माना जाता है (<math>S, \mathcal{P}</math>), कहाँ पे <math>S</math> संभावित टिप्पणियों का सेट है, अर्थात् नमूना स्थान, और <math>\mathcal{P}</math> पर संभावना वितरण का एक सेट है <math>S</math>.<ref name="McCullagh">{{Harvnb | McCullagh | 2002}}</ref>
गणितीय शब्दों में, एक सांख्यिकीय प्रतिरूप को आमतौर पर एक जोड़ी (<math>S, \mathcal{P}</math>), के रूप में माना जाता है, जहां <math>S</math> संभावित अवलोकनों का समहू है, यानी प्रतिदर्श समष्टि और <math>\mathcal{P}</math>, <math>S</math> पर प्रायिकता वितरण का एक समुच्चय है।<ref name="McCullagh">{{Harvnb | McCullagh | 2002}}</ref> इस परिभाषा के पीछे का भाव इस प्रकार है। यह माना जाता है कि देखे गए आंकड़ों में "सत्य" प्रयायिकता वितरण होता है जो उत्पादन प्रक्रिया द्वारा नियंत्रित होता है। हम एक समुच्चय (वितरण के) का प्रतिनिधित्व करने के लिए  <math>\mathcal{P}</math> चुनते हैं, जिसमें एक वितरण है जो पर्याप्त रूप से सही वितरण का अनुमान लगाता है।
इस परिभाषा के पीछे का अंतर्ज्ञान इस प्रकार है।यह माना जाता है कि इस प्रक्रिया से प्रेरित एक सच्ची संभावना वितरण है जो मनाया गया डेटा उत्पन्न करता है।हम चुनते हैं <math>\mathcal{P}</math> एक सेट (वितरण के) का प्रतिनिधित्व करने के लिए जिसमें एक वितरण होता है जो पर्याप्त रूप से वास्तविक वितरण का अनुमान लगाता है।


ध्यान दें कि हमें इसकी आवश्यकता नहीं है <math>\mathcal{P}</math> सच्चा वितरण शामिल है, और व्यवहार में जो शायद ही कभी होता है।दरअसल, बर्नहैम और एंडरसन स्टेट के रूप में, एक मॉडल वास्तविकता का सरलीकरण या अनुमान है और इसलिए वास्तविकता के सभी को प्रतिबिंबित नहीं करेगा<ref>{{Harvnb | Burnham | Anderson | 2002 | loc= §1.2.5}}</ref>& mdash; इसलिए कहावत सभी मॉडल गलत हैं।
ध्यान दें कि हमें इसकी आवश्यकता नहीं है कि <math>\mathcal{P}</math> का पूर्ण वितरण हो, और व्यवहार में ऐसा बहुत कम होता है। वास्तव में, जैसा कि बर्नहैम एंड एंडरसन कहते हैं, "एक प्रतिरूप वास्तविकता का एक सरलीकरण या अनुमान है और इसलिए सभी वास्तविकता को प्रतिबिंबित नहीं करेगा" इसलिए कहावत "सभी प्रतिरूप गलत हैं"।<ref>{{Harvnb | Burnham | Anderson | 2002 | loc= §1.2.5}}</ref>
 
सेट <math>\mathcal{P}</math> लगभग हमेशा पैरामीटर है: <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>।सेट <math>\Theta</math> मॉडल के मापदंडों को परिभाषित करता है।आमतौर पर एक पैरामीटर की आवश्यकता होती है, जिसमें अलग -अलग पैरामीटर मान अलग -अलग वितरण को जन्म देते हैं, अर्थात्। <math>P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2</math> पकड़ना चाहिए (दूसरे शब्दों में, यह इंजेक्टिव होना चाहिए)।एक पैरामीटर जो आवश्यकता को पूरा करता है, उसे पहचानने योग्य कहा जाता है।<ref name="McCullagh" />


समहू <math>\mathcal{P}</math> लगभग हमेशा पैरामीटरयुक्त होता है: <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>। समहू <math>\Theta</math> मॉडल के मापदंडों को परिभाषित करता है। आम तौर पर अलग-अलग वितरण के लिए अलग-अलग मापदंड मान देने के लिए मानकीकरण की आवश्यकता होती है अर्थात् <math>P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2</math> आयोजित करें (दूसरे शब्दों में, यह अंतःक्षेपक होना चाहिए)। आवश्यकता को संतुष्ट करने वाले मापदंडों को अभिज्ञेय कहा जाता है।<ref name="McCullagh" />


== एक उदाहरण ==
== एक उदाहरण ==
मान लीजिए कि हमारे पास बच्चों की आबादी है, जिनकी उम्र समान रूप से, आबादी में वितरित की गई है।एक बच्चे की ऊंचाई उम्र से संबंधित हो जाएगी: उदा।जब हम जानते हैं कि एक बच्चा 7 वर्ष का है, तो यह बच्चे को 1.5 मीटर लंबा होने की संभावना को प्रभावित करता है।हम एक रैखिक प्रतिगमन मॉडल में उस संबंध को औपचारिक रूप दे सकते हैं, इस तरह:
मान लीजिए कि हमारे पास बच्चों की आबादी है, जिसमें बच्चों की उम्र समान रूप से जनसंख्या में वितरित की जाती है। एक बच्चे की ऊंचाई, एक सुसंगत तरीके से उम्र से संबंधित होगी: उदाहरण के लिए जब हम जानते हैं कि एक बच्चा 7 साल का है, तो यह बच्चे के 1.5 मीटर लंबे होने की प्रायिकता को प्रभावित करता है। हम उस संबंध को, एक रेखीय प्रतिगमन प्रतिरूप में औपचारिक रूप दे सकते हैं, जैसे: ऊँचाई<sub>''i''</sub> = b<sub>0</sub> + b<sub>1</sub> आयु<sub>i</sub> + ε<sub>''i''</sub>, जहाँ b<sub>0</sub> अवरोधन है, b<sub>1</sub> ऊँचाई का अनुमान प्राप्त करने के लिए आयु से गुणा किया जाने वाला एक मापदंड है,ε<sub>''i''</sub> त्रुटि शब्द है, और ''i'' बच्चे की पहचान है। इसका मतलब है कि ऊंचाई का अनुमान उम्र के हिसाब से लगाया जाता है, जिसमें कुछ त्रुटि है।
कद<sub>''i''</sub>& nbsp; = b<sub>0</sub>& nbsp;+ b<sub>1</sub>आयु<sub>''i''</sub>& nbsp;+ ε<sub>''i''</sub>, जहां बी<sub>0</sub> इंटरसेप्ट है, बी<sub>1</sub> एक पैरामीटर है कि उम्र की भविष्यवाणी प्राप्त करने के लिए आयु को गुणा किया जाता है, ε<sub>''i''</sub> त्रुटि शब्द है, और मैं बच्चे की पहचान करता हूं।इसका तात्पर्य यह है कि ऊँचाई की भविष्यवाणी उम्र से होती है, कुछ त्रुटि के साथ।


एक स्वीकार्य मॉडल सभी डेटा बिंदुओं के अनुरूप होना चाहिए।इस प्रकार, एक सीधी रेखा (ऊंचाई)<sub>''i''</sub>& nbsp; = b<sub>0</sub>& nbsp;+ b<sub>1</sub>आयु<sub>''i''</sub>) डेटा के एक मॉडल के लिए समीकरण नहीं हो सकता है - जब तक कि यह सभी डेटा बिंदुओं को बिल्कुल फिट नहीं करता है, यानी सभी डेटा बिंदु लाइन पर पूरी तरह से झूठ बोलते हैं।त्रुटि शब्द, ε<sub>''i''</sub>, समीकरण में शामिल किया जाना चाहिए, ताकि मॉडल सभी डेटा बिंदुओं के अनुरूप हो।
एक स्वीकार्य प्रतिरूप सभी आँकड़ा अंको पर सुसंगत होना चाहिए। इस प्रकार, एक सीधी रेखा (ऊंचाई <sub>''i''</sub> = b<sub>0</sub> + b<sub>1</sub> आयु<sub>''i''</sub>) आंकड़ों के प्रतिरूप के लिए एक समीकरण नहीं हो सकती है - जब तक कि यह सभी आँकड़ा अंको पर संपूर्ण योग्य न हो, अर्थात सभी आँकड़ा अंक पूरी तरह से रेखा पर हों। त्रुटि शब्द, ε<sub>''i''</sub>, को समीकरण में शामिल किया जाना चाहिए ताकि प्रतिरूप सभी आँकड़ा अंको में सुसंगत हो।


सांख्यिकीय निष्कर्ष करने के लिए, हमें पहले ε के लिए कुछ संभावना वितरण मानने की आवश्यकता होगी<sub>''i''</sub>।उदाहरण के लिए, हम मान सकते हैं कि ε<sub>''i''</sub> वितरण II.D.गॉसियन, शून्य माध्य के साथ।इस उदाहरण में, मॉडल में 3 पैरामीटर होंगे: बी<sub>0</sub>, बी<sub>1</sub>, और गाऊसी वितरण का विचरण।
एक सांख्यिकीय निष्कर्ष निकालने के लिए, हमें सबसे पहले ε<sub>''i''</sub> के लिए कुछ प्रायिकता वितरण मान लेना चाहिए। उदाहरण के लिए, हम मान सकते हैं कि ε<sub>''i''</sub> वितरण i.i.d गाऊसी (Gaussian), शून्य, माध्य के साथ। इस उदाहरण में, प्रतिरूप के तीन मतपदंड होंगे: b<sub>0</sub>, b<sub>1</sub>, और गाऊसी वितरण का प्रसरण।


हम औपचारिक रूप से मॉडल को फॉर्म में निर्दिष्ट कर सकते हैं (<math>S, \mathcal{P}</math>) निम्नलिखित नुसार।नमूना स्थान, <math>S</math>, हमारे मॉडल में सभी संभावित जोड़े (उम्र, ऊंचाई) का सेट शामिल है।का प्रत्येक संभावित मूल्य <math>\theta</math>& nbsp; = (बी<sub>0</sub>, बी<sub>1</sub>, और सिग्मा;<sup>2 </sup>) पर एक वितरण निर्धारित करता है <math>S</math>;उस वितरण को निरूपित करें <math>P_{\theta}</math>।यदि <math>\Theta</math> के सभी संभावित मूल्यों का सेट है <math>\theta</math>, फिर <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>(मानकीकरण पहचान योग्य है, और यह जांच करना आसान है।)
हम औपचारिक रूप से (<math>S, \mathcal{P}</math>) में एक प्रतिरूप को निम्नानुसार निर्दिष्ट कर सकते हैं। हमारे प्रतिरूप के प्रतिदर्श समष्टि <math>S</math> में सभी संभावित जोड़े (आयु, ऊंचाई) का समुच्चय होता है। <math>\theta</math> = (''b''<sub>0</sub>, ''b''<sub>1</sub>, ''σ''<sup>2</sup>) का प्रत्येक संभावित मान <math>S</math> पर एक वितरण निर्धारित करता है जिसे <math>P_{\theta}</math> द्वारा दर्शाया जाता है। यदि <math>\Theta</math>, <math>\theta</math> के सभी संभावित मानों का समुच्चय है, तो <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>है। (मानकीकरण पहचानने योग्य है, और इसकी जाँच करना आसान है।)


इस उदाहरण में, मॉडल (1) निर्दिष्ट करने से निर्धारित होता है <math>S</math> और (2) कुछ धारणाओं को प्रासंगिक बनाना <math>\mathcal{P}</math>।दो धारणाएं हैं: उस ऊंचाई को उम्र के एक रैखिक कार्य द्वारा अनुमानित किया जा सकता है;सन्निकटन में त्रुटियों को i.i.d के रूप में वितरित किया जाता है।गाऊसी।धारणाएं निर्दिष्ट करने के लिए पर्याप्त हैं <math>\mathcal{P}</math>& mdash; जैसा कि उन्हें करना आवश्यक है।
इस उदाहरण में, मॉडल का निर्धारण (1) <math>S</math> को निर्दिष्ट करके और (2) कुछ मान्यताओं को <math>\mathcal{P}</math> के लिए प्रासंगिक बनाते हुए किया जाता है।दो परिकल्पनाएं हैं: उस ऊंचाई का अनुमान उम्र के एक रैखिक कार्य से लगाया जा सकता है; सन्निकटन में त्रुटियाँ i.i.d गाऊसी के रूप में वितरित की जाती हैं। <math>\mathcal{P}</math> को निर्दिष्ट करने के लिए सन्निकटन पर्याप्त हैं - जैसा कि उन्हें करने की आवश्यकता है।  


== सामान्य टिप्पणी ==
== सामान्य टिप्पणी ==
एक सांख्यिकीय मॉडल गणितीय मॉडल का एक विशेष वर्ग है। एक सांख्यिकीय मॉडल को अन्य गणितीय मॉडल से अलग करता है कि एक सांख्यिकीय मॉडल गैर-नियतात्मक है। इस प्रकार, गणितीय समीकरणों के माध्यम से निर्दिष्ट एक सांख्यिकीय मॉडल में, कुछ चर में विशिष्ट मूल्य नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; यानी कुछ चर स्टोकेस्टिक हैं। बच्चों की ऊंचाइयों के साथ उपरोक्त उदाहरण में, ε एक स्टोकेस्टिक चर है; उस स्टोकेस्टिक चर के बिना, मॉडल नियतात्मक होगा।
सांख्यिकी प्रतिरूप, गणितीय प्रतिरूप का एक विशेष वर्ग होता है। जो एक सांख्यिकीय प्रतिरूप को अन्य गणितीय प्रतिरूपों से अलग करता है, वह यह है कि एक सांख्यिकीय प्रतिरूप गैर-नियतात्मक होता है। इस प्रकार, गणितीय समीकरणों के माध्यम से निर्दिष्ट एक सांख्यिकीय प्रतिरूप में, कुछ चर के विशिष्ट मान नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; यानी कुछ चर स्टोकेस्टिक (stochastic) हैं। उपरोक्त उदाहरण में बच्चों की लंबाई के साथ ε एक स्टोकेस्टिक चर है; उस स्टोकेस्टिक चर के बिना, प्रतिरूप नियतात्मक होगा।


सांख्यिकीय मॉडल का उपयोग अक्सर तब भी किया जाता है जब डेटा-जनरेटिंग प्रक्रिया मॉडलिंग की जा रही है, नियतात्मक है। उदाहरण के लिए, सिक्का टॉसिंग, सिद्धांत रूप में, एक नियतात्मक प्रक्रिया है; फिर भी यह आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।
सांख्यिकीय प्रतिरूप  का उपयोग अक्सर तब भी किया जाता है, जब प्रतिरूपित किए जा रहे आंकड़े को उत्पन्न करने की प्रक्रिया नियतात्मक होती है। उदाहरण के लिए, एक सिक्के को उछालना सिद्धांत रूप में एक नियतात्मक प्रक्रिया है; फिर भी यह आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।


किसी दिए गए डेटा-जनरेटिंग प्रक्रिया का प्रतिनिधित्व करने के लिए एक उपयुक्त सांख्यिकीय मॉडल का चयन करना कभी-कभी बेहद कठिन होता है, और प्रक्रिया और प्रासंगिक सांख्यिकीय विश्लेषण दोनों के ज्ञान की आवश्यकता हो सकती है। संबंधित रूप से, सांख्यिकीविद् सर डेविड कॉक्स ने कहा है, कैसे [] विषय-वस्तु समस्या से सांख्यिकीय मॉडल में अनुवाद किया जाता है, अक्सर एक विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है।<ref>{{Harvnb | Cox | 2006 | page=197}}</ref>
किसी दिए गए आंकड़े उत्त्पन्न करने की प्रक्रिया का प्रतिनिधित्व करने के लिए उपयुक्त सांख्यिकीय प्रतिरूप का चयन करना कभी-कभी बेहद मुश्किल होता है, और प्रक्रिया और प्रासंगिक सांख्यिकीय विश्लेषण दोनों के ज्ञान की आवश्यकता हो सकती है। संबंधित रूप से, जैसा कि सांख्यिकीविद् सर डेविड कॉक्स (Sir David Cox) ने कहा है, "किसी विषय-वस्तु की समस्या से सांख्यिकीय प्रतिरूप में अनुवाद कैसे किया जाता है, यह अक्सर विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है"।<ref>{{Harvnb | Cox | 2006 | page=197}}</ref>  
कोनिशी & nbsp; & kitagawa के अनुसार, एक सांख्यिकीय मॉडल के लिए तीन उद्देश्य हैं।<ref>{{Harvnb | Konishi | Kitagawa | 2008 | loc= §1.1}}</ref>
 
*भविष्यवाणियां
कोनिशी और कितागावा के अनुसार, सांख्यिकीय प्रतिरूप के तीन उद्देश्य होते हैं।<ref>{{Harvnb | Konishi | Kitagawa | 2008 | loc= §1.1}}</ref>
*जानकारी का निष्कर्षण
*पूर्वानुमान
*सूचना निष्कर्षण
*स्टोकेस्टिक संरचनाओं का विवरण
*स्टोकेस्टिक संरचनाओं का विवरण
वे तीन उद्देश्य अनिवार्य रूप से दोस्ताना & nbsp; & meyer: भविष्यवाणी, अनुमान, विवरण द्वारा इंगित तीन उद्देश्यों के समान हैं।<ref>{{Harvnb| Friendly| Meyer | 2016| loc= §11.6}}</ref> तीन उद्देश्य तीन प्रकार के तार्किक तर्क के साथ मेल खाते हैं: कटौतीत्मक तर्क, आगमनात्मक तर्क, अपहरण तर्क।
वे तीन उद्देश्य अनिवार्य रूप से, मित्रवत और मेयर द्वारा बताए गए तीन उद्देश्यों के समान हैं: पूर्वानुमान, अनुमान और विवरण।<ref>{{Harvnb| Friendly| Meyer | 2016| loc= §11.6}}</ref>  


== एक मॉडल का आयाम ==
तीन उद्देश्य तीन प्रकार के तार्किक तर्क के अनुरूप हैं: निगमनात्मक तर्क, आगमनात्मक तर्क और निगमनात्मक तर्क।
मान लीजिए कि हमारे पास एक सांख्यिकीय मॉडल है (<math>S, \mathcal{P}</math>) साथ <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>।मॉडल को पैरामीट्रिक कहा जाता है <math>\Theta</math> एक परिमित आयाम है।संकेतन में, हम यह लिखते हैं <math>\Theta \subseteq \mathbb{R}^k</math> कहाँ पे {{mvar|k}} एक सकारात्मक पूर्णांक है (<math>\mathbb{R}</math> वास्तविक संख्याओं को दर्शाता है;अन्य सेटों का उपयोग किया जा सकता है, सिद्धांत रूप में)।यहां, {{mvar|k}} मॉडल का आयाम कहा जाता है।


एक उदाहरण के रूप में, यदि हम मानते हैं कि डेटा एक अविभाज्य गौसियन वितरण से उत्पन्न होता है, तो हम यह मान रहे हैं कि
== प्रतिरूप का आयाम ==
मान लीजिए कि हमारे पास एक सांख्यिकीय प्रतिरूप (<math>S, \mathcal{P}</math>) है जिसमें <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>। प्प्रतिरूप को पैरामीट्रिक कहा जाता है यदि <math>\Theta</math> एक परिमित आयाम है। संकेतन में, हम यह लिखते हैं <math>\Theta \subseteq \mathbb{R}^k</math> जहां पे {{mvar|k}} एक सकारात्मक पूर्णांक है (<math>\mathbb{R}</math> वास्तविक संख्याओं को दर्शाता है;अन्य समुच्चयों का उपयोग किया जा सकता है, सिद्धांत रूप में) यहां, {{mvar|k}} को मॉडल की विमाएँ कहते हैं।
 
एक उदाहरण के रूप में, यदि हम मानते हैं कि यह आंकड़ा एक अविभाज्य गॉसियन वितरण से उत्पन्न होता है, तो हम यह मान रहे हैं कि
:<math>\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}</math>।
:<math>\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}</math>।
इस उदाहरण में, आयाम, {{mvar|k}}, 2 बराबर है।
इस उदाहरण में, आयाम, {{mvar|k}}, 2 बराबर है।


एक अन्य उदाहरण के रूप में, मान लीजिए कि डेटा में अंक होते हैं ({{mvar|x}}, {{mvar|y}}) कि हम मानते हैं कि I.I.D के साथ एक सीधी रेखा के अनुसार वितरित किए जाते हैं।गाऊसी अवशिष्ट (शून्य माध्य के साथ): यह उसी सांख्यिकीय मॉडल की ओर जाता है जैसा कि बच्चों की ऊंचाइयों के साथ उदाहरण में उपयोग किया गया था।सांख्यिकीय मॉडल का आयाम 3 है: रेखा का अवरोधन, रेखा का ढलान और अवशिष्ट के वितरण का विचरण।(ध्यान दें कि ज्यामिति में, एक सीधी रेखा का आयाम 1. है)
एक अन्य उदाहरण के रूप में, मान लें कि डेटा में ऐसे बिंदु (x, y) होते हैं जो हमें लगता है कि i.i.d। गाऊसी अवशिष्ट (शून्य साधनों के साथ) के साथ एक सीधी रेखा के साथ वितरित किए जाते हैं: यह वही सांख्यिकीय है जो प्रतिरूप की ओर जाता है जैसा कि बच्चों की ऊंचाई के उदाहरण में उपयोग किया जाता है।सांख्यिकीय प्रतिरूप का आयाम 3 है: रेखा का अवरोधन, रेखा का ढलान और अवशिष्ट वितरण का विचरण। (ध्यान दें कि ज्यामिति में एक सीधी रेखा का एक आयाम होता है।)


हालांकि औपचारिक रूप से <math>\theta \in \Theta</math> एक एकल पैरामीटर है जिसमें आयाम है {{mvar|k}}, इसे कभी -कभी शामिल माना जाता है {{mvar|k}} अलग -अलग पैरामीटर।उदाहरण के लिए, यूनीवेट गॉसियन वितरण के साथ, <math>\theta</math> औपचारिक रूप से आयाम 2 के साथ एक एकल पैरामीटर है, लेकिन इसे कभी -कभी 2 अलग -अलग मापदंडों के रूप में माना जाता है - माध्य और मानक विचलन।
यद्यपि औपचारिक रूप से <math>\theta \in \Theta</math> आयाम ''k'' का एक एकल मापदंड है, इसे कभी-कभी ''k'' अलग मापदंड के रूप में माना जाता है। उदाहरण के लिए, एक अविभाज्य गाऊसी वितरण के साथ, <math>\theta</math> औपचारिक रूप से आयाम 2 के साथ एक एकल मापदंड है, लेकिन इसे कभी-कभी 2 अलग-अलग मापदंडों के रूप में माना जाता है - माध्य और मानक विचलन।


एक सांख्यिकीय मॉडल nonparametric सांख्यिकी है#गैर-पैरामीट्रिक मॉडल | पैरामीटर सेट यदि गैर-पैरामीट्रिक <math>\Theta</math> अनंत आयामी है।एक सांख्यिकीय मॉडल सेमीपेरामेट्रिक है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों पैरामीटर हैं।औपचारिक रूप से, अगर {{mvar|k}} का आयाम है <math>\Theta</math> तथा {{mvar|n}} नमूनों की संख्या है, दोनों सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल हैं <math>k \rightarrow \infty</math> जैसा <math>n \rightarrow \infty</math>।यदि <math>k/n \rightarrow 0</math> जैसा <math>n \rightarrow \infty</math>, फिर मॉडल सेमीपेरामेट्रिक है;अन्यथा, मॉडल नॉनपैमेट्रिक है।
एक सांख्यिकीय प्रतिरूप गैर-पैरामीट्रिक <math>\Theta</math> होता है यदि मापदंड सेट टी अनंत-आयामी है। एक सांख्यिकीय प्रतिरूप अर्धपैरामीट्रिक है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों मापदंड शामिल हैं। औपचारिक रूप से, अगर {{mvar|k}} का आयाम है <math>\Theta</math> तथा {{mvar|n}} नमूनों की संख्या है, दोनों अर्धपैरामीट्रिक और गैर-पैरामीट्रिक प्रतिरूप हैं <math>k \rightarrow \infty</math> जैसा <math>n \rightarrow \infty</math> यदि <math>k/n \rightarrow 0</math> जैसा <math>n \rightarrow \infty</math>, तो प्रतिरूप अर्ध-पैरामीट्रिक है अन्यथा, प्रतिरूप  गैर-पैरामीट्रिक है।
 
पैरामीट्रिक मॉडल अब तक सबसे अधिक इस्तेमाल किए जाने वाले सांख्यिकीय मॉडल हैं।सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल के बारे में, सर डेविड कॉक्स ने कहा है, इनमें आमतौर पर संरचना और वितरण के रूप में कम धारणाएं शामिल होती हैं, लेकिन आमतौर पर स्वतंत्रता के बारे में मजबूत धारणाएं होती हैं।<ref>{{Harvnb | Cox | 2006 | page=2}}</ref>


पैरामीट्रिक प्रतिरूप अब तक का सबसे अधिक इस्तेमाल किया जाने वाला सांख्यिकीय प्रतिरूप है। अर्धपैरामीट्रिक और गैर-पैरामीट्रिक प्रतिरूप के बारे में, सर डेविड कॉक्स ने कहा है, "इनमें आम तौर पर संरचना और वितरण रूप की कम धारणाएं शामिल होती हैं लेकिन आम तौर पर स्वतंत्रता के बारे में मजबूत धारणाएं होती हैं"।<ref>{{Harvnb | Cox | 2006 | page=2}}</ref>


== नेस्टेड मॉडल ==
== नेस्टेड मॉडल ==
{{distinguish|Multilevel models|}}
{{distinguish|Multilevel models|}}
दो सांख्यिकीय मॉडल नेस्टेड हैं यदि पहले मॉडल को पहले मॉडल के मापदंडों पर बाधाओं को लागू करके दूसरे मॉडल में बदल दिया जा सकता है।एक उदाहरण के रूप में, सभी गौसियन वितरणों का सेट, इसके भीतर नेस्टेड है, शून्य-मीन गौसियन वितरण का सेट: हम शून्य-मीन वितरण प्राप्त करने के लिए सभी गाऊसी वितरण के सेट में माध्य को बाधित करते हैं।एक दूसरे उदाहरण के रूप में, द्विघात मॉडल
दो सांख्यिकीय प्रतिरूप '''स्थिर''' हैं, यदि पहले प्रतिरूप को पहले प्रतिरूप के मापदंडों पर प्रतिबंध लगाकर दूसरे प्रतिरूप में बदला जा सकता है। एक उदाहरण के रूप में, सभी गाऊसी वितरणों के सेट में, शून्य-माध्य गाऊसी वितरण का समुच्चय निहित है: हम शून्य-माध्य वितरण प्राप्त करने के लिए सभी गाऊसी वितरणों के समुच्चय तक माध्य को सीमित करते हैं। एक उदाहरण के रूप में, द्विघात मॉडलैं।
:{{math|''y''&nbsp;{{=}} ''b''<sub>0</sub>&nbsp;+ ''b''<sub>1</sub>''x''&nbsp;+ ''b''<sub>2</sub>''x''<sup>2</sup>&nbsp;+ ε,&nbsp; &nbsp; ε&nbsp;~ 𝒩(0, ''σ''<sup>2</sup>)}} इसके भीतर नेस्टेड है, रैखिक मॉडल
:{{math|''y''&nbsp;{{=}} ''b''<sub>0</sub>&nbsp;+ ''b''<sub>1</sub>''x''&nbsp;+ ''b''<sub>2</sub>''x''<sup>2</sup>&nbsp;+ ε,&nbsp; &nbsp; ε&nbsp;~ 𝒩(0, ''σ''<sup>2</sup>)}}  
:इसके भीतर निहित रैखिक प्रतिरूप है
:{{math|''y''&nbsp;{{=}} ''b''<sub>0</sub>&nbsp;+ ''b''<sub>1</sub>''x''&nbsp;+ ε,&nbsp; &nbsp; ε&nbsp;~ 𝒩(0, ''σ''<sup>2</sup>)}}
:{{math|''y''&nbsp;{{=}} ''b''<sub>0</sub>&nbsp;+ ''b''<sub>1</sub>''x''&nbsp;+ ε,&nbsp; &nbsp; ε&nbsp;~ 𝒩(0, ''σ''<sup>2</sup>)}}
-हम पैरामीटर को विवश करते हैं {{math|''b''<sub>2</sub>}} के बराबर 0।
मापदंड {{math|''b''<sub>2</sub>}} को 0 होने के लिए बाध्य करते हैं।


उन दोनों उदाहरणों में, पहले मॉडल में दूसरे मॉडल की तुलना में अधिक आयाम होता है (पहले उदाहरण के लिए, शून्य-मीन मॉडल में आयाम & nbsp; 1) होता है।ऐसा अक्सर होता है, लेकिन हमेशा नहीं, मामला।एक अलग उदाहरण के रूप में, पॉजिटिव-मीन गौसियन वितरण का सेट, जिसमें आयाम 2 है, सभी गौसियन वितरण के सेट के भीतर नेस्टेड है।
उन दोनों उदाहरणों में, पहले प्रतिरूप का आयाम दूसरे प्रतिरूप की तुलना में अधिक है (पहले उदाहरण के लिए, शून्य-माध्य प्रतिरूप का आयाम 1 है)। ऐसा अक्सर होता है, लेकिन हमेशा नहीं। एक अलग उदाहरण के रूप में, सकारात्मक-माध्य गाऊसी वितरण का समुच्चय, जिसका आयाम 2 है, सभी गाऊसी वितरणों के समुच्चय के भीतर समाहित है।


== मॉडल की तुलना ==
== प्रतिरूप की तुलना ==
{{See also | Statistical model selection}}
{{See also | Statistical model selection}}
सांख्यिकीय मॉडल की तुलना सांख्यिकीय अनुमान के अधिकांश के लिए मौलिक है।वास्तव में, {{Harvtxt|Konishi | Kitagawa | 2008 | page= 75}} यह बताइए: सांख्यिकीय निष्कर्ष में अधिकांश समस्याओं को सांख्यिकीय मॉडलिंग से संबंधित समस्याओं के रूप में माना जा सकता है।वे आमतौर पर कई सांख्यिकीय मॉडल की तुलना के रूप में तैयार किए जाते हैं।
सांख्यिकीय प्रतिरूप की तुलना, सांख्यिकीय अनुमान के लिए मौलिक है। दरअसल, कोनिशी और कितागावा (2008, पृष्ठ 75) यह कहते हैं: "सांख्यिकीय अनुमान में अधिकांश समस्याओं को सांख्यिकीय प्रतिरूप से संबंधित समस्याओं के रूप में माना जा सकता है। वे आम तौर पर कई सांख्यिकीय प्रतिरूपों की तुलना के रूप में तैयार किए जाते हैं।


मॉडल की तुलना करने के लिए सामान्य मानदंड में निम्नलिखित शामिल हैं: आर<sup>2 </sup>, Bayes कारक, Akaike सूचना मानदंड, और संभावना-अनुपात परीक्षण इसके सामान्यीकरण, सापेक्ष संभावना के साथ।
प्रतिरूप की तुलना करने के लिए, सामान्य मानदंडों में निम्नलिखित शामिल हैं: ''R''<sup>2</sup> ,बेयस कारक (Bayes factor,), एकाइके सूचना मानदंड (Akaike information criterion), और इसके सामान्यीकरण, सापेक्ष संभावना के साथ संभाव्यता-अनुपात परीक्षण।


== यह भी देखें ==
== यह भी देखें ==
Line 125: Line 125:


]
]
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category:Articles with short description]]
[[Category:Collapse templates]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Multi-column templates]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages using div col with small parameter]]
[[Category:Pages with empty portal template]]
[[Category:Pages with script errors]]
[[Category:Portal-inline template with redlinked portals]]
[[Category:Short description with empty Wikidata description]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Templates using under-protected Lua modules]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:Wikipedia metatemplates]]

Latest revision as of 10:05, 4 September 2023

सांख्यिकीय प्रतिरूप, एक गणितीय प्रतिरूप है जो प्रतिरूप आँकड़े (और एक बड़ी आबादी से समान आँकड़े) की पीढ़ी से संबंधित सांख्यिकीय मान्यताओं के एक समुच्चय का प्रतीक है। एक सांख्यिकीय प्रतिरूप, अक्सर पर्याप्त आदर्श रूप से, आंकड़े उत्पन्न करना की प्रक्रिया का प्रतिनिधित्व करता है।[1] एक सांख्यिकीय प्रतिरूप को आमतौर पर एक या अधिक यादृच्छिक चर और अन्य गैर-यादृच्छिक चर के बीच गणितीय संबंध के रूप में निर्दिष्ट किया जाता है। जैसे, सांख्यिकीय प्रतिरूप एक "सिद्धांत का औपचारिक प्रतिनिधित्व" है। (केनेथ बोलन द्वारा उद्धृत हरमन एडर)।[2] सांख्यिकीय प्रतिरूपण के माध्यम से सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमानक प्राप्त किए जाते हैं। आम तौर पर, सांख्यिकीय प्रतिरूप सांख्यिकीय अनुमान के आधार का हिस्सा होते हैं।

परिचय

अनौपचारिक रूप से, एक सांख्यिकीय प्रतिरूप को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं का समुच्चय) के रूप में माना जा सकता है: यह धारणा, हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है। एक उदाहरण के रूप में, साधारण छह-पक्षीय वाले पासों के एक जोड़े पर विचार करें। हम पासे के बारे में दो भिन्न सांख्यिकीय मान्यताओं का अध्ययन करेंगे।

पहली सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, प्रत्येक पक्ष (1, 2, 3, 4, 5, और 6) के आने की 1/6 संभावना है। उस धारणा से, हम इस संभावना की गणना कर सकते हैं कि दोनों पासे 5:  1/6 × 1/6 = 1/36 के रूप में निकलेंगे। सामान्य तौर पर, हम किसी भी घटना की संभावना की गणना कर सकते हैं: उदाहरण (1 और 2) या (3 और 3) या (5 और 6)।

वैकल्पिक सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, एक फलक 5 प्राप्त करने की प्रायिकता 1/8 है (चूंकि पासों को भारित किया जाता है)। उस धारणा से, हम इस प्रायिकता की गणना कर सकते हैं कि दोनों पासे 5:  1/8 × 1/8 = 1/64 के रूप में निकलेंगे। यद्यपि, हम किसी अन्य गैर महत्वहीन घटना की प्रायिकता की गणना नहीं कर सकते, क्योंकि अन्य पक्षों की प्रायिकताएँ अज्ञात हैं।

पहली सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप बनाती है: क्योंकि केवल धारणा के साथ, हम किसी भी घटना की संभावना की गणना कर सकते हैं। वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप नहीं बनाती है: क्योंकि केवल धारणा के साथ, हम प्रत्येक घटना की संभावना की गणना नहीं कर सकते हैं।

उपरोक्त उदाहरण में, पहली धारणा के साथ, किसी घटना की प्रायिकता की गणना करना आसान है। हालांकि, जैसा कि कुछ अन्य उदाहरणों में होता है, गणना कठिन या अव्यवहारिक हो सकती है (उदाहरण के लिए गणना के लाखों वर्षों की आवश्यकता हो सकती है)। एक सांख्यिकीय प्रतिरूप के निर्माण की धारणा के लिए, ऐसी कठिनाई स्वीकार्य है: गणना का व्यावहारिक होना जरूरी नहीं है, केवल सैद्धांतिक रूप से संभव है।

औपचारिक परिभाषा

गणितीय शब्दों में, एक सांख्यिकीय प्रतिरूप को आमतौर पर एक जोड़ी (), के रूप में माना जाता है, जहां संभावित अवलोकनों का समहू है, यानी प्रतिदर्श समष्टि और , पर प्रायिकता वितरण का एक समुच्चय है।[3] इस परिभाषा के पीछे का भाव इस प्रकार है। यह माना जाता है कि देखे गए आंकड़ों में "सत्य" प्रयायिकता वितरण होता है जो उत्पादन प्रक्रिया द्वारा नियंत्रित होता है। हम एक समुच्चय (वितरण के) का प्रतिनिधित्व करने के लिए चुनते हैं, जिसमें एक वितरण है जो पर्याप्त रूप से सही वितरण का अनुमान लगाता है।

ध्यान दें कि हमें इसकी आवश्यकता नहीं है कि का पूर्ण वितरण हो, और व्यवहार में ऐसा बहुत कम होता है। वास्तव में, जैसा कि बर्नहैम एंड एंडरसन कहते हैं, "एक प्रतिरूप वास्तविकता का एक सरलीकरण या अनुमान है और इसलिए सभी वास्तविकता को प्रतिबिंबित नहीं करेगा" इसलिए कहावत "सभी प्रतिरूप गलत हैं"।[4]

समहू लगभग हमेशा पैरामीटरयुक्त होता है: । समहू मॉडल के मापदंडों को परिभाषित करता है। आम तौर पर अलग-अलग वितरण के लिए अलग-अलग मापदंड मान देने के लिए मानकीकरण की आवश्यकता होती है अर्थात् आयोजित करें (दूसरे शब्दों में, यह अंतःक्षेपक होना चाहिए)। आवश्यकता को संतुष्ट करने वाले मापदंडों को अभिज्ञेय कहा जाता है।[3]

एक उदाहरण

मान लीजिए कि हमारे पास बच्चों की आबादी है, जिसमें बच्चों की उम्र समान रूप से जनसंख्या में वितरित की जाती है। एक बच्चे की ऊंचाई, एक सुसंगत तरीके से उम्र से संबंधित होगी: उदाहरण के लिए जब हम जानते हैं कि एक बच्चा 7 साल का है, तो यह बच्चे के 1.5 मीटर लंबे होने की प्रायिकता को प्रभावित करता है। हम उस संबंध को, एक रेखीय प्रतिगमन प्रतिरूप में औपचारिक रूप दे सकते हैं, जैसे: ऊँचाईi = b0 + b1 आयुi + εi, जहाँ b0 अवरोधन है, b1 ऊँचाई का अनुमान प्राप्त करने के लिए आयु से गुणा किया जाने वाला एक मापदंड है,εi त्रुटि शब्द है, और i बच्चे की पहचान है। इसका मतलब है कि ऊंचाई का अनुमान उम्र के हिसाब से लगाया जाता है, जिसमें कुछ त्रुटि है।

एक स्वीकार्य प्रतिरूप सभी आँकड़ा अंको पर सुसंगत होना चाहिए। इस प्रकार, एक सीधी रेखा (ऊंचाई i = b0 + b1 आयुi) आंकड़ों के प्रतिरूप के लिए एक समीकरण नहीं हो सकती है - जब तक कि यह सभी आँकड़ा अंको पर संपूर्ण योग्य न हो, अर्थात सभी आँकड़ा अंक पूरी तरह से रेखा पर हों। त्रुटि शब्द, εi, को समीकरण में शामिल किया जाना चाहिए ताकि प्रतिरूप सभी आँकड़ा अंको में सुसंगत हो।

एक सांख्यिकीय निष्कर्ष निकालने के लिए, हमें सबसे पहले εi के लिए कुछ प्रायिकता वितरण मान लेना चाहिए। उदाहरण के लिए, हम मान सकते हैं कि εi वितरण i.i.d गाऊसी (Gaussian), शून्य, माध्य के साथ। इस उदाहरण में, प्रतिरूप के तीन मतपदंड होंगे: b0, b1, और गाऊसी वितरण का प्रसरण।

हम औपचारिक रूप से () में एक प्रतिरूप को निम्नानुसार निर्दिष्ट कर सकते हैं। हमारे प्रतिरूप के प्रतिदर्श समष्टि में सभी संभावित जोड़े (आयु, ऊंचाई) का समुच्चय होता है। = (b0, b1, σ2) का प्रत्येक संभावित मान पर एक वितरण निर्धारित करता है जिसे द्वारा दर्शाया जाता है। यदि , के सभी संभावित मानों का समुच्चय है, तो है। (मानकीकरण पहचानने योग्य है, और इसकी जाँच करना आसान है।)

इस उदाहरण में, मॉडल का निर्धारण (1) को निर्दिष्ट करके और (2) कुछ मान्यताओं को के लिए प्रासंगिक बनाते हुए किया जाता है।दो परिकल्पनाएं हैं: उस ऊंचाई का अनुमान उम्र के एक रैखिक कार्य से लगाया जा सकता है; सन्निकटन में त्रुटियाँ i.i.d गाऊसी के रूप में वितरित की जाती हैं। को निर्दिष्ट करने के लिए सन्निकटन पर्याप्त हैं - जैसा कि उन्हें करने की आवश्यकता है।

सामान्य टिप्पणी

सांख्यिकी प्रतिरूप, गणितीय प्रतिरूप का एक विशेष वर्ग होता है। जो एक सांख्यिकीय प्रतिरूप को अन्य गणितीय प्रतिरूपों से अलग करता है, वह यह है कि एक सांख्यिकीय प्रतिरूप गैर-नियतात्मक होता है। इस प्रकार, गणितीय समीकरणों के माध्यम से निर्दिष्ट एक सांख्यिकीय प्रतिरूप में, कुछ चर के विशिष्ट मान नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; यानी कुछ चर स्टोकेस्टिक (stochastic) हैं। उपरोक्त उदाहरण में बच्चों की लंबाई के साथ ε एक स्टोकेस्टिक चर है; उस स्टोकेस्टिक चर के बिना, प्रतिरूप नियतात्मक होगा।

सांख्यिकीय प्रतिरूप  का उपयोग अक्सर तब भी किया जाता है, जब प्रतिरूपित किए जा रहे आंकड़े को उत्पन्न करने की प्रक्रिया नियतात्मक होती है। उदाहरण के लिए, एक सिक्के को उछालना सिद्धांत रूप में एक नियतात्मक प्रक्रिया है; फिर भी यह आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।

किसी दिए गए आंकड़े उत्त्पन्न करने की प्रक्रिया का प्रतिनिधित्व करने के लिए उपयुक्त सांख्यिकीय प्रतिरूप का चयन करना कभी-कभी बेहद मुश्किल होता है, और प्रक्रिया और प्रासंगिक सांख्यिकीय विश्लेषण दोनों के ज्ञान की आवश्यकता हो सकती है। संबंधित रूप से, जैसा कि सांख्यिकीविद् सर डेविड कॉक्स (Sir David Cox) ने कहा है, "किसी विषय-वस्तु की समस्या से सांख्यिकीय प्रतिरूप में अनुवाद कैसे किया जाता है, यह अक्सर विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है"।[5]

कोनिशी और कितागावा के अनुसार, सांख्यिकीय प्रतिरूप के तीन उद्देश्य होते हैं।[6]

  • पूर्वानुमान
  • सूचना निष्कर्षण
  • स्टोकेस्टिक संरचनाओं का विवरण

वे तीन उद्देश्य अनिवार्य रूप से, मित्रवत और मेयर द्वारा बताए गए तीन उद्देश्यों के समान हैं: पूर्वानुमान, अनुमान और विवरण।[7]

तीन उद्देश्य तीन प्रकार के तार्किक तर्क के अनुरूप हैं: निगमनात्मक तर्क, आगमनात्मक तर्क और निगमनात्मक तर्क।

प्रतिरूप का आयाम

मान लीजिए कि हमारे पास एक सांख्यिकीय प्रतिरूप () है जिसमें । प्प्रतिरूप को पैरामीट्रिक कहा जाता है यदि एक परिमित आयाम है। संकेतन में, हम यह लिखते हैं जहां पे k एक सकारात्मक पूर्णांक है ( वास्तविक संख्याओं को दर्शाता है;अन्य समुच्चयों का उपयोग किया जा सकता है, सिद्धांत रूप में) यहां, k को मॉडल की विमाएँ कहते हैं।

एक उदाहरण के रूप में, यदि हम मानते हैं कि यह आंकड़ा एक अविभाज्य गॉसियन वितरण से उत्पन्न होता है, तो हम यह मान रहे हैं कि

इस उदाहरण में, आयाम, k, 2 बराबर है।

एक अन्य उदाहरण के रूप में, मान लें कि डेटा में ऐसे बिंदु (x, y) होते हैं जो हमें लगता है कि i.i.d। गाऊसी अवशिष्ट (शून्य साधनों के साथ) के साथ एक सीधी रेखा के साथ वितरित किए जाते हैं: यह वही सांख्यिकीय है जो प्रतिरूप की ओर जाता है जैसा कि बच्चों की ऊंचाई के उदाहरण में उपयोग किया जाता है।सांख्यिकीय प्रतिरूप का आयाम 3 है: रेखा का अवरोधन, रेखा का ढलान और अवशिष्ट वितरण का विचरण। (ध्यान दें कि ज्यामिति में एक सीधी रेखा का एक आयाम होता है।)

यद्यपि औपचारिक रूप से आयाम k का एक एकल मापदंड है, इसे कभी-कभी k अलग मापदंड के रूप में माना जाता है। उदाहरण के लिए, एक अविभाज्य गाऊसी वितरण के साथ, औपचारिक रूप से आयाम 2 के साथ एक एकल मापदंड है, लेकिन इसे कभी-कभी 2 अलग-अलग मापदंडों के रूप में माना जाता है - माध्य और मानक विचलन।

एक सांख्यिकीय प्रतिरूप गैर-पैरामीट्रिक होता है यदि मापदंड सेट टी अनंत-आयामी है। एक सांख्यिकीय प्रतिरूप अर्धपैरामीट्रिक है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों मापदंड शामिल हैं। औपचारिक रूप से, अगर k का आयाम है तथा n नमूनों की संख्या है, दोनों अर्धपैरामीट्रिक और गैर-पैरामीट्रिक प्रतिरूप हैं जैसा यदि जैसा , तो प्रतिरूप अर्ध-पैरामीट्रिक है अन्यथा, प्रतिरूप गैर-पैरामीट्रिक है।

पैरामीट्रिक प्रतिरूप अब तक का सबसे अधिक इस्तेमाल किया जाने वाला सांख्यिकीय प्रतिरूप है। अर्धपैरामीट्रिक और गैर-पैरामीट्रिक प्रतिरूप के बारे में, सर डेविड कॉक्स ने कहा है, "इनमें आम तौर पर संरचना और वितरण रूप की कम धारणाएं शामिल होती हैं लेकिन आम तौर पर स्वतंत्रता के बारे में मजबूत धारणाएं होती हैं"।[8]

नेस्टेड मॉडल

दो सांख्यिकीय प्रतिरूप स्थिर हैं, यदि पहले प्रतिरूप को पहले प्रतिरूप के मापदंडों पर प्रतिबंध लगाकर दूसरे प्रतिरूप में बदला जा सकता है। एक उदाहरण के रूप में, सभी गाऊसी वितरणों के सेट में, शून्य-माध्य गाऊसी वितरण का समुच्चय निहित है: हम शून्य-माध्य वितरण प्राप्त करने के लिए सभी गाऊसी वितरणों के समुच्चय तक माध्य को सीमित करते हैं। एक उदाहरण के रूप में, द्विघात मॉडलैं।

y = b0 + b1x + b2x2 + ε,    ε ~ 𝒩(0, σ2)
इसके भीतर निहित रैखिक प्रतिरूप है
y = b0 + b1x + ε,    ε ~ 𝒩(0, σ2)

मापदंड b2 को 0 होने के लिए बाध्य करते हैं।

उन दोनों उदाहरणों में, पहले प्रतिरूप का आयाम दूसरे प्रतिरूप की तुलना में अधिक है (पहले उदाहरण के लिए, शून्य-माध्य प्रतिरूप का आयाम 1 है)। ऐसा अक्सर होता है, लेकिन हमेशा नहीं। एक अलग उदाहरण के रूप में, सकारात्मक-माध्य गाऊसी वितरण का समुच्चय, जिसका आयाम 2 है, सभी गाऊसी वितरणों के समुच्चय के भीतर समाहित है।

प्रतिरूप की तुलना

सांख्यिकीय प्रतिरूप की तुलना, सांख्यिकीय अनुमान के लिए मौलिक है। दरअसल, कोनिशी और कितागावा (2008, पृष्ठ 75) यह कहते हैं: "सांख्यिकीय अनुमान में अधिकांश समस्याओं को सांख्यिकीय प्रतिरूप से संबंधित समस्याओं के रूप में माना जा सकता है। वे आम तौर पर कई सांख्यिकीय प्रतिरूपों की तुलना के रूप में तैयार किए जाते हैं।

प्रतिरूप की तुलना करने के लिए, सामान्य मानदंडों में निम्नलिखित शामिल हैं: R2 ,बेयस कारक (Bayes factor,), एकाइके सूचना मानदंड (Akaike information criterion), और इसके सामान्यीकरण, सापेक्ष संभावना के साथ संभाव्यता-अनुपात परीक्षण।

यह भी देखें

  • सभी मॉडल गलत हैं
  • ब्लॉकमॉडल
  • संकल्पनात्मक निदर्श
  • प्रयोगों की रूप रेखा
  • नियतात्मक मॉडल
  • प्रभावी सिद्धांत
  • भविष्य कहनेवाला मॉडल
  • प्रतिक्रिया मॉडलिंग पद्धति
  • वैज्ञानिक मॉडल
  • सांख्यिकीय निष्कर्ष
  • सांख्यिकीय मॉडल विनिर्देश
  • सांख्यिकीय मॉडल सत्यापन
  • सांख्यिकीय सिद्धांत
  • अनेक संभावनाओं में से चुनी हूई प्रक्रिया


टिप्पणियाँ


संदर्भ

  • Adèr, H. J. (2008), "Modelling", in Adèr, H. J.; Mellenbergh, G. J. (eds.), Advising on Research Methods: A consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, pp. 271–304.
  • Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (2nd ed.), Springer-Verlag.
  • Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press.
  • Friendly, M.; Meyer, D. (2016), Discrete Data Analysis with R, Chapman & Hall.
  • Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer.
  • McCullagh, P. (2002), "What is a statistical model?" (PDF), Annals of Statistics, 30 (5): 1225–1310, doi:10.1214/aos/1035844977.


अग्रिम पठन


]