सांख्यिकीय प्रतिरूप

एक सांख्यिकीय मॉडल एक गणितीय मॉडल है जो नमूना डेटा की पीढ़ी (और एक बड़ी आबादी से समान डेटा) से संबंधित सांख्यिकीय मान्यताओं का एक सेट का प्रतीक है।एक सांख्यिकीय मॉडल का प्रतिनिधित्व करता है, अक्सर काफी आदर्श रूप में, डेटा-जनरेटिंग प्रक्रिया।^[1] एक सांख्यिकीय मॉडल आमतौर पर एक या अधिक यादृच्छिक चर और अन्य गैर-यादृच्छिक चर के बीच गणितीय संबंध के रूप में निर्दिष्ट किया जाता है।जैसे, एक सांख्यिकीय मॉडल एक सिद्धांत का एक औपचारिक प्रतिनिधित्व है (हरमन जे। एड्र | हरमन एड्र ने केनेथ ए। बोलेन | केनेथ बोलेन को उद्धृत किया)।^[2] सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमानक सांख्यिकीय मॉडल के माध्यम से प्राप्त होते हैं।आम तौर पर, सांख्यिकीय मॉडल सांख्यिकीय अनुमान की नींव का हिस्सा होते हैं।

परिचय

अनौपचारिक रूप से, एक सांख्यिकीय मॉडल को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं के सेट) के रूप में सोचा जा सकता है: यह धारणा हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है।एक उदाहरण के रूप में, साधारण छह-पक्षीय पासा की एक जोड़ी पर विचार करें।हम पासा के बारे में दो अलग -अलग सांख्यिकीय मान्यताओं का अध्ययन करेंगे।

पहली सांख्यिकीय धारणा यह है: प्रत्येक पासा के लिए, प्रत्येक चेहरे की संभावना (1, 2, 3, 4, 5, और 6) ऊपर आ रही है 1/6।उस धारणा से, हम 5: & thinsp के आने वाले दोनों पासा की संभावना की गणना कर सकते हैं; 1/6 × 1/6 = & nbsp;1/36. आम तौर पर, हम किसी भी घटना की संभावना की गणना कर सकते हैं: उदा।(1 और 2) या (3 और 3) या (5 और 6)।

वैकल्पिक सांख्यिकीय धारणा यह है: प्रत्येक पासा के लिए, चेहरे पर आने वाले चेहरे की संभावना है 1/8 (क्योंकि पासा पासा#लोडेड_डाइस है | भारित)।उस धारणा से, हम 5: & thinsp के आने वाले दोनों पासा की संभावना की गणना कर सकते हैं; 1/8 × 1/8 = & nbsp;1/64. हालाँकि, हम किसी भी अन्य nontrivial घटना की संभावना की गणना नहीं कर सकते हैं, क्योंकि अन्य चेहरों की संभावनाएं अज्ञात हैं।

पहली सांख्यिकीय धारणा एक सांख्यिकीय मॉडल का गठन करती है: क्योंकि अकेले धारणा के साथ, हम किसी भी घटना की संभावना की गणना कर सकते हैं।वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय मॉडल का गठन नहीं करती है: क्योंकि अकेले धारणा के साथ, हम हर घटना की संभावना की गणना नहीं कर सकते हैं।

ऊपर दिए गए उदाहरण में, पहली धारणा के साथ, किसी घटना की संभावना की गणना करना आसान है।कुछ अन्य उदाहरणों के साथ, हालांकि, गणना मुश्किल हो सकती है, या यहां तक कि अव्यवहारिक भी हो सकती है (उदाहरण के लिए इसे लाखों वर्षों की गणना की आवश्यकता हो सकती है)।एक सांख्यिकीय मॉडल का गठन करने की धारणा के लिए, इस तरह की कठिनाई स्वीकार्य है: गणना करने से व्यावहारिक होने की आवश्यकता नहीं है, बस सैद्धांतिक रूप से संभव है।

औपचारिक परिभाषा

गणितीय शब्दों में, एक सांख्यिकीय मॉडल को आमतौर पर एक जोड़ी के रूप में माना जाता है ( $S,{\mathcal {P}}$ ), कहाँ पे $S$ संभावित टिप्पणियों का सेट है, अर्थात् नमूना स्थान, और ${\mathcal {P}}$ पर संभावना वितरण का एक सेट है $S$ .^[3] इस परिभाषा के पीछे का अंतर्ज्ञान इस प्रकार है।यह माना जाता है कि इस प्रक्रिया से प्रेरित एक सच्ची संभावना वितरण है जो मनाया गया डेटा उत्पन्न करता है।हम चुनते हैं ${\mathcal {P}}$ एक सेट (वितरण के) का प्रतिनिधित्व करने के लिए जिसमें एक वितरण होता है जो पर्याप्त रूप से वास्तविक वितरण का अनुमान लगाता है।

ध्यान दें कि हमें इसकी आवश्यकता नहीं है ${\mathcal {P}}$ सच्चा वितरण शामिल है, और व्यवहार में जो शायद ही कभी होता है।दरअसल, बर्नहैम और एंडरसन स्टेट के रूप में, एक मॉडल वास्तविकता का सरलीकरण या अनुमान है और इसलिए वास्तविकता के सभी को प्रतिबिंबित नहीं करेगा^[4]& mdash; इसलिए कहावत सभी मॉडल गलत हैं।

सेट ${\mathcal {P}}$ लगभग हमेशा पैरामीटर है: ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ ।सेट $\Theta$ मॉडल के मापदंडों को परिभाषित करता है।आमतौर पर एक पैरामीटर की आवश्यकता होती है, जिसमें अलग -अलग पैरामीटर मान अलग -अलग वितरण को जन्म देते हैं, अर्थात्। $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ पकड़ना चाहिए (दूसरे शब्दों में, यह इंजेक्टिव होना चाहिए)।एक पैरामीटर जो आवश्यकता को पूरा करता है, उसे पहचानने योग्य कहा जाता है।^[3]

एक उदाहरण

मान लीजिए कि हमारे पास बच्चों की आबादी है, जिनकी उम्र समान रूप से, आबादी में वितरित की गई है।एक बच्चे की ऊंचाई उम्र से संबंधित हो जाएगी: उदा।जब हम जानते हैं कि एक बच्चा 7 वर्ष का है, तो यह बच्चे को 1.5 मीटर लंबा होने की संभावना को प्रभावित करता है।हम एक रैखिक प्रतिगमन मॉडल में उस संबंध को औपचारिक रूप दे सकते हैं, इस तरह: कद_i& nbsp; = b₀& nbsp;+ b₁आयु_i& nbsp;+ ε_i, जहां बी₀ इंटरसेप्ट है, बी₁ एक पैरामीटर है कि उम्र की भविष्यवाणी प्राप्त करने के लिए आयु को गुणा किया जाता है, ε_i त्रुटि शब्द है, और मैं बच्चे की पहचान करता हूं।इसका तात्पर्य यह है कि ऊँचाई की भविष्यवाणी उम्र से होती है, कुछ त्रुटि के साथ।

एक स्वीकार्य मॉडल सभी डेटा बिंदुओं के अनुरूप होना चाहिए।इस प्रकार, एक सीधी रेखा (ऊंचाई)_i& nbsp; = b₀& nbsp;+ b₁आयु_i) डेटा के एक मॉडल के लिए समीकरण नहीं हो सकता है - जब तक कि यह सभी डेटा बिंदुओं को बिल्कुल फिट नहीं करता है, यानी सभी डेटा बिंदु लाइन पर पूरी तरह से झूठ बोलते हैं।त्रुटि शब्द, ε_i, समीकरण में शामिल किया जाना चाहिए, ताकि मॉडल सभी डेटा बिंदुओं के अनुरूप हो।

सांख्यिकीय निष्कर्ष करने के लिए, हमें पहले ε के लिए कुछ संभावना वितरण मानने की आवश्यकता होगी_i।उदाहरण के लिए, हम मान सकते हैं कि ε_i वितरण II.D.गॉसियन, शून्य माध्य के साथ।इस उदाहरण में, मॉडल में 3 पैरामीटर होंगे: बी₀, बी₁, और गाऊसी वितरण का विचरण।

हम औपचारिक रूप से मॉडल को फॉर्म में निर्दिष्ट कर सकते हैं ( $S,{\mathcal {P}}$ ) निम्नलिखित नुसार।नमूना स्थान, $S$ , हमारे मॉडल में सभी संभावित जोड़े (उम्र, ऊंचाई) का सेट शामिल है।का प्रत्येक संभावित मूल्य $\theta$ & nbsp; = (बी₀, बी₁, और सिग्मा;²) पर एक वितरण निर्धारित करता है $S$ ;उस वितरण को निरूपित करें $P_{\theta }$ ।यदि $\Theta$ के सभी संभावित मूल्यों का सेट है $\theta$ , फिर ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ ।(मानकीकरण पहचान योग्य है, और यह जांच करना आसान है।)

इस उदाहरण में, मॉडल (1) निर्दिष्ट करने से निर्धारित होता है $S$ और (2) कुछ धारणाओं को प्रासंगिक बनाना ${\mathcal {P}}$ ।दो धारणाएं हैं: उस ऊंचाई को उम्र के एक रैखिक कार्य द्वारा अनुमानित किया जा सकता है;सन्निकटन में त्रुटियों को i.i.d के रूप में वितरित किया जाता है।गाऊसी।धारणाएं निर्दिष्ट करने के लिए पर्याप्त हैं ${\mathcal {P}}$ & mdash; जैसा कि उन्हें करना आवश्यक है।

सामान्य टिप्पणी

एक सांख्यिकीय मॉडल गणितीय मॉडल का एक विशेष वर्ग है। एक सांख्यिकीय मॉडल को अन्य गणितीय मॉडल से अलग करता है कि एक सांख्यिकीय मॉडल गैर-नियतात्मक है। इस प्रकार, गणितीय समीकरणों के माध्यम से निर्दिष्ट एक सांख्यिकीय मॉडल में, कुछ चर में विशिष्ट मूल्य नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; यानी कुछ चर स्टोकेस्टिक हैं। बच्चों की ऊंचाइयों के साथ उपरोक्त उदाहरण में, ε एक स्टोकेस्टिक चर है; उस स्टोकेस्टिक चर के बिना, मॉडल नियतात्मक होगा।

सांख्यिकीय मॉडल का उपयोग अक्सर तब भी किया जाता है जब डेटा-जनरेटिंग प्रक्रिया मॉडलिंग की जा रही है, नियतात्मक है। उदाहरण के लिए, सिक्का टॉसिंग, सिद्धांत रूप में, एक नियतात्मक प्रक्रिया है; फिर भी यह आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।

किसी दिए गए डेटा-जनरेटिंग प्रक्रिया का प्रतिनिधित्व करने के लिए एक उपयुक्त सांख्यिकीय मॉडल का चयन करना कभी-कभी बेहद कठिन होता है, और प्रक्रिया और प्रासंगिक सांख्यिकीय विश्लेषण दोनों के ज्ञान की आवश्यकता हो सकती है। संबंधित रूप से, सांख्यिकीविद् सर डेविड कॉक्स ने कहा है, कैसे [] विषय-वस्तु समस्या से सांख्यिकीय मॉडल में अनुवाद किया जाता है, अक्सर एक विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है।^[5] कोनिशी & nbsp; & kitagawa के अनुसार, एक सांख्यिकीय मॉडल के लिए तीन उद्देश्य हैं।^[6]

भविष्यवाणियां
जानकारी का निष्कर्षण
स्टोकेस्टिक संरचनाओं का विवरण

वे तीन उद्देश्य अनिवार्य रूप से दोस्ताना & nbsp; & meyer: भविष्यवाणी, अनुमान, विवरण द्वारा इंगित तीन उद्देश्यों के समान हैं।^[7] तीन उद्देश्य तीन प्रकार के तार्किक तर्क के साथ मेल खाते हैं: कटौतीत्मक तर्क, आगमनात्मक तर्क, अपहरण तर्क।

एक मॉडल का आयाम

मान लीजिए कि हमारे पास एक सांख्यिकीय मॉडल है ( $S,{\mathcal {P}}$ ) साथ ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ ।मॉडल को पैरामीट्रिक कहा जाता है $\Theta$ एक परिमित आयाम है।संकेतन में, हम यह लिखते हैं $\Theta \subseteq \mathbb {R} ^{k}$ कहाँ पे $k$ एक सकारात्मक पूर्णांक है ( $\mathbb {R}$ वास्तविक संख्याओं को दर्शाता है;अन्य सेटों का उपयोग किया जा सकता है, सिद्धांत रूप में)।यहां, $k$ मॉडल का आयाम कहा जाता है।

एक उदाहरण के रूप में, यदि हम मानते हैं कि डेटा एक अविभाज्य गौसियन वितरण से उत्पन्न होता है, तो हम यह मान रहे हैं कि

{\mathcal {P}}=\left\{P_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}

।

इस उदाहरण में, आयाम, $k$ , 2 बराबर है।

एक अन्य उदाहरण के रूप में, मान लीजिए कि डेटा में अंक होते हैं ( $x$ , $y$ ) कि हम मानते हैं कि I.I.D के साथ एक सीधी रेखा के अनुसार वितरित किए जाते हैं।गाऊसी अवशिष्ट (शून्य माध्य के साथ): यह उसी सांख्यिकीय मॉडल की ओर जाता है जैसा कि बच्चों की ऊंचाइयों के साथ उदाहरण में उपयोग किया गया था।सांख्यिकीय मॉडल का आयाम 3 है: रेखा का अवरोधन, रेखा का ढलान और अवशिष्ट के वितरण का विचरण।(ध्यान दें कि ज्यामिति में, एक सीधी रेखा का आयाम 1. है)

हालांकि औपचारिक रूप से $\theta \in \Theta$ एक एकल पैरामीटर है जिसमें आयाम है $k$ , इसे कभी -कभी शामिल माना जाता है $k$ अलग -अलग पैरामीटर।उदाहरण के लिए, यूनीवेट गॉसियन वितरण के साथ, $\theta$ औपचारिक रूप से आयाम 2 के साथ एक एकल पैरामीटर है, लेकिन इसे कभी -कभी 2 अलग -अलग मापदंडों के रूप में माना जाता है - माध्य और मानक विचलन।

एक सांख्यिकीय मॉडल nonparametric सांख्यिकी है#गैर-पैरामीट्रिक मॉडल | पैरामीटर सेट यदि गैर-पैरामीट्रिक $\Theta$ अनंत आयामी है।एक सांख्यिकीय मॉडल सेमीपेरामेट्रिक है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों पैरामीटर हैं।औपचारिक रूप से, अगर $k$ का आयाम है $\Theta$ तथा $n$ नमूनों की संख्या है, दोनों सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल हैं $k\rightarrow \infty$ जैसा $n\rightarrow \infty$ ।यदि $k/n\rightarrow 0$ जैसा $n\rightarrow \infty$ , फिर मॉडल सेमीपेरामेट्रिक है;अन्यथा, मॉडल नॉनपैमेट्रिक है।

पैरामीट्रिक मॉडल अब तक सबसे अधिक इस्तेमाल किए जाने वाले सांख्यिकीय मॉडल हैं।सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल के बारे में, सर डेविड कॉक्स ने कहा है, इनमें आमतौर पर संरचना और वितरण के रूप में कम धारणाएं शामिल होती हैं, लेकिन आमतौर पर स्वतंत्रता के बारे में मजबूत धारणाएं होती हैं।^[8]

नेस्टेड मॉडल

दो सांख्यिकीय मॉडल नेस्टेड हैं यदि पहले मॉडल को पहले मॉडल के मापदंडों पर बाधाओं को लागू करके दूसरे मॉडल में बदल दिया जा सकता है।एक उदाहरण के रूप में, सभी गौसियन वितरणों का सेट, इसके भीतर नेस्टेड है, शून्य-मीन गौसियन वितरण का सेट: हम शून्य-मीन वितरण प्राप्त करने के लिए सभी गाऊसी वितरण के सेट में माध्य को बाधित करते हैं।एक दूसरे उदाहरण के रूप में, द्विघात मॉडल

y = b 0 + b 1 x + b 2 x 2 + ε, ε ~ 𝒩(0, σ 2)

इसके भीतर नेस्टेड है, रैखिक मॉडल

y = b 0 + b 1 x + ε, ε ~ 𝒩(0, σ 2)

-हम पैरामीटर को विवश करते हैं $b 2$ के बराबर 0।

उन दोनों उदाहरणों में, पहले मॉडल में दूसरे मॉडल की तुलना में अधिक आयाम होता है (पहले उदाहरण के लिए, शून्य-मीन मॉडल में आयाम & nbsp; 1) होता है।ऐसा अक्सर होता है, लेकिन हमेशा नहीं, मामला।एक अलग उदाहरण के रूप में, पॉजिटिव-मीन गौसियन वितरण का सेट, जिसमें आयाम 2 है, सभी गौसियन वितरण के सेट के भीतर नेस्टेड है।

मॉडल की तुलना

सांख्यिकीय मॉडल की तुलना सांख्यिकीय अनुमान के अधिकांश के लिए मौलिक है।वास्तव में, Konishi & Kitagawa (2008, p. 75) यह बताइए: सांख्यिकीय निष्कर्ष में अधिकांश समस्याओं को सांख्यिकीय मॉडलिंग से संबंधित समस्याओं के रूप में माना जा सकता है।वे आमतौर पर कई सांख्यिकीय मॉडल की तुलना के रूप में तैयार किए जाते हैं।

मॉडल की तुलना करने के लिए सामान्य मानदंड में निम्नलिखित शामिल हैं: आर², Bayes कारक, Akaike सूचना मानदंड, और संभावना-अनुपात परीक्षण इसके सामान्यीकरण, सापेक्ष संभावना के साथ।

यह भी देखें

सभी मॉडल गलत हैं
ब्लॉकमॉडल
संकल्पनात्मक निदर्श
प्रयोगों की रूप रेखा
नियतात्मक मॉडल
प्रभावी सिद्धांत
भविष्य कहनेवाला मॉडल
प्रतिक्रिया मॉडलिंग पद्धति
वैज्ञानिक मॉडल
सांख्यिकीय निष्कर्ष
सांख्यिकीय मॉडल विनिर्देश
सांख्यिकीय मॉडल सत्यापन
सांख्यिकीय सिद्धांत
अनेक संभावनाओं में से चुनी हूई प्रक्रिया

संदर्भ

Adèr, H. J. (2008), "Modelling", in Adèr, H. J.; Mellenbergh, G. J. (eds.), Advising on Research Methods: A consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, pp. 271–304.
Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (2nd ed.), Springer-Verlag.
Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press.
Friendly, M.; Meyer, D. (2016), Discrete Data Analysis with R, Chapman & Hall.
Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer.
McCullagh, P. (2002), "What is a statistical model?" (PDF), Annals of Statistics, 30 (5): 1225–1310, doi:10.1214/aos/1035844977.

अग्रिम पठन

Davison, A. C. (2008), Statistical Models, Cambridge University Press
Drton, M.; Sullivant, S. (2007), "Algebraic statistical models" (PDF), Statistica Sinica, 17: 1273–1297
Freedman, D. A. (2009), Statistical Models, Cambridge University Press
Helland, I. S. (2010), Steps Towards a Unified Basis for Scientific Models and Methods, World Scientific
Kroese, D. P.; Chan, J. C. C. (2014), Statistical Modeling and Computation, Springer
Shmueli, G. (2010), "To explain or to predict?", Statistical Science, 25 (3): 289–310, arXiv:1101.0891, doi:10.1214/10-STS330

]

[1] Cox 2006, p. 178

[2] Adèr 2008, p. 280

[McCullagh-3] 3.0 ^3.1 McCullagh 2002

[4] Burnham & Anderson 2002, §1.2.5

[5] Cox 2006, p. 197

[6] Konishi & Kitagawa 2008, §1.1

[7] Friendly & Meyer 2016, §11.6

[8] Cox 2006, p. 2

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Anonymous

Search

सांख्यिकीय प्रतिरूप

Namespaces

More

Page actions

Contents

परिचय

औपचारिक परिभाषा

एक उदाहरण

सामान्य टिप्पणी

एक मॉडल का आयाम

नेस्टेड मॉडल

मॉडल की तुलना

यह भी देखें

टिप्पणियाँ

संदर्भ

अग्रिम पठन

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

सांख्यिकीय प्रतिरूप

परिचय

औपचारिक परिभाषा

एक उदाहरण

सामान्य टिप्पणी

एक मॉडल का आयाम

नेस्टेड मॉडल

मॉडल की तुलना

यह भी देखें

टिप्पणियाँ

संदर्भ

अग्रिम पठन

Navigation

Wiki tools

Page tools

Other projects

Hidden categories