सांख्यिकीय प्रतिरूप: Difference between revisions

From Vigyanwiki
No edit summary
Line 14: Line 14:


== औपचारिक परिभाषा ==
== औपचारिक परिभाषा ==
गणितीय शब्दों में, एक सांख्यिकीय प्रतिरूप को आमतौर पर एक जोड़ी (<math>S, \mathcal{P}</math>), के रूप में माना जाता है, जहां <math>S</math> संभावित अवलोकनों का समहू है, यानी नमूना स्थान, और <math>\mathcal{P}</math> <math>S</math> पर संभावना वितरण का एक समूह है।<ref name="McCullagh">{{Harvnb | McCullagh | 2002}}</ref> '''''इस''''' परिभाषा के पीछे का अंतर्ज्ञान निम्नानुसार है। यह माना जाता है कि देखे गए आंकड़े उत्पन्न करने की  प्रक्रिया द्वारा संचालित एक "सच्चा" संभाव्यता वितरण है। हम चुनते हैं <math>\mathcal{P}</math> एक सेट (वितरण के) का प्रतिनिधित्व करने के लिए जिसमें एक वितरण होता है जो पर्याप्त रूप से वास्तविक वितरण का अनुमान लगाता है।
गणितीय शब्दों में, एक सांख्यिकीय प्रतिरूप को आमतौर पर एक जोड़ी (<math>S, \mathcal{P}</math>), के रूप में माना जाता है, जहां <math>S</math> संभावित अवलोकनों का समहू है, यानी प्रतिदर्श समष्टि और <math>\mathcal{P}</math>, <math>S</math> पर प्रायिकता वितरण का एक समूह है।<ref name="McCullagh">{{Harvnb | McCullagh | 2002}}</ref> इस परिभाषा के पीछे का भाव इस प्रकार है। यह माना जाता है कि देखे गए आंकड़ों में "सत्य" प्रयायिकता वितरण होता है जो उत्पादन प्रक्रिया द्वारा नियंत्रित होता है। हम एक समूह (वितरण के) का प्रतिनिधित्व करने के लिए  <math>\mathcal{P}</math> चुनते हैं, जिसमें एक वितरण है जो पर्याप्त रूप से सही वितरण का अनुमान लगाता है।


ध्यान दें कि हमें इसकी आवश्यकता नहीं है <math>\mathcal{P}</math> सच्चा वितरण शामिल है, और व्यवहार में जो शायद ही कभी होता है।दरअसल, बर्नहैम और एंडरसन स्टेट के रूप में, एक मॉडल वास्तविकता का सरलीकरण या अनुमान है और इसलिए वास्तविकता के सभी को प्रतिबिंबित नहीं करेगा<ref>{{Harvnb | Burnham | Anderson | 2002 | loc= §1.2.5}}</ref>& mdash; इसलिए कहावत सभी मॉडल गलत हैं।
ध्यान दें कि हमें इसकी आवश्यकता नहीं है कि <math>\mathcal{P}</math> का पूर्ण वितरण हो, और व्यवहार में ऐसा बहुत कम होता है। वास्तव में, जैसा कि बर्नहैम एंड एंडरसन कहते हैं, "एक प्रतिरूप वास्तविकता का एक सरलीकरण या अनुमान है और इसलिए सभी वास्तविकता को प्रतिबिंबित नहीं करेगा" इसलिए कहावत "सभी प्रतिरूप गलत हैं"।<ref>{{Harvnb | Burnham | Anderson | 2002 | loc= §1.2.5}}</ref>


सेट <math>\mathcal{P}</math> लगभग हमेशा पैरामीटर है: <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>।सेट <math>\Theta</math> मॉडल के मापदंडों को परिभाषित करता है।आमतौर पर एक पैरामीटर की आवश्यकता होती है, जिसमें अलग -अलग पैरामीटर मान अलग -अलग वितरण को जन्म देते हैं, अर्थात्। <math>P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2</math> पकड़ना चाहिए (दूसरे शब्दों में, यह इंजेक्टिव होना चाहिए)।एक पैरामीटर जो आवश्यकता को पूरा करता है, उसे पहचानने योग्य कहा जाता है।<ref name="McCullagh" />
समहू <math>\mathcal{P}</math> लगभग हमेशा पैरामीटरयुक्त होता है: <math>\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}</math>। समहू <math>\Theta</math> मॉडल के मापदंडों को परिभाषित करता है। अलग-अलग मापदंड मानों को आम तौर पर अलग-अलग वितरणों को जन्म देने के लिए मानकीकरण की आवश्यकता होती है अर्थात् <math>P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2</math> आयोजित रखना चाहिए (दूसरे शब्दों में, यह अंतःक्षेपक होना चाहिए)आवश्यकता को पूरा करने वाले मापदंडों को पहचान योग्य कहा जाता है।<ref name="McCullagh" />





Revision as of 14:57, 17 August 2022

सांख्यिकीय प्रतिरूप एक गणितीय प्रतिरूप है जो प्रतिरूप आँकड़े (और एक बड़ी आबादी से समान आँकड़े) की पीढ़ी से संबंधित सांख्यिकीय मान्यताओं के एक समूह का प्रतीक है। एक सांख्यिकीय प्रतिरूप, अक्सर पर्याप्त आदर्श रूप से, आंकड़े उत्पन्न करना की प्रक्रिया का प्रतिनिधित्व करता है।[1] एक सांख्यिकीय प्रतिरूप को आमतौर पर एक या अधिक यादृच्छिक चर और अन्य गैर-यादृच्छिक चर के बीच गणितीय संबंध के रूप में निर्दिष्ट किया जाता है। जैसे, एक सांख्यिकीय प्रतिरूप एक "सिद्धांत का औपचारिक प्रतिनिधित्व" है (केनेथ बोलन द्वारा उद्धृत हरमन एडर)।[2] सांख्यिकीय प्रतिरूपण के माध्यम से सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमानक प्राप्त किए जाते हैं। आम तौर पर, सांख्यिकीय प्रतिरूप सांख्यिकीय अनुमान के आधार का हिस्सा होते हैं।

परिचय

अनौपचारिक रूप से, एक सांख्यिकीय प्रतिरूप को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं का सेट) के रूप में माना जा सकता है: यह धारणा हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है। एक उदाहरण के रूप में, साधारण छः भुजाओं वाले पासों के एक जोड़े पर विचार करें। हम पासे के बारे में दो भिन्न सांख्यिकीय मान्यताओं का अध्ययन करेंगे।

पहली सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, प्रत्येक चेहरे (1, 2, 3, 4, 5, और 6) के खींचे जाने की 1/6 संभावना है। उस धारणा से, हम इस संभावना की गणना कर सकते हैं कि दोनों पासे 5:  1/6 × 1/6 = 1/36 के रूप में निकलेंगे। सामान्य तौर पर, हम किसी भी घटना की संभावना की गणना कर सकते हैं: उदाहरण (1 और 2) या (3 और 3) या (5 और 6)।

वैकल्पिक सांख्यिकीय धारणा यह है: प्रत्येक पासे के लिए, एक फलक 5 प्राप्त करने की प्रायिकता 1/8 है (चूंकि पासों को भारित किया जाता है)। उस धारणा से, हम इस प्रायिकता की गणना कर सकते हैं कि दोनों पासे 5:  1/8 × 1/8 = 1/64 के रूप में निकलेंगे। यद्यपि, हम किसी अन्य गैर महत्वहीन घटना की प्रायिकता की गणना नहीं कर सकते, क्योंकि अन्य चेहरों की प्रायिकताएँ अज्ञात हैं।

पहली सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप बनाती है: क्योंकि केवल धारणा के साथ, हम किसी भी घटना की संभावना की गणना कर सकते हैं। वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय प्रतिरूप नहीं बनाती है: क्योंकि केवल धारणा के साथ, हम प्रत्येक घटना की संभावना की गणना नहीं कर सकते हैं।

उपरोक्त उदाहरण में, पहली धारणा के साथ, किसी घटना की प्रायिकता की गणना करना आसान है। हालांकि, जैसा कि कुछ अन्य उदाहरणों में होता है, गणना कठिन या अव्यवहारिक हो सकती है (उदाहरण के लिए गणना के लाखों वर्षों की आवश्यकता हो सकती है)। एक सांख्यिकीय प्रतिरूप के निर्माण की धारणा के लिए, ऐसी कठिनाई स्वीकार्य है: गणना का व्यावहारिक होना जरूरी नहीं है, केवल सैद्धांतिक रूप से संभव है।

औपचारिक परिभाषा

गणितीय शब्दों में, एक सांख्यिकीय प्रतिरूप को आमतौर पर एक जोड़ी (), के रूप में माना जाता है, जहां संभावित अवलोकनों का समहू है, यानी प्रतिदर्श समष्टि और , पर प्रायिकता वितरण का एक समूह है।[3] इस परिभाषा के पीछे का भाव इस प्रकार है। यह माना जाता है कि देखे गए आंकड़ों में "सत्य" प्रयायिकता वितरण होता है जो उत्पादन प्रक्रिया द्वारा नियंत्रित होता है। हम एक समूह (वितरण के) का प्रतिनिधित्व करने के लिए चुनते हैं, जिसमें एक वितरण है जो पर्याप्त रूप से सही वितरण का अनुमान लगाता है।

ध्यान दें कि हमें इसकी आवश्यकता नहीं है कि का पूर्ण वितरण हो, और व्यवहार में ऐसा बहुत कम होता है। वास्तव में, जैसा कि बर्नहैम एंड एंडरसन कहते हैं, "एक प्रतिरूप वास्तविकता का एक सरलीकरण या अनुमान है और इसलिए सभी वास्तविकता को प्रतिबिंबित नहीं करेगा" इसलिए कहावत "सभी प्रतिरूप गलत हैं"।[4]

समहू लगभग हमेशा पैरामीटरयुक्त होता है: । समहू मॉडल के मापदंडों को परिभाषित करता है। अलग-अलग मापदंड मानों को आम तौर पर अलग-अलग वितरणों को जन्म देने के लिए मानकीकरण की आवश्यकता होती है अर्थात् आयोजित रखना चाहिए (दूसरे शब्दों में, यह अंतःक्षेपक होना चाहिए)। आवश्यकता को पूरा करने वाले मापदंडों को पहचान योग्य कहा जाता है।[3]


एक उदाहरण

मान लीजिए कि हमारे पास बच्चों की आबादी है, जिनकी उम्र समान रूप से, आबादी में वितरित की गई है।एक बच्चे की ऊंचाई उम्र से संबंधित हो जाएगी: उदा।जब हम जानते हैं कि एक बच्चा 7 वर्ष का है, तो यह बच्चे को 1.5 मीटर लंबा होने की संभावना को प्रभावित करता है।हम एक रैखिक प्रतिगमन मॉडल में उस संबंध को औपचारिक रूप दे सकते हैं, इस तरह: कदi& nbsp; = b0& nbsp;+ b1आयुi& nbsp;+ εi, जहां बी0 इंटरसेप्ट है, बी1 एक पैरामीटर है कि उम्र की भविष्यवाणी प्राप्त करने के लिए आयु को गुणा किया जाता है, εi त्रुटि शब्द है, और मैं बच्चे की पहचान करता हूं।इसका तात्पर्य यह है कि ऊँचाई की भविष्यवाणी उम्र से होती है, कुछ त्रुटि के साथ।

एक स्वीकार्य मॉडल सभी डेटा बिंदुओं के अनुरूप होना चाहिए।इस प्रकार, एक सीधी रेखा (ऊंचाई)i& nbsp; = b0& nbsp;+ b1आयुi) डेटा के एक मॉडल के लिए समीकरण नहीं हो सकता है - जब तक कि यह सभी डेटा बिंदुओं को बिल्कुल फिट नहीं करता है, यानी सभी डेटा बिंदु लाइन पर पूरी तरह से झूठ बोलते हैं।त्रुटि शब्द, εi, समीकरण में शामिल किया जाना चाहिए, ताकि मॉडल सभी डेटा बिंदुओं के अनुरूप हो।

सांख्यिकीय निष्कर्ष करने के लिए, हमें पहले ε के लिए कुछ संभावना वितरण मानने की आवश्यकता होगीi।उदाहरण के लिए, हम मान सकते हैं कि εi वितरण II.D.गॉसियन, शून्य माध्य के साथ।इस उदाहरण में, मॉडल में 3 पैरामीटर होंगे: बी0, बी1, और गाऊसी वितरण का विचरण।

हम औपचारिक रूप से मॉडल को फॉर्म में निर्दिष्ट कर सकते हैं () निम्नलिखित नुसार।नमूना स्थान, , हमारे मॉडल में सभी संभावित जोड़े (उम्र, ऊंचाई) का सेट शामिल है।का प्रत्येक संभावित मूल्य & nbsp; = (बी0, बी1, और सिग्मा;2 ) पर एक वितरण निर्धारित करता है ;उस वितरण को निरूपित करें ।यदि के सभी संभावित मूल्यों का सेट है , फिर ।(मानकीकरण पहचान योग्य है, और यह जांच करना आसान है।)

इस उदाहरण में, मॉडल (1) निर्दिष्ट करने से निर्धारित होता है और (2) कुछ धारणाओं को प्रासंगिक बनाना ।दो धारणाएं हैं: उस ऊंचाई को उम्र के एक रैखिक कार्य द्वारा अनुमानित किया जा सकता है;सन्निकटन में त्रुटियों को i.i.d के रूप में वितरित किया जाता है।गाऊसी।धारणाएं निर्दिष्ट करने के लिए पर्याप्त हैं & mdash; जैसा कि उन्हें करना आवश्यक है।

सामान्य टिप्पणी

एक सांख्यिकीय मॉडल गणितीय मॉडल का एक विशेष वर्ग है। एक सांख्यिकीय मॉडल को अन्य गणितीय मॉडल से अलग करता है कि एक सांख्यिकीय मॉडल गैर-नियतात्मक है। इस प्रकार, गणितीय समीकरणों के माध्यम से निर्दिष्ट एक सांख्यिकीय मॉडल में, कुछ चर में विशिष्ट मूल्य नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; यानी कुछ चर स्टोकेस्टिक हैं। बच्चों की ऊंचाइयों के साथ उपरोक्त उदाहरण में, ε एक स्टोकेस्टिक चर है; उस स्टोकेस्टिक चर के बिना, मॉडल नियतात्मक होगा।

सांख्यिकीय मॉडल का उपयोग अक्सर तब भी किया जाता है जब डेटा-जनरेटिंग प्रक्रिया मॉडलिंग की जा रही है, नियतात्मक है। उदाहरण के लिए, सिक्का टॉसिंग, सिद्धांत रूप में, एक नियतात्मक प्रक्रिया है; फिर भी यह आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।

किसी दिए गए डेटा-जनरेटिंग प्रक्रिया का प्रतिनिधित्व करने के लिए एक उपयुक्त सांख्यिकीय मॉडल का चयन करना कभी-कभी बेहद कठिन होता है, और प्रक्रिया और प्रासंगिक सांख्यिकीय विश्लेषण दोनों के ज्ञान की आवश्यकता हो सकती है। संबंधित रूप से, सांख्यिकीविद् सर डेविड कॉक्स ने कहा है, कैसे [] विषय-वस्तु समस्या से सांख्यिकीय मॉडल में अनुवाद किया जाता है, अक्सर एक विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है।[5] कोनिशी & nbsp; & kitagawa के अनुसार, एक सांख्यिकीय मॉडल के लिए तीन उद्देश्य हैं।[6]

  • भविष्यवाणियां
  • जानकारी का निष्कर्षण
  • स्टोकेस्टिक संरचनाओं का विवरण

वे तीन उद्देश्य अनिवार्य रूप से दोस्ताना & nbsp; & meyer: भविष्यवाणी, अनुमान, विवरण द्वारा इंगित तीन उद्देश्यों के समान हैं।[7] तीन उद्देश्य तीन प्रकार के तार्किक तर्क के साथ मेल खाते हैं: कटौतीत्मक तर्क, आगमनात्मक तर्क, अपहरण तर्क।

एक मॉडल का आयाम

मान लीजिए कि हमारे पास एक सांख्यिकीय मॉडल है () साथ ।मॉडल को पैरामीट्रिक कहा जाता है एक परिमित आयाम है।संकेतन में, हम यह लिखते हैं कहाँ पे k एक सकारात्मक पूर्णांक है ( वास्तविक संख्याओं को दर्शाता है;अन्य सेटों का उपयोग किया जा सकता है, सिद्धांत रूप में)।यहां, k मॉडल का आयाम कहा जाता है।

एक उदाहरण के रूप में, यदि हम मानते हैं कि डेटा एक अविभाज्य गौसियन वितरण से उत्पन्न होता है, तो हम यह मान रहे हैं कि

इस उदाहरण में, आयाम, k, 2 बराबर है।

एक अन्य उदाहरण के रूप में, मान लीजिए कि डेटा में अंक होते हैं (x, y) कि हम मानते हैं कि I.I.D के साथ एक सीधी रेखा के अनुसार वितरित किए जाते हैं।गाऊसी अवशिष्ट (शून्य माध्य के साथ): यह उसी सांख्यिकीय मॉडल की ओर जाता है जैसा कि बच्चों की ऊंचाइयों के साथ उदाहरण में उपयोग किया गया था।सांख्यिकीय मॉडल का आयाम 3 है: रेखा का अवरोधन, रेखा का ढलान और अवशिष्ट के वितरण का विचरण।(ध्यान दें कि ज्यामिति में, एक सीधी रेखा का आयाम 1. है)

हालांकि औपचारिक रूप से एक एकल पैरामीटर है जिसमें आयाम है k, इसे कभी -कभी शामिल माना जाता है k अलग -अलग पैरामीटर।उदाहरण के लिए, यूनीवेट गॉसियन वितरण के साथ, औपचारिक रूप से आयाम 2 के साथ एक एकल पैरामीटर है, लेकिन इसे कभी -कभी 2 अलग -अलग मापदंडों के रूप में माना जाता है - माध्य और मानक विचलन।

एक सांख्यिकीय मॉडल nonparametric सांख्यिकी है#गैर-पैरामीट्रिक मॉडल | पैरामीटर सेट यदि गैर-पैरामीट्रिक अनंत आयामी है।एक सांख्यिकीय मॉडल सेमीपेरामेट्रिक है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों पैरामीटर हैं।औपचारिक रूप से, अगर k का आयाम है तथा n नमूनों की संख्या है, दोनों सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल हैं जैसा ।यदि जैसा , फिर मॉडल सेमीपेरामेट्रिक है;अन्यथा, मॉडल नॉनपैमेट्रिक है।

पैरामीट्रिक मॉडल अब तक सबसे अधिक इस्तेमाल किए जाने वाले सांख्यिकीय मॉडल हैं।सेमीपेरामेट्रिक और नॉनपैमेट्रिक मॉडल के बारे में, सर डेविड कॉक्स ने कहा है, इनमें आमतौर पर संरचना और वितरण के रूप में कम धारणाएं शामिल होती हैं, लेकिन आमतौर पर स्वतंत्रता के बारे में मजबूत धारणाएं होती हैं।[8]


नेस्टेड मॉडल

दो सांख्यिकीय मॉडल नेस्टेड हैं यदि पहले मॉडल को पहले मॉडल के मापदंडों पर बाधाओं को लागू करके दूसरे मॉडल में बदल दिया जा सकता है।एक उदाहरण के रूप में, सभी गौसियन वितरणों का सेट, इसके भीतर नेस्टेड है, शून्य-मीन गौसियन वितरण का सेट: हम शून्य-मीन वितरण प्राप्त करने के लिए सभी गाऊसी वितरण के सेट में माध्य को बाधित करते हैं।एक दूसरे उदाहरण के रूप में, द्विघात मॉडल

y = b0 + b1x + b2x2 + ε,    ε ~ 𝒩(0, σ2) इसके भीतर नेस्टेड है, रैखिक मॉडल
y = b0 + b1x + ε,    ε ~ 𝒩(0, σ2)

-हम पैरामीटर को विवश करते हैं b2 के बराबर 0।

उन दोनों उदाहरणों में, पहले मॉडल में दूसरे मॉडल की तुलना में अधिक आयाम होता है (पहले उदाहरण के लिए, शून्य-मीन मॉडल में आयाम & nbsp; 1) होता है।ऐसा अक्सर होता है, लेकिन हमेशा नहीं, मामला।एक अलग उदाहरण के रूप में, पॉजिटिव-मीन गौसियन वितरण का सेट, जिसमें आयाम 2 है, सभी गौसियन वितरण के सेट के भीतर नेस्टेड है।

मॉडल की तुलना

सांख्यिकीय मॉडल की तुलना सांख्यिकीय अनुमान के अधिकांश के लिए मौलिक है।वास्तव में, Konishi & Kitagawa (2008, p. 75) यह बताइए: सांख्यिकीय निष्कर्ष में अधिकांश समस्याओं को सांख्यिकीय मॉडलिंग से संबंधित समस्याओं के रूप में माना जा सकता है।वे आमतौर पर कई सांख्यिकीय मॉडल की तुलना के रूप में तैयार किए जाते हैं।

मॉडल की तुलना करने के लिए सामान्य मानदंड में निम्नलिखित शामिल हैं: आर2 , Bayes कारक, Akaike सूचना मानदंड, और संभावना-अनुपात परीक्षण इसके सामान्यीकरण, सापेक्ष संभावना के साथ।

यह भी देखें

  • सभी मॉडल गलत हैं
  • ब्लॉकमॉडल
  • संकल्पनात्मक निदर्श
  • प्रयोगों की रूप रेखा
  • नियतात्मक मॉडल
  • प्रभावी सिद्धांत
  • भविष्य कहनेवाला मॉडल
  • प्रतिक्रिया मॉडलिंग पद्धति
  • वैज्ञानिक मॉडल
  • सांख्यिकीय निष्कर्ष
  • सांख्यिकीय मॉडल विनिर्देश
  • सांख्यिकीय मॉडल सत्यापन
  • सांख्यिकीय सिद्धांत
  • अनेक संभावनाओं में से चुनी हूई प्रक्रिया


टिप्पणियाँ


संदर्भ

  • Adèr, H. J. (2008), "Modelling", in Adèr, H. J.; Mellenbergh, G. J. (eds.), Advising on Research Methods: A consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, pp. 271–304.
  • Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (2nd ed.), Springer-Verlag.
  • Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press.
  • Friendly, M.; Meyer, D. (2016), Discrete Data Analysis with R, Chapman & Hall.
  • Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer.
  • McCullagh, P. (2002), "What is a statistical model?" (PDF), Annals of Statistics, 30 (5): 1225–1310, doi:10.1214/aos/1035844977.


अग्रिम पठन


]