सांख्यिकी: Difference between revisions
No edit summary |
No edit summary |
||
(47 intermediate revisions by 6 users not shown) | |||
Line 6: | Line 6: | ||
[[File:Standard Normal Distribution.png|thumb|upright=1.3|right|सामान्य वितरण, एक बहुत ही सामान्य संभावना घनत्व, केंद्रीय सीमा प्रमेय के कारण उपयोगी है।]] | [[File:Standard Normal Distribution.png|thumb|upright=1.3|right|सामान्य वितरण, एक बहुत ही सामान्य संभावना घनत्व, केंद्रीय सीमा प्रमेय के कारण उपयोगी है।]] | ||
[[File:Iris Pairs Plot.svg|thumb|upright=1.3|right|IRIS फूल डेटा सेट का उपयोग करके यहां विभिन्न चर के बीच देखे गए संबंधों को दिखाने के लिए वर्णनात्मक आंकड़ों में स्कैटर प्लॉट का उपयोग किया जाता है।]] | [[File:Iris Pairs Plot.svg|thumb|upright=1.3|right|IRIS फूल डेटा सेट का उपयोग करके यहां विभिन्न चर के बीच देखे गए संबंधों को दिखाने के लिए वर्णनात्मक आंकड़ों में स्कैटर प्लॉट का उपयोग किया जाता है।]] | ||
<!--कृपया टॉक पेज पर अपने बदलाव का प्रस्ताव किए बिना शुरुआती वाक्य को संपादित न करें।-->सांख्यिकी वह | <!--कृपया टॉक पेज पर अपने बदलाव का प्रस्ताव किए बिना शुरुआती वाक्य को संपादित न करें।-->'''''सांख्यिकी''''' वह व्यवस्था है जो आंकड़ों के संग्रह, संगठन, विश्लेषण, व्याख्या और प्रस्तुति से संबंधित है।<ref name=ox>{{cite book|title = Oxford Reference|chapter = Statistics|date = January 2008|publisher = Oxford University Press|isbn = 978-0-19-954145-4|url = https://www.oxfordreference.com/view/10.1093/acref/9780199541454.001.0001/acref-9780199541454-e-1566?rskey=nxhBLl&result=1979|access-date = 2019-08-14|archive-date = 2020-09-03|archive-url = https://web.archive.org/web/20200903144424/https://www.oxfordreference.com/view/10.1093/acref/9780199541454.001.0001/acref-9780199541454-e-1566?rskey=nxhBLl&result=1979|url-status = live}}</ref><ref>{{cite encyclopedia |first=Jan-Willem |last=Romijn |year=2014 |title=Philosophy of statistics |encyclopedia=Stanford Encyclopedia of Philosophy |url=http://plato.stanford.edu/entries/statistics/ |access-date=2016-11-03 |archive-date=2021-10-19 |archive-url=https://web.archive.org/web/20211019033058/https://plato.stanford.edu/entries/statistics/ |url-status=live }}</ref><ref>{{cite web | title=Cambridge Dictionary | url=https://dictionary.cambridge.org/dictionary/english/statistics | access-date=2019-08-14 | archive-date=2020-11-22 | archive-url=https://web.archive.org/web/20201122210156/https://dictionary.cambridge.org/dictionary/english/statistics | url-status=live }}</ref> किसी वैज्ञानिक, औद्योगिक या सामाजिक समस्या के आंकड़ों को लागू करने में एक सांख्यिकीय जनसंख्या या अध्ययन के लिए सांख्यिकीय मॉडल के साथ शुरू करना पारंपरिक है। जनसंख्या लोगों या वस्तुओं का विविध समूह हो सकती हैं जैसे "एक देश में रहने वाले सभी लोग" या "हर परमाणु एक क्रिस्टल की रचना करते हैं"। सांख्यिकी डेटा के हर पहलू से संबंधित है, जिसमें सर्वेक्षण और प्रयोगों के डिजाइन के संदर्भ में आँकड़े संग्रह की योजना शामिल है।<ref name=Dodge>Dodge, Y. (2006) ''The Oxford Dictionary of Statistical Terms'', Oxford University Press. {{isbn|0-19-920613-9}}</ref> | ||
जब जनगणना आँकड़े | जब जनगणना आँकड़े एकत्र नहीं किया जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके आँकड़े एकत्र करते हैं। प्रतिनिधि नमूनाकरण को आश्वासन देता है कि निष्कर्ष समग्र रूप से नमूने से आबादी तक विस्तारित हो सकते हैं। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली (सिस्टम) की माप लेना, प्रणाली में हेरफेर करना, और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है कि क्या हेरफेर ने माप के मूल्यों को संशोधित किया है।इसके विपरीत, क्य़ा एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है। | ||
आँकड़े | आँकड़े विश्लेषण में दो मुख्य सांख्यिकीय तरीकों का उपयोग किया जाता है: वर्णनात्मक आँकड़े, जो एक नमूने से आंकड़ोंको संक्षेप में अनुक्रमित या मानक विचलन, और हीन आँकड़े जैसे अनुक्रमित का उपयोग करते हैं, जो आंकड़ों से निष्कर्ष निकालते हैं जो यादृच्छिक भिन्नता के अधीन हैं (जैसे,अवलोकन संबंधी त्रुटियां,अवलोकन संबंधी त्रुटियां,नमूना भिन्नता) ।<ref name=LundResearchLtd>{{cite web |last=Lund Research Ltd. |url=https://statistics.laerd.com/statistical-guides/descriptive-inferential-statistics.php |title=Descriptive and Inferential Statistics |publisher=statistics.laerd.com |access-date=2014-03-23 |archive-date=2020-10-26 |archive-url=https://web.archive.org/web/20201026075549/https://statistics.laerd.com/statistical-guides/descriptive-inferential-statistics.php |url-status=live }}</ref> वर्णनात्मक आँकड़े अक्सर एक वितरण (नमूना या जनसंख्या) के गुणों के दो सेटों से संबंधित होते हैं: (केंद्रीय प्रवृत्ति या स्थान) वितरण के केंद्रीय या विशिष्ट मूल्य को चिह्नित करता चाहता है, जबकि (फैलाव या परिवर्तनशीलता) उस सीमा की विशेषता है जो यह बताता है कि वितरण के सदस्य किस हद तक अपने केंद्र और एक दूसरे से विचलित होते हैं। गणितीय आँकड़ों पर अनुमान संभाव्यता सिद्धांत के ढांचे के तहत किए जाते हैं, जो यादृच्छिक घटनाओं के विश्लेषण से संबंधित है। | ||
एक मानक सांख्यिकीय प्रक्रिया में दो सांख्यिकीय | एक मानक सांख्यिकीय प्रक्रिया में दो सांख्यिकीय आँकड़े समुच्चय (सेट), या एक आदर्श मॉडल से तैयार किए गए आँकड़े समुच्चय और अवास्तविक आँकड़े (सिंथेटिक डेटा) के बीच संबंध के परीक्षण के लिए अग्रणी डेटा का संग्रह शामिल है। दो आँकड़े समुच्चयो के बीच सांख्यिकीय संबंध के लिए एक परिकल्पना प्रस्तावित की जाती है,और इसकी तुलना दो आँकड़े समुच्चयो के बीच बिना किसी संबंध के एक आदर्श शून्य परिकल्पना के विकल्प के रूप में की जाती है। अशक्त परिकल्पना को अस्वीकार करना या नापसंद करना सांख्यिकीय परीक्षणों का उपयोग करके किया जाता है जो उस भावना को निर्धारित करता है जिसमें शून्य को गलत साबित किया जा सकता है, परीक्षण में उपयोग किए जाने वाले आँकड़े को देखते हुए। एक अशक्त परिकल्पना से काम करते हुए, त्रुटि के दो बुनियादी रूपों को मान्यता दी जाती है: प्रकार (टाइप) 1 त्रुटियां (अशक्त परिकल्पना को गलत तरीके से एक गलत सकारात्मक देते हुए खारिज कर दिया जाता है) और प्रकार (टाइप) 2 त्रुटियां (अशक्त परिकल्पना को अस्वीकार करने में नकारात्मक विफल रहता है और आबादी के बीच एक वास्तविक संबंध एक गलत देने से चूक जाता है।)।<ref>{{Cite web|title = What Is the Difference Between Type I and Type II Hypothesis Testing Errors?|url = http://statistics.about.com/od/Inferential-Statistics/a/Type-I-And-Type-II-Errors.htm|website = About.com Education|access-date = 2015-11-27|archive-date = 2017-02-27|archive-url = https://web.archive.org/web/20170227073422/http://statistics.about.com/od/Inferential-Statistics/a/Type-I-And-Type-II-Errors.htm|url-status = live}}</ref> पर्याप्त नमूना आकार प्राप्त करने से लेकर शून्य परिकल्पना निर्दिष्ट करने तक, इस ढांचे के साथ कई समस्याएं जुड़ी हुई हैं।<ref name="LundResearchLtd" /> | ||
सांख्यिकीय आँकड़े | सांख्यिकीय आँकड़े उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप में वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी हो सक़ती है। अनुपस्थित आँकड़े या रूकहुआ (सेंसरिंग) की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है। | ||
{{TOC limit|3}} | {{TOC limit|3}} | ||
Line 19: | Line 19: | ||
== परिचय == | == परिचय == | ||
{{main| | {{main|आंकड़ों की रूपरेखा}} | ||
सांख्यिकी विज्ञान का एक गणितीय निकाय है जो संग्रह, विश्लेषण, व्याख्या या स्पष्टीकरण और आँकड़े | सांख्यिकी विज्ञान का एक गणितीय निकाय है जो संग्रह, विश्लेषण, व्याख्या या स्पष्टीकरण और आँकड़े की प्रस्तुति से संबंधित है,<ref>Moses, Lincoln E. (1986) ''Think and Explain with Statistics'', Addison-Wesley, {{isbn|978-0-201-15619-5}}. pp. 1–3</ref> या गणित की एक शाखा के रूप में संबंधित है।<ref>Hays, William Lee, (1973) ''Statistics for the Social Sciences'', Holt, Rinehart and Winston, p.xii, {{isbn|978-0-03-077945-9}}</ref> कुछ लोग सांख्यिकी को गणित की एक शाखा के बजाय एक अलग गणितीय विज्ञान मानते हैं। जबकि कई वैज्ञानिक अनुसंधान (जांच) डेटा का उपयोग करते हैं, सांख्यिकी अनिश्चितता के सामने अनिश्चितता और निर्णय लेने के संदर्भ में डेटा के उपयोग से संबंधित है।<ref>{{cite book |last=Moore |first=David |title=Statistics for the Twenty-First Century |publisher=The Mathematical Association of America |editor=F. Gordon |editor2=S. Gordon |location=Washington, DC |year=1992 |pages=[https://archive.org/details/statisticsfortwe0000unse/page/14 14–25] |chapter=Teaching Statistics as a Respectable Subject |isbn=978-0-88385-078-7 |chapter-url=https://archive.org/details/statisticsfortwe0000unse/page/14 }} | ||
</ref><ref>{{cite book |last=Chance |first=Beth L. |author1-link=Beth Chance |author2=Rossman, Allan J. |title=Investigating Statistical Concepts, Applications, and Methods |publisher=Duxbury Press |year=2005 |chapter=Preface |isbn=978-0-495-05064-3 |chapter-url=http://www.rossmanchance.com/iscam/preface.pdf |access-date=2009-12-06 |archive-date=2020-11-22 |archive-url=https://web.archive.org/web/20201122092901/http://www.rossmanchance.com/iscam/preface.pdf |url-status=live }}</ref> | </ref><ref>{{cite book |last=Chance |first=Beth L. |author1-link=Beth Chance |author2=Rossman, Allan J. |title=Investigating Statistical Concepts, Applications, and Methods |publisher=Duxbury Press |year=2005 |chapter=Preface |isbn=978-0-495-05064-3 |chapter-url=http://www.rossmanchance.com/iscam/preface.pdf |access-date=2009-12-06 |archive-date=2020-11-22 |archive-url=https://web.archive.org/web/20201122092901/http://www.rossmanchance.com/iscam/preface.pdf |url-status=live }}</ref> | ||
किसी समस्या के लिए आंकड़ों को लागू करने में, अध्ययन करने के लिए आबादी या प्रक्रिया के साथ शुरू करना आम बात है। आबादी के विविध विषय हो सकते हैं जैसे कि किसी देश में रहने वाले सभी लोग या क्रिस्टल की रचना करने वाले हर परमाणु। आदर्श रूप से, सांख्यिकीविद् पूरी आबादी (जनगणना नामक एक संचालन(ऑपरेशन)) के बारे में | किसी समस्या के लिए आंकड़ों को लागू करने में, अध्ययन करने के लिए आबादी या प्रक्रिया के साथ शुरू करना आम बात है। आबादी के विविध विषय हो सकते हैं जैसे कि किसी देश में रहने वाले सभी लोग या क्रिस्टल की रचना करने वाले हर परमाणु। आदर्श रूप से, सांख्यिकीविद् पूरी आबादी (जनगणना नामक एक संचालन (ऑपरेशन)) के बारे में आँकड़े संकलित करते हैं। यह सरकारी सांख्यिकीय संस्थानों द्वारा आयोजित किया जा सकता है। जनसंख्या आँकड़े को सारांशित करने के लिए वर्णनात्मक आंकड़ों का उपयोग किया जा सकता है। संख्यात्मक विवरणों में निरंतर आँकड़े (जैसे आय) के लिए माध्य और मानक विचलन शामिल हैं, जबकि आवृत्ति और प्रतिशत श्रेणीबद्ध आँकड़े (जैसे शिक्षा) का वर्णन करने के संदर्भ में अधिक उपयोगी हैं। | ||
जब एक जनगणना संभव नहीं है, तो एक नमूना | जब एक जनगणना संभव नहीं होती है, तो एक नमूना आबादी के एक चुने हुए उपवर्ग (सबसेट) का अध्ययन किया जाता है। जब एक नमूना जो जनसंख्या का प्रतिनिधि निर्धारित किया जाता है, आँकड़े एक अवलोकन या प्रयोगात्मक समायोजन (सेटिंग) में नमूना सदस्यों के लिए एकत्र किया जाता है और फिर से, नमूना आंकड़ों को संक्षेप में वर्णनात्मक आंकड़ों के लिए उपयोग किया जा सकता है। हालांकि, नमूने को आकर्षित करने में यादृच्छिकता का एक तत्व होता है; इसलिए, नमूने से संख्यात्मक विवरण भी अनिश्चितता के लिए प्रवण हैं। पूरी आबादी के बारे में सार्थक निष्कर्ष निकालने के लिए, प्रयोगात्मक आंकड़ों की आवश्यकता होती है। यह नमूना आंकड़ों मेंपद्धति का उपयोग करता है ताकि यादृच्छिकता के लिए लेखांकन के दौरान प्रतिनिधित्व की गई आबादी के बारे में निष्कर्ष निकाला जा सके। ये निष्कर्ष आँकड़े (परिकल्पना परीक्षण) के बारे में हां/नहीं प्रश्नों के उत्तर देने का रूप ले सकते हैं, आँकड़े (अनुमान) की संख्यात्मक विशेषताओं का आकलन करना, आँकड़े (सहसंबंध) के भीतर संघों का वर्णन करना, और आँकड़े के भीतर मॉडलिंग संबंधों (उदाहरण के लिए, उपयोग करना प्रतिगमन विश्लेषण)। अनुमान पूर्वानुमान, भविष्यवाणी, और अनियंत्रित मूल्यों के अनुमान के लिए या तो अध्ययन किए जा रहे आबादी के साथ जुड़ा हो सकता है। इसमें समय श्रृंखला या स्थानिक आँकड़े, और आँकड़े खनन के बहिर्वेशन (एक्सट्रपलेशन) और प्रक्षेप शामिल हो सकते हैं। | ||
=== गणितीय सांख्यिकी === | === गणितीय सांख्यिकी === | ||
{{main| | {{main|गणितीय सांख्यिकी}} | ||
गणितीय आँकड़े सांख्यिकी के लिए गणित का अनुप्रयोग | गणितीय आँकड़े सांख्यिकी के लिए गणित का अनुप्रयोग है। इसके लिए उपयोग की जाने वाली गणितीय तकनीकों में गणितीय विश्लेषण, रैखिक बीजगणित, स्टोकेस्टिक विश्लेषण, अंतर समीकरण और माप-सिद्धांत संबंधी संभावना सिद्धांत शामिल हैं।<ref>{{cite book|last1=Lakshmikantham|first1=D. |last2=Kannan|first2= V.|title=Handbook of stochastic analysis and applications|date=2002|publisher=M. Dekker|location=New York|isbn=0824706609}}</ref><ref>{{cite book|last=Schervish|first=Mark J.|title=Theory of statistics|date=1995|publisher=Springer|location=New York|isbn=0387945466|edition=Corr. 2nd print.}}</ref> | ||
Line 34: | Line 34: | ||
[[File:Jerôme Cardan.jpg|thumb|right|upright=1.05|गेरोलमो कार्डानो, संभावना के गणित पर एक अग्रणी।]] | [[File:Jerôme Cardan.jpg|thumb|right|upright=1.05|गेरोलमो कार्डानो, संभावना के गणित पर एक अग्रणी।]] | ||
{{main| | {{main|आंकड़ों का इतिहास|सांख्यिकी के संस्थापक}} | ||
8 वीं और 13 वीं शताब्दी के बीच इस्लामिक स्वर्ण युग के दौरान, अरब गणितज्ञों और क्रिप्टोग्राफर्स के लिए सांख्यिकीय अनुमानों पर प्रारंभिक | 8 वीं और 13 वीं शताब्दी के बीच इस्लामिक स्वर्ण युग के दौरान, अरब गणितज्ञों और क्रिप्टोग्राफर्स के लिए सांख्यिकीय अनुमानों पर प्रारंभिक लेख वापस आते हैं। अल-खलील (717–786) ने क्रिप्टोग्राफिक संदेशों की पुस्तक लिखी, जिसमें विक्ट का पहला उपयोग शामिल है: क्रमपरिवर्तन और संयोजन, सभी संभावित अरबी शब्दों के साथ और बिना स्वर को सूचीबद्ध करने के लिए।<ref name="LB">{{cite journal|last=Broemeling|first=Lyle D.|title=An Account of Early Statistical Inference in Arab Cryptology|journal=The American Statistician|date=1 November 2011|volume=65|issue=4|pages=255–257|doi=10.1198/tas.2011.10191|s2cid=123537702}}</ref> उऩ्होऩे अपनी पुस्तक में, पांडुलिपि को समझने पर (ऑन डेसीपिंग) क्रिप्टोग्राफिक संदेशों, अल-किंडी ने एन्क्रिप्टेड संदेशों को समझने के लिए आवृत्ति विश्लेषण का उपयोग करने का विस्तृत विवरण दिया हैं। अल-किंडी ने सांख्यिकीय अनुमानों का जल्द से जल्द ज्ञात उपयोग भी किया, जबकि उन्होंने और बाद में अरब क्रिप्टोग्राफर ने एन्क्रिप्टेड संदेशों को डिकोड करने के लिए प्रारंभिक सांख्यिकीय तरीके विकसित किए। इब्न अदलान (1187–1268) ने बाद में आवृत्ति विश्लेषण में नमूना आकार के उपयोग पर एक महत्वपूर्ण योगदान दिया।<ref name="LB"/> | ||
आंकड़ों पर सबसे पुराना यूरोपीय लेखन 1663 में वापस आता है, जॉन ग्रंट द्वारा मृत्यु दर के बिलों पर प्राकृतिक और राजनीतिक टिप्पणियों के प्रकाशन के साथ।<ref>Willcox, Walter (1938) "The Founder of Statistics". ''Review of the [[International Statistical Institute]]'' 5(4): 321–328. {{jstor|1400906}}</ref> सांख्यिकीय सोच के शुरुआती अनुप्रयोग जनसांख्यिकीय और आर्थिक | आंकड़ों पर सबसे पुराना यूरोपीय लेखन 1663 में वापस आता है, जॉन ग्रंट द्वारा मृत्यु दर के बिलों पर प्राकृतिक और राजनीतिक टिप्पणियों के प्रकाशन के साथ।<ref>Willcox, Walter (1938) "The Founder of Statistics". ''Review of the [[International Statistical Institute]]'' 5(4): 321–328. {{jstor|1400906}}</ref> सांख्यिकीय सोच के शुरुआती अनुप्रयोग जनसांख्यिकीय और आर्थिक आंकड़ों पर आधार नीति के लिए राज्यों की जरूरतों के इर्द-गिर्द घूमते हैं, इसलिए इसकी स्टेट-व्युत्पत्ति कहते है। सांख्यिकी के अनुशासन का दायरा 19 वीं शताब्दी की शुरुआत में सामान्य रूप से डेटा के संग्रह और विश्लेषण को शामिल करने के लिए व्यापक हुआ। आज, आंकड़े व्यापक रूप से सरकार, व्यापार और प्राकृतिक और सामाजिक विज्ञान में नियोजित हैं। | ||
आधुनिक आंकड़ों की गणितीय नींव 17 वीं शताब्दी में गेरोलमो कार्डानो, ब्लाइस पास्कल और पियरे डी फर्मेट द्वारा संभाव्यता सिद्धांत के विकास के साथ रखी गई | आधुनिक आंकड़ों की गणितीय नींव 17 वीं शताब्दी में गेरोलमो कार्डानो, ब्लाइस पास्कल और पियरे डी फर्मेट द्वारा संभाव्यता सिद्धांत के विकास के साथ रखी गई थी। गणितीय संभाव्यता सिद्धांत मौका के खेल के अध्ययन से उत्पन्न हुआ, हालांकि संभावना की अवधारणा को पहले से ही मध्ययुगीन कानून में और दार्शनिकों द्वारा जुआन कारमुएल जैसे दार्शनिकों द्वारा जांच की गई थी।<ref>J. Franklin, The Science of Conjecture: Evidence and Probability before Pascal, Johns Hopkins Univ Pr 2002</ref> कम से कम वर्गों की विधि को पहली बार 1805 में एड्रियन-मैरी लीजेंड्रे द्वारा वर्णित किया गया था। | ||
[[File:Karl Pearson, 1910.jpg|thumb|right|upright=1.05|कार्ल पियर्सन, गणितीय सांख्यिकी के संस्थापक।]] | [[File:Karl Pearson, 1910.jpg|thumb|right|upright=1.05|कार्ल पियर्सन, गणितीय सांख्यिकी के संस्थापक।]] | ||
सांख्यिकी का आधुनिक क्षेत्र 19 वीं और 20 वीं शताब्दी की शुरुआत में तीन चरणों में | सांख्यिकी का आधुनिक क्षेत्र 19 वीं और 20 वीं शताब्दी की शुरुआत में तीन चरणों में उभरा था।<ref>{{cite book|url=https://books.google.com/books?id=jYFRAAAAMAAJ|title=Studies in the history of statistical method|author=Helen Mary Walker|year=1975|publisher=Arno Press|isbn=9780405066283|access-date=2015-06-27|archive-date=2020-07-27|archive-url=https://web.archive.org/web/20200727141905/https://books.google.com/books?id=jYFRAAAAMAAJ|url-status=live}}</ref> पहली लहर, सदी के अंत में , फ्रांसिस गैल्टन और कार्ल पियर्सन के काम के नेतृत्व में थी, जिन्होंने आंकड़ों को विश्लेषण के लिए उपयोग किए जाने वाले कठोर गणितीय अनुशासन में बदल दिया था, न केवल विज्ञान में, बल्कि उद्योग और राजनीति में भी बदल दिया था। गैल्टन के योगदान में मानक विचलन, सहसंबंध, प्रतिगमन विश्लेषण और इन तरीकों के अनुप्रयोग को मानव विशेषताओं की विविधता के अध्ययन के लिए इन तरीकों के अनुप्रयोग में शामिल करना था- ऊंचाई, वजन, बरौनी की लंबाई दूसरों के बीच।<ref name=Galton1877>{{cite journal | last1 = Galton | first1 = F | year = 1877 | title = Typical laws of heredity | journal = Nature | volume = 15 | issue = 388| pages = 492–553 | doi=10.1038/015492a0| bibcode = 1877Natur..15..492. | doi-access = free }}</ref> पियर्सन ने पियर्सन उत्पाद-पल सहसंबंध गुणांक विकसित किया, एक उत्पाद-पल के रूप में परिभाषित किया गया,<ref>{{Cite journal | doi = 10.1214/ss/1177012580 | last1 = Stigler | first1 = S.M. | year = 1989 | title = Francis Galton's Account of the Invention of Correlation | journal = Statistical Science | volume = 4 | issue = 2| pages = 73–79 | doi-access = free }}</ref> कई अन्य चीजों के बीच नमूनों और पियर्सन वितरण के लिए वितरण की फिटिंग के लिए क्षणों की विधि थी।<ref name="Pearson, On the criterion">{{Cite journal|last1=Pearson|first1=K.|year=1900|title=On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling|url=https://zenodo.org/record/1430618|journal=Philosophical Magazine|series=Series 5|volume=50|issue=302|pages=157–175|doi=10.1080/14786440009463897|access-date=2019-06-27|archive-date=2020-08-18|archive-url=https://web.archive.org/web/20200818110818/https://zenodo.org/record/1430618|url-status=live}}</ref> गैल्टन और पियर्सन ने बायोमेट्रिका को गणितीय सांख्यिकी और बायोस्टैटिस्टिक्स (तब बायोमेट्री कहा जाता है) के पहले पत्रिका के रूप में स्थापित किया, और बाद में यूनिवर्सिटी कॉलेज लंदन में दुनिया के पहले विश्वविद्यालय के सांख्यिकी विभाग की स्थापना की।<ref>{{cite web|title=Karl Pearson (1857–1936)|publisher=Department of Statistical Science – [[University College London]]|url=http://www.ucl.ac.uk/stats/department/pearson.html|url-status=dead|archive-url=https://web.archive.org/web/20080925065418/http://www.ucl.ac.uk/stats/department/pearson.html|archive-date=2008-09-25}}</ref> | ||
रोनाल्ड फिशर ने लेडी चखने वाले चाय प्रयोग के दौरान शून्य परिकल्पना शब्द गढ़ा, जो कभी भी साबित या स्थापित नहीं होता है, लेकिन संभवतः प्रयोग के दौरान, इसे अस्वीकार कर दिया जाता है।<ref>Fisher|1971|loc=Chapter II. The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis</ref><ref name="oed">OED quote: '''1935''' R.A. Fisher, ''[[The Design of Experiments]]'' ii. 19, "We may speak of this hypothesis as the 'null hypothesis', and the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation."</ref> | रोनाल्ड फिशर ने लेडी चखने वाले चाय प्रयोग के दौरान शून्य परिकल्पना शब्द गढ़ा, जो कभी भी साबित या स्थापित नहीं होता है, लेकिन संभवतः प्रयोग के दौरान, इसे अस्वीकार कर दिया जाता है।<ref>Fisher|1971|loc=Chapter II. The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis</ref><ref name="oed">OED quote: '''1935''' R.A. Fisher, ''[[The Design of Experiments]]'' ii. 19, "We may speak of this hypothesis as the 'null hypothesis', and the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation."</ref> | ||
1910 और 20 के दशक की दूसरी लहर विलियम सीली गॉसेट द्वारा शुरू की गई थी, और रोनाल्ड फिशर की अंतर्दृष्टि में इसकी परिणति तक पहुंच गई, जिन्होंने पाठ्यपुस्तकों को लिखा था जो दुनिया भर के विश्वविद्यालयों में शैक्षणिक अनुशासन को परिभाषित करने के लिए | 1910 और 20 के दशक की दूसरी लहर विलियम सीली गॉसेट द्वारा शुरू की गई थी, और रोनाल्ड फिशर की अंतर्दृष्टि में इसकी परिणति तक पहुंच गई, जिन्होंने पाठ्यपुस्तकों को लिखा था जो दुनिया भर के विश्वविद्यालयों में शैक्षणिक अनुशासन को परिभाषित करने के लिए थे। फिशर के सबसे महत्वपूर्ण प्रकाशन उनके 1918 के सेमिनल पेपर थे, जो कि मेंडेलियन इनहेरिटेंस (जो सांख्यिकीय शब्द, विचरण का उपयोग करने वाले पहले व्यक्ति), शोध कार्यकर्ताओं के लिए उनके क्लासिक 1925 कार्य सांख्यिकीय विधियों और उनके 1935 में प्रयोगों के डिजाइन पर पहले से ही थे।<ref>{{cite journal | author = Box, JF | title = R.A. Fisher and the Design of Experiments, 1922–1926 | jstor = 2682986 | journal = [[The American Statistician]] | volume = 34 | issue = 1 |date=February 1980 | pages = 1–7 | doi = 10.2307/2682986}}</ref><ref>{{cite journal | author = Yates, F | title = Sir Ronald Fisher and the Design of Experiments | jstor = 2528399 | journal = [[Biometrics (journal)|Biometrics]] | volume = 20 | issue = 2 |date=June 1964 | pages = 307–321 | doi = 10.2307/2528399}}</ref><ref>{{cite journal | ||
|title=The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later | |title=The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later | ||
|first1=Julian C. |last1=Stanley | |first1=Julian C. |last1=Stanley | ||
|journal=American Educational Research Journal | |journal=American Educational Research Journal | ||
|volume=3 |issue=3 |year=1966|pages= 223–229 | |volume=3 |issue=3 |year=1966|pages= 223–229 | ||
|jstor=1161806 |doi=10.3102/00028312003003223|s2cid=145725524 }}</ref> जहां उन्होंने प्रयोग मॉडल के कठोर डिजाइन विकसित | |jstor=1161806 |doi=10.3102/00028312003003223|s2cid=145725524 }}</ref> जहां उन्होंने प्रयोग मॉडल के कठोर डिजाइन विकसित किए। उन्होंने पर्याप्तता, सहायक सांख्यिकी, फिशर के रैखिक भेदभावकर्ता और फिशर जानकारी की अवधारणाओं की उत्पत्ति की।<ref>{{cite journal|last=Agresti|first=Alan|author2=David B. Hichcock|year=2005|title=Bayesian Inference for Categorical Data Analysis|journal=Statistical Methods & Applications|issue=3|page=298|url=http://www.stat.ufl.edu/~aa/articles/agresti_hitchcock_2005.pdf|doi=10.1007/s10260-005-0121-y|volume=14|s2cid=18896230|access-date=2013-12-19|archive-date=2013-12-19|archive-url=https://web.archive.org/web/20131219212926/http://www.stat.ufl.edu/~aa/articles/agresti_hitchcock_2005.pdf|url-status=live}}</ref> अपनी 1930 की पुस्तक द जेनिटिकल थ्योरी ऑफ नेचुरल सेलेक्शन में, उन्होंने फिशर के सिद्धांत जैसे विभिन्न जैविक अवधारणाओं पर आंकड़े लागू किए<ref name="Edwards98">{{cite journal|last1=Edwards|first1=A.W.F.|year=1998|title=Natural Selection and the Sex Ratio: Fisher's Sources|journal=American Naturalist|volume=151|issue=6|pages=564–569|doi=10.1086/286141|pmid=18811377|s2cid=40540426}}</ref> (जिसे ए.डब्ल्यू.एफ. एडवर्ड्स को शायद विकासवादी जीव विज्ञान में सबसे प्रसिद्ध मना जाने वाला तर्क कहा जाता है) और फिशरियन रनवे,<ref name ="fisher15">Fisher, R.A. (1915) The evolution of sexual preference. Eugenics Review (7) 184:192</ref><ref name= "fisher30">Fisher, R.A. (1930) [[The Genetical Theory of Natural Selection]]. {{isbn|0-19-850440-3}}</ref><ref name="pers00">Edwards, A.W.F. (2000) Perspectives: Anecdotal, Historial and Critical Commentaries on Genetics. The Genetics Society of America (154) 1419:1426</ref><ref name="ander94">{{cite book|last = Andersson|first = Malte|date = 1994|title = Sexual Selection|isbn = 0-691-00057-3|publisher = Princeton University Press|url = https://books.google.com/books?id=lNnHdvzBlTYC|access-date = 2019-09-19|archive-date = 2019-12-25|archive-url = https://web.archive.org/web/20191225202726/https://books.google.com/books?id=lNnHdvzBlTYC|url-status = live}}</ref><ref name="ander06">Andersson, M. and Simmons, L.W. (2006) Sexual selection and mate choice. Trends, Ecology and Evolution (21) 296:302</ref><ref name="gayon10">Gayon, J. (2010) Sexual selection: Another Darwinian process. Comptes Rendus Biologies (333) 134:144</ref> विकास में पाया गया एक सकारात्मक प्रतिक्रिया भगोड़ा प्रभाव के बारे में यौन चयन में एक अवधारणा हैं। | ||
अंतिम लहर, जो मुख्य रूप से पहले के घटनाक्रमों के शोधन और विस्तार को देखती थी, 1930 के दशक में एगॉन पियर्सन और जेरज़ी नेमैन के बीच सहयोगी काम से | अंतिम लहर, जो मुख्य रूप से पहले के घटनाक्रमों के शोधन और विस्तार को देखती थी, 1930 के दशक में एगॉन पियर्सन और जेरज़ी नेमैन के बीच सहयोगी काम से उभरी थी। उन्होंने टाइप II त्रुटि मे, एक परीक्षण की शक्ति और आत्मविश्वास अंतराल की अवधारणाओं को पेश किया।1934 में जेरज़ी नेमैन ने दिखाया कि स्तरीकृत यादृच्छिक नमूना सामान्य रूप से उद्देश्यपूर्ण नमूने की तुलना में अनुमान का एक बेहतर तरीका था।<ref>{{cite journal | last1 = Neyman | first1 = J | year = 1934 | title = On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection | journal = [[Journal of the Royal Statistical Society]] | volume = 97 | issue = 4| pages = 557–625 | jstor=2342192| doi = 10.2307/2342192 }}</ref> | ||
आज, सांख्यिकीय विधियों को उन सभी क्षेत्रों में लागू किया जाता है, जिनमें निर्णय | आज, सांख्यिकीय विधियों को उन सभी क्षेत्रों में लागू किया जाता है, जिनमें निर्णय लेना शामिल है, आंकड़े के एक कोष्ठित निकाय से सटीक निष्कर्ष निकालने के लिए और सांख्यिकीय पद्धति के आधार पर अनिश्चितता के सामने निर्णय लेने के लिए।आधुनिक कंप्यूटरों के उपयोग ने बड़े पैमाने पर सांख्यिकीय संगणनाओं में तेजी लाई है और नए तरीके भी किए हैं जो मैन्युअल रूप से प्रदर्शन करने के लिए अव्यावहारिक हैं।बड़े आंकड़े विश्लेषण करने की समस्या पर उदाहरण के लिए सक्रिय अनुसंधान का क्षेत्र बने हुए हैं।<ref>{{cite web|url=http://www.santafe.edu/news/item/sfnm-wood-big-data/|title=Science in a Complex World – Big Data: Opportunity or Threat?|work=Santa Fe Institute|access-date=2014-10-13|archive-date=2016-05-30|archive-url=https://web.archive.org/web/20160530001750/http://www.santafe.edu/news/item/sfnm-wood-big-data/|url-status=live}}</ref> | ||
== सांख्यिकीय डेटा == | == सांख्यिकीय डेटा == | ||
{{main| | {{main|सांख्यिकीय डेटा}} | ||
Line 62: | Line 62: | ||
==== नमूना ==== | ==== नमूना ==== | ||
जब पूर्ण जनगणना | जब पूर्ण जनगणना आँकड़े एकत्र नहीं किये जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके नमूना आँकड़े एकत्र करते हैं। सांख्यिकी स्वयं सांख्यिकीय मॉडल के माध्यम से भविष्यवाणी और पूर्वानुमान के लिए उपकरण भी प्रदान करती है। | ||
पूरी आबादी के लिए एक गाइड के रूप में एक नमूने का उपयोग करने के लिए, यह महत्वपूर्ण है कि यह वास्तव में समग्र आबादी का प्रतिनिधित्व करता है। प्रतिनिधि नमूनाकरण का आश्वासन देता है कि | पूरी आबादी के लिए एक गाइड के रूप में एक नमूने का उपयोग करने के लिए, यह महत्वपूर्ण है कि यह वास्तव में समग्र आबादी का प्रतिनिधित्व करता है। प्रतिनिधि नमूनाकरण का आश्वासन देता है कि निष्कर्ष सुरक्षित रूप से नमूने से आबादी तक पूरे के रूप में विस्तारित हो सकते हैं। एक बड़ी समस्या यह निर्धारित करने में निहित है कि चुना गया नमूना वास्तव में प्रतिनिधि है। सांख्यिकी नमूना और आँकड़े संग्रह प्रक्रियाओं के भीतर किसी भी पूर्वाग्रह के लिए अनुमान लगाने और सही करने के तरीके प्रदान करता है। प्रयोगों के लिए प्रयोगात्मक डिजाइन के तरीके भी हैं जो एक अध्ययन की शुरुआत में इन मुद्दों को कम कर सकते हैं, जनसंख्या के बारे में सत्य को समझने की क्षमता को मजबूत कर सकते हैं। | ||
नमूना सिद्धांत संभावना सिद्धांत के गणितीय अनुशासन का हिस्सा है। नमूना आंकड़ों के नमूने वितरण का अध्ययन करने के लिए गणितीय आंकड़ों में संभावना का उपयोग किया जाता है और, | नमूना सिद्धांत संभावना सिद्धांत के गणितीय अनुशासन का हिस्सा है। नमूना आंकड़ों के नमूने वितरण का अध्ययन करने के लिए गणितीय आंकड़ों में संभावना का उपयोग किया जाता है और,आमतौर पर, सांख्यिकीय प्रक्रियाओं के गुणों का उपयोग किया जाता है। किसी भी सांख्यिकीय विधि का उपयोग तब मान्य होता है जब प्रणाली या जनसंख्या विचाराधीन विधि की मान्यताओं को संतुष्ट करती है। क्लासिक संभाव्यता सिद्धांत और नमूनाकरण सिद्धांत के बीच के दृष्टिकोण में अंतर, मोटे तौर पर, यह संभावना सिद्धांत कुल आबादी के दिए गए मापदंडों से शुरू होता है जो नमूनों से संबंधित संभावनाओं को कम करने के लिए होता है। सांख्यिकीय अनुमान, हालांकि, विपरीत दिशा में चलता है। नमूनों से एक बड़ी या कुल आबादी के मापदंडों के लिए आगमनात्मक रूप (इंडुक्टिवेली) का उल्लेख करता है। | ||
==== प्रायोगिक और अवलोकन अध्ययन ==== | ==== प्रायोगिक और अवलोकन अध्ययन ==== | ||
एक सांख्यिकीय अनुसंधान परियोजना के लिए एक सामान्य लक्ष्य कार्य -कारण की जांच करना है, और विशेष रूप से आश्रित चर पर भविष्यवक्ताओं या स्वतंत्र चर के मूल्यों में परिवर्तन के प्रभाव पर एक निष्कर्ष निकालने के | एक सांख्यिकीय अनुसंधान परियोजना के लिए एक सामान्य लक्ष्य कार्य -कारण की जांच करना है, और विशेष रूप से आश्रित चर पर भविष्यवक्ताओं या स्वतंत्र चर के मूल्यों में परिवर्तन के प्रभाव पर एक निष्कर्ष निकालने के लिए हैं। दो प्रमुख प्रकार के कारण सांख्यिकीय अध्ययन हैं: प्रयोगात्मक अध्ययन और अवलोकन अध्ययन। दोनों प्रकार के अध्ययनों में, आश्रित चर के व्यवहार पर एक स्वतंत्र चर (या चर) के अंतर का प्रभाव देखा जाता है। दो प्रकारों के बीच का अंतर इस बात पर निहित है कि वास्तव में अध्ययन कैसे किया जाता है। प्रत्येक बहुत प्रभावी हो सकता है। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली का माप लेना, प्रणाली में हेरफेर करना,और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है क्या हेरफेर ने माप के मूल्यों को संशोधित किया है। इसके विपरीत, एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है। इसके बजाय, आँकड़े एकत्र किए जाते हैं और भविष्यवक्ताओं और प्रतिक्रिया के बीच सहसंबंधों की जांच की जाती है। जबकि आँकड़े विश्लेषण के उपकरण यादृच्छिक अध्ययनों से आँकड़ो पर सबसे अच्छा काम करते हैं, वे अन्य प्रकार के आँकड़ो पर भी लागू होते हैं - जैसे प्राकृतिक प्रयोग और अवलोकन अध्ययन<ref>[[David A. Freedman (statistician)|Freedman, D.A.]] (2005) ''Statistical Models: Theory and Practice'', Cambridge University Press. {{isbn|978-0-521-67105-7}}</ref> क्या, जो एक सांख्यिकीविद् एक संशोधित,अधिक संरचित अनुमान विधि (जैसे, अंतर अनुमान और वाद्य चर में अंतर, कई अन्य लोगों के बीच) का उपयोग करेगा जो लगातार अनुमानक का उत्पादन करते हैं। | ||
एक प्रायोगिक अध्ययन में अध्ययन के तहत | |||
===== प्रयोग ===== | ===== प्रयोग ===== | ||
एक सांख्यिकीय प्रयोग के मूल चरण हैं: | एक सांख्यिकीय प्रयोग के मूल चरण हैं: | ||
# अनुसंधान की योजना, जिसमें अध्ययन की प्रतिकृति की संख्या का पता लगाना शामिल है, निम्नलिखित जानकारी का उपयोग करते हुए: उपचार प्रभावों के आकार, वैकल्पिक परिकल्पना और अनुमानित प्रयोगात्मक परिवर्तनशीलता के आकार के बारे में प्रारंभिक | # अनुसंधान की योजना, जिसमें अध्ययन की प्रतिकृति की संख्या का पता लगाना शामिल है, निम्नलिखित जानकारी का उपयोग करते हुए: उपचार प्रभावों के आकार, वैकल्पिक परिकल्पना और अनुमानित प्रयोगात्मक परिवर्तनशीलता के आकार के बारे में प्रारंभिक अनुमान, प्रयोगात्मक विषयों के चयन और अनुसंधान की नैतिकता पर विचार आवश्यक है। सांख्यिकीविद् सलाह देते हैं कि प्रयोगों को एक मानक उपचार या नियंत्रण के साथ एक नए उपचार की तुलना करें, उपचार प्रभावों में अंतर के निष्पक्ष अनुमान की अनुमति देने के लिए करता है। | ||
# प्रयोगों का डिज़ाइन, भ्रमित चर के प्रभाव को कम करने के लिए अवरुद्ध का उपयोग करके, और उपचार के प्रभावों और प्रयोगात्मक त्रुटि के निष्पक्ष अनुमानों की अनुमति देने के लिए विषयों को उपचार के यादृच्छिक | # प्रयोगों का डिज़ाइन, भ्रमित चर के प्रभाव को कम करने के लिए अवरुद्ध का उपयोग करके, और उपचार के प्रभावों और प्रयोगात्मक त्रुटि के निष्पक्ष अनुमानों की अनुमति देने के लिए विषयों को उपचार के यादृच्छिक नियत कार्य (असाइनमेंट)। इस स्तर पर, प्रयोगकर्ता और सांख्यिकीविद प्रयोगात्मक प्रोटोकॉल लिखते हैं जो प्रयोग के प्रदर्शन को निर्देशित करेगा और जो प्रयोगात्मक डेटा के प्राथमिक विश्लेषण को निर्दिष्ट करता है। | ||
# प्रयोगात्मक प्रोटोकॉल के बाद प्रयोग करना और प्रयोगात्मक प्रोटोकॉल के बाद | # प्रयोगात्मक प्रोटोकॉल के बाद प्रयोग करना और प्रयोगात्मक प्रोटोकॉल के बाद आंकड़ों का विश्लेषण करना। | ||
# भविष्य के अध्ययन के लिए नई परिकल्पना का सुझाव देने के लिए, द्वितीयक विश्लेषण में सेट किए गए | # भविष्य के अध्ययन के लिए नई परिकल्पना का सुझाव देने के लिए, द्वितीयक विश्लेषण में सेट किए गए आंकड़ों की जांच करना। | ||
# अध्ययन के परिणामों का दस्तावेजीकरण | # अध्ययन के परिणामों का दस्तावेजीकरण प्रस्तुत करना। | ||
मानव व्यवहार पर प्रयोगों की विशेष चिंताएं हैं। प्रसिद्ध हॉथोर्न अध्ययन ने पश्चिमी इलेक्ट्रिक कंपनी के हॉथोर्न प्लांट में काम के माहौल में बदलाव की जांच | मानव व्यवहार पर प्रयोगों की विशेष चिंताएं हैं। प्रसिद्ध हॉथोर्न अध्ययन ने पश्चिमी इलेक्ट्रिक कंपनी के हॉथोर्न प्लांट में काम के माहौल में बदलाव की जांच की थी। शोधकर्ता यह निर्धारित करने में रुचि रखते थे कि क्या बढ़ी हुई रोशनी से विधानसभा लाइन श्रमिकों की उत्पादकता बढ़ेगी। शोधकर्ताओं ने पहले संयंत्र में उत्पादकता को मापा, फिर संयंत्र के एक क्षेत्र में रोशनी को संशोधित किया और जांच की कि क्या रोशनी प्रभावित उत्पादकता में परिवर्तन होता है।। यह पता चला कि उत्पादकता वास्तव में (प्रयोगात्मक परिस्थितियों में) में सुधार हुआ है। हालांकि, प्रायोगिक प्रक्रियाओं में त्रुटियों के लिए अध्ययन की आज की भारी आलोचना की जाती है, विशेष रूप से एक नियंत्रण समूह और डबल-ब्लाइंड की कमी के लिए । हॉथोर्न प्रभाव यह पता लगाने के लिए है कि एक परिणाम (इस मामले में, कार्यकर्ता उत्पादकता) अवलोकन के कारण बदल गया। हॉथोर्न अध्ययन में वे अधिक उत्पादक बन गए क्योंकि प्रकाश व्यवस्था को बदल दिया गया था, लेकिन क्योंकि उन्हें देखा जा रहा था।<ref name="pmid17608932">{{cite journal |vauthors=McCarney R, Warner J, Iliffe S, van Haselen R, Griffin M, Fisher P |title=The Hawthorne Effect: a randomised, controlled trial |journal=BMC Med Res Methodol |volume=7|pages=30 |year=2007 |pmid=17608932 |pmc=1936999 |doi=10.1186/1471-2288-7-30 |issue=1}}</ref> | ||
===== अवलोकन अध्ययन ===== | ===== अवलोकन अध्ययन ===== | ||
एक अवलोकन अध्ययन का एक उदाहरण वह है जो धूम्रपान और फेफड़ों के कैंसर के बीच संबंध की पड़ताल करता | एक अवलोकन अध्ययन का एक उदाहरण वह है जो धूम्रपान और फेफड़ों के कैंसर के बीच संबंध की पड़ताल करता है। इस प्रकार का अध्ययन आमतौर पर ब्याज के क्षेत्र के बारे में टिप्पणियों को इकट्ठा करने के लिए एक सर्वेक्षण का उपयोग करता है और फिर सांख्यिकीय विश्लेषण करता है। इस मामले में, शोधकर्ता धूम्रपान करने वालों और गैर-धूम्रपान करने वालों की टिप्पणियों को एकत्र करेंगे, शायद एक कोहोर्ट अध्ययन के माध्यम से, और फिर प्रत्येक समूह में फेफड़े के कैंसर के मामलों की संख्या की तलाश करेंगे।<ref>{{cite book|editor1-last=Rothman|editor1-first=Kenneth J|editor2-last=Greenland|editor2-first=Sander|editor3-last=Lash|editor3-first=Timothy|title=Modern Epidemiology|url=https://archive.org/details/modernepidemiolo00roth|url-access=limited|date=2008|publisher=Lippincott Williams & Wilkins|page=[https://archive.org/details/modernepidemiolo00roth/page/n100 100]|edition=3rd|language=en|chapter=7|isbn=9780781755641}}</ref> केस-कंट्रोल अध्ययन एक अन्य प्रकार का अवलोकन अध्ययन है जिसमें ब्याज के परिणाम के साथ और बिना (जैसे फेफड़े के कैंसर) को भाग लेने के लिए आमंत्रित किया जाता है और उनके उद्भास (एक्सपोज़र) इतिहास एकत्र किए जाते हैं। | ||
=== डेटा के प्रकार === | === डेटा के प्रकार === | ||
{{main| | {{main|सांख्यिकीय डेटा प्रकार||माप का स्तर}} | ||
माप के स्तरों के एक वर्गीकरण का उत्पादन करने के लिए विभिन्न प्रयास किए गए हैं। साइकोफिजिसिस्ट स्टेनली स्मिथ स्टीवंस ने नाममात्र, क्रमिक, अंतराल और अनुपात तराजू को परिभाषित किया। नाममात्र माप में मूल्यों के बीच सार्थक रैंक | माप के स्तरों के एक वर्गीकरण का उत्पादन करने के लिए विभिन्न प्रयास किए गए हैं। साइकोफिजिसिस्ट स्टेनली स्मिथ स्टीवंस ने नाममात्र, क्रमिक, अंतराल और अनुपात तराजू को परिभाषित किया। नाममात्र माप में मूल्यों के बीच सार्थक श्रेणी (रैंक) क्रम नहीं होता है, और किसी एक-से-एक अंतःक्षेपक (इंजेक्शन) परिवर्तन की अनुमति देता है। ऑर्डिनल माप में लगातार मूल्यों के बीच अंतर होता है, लेकिन उन मूल्यों के लिए एक सार्थक आदेश होता है, और किसी भी ऑर्डर-संरक्षण परिवर्तन की अनुमति देता है। अंतराल माप में परिभाषित माप के बीच सार्थक दूरी होती है, लेकिन शून्य मान स्वेच्छाचारी है (जैसे कि सेल्सियस या फ़ारेनहाइट में देशांतर और तापमान माप के साथ), और किसी भी रैखिक परिवर्तन की अनुमति देता है। अनुपात माप में एक सार्थक शून्य मूल्य और परिभाषित विभिन्न मापों के बीच की दूरी दोनों होती है, और किसी भी पुनरुत्थान परिवर्तन की अनुमति देती है। | ||
क्योंकि केवल नाममात्र या क्रमिक माप के अनुरूप चर को संख्यात्मक रूप से मापा नहीं जा सकता है, कभी -कभी उन्हें एक साथ श्रेणीबद्ध चर के रूप में समूहीकृत किया जाता है, जबकि अनुपात और अंतराल माप को एक साथ मात्रात्मक चर के रूप में समूहीकृत किया जाता है, जो कि उनकी संख्यात्मक प्रकृति के कारण असतत या निरंतर हो सकता है। इस तरह के भेदों को अक्सर कंप्यूटर विज्ञान में डेटा प्रकार के साथ शिथिल रूप से सहसंबद्ध किया जा सकता है, जिसमें द्विध्रुवीय श्रेणीबद्ध चर को बूलियन डेटा प्रकार के साथ दर्शाया जा सकता है, अभिन्न रूप से सौंपे गए पूर्णांक के साथ पॉलिटोमस श्रेणीबद्ध चर, और वास्तविक डेटा प्रकार के साथ निरंतर चर शामिल हैं। फ्लोटिंग-पॉइंट | क्योंकि केवल नाममात्र या क्रमिक माप के अनुरूप चर को संख्यात्मक रूप से मापा नहीं जा सकता है, कभी -कभी उन्हें एक साथ श्रेणीबद्ध चर के रूप में समूहीकृत किया जाता है, जबकि अनुपात और अंतराल माप को एक साथ मात्रात्मक चर के रूप में समूहीकृत किया जाता है, जो कि उनकी संख्यात्मक प्रकृति के कारण असतत या निरंतर हो सकता है। इस तरह के भेदों को अक्सर कंप्यूटर विज्ञान में डेटा प्रकार के साथ शिथिल रूप से सहसंबद्ध किया जा सकता है, जिसमें द्विध्रुवीय श्रेणीबद्ध चर को बूलियन डेटा प्रकार के साथ दर्शाया जा सकता है,अभिन्न रूप से सौंपे गए पूर्णांक के साथ पॉलिटोमस श्रेणीबद्ध चर, और वास्तविक डेटा प्रकार के साथ निरंतर चर शामिल हैं। फ्लोटिंग-पॉइंट अंकगणित लेकिन सांख्यिकीय डेटा प्रकारों के लिए कंप्यूटर विज्ञान डेटा प्रकारों की मैपिंग इस बात पर निर्भर करती है कि बाद में किस वर्गीकरण को लागू किया जा रहा है। | ||
अन्य वर्गीकरण प्रस्तावित किए गए हैं। उदाहरण के लिए, मोस्टेलर और तुकी (1977)<ref>{{cite book | last1 = Mosteller | first1 = F. | author-link1 = Frederick Mosteller | last2 = Tukey | first2 = J.W | author-link2 = John Tukey | year = 1977 | title = Data analysis and regression | location = Boston | publisher = Addison-Wesley}}</ref> प्रतिष्ठित ग्रेड, रैंक, गिनती किए गए अंश, गणना, मात्रा और | अन्य वर्गीकरण प्रस्तावित किए गए हैं। उदाहरण के लिए, मोस्टेलर और तुकी (1977)<ref>{{cite book | last1 = Mosteller | first1 = F. | author-link1 = Frederick Mosteller | last2 = Tukey | first2 = J.W | author-link2 = John Tukey | year = 1977 | title = Data analysis and regression | location = Boston | publisher = Addison-Wesley}}</ref> प्रतिष्ठित ग्रेड, रैंक, गिनती किए गए अंश, गणना, मात्रा और संतुलन। नेल्डर (1990)<ref>[[John Nelder|Nelder, J.A.]] (1990). The knowledge needed to computerise the analysis and interpretation of statistical information. In ''Expert systems and artificial intelligence: the need for information about data''. Library Association Report, London, March, 23–27.</ref> निरंतर गणना, निरंतर अनुपात, गणना अनुपात और डेटा के श्रेणीबद्ध मोड का वर्णन किया गया है। (यह भी देखें: क्रिसमैन (1998),<ref>{{cite journal | last1 = Chrisman | first1 = Nicholas R | year = 1998 | title = Rethinking Levels of Measurement for Cartography | journal = Cartography and Geographic Information Science | volume = 25 | issue = 4| pages = 231–242 | doi=10.1559/152304098782383043}}</ref> वैन डेन बर्ग (1991) ।<ref>van den Berg, G. (1991). ''Choosing an analysis method''. Leiden: DSWO Press</ref>) | ||
विभिन्न प्रकार की माप प्रक्रियाओं से प्राप्त डेटा के लिए विभिन्न प्रकार के सांख्यिकीय तरीकों को लागू करना उचित है या नहीं, यह मुद्दा चर के परिवर्तन और अनुसंधान प्रश्नों की सटीक व्याख्या से संबंधित मुद्दों से जटिल | विभिन्न प्रकार की माप प्रक्रियाओं से प्राप्त आंकड़ों (डेटा) के लिए विभिन्न प्रकार के सांख्यिकीय तरीकों को लागू करना उचित है या नहीं, यह मुद्दा चर के परिवर्तन और अनुसंधान प्रश्नों की सटीक व्याख्या से संबंधित मुद्दों से जटिल है। डेटा के बीच संबंध और वे जो वर्णन करते हैं, वह केवल इस तथ्य को दर्शाता है कि कुछ प्रकार के सांख्यिकीय बयानों में सत्य मूल्य हो सकते हैं जो कुछ परिवर्तनों के तहत अपरिवर्तनीय नहीं हैं। एक परिवर्तन चिंतन करने के लिए समझदार है या नहीं, यह उस प्रश्न पर निर्भर करता है जो एक जवाब देने की कोशिश कर रहा है।<ref>Hand, D.J. (2004). ''Measurement theory and practice: The world through quantification.'' London: Arnold.</ref>{{rp|82}} | ||
== तरीके == | == तरीके == | ||
{{more citations needed section|date=December 2020}} | {{more citations needed section|date=December 2020}} | ||
=== वर्णनात्मक सांख्यिकी === | === वर्णनात्मक सांख्यिकी === | ||
{{main| | {{main|वर्णनात्मक आँकड़े}} | ||
एक वर्णनात्मक आँकड़ा (गिनती संज्ञा अर्थ में) एक सारांश आँकड़ा है जो मात्रात्मक रूप से जानकारी के संग्रह की विशेषताओं का वर्णन या सारांशित करता है,<ref>{{cite book |last=Mann |first=Prem S. |year=1995 |title=Introductory Statistics |url=https://archive.org/details/introductorystat02edmann_z9s5 |url-access=registration |edition=2nd |publisher=Wiley |isbn=0-471-31009-3 }}</ref> जबकि | एक वर्णनात्मक आँकड़ा (गिनती संज्ञा अर्थ में) एक सारांश आँकड़ा है जो मात्रात्मक रूप से जानकारी के संग्रह की विशेषताओं का वर्णन या सारांशित करता है,<ref>{{cite book |last=Mann |first=Prem S. |year=1995 |title=Introductory Statistics |url=https://archive.org/details/introductorystat02edmann_z9s5 |url-access=registration |edition=2nd |publisher=Wiley |isbn=0-471-31009-3 }}</ref> जबकि द्रव्यमान संज्ञा अर्थ में वर्णनात्मक आँकड़े उन आंकड़ों का उपयोग और विश्लेषण करने की प्रक्रिया है। वर्णनात्मक आंकड़े हीन आंकड़ों (या आगमनात्मक आंकड़ों) से अलग हैं, उस वर्णनात्मक आंकड़ों में एक नमूने को संक्षेप में प्रस्तुत करना है, बजाय इसके कि आंकड़ों उपयोग करने के लिए आंकड़ों का नमूना प्रतिनिधित्व करने के लिए सोचा जाता है। | ||
=== हीन आँकड़े === | === हीन आँकड़े === | ||
{{main| | {{main|सांख्यिकीय निष्कर्ष}} | ||
सांख्यिकीय अनुमान एक अंतर्निहित संभावना वितरण के गुणों को कम करने के लिए डेटा विश्लेषण का उपयोग करने की प्रक्रिया है।<ref name="Oxford">Upton, G., Cook, I. (2008) ''Oxford Dictionary of Statistics'', OUP. {{ISBN|978-0-19-954145-4}}.</ref> हीन सांख्यिकीय विश्लेषण एक आबादी के गुणों को प्रभावित करता है, उदाहरण के लिए परिकल्पना और व्युत्पन्न अनुमानों का परीक्षण | सांख्यिकीय अनुमान एक अंतर्निहित संभावना वितरण के गुणों को कम करने के लिए डेटा विश्लेषण का उपयोग करने की प्रक्रिया है।<ref name="Oxford">Upton, G., Cook, I. (2008) ''Oxford Dictionary of Statistics'', OUP. {{ISBN|978-0-19-954145-4}}.</ref> हीन सांख्यिकीय विश्लेषण एक आबादी के गुणों को प्रभावित करता है,उदाहरण के लिए परिकल्पना और व्युत्पन्न अनुमानों का परीक्षण करके। यह माना जाता है कि प्रेक्षित आंकड़ों का सेट एक बड़ी आबादी से नमूना लेके बनाया गया है। वर्णनात्मक आंकड़ों के साथ हीन आंकड़े विपरीत हो सकते हैं। वर्णनात्मक आँकड़े पूरी तरह से देखे गए आंकड़ों के गुणों से संबंधित हैं,और यह इस धारणा पर संदेह नहीं करता है कि आंकड़ों एक बड़ी आबादी से आते है। | ||
==== शब्दावली और हीन सांख्यिकी का सिद्धांत ==== | ==== शब्दावली और हीन सांख्यिकी का सिद्धांत ==== | ||
Line 114: | Line 114: | ||
किसी दिए गए संभाव्यता वितरण के साथ स्वतंत्र रूप से वितरित (IID) यादृच्छिक चर पर विचार करें: मानक सांख्यिकीय अनुमान और अनुमान सिद्धांत एक यादृच्छिक नमूने को परिभाषित करता है क्योंकि इन IID चर के स्तंभ वेक्टर द्वारा दिए गए यादृच्छिक वेक्टर के रूप में।<ref name=Piazza>Piazza Elio, Probabilità e Statistica, Esculapio 2007</ref> जांच की जा रही आबादी को एक संभाव्यता वितरण द्वारा वर्णित किया गया है जिसमें अज्ञात पैरामीटर हो सकते हैं। | किसी दिए गए संभाव्यता वितरण के साथ स्वतंत्र रूप से वितरित (IID) यादृच्छिक चर पर विचार करें: मानक सांख्यिकीय अनुमान और अनुमान सिद्धांत एक यादृच्छिक नमूने को परिभाषित करता है क्योंकि इन IID चर के स्तंभ वेक्टर द्वारा दिए गए यादृच्छिक वेक्टर के रूप में।<ref name=Piazza>Piazza Elio, Probabilità e Statistica, Esculapio 2007</ref> जांच की जा रही आबादी को एक संभाव्यता वितरण द्वारा वर्णित किया गया है जिसमें अज्ञात पैरामीटर हो सकते हैं। | ||
एक आँकड़ा एक यादृच्छिक चर है जो यादृच्छिक नमूने का एक कार्य है, लेकिन | एक आँकड़ा एक यादृच्छिक चर है जो यादृच्छिक नमूने का एक कार्य है, लेकिन अज्ञात मापदंडों का एक फलन(फ़ंक्शन) नहीं है। सांख्यिकीय की संभावना वितरण, हालांकि, अज्ञात पैरामीटर हो सकते हैं।अब अज्ञात पैरामीटर के एक फलन पर विचार करें: एक अनुमानक एक सांख्यिकीय है जिसका उपयोग इस तरह के कार्य का अनुमान लगाने के लिए किया जाता है। आमतौर पर उपयोग किए जाने वाले अनुमानकों में नमूना माध्य, निष्पक्ष नमूना विचरण और नमूना सहसंयोजक शामिल हैं। | ||
एक यादृच्छिक चर जो यादृच्छिक नमूने और अज्ञात पैरामीटर का एक कार्य है, लेकिन जिसका संभाव्यता वितरण अज्ञात पैरामीटर पर निर्भर नहीं करता है, को एक निर्णायक मात्रा या धुरी कहा जाता | एक यादृच्छिक चर जो यादृच्छिक नमूने और अज्ञात पैरामीटर का एक कार्य है,लेकिन जिसका संभाव्यता वितरण अज्ञात पैरामीटर पर निर्भर नहीं करता है, को एक निर्णायक मात्रा या धुरी कहा जाता है।व्यापक रूप से उपयोग किए जाने वाले निर्णायक (पिवट) में जेड-स्कोर, ची स्क्वायर सांख्यिकीय और छात्र का टी-वैल्यू शामिल है। | ||
किसी दिए गए पैरामीटर के दो अनुमानकों के बीच, कम माध्य वर्ग त्रुटि वाले | किसी दिए गए पैरामीटर के दो अनुमानकों के बीच,कम माध्य वर्ग त्रुटि वाले व्यक्ति को अधिक कुशल कहा जाता है। इसके अलावा, एक अनुमानक को निष्पक्ष कहा जाता है यदि इसका अपेक्षित मूल्य अनुमानित अज्ञात पैरामीटर के वास्तविक मूल्य के बराबर है, और उपगामित (एसिम्प्टोटिक) रूप से निष्पक्ष है यदि इसका अपेक्षित मूल्य इस तरह के पैरामीटर के वास्तविक मूल्य की सीमा पर अभिसरण करता है। | ||
अनुमानकों के लिए अन्य वांछनीय गुणों में शामिल हैं: UMVUE अनुमानक जो अनुमानित किए जाने वाले पैरामीटर के सभी संभावित मूल्यों के लिए सबसे कम विचरण करते हैं (यह आमतौर पर दक्षता की तुलना में सत्यापित करने के लिए एक आसान संपत्ति है) और सुसंगत अनुमानक जो इस तरह के पैरामीटर के सही मूल्य के लिए संभावना में परिवर्तित होते हैं । | अनुमानकों के लिए अन्य वांछनीय गुणों में शामिल हैं: UMVUE अनुमानक जो अनुमानित किए जाने वाले पैरामीटर के सभी संभावित मूल्यों के लिए सबसे कम विचरण करते हैं (यह आमतौर पर दक्षता की तुलना में सत्यापित करने के लिए एक आसान संपत्ति है) और सुसंगत अनुमानक जो इस तरह के पैरामीटर के सही मूल्य के लिए संभावना में परिवर्तित होते हैं । | ||
यह अभी भी इस सवाल को छोड़ देता है कि किसी दिए गए स्थिति में अनुमानक कैसे प्राप्त किया जाए और गणना को आगे बढ़ाया जाए, कई तरीकों का प्रस्ताव किया गया है: क्षणों की विधि, अधिकतम संभावना विधि, कम से कम वर्ग विधि और समीकरणों का आकलन करने की अधिक हालिया | यह अभी भी इस सवाल को छोड़ देता है कि किसी दिए गए स्थिति में अनुमानक कैसे प्राप्त किया जाए और गणना को आगे बढ़ाया जाए, कई तरीकों का प्रस्ताव किया गया है: क्षणों की विधि, अधिकतम संभावना विधि, कम से कम वर्ग विधि और समीकरणों का आकलन करने की अधिक हालिया विधि है। | ||
===== अशक्त परिकल्पना और वैकल्पिक परिकल्पना ===== | ===== अशक्त परिकल्पना और वैकल्पिक परिकल्पना ===== | ||
सांख्यिकीय जानकारी की व्याख्या में अक्सर एक अशक्त परिकल्पना के विकास को शामिल किया जा सकता है जो आमतौर पर (लेकिन जरूरी नहीं है) कि कोई संबंध चर के बीच मौजूद नहीं है या समय के साथ कोई परिवर्तन नहीं हुआ है।<ref>{{cite book | last = Everitt | first = Brian | title = The Cambridge Dictionary of Statistics | publisher = Cambridge University Press | location = Cambridge, UK New York | year = 1998 | isbn = 0521593468 | url = https://archive.org/details/cambridgediction00ever_0 }}</ref><ref>{{cite web |url=http://www.yourstatsguru.com/epar/rp-reviewed/cohen1994/ |title=Cohen (1994) The Earth Is Round (p < .05) |publisher=YourStatsGuru.com |access-date=2015-07-20 |archive-date=2015-09-05 |archive-url=https://web.archive.org/web/20150905081658/http://www.yourstatsguru.com/epar/rp-reviewed/cohen1994/ |url-status=live }}</ref> | सांख्यिकीय जानकारी की व्याख्या में अक्सर एक अशक्त परिकल्पना के विकास को शामिल किया जा सकता है जो आमतौर पर (लेकिन जरूरी नहीं है) कि कोई संबंध चर के बीच मौजूद नहीं है या समय के साथ कोई परिवर्तन नहीं हुआ है।<ref>{{cite book | last = Everitt | first = Brian | title = The Cambridge Dictionary of Statistics | publisher = Cambridge University Press | location = Cambridge, UK New York | year = 1998 | isbn = 0521593468 | url = https://archive.org/details/cambridgediction00ever_0 }}</ref><ref>{{cite web |url=http://www.yourstatsguru.com/epar/rp-reviewed/cohen1994/ |title=Cohen (1994) The Earth Is Round (p < .05) |publisher=YourStatsGuru.com |access-date=2015-07-20 |archive-date=2015-09-05 |archive-url=https://web.archive.org/web/20150905081658/http://www.yourstatsguru.com/epar/rp-reviewed/cohen1994/ |url-status=live }}</ref> | ||
एक नौसिखिया के लिए सबसे अच्छा चित्रण एक आपराधिक परीक्षण द्वारा सामना किया गया विधेय | एक नौसिखिया के लिए सबसे अच्छा चित्रण एक आपराधिक परीक्षण द्वारा सामना किया गया विधेय है। अशक्त परिकल्पना, H<sub>0</sub> दावा करता है कि प्रतिवादी निर्दोष है, जबकि वैकल्पिक परिकल्पना, H<sub>1</sub> दावा करता है कि प्रतिवादी दोषी है। अपराध के संदेह के कारण अभियोग आता है। H<sub>0</sub> (यथास्थिति) H<sub>1</sub> के विरोध में खड़ा है और जब तक H<sub>1</sub> बनाए रखा जाता है एक उचित संदेह से परे साक्ष्य द्वारा समर्थित है। हालांकि, H<sub>0</sub> को अस्वीकार करने में विफलताइस मामले में निर्दोषता नहीं है, लेकिन केवल यह है कि सबूत दोषी ठहराने के लिए अपर्याप्त थे तो जरूरी नहीं है कि H<sub>0</sub> स्वीकार करें लेकिन H<sub>0</sub> को अस्वीकार करने में विफल रहता है। जबकि कोई एक शून्य परिकल्पना साबित नहीं कर सकता है, कोई यह परीक्षण कर सकता है कि पावर टेस्ट के साथ यह सच होना कितना करीब है, जो टाइप II त्रुटियों के लिए परीक्षण करता है। | ||
जो सांख्यिकीविद् एक वैकल्पिक परिकल्पना कहते हैं, वह केवल एक परिकल्पना है जो अशक्त परिकल्पना का खंडन करती है। | जो सांख्यिकीविद् एक वैकल्पिक परिकल्पना कहते हैं, वह केवल एक परिकल्पना है जो अशक्त परिकल्पना का खंडन करती है। | ||
Line 137: | Line 137: | ||
मानक विचलन का अर्थ उस हद तक है कि एक नमूने में व्यक्तिगत अवलोकन एक केंद्रीय मूल्य से भिन्न होते हैं, जैसे कि नमूना या जनसंख्या का मतलब, जबकि मानक त्रुटि नमूना माध्य और जनसंख्या के बीच अंतर के अनुमान को संदर्भित करती है। | मानक विचलन का अर्थ उस हद तक है कि एक नमूने में व्यक्तिगत अवलोकन एक केंद्रीय मूल्य से भिन्न होते हैं, जैसे कि नमूना या जनसंख्या का मतलब, जबकि मानक त्रुटि नमूना माध्य और जनसंख्या के बीच अंतर के अनुमान को संदर्भित करती है। | ||
एक सांख्यिकीय त्रुटि वह राशि है जिसके द्वारा एक अवलोकन उसके अपेक्षित मूल्य से भिन्न होता | एक सांख्यिकीय त्रुटि वह राशि है जिसके द्वारा एक अवलोकन उसके अपेक्षित मूल्य से भिन्न होता है। एक अवशिष्ट वह राशि है जो एक अवलोकन मूल्य से भिन्न होता है। अपेक्षित मूल्य के अनुमानक को किसी दिए गए नमूने पर मान लिया जाता है (जिसे भविष्यवाणी भी कहा जाता है)। | ||
माध्य चुकता त्रुटि का उपयोग कुशल अनुमानक प्राप्त करने के लिए किया जाता है, अनुमानकों का व्यापक रूप से उपयोग किया जाता | माध्य चुकता त्रुटि का उपयोग कुशल अनुमानक प्राप्त करने के लिए किया जाता है, अनुमानकों का व्यापक रूप से उपयोग किया जाता है। वर्ग माध्य , वर्ग त्रुटि केवल माध्य वर्ग त्रुटि का वर्गमूल है। | ||
[[File:Linear least squares(2).svg|thumb|right|एक कम से कम वर्ग फिट: लाल रंग में, फिट किए जाने वाले बिंदुओं को फिट किया जाना चाहिए।]] | [[File:Linear least squares(2).svg|thumb|right|एक कम से कम वर्ग फिट: लाल रंग में, फिट किए जाने वाले बिंदुओं को फिट किया जाना चाहिए।]] | ||
कई सांख्यिकीय तरीके वर्गों के अवशिष्ट योग को कम करने की कोशिश करते हैं, और इन्हें कम से कम निरपेक्ष विचलन के विपरीत कम से कम वर्गों के तरीके कहा जाता है। उत्तरार्द्ध छोटी और बड़ी त्रुटियों को समान वजन देता है, जबकि पूर्व बड़ी त्रुटियों को अधिक वजन देता है। वर्गों का अवशिष्ट योग भी अलग है, जो प्रतिगमन करने के लिए एक आसान संपत्ति प्रदान करता है। रैखिक प्रतिगमन के लिए लागू कम से कम वर्गों को साधारण कम से कम वर्ग विधि कहा जाता है और नॉनलाइनियर रिग्रेशन पर लागू कम से कम वर्गों को गैर-रैखिक कम से कम वर्ग कहा जाता है। इसके अलावा एक रैखिक प्रतिगमन मॉडल में मॉडल के गैर -नियतात्मक भाग को त्रुटि शब्द, गड़बड़ी या अधिक सरल शोर कहा जाता है। दोनों रैखिक प्रतिगमन और गैर-रैखिक प्रतिगमन दोनों को बहुपद कम से कम वर्गों में संबोधित किया जाता है, जो स्वतंत्र चर ( | कई सांख्यिकीय तरीके वर्गों के अवशिष्ट योग को कम करने की कोशिश करते हैं, और इन्हें कम से कम निरपेक्ष विचलन के विपरीत कम से कम वर्गों के तरीके कहा जाता है। उत्तरार्द्ध छोटी और बड़ी त्रुटियों को समान वजन देता है, जबकि पूर्व बड़ी त्रुटियों को अधिक वजन देता है। वर्गों का अवशिष्ट योग भी अलग है, जो प्रतिगमन करने के लिए एक आसान संपत्ति प्रदान करता है। रैखिक प्रतिगमन के लिए लागू कम से कम वर्गों को साधारण कम से कम वर्ग विधि कहा जाता है और अरैखिक प्रतिगमन(नॉनलाइनियर रिग्रेशन) पर लागू कम से कम वर्गों को गैर-रैखिक कम से कम वर्ग कहा जाता है। इसके अलावा एक रैखिक प्रतिगमन मॉडल में मॉडल के गैर -नियतात्मक भाग को त्रुटि शब्द, गड़बड़ी या अधिक सरल शोर कहा जाता है। दोनों रैखिक प्रतिगमन और गैर-रैखिक प्रतिगमन दोनों को बहुपद कम से कम वर्गों में संबोधित किया जाता है, जो स्वतंत्र चर (x अक्ष) और विचलन (त्रुटियों, शोर,उत्तेजना) के एक समारोह के रूप में आश्रित चर (y अक्ष) की भविष्यवाणी में विचरण का भी वर्णन करता है, अनुमानित (फिट) वक्र से विचलन का भी वर्णन करता है । | ||
सांख्यिकीय | सांख्यिकीय आँकड़े उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप मे वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, जैसे कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी महत्वपूर्ण हो सकता है। लापता आँकड़े या सेंसरिंग की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।<ref>Rubin, Donald B.; Little, Roderick J.A., Statistical analysis with missing data, New York: Wiley 2002</ref> | ||
===== अंतराल अनुमान ===== | ===== अंतराल अनुमान ===== | ||
{{main| | {{main|अंतराल अनुमान}} | ||
[[File:NYW-confidence-interval.svg|thumb|right|आत्मविश्वास अंतराल: लाल रेखा इस उदाहरण में माध्य के लिए सही मूल्य है, नीली रेखाएं 100 अहसास के लिए यादृच्छिक आत्मविश्वास अंतराल हैं।]] | [[File:NYW-confidence-interval.svg|thumb|right|आत्मविश्वास अंतराल: लाल रेखा इस उदाहरण में माध्य के लिए सही मूल्य है, नीली रेखाएं 100 अहसास के लिए यादृच्छिक आत्मविश्वास अंतराल हैं।]] | ||
अधिकांश अध्ययन केवल एक आबादी का नमूना हिस्सा है, इसलिए परिणाम पूरी तरह से पूरी आबादी का प्रतिनिधित्व नहीं करते हैं। नमूने से प्राप्त कोई भी अनुमान केवल जनसंख्या मूल्य को अनुमानित करता है। आत्मविश्वास अंतराल सांख्यिकीविदों को यह व्यक्त करने की अनुमति देता है कि नमूना अनुमान पूरी आबादी में सही मूल्य से कैसे निकटता से मेल खाता है। अक्सर उन्हें 95% विश्वास अंतराल के रूप में व्यक्त किया जाता है। औपचारिक रूप से, एक मूल्य के लिए 95% आत्मविश्वास अंतराल एक सीमा है, जहां यदि नमूना और विश्लेषण समान परिस्थितियों में दोहराया गया था (एक अलग डेटासेट की उपज), तो अंतराल में सभी संभावित मामलों के 95% में सही (जनसंख्या) मूल्य शामिल होगा । इसका मतलब यह नहीं है कि विश्वास अंतराल में वास्तविक मूल्य है कि वास्तविक मूल्य 95%है। बार -बार के दृष्टिकोण से, ऐसा दावा भी समझ में नहीं आता है, क्योंकि सही मूल्य एक यादृच्छिक चर नहीं है। या तो सही मूल्य है या दिए गए अंतराल के भीतर नहीं है। हालांकि, यह सच है कि, इससे पहले कि किसी भी | अधिकांश अध्ययन केवल एक आबादी का नमूना हिस्सा है, इसलिए परिणाम पूरी तरह से पूरी आबादी का प्रतिनिधित्व नहीं करते हैं। नमूने से प्राप्त कोई भी अनुमान केवल जनसंख्या मूल्य को अनुमानित करता है। आत्मविश्वास अंतराल सांख्यिकीविदों को यह व्यक्त करने की अनुमति देता है कि नमूना अनुमान पूरी आबादी में सही मूल्य से कैसे निकटता से मेल खाता है। अक्सर उन्हें 95% विश्वास अंतराल के रूप में व्यक्त किया जाता है। औपचारिक रूप से, एक मूल्य के लिए 95% आत्मविश्वास अंतराल एक सीमा है, जहां यदि नमूना और विश्लेषण समान परिस्थितियों में दोहराया गया था (एक अलग डेटासेट की उपज), तो अंतराल में सभी संभावित मामलों के 95% में सही (जनसंख्या) मूल्य शामिल होगा । इसका मतलब यह नहीं है कि विश्वास अंतराल में वास्तविक मूल्य है कि वास्तविक मूल्य 95%है। बार -बार के दृष्टिकोण से, ऐसा दावा भी समझ में नहीं आता है, क्योंकि सही मूल्य एक यादृच्छिक चर नहीं है। या तो सही मूल्य है या दिए गए अंतराल के भीतर नहीं है। हालांकि, यह सच है कि, इससे पहले कि किसी भी आँकड़े का नमूना लिया जाए और आत्मविश्वास अंतराल का निर्माण करने के तरीके के लिए एक योजना दी जाए, संभावना 95% है कि अभी तक की गणना की गई अंतराल सही मूल्य को कवर करेगा: इस बिंदु पर, अंतराल की सीमाएं अभी तक-से-अवयव यादृच्छिक चर हैं। एक दृष्टिकोण जो एक अंतराल प्राप्त करता है, जिसे सही मूल्य से युक्त होने की संभावना के रूप में व्याख्या की जा सकती है, बायेसियन आँकड़ों से एक विश्वसनीय अंतराल का उपयोग करना है: यह दृष्टिकोण संभावना के रूप में क्या है, इसकी व्याख्या करने के एक अलग तरीके पर निर्भर करता है, यह एक के रूप में है बायेसियन प्रायिकता है। | ||
सिद्धांत रूप में आत्मविश्वास अंतराल सममित या विषम हो सकता है। एक अंतराल विषम हो सकता है क्योंकि यह एक पैरामीटर (बाएं तरफा अंतराल या दाएं पक्षीय अंतराल) के लिए निचले या ऊपरी सीमा के रूप में काम करता है, लेकिन यह विषम भी हो सकता है क्योंकि दो तरफा अंतराल अनुमान के आसपास समरूपता का उल्लंघन करते हैं। कभी -कभी एक आत्मविश्वास अंतराल के लिए सीमा को | सिद्धांत रूप में आत्मविश्वास अंतराल सममित या विषम हो सकता है। एक अंतराल विषम हो सकता है क्योंकि यह एक पैरामीटर (बाएं तरफा अंतराल या दाएं पक्षीय अंतराल) के लिए निचले या ऊपरी सीमा के रूप में काम करता है, लेकिन यह विषम भी हो सकता है क्योंकि दो तरफा अंतराल अनुमान के आसपास समरूपता का उल्लंघन करते हैं। कभी -कभी एक आत्मविश्वास अंतराल के लिए सीमा को उपगामित तक पहुंच जाता है और इनका उपयोग वास्तविक सीमाओं को अनुमानित करने के लिए किया जाता है। | ||
===== महत्व ===== | ===== महत्व ===== | ||
{{main| | {{main|आंकड़ों की महत्ता}} | ||
सांख्यिकी शायद ही कभी विश्लेषण के तहत प्रश्न का एक सरल हां/ | सांख्यिकी शायद ही कभी विश्लेषण के तहत प्रश्न का एक सरल हां/नहीं प्रकार का उत्तर दें। व्याख्या अक्सर संख्याओं पर लागू सांख्यिकीय महत्व के स्तर तक आती है और अक्सर शून्य परिकल्पना को अस्वीकार करने वाले मूल्य की संभावना को संदर्भित करता है (कभी-कभी p मान के रूप में )। | ||
[[File:P-value in statistical significance testing.svg|upright=1.8|thumb|right|इस ग्राफ में काली रेखा परीक्षण सांख्यिकीय के लिए संभाव्यता वितरण है, महत्वपूर्ण क्षेत्र अवलोकन किए गए डेटा बिंदु (परीक्षण सांख्यिकीय का अवलोकन मूल्य) के दाईं ओर मूल्यों का सेट है और पी-मान को हरे क्षेत्र द्वारा दर्शाया गया है।]] | [[File:P-value in statistical significance testing.svg|upright=1.8|thumb|right|इस ग्राफ में काली रेखा परीक्षण सांख्यिकीय के लिए संभाव्यता वितरण है, महत्वपूर्ण क्षेत्र अवलोकन किए गए डेटा बिंदु (परीक्षण सांख्यिकीय का अवलोकन मूल्य) के दाईं ओर मूल्यों का सेट है और पी-मान को हरे क्षेत्र द्वारा दर्शाया गया है।]] | ||
मानक दृष्टिकोण<ref name="Piazza"/>एक वैकल्पिक परिकल्पना के खिलाफ एक शून्य परिकल्पना का परीक्षण करना है। एक महत्वपूर्ण क्षेत्र अनुमानक के मूल्यों का सेट है जो अशक्त परिकल्पना का खंडन करता है। टाइप I त्रुटि की संभावना इसलिए संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित है, यह देखते हुए कि अशक्त परिकल्पना सही है (सांख्यिकीय महत्व) और टाइप II त्रुटि की संभावना यह संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित नहीं | मानक दृष्टिकोण<ref name="Piazza"/>एक वैकल्पिक परिकल्पना के खिलाफ एक शून्य परिकल्पना का परीक्षण करना है। एक महत्वपूर्ण क्षेत्र अनुमानक के मूल्यों का सेट है जो अशक्त परिकल्पना का खंडन करता है। टाइप I त्रुटि की संभावना इसलिए संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित है, यह देखते हुए कि अशक्त परिकल्पना सही है (सांख्यिकीय महत्व) और टाइप II त्रुटि की संभावना यह संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित नहीं है और वैकल्पिक परिकल्पना सच है। एक परीक्षण की सांख्यिकीय शक्ति संभावना है कि यह सही ढंग से अशक्त परिकल्पना को अस्वीकार कर देता है जब अशक्त परिकल्पना गलत होती है। | ||
सांख्यिकीय महत्व का उल्लेख करने का मतलब यह नहीं है कि वास्तविक दुनिया के संदर्भ में समग्र परिणाम महत्वपूर्ण है। उदाहरण के लिए, एक दवा के एक बड़े अध्ययन में यह दिखाया जा सकता है कि दवा का सांख्यिकीय रूप से महत्वपूर्ण लेकिन बहुत कम लाभकारी प्रभाव होता है, जैसे कि दवा रोगी को ध्यान में रखने में मदद करने की संभावना नहीं है। | सांख्यिकीय महत्व का उल्लेख करने का मतलब यह नहीं है कि वास्तविक दुनिया के संदर्भ में समग्र परिणाम महत्वपूर्ण है। उदाहरण के लिए, एक दवा के एक बड़े अध्ययन में यह दिखाया जा सकता है कि दवा का सांख्यिकीय रूप से महत्वपूर्ण लेकिन बहुत कम लाभकारी प्रभाव होता है, जैसे कि दवा रोगी को ध्यान में रखने में मदद करने की संभावना नहीं है। | ||
यद्यपि सिद्धांत रूप में सांख्यिकीय महत्व का स्वीकार्य स्तर बहस के अधीन हो सकता है, लेकिन महत्व स्तर सबसे बड़ा | यद्यपि सिद्धांत रूप में सांख्यिकीय महत्व का स्वीकार्य स्तर बहस के अधीन हो सकता है, लेकिन महत्व स्तर सबसे बड़ा p मान के अधीन है जो परीक्षण को अशक्त परिकल्पना को अस्वीकार करने की अनुमति देता है। यह परीक्षण तार्किक रूप से यह कहने के लिए बराबर है कि p मान प्रायिकता है, यह मानते हुए कि शून्य परिकल्पना सच है, कम से कम परीक्षण सांख्यिकीय के रूप में चरम के परिणामस्वरूप हैं। इसलिए, महत्व स्तर जितना छोटा होगा, टाइप I त्रुटि कम करने की संभावना उतनी कम होगी। | ||
कुछ समस्याएं आमतौर पर इस ढांचे से जुड़ी होती हैं (परिकल्पना परीक्षण की आलोचना देखें): | कुछ समस्याएं आमतौर पर इस ढांचे से जुड़ी होती हैं (परिकल्पना परीक्षण की आलोचना देखें): | ||
* एक अंतर जो अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण है, अभी भी कोई व्यावहारिक महत्व नहीं हो सकता है, लेकिन इसके लिए ध्यान देने के लिए परीक्षणों को ठीक से तैयार करना संभव है। एक प्रतिक्रिया में | * एक अंतर जो अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण है, अभी भी कोई व्यावहारिक महत्व नहीं हो सकता है, लेकिन इसके लिए ध्यान देने के लिए परीक्षणों को ठीक से तैयार करना संभव है। एक प्रतिक्रिया में p मान को शामिल करने के लिए केवल महत्व स्तर की रिपोर्टिंग से परे जाना शामिल है। p मान को जब रिपोर्ट करते हुए कि क्या परिकल्पना को अस्वीकार किया गया है या स्वीकार किया गया है। p मान , हालांकि, अवलोकन प्रभाव के आकार या महत्व को इंगित नहीं करता है और बड़े अध्ययनों में मामूली अंतर के महत्व को भी बढ़ा सकता है। एक बेहतर और तेजी से सामान्य दृष्टिकोण विश्वास अंतराल की रिपोर्ट करना है। यद्यपि ये परिकल्पना परीक्षणों या p मानों के समान गणना से उत्पन्न होते हैं, वे प्रभाव के आकार और इसके आसपास की अनिश्चितता दोनों का वर्णन करते हैं। | ||
* ट्रांसपोज़्ड सशर्त की गिरावट, उर्फ अभियोजक की गिरावट: आलोचनाएँ उत्पन्न होती हैं क्योंकि परिकल्पना परीक्षण दृष्टिकोण एक परिकल्पना (शून्य परिकल्पना) को पसंद करने के लिए मजबूर करता है, क्योंकि जो मूल्यांकन किया जा रहा है वह अवलोकन परिणाम की संभावना है और शून्य परिकल्पना की संभावना है और संभावना नहीं है। अशक्त परिकल्पना को देखा गया परिणाम दिया गया। इस दृष्टिकोण का एक विकल्प | * ट्रांसपोज़्ड सशर्त की गिरावट, उर्फ अभियोजक की गिरावट: आलोचनाएँ उत्पन्न होती हैं क्योंकि परिकल्पना परीक्षण दृष्टिकोण एक परिकल्पना (शून्य परिकल्पना) को पसंद करने के लिए मजबूर करता है, क्योंकि जो मूल्यांकन किया जा रहा है वह अवलोकन परिणाम की संभावना है और शून्य परिकल्पना की संभावना है और संभावना नहीं है। अशक्त परिकल्पना को देखा गया परिणाम दिया गया। इस दृष्टिकोण का एक विकल्प बायेसियनअनुमान (इनवेंशन) द्वारा पेश किया जाता है, हालांकि इसके लिए एक पूर्व संभावना स्थापित करने की आवश्यकता होती है।<ref name=Ioannidis2005>{{Cite journal | last1 = Ioannidis | first1 = J.P.A. | author-link1 = John P.A. Ioannidis| title = Why Most Published Research Findings Are False | journal = PLOS Medicine | volume = 2 | issue = 8 | pages = e124 | year = 2005 | pmid = 16060722 | pmc = 1182327 | doi = 10.1371/journal.pmed.0020124}}</ref> | ||
* अशक्त परिकल्पना को अस्वीकार करना स्वचालित रूप से वैकल्पिक परिकल्पना साबित नहीं होता है। | * अशक्त परिकल्पना को अस्वीकार करना स्वचालित रूप से वैकल्पिक परिकल्पना साबित नहीं होता है। | ||
* हीन आँकड़ों में सब कुछ | * हीन आँकड़ों में सब कुछ नमूना आकार पर निर्भर करता है, और इसलिए फैट टेल्स के तहत p का मान गलत हो सकता है।{{clarify|date=October 2016}} | ||
Line 177: | Line 177: | ||
{{Columns-list|colwidth=22em| | {{Columns-list|colwidth=22em| | ||
* [[ | * [[विचरण का विश्लेषण]] (एनोवा) | ||
* [[ | * [[ची - वर्ग परीक्षण]] | ||
* [[ | * [[सह - संबंध]] | ||
* [[ | * [[कारक विश्लेषण]] | ||
* [[ | * [[मान-व्हिटनी (U)| मान-व्हिटनी 'U']] | ||
* [ | *<nowiki> [माध्य वर्ग भारित विचलन]] (एमएसडब्ल्यूडी)</nowiki> | ||
* [[ | * [[पियर्सन उत्पाद-क्षण सहसंबंध गुणांक]] | ||
* [[ | * [[प्रतिगमन विश्लेषण]] | ||
* [[ | * [[स्पीयरमैन का रैंक सहसंबंध गुणांक]] | ||
* [[ | * [[छात्र का टी-टेस्ट| छात्र का 'टी'-परीक्षण]] | ||
* [[ | * [[समय श्रृंखला विश्लेषण]] | ||
* [[ | * [[संयुक्त विश्लेषण]]}} | ||
}} | |||
=== खोजकर्ता डेटा विश्लेषण === | === खोजकर्ता डेटा विश्लेषण === | ||
{{main| | {{main|अन्वेषणात्मक डेटा विश्लेषण}} | ||
खोजपूर्ण | खोजपूर्ण आँकड़े विश्लेषण (EDA) उनकी मुख्य विशेषताओं को संक्षेप में प्रस्तुत करने के लिएआँकड़े सेट का विश्लेषण करने के लिए एक दृष्टिकोण है, अक्सर दृश्य विधियों के साथ।एक सांख्यिकीय मॉडल का उपयोग किया जा सकता है या नहीं, लेकिन मुख्य रूप से EDA यह देखने के लिए है कि डेटा हमें औपचारिक मॉडलिंग या परिकल्पना परीक्षण कार्य से परे क्या बता सकता है। | ||
== मिसु == | == दुरुपयोग(मिसु) == | ||
{{main| | {{main| | ||
डेटा का दुरुपयोग}} | |||
आंकड़ों का दुरुपयोग विवरण और व्याख्या में सूक्ष्म लेकिन गंभीर त्रुटियों का उत्पादन कर सकता है - इस अर्थ में कि अनुभवी पेशेवर भी इस तरह की त्रुटियां करते हैं, और इस अर्थ में गंभीर हैं कि वे विनाशकारी निर्णय त्रुटियों को जन्म दे सकते हैं। उदाहरण के लिए, सामाजिक नीति, चिकित्सा अभ्यास, और पुल जैसी संरचनाओं की विश्वसनीयता सभी आंकड़ों के उचित उपयोग पर निर्भर करती है। | आंकड़ों का दुरुपयोग विवरण और व्याख्या में सूक्ष्म लेकिन गंभीर त्रुटियों का उत्पादन कर सकता है - इस अर्थ में कि अनुभवी पेशेवर भी इस तरह की त्रुटियां करते हैं, और इस अर्थ में गंभीर हैं कि वे विनाशकारी निर्णय त्रुटियों को जन्म दे सकते हैं। उदाहरण के लिए, सामाजिक नीति, चिकित्सा अभ्यास, और पुल जैसी संरचनाओं की विश्वसनीयता सभी आंकड़ों के उचित उपयोग पर निर्भर करती है। | ||
यहां तक कि जब सांख्यिकीय तकनीकों को सही ढंग से लागू किया जाता है, तो परिणाम उन लोगों की कमी के लिए व्याख्या करना मुश्किल हो सकता | यहां तक कि जब सांख्यिकीय तकनीकों को सही ढंग से लागू किया जाता है, तो परिणाम उन लोगों की कमी के लिए व्याख्या करना मुश्किल हो सकता है।आँकड़े में एक प्रवृत्ति का सांख्यिकीय महत्व - जो इस हद तक मापता है कि नमूने में यादृच्छिक भिन्नता के कारण एक प्रवृत्ति किस हद तक हो सकती है -मैं इसके महत्व के सहज ज्ञान युक्त भावना से सहमत नहीं हो सकता है। बुनियादी सांख्यिकीय कौशल (और संदेहवाद) का सेट जिसे लोगों को अपने रोजमर्रा के जीवन में जानकारी से निपटने की आवश्यकता होती है, उसे सांख्यिकीय साक्षरता कहा जाता है। | ||
एक सामान्य धारणा है कि सांख्यिकीय ज्ञान | एक सामान्य धारणा है कि सांख्यिकीय ज्ञान जानबूझकर दुरुपयोग किया गया है, केवल उस आँकड़े की व्याख्या करने के तरीके खोजकर जो प्रस्तुतकर्ता के अनुकूल है।<ref name=Huff>Huff, Darrell (1954) ''[[How to Lie with Statistics]]'', WW Norton & Company, Inc. New York. {{isbn|0-393-31072-8}}</ref> आंकड़ों का अविश्वास और गलतफहमी उद्धरण, झूठ, शापित झूठ, और सांख्यिकी के साथ जुड़ा हुआ है। तीन प्रकार के झूठ हैं: झूठ, शापित झूठ और आंकड़े। आंकड़ों का दुरुपयोग अनजाने और जानबूझकर दोनों हो सकता है, और पुस्तक कैसे आंकड़े के साथ झूठ बोलें,<ref name=Huff/>डेरेल हफ द्वारा, विचारों की एक श्रृंखला को रेखांकित करता है। आंकड़ों के उपयोग और दुरुपयोग पर प्रकाश डालने के प्रयास में, विशेष क्षेत्रों में उपयोग की जाने वाली सांख्यिकीय तकनीकों की समीक्षा की जाती है (जैसे कि वार्न, लाजो, रामोस और रिटर (2012))।<ref>{{cite journal | last1 = Warne | first1 = R. Lazo | last2 = Ramos | first2 = T. | last3 = Ritter | first3 = N. | year = 2012 | title = Statistical Methods Used in Gifted Education Journals, 2006–2010 | journal = Gifted Child Quarterly | volume = 56 | issue = 3| pages = 134–149 | doi = 10.1177/0016986212444122 | s2cid = 144168910 }}</ref> | ||
आंकड़ों के दुरुपयोग से बचने के तरीकों में उचित आरेखों का उपयोग करना और पूर्वाग्रह से बचने में शामिल हैं।<ref name="Statistics in Archaeology">{{cite book | chapter = Statistics in archaeology | pages = [https://archive.org/details/encyclopediaarch00pear/page/n2072 2093]–2100 | first1 = Robert D. | last1 = Drennan | title = Encyclopedia of Archaeology | url = https://archive.org/details/encyclopediaarch00pear | url-access = limited | year = 2008 | publisher = Elsevier Inc. | editor-first = Deborah M. | editor-last = Pearsall | isbn = 978-0-12-373962-9 }}</ref> दुरुपयोग तब हो सकता है जब निष्कर्षों को अति -अधिकृत किया जाता है और दावा किया जाता है कि वे वास्तव में अधिक से अधिक के प्रतिनिधि हैं, अक्सर या तो जानबूझकर या अनजाने में नमूना पूर्वाग्रह की अनदेखी करते हैं।<ref name="Misuse of Statistics">{{cite journal |last=Cohen |first=Jerome B. |title=Misuse of Statistics |journal=Journal of the American Statistical Association |date=December 1938 |volume=33 |issue=204 |pages=657–674 |location=JSTOR |doi=10.1080/01621459.1938.10502344}}</ref> बार रेखांकन यकीनन उपयोग और समझने के लिए सबसे आसान आरेख हैं, और उन्हें हाथ से या सरल कंप्यूटर कार्यक्रमों के साथ बनाया जा सकता है।<ref name="Statistics in Archaeology" />दुर्भाग्य से, ज्यादातर लोग पूर्वाग्रह या त्रुटियों की तलाश नहीं करते हैं, इसलिए उन्हें ध्यान नहीं दिया जाता | आंकड़ों के दुरुपयोग से बचने के तरीकों में उचित आरेखों का उपयोग करना और पूर्वाग्रह से बचने में शामिल हैं।<ref name="Statistics in Archaeology">{{cite book | chapter = Statistics in archaeology | pages = [https://archive.org/details/encyclopediaarch00pear/page/n2072 2093]–2100 | first1 = Robert D. | last1 = Drennan | title = Encyclopedia of Archaeology | url = https://archive.org/details/encyclopediaarch00pear | url-access = limited | year = 2008 | publisher = Elsevier Inc. | editor-first = Deborah M. | editor-last = Pearsall | isbn = 978-0-12-373962-9 }}</ref> दुरुपयोग तब हो सकता है जब निष्कर्षों को अति-अधिकृत किया जाता है और दावा किया जाता है कि वे वास्तव में अधिक से अधिक के प्रतिनिधि हैं, अक्सर या तो जानबूझकर या अनजाने में नमूना पूर्वाग्रह की अनदेखी करते हैं।<ref name="Misuse of Statistics">{{cite journal |last=Cohen |first=Jerome B. |title=Misuse of Statistics |journal=Journal of the American Statistical Association |date=December 1938 |volume=33 |issue=204 |pages=657–674 |location=JSTOR |doi=10.1080/01621459.1938.10502344}}</ref> बार रेखांकन यकीनन उपयोग और समझने के लिए सबसे आसान आरेख हैं, और उन्हें हाथ से या सरल कंप्यूटर कार्यक्रमों के साथ बनाया जा सकता है।<ref name="Statistics in Archaeology" />दुर्भाग्य से, ज्यादातर लोग पूर्वाग्रह या त्रुटियों की तलाश नहीं करते हैं, इसलिए उन्हें ध्यान नहीं दिया जाता है। इस प्रकार, लोग अक्सर यह मान सकते हैं कि कुछ सच है, भले ही यह अच्छी तरह से प्रतिनिधित्व नहीं करता है।<ref name="Misuse of Statistics" />सांख्यिकी और सटीक आंकड़ों से डेटा एकत्र करने के लिए, लिया गया नमूना पूरे का प्रतिनिधि होना चाहिए।<ref name="Modern Elementary Statistics">{{cite journal|last=Freund|first=J.E.|author-link = John E. Freund|title=Modern Elementary Statistics|journal=Credo Reference|year=1988}}</ref> हफ के अनुसार, एक नमूने की निर्भरता को [पूर्वाग्रह] द्वारा नष्ट किया जा सकता है ....अपने आप को कुछ हद तक संदेह की अनुमति दें।<ref>{{cite book|last=Huff|first=Darrell|title=How to Lie with Statistics|year=1954|publisher=Norton|location=New York|author2=Irving Geis |quote=The dependability of a sample can be destroyed by [bias]... allow yourself some degree of skepticism.}}</ref> | ||
आंकड़ों की समझ में सहायता करने के लिए हफ ने प्रत्येक मामले में पूछे जाने वाले प्रश्नों की एक श्रृंखला का प्रस्ताव रखा:<ref name=Huff/>* ऐसा कौन कहता है?(क्या उसे पीसने के लिए कुल्हाड़ी है?) | |||
आंकड़ों की समझ में सहायता करने के लिए हफ ने प्रत्येक मामले में पूछे जाने वाले प्रश्नों की एक श्रृंखला का प्रस्ताव रखा:<ref name="Huff" />* | |||
* ऐसा कौन कहता है?(क्या उसे पीसने के लिए कुल्हाड़ी है?) | |||
* वह कैसे/वह जानता है?(क्या उसके पास तथ्यों को जानने के लिए संसाधन हैं?) | * वह कैसे/वह जानता है?(क्या उसके पास तथ्यों को जानने के लिए संसाधन हैं?) | ||
* क्या नहीं हैं?(क्या वह हमें पूरी तस्वीर देता है?) | * क्या नहीं हैं?(क्या वह हमें पूरी तस्वीर देता है?) | ||
Line 210: | Line 213: | ||
* क्या इसका अर्थ बनता है?(क्या उसका निष्कर्ष तार्किक और सुसंगत है जो हम पहले से जानते हैं?) | * क्या इसका अर्थ बनता है?(क्या उसका निष्कर्ष तार्किक और सुसंगत है जो हम पहले से जानते हैं?) | ||
[[File:Simple Confounding Case.svg|upright=0.9|thumb|right|भ्रमित करने वाली चर समस्या: X और | [[File:Simple Confounding Case.svg|upright=0.9|thumb|right|भ्रमित करने वाली चर समस्या: X और Y को सहसंबद्ध किया जा सकता है, इसलिए नहीं कि उनके बीच कारण संबंध है, बल्कि इसलिए कि दोनों एक तीसरे चर z पर निर्भर हैं। Z को एक भ्रमित कारक कहा जाता है।]] | ||
=== गलत व्याख्या: सहसंबंध === | === गलत व्याख्या: सहसंबंध === | ||
{{See also| | {{See also|सहसंबंध का अर्थ कारण नहीं है}} | ||
सहसंबंध की अवधारणा विशेष रूप से संभावित भ्रम के लिए उल्लेखनीय | |||
सहसंबंध की अवधारणा विशेष रूप से संभावित भ्रम के लिए उल्लेखनीय है। एक आँकड़े सेट के सांख्यिकीय विश्लेषण से अक्सर पता चलता है कि विचाराधीन जनसंख्या के दो चर (गुण) एक साथ भिन्न होते हैं, जैसे कि वे जुड़े हुए थे।उदाहरण के लिए, वार्षिक आय का एक अध्ययन जो मृत्यु की उम्र में भी देखता है, यह पा सकता है कि गरीब लोगों को समृद्ध लोगों की तुलना में कम जीवन होता है। दो चर को सहसंबद्ध कहा जाता है; हालाँकि, वे एक दूसरे का कारण हो सकते हैं या नहीं। सहसंबंध घटना एक तिहाई, पहले अचेतन घटना के कारण हो सकती है, जिसे एक दुबला चर या भ्रमित करने वाला चर कहा जाता है। इस कारण से, दो चर के बीच एक कारण संबंध के अस्तित्व का तुरंत अनुमान लगाने का कोई तरीका नहीं है। | |||
== अनुप्रयोग == | == अनुप्रयोग == | ||
=== लागू सांख्यिकी, सैद्धांतिक आँकड़े और गणितीय आँकड़े === | === लागू सांख्यिकी, सैद्धांतिक आँकड़े और गणितीय आँकड़े === | ||
लागू आंकड़े, कभी -कभी सांख्यिकीय विज्ञान के रूप में संदर्भित,<ref>{{Cite journal|last=Nelder|first=John A.|date=1999|title=From Statistics to Statistical Science|url=https://www.jstor.org/stable/2681191|journal=Journal of the Royal Statistical Society. Series D (The Statistician)|volume=48|issue=2|pages=257–269|doi=10.1111/1467-9884.00187|jstor=2681191|issn=0039-0526|access-date=2022-01-15|archive-date=2022-01-15|archive-url=https://web.archive.org/web/20220115160959/https://www.jstor.org/stable/2681191|url-status=live}}</ref> वर्णनात्मक आँकड़े और हीन आंकड़ों के अनुप्रयोग को शामिल करता है।<ref>Nikoletseas, M.M. (2014) "Statistics: Concepts and Examples." {{isbn|978-1500815684}}</ref><ref>Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1994) ''Introduction to Statistics: Concepts and Applications'', pp. 5–9. West Group. {{isbn|978-0-314-03309-3}}</ref> सैद्धांतिक आँकड़े सांख्यिकीय अनुमानों के दृष्टिकोण के औचित्य के साथ -साथ गणितीय आंकड़ों को शामिल करने के लिए तार्किक तर्कों की चिंता करते | लागू आंकड़े, कभी -कभी सांख्यिकीय विज्ञान के रूप में संदर्भित,<ref>{{Cite journal|last=Nelder|first=John A.|date=1999|title=From Statistics to Statistical Science|url=https://www.jstor.org/stable/2681191|journal=Journal of the Royal Statistical Society. Series D (The Statistician)|volume=48|issue=2|pages=257–269|doi=10.1111/1467-9884.00187|jstor=2681191|issn=0039-0526|access-date=2022-01-15|archive-date=2022-01-15|archive-url=https://web.archive.org/web/20220115160959/https://www.jstor.org/stable/2681191|url-status=live}}</ref> वर्णनात्मक आँकड़े और हीन आंकड़ों के अनुप्रयोग को शामिल करता है।<ref>Nikoletseas, M.M. (2014) "Statistics: Concepts and Examples." {{isbn|978-1500815684}}</ref><ref>Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1994) ''Introduction to Statistics: Concepts and Applications'', pp. 5–9. West Group. {{isbn|978-0-314-03309-3}}</ref> सैद्धांतिक आँकड़े सांख्यिकीय अनुमानों के दृष्टिकोण के औचित्य के साथ -साथ गणितीय आंकड़ों को शामिल करने के लिए तार्किक तर्कों की चिंता करते हैं। गणितीय आंकड़ों में न केवल अनुमान और अनुमान के तरीकों से संबंधित परिणामों को प्राप्त करने के लिए आवश्यक संभावना वितरण का हेरफेर शामिल है, बल्कि अभिकलनी(कम्प्यूटेशनल) आंकड़ों के विभिन्न पहलुओं और प्रयोगों के डिजाइन भी शामिल हैं। | ||
सांख्यिकीय सलाहकार उन संगठनों और कंपनियों की मदद कर सकते हैं जिनके पास इन-हाउस विशेषज्ञता उनके विशेष प्रश्नों के लिए प्रासंगिक नहीं है। | सांख्यिकीय सलाहकार उन संगठनों और कंपनियों की मदद कर सकते हैं जिनके पास इन-हाउस विशेषज्ञता उनके विशेष प्रश्नों के लिए प्रासंगिक नहीं है। | ||
=== मशीन लर्निंग और डेटा माइनिंग === | === मशीन लर्निंग और डेटा माइनिंग === | ||
मशीन लर्निंग मॉडल सांख्यिकीय और संभाव्य मॉडल हैं जो कम्प्यूटेशनल एल्गोरिदम के उपयोग के माध्यम से | मशीन लर्निंग मॉडल सांख्यिकीय और संभाव्य मॉडल हैं जो अभिकलनी (कम्प्यूटेशनल) एल्गोरिदम के उपयोग के माध्यम से आंकड़ों में प्रतिमान को कैप्चर आकर्षित करते हैं। | ||
=== एकेडमिया में सांख्यिकी === | === एकेडमिया में सांख्यिकी === | ||
आँकड़े प्राकृतिक और सामाजिक विज्ञान, सरकार और व्यवसाय सहित विभिन्न प्रकार के शैक्षणिक विषयों पर लागू होते | आँकड़े प्राकृतिक और सामाजिक विज्ञान, सरकार और व्यवसाय सहित विभिन्न प्रकार के शैक्षणिक विषयों पर लागू होते हैं। व्यावसायिक सांख्यिकी सेवाओं में सुधार और विपणन अनुसंधान सहित अर्थमिति, ऑडिटिंग और उत्पादन और संचालन में सांख्यिकीय विधियों को लागू करता है।<ref>{{cite web|url=https://amstat.tandfonline.com/loi/jbes|title=Journal of Business & Economic Statistics|website=Journal of Business & Economic Statistics|publisher=Taylor & Francis|access-date=16 March 2020|archive-date=27 July 2020|archive-url=https://web.archive.org/web/20200727052958/https://amstat.tandfonline.com/loi/jbes|url-status=live}}</ref> उष्णकटिबंधीय जीव विज्ञान में दो पत्रिकाओं के एक अध्ययन में पाया गया कि 12 सबसे लगातार सांख्यिकीय परीक्षण हैं: विचरण का विश्लेषण (ANOVA) , ची-स्क्वायर टेस्ट, छात्र का टी परीक्षण, रैखिक प्रतिगमन, पियर्सन के सहसंबंध गुणांक, मान-व्हिटनी यू टेस्ट, क्रुस्कल-वालिसटेस्ट, शैनन की विविधता सूचकांक, तुकी की रेंज टेस्ट, तुकी का परीक्षण, क्लस्टर विश्लेषण, स्पीयरमैन रैंक सहसंबंध परीक्षण और प्रिंसिपल घटक विश्लेषण होते हैं।<ref name=":0">{{Cite journal|last=Natalia Loaiza Velásquez, María Isabel González Lutz & Julián Monge-Nájera|date=2011|title=Which statistics should tropical biologists learn?|url=https://investiga.uned.ac.cr/ecologiaurbana/wp-content/uploads/sites/30/2017/09/JMN-2011-statistics-should-learn.pdf|journal=Revista Biología Tropical|volume=59|pages=983–992|access-date=2020-04-26|archive-date=2020-10-19|archive-url=https://web.archive.org/web/20201019160957/https://investiga.uned.ac.cr/ecologiaurbana/wp-content/uploads/sites/30/2017/09/JMN-2011-statistics-should-learn.pdf|url-status=live}}</ref> | ||
एक विशिष्ट सांख्यिकी पाठ्यक्रम में वर्णनात्मक आँकड़े, संभावना, द्विपद और सामान्य वितरण, परिकल्पना और आत्मविश्वास अंतराल, रैखिक प्रतिगमन और सहसंबंध का परीक्षण शामिल है। | एक विशिष्ट सांख्यिकी पाठ्यक्रम में वर्णनात्मक आँकड़े, संभावना, द्विपद और सामान्य वितरण, परिकल्पना और आत्मविश्वास अंतराल, रैखिक प्रतिगमन और सहसंबंध का परीक्षण शामिल है। | ||
Line 238: | Line 242: | ||
[[File:Gretl screenshot.png|thumb|upright=1.15|right|Gretl, एक खुले स्रोत सांख्यिकीय पैकेज का एक उदाहरण]] | [[File:Gretl screenshot.png|thumb|upright=1.15|right|Gretl, एक खुले स्रोत सांख्यिकीय पैकेज का एक उदाहरण]] | ||
{{main| | {{main|कम्प्यूटेशनल सांख्यिकी}} | ||
20 वीं शताब्दी के उत्तरार्ध से शुरू होने वाली कंप्यूटिंग शक्ति में तेजी से और निरंतर वृद्धि का सांख्यिकीय विज्ञान के अभ्यास पर पर्याप्त प्रभाव पड़ा है। प्रारंभिक सांख्यिकीय मॉडल लगभग हमेशा रैखिक मॉडल के वर्ग से थे, लेकिन शक्तिशाली कंप्यूटर, उपयुक्त संख्यात्मक एल्गोरिदम के साथ मिलकर, नॉनलाइनियर मॉडल (जैसे तंत्रिका नेटवर्क) के साथ -साथ नए प्रकार के निर्माण जैसे कि सामान्यीकृत रैखिक मॉडल में वृद्धि हुई है और बहुस्तरीय | 20 वीं शताब्दी के उत्तरार्ध से शुरू होने वाली कंप्यूटिंग शक्ति में तेजी से और निरंतर वृद्धि का सांख्यिकीय विज्ञान के अभ्यास पर पर्याप्त प्रभाव पड़ा है। प्रारंभिक सांख्यिकीय मॉडल लगभग हमेशा रैखिक मॉडल के वर्ग से थे, लेकिन शक्तिशाली कंप्यूटर, उपयुक्त संख्यात्मक एल्गोरिदम के साथ मिलकर, नॉनलाइनियर मॉडल (जैसे तंत्रिका नेटवर्क) के साथ -साथ नए प्रकार के निर्माण जैसे कि सामान्यीकृत रैखिक मॉडल में वृद्धि हुई है और बहुस्तरीय मॉडल मे भी होते हैं। | ||
बढ़ी हुई कंप्यूटिंग शक्ति ने भी पुनरुत्थान के आधार पर कम्प्यूटेशनल रूप से गहन तरीकों की बढ़ती लोकप्रियता का नेतृत्व किया है, जैसे कि क्रमपरिवर्तन परीक्षण और बूटस्ट्रैप, जबकि गिब्स सैंपलिंग जैसी तकनीकों ने बायेसियन मॉडल के उपयोग को अधिक संभव बना दिया है। कंप्यूटर क्रांति में प्रयोगात्मक और अनुभवजन्य आंकड़ों पर एक नए जोर के साथ आंकड़ों के भविष्य के लिए निहितार्थ हैं। सामान्य और विशेष उद्देश्य सांख्यिकीय सॉफ्टवेयर दोनों की बड़ी संख्या अब उपलब्ध हैं। जटिल सांख्यिकीय गणना में सक्षम उपलब्ध सॉफ़्टवेयर के उदाहरणों में गणित, | बढ़ी हुई कंप्यूटिंग शक्ति ने भी पुनरुत्थान के आधार पर अभिकलनी (कम्प्यूटेशनल) रूप से गहन तरीकों की बढ़ती लोकप्रियता का नेतृत्व किया है, जैसे कि क्रमपरिवर्तन परीक्षण और बूटस्ट्रैप, जबकि गिब्स सैंपलिंग जैसी तकनीकों ने बायेसियन मॉडल के उपयोग को अधिक संभव बना दिया है। कंप्यूटर क्रांति में प्रयोगात्मक और अनुभवजन्य आंकड़ों पर एक नए जोर के साथ आंकड़ों के भविष्य के लिए निहितार्थ हैं। सामान्य और विशेष उद्देश्य सांख्यिकीय सॉफ्टवेयर दोनों की बड़ी संख्या अब उपलब्ध हैं। जटिल सांख्यिकीय गणना में सक्षम उपलब्ध सॉफ़्टवेयर के उदाहरणों में गणित, SAS, SPSS और R जैसे कार्यक्रम शामिल हैं। | ||
=== व्यावसायिक सांख्यिकी === | === व्यावसायिक सांख्यिकी === | ||
व्यवसाय में, सांख्यिकी एक व्यापक रूप से उपयोग किया जाने वाला प्रबंधन- और निर्णय समर्थन उपकरण | व्यवसाय में, सांख्यिकी एक व्यापक रूप से उपयोग किया जाने वाला प्रबंधन- और निर्णय समर्थन उपकरण है। यह विशेष रूप से वित्तीय प्रबंधन, विपणन प्रबंधन और उत्पादन, सेवाओं और संचालन प्रबंधन में लागू होता है।<ref>{{cite web |url=https://amstat.tandfonline.com/action/journalInformation?show=aimsScope&journalCode=ubes20 |title=Aims and scope |website=Journal of Business & Economic Statistics |publisher=Taylor & Francis |access-date=16 March 2020 |archive-date=23 June 2021 |archive-url=https://web.archive.org/web/20210623194835/https://amstat.tandfonline.com/action/journalInformation?show=aimsScope&journalCode=ubes20 |url-status=live }}</ref><ref>{{cite web |url=https://amstat.tandfonline.com/loi/jbes |title=Journal of Business & Economic Statistics |website=Journal of Business & Economic Statistics |publisher=Taylor & Francis |access-date=16 March 2020 |archive-date=27 July 2020 |archive-url=https://web.archive.org/web/20200727052958/https://amstat.tandfonline.com/loi/jbes |url-status=live }}</ref> सांख्यिकी का उपयोग प्रबंधन लेखांकन और ऑडिटिंग में भी किया जाता है। प्रबंधन विज्ञान का अनुशासन व्यवसाय में सांख्यिकी और अन्य गणित के उपयोग को औपचारिक रूप देता है। (अर्थमिति आर्थिक संबंधों को अनुभवजन्य सामग्री देने के लिए आर्थिक आंकड़ों के लिए सांख्यिकीय तरीकों का अनुप्रयोग है।) | ||
एक विशिष्ट व्यावसायिक सांख्यिकी पाठ्यक्रम व्यवसाय की बड़ी कंपनियों और कवर के लिए अभिप्रेत है <ref>Numerous texts are available, reflecting the scope and reach of the discipline in the business world: | एक विशिष्ट व्यावसायिक सांख्यिकी पाठ्यक्रम व्यवसाय की बड़ी कंपनियों और कवर के लिए अभिप्रेत है <ref>Numerous texts are available, reflecting the scope and reach of the discipline in the business world: | ||
Line 251: | Line 255: | ||
Two [[open textbook]]s are: | Two [[open textbook]]s are: | ||
*Holmes, L., Illowsky, B., Dean, S (2017). [https://open.umn.edu/opentextbooks/textbooks/509 ''Introductory Business Statistics''] {{Webarchive|url=https://web.archive.org/web/20210616084059/https://open.umn.edu/opentextbooks/textbooks/509 |date=2021-06-16 }} | *Holmes, L., Illowsky, B., Dean, S (2017). [https://open.umn.edu/opentextbooks/textbooks/509 ''Introductory Business Statistics''] {{Webarchive|url=https://web.archive.org/web/20210616084059/https://open.umn.edu/opentextbooks/textbooks/509 |date=2021-06-16 }} | ||
*Nica, M. (2013). [https://open.umn.edu/opentextbooks/textbooks/384 ''Principles of Business Statistics''] {{Webarchive|url=https://web.archive.org/web/20210518151122/https://open.umn.edu/opentextbooks/textbooks/384 |date=2021-05-18 }}</ref> वर्णनात्मक आँकड़े (संग्रह, विवरण, विश्लेषण और डेटा का सारांश), संभावना (आमतौर पर द्विपद और सामान्य वितरण), परिकल्पना और आत्मविश्वास अंतराल का परीक्षण, रैखिक प्रतिगमन, और सहसंबंध;(फॉलो-ऑन) पाठ्यक्रमों में पूर्वानुमान, समय श्रृंखला, निर्णय पेड़, कई रैखिक प्रतिगमन, और व्यापार विश्लेषण से अन्य विषय अधिक | *Nica, M. (2013). [https://open.umn.edu/opentextbooks/textbooks/384 ''Principles of Business Statistics''] {{Webarchive|url=https://web.archive.org/web/20210518151122/https://open.umn.edu/opentextbooks/textbooks/384 |date=2021-05-18 }}</ref> वर्णनात्मक आँकड़े (संग्रह, विवरण, विश्लेषण और डेटा का सारांश), संभावना (आमतौर पर द्विपद और सामान्य वितरण), परिकल्पना और आत्मविश्वास अंतराल का परीक्षण, रैखिक प्रतिगमन, और सहसंबंध; (फॉलो-ऑन) पाठ्यक्रमों में पूर्वानुमान, समय श्रृंखला, निर्णय पेड़, कई रैखिक प्रतिगमन, और व्यापार विश्लेषण से अन्य विषय अधिक आमतौर पर शामिल हो सकते हैं।यह सभी देखें {{sectionlink|Business mathematics#University level}}। पेशेवर प्रमाणन कार्यक्रम, जैसे कि CFA, में अक्सर आंकड़ों में विषय शामिल होते हैं। | ||
=== गणित या कला के लिए लागू आंकड़े === | === गणित या कला के लिए लागू आंकड़े === | ||
परंपरागत रूप से, आंकड़े एक अर्ध-मानक कार्यप्रणाली का उपयोग करके आरेखण निष्कर्षों से संबंधित थे जो अधिकांश विज्ञानों में सीखने की आवश्यकता थी।{{citation needed|date=September 2018}} यह परंपरा गैर-इन्फेक्शनल संदर्भों में आंकड़ों के उपयोग के साथ बदल गई है।एक बार एक शुष्क विषय माना जाता था, जिसे कई क्षेत्रों में डिग्री-आवश्यकता के रूप में लिया गया था, अब उत्साह से देखा जाता है।{{according to whom|date=April 2014}} शुरू में कुछ गणितीय शुद्धतावादियों द्वारा प्राप्त, इसे अब कुछ क्षेत्रों में आवश्यक कार्यप्रणाली माना जाता है। | परंपरागत रूप से, आंकड़े एक अर्ध-मानक कार्यप्रणाली का उपयोग करके आरेखण निष्कर्षों से संबंधित थे जो अधिकांश विज्ञानों में सीखने की आवश्यकता थी।{{citation needed|date=September 2018}} यह परंपरा गैर-अनुमान (इन्फेक्शनल) संदर्भों में आंकड़ों के उपयोग के साथ बदल गई है।एक बार एक शुष्क विषय माना जाता था, जिसे कई क्षेत्रों में डिग्री-आवश्यकता के रूप में लिया गया था, अब उत्साह से देखा जाता है।{{according to whom|date=April 2014}} शुरू में कुछ गणितीय शुद्धतावादियों द्वारा प्राप्त, इसे अब कुछ क्षेत्रों में आवश्यक कार्यप्रणाली माना जाता है। | ||
* संख्या सिद्धांत में, एक वितरण फ़ंक्शन द्वारा उत्पन्न डेटा के बिखराव के भूखंडों को अंतर्निहित पैटर्न को प्रकट करने के लिए आंकड़ों में उपयोग किए जाने वाले परिचित उपकरणों के साथ बदल दिया जा सकता है, जो तब परिकल्पना को जन्म दे सकता है। | * संख्या सिद्धांत में, एक वितरण फ़ंक्शन द्वारा उत्पन्न डेटा के बिखराव के भूखंडों को अंतर्निहित पैटर्न को प्रकट करने के लिए आंकड़ों में उपयोग किए जाने वाले परिचित उपकरणों के साथ बदल दिया जा सकता है, जो तब परिकल्पना को जन्म दे सकता है। | ||
* अराजकता सिद्धांत और फ्रैक्टल ज्यामिति के संयोजन के पूर्वानुमान में आंकड़ों के पूर्वानुमान के तरीकों का उपयोग वीडियो कार्यों को बनाने के लिए किया जा सकता है।<ref>{{Cite book|last=Cline|first=Graysen|url=https://www.worldcat.org/oclc/1132348139|title=Nonparametric Statistical Methods Using R|date=2019|publisher=EDTECH|isbn=978-1-83947-325-8|oclc=1132348139|access-date=2021-09-16|archive-date=2022-05-15|archive-url=https://web.archive.org/web/20220515012840/https://www.worldcat.org/title/nonparametric-statistical-methods-using-r/oclc/1132348139|url-status=live}}</ref> | * अराजकता सिद्धांत और फ्रैक्टल ज्यामिति के संयोजन के पूर्वानुमान में आंकड़ों के पूर्वानुमान के तरीकों का उपयोग वीडियो कार्यों को बनाने के लिए किया जा सकता है।<ref>{{Cite book|last=Cline|first=Graysen|url=https://www.worldcat.org/oclc/1132348139|title=Nonparametric Statistical Methods Using R|date=2019|publisher=EDTECH|isbn=978-1-83947-325-8|oclc=1132348139|access-date=2021-09-16|archive-date=2022-05-15|archive-url=https://web.archive.org/web/20220515012840/https://www.worldcat.org/title/nonparametric-statistical-methods-using-r/oclc/1132348139|url-status=live}}</ref> | ||
* जैक्सन पोलक की प्रक्रिया कला कलात्मक प्रयोगों पर निर्भर थी, जिससे प्रकृति में अंतर्निहित वितरण को कलात्मक रूप से प्रकट किया गया था।<ref>{{Cite journal|last1=Palacios|first1=Bernardo|last2=Rosario|first2=Alfonso|last3=Wilhelmus|first3=Monica M.|last4=Zetina|first4=Sandra|last5=Zenit|first5=Roberto|date=2019-10-30|title=Pollock avoided hydrodynamic instabilities to paint with his dripping technique|journal=PLOS ONE|language=en|volume=14|issue=10|pages=e0223706|doi=10.1371/journal.pone.0223706|issn=1932-6203|pmc=6821064|pmid=31665191|bibcode=2019PLoSO..1423706P|doi-access=free}}</ref> कंप्यूटर के आगमन के साथ, मूविंग वीडियो आर्ट बनाने और विश्लेषण करने के लिए इस तरह के वितरण-चालित प्राकृतिक प्रक्रियाओं को औपचारिक बनाने के लिए सांख्यिकीय विधियों को लागू किया गया था।{{Citation needed|date=March 2013}} | * जैक्सन पोलक की प्रक्रिया कला कलात्मक प्रयोगों पर निर्भर थी, जिससे प्रकृति में अंतर्निहित वितरण को कलात्मक रूप से प्रकट किया गया था।<ref>{{Cite journal|last1=Palacios|first1=Bernardo|last2=Rosario|first2=Alfonso|last3=Wilhelmus|first3=Monica M.|last4=Zetina|first4=Sandra|last5=Zenit|first5=Roberto|date=2019-10-30|title=Pollock avoided hydrodynamic instabilities to paint with his dripping technique|journal=PLOS ONE|language=en|volume=14|issue=10|pages=e0223706|doi=10.1371/journal.pone.0223706|issn=1932-6203|pmc=6821064|pmid=31665191|bibcode=2019PLoSO..1423706P|doi-access=free}}</ref> कंप्यूटर के आगमन के साथ, मूविंग वीडियो आर्ट बनाने और विश्लेषण करने के लिए इस तरह के वितरण-चालित प्राकृतिक प्रक्रियाओं को औपचारिक बनाने के लिए सांख्यिकीय विधियों को लागू किया गया था।{{Citation needed|date=March 2013}} | ||
* सांख्यिकी के तरीकों का उपयोग प्रदर्शन कला में प्रमुख रूप से किया जा सकता है, जैसा कि एक मार्कोव प्रक्रिया के आधार पर एक कार्ड ट्रिक | * सांख्यिकी के तरीकों का उपयोग प्रदर्शन कला में प्रमुख रूप से किया जा सकता है, जैसा कि एक मार्कोव प्रक्रिया के आधार पर एक कार्ड ट्रिक है जो केवल कुछ समय काम करता है, जिसके अवसर को सांख्यिकीय पद्धति का उपयोग करके भविष्यवाणी की जा सकती है। | ||
* आंकड़ों का उपयोग मुख्य रूप से कला बनाने के लिए किया जा सकता है, जैसा कि इयानिस ज़ेनकिस द्वारा आविष्कार किए गए सांख्यिकीय या स्टोकेस्टिक संगीत में है, जहां संगीत प्रदर्शन-विशिष्ट | * आंकड़ों का उपयोग मुख्य रूप से कला बनाने के लिए किया जा सकता है, जैसा कि इयानिस ज़ेनकिस द्वारा आविष्कार किए गए सांख्यिकीय या स्टोकेस्टिक संगीत में है, जहां संगीत प्रदर्शन-विशिष्ट है। हालांकि इस प्रकार की कलात्मकता हमेशा अपेक्षित रूप से बाहर नहीं आती है, यह उन तरीकों से व्यवहार करती है जो आंकड़ों का उपयोग करके अनुमानित और ट्यून करने योग्य हैं। | ||
== विशेष अनुशासन == | == विशेष अनुशासन == | ||
{{main| | {{main|सांख्यिकी के अनुप्रयोग के क्षेत्रों की सूची}} | ||
सांख्यिकीय तकनीकों का उपयोग वैज्ञानिक और सामाजिक अनुसंधान की एक विस्तृत श्रृंखला में किया जाता है, जिनमें शामिल हैं: बायोस्टैटिस्टिक्स, कम्प्यूटेशनल बायोलॉजी, कम्प्यूटेशनल समाजशास्त्र, नेटवर्क जीव विज्ञान, सामाजिक विज्ञान, समाजशास्त्र और सामाजिक | सांख्यिकीय तकनीकों का उपयोग वैज्ञानिक और सामाजिक अनुसंधान की एक विस्तृत श्रृंखला में किया जाता है, जिनमें शामिल हैं: बायोस्टैटिस्टिक्स, कम्प्यूटेशनल बायोलॉजी, कम्प्यूटेशनल समाजशास्त्र, नेटवर्क जीव विज्ञान, सामाजिक विज्ञान, समाजशास्त्र और सामाजिक अनुसंधान है। पूछताछ के कुछ क्षेत्र ने इतने बड़े पैमाने पर आँकड़ों को लागू किया कि उनके पास विशेष शब्दावली है। ज़ो इन विषयों में शामिल हैं: | ||
{{Columns-list|colwidth=30em|* | {{Columns-list|colwidth=30em|* बीमांकिक विज्ञान (बीमा और वित्त उद्योगों में जोखिम का आकलन करता है) | ||
* | * एप्लाइड सूचना अर्थशास्त्र | ||
* [[ | * [[खगोल सांख्यिकी]] (खगोलीय डेटा का सांख्यिकीय मूल्यांकन) | ||
* [[ | * [[जैव सांख्यिकी]] | ||
* [[ | * [[केमोमेट्रिक्स]] ([रसायन विज्ञान] से डेटा के विश्लेषण के लिए)) | ||
* | *<nowiki> डेटा माइनिंग]] (डेटा से ज्ञान की खोज के लिए सांख्यिकी और पैटर्न पहचान लागू करना)</nowiki> | ||
* [[ | * [[डेटा साइंस]] | ||
* [[ | * [[जनसांख्यिकी]] (जनसंख्या का सांख्यिकीय अध्ययन) | ||
* | * अर्थमिति (आर्थिक डेटा का सांख्यिकीय विश्लेषण) | ||
* [[ | * [[ऊर्जा डेटा का सांख्यिकीय अध्ययन| ऊर्जा सांख्यिकी]] | ||
* [[ | * [[इंजीनियरिंग सांख्यिकी]] | ||
* [[ | * [[महामारी विज्ञान]] (बीमारी का सांख्यिकीय विश्लेषण) | ||
* [[ | *<nowiki> [[[भूगोल]] और भौगोलिक सूचना प्रणाली []] एस, विशेष रूप से स्थानिक विश्लेषण में]</nowiki> | ||
* [[ | * [[मूर्ति प्रोद्योगिकी]] | ||
* [[सांख्यिकीय यांत्रिकी]]}} | |||
* [[ | |||
इसके अलावा, विशेष प्रकार के सांख्यिकीय विश्लेषण हैं जिन्होंने अपनी विशेष शब्दावली और कार्यप्रणाली भी विकसित की है: | इसके अलावा, विशेष प्रकार के सांख्यिकीय विश्लेषण हैं जिन्होंने अपनी विशेष शब्दावली और कार्यप्रणाली भी विकसित की है: | ||
{{Columns-list|colwidth=30em| | {{Columns-list|colwidth=30em| | ||
* [[ | * [[बूटस्ट्रैप/बूटस्ट्रैप] जैकनाइफ रीसैंपलिंग]] | ||
* [[ | * [[बहुभिन्नरूपी आँकड़े]] | ||
* [[ | * [[सांख्यिकीय वर्गीकरण]] | ||
* [[ | * [[संरचित डेटा विश्लेषण (सांख्यिकी)| संरचित डेटा विश्लेषण]] | ||
* [[ | * [[संरचनात्मक समीकरण मॉडलिंग]] | ||
* [[ | * [[सर्वेक्षण विधि]] | ||
* [[ | * [[उत्तरजीविता विश्लेषण]] | ||
* | *<nowiki> विभिन्न खेलों में सांख्यिकी, विशेष रूप से बेसबॉल आँकड़े| बेसबॉल - सबर्मेट्रिक्स के रूप में जाना जाता है - और क्रिकेट आँकड़े| क्रिकेट]]</nowiki>}} | ||
}} | |||
सांख्यिकी व्यवसाय और विनिर्माण में भी एक प्रमुख आधार उपकरण बनाते | सांख्यिकी व्यवसाय और विनिर्माण में भी एक प्रमुख आधार उपकरण बनाते हैं। इसका उपयोग माप प्रणाली परिवर्तनशीलता, नियंत्रण प्रक्रियाओं (सांख्यिकीय प्रक्रिया नियंत्रण या SPC में), आंकड़ो को सारांशित करने के लिए और आंकड़े-संचालित निर्णय लेने के लिए किया जाता है। इन भूमिकाओं में, यह एक महत्वपूर्ण उपकरण है, और शायद एकमात्र विश्वसनीय उपकरण है।{{Citation needed|date=August 2021}} | ||
== यह भी देखें == | == यह भी देखें == | ||
{{Library resources box |by=no |onlinebooks=no |others=no |about=yes |label=Statistics}} | {{Library resources box |by=no |onlinebooks=no |others=no |about=yes |label=Statistics}} | ||
{{main| | {{main|डेटा की रूपरेखा}} | ||
<!--नोट: यह मुख्य रूप से सांख्यिकी-संबंधित सूचियों के लिए है।कृपया यहां के बजाय आंकड़ों की रूपरेखा या सांख्यिकी लेख प्रविष्टियों की सूची में लिंक जोड़ने पर विचार करें।--> | <!--नोट: यह मुख्य रूप से सांख्यिकी-संबंधित सूचियों के लिए है।कृपया यहां के बजाय आंकड़ों की रूपरेखा या सांख्यिकी लेख प्रविष्टियों की सूची में लिंक जोड़ने पर विचार करें।--> | ||
{{Columns-list|colwidth=20em| | {{Columns-list|colwidth=20em| | ||
* [[ | * [[बहुतायत अनुमान]] | ||
* [[ | * [[संभाव्यता और आंकड़ों की शब्दावली]] | ||
* [[ | * [[अकादमिक सांख्यिकीय संघों की सूची]] | ||
* [[ | * [[सांख्यिकी में महत्वपूर्ण प्रकाशनों की सूची]] | ||
* [[ | * [[राष्ट्रीय और अंतर्राष्ट्रीय सांख्यिकीय सेवाओं की सूची]] | ||
* [[ | * [[सांख्यिकीय पैकेजों की सूची]] (सॉफ्टवेयर) | ||
* [[ | * [[सांख्यिकीय लेखों की सूची]] | ||
* [[ | * [[विश्वविद्यालय सांख्यिकीय परामर्श केंद्रों की सूची]] | ||
* [[ | * [[सांख्यिकी में संभाव्यता और अंकन]] | ||
* [[ | * [[सांख्यिकी शिक्षा]] | ||
* | *<nowiki> विश्व सांख्यिकी दिवस]]</nowiki> | ||
}} | }} | ||
; नींव और सांख्यिकी के प्रमुख क्षेत्र | ; नींव और सांख्यिकी के प्रमुख क्षेत्र | ||
{{Columns-list|colwidth=22em| | {{Columns-list|colwidth=22em|* [[सांख्यिकी की नींव]] | ||
* [[ | * [[सांख्यिकीविदों की सूची]] | ||
* [[ | * [[आधिकारिक आंकड़ा]] | ||
* [[ | * [[विचरण का बहुभिन्नरूपी विश्लेषण]] | ||
* [[ | |||
}} | }} | ||
Line 362: | Line 359: | ||
] | ] | ||
[[Category:Machine Translated Page]] | |||
[[Category:AC with 0 elements]] | |||
[[Category:All articles needing additional references]] | |||
[[Category:All articles with specifically marked weasel-worded phrases]] | |||
[[Category:All articles with unsourced statements]] | |||
[[Category:Articles needing additional references from December 2020]] | |||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category:Articles with invalid date parameter in template]] | |||
[[Category:Articles with short description]] | |||
[[Category:Articles with specifically marked weasel-worded phrases from April 2014]] | |||
[[Category:Articles with unsourced statements from August 2021]] | |||
[[Category:Articles with unsourced statements from March 2013]] | |||
[[Category:Articles with unsourced statements from September 2018]] | |||
[[Category:CS1 English-language sources (en)]] | |||
[[Category:Collapse templates]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists]] | |||
[[Category:Pages using Sister project links with default search|v]] | |||
[[Category:Pages with empty portal template]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Portal-inline template with redlinked portals]] | |||
[[Category:Portal templates with redlinked portals]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Sidebars with styles needing conversion]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates generating microformats]] | |||
[[Category:Templates that are not mobile friendly]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Webarchive template wayback links]] | |||
[[Category:Wikipedia articles needing clarification from October 2016]] | |||
[[Category:Wikipedia metatemplates]] |
Latest revision as of 10:28, 1 November 2022
Statistics |
---|
सांख्यिकी वह व्यवस्था है जो आंकड़ों के संग्रह, संगठन, विश्लेषण, व्याख्या और प्रस्तुति से संबंधित है।[1][2][3] किसी वैज्ञानिक, औद्योगिक या सामाजिक समस्या के आंकड़ों को लागू करने में एक सांख्यिकीय जनसंख्या या अध्ययन के लिए सांख्यिकीय मॉडल के साथ शुरू करना पारंपरिक है। जनसंख्या लोगों या वस्तुओं का विविध समूह हो सकती हैं जैसे "एक देश में रहने वाले सभी लोग" या "हर परमाणु एक क्रिस्टल की रचना करते हैं"। सांख्यिकी डेटा के हर पहलू से संबंधित है, जिसमें सर्वेक्षण और प्रयोगों के डिजाइन के संदर्भ में आँकड़े संग्रह की योजना शामिल है।[4] जब जनगणना आँकड़े एकत्र नहीं किया जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके आँकड़े एकत्र करते हैं। प्रतिनिधि नमूनाकरण को आश्वासन देता है कि निष्कर्ष समग्र रूप से नमूने से आबादी तक विस्तारित हो सकते हैं। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली (सिस्टम) की माप लेना, प्रणाली में हेरफेर करना, और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है कि क्या हेरफेर ने माप के मूल्यों को संशोधित किया है।इसके विपरीत, क्य़ा एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है।
आँकड़े विश्लेषण में दो मुख्य सांख्यिकीय तरीकों का उपयोग किया जाता है: वर्णनात्मक आँकड़े, जो एक नमूने से आंकड़ोंको संक्षेप में अनुक्रमित या मानक विचलन, और हीन आँकड़े जैसे अनुक्रमित का उपयोग करते हैं, जो आंकड़ों से निष्कर्ष निकालते हैं जो यादृच्छिक भिन्नता के अधीन हैं (जैसे,अवलोकन संबंधी त्रुटियां,अवलोकन संबंधी त्रुटियां,नमूना भिन्नता) ।[5] वर्णनात्मक आँकड़े अक्सर एक वितरण (नमूना या जनसंख्या) के गुणों के दो सेटों से संबंधित होते हैं: (केंद्रीय प्रवृत्ति या स्थान) वितरण के केंद्रीय या विशिष्ट मूल्य को चिह्नित करता चाहता है, जबकि (फैलाव या परिवर्तनशीलता) उस सीमा की विशेषता है जो यह बताता है कि वितरण के सदस्य किस हद तक अपने केंद्र और एक दूसरे से विचलित होते हैं। गणितीय आँकड़ों पर अनुमान संभाव्यता सिद्धांत के ढांचे के तहत किए जाते हैं, जो यादृच्छिक घटनाओं के विश्लेषण से संबंधित है।
एक मानक सांख्यिकीय प्रक्रिया में दो सांख्यिकीय आँकड़े समुच्चय (सेट), या एक आदर्श मॉडल से तैयार किए गए आँकड़े समुच्चय और अवास्तविक आँकड़े (सिंथेटिक डेटा) के बीच संबंध के परीक्षण के लिए अग्रणी डेटा का संग्रह शामिल है। दो आँकड़े समुच्चयो के बीच सांख्यिकीय संबंध के लिए एक परिकल्पना प्रस्तावित की जाती है,और इसकी तुलना दो आँकड़े समुच्चयो के बीच बिना किसी संबंध के एक आदर्श शून्य परिकल्पना के विकल्प के रूप में की जाती है। अशक्त परिकल्पना को अस्वीकार करना या नापसंद करना सांख्यिकीय परीक्षणों का उपयोग करके किया जाता है जो उस भावना को निर्धारित करता है जिसमें शून्य को गलत साबित किया जा सकता है, परीक्षण में उपयोग किए जाने वाले आँकड़े को देखते हुए। एक अशक्त परिकल्पना से काम करते हुए, त्रुटि के दो बुनियादी रूपों को मान्यता दी जाती है: प्रकार (टाइप) 1 त्रुटियां (अशक्त परिकल्पना को गलत तरीके से एक गलत सकारात्मक देते हुए खारिज कर दिया जाता है) और प्रकार (टाइप) 2 त्रुटियां (अशक्त परिकल्पना को अस्वीकार करने में नकारात्मक विफल रहता है और आबादी के बीच एक वास्तविक संबंध एक गलत देने से चूक जाता है।)।[6] पर्याप्त नमूना आकार प्राप्त करने से लेकर शून्य परिकल्पना निर्दिष्ट करने तक, इस ढांचे के साथ कई समस्याएं जुड़ी हुई हैं।[5]
सांख्यिकीय आँकड़े उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप में वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी हो सक़ती है। अनुपस्थित आँकड़े या रूकहुआ (सेंसरिंग) की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।
परिचय
सांख्यिकी विज्ञान का एक गणितीय निकाय है जो संग्रह, विश्लेषण, व्याख्या या स्पष्टीकरण और आँकड़े की प्रस्तुति से संबंधित है,[7] या गणित की एक शाखा के रूप में संबंधित है।[8] कुछ लोग सांख्यिकी को गणित की एक शाखा के बजाय एक अलग गणितीय विज्ञान मानते हैं। जबकि कई वैज्ञानिक अनुसंधान (जांच) डेटा का उपयोग करते हैं, सांख्यिकी अनिश्चितता के सामने अनिश्चितता और निर्णय लेने के संदर्भ में डेटा के उपयोग से संबंधित है।[9][10] किसी समस्या के लिए आंकड़ों को लागू करने में, अध्ययन करने के लिए आबादी या प्रक्रिया के साथ शुरू करना आम बात है। आबादी के विविध विषय हो सकते हैं जैसे कि किसी देश में रहने वाले सभी लोग या क्रिस्टल की रचना करने वाले हर परमाणु। आदर्श रूप से, सांख्यिकीविद् पूरी आबादी (जनगणना नामक एक संचालन (ऑपरेशन)) के बारे में आँकड़े संकलित करते हैं। यह सरकारी सांख्यिकीय संस्थानों द्वारा आयोजित किया जा सकता है। जनसंख्या आँकड़े को सारांशित करने के लिए वर्णनात्मक आंकड़ों का उपयोग किया जा सकता है। संख्यात्मक विवरणों में निरंतर आँकड़े (जैसे आय) के लिए माध्य और मानक विचलन शामिल हैं, जबकि आवृत्ति और प्रतिशत श्रेणीबद्ध आँकड़े (जैसे शिक्षा) का वर्णन करने के संदर्भ में अधिक उपयोगी हैं।
जब एक जनगणना संभव नहीं होती है, तो एक नमूना आबादी के एक चुने हुए उपवर्ग (सबसेट) का अध्ययन किया जाता है। जब एक नमूना जो जनसंख्या का प्रतिनिधि निर्धारित किया जाता है, आँकड़े एक अवलोकन या प्रयोगात्मक समायोजन (सेटिंग) में नमूना सदस्यों के लिए एकत्र किया जाता है और फिर से, नमूना आंकड़ों को संक्षेप में वर्णनात्मक आंकड़ों के लिए उपयोग किया जा सकता है। हालांकि, नमूने को आकर्षित करने में यादृच्छिकता का एक तत्व होता है; इसलिए, नमूने से संख्यात्मक विवरण भी अनिश्चितता के लिए प्रवण हैं। पूरी आबादी के बारे में सार्थक निष्कर्ष निकालने के लिए, प्रयोगात्मक आंकड़ों की आवश्यकता होती है। यह नमूना आंकड़ों मेंपद्धति का उपयोग करता है ताकि यादृच्छिकता के लिए लेखांकन के दौरान प्रतिनिधित्व की गई आबादी के बारे में निष्कर्ष निकाला जा सके। ये निष्कर्ष आँकड़े (परिकल्पना परीक्षण) के बारे में हां/नहीं प्रश्नों के उत्तर देने का रूप ले सकते हैं, आँकड़े (अनुमान) की संख्यात्मक विशेषताओं का आकलन करना, आँकड़े (सहसंबंध) के भीतर संघों का वर्णन करना, और आँकड़े के भीतर मॉडलिंग संबंधों (उदाहरण के लिए, उपयोग करना प्रतिगमन विश्लेषण)। अनुमान पूर्वानुमान, भविष्यवाणी, और अनियंत्रित मूल्यों के अनुमान के लिए या तो अध्ययन किए जा रहे आबादी के साथ जुड़ा हो सकता है। इसमें समय श्रृंखला या स्थानिक आँकड़े, और आँकड़े खनन के बहिर्वेशन (एक्सट्रपलेशन) और प्रक्षेप शामिल हो सकते हैं।
गणितीय सांख्यिकी
गणितीय आँकड़े सांख्यिकी के लिए गणित का अनुप्रयोग है। इसके लिए उपयोग की जाने वाली गणितीय तकनीकों में गणितीय विश्लेषण, रैखिक बीजगणित, स्टोकेस्टिक विश्लेषण, अंतर समीकरण और माप-सिद्धांत संबंधी संभावना सिद्धांत शामिल हैं।[11][12]
इतिहास
8 वीं और 13 वीं शताब्दी के बीच इस्लामिक स्वर्ण युग के दौरान, अरब गणितज्ञों और क्रिप्टोग्राफर्स के लिए सांख्यिकीय अनुमानों पर प्रारंभिक लेख वापस आते हैं। अल-खलील (717–786) ने क्रिप्टोग्राफिक संदेशों की पुस्तक लिखी, जिसमें विक्ट का पहला उपयोग शामिल है: क्रमपरिवर्तन और संयोजन, सभी संभावित अरबी शब्दों के साथ और बिना स्वर को सूचीबद्ध करने के लिए।[13] उऩ्होऩे अपनी पुस्तक में, पांडुलिपि को समझने पर (ऑन डेसीपिंग) क्रिप्टोग्राफिक संदेशों, अल-किंडी ने एन्क्रिप्टेड संदेशों को समझने के लिए आवृत्ति विश्लेषण का उपयोग करने का विस्तृत विवरण दिया हैं। अल-किंडी ने सांख्यिकीय अनुमानों का जल्द से जल्द ज्ञात उपयोग भी किया, जबकि उन्होंने और बाद में अरब क्रिप्टोग्राफर ने एन्क्रिप्टेड संदेशों को डिकोड करने के लिए प्रारंभिक सांख्यिकीय तरीके विकसित किए। इब्न अदलान (1187–1268) ने बाद में आवृत्ति विश्लेषण में नमूना आकार के उपयोग पर एक महत्वपूर्ण योगदान दिया।[13]
आंकड़ों पर सबसे पुराना यूरोपीय लेखन 1663 में वापस आता है, जॉन ग्रंट द्वारा मृत्यु दर के बिलों पर प्राकृतिक और राजनीतिक टिप्पणियों के प्रकाशन के साथ।[14] सांख्यिकीय सोच के शुरुआती अनुप्रयोग जनसांख्यिकीय और आर्थिक आंकड़ों पर आधार नीति के लिए राज्यों की जरूरतों के इर्द-गिर्द घूमते हैं, इसलिए इसकी स्टेट-व्युत्पत्ति कहते है। सांख्यिकी के अनुशासन का दायरा 19 वीं शताब्दी की शुरुआत में सामान्य रूप से डेटा के संग्रह और विश्लेषण को शामिल करने के लिए व्यापक हुआ। आज, आंकड़े व्यापक रूप से सरकार, व्यापार और प्राकृतिक और सामाजिक विज्ञान में नियोजित हैं।
आधुनिक आंकड़ों की गणितीय नींव 17 वीं शताब्दी में गेरोलमो कार्डानो, ब्लाइस पास्कल और पियरे डी फर्मेट द्वारा संभाव्यता सिद्धांत के विकास के साथ रखी गई थी। गणितीय संभाव्यता सिद्धांत मौका के खेल के अध्ययन से उत्पन्न हुआ, हालांकि संभावना की अवधारणा को पहले से ही मध्ययुगीन कानून में और दार्शनिकों द्वारा जुआन कारमुएल जैसे दार्शनिकों द्वारा जांच की गई थी।[15] कम से कम वर्गों की विधि को पहली बार 1805 में एड्रियन-मैरी लीजेंड्रे द्वारा वर्णित किया गया था।
सांख्यिकी का आधुनिक क्षेत्र 19 वीं और 20 वीं शताब्दी की शुरुआत में तीन चरणों में उभरा था।[16] पहली लहर, सदी के अंत में , फ्रांसिस गैल्टन और कार्ल पियर्सन के काम के नेतृत्व में थी, जिन्होंने आंकड़ों को विश्लेषण के लिए उपयोग किए जाने वाले कठोर गणितीय अनुशासन में बदल दिया था, न केवल विज्ञान में, बल्कि उद्योग और राजनीति में भी बदल दिया था। गैल्टन के योगदान में मानक विचलन, सहसंबंध, प्रतिगमन विश्लेषण और इन तरीकों के अनुप्रयोग को मानव विशेषताओं की विविधता के अध्ययन के लिए इन तरीकों के अनुप्रयोग में शामिल करना था- ऊंचाई, वजन, बरौनी की लंबाई दूसरों के बीच।[17] पियर्सन ने पियर्सन उत्पाद-पल सहसंबंध गुणांक विकसित किया, एक उत्पाद-पल के रूप में परिभाषित किया गया,[18] कई अन्य चीजों के बीच नमूनों और पियर्सन वितरण के लिए वितरण की फिटिंग के लिए क्षणों की विधि थी।[19] गैल्टन और पियर्सन ने बायोमेट्रिका को गणितीय सांख्यिकी और बायोस्टैटिस्टिक्स (तब बायोमेट्री कहा जाता है) के पहले पत्रिका के रूप में स्थापित किया, और बाद में यूनिवर्सिटी कॉलेज लंदन में दुनिया के पहले विश्वविद्यालय के सांख्यिकी विभाग की स्थापना की।[20] रोनाल्ड फिशर ने लेडी चखने वाले चाय प्रयोग के दौरान शून्य परिकल्पना शब्द गढ़ा, जो कभी भी साबित या स्थापित नहीं होता है, लेकिन संभवतः प्रयोग के दौरान, इसे अस्वीकार कर दिया जाता है।[21][22] 1910 और 20 के दशक की दूसरी लहर विलियम सीली गॉसेट द्वारा शुरू की गई थी, और रोनाल्ड फिशर की अंतर्दृष्टि में इसकी परिणति तक पहुंच गई, जिन्होंने पाठ्यपुस्तकों को लिखा था जो दुनिया भर के विश्वविद्यालयों में शैक्षणिक अनुशासन को परिभाषित करने के लिए थे। फिशर के सबसे महत्वपूर्ण प्रकाशन उनके 1918 के सेमिनल पेपर थे, जो कि मेंडेलियन इनहेरिटेंस (जो सांख्यिकीय शब्द, विचरण का उपयोग करने वाले पहले व्यक्ति), शोध कार्यकर्ताओं के लिए उनके क्लासिक 1925 कार्य सांख्यिकीय विधियों और उनके 1935 में प्रयोगों के डिजाइन पर पहले से ही थे।[23][24][25] जहां उन्होंने प्रयोग मॉडल के कठोर डिजाइन विकसित किए। उन्होंने पर्याप्तता, सहायक सांख्यिकी, फिशर के रैखिक भेदभावकर्ता और फिशर जानकारी की अवधारणाओं की उत्पत्ति की।[26] अपनी 1930 की पुस्तक द जेनिटिकल थ्योरी ऑफ नेचुरल सेलेक्शन में, उन्होंने फिशर के सिद्धांत जैसे विभिन्न जैविक अवधारणाओं पर आंकड़े लागू किए[27] (जिसे ए.डब्ल्यू.एफ. एडवर्ड्स को शायद विकासवादी जीव विज्ञान में सबसे प्रसिद्ध मना जाने वाला तर्क कहा जाता है) और फिशरियन रनवे,[28][29][30][31][32][33] विकास में पाया गया एक सकारात्मक प्रतिक्रिया भगोड़ा प्रभाव के बारे में यौन चयन में एक अवधारणा हैं।
अंतिम लहर, जो मुख्य रूप से पहले के घटनाक्रमों के शोधन और विस्तार को देखती थी, 1930 के दशक में एगॉन पियर्सन और जेरज़ी नेमैन के बीच सहयोगी काम से उभरी थी। उन्होंने टाइप II त्रुटि मे, एक परीक्षण की शक्ति और आत्मविश्वास अंतराल की अवधारणाओं को पेश किया।1934 में जेरज़ी नेमैन ने दिखाया कि स्तरीकृत यादृच्छिक नमूना सामान्य रूप से उद्देश्यपूर्ण नमूने की तुलना में अनुमान का एक बेहतर तरीका था।[34] आज, सांख्यिकीय विधियों को उन सभी क्षेत्रों में लागू किया जाता है, जिनमें निर्णय लेना शामिल है, आंकड़े के एक कोष्ठित निकाय से सटीक निष्कर्ष निकालने के लिए और सांख्यिकीय पद्धति के आधार पर अनिश्चितता के सामने निर्णय लेने के लिए।आधुनिक कंप्यूटरों के उपयोग ने बड़े पैमाने पर सांख्यिकीय संगणनाओं में तेजी लाई है और नए तरीके भी किए हैं जो मैन्युअल रूप से प्रदर्शन करने के लिए अव्यावहारिक हैं।बड़े आंकड़े विश्लेषण करने की समस्या पर उदाहरण के लिए सक्रिय अनुसंधान का क्षेत्र बने हुए हैं।[35]
सांख्यिकीय डेटा
डेटा संग्रह
नमूना
जब पूर्ण जनगणना आँकड़े एकत्र नहीं किये जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके नमूना आँकड़े एकत्र करते हैं। सांख्यिकी स्वयं सांख्यिकीय मॉडल के माध्यम से भविष्यवाणी और पूर्वानुमान के लिए उपकरण भी प्रदान करती है।
पूरी आबादी के लिए एक गाइड के रूप में एक नमूने का उपयोग करने के लिए, यह महत्वपूर्ण है कि यह वास्तव में समग्र आबादी का प्रतिनिधित्व करता है। प्रतिनिधि नमूनाकरण का आश्वासन देता है कि निष्कर्ष सुरक्षित रूप से नमूने से आबादी तक पूरे के रूप में विस्तारित हो सकते हैं। एक बड़ी समस्या यह निर्धारित करने में निहित है कि चुना गया नमूना वास्तव में प्रतिनिधि है। सांख्यिकी नमूना और आँकड़े संग्रह प्रक्रियाओं के भीतर किसी भी पूर्वाग्रह के लिए अनुमान लगाने और सही करने के तरीके प्रदान करता है। प्रयोगों के लिए प्रयोगात्मक डिजाइन के तरीके भी हैं जो एक अध्ययन की शुरुआत में इन मुद्दों को कम कर सकते हैं, जनसंख्या के बारे में सत्य को समझने की क्षमता को मजबूत कर सकते हैं।
नमूना सिद्धांत संभावना सिद्धांत के गणितीय अनुशासन का हिस्सा है। नमूना आंकड़ों के नमूने वितरण का अध्ययन करने के लिए गणितीय आंकड़ों में संभावना का उपयोग किया जाता है और,आमतौर पर, सांख्यिकीय प्रक्रियाओं के गुणों का उपयोग किया जाता है। किसी भी सांख्यिकीय विधि का उपयोग तब मान्य होता है जब प्रणाली या जनसंख्या विचाराधीन विधि की मान्यताओं को संतुष्ट करती है। क्लासिक संभाव्यता सिद्धांत और नमूनाकरण सिद्धांत के बीच के दृष्टिकोण में अंतर, मोटे तौर पर, यह संभावना सिद्धांत कुल आबादी के दिए गए मापदंडों से शुरू होता है जो नमूनों से संबंधित संभावनाओं को कम करने के लिए होता है। सांख्यिकीय अनुमान, हालांकि, विपरीत दिशा में चलता है। नमूनों से एक बड़ी या कुल आबादी के मापदंडों के लिए आगमनात्मक रूप (इंडुक्टिवेली) का उल्लेख करता है।
प्रायोगिक और अवलोकन अध्ययन
एक सांख्यिकीय अनुसंधान परियोजना के लिए एक सामान्य लक्ष्य कार्य -कारण की जांच करना है, और विशेष रूप से आश्रित चर पर भविष्यवक्ताओं या स्वतंत्र चर के मूल्यों में परिवर्तन के प्रभाव पर एक निष्कर्ष निकालने के लिए हैं। दो प्रमुख प्रकार के कारण सांख्यिकीय अध्ययन हैं: प्रयोगात्मक अध्ययन और अवलोकन अध्ययन। दोनों प्रकार के अध्ययनों में, आश्रित चर के व्यवहार पर एक स्वतंत्र चर (या चर) के अंतर का प्रभाव देखा जाता है। दो प्रकारों के बीच का अंतर इस बात पर निहित है कि वास्तव में अध्ययन कैसे किया जाता है। प्रत्येक बहुत प्रभावी हो सकता है। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली का माप लेना, प्रणाली में हेरफेर करना,और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है क्या हेरफेर ने माप के मूल्यों को संशोधित किया है। इसके विपरीत, एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है। इसके बजाय, आँकड़े एकत्र किए जाते हैं और भविष्यवक्ताओं और प्रतिक्रिया के बीच सहसंबंधों की जांच की जाती है। जबकि आँकड़े विश्लेषण के उपकरण यादृच्छिक अध्ययनों से आँकड़ो पर सबसे अच्छा काम करते हैं, वे अन्य प्रकार के आँकड़ो पर भी लागू होते हैं - जैसे प्राकृतिक प्रयोग और अवलोकन अध्ययन[36] क्या, जो एक सांख्यिकीविद् एक संशोधित,अधिक संरचित अनुमान विधि (जैसे, अंतर अनुमान और वाद्य चर में अंतर, कई अन्य लोगों के बीच) का उपयोग करेगा जो लगातार अनुमानक का उत्पादन करते हैं।
प्रयोग
एक सांख्यिकीय प्रयोग के मूल चरण हैं:
- अनुसंधान की योजना, जिसमें अध्ययन की प्रतिकृति की संख्या का पता लगाना शामिल है, निम्नलिखित जानकारी का उपयोग करते हुए: उपचार प्रभावों के आकार, वैकल्पिक परिकल्पना और अनुमानित प्रयोगात्मक परिवर्तनशीलता के आकार के बारे में प्रारंभिक अनुमान, प्रयोगात्मक विषयों के चयन और अनुसंधान की नैतिकता पर विचार आवश्यक है। सांख्यिकीविद् सलाह देते हैं कि प्रयोगों को एक मानक उपचार या नियंत्रण के साथ एक नए उपचार की तुलना करें, उपचार प्रभावों में अंतर के निष्पक्ष अनुमान की अनुमति देने के लिए करता है।
- प्रयोगों का डिज़ाइन, भ्रमित चर के प्रभाव को कम करने के लिए अवरुद्ध का उपयोग करके, और उपचार के प्रभावों और प्रयोगात्मक त्रुटि के निष्पक्ष अनुमानों की अनुमति देने के लिए विषयों को उपचार के यादृच्छिक नियत कार्य (असाइनमेंट)। इस स्तर पर, प्रयोगकर्ता और सांख्यिकीविद प्रयोगात्मक प्रोटोकॉल लिखते हैं जो प्रयोग के प्रदर्शन को निर्देशित करेगा और जो प्रयोगात्मक डेटा के प्राथमिक विश्लेषण को निर्दिष्ट करता है।
- प्रयोगात्मक प्रोटोकॉल के बाद प्रयोग करना और प्रयोगात्मक प्रोटोकॉल के बाद आंकड़ों का विश्लेषण करना।
- भविष्य के अध्ययन के लिए नई परिकल्पना का सुझाव देने के लिए, द्वितीयक विश्लेषण में सेट किए गए आंकड़ों की जांच करना।
- अध्ययन के परिणामों का दस्तावेजीकरण प्रस्तुत करना।
मानव व्यवहार पर प्रयोगों की विशेष चिंताएं हैं। प्रसिद्ध हॉथोर्न अध्ययन ने पश्चिमी इलेक्ट्रिक कंपनी के हॉथोर्न प्लांट में काम के माहौल में बदलाव की जांच की थी। शोधकर्ता यह निर्धारित करने में रुचि रखते थे कि क्या बढ़ी हुई रोशनी से विधानसभा लाइन श्रमिकों की उत्पादकता बढ़ेगी। शोधकर्ताओं ने पहले संयंत्र में उत्पादकता को मापा, फिर संयंत्र के एक क्षेत्र में रोशनी को संशोधित किया और जांच की कि क्या रोशनी प्रभावित उत्पादकता में परिवर्तन होता है।। यह पता चला कि उत्पादकता वास्तव में (प्रयोगात्मक परिस्थितियों में) में सुधार हुआ है। हालांकि, प्रायोगिक प्रक्रियाओं में त्रुटियों के लिए अध्ययन की आज की भारी आलोचना की जाती है, विशेष रूप से एक नियंत्रण समूह और डबल-ब्लाइंड की कमी के लिए । हॉथोर्न प्रभाव यह पता लगाने के लिए है कि एक परिणाम (इस मामले में, कार्यकर्ता उत्पादकता) अवलोकन के कारण बदल गया। हॉथोर्न अध्ययन में वे अधिक उत्पादक बन गए क्योंकि प्रकाश व्यवस्था को बदल दिया गया था, लेकिन क्योंकि उन्हें देखा जा रहा था।[37]
अवलोकन अध्ययन
एक अवलोकन अध्ययन का एक उदाहरण वह है जो धूम्रपान और फेफड़ों के कैंसर के बीच संबंध की पड़ताल करता है। इस प्रकार का अध्ययन आमतौर पर ब्याज के क्षेत्र के बारे में टिप्पणियों को इकट्ठा करने के लिए एक सर्वेक्षण का उपयोग करता है और फिर सांख्यिकीय विश्लेषण करता है। इस मामले में, शोधकर्ता धूम्रपान करने वालों और गैर-धूम्रपान करने वालों की टिप्पणियों को एकत्र करेंगे, शायद एक कोहोर्ट अध्ययन के माध्यम से, और फिर प्रत्येक समूह में फेफड़े के कैंसर के मामलों की संख्या की तलाश करेंगे।[38] केस-कंट्रोल अध्ययन एक अन्य प्रकार का अवलोकन अध्ययन है जिसमें ब्याज के परिणाम के साथ और बिना (जैसे फेफड़े के कैंसर) को भाग लेने के लिए आमंत्रित किया जाता है और उनके उद्भास (एक्सपोज़र) इतिहास एकत्र किए जाते हैं।
डेटा के प्रकार
माप के स्तरों के एक वर्गीकरण का उत्पादन करने के लिए विभिन्न प्रयास किए गए हैं। साइकोफिजिसिस्ट स्टेनली स्मिथ स्टीवंस ने नाममात्र, क्रमिक, अंतराल और अनुपात तराजू को परिभाषित किया। नाममात्र माप में मूल्यों के बीच सार्थक श्रेणी (रैंक) क्रम नहीं होता है, और किसी एक-से-एक अंतःक्षेपक (इंजेक्शन) परिवर्तन की अनुमति देता है। ऑर्डिनल माप में लगातार मूल्यों के बीच अंतर होता है, लेकिन उन मूल्यों के लिए एक सार्थक आदेश होता है, और किसी भी ऑर्डर-संरक्षण परिवर्तन की अनुमति देता है। अंतराल माप में परिभाषित माप के बीच सार्थक दूरी होती है, लेकिन शून्य मान स्वेच्छाचारी है (जैसे कि सेल्सियस या फ़ारेनहाइट में देशांतर और तापमान माप के साथ), और किसी भी रैखिक परिवर्तन की अनुमति देता है। अनुपात माप में एक सार्थक शून्य मूल्य और परिभाषित विभिन्न मापों के बीच की दूरी दोनों होती है, और किसी भी पुनरुत्थान परिवर्तन की अनुमति देती है।
क्योंकि केवल नाममात्र या क्रमिक माप के अनुरूप चर को संख्यात्मक रूप से मापा नहीं जा सकता है, कभी -कभी उन्हें एक साथ श्रेणीबद्ध चर के रूप में समूहीकृत किया जाता है, जबकि अनुपात और अंतराल माप को एक साथ मात्रात्मक चर के रूप में समूहीकृत किया जाता है, जो कि उनकी संख्यात्मक प्रकृति के कारण असतत या निरंतर हो सकता है। इस तरह के भेदों को अक्सर कंप्यूटर विज्ञान में डेटा प्रकार के साथ शिथिल रूप से सहसंबद्ध किया जा सकता है, जिसमें द्विध्रुवीय श्रेणीबद्ध चर को बूलियन डेटा प्रकार के साथ दर्शाया जा सकता है,अभिन्न रूप से सौंपे गए पूर्णांक के साथ पॉलिटोमस श्रेणीबद्ध चर, और वास्तविक डेटा प्रकार के साथ निरंतर चर शामिल हैं। फ्लोटिंग-पॉइंट अंकगणित लेकिन सांख्यिकीय डेटा प्रकारों के लिए कंप्यूटर विज्ञान डेटा प्रकारों की मैपिंग इस बात पर निर्भर करती है कि बाद में किस वर्गीकरण को लागू किया जा रहा है।
अन्य वर्गीकरण प्रस्तावित किए गए हैं। उदाहरण के लिए, मोस्टेलर और तुकी (1977)[39] प्रतिष्ठित ग्रेड, रैंक, गिनती किए गए अंश, गणना, मात्रा और संतुलन। नेल्डर (1990)[40] निरंतर गणना, निरंतर अनुपात, गणना अनुपात और डेटा के श्रेणीबद्ध मोड का वर्णन किया गया है। (यह भी देखें: क्रिसमैन (1998),[41] वैन डेन बर्ग (1991) ।[42])
विभिन्न प्रकार की माप प्रक्रियाओं से प्राप्त आंकड़ों (डेटा) के लिए विभिन्न प्रकार के सांख्यिकीय तरीकों को लागू करना उचित है या नहीं, यह मुद्दा चर के परिवर्तन और अनुसंधान प्रश्नों की सटीक व्याख्या से संबंधित मुद्दों से जटिल है। डेटा के बीच संबंध और वे जो वर्णन करते हैं, वह केवल इस तथ्य को दर्शाता है कि कुछ प्रकार के सांख्यिकीय बयानों में सत्य मूल्य हो सकते हैं जो कुछ परिवर्तनों के तहत अपरिवर्तनीय नहीं हैं। एक परिवर्तन चिंतन करने के लिए समझदार है या नहीं, यह उस प्रश्न पर निर्भर करता है जो एक जवाब देने की कोशिश कर रहा है।[43]: 82
तरीके
This section needs additional citations for verification. (December 2020) (Learn how and when to remove this template message) |
वर्णनात्मक सांख्यिकी
एक वर्णनात्मक आँकड़ा (गिनती संज्ञा अर्थ में) एक सारांश आँकड़ा है जो मात्रात्मक रूप से जानकारी के संग्रह की विशेषताओं का वर्णन या सारांशित करता है,[44] जबकि द्रव्यमान संज्ञा अर्थ में वर्णनात्मक आँकड़े उन आंकड़ों का उपयोग और विश्लेषण करने की प्रक्रिया है। वर्णनात्मक आंकड़े हीन आंकड़ों (या आगमनात्मक आंकड़ों) से अलग हैं, उस वर्णनात्मक आंकड़ों में एक नमूने को संक्षेप में प्रस्तुत करना है, बजाय इसके कि आंकड़ों उपयोग करने के लिए आंकड़ों का नमूना प्रतिनिधित्व करने के लिए सोचा जाता है।
हीन आँकड़े
सांख्यिकीय अनुमान एक अंतर्निहित संभावना वितरण के गुणों को कम करने के लिए डेटा विश्लेषण का उपयोग करने की प्रक्रिया है।[45] हीन सांख्यिकीय विश्लेषण एक आबादी के गुणों को प्रभावित करता है,उदाहरण के लिए परिकल्पना और व्युत्पन्न अनुमानों का परीक्षण करके। यह माना जाता है कि प्रेक्षित आंकड़ों का सेट एक बड़ी आबादी से नमूना लेके बनाया गया है। वर्णनात्मक आंकड़ों के साथ हीन आंकड़े विपरीत हो सकते हैं। वर्णनात्मक आँकड़े पूरी तरह से देखे गए आंकड़ों के गुणों से संबंधित हैं,और यह इस धारणा पर संदेह नहीं करता है कि आंकड़ों एक बड़ी आबादी से आते है।
शब्दावली और हीन सांख्यिकी का सिद्धांत
सांख्यिकी, अनुमानक और निर्णायक मात्रा
किसी दिए गए संभाव्यता वितरण के साथ स्वतंत्र रूप से वितरित (IID) यादृच्छिक चर पर विचार करें: मानक सांख्यिकीय अनुमान और अनुमान सिद्धांत एक यादृच्छिक नमूने को परिभाषित करता है क्योंकि इन IID चर के स्तंभ वेक्टर द्वारा दिए गए यादृच्छिक वेक्टर के रूप में।[46] जांच की जा रही आबादी को एक संभाव्यता वितरण द्वारा वर्णित किया गया है जिसमें अज्ञात पैरामीटर हो सकते हैं।
एक आँकड़ा एक यादृच्छिक चर है जो यादृच्छिक नमूने का एक कार्य है, लेकिन अज्ञात मापदंडों का एक फलन(फ़ंक्शन) नहीं है। सांख्यिकीय की संभावना वितरण, हालांकि, अज्ञात पैरामीटर हो सकते हैं।अब अज्ञात पैरामीटर के एक फलन पर विचार करें: एक अनुमानक एक सांख्यिकीय है जिसका उपयोग इस तरह के कार्य का अनुमान लगाने के लिए किया जाता है। आमतौर पर उपयोग किए जाने वाले अनुमानकों में नमूना माध्य, निष्पक्ष नमूना विचरण और नमूना सहसंयोजक शामिल हैं।
एक यादृच्छिक चर जो यादृच्छिक नमूने और अज्ञात पैरामीटर का एक कार्य है,लेकिन जिसका संभाव्यता वितरण अज्ञात पैरामीटर पर निर्भर नहीं करता है, को एक निर्णायक मात्रा या धुरी कहा जाता है।व्यापक रूप से उपयोग किए जाने वाले निर्णायक (पिवट) में जेड-स्कोर, ची स्क्वायर सांख्यिकीय और छात्र का टी-वैल्यू शामिल है।
किसी दिए गए पैरामीटर के दो अनुमानकों के बीच,कम माध्य वर्ग त्रुटि वाले व्यक्ति को अधिक कुशल कहा जाता है। इसके अलावा, एक अनुमानक को निष्पक्ष कहा जाता है यदि इसका अपेक्षित मूल्य अनुमानित अज्ञात पैरामीटर के वास्तविक मूल्य के बराबर है, और उपगामित (एसिम्प्टोटिक) रूप से निष्पक्ष है यदि इसका अपेक्षित मूल्य इस तरह के पैरामीटर के वास्तविक मूल्य की सीमा पर अभिसरण करता है।
अनुमानकों के लिए अन्य वांछनीय गुणों में शामिल हैं: UMVUE अनुमानक जो अनुमानित किए जाने वाले पैरामीटर के सभी संभावित मूल्यों के लिए सबसे कम विचरण करते हैं (यह आमतौर पर दक्षता की तुलना में सत्यापित करने के लिए एक आसान संपत्ति है) और सुसंगत अनुमानक जो इस तरह के पैरामीटर के सही मूल्य के लिए संभावना में परिवर्तित होते हैं ।
यह अभी भी इस सवाल को छोड़ देता है कि किसी दिए गए स्थिति में अनुमानक कैसे प्राप्त किया जाए और गणना को आगे बढ़ाया जाए, कई तरीकों का प्रस्ताव किया गया है: क्षणों की विधि, अधिकतम संभावना विधि, कम से कम वर्ग विधि और समीकरणों का आकलन करने की अधिक हालिया विधि है।
अशक्त परिकल्पना और वैकल्पिक परिकल्पना
सांख्यिकीय जानकारी की व्याख्या में अक्सर एक अशक्त परिकल्पना के विकास को शामिल किया जा सकता है जो आमतौर पर (लेकिन जरूरी नहीं है) कि कोई संबंध चर के बीच मौजूद नहीं है या समय के साथ कोई परिवर्तन नहीं हुआ है।[47][48] एक नौसिखिया के लिए सबसे अच्छा चित्रण एक आपराधिक परीक्षण द्वारा सामना किया गया विधेय है। अशक्त परिकल्पना, H0 दावा करता है कि प्रतिवादी निर्दोष है, जबकि वैकल्पिक परिकल्पना, H1 दावा करता है कि प्रतिवादी दोषी है। अपराध के संदेह के कारण अभियोग आता है। H0 (यथास्थिति) H1 के विरोध में खड़ा है और जब तक H1 बनाए रखा जाता है एक उचित संदेह से परे साक्ष्य द्वारा समर्थित है। हालांकि, H0 को अस्वीकार करने में विफलताइस मामले में निर्दोषता नहीं है, लेकिन केवल यह है कि सबूत दोषी ठहराने के लिए अपर्याप्त थे तो जरूरी नहीं है कि H0 स्वीकार करें लेकिन H0 को अस्वीकार करने में विफल रहता है। जबकि कोई एक शून्य परिकल्पना साबित नहीं कर सकता है, कोई यह परीक्षण कर सकता है कि पावर टेस्ट के साथ यह सच होना कितना करीब है, जो टाइप II त्रुटियों के लिए परीक्षण करता है।
जो सांख्यिकीविद् एक वैकल्पिक परिकल्पना कहते हैं, वह केवल एक परिकल्पना है जो अशक्त परिकल्पना का खंडन करती है।
त्रुटि
एक अशक्त परिकल्पना से काम करते हुए, त्रुटि की दो व्यापक श्रेणियों को मान्यता दी जाती है:
- टाइप I त्रुटियां जहां अशक्त परिकल्पना को गलत तरीके से अस्वीकार कर दिया जाता है, एक गलत सकारात्मक देता है।
- टाइप II त्रुटियां जहां अशक्त परिकल्पना अस्वीकार करने में विफल रहती है और आबादी के बीच एक वास्तविक अंतर छूट जाता है, एक गलत नकारात्मक देता है।
मानक विचलन का अर्थ उस हद तक है कि एक नमूने में व्यक्तिगत अवलोकन एक केंद्रीय मूल्य से भिन्न होते हैं, जैसे कि नमूना या जनसंख्या का मतलब, जबकि मानक त्रुटि नमूना माध्य और जनसंख्या के बीच अंतर के अनुमान को संदर्भित करती है।
एक सांख्यिकीय त्रुटि वह राशि है जिसके द्वारा एक अवलोकन उसके अपेक्षित मूल्य से भिन्न होता है। एक अवशिष्ट वह राशि है जो एक अवलोकन मूल्य से भिन्न होता है। अपेक्षित मूल्य के अनुमानक को किसी दिए गए नमूने पर मान लिया जाता है (जिसे भविष्यवाणी भी कहा जाता है)।
माध्य चुकता त्रुटि का उपयोग कुशल अनुमानक प्राप्त करने के लिए किया जाता है, अनुमानकों का व्यापक रूप से उपयोग किया जाता है। वर्ग माध्य , वर्ग त्रुटि केवल माध्य वर्ग त्रुटि का वर्गमूल है।
कई सांख्यिकीय तरीके वर्गों के अवशिष्ट योग को कम करने की कोशिश करते हैं, और इन्हें कम से कम निरपेक्ष विचलन के विपरीत कम से कम वर्गों के तरीके कहा जाता है। उत्तरार्द्ध छोटी और बड़ी त्रुटियों को समान वजन देता है, जबकि पूर्व बड़ी त्रुटियों को अधिक वजन देता है। वर्गों का अवशिष्ट योग भी अलग है, जो प्रतिगमन करने के लिए एक आसान संपत्ति प्रदान करता है। रैखिक प्रतिगमन के लिए लागू कम से कम वर्गों को साधारण कम से कम वर्ग विधि कहा जाता है और अरैखिक प्रतिगमन(नॉनलाइनियर रिग्रेशन) पर लागू कम से कम वर्गों को गैर-रैखिक कम से कम वर्ग कहा जाता है। इसके अलावा एक रैखिक प्रतिगमन मॉडल में मॉडल के गैर -नियतात्मक भाग को त्रुटि शब्द, गड़बड़ी या अधिक सरल शोर कहा जाता है। दोनों रैखिक प्रतिगमन और गैर-रैखिक प्रतिगमन दोनों को बहुपद कम से कम वर्गों में संबोधित किया जाता है, जो स्वतंत्र चर (x अक्ष) और विचलन (त्रुटियों, शोर,उत्तेजना) के एक समारोह के रूप में आश्रित चर (y अक्ष) की भविष्यवाणी में विचरण का भी वर्णन करता है, अनुमानित (फिट) वक्र से विचलन का भी वर्णन करता है ।
सांख्यिकीय आँकड़े उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप मे वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, जैसे कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी महत्वपूर्ण हो सकता है। लापता आँकड़े या सेंसरिंग की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।[49]
अंतराल अनुमान
अधिकांश अध्ययन केवल एक आबादी का नमूना हिस्सा है, इसलिए परिणाम पूरी तरह से पूरी आबादी का प्रतिनिधित्व नहीं करते हैं। नमूने से प्राप्त कोई भी अनुमान केवल जनसंख्या मूल्य को अनुमानित करता है। आत्मविश्वास अंतराल सांख्यिकीविदों को यह व्यक्त करने की अनुमति देता है कि नमूना अनुमान पूरी आबादी में सही मूल्य से कैसे निकटता से मेल खाता है। अक्सर उन्हें 95% विश्वास अंतराल के रूप में व्यक्त किया जाता है। औपचारिक रूप से, एक मूल्य के लिए 95% आत्मविश्वास अंतराल एक सीमा है, जहां यदि नमूना और विश्लेषण समान परिस्थितियों में दोहराया गया था (एक अलग डेटासेट की उपज), तो अंतराल में सभी संभावित मामलों के 95% में सही (जनसंख्या) मूल्य शामिल होगा । इसका मतलब यह नहीं है कि विश्वास अंतराल में वास्तविक मूल्य है कि वास्तविक मूल्य 95%है। बार -बार के दृष्टिकोण से, ऐसा दावा भी समझ में नहीं आता है, क्योंकि सही मूल्य एक यादृच्छिक चर नहीं है। या तो सही मूल्य है या दिए गए अंतराल के भीतर नहीं है। हालांकि, यह सच है कि, इससे पहले कि किसी भी आँकड़े का नमूना लिया जाए और आत्मविश्वास अंतराल का निर्माण करने के तरीके के लिए एक योजना दी जाए, संभावना 95% है कि अभी तक की गणना की गई अंतराल सही मूल्य को कवर करेगा: इस बिंदु पर, अंतराल की सीमाएं अभी तक-से-अवयव यादृच्छिक चर हैं। एक दृष्टिकोण जो एक अंतराल प्राप्त करता है, जिसे सही मूल्य से युक्त होने की संभावना के रूप में व्याख्या की जा सकती है, बायेसियन आँकड़ों से एक विश्वसनीय अंतराल का उपयोग करना है: यह दृष्टिकोण संभावना के रूप में क्या है, इसकी व्याख्या करने के एक अलग तरीके पर निर्भर करता है, यह एक के रूप में है बायेसियन प्रायिकता है।
सिद्धांत रूप में आत्मविश्वास अंतराल सममित या विषम हो सकता है। एक अंतराल विषम हो सकता है क्योंकि यह एक पैरामीटर (बाएं तरफा अंतराल या दाएं पक्षीय अंतराल) के लिए निचले या ऊपरी सीमा के रूप में काम करता है, लेकिन यह विषम भी हो सकता है क्योंकि दो तरफा अंतराल अनुमान के आसपास समरूपता का उल्लंघन करते हैं। कभी -कभी एक आत्मविश्वास अंतराल के लिए सीमा को उपगामित तक पहुंच जाता है और इनका उपयोग वास्तविक सीमाओं को अनुमानित करने के लिए किया जाता है।
महत्व
सांख्यिकी शायद ही कभी विश्लेषण के तहत प्रश्न का एक सरल हां/नहीं प्रकार का उत्तर दें। व्याख्या अक्सर संख्याओं पर लागू सांख्यिकीय महत्व के स्तर तक आती है और अक्सर शून्य परिकल्पना को अस्वीकार करने वाले मूल्य की संभावना को संदर्भित करता है (कभी-कभी p मान के रूप में )।
मानक दृष्टिकोण[46]एक वैकल्पिक परिकल्पना के खिलाफ एक शून्य परिकल्पना का परीक्षण करना है। एक महत्वपूर्ण क्षेत्र अनुमानक के मूल्यों का सेट है जो अशक्त परिकल्पना का खंडन करता है। टाइप I त्रुटि की संभावना इसलिए संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित है, यह देखते हुए कि अशक्त परिकल्पना सही है (सांख्यिकीय महत्व) और टाइप II त्रुटि की संभावना यह संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित नहीं है और वैकल्पिक परिकल्पना सच है। एक परीक्षण की सांख्यिकीय शक्ति संभावना है कि यह सही ढंग से अशक्त परिकल्पना को अस्वीकार कर देता है जब अशक्त परिकल्पना गलत होती है।
सांख्यिकीय महत्व का उल्लेख करने का मतलब यह नहीं है कि वास्तविक दुनिया के संदर्भ में समग्र परिणाम महत्वपूर्ण है। उदाहरण के लिए, एक दवा के एक बड़े अध्ययन में यह दिखाया जा सकता है कि दवा का सांख्यिकीय रूप से महत्वपूर्ण लेकिन बहुत कम लाभकारी प्रभाव होता है, जैसे कि दवा रोगी को ध्यान में रखने में मदद करने की संभावना नहीं है।
यद्यपि सिद्धांत रूप में सांख्यिकीय महत्व का स्वीकार्य स्तर बहस के अधीन हो सकता है, लेकिन महत्व स्तर सबसे बड़ा p मान के अधीन है जो परीक्षण को अशक्त परिकल्पना को अस्वीकार करने की अनुमति देता है। यह परीक्षण तार्किक रूप से यह कहने के लिए बराबर है कि p मान प्रायिकता है, यह मानते हुए कि शून्य परिकल्पना सच है, कम से कम परीक्षण सांख्यिकीय के रूप में चरम के परिणामस्वरूप हैं। इसलिए, महत्व स्तर जितना छोटा होगा, टाइप I त्रुटि कम करने की संभावना उतनी कम होगी।
कुछ समस्याएं आमतौर पर इस ढांचे से जुड़ी होती हैं (परिकल्पना परीक्षण की आलोचना देखें):
- एक अंतर जो अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण है, अभी भी कोई व्यावहारिक महत्व नहीं हो सकता है, लेकिन इसके लिए ध्यान देने के लिए परीक्षणों को ठीक से तैयार करना संभव है। एक प्रतिक्रिया में p मान को शामिल करने के लिए केवल महत्व स्तर की रिपोर्टिंग से परे जाना शामिल है। p मान को जब रिपोर्ट करते हुए कि क्या परिकल्पना को अस्वीकार किया गया है या स्वीकार किया गया है। p मान , हालांकि, अवलोकन प्रभाव के आकार या महत्व को इंगित नहीं करता है और बड़े अध्ययनों में मामूली अंतर के महत्व को भी बढ़ा सकता है। एक बेहतर और तेजी से सामान्य दृष्टिकोण विश्वास अंतराल की रिपोर्ट करना है। यद्यपि ये परिकल्पना परीक्षणों या p मानों के समान गणना से उत्पन्न होते हैं, वे प्रभाव के आकार और इसके आसपास की अनिश्चितता दोनों का वर्णन करते हैं।
- ट्रांसपोज़्ड सशर्त की गिरावट, उर्फ अभियोजक की गिरावट: आलोचनाएँ उत्पन्न होती हैं क्योंकि परिकल्पना परीक्षण दृष्टिकोण एक परिकल्पना (शून्य परिकल्पना) को पसंद करने के लिए मजबूर करता है, क्योंकि जो मूल्यांकन किया जा रहा है वह अवलोकन परिणाम की संभावना है और शून्य परिकल्पना की संभावना है और संभावना नहीं है। अशक्त परिकल्पना को देखा गया परिणाम दिया गया। इस दृष्टिकोण का एक विकल्प बायेसियनअनुमान (इनवेंशन) द्वारा पेश किया जाता है, हालांकि इसके लिए एक पूर्व संभावना स्थापित करने की आवश्यकता होती है।[50]
- अशक्त परिकल्पना को अस्वीकार करना स्वचालित रूप से वैकल्पिक परिकल्पना साबित नहीं होता है।
- हीन आँकड़ों में सब कुछ नमूना आकार पर निर्भर करता है, और इसलिए फैट टेल्स के तहत p का मान गलत हो सकता है।[clarification needed]
उदाहरण
कुछ प्रसिद्ध सांख्यिकीय परीक्षण और प्रक्रियाएं हैं:
- विचरण का विश्लेषण (एनोवा)
- ची - वर्ग परीक्षण
- सह - संबंध
- कारक विश्लेषण
- मान-व्हिटनी 'U'
- [माध्य वर्ग भारित विचलन]] (एमएसडब्ल्यूडी)
- पियर्सन उत्पाद-क्षण सहसंबंध गुणांक
- प्रतिगमन विश्लेषण
- स्पीयरमैन का रैंक सहसंबंध गुणांक
- छात्र का 'टी'-परीक्षण
- समय श्रृंखला विश्लेषण
- संयुक्त विश्लेषण
खोजकर्ता डेटा विश्लेषण
खोजपूर्ण आँकड़े विश्लेषण (EDA) उनकी मुख्य विशेषताओं को संक्षेप में प्रस्तुत करने के लिएआँकड़े सेट का विश्लेषण करने के लिए एक दृष्टिकोण है, अक्सर दृश्य विधियों के साथ।एक सांख्यिकीय मॉडल का उपयोग किया जा सकता है या नहीं, लेकिन मुख्य रूप से EDA यह देखने के लिए है कि डेटा हमें औपचारिक मॉडलिंग या परिकल्पना परीक्षण कार्य से परे क्या बता सकता है।
दुरुपयोग(मिसु)
आंकड़ों का दुरुपयोग विवरण और व्याख्या में सूक्ष्म लेकिन गंभीर त्रुटियों का उत्पादन कर सकता है - इस अर्थ में कि अनुभवी पेशेवर भी इस तरह की त्रुटियां करते हैं, और इस अर्थ में गंभीर हैं कि वे विनाशकारी निर्णय त्रुटियों को जन्म दे सकते हैं। उदाहरण के लिए, सामाजिक नीति, चिकित्सा अभ्यास, और पुल जैसी संरचनाओं की विश्वसनीयता सभी आंकड़ों के उचित उपयोग पर निर्भर करती है।
यहां तक कि जब सांख्यिकीय तकनीकों को सही ढंग से लागू किया जाता है, तो परिणाम उन लोगों की कमी के लिए व्याख्या करना मुश्किल हो सकता है।आँकड़े में एक प्रवृत्ति का सांख्यिकीय महत्व - जो इस हद तक मापता है कि नमूने में यादृच्छिक भिन्नता के कारण एक प्रवृत्ति किस हद तक हो सकती है -मैं इसके महत्व के सहज ज्ञान युक्त भावना से सहमत नहीं हो सकता है। बुनियादी सांख्यिकीय कौशल (और संदेहवाद) का सेट जिसे लोगों को अपने रोजमर्रा के जीवन में जानकारी से निपटने की आवश्यकता होती है, उसे सांख्यिकीय साक्षरता कहा जाता है।
एक सामान्य धारणा है कि सांख्यिकीय ज्ञान जानबूझकर दुरुपयोग किया गया है, केवल उस आँकड़े की व्याख्या करने के तरीके खोजकर जो प्रस्तुतकर्ता के अनुकूल है।[51] आंकड़ों का अविश्वास और गलतफहमी उद्धरण, झूठ, शापित झूठ, और सांख्यिकी के साथ जुड़ा हुआ है। तीन प्रकार के झूठ हैं: झूठ, शापित झूठ और आंकड़े। आंकड़ों का दुरुपयोग अनजाने और जानबूझकर दोनों हो सकता है, और पुस्तक कैसे आंकड़े के साथ झूठ बोलें,[51]डेरेल हफ द्वारा, विचारों की एक श्रृंखला को रेखांकित करता है। आंकड़ों के उपयोग और दुरुपयोग पर प्रकाश डालने के प्रयास में, विशेष क्षेत्रों में उपयोग की जाने वाली सांख्यिकीय तकनीकों की समीक्षा की जाती है (जैसे कि वार्न, लाजो, रामोस और रिटर (2012))।[52] आंकड़ों के दुरुपयोग से बचने के तरीकों में उचित आरेखों का उपयोग करना और पूर्वाग्रह से बचने में शामिल हैं।[53] दुरुपयोग तब हो सकता है जब निष्कर्षों को अति-अधिकृत किया जाता है और दावा किया जाता है कि वे वास्तव में अधिक से अधिक के प्रतिनिधि हैं, अक्सर या तो जानबूझकर या अनजाने में नमूना पूर्वाग्रह की अनदेखी करते हैं।[54] बार रेखांकन यकीनन उपयोग और समझने के लिए सबसे आसान आरेख हैं, और उन्हें हाथ से या सरल कंप्यूटर कार्यक्रमों के साथ बनाया जा सकता है।[53]दुर्भाग्य से, ज्यादातर लोग पूर्वाग्रह या त्रुटियों की तलाश नहीं करते हैं, इसलिए उन्हें ध्यान नहीं दिया जाता है। इस प्रकार, लोग अक्सर यह मान सकते हैं कि कुछ सच है, भले ही यह अच्छी तरह से प्रतिनिधित्व नहीं करता है।[54]सांख्यिकी और सटीक आंकड़ों से डेटा एकत्र करने के लिए, लिया गया नमूना पूरे का प्रतिनिधि होना चाहिए।[55] हफ के अनुसार, एक नमूने की निर्भरता को [पूर्वाग्रह] द्वारा नष्ट किया जा सकता है ....अपने आप को कुछ हद तक संदेह की अनुमति दें।[56]
आंकड़ों की समझ में सहायता करने के लिए हफ ने प्रत्येक मामले में पूछे जाने वाले प्रश्नों की एक श्रृंखला का प्रस्ताव रखा:[51]*
- ऐसा कौन कहता है?(क्या उसे पीसने के लिए कुल्हाड़ी है?)
- वह कैसे/वह जानता है?(क्या उसके पास तथ्यों को जानने के लिए संसाधन हैं?)
- क्या नहीं हैं?(क्या वह हमें पूरी तस्वीर देता है?)
- क्या किसी ने विषय बदल दिया?(क्या वह हमें गलत समस्या का सही जवाब देता है?)
- क्या इसका अर्थ बनता है?(क्या उसका निष्कर्ष तार्किक और सुसंगत है जो हम पहले से जानते हैं?)
गलत व्याख्या: सहसंबंध
सहसंबंध की अवधारणा विशेष रूप से संभावित भ्रम के लिए उल्लेखनीय है। एक आँकड़े सेट के सांख्यिकीय विश्लेषण से अक्सर पता चलता है कि विचाराधीन जनसंख्या के दो चर (गुण) एक साथ भिन्न होते हैं, जैसे कि वे जुड़े हुए थे।उदाहरण के लिए, वार्षिक आय का एक अध्ययन जो मृत्यु की उम्र में भी देखता है, यह पा सकता है कि गरीब लोगों को समृद्ध लोगों की तुलना में कम जीवन होता है। दो चर को सहसंबद्ध कहा जाता है; हालाँकि, वे एक दूसरे का कारण हो सकते हैं या नहीं। सहसंबंध घटना एक तिहाई, पहले अचेतन घटना के कारण हो सकती है, जिसे एक दुबला चर या भ्रमित करने वाला चर कहा जाता है। इस कारण से, दो चर के बीच एक कारण संबंध के अस्तित्व का तुरंत अनुमान लगाने का कोई तरीका नहीं है।
अनुप्रयोग
लागू सांख्यिकी, सैद्धांतिक आँकड़े और गणितीय आँकड़े
लागू आंकड़े, कभी -कभी सांख्यिकीय विज्ञान के रूप में संदर्भित,[57] वर्णनात्मक आँकड़े और हीन आंकड़ों के अनुप्रयोग को शामिल करता है।[58][59] सैद्धांतिक आँकड़े सांख्यिकीय अनुमानों के दृष्टिकोण के औचित्य के साथ -साथ गणितीय आंकड़ों को शामिल करने के लिए तार्किक तर्कों की चिंता करते हैं। गणितीय आंकड़ों में न केवल अनुमान और अनुमान के तरीकों से संबंधित परिणामों को प्राप्त करने के लिए आवश्यक संभावना वितरण का हेरफेर शामिल है, बल्कि अभिकलनी(कम्प्यूटेशनल) आंकड़ों के विभिन्न पहलुओं और प्रयोगों के डिजाइन भी शामिल हैं।
सांख्यिकीय सलाहकार उन संगठनों और कंपनियों की मदद कर सकते हैं जिनके पास इन-हाउस विशेषज्ञता उनके विशेष प्रश्नों के लिए प्रासंगिक नहीं है।
मशीन लर्निंग और डेटा माइनिंग
मशीन लर्निंग मॉडल सांख्यिकीय और संभाव्य मॉडल हैं जो अभिकलनी (कम्प्यूटेशनल) एल्गोरिदम के उपयोग के माध्यम से आंकड़ों में प्रतिमान को कैप्चर आकर्षित करते हैं।
एकेडमिया में सांख्यिकी
आँकड़े प्राकृतिक और सामाजिक विज्ञान, सरकार और व्यवसाय सहित विभिन्न प्रकार के शैक्षणिक विषयों पर लागू होते हैं। व्यावसायिक सांख्यिकी सेवाओं में सुधार और विपणन अनुसंधान सहित अर्थमिति, ऑडिटिंग और उत्पादन और संचालन में सांख्यिकीय विधियों को लागू करता है।[60] उष्णकटिबंधीय जीव विज्ञान में दो पत्रिकाओं के एक अध्ययन में पाया गया कि 12 सबसे लगातार सांख्यिकीय परीक्षण हैं: विचरण का विश्लेषण (ANOVA) , ची-स्क्वायर टेस्ट, छात्र का टी परीक्षण, रैखिक प्रतिगमन, पियर्सन के सहसंबंध गुणांक, मान-व्हिटनी यू टेस्ट, क्रुस्कल-वालिसटेस्ट, शैनन की विविधता सूचकांक, तुकी की रेंज टेस्ट, तुकी का परीक्षण, क्लस्टर विश्लेषण, स्पीयरमैन रैंक सहसंबंध परीक्षण और प्रिंसिपल घटक विश्लेषण होते हैं।[61]
एक विशिष्ट सांख्यिकी पाठ्यक्रम में वर्णनात्मक आँकड़े, संभावना, द्विपद और सामान्य वितरण, परिकल्पना और आत्मविश्वास अंतराल, रैखिक प्रतिगमन और सहसंबंध का परीक्षण शामिल है। ref>Pekoz, Erol (2009). The Manager's Guide to Statistics. Erol Pekoz. ISBN 9780979570438.</ref> स्नातक छात्रों के लिए आधुनिक मौलिक सांख्यिकीय पाठ्यक्रम सही परीक्षण चयन, परिणाम व्याख्या और मुफ्त सांख्यिकी सॉफ्टवेयर के उपयोग पर ध्यान केंद्रित करते हैं।[61]
सांख्यिकीय कंप्यूटिंग
20 वीं शताब्दी के उत्तरार्ध से शुरू होने वाली कंप्यूटिंग शक्ति में तेजी से और निरंतर वृद्धि का सांख्यिकीय विज्ञान के अभ्यास पर पर्याप्त प्रभाव पड़ा है। प्रारंभिक सांख्यिकीय मॉडल लगभग हमेशा रैखिक मॉडल के वर्ग से थे, लेकिन शक्तिशाली कंप्यूटर, उपयुक्त संख्यात्मक एल्गोरिदम के साथ मिलकर, नॉनलाइनियर मॉडल (जैसे तंत्रिका नेटवर्क) के साथ -साथ नए प्रकार के निर्माण जैसे कि सामान्यीकृत रैखिक मॉडल में वृद्धि हुई है और बहुस्तरीय मॉडल मे भी होते हैं।
बढ़ी हुई कंप्यूटिंग शक्ति ने भी पुनरुत्थान के आधार पर अभिकलनी (कम्प्यूटेशनल) रूप से गहन तरीकों की बढ़ती लोकप्रियता का नेतृत्व किया है, जैसे कि क्रमपरिवर्तन परीक्षण और बूटस्ट्रैप, जबकि गिब्स सैंपलिंग जैसी तकनीकों ने बायेसियन मॉडल के उपयोग को अधिक संभव बना दिया है। कंप्यूटर क्रांति में प्रयोगात्मक और अनुभवजन्य आंकड़ों पर एक नए जोर के साथ आंकड़ों के भविष्य के लिए निहितार्थ हैं। सामान्य और विशेष उद्देश्य सांख्यिकीय सॉफ्टवेयर दोनों की बड़ी संख्या अब उपलब्ध हैं। जटिल सांख्यिकीय गणना में सक्षम उपलब्ध सॉफ़्टवेयर के उदाहरणों में गणित, SAS, SPSS और R जैसे कार्यक्रम शामिल हैं।
व्यावसायिक सांख्यिकी
व्यवसाय में, सांख्यिकी एक व्यापक रूप से उपयोग किया जाने वाला प्रबंधन- और निर्णय समर्थन उपकरण है। यह विशेष रूप से वित्तीय प्रबंधन, विपणन प्रबंधन और उत्पादन, सेवाओं और संचालन प्रबंधन में लागू होता है।[62][63] सांख्यिकी का उपयोग प्रबंधन लेखांकन और ऑडिटिंग में भी किया जाता है। प्रबंधन विज्ञान का अनुशासन व्यवसाय में सांख्यिकी और अन्य गणित के उपयोग को औपचारिक रूप देता है। (अर्थमिति आर्थिक संबंधों को अनुभवजन्य सामग्री देने के लिए आर्थिक आंकड़ों के लिए सांख्यिकीय तरीकों का अनुप्रयोग है।)
एक विशिष्ट व्यावसायिक सांख्यिकी पाठ्यक्रम व्यवसाय की बड़ी कंपनियों और कवर के लिए अभिप्रेत है [64] वर्णनात्मक आँकड़े (संग्रह, विवरण, विश्लेषण और डेटा का सारांश), संभावना (आमतौर पर द्विपद और सामान्य वितरण), परिकल्पना और आत्मविश्वास अंतराल का परीक्षण, रैखिक प्रतिगमन, और सहसंबंध; (फॉलो-ऑन) पाठ्यक्रमों में पूर्वानुमान, समय श्रृंखला, निर्णय पेड़, कई रैखिक प्रतिगमन, और व्यापार विश्लेषण से अन्य विषय अधिक आमतौर पर शामिल हो सकते हैं।यह सभी देखें Business mathematics § University level। पेशेवर प्रमाणन कार्यक्रम, जैसे कि CFA, में अक्सर आंकड़ों में विषय शामिल होते हैं।
गणित या कला के लिए लागू आंकड़े
परंपरागत रूप से, आंकड़े एक अर्ध-मानक कार्यप्रणाली का उपयोग करके आरेखण निष्कर्षों से संबंधित थे जो अधिकांश विज्ञानों में सीखने की आवश्यकता थी।[citation needed] यह परंपरा गैर-अनुमान (इन्फेक्शनल) संदर्भों में आंकड़ों के उपयोग के साथ बदल गई है।एक बार एक शुष्क विषय माना जाता था, जिसे कई क्षेत्रों में डिग्री-आवश्यकता के रूप में लिया गया था, अब उत्साह से देखा जाता है।[according to whom?] शुरू में कुछ गणितीय शुद्धतावादियों द्वारा प्राप्त, इसे अब कुछ क्षेत्रों में आवश्यक कार्यप्रणाली माना जाता है।
- संख्या सिद्धांत में, एक वितरण फ़ंक्शन द्वारा उत्पन्न डेटा के बिखराव के भूखंडों को अंतर्निहित पैटर्न को प्रकट करने के लिए आंकड़ों में उपयोग किए जाने वाले परिचित उपकरणों के साथ बदल दिया जा सकता है, जो तब परिकल्पना को जन्म दे सकता है।
- अराजकता सिद्धांत और फ्रैक्टल ज्यामिति के संयोजन के पूर्वानुमान में आंकड़ों के पूर्वानुमान के तरीकों का उपयोग वीडियो कार्यों को बनाने के लिए किया जा सकता है।[65]
- जैक्सन पोलक की प्रक्रिया कला कलात्मक प्रयोगों पर निर्भर थी, जिससे प्रकृति में अंतर्निहित वितरण को कलात्मक रूप से प्रकट किया गया था।[66] कंप्यूटर के आगमन के साथ, मूविंग वीडियो आर्ट बनाने और विश्लेषण करने के लिए इस तरह के वितरण-चालित प्राकृतिक प्रक्रियाओं को औपचारिक बनाने के लिए सांख्यिकीय विधियों को लागू किया गया था।[citation needed]
- सांख्यिकी के तरीकों का उपयोग प्रदर्शन कला में प्रमुख रूप से किया जा सकता है, जैसा कि एक मार्कोव प्रक्रिया के आधार पर एक कार्ड ट्रिक है जो केवल कुछ समय काम करता है, जिसके अवसर को सांख्यिकीय पद्धति का उपयोग करके भविष्यवाणी की जा सकती है।
- आंकड़ों का उपयोग मुख्य रूप से कला बनाने के लिए किया जा सकता है, जैसा कि इयानिस ज़ेनकिस द्वारा आविष्कार किए गए सांख्यिकीय या स्टोकेस्टिक संगीत में है, जहां संगीत प्रदर्शन-विशिष्ट है। हालांकि इस प्रकार की कलात्मकता हमेशा अपेक्षित रूप से बाहर नहीं आती है, यह उन तरीकों से व्यवहार करती है जो आंकड़ों का उपयोग करके अनुमानित और ट्यून करने योग्य हैं।
विशेष अनुशासन
सांख्यिकीय तकनीकों का उपयोग वैज्ञानिक और सामाजिक अनुसंधान की एक विस्तृत श्रृंखला में किया जाता है, जिनमें शामिल हैं: बायोस्टैटिस्टिक्स, कम्प्यूटेशनल बायोलॉजी, कम्प्यूटेशनल समाजशास्त्र, नेटवर्क जीव विज्ञान, सामाजिक विज्ञान, समाजशास्त्र और सामाजिक अनुसंधान है। पूछताछ के कुछ क्षेत्र ने इतने बड़े पैमाने पर आँकड़ों को लागू किया कि उनके पास विशेष शब्दावली है। ज़ो इन विषयों में शामिल हैं:
- बीमांकिक विज्ञान (बीमा और वित्त उद्योगों में जोखिम का आकलन करता है)
- एप्लाइड सूचना अर्थशास्त्र
- खगोल सांख्यिकी (खगोलीय डेटा का सांख्यिकीय मूल्यांकन)
- जैव सांख्यिकी
- केमोमेट्रिक्स ([रसायन विज्ञान] से डेटा के विश्लेषण के लिए))
- डेटा माइनिंग]] (डेटा से ज्ञान की खोज के लिए सांख्यिकी और पैटर्न पहचान लागू करना)
- डेटा साइंस
- जनसांख्यिकी (जनसंख्या का सांख्यिकीय अध्ययन)
- अर्थमिति (आर्थिक डेटा का सांख्यिकीय विश्लेषण)
- ऊर्जा सांख्यिकी
- इंजीनियरिंग सांख्यिकी
- महामारी विज्ञान (बीमारी का सांख्यिकीय विश्लेषण)
- [[[भूगोल]] और भौगोलिक सूचना प्रणाली []] एस, विशेष रूप से स्थानिक विश्लेषण में]
- मूर्ति प्रोद्योगिकी
इसके अलावा, विशेष प्रकार के सांख्यिकीय विश्लेषण हैं जिन्होंने अपनी विशेष शब्दावली और कार्यप्रणाली भी विकसित की है:
- [[बूटस्ट्रैप/बूटस्ट्रैप] जैकनाइफ रीसैंपलिंग]]
- बहुभिन्नरूपी आँकड़े
- सांख्यिकीय वर्गीकरण
- संरचित डेटा विश्लेषण
- संरचनात्मक समीकरण मॉडलिंग
- सर्वेक्षण विधि
- उत्तरजीविता विश्लेषण
- विभिन्न खेलों में सांख्यिकी, विशेष रूप से बेसबॉल आँकड़े| बेसबॉल - सबर्मेट्रिक्स के रूप में जाना जाता है - और क्रिकेट आँकड़े| क्रिकेट]]
सांख्यिकी व्यवसाय और विनिर्माण में भी एक प्रमुख आधार उपकरण बनाते हैं। इसका उपयोग माप प्रणाली परिवर्तनशीलता, नियंत्रण प्रक्रियाओं (सांख्यिकीय प्रक्रिया नियंत्रण या SPC में), आंकड़ो को सारांशित करने के लिए और आंकड़े-संचालित निर्णय लेने के लिए किया जाता है। इन भूमिकाओं में, यह एक महत्वपूर्ण उपकरण है, और शायद एकमात्र विश्वसनीय उपकरण है।[citation needed]
यह भी देखें
Library resources about Statistics |
- बहुतायत अनुमान
- संभाव्यता और आंकड़ों की शब्दावली
- अकादमिक सांख्यिकीय संघों की सूची
- सांख्यिकी में महत्वपूर्ण प्रकाशनों की सूची
- राष्ट्रीय और अंतर्राष्ट्रीय सांख्यिकीय सेवाओं की सूची
- सांख्यिकीय पैकेजों की सूची (सॉफ्टवेयर)
- सांख्यिकीय लेखों की सूची
- विश्वविद्यालय सांख्यिकीय परामर्श केंद्रों की सूची
- सांख्यिकी में संभाव्यता और अंकन
- सांख्यिकी शिक्षा
- विश्व सांख्यिकी दिवस]]
- नींव और सांख्यिकी के प्रमुख क्षेत्र
संदर्भ
- ↑ "Statistics". Oxford Reference. Oxford University Press. January 2008. ISBN 978-0-19-954145-4. Archived from the original on 2020-09-03. Retrieved 2019-08-14.
- ↑ Romijn, Jan-Willem (2014). "Philosophy of statistics". Stanford Encyclopedia of Philosophy. Archived from the original on 2021-10-19. Retrieved 2016-11-03.
- ↑ "Cambridge Dictionary". Archived from the original on 2020-11-22. Retrieved 2019-08-14.
- ↑ Dodge, Y. (2006) The Oxford Dictionary of Statistical Terms, Oxford University Press. ISBN 0-19-920613-9
- ↑ 5.0 5.1 Lund Research Ltd. "Descriptive and Inferential Statistics". statistics.laerd.com. Archived from the original on 2020-10-26. Retrieved 2014-03-23.
- ↑ "What Is the Difference Between Type I and Type II Hypothesis Testing Errors?". About.com Education. Archived from the original on 2017-02-27. Retrieved 2015-11-27.
- ↑ Moses, Lincoln E. (1986) Think and Explain with Statistics, Addison-Wesley, ISBN 978-0-201-15619-5. pp. 1–3
- ↑ Hays, William Lee, (1973) Statistics for the Social Sciences, Holt, Rinehart and Winston, p.xii, ISBN 978-0-03-077945-9
- ↑ Moore, David (1992). "Teaching Statistics as a Respectable Subject". In F. Gordon; S. Gordon (eds.). Statistics for the Twenty-First Century. Washington, DC: The Mathematical Association of America. pp. 14–25. ISBN 978-0-88385-078-7.
- ↑ Chance, Beth L.; Rossman, Allan J. (2005). "Preface" (PDF). Investigating Statistical Concepts, Applications, and Methods. Duxbury Press. ISBN 978-0-495-05064-3. Archived (PDF) from the original on 2020-11-22. Retrieved 2009-12-06.
- ↑ Lakshmikantham, D.; Kannan, V. (2002). Handbook of stochastic analysis and applications. New York: M. Dekker. ISBN 0824706609.
- ↑ Schervish, Mark J. (1995). Theory of statistics (Corr. 2nd print. ed.). New York: Springer. ISBN 0387945466.
- ↑ 13.0 13.1 Broemeling, Lyle D. (1 November 2011). "An Account of Early Statistical Inference in Arab Cryptology". The American Statistician. 65 (4): 255–257. doi:10.1198/tas.2011.10191. S2CID 123537702.
- ↑ Willcox, Walter (1938) "The Founder of Statistics". Review of the International Statistical Institute 5(4): 321–328. JSTOR 1400906
- ↑ J. Franklin, The Science of Conjecture: Evidence and Probability before Pascal, Johns Hopkins Univ Pr 2002
- ↑ Helen Mary Walker (1975). Studies in the history of statistical method. Arno Press. ISBN 9780405066283. Archived from the original on 2020-07-27. Retrieved 2015-06-27.
- ↑ Galton, F (1877). "Typical laws of heredity". Nature. 15 (388): 492–553. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0.
- ↑ Stigler, S.M. (1989). "Francis Galton's Account of the Invention of Correlation". Statistical Science. 4 (2): 73–79. doi:10.1214/ss/1177012580.
- ↑ Pearson, K. (1900). "On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling". Philosophical Magazine. Series 5. 50 (302): 157–175. doi:10.1080/14786440009463897. Archived from the original on 2020-08-18. Retrieved 2019-06-27.
- ↑ "Karl Pearson (1857–1936)". Department of Statistical Science – University College London. Archived from the original on 2008-09-25.
- ↑ Fisher|1971|loc=Chapter II. The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis
- ↑ OED quote: 1935 R.A. Fisher, The Design of Experiments ii. 19, "We may speak of this hypothesis as the 'null hypothesis', and the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation."
- ↑ Box, JF (February 1980). "R.A. Fisher and the Design of Experiments, 1922–1926". The American Statistician. 34 (1): 1–7. doi:10.2307/2682986. JSTOR 2682986.
- ↑ Yates, F (June 1964). "Sir Ronald Fisher and the Design of Experiments". Biometrics. 20 (2): 307–321. doi:10.2307/2528399. JSTOR 2528399.
- ↑ Stanley, Julian C. (1966). "The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later". American Educational Research Journal. 3 (3): 223–229. doi:10.3102/00028312003003223. JSTOR 1161806. S2CID 145725524.
- ↑ Agresti, Alan; David B. Hichcock (2005). "Bayesian Inference for Categorical Data Analysis" (PDF). Statistical Methods & Applications. 14 (3): 298. doi:10.1007/s10260-005-0121-y. S2CID 18896230. Archived (PDF) from the original on 2013-12-19. Retrieved 2013-12-19.
- ↑ Edwards, A.W.F. (1998). "Natural Selection and the Sex Ratio: Fisher's Sources". American Naturalist. 151 (6): 564–569. doi:10.1086/286141. PMID 18811377. S2CID 40540426.
- ↑ Fisher, R.A. (1915) The evolution of sexual preference. Eugenics Review (7) 184:192
- ↑ Fisher, R.A. (1930) The Genetical Theory of Natural Selection. ISBN 0-19-850440-3
- ↑ Edwards, A.W.F. (2000) Perspectives: Anecdotal, Historial and Critical Commentaries on Genetics. The Genetics Society of America (154) 1419:1426
- ↑ Andersson, Malte (1994). Sexual Selection. Princeton University Press. ISBN 0-691-00057-3. Archived from the original on 2019-12-25. Retrieved 2019-09-19.
- ↑ Andersson, M. and Simmons, L.W. (2006) Sexual selection and mate choice. Trends, Ecology and Evolution (21) 296:302
- ↑ Gayon, J. (2010) Sexual selection: Another Darwinian process. Comptes Rendus Biologies (333) 134:144
- ↑ Neyman, J (1934). "On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection". Journal of the Royal Statistical Society. 97 (4): 557–625. doi:10.2307/2342192. JSTOR 2342192.
- ↑ "Science in a Complex World – Big Data: Opportunity or Threat?". Santa Fe Institute. Archived from the original on 2016-05-30. Retrieved 2014-10-13.
- ↑ Freedman, D.A. (2005) Statistical Models: Theory and Practice, Cambridge University Press. ISBN 978-0-521-67105-7
- ↑ McCarney R, Warner J, Iliffe S, van Haselen R, Griffin M, Fisher P (2007). "The Hawthorne Effect: a randomised, controlled trial". BMC Med Res Methodol. 7 (1): 30. doi:10.1186/1471-2288-7-30. PMC 1936999. PMID 17608932.
- ↑ Rothman, Kenneth J; Greenland, Sander; Lash, Timothy, eds. (2008). "7". Modern Epidemiology (in English) (3rd ed.). Lippincott Williams & Wilkins. p. 100. ISBN 9780781755641.
- ↑ Mosteller, F.; Tukey, J.W (1977). Data analysis and regression. Boston: Addison-Wesley.
- ↑ Nelder, J.A. (1990). The knowledge needed to computerise the analysis and interpretation of statistical information. In Expert systems and artificial intelligence: the need for information about data. Library Association Report, London, March, 23–27.
- ↑ Chrisman, Nicholas R (1998). "Rethinking Levels of Measurement for Cartography". Cartography and Geographic Information Science. 25 (4): 231–242. doi:10.1559/152304098782383043.
- ↑ van den Berg, G. (1991). Choosing an analysis method. Leiden: DSWO Press
- ↑ Hand, D.J. (2004). Measurement theory and practice: The world through quantification. London: Arnold.
- ↑ Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
- ↑ Upton, G., Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4.
- ↑ 46.0 46.1 Piazza Elio, Probabilità e Statistica, Esculapio 2007
- ↑ Everitt, Brian (1998). The Cambridge Dictionary of Statistics. Cambridge, UK New York: Cambridge University Press. ISBN 0521593468.
- ↑ "Cohen (1994) The Earth Is Round (p < .05)". YourStatsGuru.com. Archived from the original on 2015-09-05. Retrieved 2015-07-20.
- ↑ Rubin, Donald B.; Little, Roderick J.A., Statistical analysis with missing data, New York: Wiley 2002
- ↑ Ioannidis, J.P.A. (2005). "Why Most Published Research Findings Are False". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722.
- ↑ 51.0 51.1 51.2 Huff, Darrell (1954) How to Lie with Statistics, WW Norton & Company, Inc. New York. ISBN 0-393-31072-8
- ↑ Warne, R. Lazo; Ramos, T.; Ritter, N. (2012). "Statistical Methods Used in Gifted Education Journals, 2006–2010". Gifted Child Quarterly. 56 (3): 134–149. doi:10.1177/0016986212444122. S2CID 144168910.
- ↑ 53.0 53.1 Drennan, Robert D. (2008). "Statistics in archaeology". In Pearsall, Deborah M. (ed.). Encyclopedia of Archaeology. Elsevier Inc. pp. 2093–2100. ISBN 978-0-12-373962-9.
- ↑ 54.0 54.1 Cohen, Jerome B. (December 1938). "Misuse of Statistics". Journal of the American Statistical Association. JSTOR. 33 (204): 657–674. doi:10.1080/01621459.1938.10502344.
- ↑ Freund, J.E. (1988). "Modern Elementary Statistics". Credo Reference.
- ↑ Huff, Darrell; Irving Geis (1954). How to Lie with Statistics. New York: Norton.
The dependability of a sample can be destroyed by [bias]... allow yourself some degree of skepticism.
- ↑ Nelder, John A. (1999). "From Statistics to Statistical Science". Journal of the Royal Statistical Society. Series D (The Statistician). 48 (2): 257–269. doi:10.1111/1467-9884.00187. ISSN 0039-0526. JSTOR 2681191. Archived from the original on 2022-01-15. Retrieved 2022-01-15.
- ↑ Nikoletseas, M.M. (2014) "Statistics: Concepts and Examples." ISBN 978-1500815684
- ↑ Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1994) Introduction to Statistics: Concepts and Applications, pp. 5–9. West Group. ISBN 978-0-314-03309-3
- ↑ "Journal of Business & Economic Statistics". Journal of Business & Economic Statistics. Taylor & Francis. Archived from the original on 27 July 2020. Retrieved 16 March 2020.
- ↑ 61.0 61.1 Natalia Loaiza Velásquez, María Isabel González Lutz & Julián Monge-Nájera (2011). "Which statistics should tropical biologists learn?" (PDF). Revista Biología Tropical. 59: 983–992. Archived (PDF) from the original on 2020-10-19. Retrieved 2020-04-26.
- ↑ "Aims and scope". Journal of Business & Economic Statistics. Taylor & Francis. Archived from the original on 23 June 2021. Retrieved 16 March 2020.
- ↑ "Journal of Business & Economic Statistics". Journal of Business & Economic Statistics. Taylor & Francis. Archived from the original on 27 July 2020. Retrieved 16 March 2020.
- ↑ Numerous texts are available, reflecting the scope and reach of the discipline in the business world:
- Sharpe, N. (2014). Business Statistics, Pearson. ISBN 978-0134705217
- Wegner, T. (2010). Applied Business Statistics: Methods and Excel-Based Applications, Juta Academic. ISBN 0702172863
- Holmes, L., Illowsky, B., Dean, S (2017). Introductory Business Statistics Archived 2021-06-16 at the Wayback Machine
- Nica, M. (2013). Principles of Business Statistics Archived 2021-05-18 at the Wayback Machine
- ↑ Cline, Graysen (2019). Nonparametric Statistical Methods Using R. EDTECH. ISBN 978-1-83947-325-8. OCLC 1132348139. Archived from the original on 2022-05-15. Retrieved 2021-09-16.
- ↑ Palacios, Bernardo; Rosario, Alfonso; Wilhelmus, Monica M.; Zetina, Sandra; Zenit, Roberto (2019-10-30). "Pollock avoided hydrodynamic instabilities to paint with his dripping technique". PLOS ONE (in English). 14 (10): e0223706. Bibcode:2019PLoSO..1423706P. doi:10.1371/journal.pone.0223706. ISSN 1932-6203. PMC 6821064. PMID 31665191.
अग्रिम पठन
- Lydia Denworth, "A Significant Problem: Standard scientific methods are under fire. Will anything change?", Scientific American, vol. 321, no. 4 (October 2019), pp. 62–67. "The use of p values for nearly a century [since 1925] to determine statistical significance of experimental results has contributed to an illusion of certainty and [to] reproducibility crises in many scientific fields. There is growing determination to reform statistical analysis... Some [researchers] suggest changing statistical methods, whereas others would do away with a threshold for defining "significant" results." (p. 63.)
- Barbara Illowsky; Susan Dean (2014). Introductory Statistics. OpenStax CNX. ISBN 9781938168208.
- Stockburger, David W. "Introductory Statistics: Concepts, Models, and Applications". Missouri State University (3rd Web ed.). Archived from the original on 28 May 2020.
- OpenIntro Statistics Archived 2019-06-16 at the Wayback Machine, 3rd edition by Diez, Barr, and Cetinkaya-Rundel
- Stephen Jones, 2010. Statistics in Psychology: Explanations without Equations. Palgrave Macmillan. ISBN 9781137282392.
- Cohen, J (1990). "Things I have learned (so far)" (PDF). American Psychologist. 45 (12): 1304–1312. doi:10.1037/0003-066x.45.12.1304. Archived from the original (PDF) on 2017-10-18.
- Gigerenzer, G (2004). "Mindless statistics". Journal of Socio-Economics. 33 (5): 587–606. doi:10.1016/j.socec.2004.09.033.
- Ioannidis, J.P.A. (2005). "Why most published research findings are false". PLOS Medicine. 2 (4): 696–701. doi:10.1371/journal.pmed.0040168. PMC 1855693. PMID 17456002.
बाहरी संबंध
- (Electronic Version): TIBCO Software Inc. (2020). Data Science Textbook.
- Online Statistics Education: An Interactive Multimedia Course of Study. Developed by Rice University (Lead Developer), University of Houston Clear Lake, Tufts University, and National Science Foundation.
- UCLA Statistical Computing Resources
- Philosophy of Statistics from the Stanford Encyclopedia of Philosophy
{{Navbox
| name =गणित के क्षेत्र
|state = autocollapse
| title =अंक शास्त्र
| bodyclass = hlist
|above =
| group1 = नींव
| list1 =* श्रेणी सिद्धांत
| group2 =बीजगणित | list2 =* सार
| group3 = विश्लेषण | list3 =* पथरी
- वास्तविक विश्लेषण
- जटिल विश्लेषण
- हाइपरकम्प्लेक्स विश्लेषण
- अंतर समीकरण
- कार्यात्मक विश्लेषण
- हार्मोनिक विश्लेषण
- माप सिद्धांत
| group4 = असतत | list4 =* कॉम्बीनेटरिक्स
| group5 =ज्यामिति | list5 =* बीजगणितीय
| group6 =संख्या सिद्धांत | list6 =* अंकगणित
| group7 =टोपोलॉजी | list7 =* सामान्य
| group8 = लागू | list8 =* इंजीनियरिंग गणित
- गणितीय जीव विज्ञान
- गणितीय रसायन विज्ञान
- गणितीय अर्थशास्त्र
- गणितीय वित्त
- गणितीय भौतिकी
- गणितीय मनोविज्ञान
- गणितीय समाजशास्त्र
- गणितीय सांख्यिकी
- संभावना
- सांख्यिकी
- सिस्टम साइंस
| group9 = कम्प्यूटेशनल | list9 =* कंप्यूटर विज्ञान
| group10 = संबंधित विषय | list10 =* अनौपचारिक गणित
| below =* '
}}
<!
]