सांख्यिकी

From Vigyanwiki
सामान्य वितरण, एक बहुत ही सामान्य संभावना घनत्व, केंद्रीय सीमा प्रमेय के कारण उपयोगी है।
IRIS फूल डेटा सेट का उपयोग करके यहां विभिन्न चर के बीच देखे गए संबंधों को दिखाने के लिए वर्णनात्मक आंकड़ों में स्कैटर प्लॉट का उपयोग किया जाता है।

सांख्यिकी वह व्यवस्था है जो आंकड़ों के संग्रह, संगठन, विश्लेषण, व्याख्या और प्रस्तुति से संबंधित है।[1][2][3] किसी वैज्ञानिक, औद्योगिक या सामाजिक समस्या के आंकड़ों को लागू करने में एक सांख्यिकीय जनसंख्या या अध्ययन के लिए सांख्यिकीय मॉडल के साथ शुरू करना पारंपरिक है। जनसंख्या लोगों या वस्तुओं का विविध समूह हो सकती हैं जैसे "एक देश में रहने वाले सभी लोग" या "हर परमाणु एक क्रिस्टल की रचना करते हैं"। सांख्यिकी डेटा के हर पहलू से संबंधित है, जिसमें सर्वेक्षण और प्रयोगों के डिजाइन के संदर्भ में आँकड़े संग्रह की योजना शामिल है।[4] जब जनगणना आँकड़े एकत्र नहीं किया जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके आँकड़े एकत्र करते हैं। प्रतिनिधि नमूनाकरण को आश्वासन देता है कि निष्कर्ष समग्र रूप से नमूने से आबादी तक विस्तारित हो सकते हैं। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली (सिस्टम) की माप लेना, प्रणाली में हेरफेर करना, और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है कि क्या हेरफेर ने माप के मूल्यों को संशोधित किया है।इसके विपरीत, क्य़ा एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है।

आँकड़े विश्लेषण में दो मुख्य सांख्यिकीय तरीकों का उपयोग किया जाता है: वर्णनात्मक आँकड़े, जो एक नमूने से आंकड़ोंको संक्षेप में अनुक्रमित या मानक विचलन, और हीन आँकड़े जैसे अनुक्रमित का उपयोग करते हैं, जो आंकड़ों से निष्कर्ष निकालते हैं जो यादृच्छिक भिन्नता के अधीन हैं (जैसे,अवलोकन संबंधी त्रुटियां,अवलोकन संबंधी त्रुटियां,नमूना भिन्नता) ।[5] वर्णनात्मक आँकड़े अक्सर एक वितरण (नमूना या जनसंख्या) के गुणों के दो सेटों से संबंधित होते हैं: (केंद्रीय प्रवृत्ति या स्थान) वितरण के केंद्रीय या विशिष्ट मूल्य को चिह्नित करता चाहता है, जबकि (फैलाव या परिवर्तनशीलता) उस सीमा की विशेषता है जो यह बताता है कि वितरण के सदस्य किस हद तक अपने केंद्र और एक दूसरे से विचलित होते हैं। गणितीय आँकड़ों पर अनुमान संभाव्यता सिद्धांत के ढांचे के तहत किए जाते हैं, जो यादृच्छिक घटनाओं के विश्लेषण से संबंधित है।

एक मानक सांख्यिकीय प्रक्रिया में दो सांख्यिकीय आँकड़े समुच्चय (सेट), या एक आदर्श मॉडल से तैयार किए गए आँकड़े समुच्चय और अवास्तविक आँकड़े (सिंथेटिक डेटा) के बीच संबंध के परीक्षण के लिए अग्रणी डेटा का संग्रह शामिल है। दो आँकड़े समुच्चयो के बीच सांख्यिकीय संबंध के लिए एक परिकल्पना प्रस्तावित की जाती है,और इसकी तुलना दो आँकड़े समुच्चयो के बीच बिना किसी संबंध के एक आदर्श शून्य परिकल्पना के विकल्प के रूप में की जाती है। अशक्त परिकल्पना को अस्वीकार करना या नापसंद करना सांख्यिकीय परीक्षणों का उपयोग करके किया जाता है जो उस भावना को निर्धारित करता है जिसमें शून्य को गलत साबित किया जा सकता है, परीक्षण में उपयोग किए जाने वाले आँकड़े को देखते हुए। एक अशक्त परिकल्पना से काम करते हुए, त्रुटि के दो बुनियादी रूपों को मान्यता दी जाती है: प्रकार (टाइप) 1 त्रुटियां (अशक्त परिकल्पना को गलत तरीके से एक गलत सकारात्मक देते हुए खारिज कर दिया जाता है) और प्रकार (टाइप) 2 त्रुटियां (अशक्त परिकल्पना को अस्वीकार करने में नकारात्मक विफल रहता है और आबादी के बीच एक वास्तविक संबंध एक गलत देने से चूक जाता है।)।[6] पर्याप्त नमूना आकार प्राप्त करने से लेकर शून्य परिकल्पना निर्दिष्ट करने तक, इस ढांचे के साथ कई समस्याएं जुड़ी हुई हैं।[5]

सांख्यिकीय आँकड़े उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप में वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी हो सक़ती है। अनुपस्थित आँकड़े या रूकहुआ (सेंसरिंग) की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।


परिचय

सांख्यिकी विज्ञान का एक गणितीय निकाय है जो संग्रह, विश्लेषण, व्याख्या या स्पष्टीकरण और आँकड़े की प्रस्तुति से संबंधित है,[7] या गणित की एक शाखा के रूप में संबंधित है।[8] कुछ लोग सांख्यिकी को गणित की एक शाखा के बजाय एक अलग गणितीय विज्ञान मानते हैं। जबकि कई वैज्ञानिक अनुसंधान (जांच) डेटा का उपयोग करते हैं, सांख्यिकी अनिश्चितता के सामने अनिश्चितता और निर्णय लेने के संदर्भ में डेटा के उपयोग से संबंधित है।[9][10] किसी समस्या के लिए आंकड़ों को लागू करने में, अध्ययन करने के लिए आबादी या प्रक्रिया के साथ शुरू करना आम बात है। आबादी के विविध विषय हो सकते हैं जैसे कि किसी देश में रहने वाले सभी लोग या क्रिस्टल की रचना करने वाले हर परमाणु। आदर्श रूप से, सांख्यिकीविद् पूरी आबादी (जनगणना नामक एक संचालन (ऑपरेशन)) के बारे में आँकड़े संकलित करते हैं। यह सरकारी सांख्यिकीय संस्थानों द्वारा आयोजित किया जा सकता है। जनसंख्या आँकड़े को सारांशित करने के लिए वर्णनात्मक आंकड़ों का उपयोग किया जा सकता है। संख्यात्मक विवरणों में निरंतर आँकड़े (जैसे आय) के लिए माध्य और मानक विचलन शामिल हैं, जबकि आवृत्ति और प्रतिशत श्रेणीबद्ध आँकड़े (जैसे शिक्षा) का वर्णन करने के संदर्भ में अधिक उपयोगी हैं।

जब एक जनगणना संभव नहीं होती है, तो एक नमूना आबादी के एक चुने हुए उपवर्ग (सबसेट) का अध्ययन किया जाता है। जब एक नमूना जो जनसंख्या का प्रतिनिधि निर्धारित किया जाता है, आँकड़े एक अवलोकन या प्रयोगात्मक समायोजन (सेटिंग) में नमूना सदस्यों के लिए एकत्र किया जाता है और फिर से, नमूना आंकड़ों को संक्षेप में वर्णनात्मक आंकड़ों के लिए उपयोग किया जा सकता है। हालांकि, नमूने को आकर्षित करने में यादृच्छिकता का एक तत्व होता है; इसलिए, नमूने से संख्यात्मक विवरण भी अनिश्चितता के लिए प्रवण हैं। पूरी आबादी के बारे में सार्थक निष्कर्ष निकालने के लिए, प्रयोगात्मक आंकड़ों की आवश्यकता होती है। यह नमूना आंकड़ों मेंपद्धति का उपयोग करता है ताकि यादृच्छिकता के लिए लेखांकन के दौरान प्रतिनिधित्व की गई आबादी के बारे में निष्कर्ष निकाला जा सके। ये निष्कर्ष आँकड़े (परिकल्पना परीक्षण) के बारे में हां/नहीं प्रश्नों के उत्तर देने का रूप ले सकते हैं, आँकड़े (अनुमान) की संख्यात्मक विशेषताओं का आकलन करना, आँकड़े (सहसंबंध) के भीतर संघों का वर्णन करना, और आँकड़े के भीतर मॉडलिंग संबंधों (उदाहरण के लिए, उपयोग करना प्रतिगमन विश्लेषण)। अनुमान पूर्वानुमान, भविष्यवाणी, और अनियंत्रित मूल्यों के अनुमान के लिए या तो अध्ययन किए जा रहे आबादी के साथ जुड़ा हो सकता है। इसमें समय श्रृंखला या स्थानिक आँकड़े, और आँकड़े खनन के बहिर्वेशन (एक्सट्रपलेशन) और प्रक्षेप शामिल हो सकते हैं।

गणितीय सांख्यिकी

गणितीय आँकड़े सांख्यिकी के लिए गणित का अनुप्रयोग है। इसके लिए उपयोग की जाने वाली गणितीय तकनीकों में गणितीय विश्लेषण, रैखिक बीजगणित, स्टोकेस्टिक विश्लेषण, अंतर समीकरण और माप-सिद्धांत संबंधी संभावना सिद्धांत शामिल हैं।[11][12]


इतिहास

गेरोलमो कार्डानो, संभावना के गणित पर एक अग्रणी।

8 वीं और 13 वीं शताब्दी के बीच इस्लामिक स्वर्ण युग के दौरान, अरब गणितज्ञों और क्रिप्टोग्राफर्स के लिए सांख्यिकीय अनुमानों पर प्रारंभिक लेख वापस आते हैं। अल-खलील (717–786) ने क्रिप्टोग्राफिक संदेशों की पुस्तक लिखी, जिसमें विक्ट का पहला उपयोग शामिल है: क्रमपरिवर्तन और संयोजन, सभी संभावित अरबी शब्दों के साथ और बिना स्वर को सूचीबद्ध करने के लिए।[13] उऩ्होऩे अपनी पुस्तक में, पांडुलिपि को समझने पर (ऑन डेसीपिंग) क्रिप्टोग्राफिक संदेशों, अल-किंडी ने एन्क्रिप्टेड संदेशों को समझने के लिए आवृत्ति विश्लेषण का उपयोग करने का विस्तृत विवरण दिया हैं। अल-किंडी ने सांख्यिकीय अनुमानों का जल्द से जल्द ज्ञात उपयोग भी किया, जबकि उन्होंने और बाद में अरब क्रिप्टोग्राफर ने एन्क्रिप्टेड संदेशों को डिकोड करने के लिए प्रारंभिक सांख्यिकीय तरीके विकसित किए। इब्न अदलान (1187–1268) ने बाद में आवृत्ति विश्लेषण में नमूना आकार के उपयोग पर एक महत्वपूर्ण योगदान दिया।[13]

आंकड़ों पर सबसे पुराना यूरोपीय लेखन 1663 में वापस आता है, जॉन ग्रंट द्वारा मृत्यु दर के बिलों पर प्राकृतिक और राजनीतिक टिप्पणियों के प्रकाशन के साथ।[14] सांख्यिकीय सोच के शुरुआती अनुप्रयोग जनसांख्यिकीय और आर्थिक आंकड़ों पर आधार नीति के लिए राज्यों की जरूरतों के इर्द-गिर्द घूमते हैं, इसलिए इसकी स्टेट-व्युत्पत्ति कहते है। सांख्यिकी के अनुशासन का दायरा 19 वीं शताब्दी की शुरुआत में सामान्य रूप से डेटा के संग्रह और विश्लेषण को शामिल करने के लिए व्यापक हुआ। आज, आंकड़े व्यापक रूप से सरकार, व्यापार और प्राकृतिक और सामाजिक विज्ञान में नियोजित हैं।

आधुनिक आंकड़ों की गणितीय नींव 17 वीं शताब्दी में गेरोलमो कार्डानो, ब्लाइस पास्कल और पियरे डी फर्मेट द्वारा संभाव्यता सिद्धांत के विकास के साथ रखी गई थी। गणितीय संभाव्यता सिद्धांत मौका के खेल के अध्ययन से उत्पन्न हुआ, हालांकि संभावना की अवधारणा को पहले से ही मध्ययुगीन कानून में और दार्शनिकों द्वारा जुआन कारमुएल जैसे दार्शनिकों द्वारा जांच की गई थी।[15] कम से कम वर्गों की विधि को पहली बार 1805 में एड्रियन-मैरी लीजेंड्रे द्वारा वर्णित किया गया था।

कार्ल पियर्सन, गणितीय सांख्यिकी के संस्थापक।

सांख्यिकी का आधुनिक क्षेत्र 19 वीं और 20 वीं शताब्दी की शुरुआत में तीन चरणों में उभरा था।[16] पहली लहर, सदी के अंत में , फ्रांसिस गैल्टन और कार्ल पियर्सन के काम के नेतृत्व में थी, जिन्होंने आंकड़ों को विश्लेषण के लिए उपयोग किए जाने वाले कठोर गणितीय अनुशासन में बदल दिया था, न केवल विज्ञान में, बल्कि उद्योग और राजनीति में भी बदल दिया था। गैल्टन के योगदान में मानक विचलन, सहसंबंध, प्रतिगमन विश्लेषण और इन तरीकों के अनुप्रयोग को मानव विशेषताओं की विविधता के अध्ययन के लिए इन तरीकों के अनुप्रयोग में शामिल करना था- ऊंचाई, वजन, बरौनी की लंबाई दूसरों के बीच।[17] पियर्सन ने पियर्सन उत्पाद-पल सहसंबंध गुणांक विकसित किया, एक उत्पाद-पल के रूप में परिभाषित किया गया,[18] कई अन्य चीजों के बीच नमूनों और पियर्सन वितरण के लिए वितरण की फिटिंग के लिए क्षणों की विधि थी।[19] गैल्टन और पियर्सन ने बायोमेट्रिका को गणितीय सांख्यिकी और बायोस्टैटिस्टिक्स (तब बायोमेट्री कहा जाता है) के पहले पत्रिका के रूप में स्थापित किया, और बाद में यूनिवर्सिटी कॉलेज लंदन में दुनिया के पहले विश्वविद्यालय के सांख्यिकी विभाग की स्थापना की।[20] रोनाल्ड फिशर ने लेडी चखने वाले चाय प्रयोग के दौरान शून्य परिकल्पना शब्द गढ़ा, जो कभी भी साबित या स्थापित नहीं होता है, लेकिन संभवतः प्रयोग के दौरान, इसे अस्वीकार कर दिया जाता है।[21][22] 1910 और 20 के दशक की दूसरी लहर विलियम सीली गॉसेट द्वारा शुरू की गई थी, और रोनाल्ड फिशर की अंतर्दृष्टि में इसकी परिणति तक पहुंच गई, जिन्होंने पाठ्यपुस्तकों को लिखा था जो दुनिया भर के विश्वविद्यालयों में शैक्षणिक अनुशासन को परिभाषित करने के लिए थे। फिशर के सबसे महत्वपूर्ण प्रकाशन उनके 1918 के सेमिनल पेपर थे, जो कि मेंडेलियन इनहेरिटेंस (जो सांख्यिकीय शब्द, विचरण का उपयोग करने वाले पहले व्यक्ति), शोध कार्यकर्ताओं के लिए उनके क्लासिक 1925 कार्य सांख्यिकीय विधियों और उनके 1935 में प्रयोगों के डिजाइन पर पहले से ही थे।[23][24][25] जहां उन्होंने प्रयोग मॉडल के कठोर डिजाइन विकसित किए। उन्होंने पर्याप्तता, सहायक सांख्यिकी, फिशर के रैखिक भेदभावकर्ता और फिशर जानकारी की अवधारणाओं की उत्पत्ति की।[26] अपनी 1930 की पुस्तक द जेनिटिकल थ्योरी ऑफ नेचुरल सेलेक्शन में, उन्होंने फिशर के सिद्धांत जैसे विभिन्न जैविक अवधारणाओं पर आंकड़े लागू किए[27] (जिसे ए.डब्ल्यू.एफ. एडवर्ड्स को शायद विकासवादी जीव विज्ञान में सबसे प्रसिद्ध मना जाने वाला तर्क कहा जाता है) और फिशरियन रनवे,[28][29][30][31][32][33] विकास में पाया गया एक सकारात्मक प्रतिक्रिया भगोड़ा प्रभाव के बारे में यौन चयन में एक अवधारणा हैं।

अंतिम लहर, जो मुख्य रूप से पहले के घटनाक्रमों के शोधन और विस्तार को देखती थी, 1930 के दशक में एगॉन पियर्सन और जेरज़ी नेमैन के बीच सहयोगी काम से उभरी थी। उन्होंने टाइप II त्रुटि मे, एक परीक्षण की शक्ति और आत्मविश्वास अंतराल की अवधारणाओं को पेश किया।1934 में जेरज़ी नेमैन ने दिखाया कि स्तरीकृत यादृच्छिक नमूना सामान्य रूप से उद्देश्यपूर्ण नमूने की तुलना में अनुमान का एक बेहतर तरीका था।[34] आज, सांख्यिकीय विधियों को उन सभी क्षेत्रों में लागू किया जाता है, जिनमें निर्णय लेना शामिल है, आंकड़े के एक कोष्ठित निकाय से सटीक निष्कर्ष निकालने के लिए और सांख्यिकीय पद्धति के आधार पर अनिश्चितता के सामने निर्णय लेने के लिए।आधुनिक कंप्यूटरों के उपयोग ने बड़े पैमाने पर सांख्यिकीय संगणनाओं में तेजी लाई है और नए तरीके भी किए हैं जो मैन्युअल रूप से प्रदर्शन करने के लिए अव्यावहारिक हैं।बड़े आंकड़े विश्लेषण करने की समस्या पर उदाहरण के लिए सक्रिय अनुसंधान का क्षेत्र बने हुए हैं।[35]


सांख्यिकीय डेटा


डेटा संग्रह

नमूना

जब पूर्ण जनगणना आँकड़े एकत्र नहीं किये जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके नमूना आँकड़े एकत्र करते हैं। सांख्यिकी स्वयं सांख्यिकीय मॉडल के माध्यम से भविष्यवाणी और पूर्वानुमान के लिए उपकरण भी प्रदान करती है।

पूरी आबादी के लिए एक गाइड के रूप में एक नमूने का उपयोग करने के लिए, यह महत्वपूर्ण है कि यह वास्तव में समग्र आबादी का प्रतिनिधित्व करता है। प्रतिनिधि नमूनाकरण का आश्वासन देता है कि निष्कर्ष सुरक्षित रूप से नमूने से आबादी तक पूरे के रूप में विस्तारित हो सकते हैं। एक बड़ी समस्या यह निर्धारित करने में निहित है कि चुना गया नमूना वास्तव में प्रतिनिधि है। सांख्यिकी नमूना और आँकड़े संग्रह प्रक्रियाओं के भीतर किसी भी पूर्वाग्रह के लिए अनुमान लगाने और सही करने के तरीके प्रदान करता है। प्रयोगों के लिए प्रयोगात्मक डिजाइन के तरीके भी हैं जो एक अध्ययन की शुरुआत में इन मुद्दों को कम कर सकते हैं, जनसंख्या के बारे में सत्य को समझने की क्षमता को मजबूत कर सकते हैं।

नमूना सिद्धांत संभावना सिद्धांत के गणितीय अनुशासन का हिस्सा है। नमूना आंकड़ों के नमूने वितरण का अध्ययन करने के लिए गणितीय आंकड़ों में संभावना का उपयोग किया जाता है और,आमतौर पर, सांख्यिकीय प्रक्रियाओं के गुणों का उपयोग किया जाता है। किसी भी सांख्यिकीय विधि का उपयोग तब मान्य होता है जब प्रणाली या जनसंख्या विचाराधीन विधि की मान्यताओं को संतुष्ट करती है। क्लासिक संभाव्यता सिद्धांत और नमूनाकरण सिद्धांत के बीच के दृष्टिकोण में अंतर, मोटे तौर पर, यह संभावना सिद्धांत कुल आबादी के दिए गए मापदंडों से शुरू होता है जो नमूनों से संबंधित संभावनाओं को कम करने के लिए होता है। सांख्यिकीय अनुमान, हालांकि, विपरीत दिशा में चलता है। नमूनों से एक बड़ी या कुल आबादी के मापदंडों के लिए आगमनात्मक रूप (इंडुक्टिवेली) का उल्लेख करता है।

प्रायोगिक और अवलोकन अध्ययन

एक सांख्यिकीय अनुसंधान परियोजना के लिए एक सामान्य लक्ष्य कार्य -कारण की जांच करना है, और विशेष रूप से आश्रित चर पर भविष्यवक्ताओं या स्वतंत्र चर के मूल्यों में परिवर्तन के प्रभाव पर एक निष्कर्ष निकालने के लिए हैं। दो प्रमुख प्रकार के कारण सांख्यिकीय अध्ययन हैं: प्रयोगात्मक अध्ययन और अवलोकन अध्ययन। दोनों प्रकार के अध्ययनों में, आश्रित चर के व्यवहार पर एक स्वतंत्र चर (या चर) के अंतर का प्रभाव देखा जाता है। दो प्रकारों के बीच का अंतर इस बात पर निहित है कि वास्तव में अध्ययन कैसे किया जाता है। प्रत्येक बहुत प्रभावी हो सकता है। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली का माप लेना, प्रणाली में हेरफेर करना,और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है क्या हेरफेर ने माप के मूल्यों को संशोधित किया है। इसके विपरीत, एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है। इसके बजाय, आँकड़े एकत्र किए जाते हैं और भविष्यवक्ताओं और प्रतिक्रिया के बीच सहसंबंधों की जांच की जाती है। जबकि आँकड़े विश्लेषण के उपकरण यादृच्छिक अध्ययनों से आँकड़ो पर सबसे अच्छा काम करते हैं, वे अन्य प्रकार के आँकड़ो पर भी लागू होते हैं - जैसे प्राकृतिक प्रयोग और अवलोकन अध्ययन[36] क्या, जो एक सांख्यिकीविद् एक संशोधित,अधिक संरचित अनुमान विधि (जैसे, अंतर अनुमान और वाद्य चर में अंतर, कई अन्य लोगों के बीच) का उपयोग करेगा जो लगातार अनुमानक का उत्पादन करते हैं।

प्रयोग

एक सांख्यिकीय प्रयोग के मूल चरण हैं:

  1. अनुसंधान की योजना, जिसमें अध्ययन की प्रतिकृति की संख्या का पता लगाना शामिल है, निम्नलिखित जानकारी का उपयोग करते हुए: उपचार प्रभावों के आकार, वैकल्पिक परिकल्पना और अनुमानित प्रयोगात्मक परिवर्तनशीलता के आकार के बारे में प्रारंभिक अनुमान, प्रयोगात्मक विषयों के चयन और अनुसंधान की नैतिकता पर विचार आवश्यक है। सांख्यिकीविद् सलाह देते हैं कि प्रयोगों को एक मानक उपचार या नियंत्रण के साथ एक नए उपचार की तुलना करें, उपचार प्रभावों में अंतर के निष्पक्ष अनुमान की अनुमति देने के लिए करता है।
  2. प्रयोगों का डिज़ाइन, भ्रमित चर के प्रभाव को कम करने के लिए अवरुद्ध का उपयोग करके, और उपचार के प्रभावों और प्रयोगात्मक त्रुटि के निष्पक्ष अनुमानों की अनुमति देने के लिए विषयों को उपचार के यादृच्छिक नियत कार्य (असाइनमेंट)। इस स्तर पर, प्रयोगकर्ता और सांख्यिकीविद प्रयोगात्मक प्रोटोकॉल लिखते हैं जो प्रयोग के प्रदर्शन को निर्देशित करेगा और जो प्रयोगात्मक डेटा के प्राथमिक विश्लेषण को निर्दिष्ट करता है।
  3. प्रयोगात्मक प्रोटोकॉल के बाद प्रयोग करना और प्रयोगात्मक प्रोटोकॉल के बाद आंकड़ों का विश्लेषण करना।
  4. भविष्य के अध्ययन के लिए नई परिकल्पना का सुझाव देने के लिए, द्वितीयक विश्लेषण में सेट किए गए आंकड़ों की जांच करना।
  5. अध्ययन के परिणामों का दस्तावेजीकरण प्रस्तुत करना।

मानव व्यवहार पर प्रयोगों की विशेष चिंताएं हैं। प्रसिद्ध हॉथोर्न अध्ययन ने पश्चिमी इलेक्ट्रिक कंपनी के हॉथोर्न प्लांट में काम के माहौल में बदलाव की जांच की थी। शोधकर्ता यह निर्धारित करने में रुचि रखते थे कि क्या बढ़ी हुई रोशनी से विधानसभा लाइन श्रमिकों की उत्पादकता बढ़ेगी। शोधकर्ताओं ने पहले संयंत्र में उत्पादकता को मापा, फिर संयंत्र के एक क्षेत्र में रोशनी को संशोधित किया और जांच की कि क्या रोशनी प्रभावित उत्पादकता में परिवर्तन होता है।। यह पता चला कि उत्पादकता वास्तव में (प्रयोगात्मक परिस्थितियों में) में सुधार हुआ है। हालांकि, प्रायोगिक प्रक्रियाओं में त्रुटियों के लिए अध्ययन की आज की भारी आलोचना की जाती है, विशेष रूप से एक नियंत्रण समूह और डबल-ब्लाइंड की कमी के लिए । हॉथोर्न प्रभाव यह पता लगाने के लिए है कि एक परिणाम (इस मामले में, कार्यकर्ता उत्पादकता) अवलोकन के कारण बदल गया। हॉथोर्न अध्ययन में वे अधिक उत्पादक बन गए क्योंकि प्रकाश व्यवस्था को बदल दिया गया था, लेकिन क्योंकि उन्हें देखा जा रहा था।[37]


अवलोकन अध्ययन

एक अवलोकन अध्ययन का एक उदाहरण वह है जो धूम्रपान और फेफड़ों के कैंसर के बीच संबंध की पड़ताल करता है। इस प्रकार का अध्ययन आमतौर पर ब्याज के क्षेत्र के बारे में टिप्पणियों को इकट्ठा करने के लिए एक सर्वेक्षण का उपयोग करता है और फिर सांख्यिकीय विश्लेषण करता है। इस मामले में, शोधकर्ता धूम्रपान करने वालों और गैर-धूम्रपान करने वालों की टिप्पणियों को एकत्र करेंगे, शायद एक कोहोर्ट अध्ययन के माध्यम से, और फिर प्रत्येक समूह में फेफड़े के कैंसर के मामलों की संख्या की तलाश करेंगे।[38] केस-कंट्रोल अध्ययन एक अन्य प्रकार का अवलोकन अध्ययन है जिसमें ब्याज के परिणाम के साथ और बिना (जैसे फेफड़े के कैंसर) को भाग लेने के लिए आमंत्रित किया जाता है और उनके उद्भास (एक्सपोज़र) इतिहास एकत्र किए जाते हैं।

डेटा के प्रकार

माप के स्तरों के एक वर्गीकरण का उत्पादन करने के लिए विभिन्न प्रयास किए गए हैं। साइकोफिजिसिस्ट स्टेनली स्मिथ स्टीवंस ने नाममात्र, क्रमिक, अंतराल और अनुपात तराजू को परिभाषित किया। नाममात्र माप में मूल्यों के बीच सार्थक श्रेणी (रैंक) क्रम नहीं होता है, और किसी एक-से-एक अंतःक्षेपक (इंजेक्शन) परिवर्तन की अनुमति देता है। ऑर्डिनल माप में लगातार मूल्यों के बीच अंतर होता है, लेकिन उन मूल्यों के लिए एक सार्थक आदेश होता है, और किसी भी ऑर्डर-संरक्षण परिवर्तन की अनुमति देता है। अंतराल माप में परिभाषित माप के बीच सार्थक दूरी होती है, लेकिन शून्य मान स्वेच्छाचारी है (जैसे कि सेल्सियस या फ़ारेनहाइट में देशांतर और तापमान माप के साथ), और किसी भी रैखिक परिवर्तन की अनुमति देता है। अनुपात माप में एक सार्थक शून्य मूल्य और परिभाषित विभिन्न मापों के बीच की दूरी दोनों होती है, और किसी भी पुनरुत्थान परिवर्तन की अनुमति देती है।

क्योंकि केवल नाममात्र या क्रमिक माप के अनुरूप चर को संख्यात्मक रूप से मापा नहीं जा सकता है, कभी -कभी उन्हें एक साथ श्रेणीबद्ध चर के रूप में समूहीकृत किया जाता है, जबकि अनुपात और अंतराल माप को एक साथ मात्रात्मक चर के रूप में समूहीकृत किया जाता है, जो कि उनकी संख्यात्मक प्रकृति के कारण असतत या निरंतर हो सकता है। इस तरह के भेदों को अक्सर कंप्यूटर विज्ञान में डेटा प्रकार के साथ शिथिल रूप से सहसंबद्ध किया जा सकता है, जिसमें द्विध्रुवीय श्रेणीबद्ध चर को बूलियन डेटा प्रकार के साथ दर्शाया जा सकता है,अभिन्न रूप से सौंपे गए पूर्णांक के साथ पॉलिटोमस श्रेणीबद्ध चर, और वास्तविक डेटा प्रकार के साथ निरंतर चर शामिल हैं। फ्लोटिंग-पॉइंट अंकगणित लेकिन सांख्यिकीय डेटा प्रकारों के लिए कंप्यूटर विज्ञान डेटा प्रकारों की मैपिंग इस बात पर निर्भर करती है कि बाद में किस वर्गीकरण को लागू किया जा रहा है।

अन्य वर्गीकरण प्रस्तावित किए गए हैं। उदाहरण के लिए, मोस्टेलर और तुकी (1977)[39] प्रतिष्ठित ग्रेड, रैंक, गिनती किए गए अंश, गणना, मात्रा और संतुलन। नेल्डर (1990)[40] निरंतर गणना, निरंतर अनुपात, गणना अनुपात और डेटा के श्रेणीबद्ध मोड का वर्णन किया गया है। (यह भी देखें: क्रिसमैन (1998),[41] वैन डेन बर्ग (1991) ।[42])

विभिन्न प्रकार की माप प्रक्रियाओं से प्राप्त आंकड़ों (डेटा) के लिए विभिन्न प्रकार के सांख्यिकीय तरीकों को लागू करना उचित है या नहीं, यह मुद्दा चर के परिवर्तन और अनुसंधान प्रश्नों की सटीक व्याख्या से संबंधित मुद्दों से जटिल है। डेटा के बीच संबंध और वे जो वर्णन करते हैं, वह केवल इस तथ्य को दर्शाता है कि कुछ प्रकार के सांख्यिकीय बयानों में सत्य मूल्य हो सकते हैं जो कुछ परिवर्तनों के तहत अपरिवर्तनीय नहीं हैं। एक परिवर्तन चिंतन करने के लिए समझदार है या नहीं, यह उस प्रश्न पर निर्भर करता है जो एक जवाब देने की कोशिश कर रहा है।[43]: 82 


तरीके


वर्णनात्मक सांख्यिकी

एक वर्णनात्मक आँकड़ा (गिनती संज्ञा अर्थ में) एक सारांश आँकड़ा है जो मात्रात्मक रूप से जानकारी के संग्रह की विशेषताओं का वर्णन या सारांशित करता है,[44] जबकि द्रव्यमान संज्ञा अर्थ में वर्णनात्मक आँकड़े उन आंकड़ों का उपयोग और विश्लेषण करने की प्रक्रिया है। वर्णनात्मक आंकड़े हीन आंकड़ों (या आगमनात्मक आंकड़ों) से अलग हैं, उस वर्णनात्मक आंकड़ों में एक नमूने को संक्षेप में प्रस्तुत करना है, बजाय इसके कि आंकड़ों उपयोग करने के लिए आंकड़ों का नमूना प्रतिनिधित्व करने के लिए सोचा जाता है।

हीन आँकड़े

सांख्यिकीय अनुमान एक अंतर्निहित संभावना वितरण के गुणों को कम करने के लिए डेटा विश्लेषण का उपयोग करने की प्रक्रिया है।[45] हीन सांख्यिकीय विश्लेषण एक आबादी के गुणों को प्रभावित करता है,उदाहरण के लिए परिकल्पना और व्युत्पन्न अनुमानों का परीक्षण करके। यह माना जाता है कि प्रेक्षित आंकड़ों का सेट एक बड़ी आबादी से नमूना लेके बनाया गया है। वर्णनात्मक आंकड़ों के साथ हीन आंकड़े विपरीत हो सकते हैं। वर्णनात्मक आँकड़े पूरी तरह से देखे गए आंकड़ों के गुणों से संबंधित हैं,और यह इस धारणा पर संदेह नहीं करता है कि आंकड़ों एक बड़ी आबादी से आते है।

शब्दावली और हीन सांख्यिकी का सिद्धांत

सांख्यिकी, अनुमानक और निर्णायक मात्रा

किसी दिए गए संभाव्यता वितरण के साथ स्वतंत्र रूप से वितरित (IID) यादृच्छिक चर पर विचार करें: मानक सांख्यिकीय अनुमान और अनुमान सिद्धांत एक यादृच्छिक नमूने को परिभाषित करता है क्योंकि इन IID चर के स्तंभ वेक्टर द्वारा दिए गए यादृच्छिक वेक्टर के रूप में।[46] जांच की जा रही आबादी को एक संभाव्यता वितरण द्वारा वर्णित किया गया है जिसमें अज्ञात पैरामीटर हो सकते हैं।

एक आँकड़ा एक यादृच्छिक चर है जो यादृच्छिक नमूने का एक कार्य है, लेकिन अज्ञात मापदंडों का एक फलन(फ़ंक्शन) नहीं है। सांख्यिकीय की संभावना वितरण, हालांकि, अज्ञात पैरामीटर हो सकते हैं।अब अज्ञात पैरामीटर के एक फलन पर विचार करें: एक अनुमानक एक सांख्यिकीय है जिसका उपयोग इस तरह के कार्य का अनुमान लगाने के लिए किया जाता है। आमतौर पर उपयोग किए जाने वाले अनुमानकों में नमूना माध्य, निष्पक्ष नमूना विचरण और नमूना सहसंयोजक शामिल हैं।

एक यादृच्छिक चर जो यादृच्छिक नमूने और अज्ञात पैरामीटर का एक कार्य है,लेकिन जिसका संभाव्यता वितरण अज्ञात पैरामीटर पर निर्भर नहीं करता है, को एक निर्णायक मात्रा या धुरी कहा जाता है।व्यापक रूप से उपयोग किए जाने वाले निर्णायक (पिवट) में जेड-स्कोर, ची स्क्वायर सांख्यिकीय और छात्र का टी-वैल्यू शामिल है।

किसी दिए गए पैरामीटर के दो अनुमानकों के बीच,कम माध्य वर्ग त्रुटि वाले व्यक्ति को अधिक कुशल कहा जाता है। इसके अलावा, एक अनुमानक को निष्पक्ष कहा जाता है यदि इसका अपेक्षित मूल्य अनुमानित अज्ञात पैरामीटर के वास्तविक मूल्य के बराबर है, और उपगामित (एसिम्प्टोटिक) रूप से निष्पक्ष है यदि इसका अपेक्षित मूल्य इस तरह के पैरामीटर के वास्तविक मूल्य की सीमा पर अभिसरण करता है।

अनुमानकों के लिए अन्य वांछनीय गुणों में शामिल हैं: UMVUE अनुमानक जो अनुमानित किए जाने वाले पैरामीटर के सभी संभावित मूल्यों के लिए सबसे कम विचरण करते हैं (यह आमतौर पर दक्षता की तुलना में सत्यापित करने के लिए एक आसान संपत्ति है) और सुसंगत अनुमानक जो इस तरह के पैरामीटर के सही मूल्य के लिए संभावना में परिवर्तित होते हैं ।

यह अभी भी इस सवाल को छोड़ देता है कि किसी दिए गए स्थिति में अनुमानक कैसे प्राप्त किया जाए और गणना को आगे बढ़ाया जाए, कई तरीकों का प्रस्ताव किया गया है: क्षणों की विधि, अधिकतम संभावना विधि, कम से कम वर्ग विधि और समीकरणों का आकलन करने की अधिक हालिया विधि है।

अशक्त परिकल्पना और वैकल्पिक परिकल्पना

सांख्यिकीय जानकारी की व्याख्या में अक्सर एक अशक्त परिकल्पना के विकास को शामिल किया जा सकता है जो आमतौर पर (लेकिन जरूरी नहीं है) कि कोई संबंध चर के बीच मौजूद नहीं है या समय के साथ कोई परिवर्तन नहीं हुआ है।[47][48] एक नौसिखिया के लिए सबसे अच्छा चित्रण एक आपराधिक परीक्षण द्वारा सामना किया गया विधेय है। अशक्त परिकल्पना, H0 दावा करता है कि प्रतिवादी निर्दोष है, जबकि वैकल्पिक परिकल्पना, H1 दावा करता है कि प्रतिवादी दोषी है। अपराध के संदेह के कारण अभियोग आता है। H0 (यथास्थिति) H1 के विरोध में खड़ा है और जब तक H1 बनाए रखा जाता है एक उचित संदेह से परे साक्ष्य द्वारा समर्थित है। हालांकि, H0 को अस्वीकार करने में विफलताइस मामले में निर्दोषता नहीं है, लेकिन केवल यह है कि सबूत दोषी ठहराने के लिए अपर्याप्त थे तो जरूरी नहीं है कि H0 स्वीकार करें लेकिन H0 को अस्वीकार करने में विफल रहता है। जबकि कोई एक शून्य परिकल्पना साबित नहीं कर सकता है, कोई यह परीक्षण कर सकता है कि पावर टेस्ट के साथ यह सच होना कितना करीब है, जो टाइप II त्रुटियों के लिए परीक्षण करता है।

जो सांख्यिकीविद् एक वैकल्पिक परिकल्पना कहते हैं, वह केवल एक परिकल्पना है जो अशक्त परिकल्पना का खंडन करती है।

त्रुटि

एक अशक्त परिकल्पना से काम करते हुए, त्रुटि की दो व्यापक श्रेणियों को मान्यता दी जाती है:

  • टाइप I त्रुटियां जहां अशक्त परिकल्पना को गलत तरीके से अस्वीकार कर दिया जाता है, एक गलत सकारात्मक देता है।
  • टाइप II त्रुटियां जहां अशक्त परिकल्पना अस्वीकार करने में विफल रहती है और आबादी के बीच एक वास्तविक अंतर छूट जाता है, एक गलत नकारात्मक देता है।

मानक विचलन का अर्थ उस हद तक है कि एक नमूने में व्यक्तिगत अवलोकन एक केंद्रीय मूल्य से भिन्न होते हैं, जैसे कि नमूना या जनसंख्या का मतलब, जबकि मानक त्रुटि नमूना माध्य और जनसंख्या के बीच अंतर के अनुमान को संदर्भित करती है।

एक सांख्यिकीय त्रुटि वह राशि है जिसके द्वारा एक अवलोकन उसके अपेक्षित मूल्य से भिन्न होता है। एक अवशिष्ट वह राशि है जो एक अवलोकन मूल्य से भिन्न होता है। अपेक्षित मूल्य के अनुमानक को किसी दिए गए नमूने पर मान लिया जाता है (जिसे भविष्यवाणी भी कहा जाता है)।

माध्य चुकता त्रुटि का उपयोग कुशल अनुमानक प्राप्त करने के लिए किया जाता है, अनुमानकों का व्यापक रूप से उपयोग किया जाता है। वर्ग माध्य , वर्ग त्रुटि केवल माध्य वर्ग त्रुटि का वर्गमूल है।

एक कम से कम वर्ग फिट: लाल रंग में, फिट किए जाने वाले बिंदुओं को फिट किया जाना चाहिए।

कई सांख्यिकीय तरीके वर्गों के अवशिष्ट योग को कम करने की कोशिश करते हैं, और इन्हें कम से कम निरपेक्ष विचलन के विपरीत कम से कम वर्गों के तरीके कहा जाता है। उत्तरार्द्ध छोटी और बड़ी त्रुटियों को समान वजन देता है, जबकि पूर्व बड़ी त्रुटियों को अधिक वजन देता है। वर्गों का अवशिष्ट योग भी अलग है, जो प्रतिगमन करने के लिए एक आसान संपत्ति प्रदान करता है। रैखिक प्रतिगमन के लिए लागू कम से कम वर्गों को साधारण कम से कम वर्ग विधि कहा जाता है और अरैखिक प्रतिगमन(नॉनलाइनियर रिग्रेशन) पर लागू कम से कम वर्गों को गैर-रैखिक कम से कम वर्ग कहा जाता है। इसके अलावा एक रैखिक प्रतिगमन मॉडल में मॉडल के गैर -नियतात्मक भाग को त्रुटि शब्द, गड़बड़ी या अधिक सरल शोर कहा जाता है। दोनों रैखिक प्रतिगमन और गैर-रैखिक प्रतिगमन दोनों को बहुपद कम से कम वर्गों में संबोधित किया जाता है, जो स्वतंत्र चर (x अक्ष) और विचलन (त्रुटियों, शोर,उत्तेजना) के एक समारोह के रूप में आश्रित चर (y अक्ष) की भविष्यवाणी में विचरण का भी वर्णन करता है, अनुमानित (फिट) वक्र से विचलन का भी वर्णन करता है ।

सांख्यिकीय आँकड़े उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप मे वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, जैसे कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी महत्वपूर्ण हो सकता है। लापता आँकड़े या सेंसरिंग की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।[49]


अंतराल अनुमान
आत्मविश्वास अंतराल: लाल रेखा इस उदाहरण में माध्य के लिए सही मूल्य है, नीली रेखाएं 100 अहसास के लिए यादृच्छिक आत्मविश्वास अंतराल हैं।

अधिकांश अध्ययन केवल एक आबादी का नमूना हिस्सा है, इसलिए परिणाम पूरी तरह से पूरी आबादी का प्रतिनिधित्व नहीं करते हैं। नमूने से प्राप्त कोई भी अनुमान केवल जनसंख्या मूल्य को अनुमानित करता है। आत्मविश्वास अंतराल सांख्यिकीविदों को यह व्यक्त करने की अनुमति देता है कि नमूना अनुमान पूरी आबादी में सही मूल्य से कैसे निकटता से मेल खाता है। अक्सर उन्हें 95% विश्वास अंतराल के रूप में व्यक्त किया जाता है। औपचारिक रूप से, एक मूल्य के लिए 95% आत्मविश्वास अंतराल एक सीमा है, जहां यदि नमूना और विश्लेषण समान परिस्थितियों में दोहराया गया था (एक अलग डेटासेट की उपज), तो अंतराल में सभी संभावित मामलों के 95% में सही (जनसंख्या) मूल्य शामिल होगा । इसका मतलब यह नहीं है कि विश्वास अंतराल में वास्तविक मूल्य है कि वास्तविक मूल्य 95%है। बार -बार के दृष्टिकोण से, ऐसा दावा भी समझ में नहीं आता है, क्योंकि सही मूल्य एक यादृच्छिक चर नहीं है। या तो सही मूल्य है या दिए गए अंतराल के भीतर नहीं है। हालांकि, यह सच है कि, इससे पहले कि किसी भी आँकड़े का नमूना लिया जाए और आत्मविश्वास अंतराल का निर्माण करने के तरीके के लिए एक योजना दी जाए, संभावना 95% है कि अभी तक की गणना की गई अंतराल सही मूल्य को कवर करेगा: इस बिंदु पर, अंतराल की सीमाएं अभी तक-से-अवयव यादृच्छिक चर हैं। एक दृष्टिकोण जो एक अंतराल प्राप्त करता है, जिसे सही मूल्य से युक्त होने की संभावना के रूप में व्याख्या की जा सकती है, बायेसियन आँकड़ों से एक विश्वसनीय अंतराल का उपयोग करना है: यह दृष्टिकोण संभावना के रूप में क्या है, इसकी व्याख्या करने के एक अलग तरीके पर निर्भर करता है, यह एक के रूप में है बायेसियन प्रायिकता है।

सिद्धांत रूप में आत्मविश्वास अंतराल सममित या विषम हो सकता है। एक अंतराल विषम हो सकता है क्योंकि यह एक पैरामीटर (बाएं तरफा अंतराल या दाएं पक्षीय अंतराल) के लिए निचले या ऊपरी सीमा के रूप में काम करता है, लेकिन यह विषम भी हो सकता है क्योंकि दो तरफा अंतराल अनुमान के आसपास समरूपता का उल्लंघन करते हैं। कभी -कभी एक आत्मविश्वास अंतराल के लिए सीमा को उपगामित तक पहुंच जाता है और इनका उपयोग वास्तविक सीमाओं को अनुमानित करने के लिए किया जाता है।

महत्व

सांख्यिकी शायद ही कभी विश्लेषण के तहत प्रश्न का एक सरल हां/नहीं प्रकार का उत्तर दें। व्याख्या अक्सर संख्याओं पर लागू सांख्यिकीय महत्व के स्तर तक आती है और अक्सर शून्य परिकल्पना को अस्वीकार करने वाले मूल्य की संभावना को संदर्भित करता है (कभी-कभी p मान के रूप में )।

इस ग्राफ में काली रेखा परीक्षण सांख्यिकीय के लिए संभाव्यता वितरण है, महत्वपूर्ण क्षेत्र अवलोकन किए गए डेटा बिंदु (परीक्षण सांख्यिकीय का अवलोकन मूल्य) के दाईं ओर मूल्यों का सेट है और पी-मान को हरे क्षेत्र द्वारा दर्शाया गया है।

मानक दृष्टिकोण[46]एक वैकल्पिक परिकल्पना के खिलाफ एक शून्य परिकल्पना का परीक्षण करना है। एक महत्वपूर्ण क्षेत्र अनुमानक के मूल्यों का सेट है जो अशक्त परिकल्पना का खंडन करता है। टाइप I त्रुटि की संभावना इसलिए संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित है, यह देखते हुए कि अशक्त परिकल्पना सही है (सांख्यिकीय महत्व) और टाइप II त्रुटि की संभावना यह संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित नहीं है और वैकल्पिक परिकल्पना सच है। एक परीक्षण की सांख्यिकीय शक्ति संभावना है कि यह सही ढंग से अशक्त परिकल्पना को अस्वीकार कर देता है जब अशक्त परिकल्पना गलत होती है।

सांख्यिकीय महत्व का उल्लेख करने का मतलब यह नहीं है कि वास्तविक दुनिया के संदर्भ में समग्र परिणाम महत्वपूर्ण है। उदाहरण के लिए, एक दवा के एक बड़े अध्ययन में यह दिखाया जा सकता है कि दवा का सांख्यिकीय रूप से महत्वपूर्ण लेकिन बहुत कम लाभकारी प्रभाव होता है, जैसे कि दवा रोगी को ध्यान में रखने में मदद करने की संभावना नहीं है।

यद्यपि सिद्धांत रूप में सांख्यिकीय महत्व का स्वीकार्य स्तर बहस के अधीन हो सकता है, लेकिन महत्व स्तर सबसे बड़ा p मान के अधीन है जो परीक्षण को अशक्त परिकल्पना को अस्वीकार करने की अनुमति देता है। यह परीक्षण तार्किक रूप से यह कहने के लिए बराबर है कि p मान प्रायिकता है, यह मानते हुए कि शून्य परिकल्पना सच है, कम से कम परीक्षण सांख्यिकीय के रूप में चरम के परिणामस्वरूप हैं। इसलिए, महत्व स्तर जितना छोटा होगा, टाइप I त्रुटि कम करने की संभावना उतनी कम होगी।

कुछ समस्याएं आमतौर पर इस ढांचे से जुड़ी होती हैं (परिकल्पना परीक्षण की आलोचना देखें):

  • एक अंतर जो अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण है, अभी भी कोई व्यावहारिक महत्व नहीं हो सकता है, लेकिन इसके लिए ध्यान देने के लिए परीक्षणों को ठीक से तैयार करना संभव है। एक प्रतिक्रिया में p मान को शामिल करने के लिए केवल महत्व स्तर की रिपोर्टिंग से परे जाना शामिल है। p मान को जब रिपोर्ट करते हुए कि क्या परिकल्पना को अस्वीकार किया गया है या स्वीकार किया गया है। p मान , हालांकि, अवलोकन प्रभाव के आकार या महत्व को इंगित नहीं करता है और बड़े अध्ययनों में मामूली अंतर के महत्व को भी बढ़ा सकता है। एक बेहतर और तेजी से सामान्य दृष्टिकोण विश्वास अंतराल की रिपोर्ट करना है। यद्यपि ये परिकल्पना परीक्षणों या p मानों के समान गणना से उत्पन्न होते हैं, वे प्रभाव के आकार और इसके आसपास की अनिश्चितता दोनों का वर्णन करते हैं।
  • ट्रांसपोज़्ड सशर्त की गिरावट, उर्फ ​​अभियोजक की गिरावट: आलोचनाएँ उत्पन्न होती हैं क्योंकि परिकल्पना परीक्षण दृष्टिकोण एक परिकल्पना (शून्य परिकल्पना) को पसंद करने के लिए मजबूर करता है, क्योंकि जो मूल्यांकन किया जा रहा है वह अवलोकन परिणाम की संभावना है और शून्य परिकल्पना की संभावना है और संभावना नहीं है। अशक्त परिकल्पना को देखा गया परिणाम दिया गया। इस दृष्टिकोण का एक विकल्प बायेसियनअनुमान (इनवेंशन) द्वारा पेश किया जाता है, हालांकि इसके लिए एक पूर्व संभावना स्थापित करने की आवश्यकता होती है।[50]
  • अशक्त परिकल्पना को अस्वीकार करना स्वचालित रूप से वैकल्पिक परिकल्पना साबित नहीं होता है।
  • हीन आँकड़ों में सब कुछ नमूना आकार पर निर्भर करता है, और इसलिए फैट टेल्स के तहत p का मान गलत हो सकता है।[clarification needed]


उदाहरण

कुछ प्रसिद्ध सांख्यिकीय परीक्षण और प्रक्रियाएं हैं:


खोजकर्ता डेटा विश्लेषण

खोजपूर्ण आँकड़े विश्लेषण (EDA) उनकी मुख्य विशेषताओं को संक्षेप में प्रस्तुत करने के लिएआँकड़े सेट का विश्लेषण करने के लिए एक दृष्टिकोण है, अक्सर दृश्य विधियों के साथ।एक सांख्यिकीय मॉडल का उपयोग किया जा सकता है या नहीं, लेकिन मुख्य रूप से EDA यह देखने के लिए है कि डेटा हमें औपचारिक मॉडलिंग या परिकल्पना परीक्षण कार्य से परे क्या बता सकता है।

दुरुपयोग(मिसु)

आंकड़ों का दुरुपयोग विवरण और व्याख्या में सूक्ष्म लेकिन गंभीर त्रुटियों का उत्पादन कर सकता है - इस अर्थ में कि अनुभवी पेशेवर भी इस तरह की त्रुटियां करते हैं, और इस अर्थ में गंभीर हैं कि वे विनाशकारी निर्णय त्रुटियों को जन्म दे सकते हैं। उदाहरण के लिए, सामाजिक नीति, चिकित्सा अभ्यास, और पुल जैसी संरचनाओं की विश्वसनीयता सभी आंकड़ों के उचित उपयोग पर निर्भर करती है।

यहां तक ​​कि जब सांख्यिकीय तकनीकों को सही ढंग से लागू किया जाता है, तो परिणाम उन लोगों की कमी के लिए व्याख्या करना मुश्किल हो सकता है।आँकड़े में एक प्रवृत्ति का सांख्यिकीय महत्व - जो इस हद तक मापता है कि नमूने में यादृच्छिक भिन्नता के कारण एक प्रवृत्ति किस हद तक हो सकती है -मैं इसके महत्व के सहज ज्ञान युक्त भावना से सहमत नहीं हो सकता है। बुनियादी सांख्यिकीय कौशल (और संदेहवाद) का सेट जिसे लोगों को अपने रोजमर्रा के जीवन में जानकारी से निपटने की आवश्यकता होती है, उसे सांख्यिकीय साक्षरता कहा जाता है।

एक सामान्य धारणा है कि सांख्यिकीय ज्ञान जानबूझकर दुरुपयोग किया गया है, केवल उस आँकड़े की व्याख्या करने के तरीके खोजकर जो प्रस्तुतकर्ता के अनुकूल है।[51] आंकड़ों का अविश्वास और गलतफहमी उद्धरण, झूठ, शापित झूठ, और सांख्यिकी के साथ जुड़ा हुआ है। तीन प्रकार के झूठ हैं: झूठ, शापित झूठ और आंकड़े। आंकड़ों का दुरुपयोग अनजाने और जानबूझकर दोनों हो सकता है, और पुस्तक कैसे आंकड़े के साथ झूठ बोलें,[51]डेरेल हफ द्वारा, विचारों की एक श्रृंखला को रेखांकित करता है। आंकड़ों के उपयोग और दुरुपयोग पर प्रकाश डालने के प्रयास में, विशेष क्षेत्रों में उपयोग की जाने वाली सांख्यिकीय तकनीकों की समीक्षा की जाती है (जैसे कि वार्न, लाजो, रामोस और रिटर (2012))।[52] आंकड़ों के दुरुपयोग से बचने के तरीकों में उचित आरेखों का उपयोग करना और पूर्वाग्रह से बचने में शामिल हैं।[53] दुरुपयोग तब हो सकता है जब निष्कर्षों को अति-अधिकृत किया जाता है और दावा किया जाता है कि वे वास्तव में अधिक से अधिक के प्रतिनिधि हैं, अक्सर या तो जानबूझकर या अनजाने में नमूना पूर्वाग्रह की अनदेखी करते हैं।[54] बार रेखांकन यकीनन उपयोग और समझने के लिए सबसे आसान आरेख हैं, और उन्हें हाथ से या सरल कंप्यूटर कार्यक्रमों के साथ बनाया जा सकता है।[53]दुर्भाग्य से, ज्यादातर लोग पूर्वाग्रह या त्रुटियों की तलाश नहीं करते हैं, इसलिए उन्हें ध्यान नहीं दिया जाता है। इस प्रकार, लोग अक्सर यह मान सकते हैं कि कुछ सच है, भले ही यह अच्छी तरह से प्रतिनिधित्व नहीं करता है।[54]सांख्यिकी और सटीक आंकड़ों से डेटा एकत्र करने के लिए, लिया गया नमूना पूरे का प्रतिनिधि होना चाहिए।[55] हफ के अनुसार, एक नमूने की निर्भरता को [पूर्वाग्रह] द्वारा नष्ट किया जा सकता है ....अपने आप को कुछ हद तक संदेह की अनुमति दें।[56]

आंकड़ों की समझ में सहायता करने के लिए हफ ने प्रत्येक मामले में पूछे जाने वाले प्रश्नों की एक श्रृंखला का प्रस्ताव रखा:[51]*

  • ऐसा कौन कहता है?(क्या उसे पीसने के लिए कुल्हाड़ी है?)
  • वह कैसे/वह जानता है?(क्या उसके पास तथ्यों को जानने के लिए संसाधन हैं?)
  • क्या नहीं हैं?(क्या वह हमें पूरी तस्वीर देता है?)
  • क्या किसी ने विषय बदल दिया?(क्या वह हमें गलत समस्या का सही जवाब देता है?)
  • क्या इसका अर्थ बनता है?(क्या उसका निष्कर्ष तार्किक और सुसंगत है जो हम पहले से जानते हैं?)
भ्रमित करने वाली चर समस्या: X और Y को सहसंबद्ध किया जा सकता है, इसलिए नहीं कि उनके बीच कारण संबंध है, बल्कि इसलिए कि दोनों एक तीसरे चर z पर निर्भर हैं। Z को एक भ्रमित कारक कहा जाता है।


गलत व्याख्या: सहसंबंध

सहसंबंध की अवधारणा विशेष रूप से संभावित भ्रम के लिए उल्लेखनीय है। एक आँकड़े सेट के सांख्यिकीय विश्लेषण से अक्सर पता चलता है कि विचाराधीन जनसंख्या के दो चर (गुण) एक साथ भिन्न होते हैं, जैसे कि वे जुड़े हुए थे।उदाहरण के लिए, वार्षिक आय का एक अध्ययन जो मृत्यु की उम्र में भी देखता है, यह पा सकता है कि गरीब लोगों को समृद्ध लोगों की तुलना में कम जीवन होता है। दो चर को सहसंबद्ध कहा जाता है; हालाँकि, वे एक दूसरे का कारण हो सकते हैं या नहीं। सहसंबंध घटना एक तिहाई, पहले अचेतन घटना के कारण हो सकती है, जिसे एक दुबला चर या भ्रमित करने वाला चर कहा जाता है। इस कारण से, दो चर के बीच एक कारण संबंध के अस्तित्व का तुरंत अनुमान लगाने का कोई तरीका नहीं है।

अनुप्रयोग

लागू सांख्यिकी, सैद्धांतिक आँकड़े और गणितीय आँकड़े

लागू आंकड़े, कभी -कभी सांख्यिकीय विज्ञान के रूप में संदर्भित,[57] वर्णनात्मक आँकड़े और हीन आंकड़ों के अनुप्रयोग को शामिल करता है।[58][59] सैद्धांतिक आँकड़े सांख्यिकीय अनुमानों के दृष्टिकोण के औचित्य के साथ -साथ गणितीय आंकड़ों को शामिल करने के लिए तार्किक तर्कों की चिंता करते हैं। गणितीय आंकड़ों में न केवल अनुमान और अनुमान के तरीकों से संबंधित परिणामों को प्राप्त करने के लिए आवश्यक संभावना वितरण का हेरफेर शामिल है, बल्कि अभिकलनी(कम्प्यूटेशनल) आंकड़ों के विभिन्न पहलुओं और प्रयोगों के डिजाइन भी शामिल हैं।

सांख्यिकीय सलाहकार उन संगठनों और कंपनियों की मदद कर सकते हैं जिनके पास इन-हाउस विशेषज्ञता उनके विशेष प्रश्नों के लिए प्रासंगिक नहीं है।

मशीन लर्निंग और डेटा माइनिंग

मशीन लर्निंग मॉडल सांख्यिकीय और संभाव्य मॉडल हैं जो अभिकलनी (कम्प्यूटेशनल) एल्गोरिदम के उपयोग के माध्यम से आंकड़ों में प्रतिमान को कैप्चर आकर्षित करते हैं।

एकेडमिया में सांख्यिकी

आँकड़े प्राकृतिक और सामाजिक विज्ञान, सरकार और व्यवसाय सहित विभिन्न प्रकार के शैक्षणिक विषयों पर लागू होते हैं। व्यावसायिक सांख्यिकी सेवाओं में सुधार और विपणन अनुसंधान सहित अर्थमिति, ऑडिटिंग और उत्पादन और संचालन में सांख्यिकीय विधियों को लागू करता है।[60] उष्णकटिबंधीय जीव विज्ञान में दो पत्रिकाओं के एक अध्ययन में पाया गया कि 12 सबसे लगातार सांख्यिकीय परीक्षण हैं: विचरण का विश्लेषण (ANOVA) , ची-स्क्वायर टेस्ट, छात्र का टी परीक्षण, रैखिक प्रतिगमन, पियर्सन के सहसंबंध गुणांक, मान-व्हिटनी यू टेस्ट, क्रुस्कल-वालिसटेस्ट, शैनन की विविधता सूचकांक, तुकी की रेंज टेस्ट, तुकी का परीक्षण, क्लस्टर विश्लेषण, स्पीयरमैन रैंक सहसंबंध परीक्षण और प्रिंसिपल घटक विश्लेषण होते हैं।[61]

एक विशिष्ट सांख्यिकी पाठ्यक्रम में वर्णनात्मक आँकड़े, संभावना, द्विपद और सामान्य वितरण, परिकल्पना और आत्मविश्वास अंतराल, रैखिक प्रतिगमन और सहसंबंध का परीक्षण शामिल है। ref>Pekoz, Erol (2009). The Manager's Guide to Statistics. Erol Pekoz. ISBN 9780979570438.</ref> स्नातक छात्रों के लिए आधुनिक मौलिक सांख्यिकीय पाठ्यक्रम सही परीक्षण चयन, परिणाम व्याख्या और मुफ्त सांख्यिकी सॉफ्टवेयर के उपयोग पर ध्यान केंद्रित करते हैं।[61]


सांख्यिकीय कंप्यूटिंग

Gretl, एक खुले स्रोत सांख्यिकीय पैकेज का एक उदाहरण

20 वीं शताब्दी के उत्तरार्ध से शुरू होने वाली कंप्यूटिंग शक्ति में तेजी से और निरंतर वृद्धि का सांख्यिकीय विज्ञान के अभ्यास पर पर्याप्त प्रभाव पड़ा है। प्रारंभिक सांख्यिकीय मॉडल लगभग हमेशा रैखिक मॉडल के वर्ग से थे, लेकिन शक्तिशाली कंप्यूटर, उपयुक्त संख्यात्मक एल्गोरिदम के साथ मिलकर, नॉनलाइनियर मॉडल (जैसे तंत्रिका नेटवर्क) के साथ -साथ नए प्रकार के निर्माण जैसे कि सामान्यीकृत रैखिक मॉडल में वृद्धि हुई है और बहुस्तरीय मॉडल मे भी होते हैं।

बढ़ी हुई कंप्यूटिंग शक्ति ने भी पुनरुत्थान के आधार पर अभिकलनी (कम्प्यूटेशनल) रूप से गहन तरीकों की बढ़ती लोकप्रियता का नेतृत्व किया है, जैसे कि क्रमपरिवर्तन परीक्षण और बूटस्ट्रैप, जबकि गिब्स सैंपलिंग जैसी तकनीकों ने बायेसियन मॉडल के उपयोग को अधिक संभव बना दिया है। कंप्यूटर क्रांति में प्रयोगात्मक और अनुभवजन्य आंकड़ों पर एक नए जोर के साथ आंकड़ों के भविष्य के लिए निहितार्थ हैं। सामान्य और विशेष उद्देश्य सांख्यिकीय सॉफ्टवेयर दोनों की बड़ी संख्या अब उपलब्ध हैं। जटिल सांख्यिकीय गणना में सक्षम उपलब्ध सॉफ़्टवेयर के उदाहरणों में गणित, SAS, SPSS और R जैसे कार्यक्रम शामिल हैं।

व्यावसायिक सांख्यिकी

व्यवसाय में, सांख्यिकी एक व्यापक रूप से उपयोग किया जाने वाला प्रबंधन- और निर्णय समर्थन उपकरण है। यह विशेष रूप से वित्तीय प्रबंधन, विपणन प्रबंधन और उत्पादन, सेवाओं और संचालन प्रबंधन में लागू होता है।[62][63] सांख्यिकी का उपयोग प्रबंधन लेखांकन और ऑडिटिंग में भी किया जाता है। प्रबंधन विज्ञान का अनुशासन व्यवसाय में सांख्यिकी और अन्य गणित के उपयोग को औपचारिक रूप देता है। (अर्थमिति आर्थिक संबंधों को अनुभवजन्य सामग्री देने के लिए आर्थिक आंकड़ों के लिए सांख्यिकीय तरीकों का अनुप्रयोग है।)

एक विशिष्ट व्यावसायिक सांख्यिकी पाठ्यक्रम व्यवसाय की बड़ी कंपनियों और कवर के लिए अभिप्रेत है [64] वर्णनात्मक आँकड़े (संग्रह, विवरण, विश्लेषण और डेटा का सारांश), संभावना (आमतौर पर द्विपद और सामान्य वितरण), परिकल्पना और आत्मविश्वास अंतराल का परीक्षण, रैखिक प्रतिगमन, और सहसंबंध; (फॉलो-ऑन) पाठ्यक्रमों में पूर्वानुमान, समय श्रृंखला, निर्णय पेड़, कई रैखिक प्रतिगमन, और व्यापार विश्लेषण से अन्य विषय अधिक आमतौर पर शामिल हो सकते हैं।यह सभी देखें Business mathematics § University level। पेशेवर प्रमाणन कार्यक्रम, जैसे कि CFA, में अक्सर आंकड़ों में विषय शामिल होते हैं।

गणित या कला के लिए लागू आंकड़े

परंपरागत रूप से, आंकड़े एक अर्ध-मानक कार्यप्रणाली का उपयोग करके आरेखण निष्कर्षों से संबंधित थे जो अधिकांश विज्ञानों में सीखने की आवश्यकता थी।[citation needed] यह परंपरा गैर-अनुमान (इन्फेक्शनल) संदर्भों में आंकड़ों के उपयोग के साथ बदल गई है।एक बार एक शुष्क विषय माना जाता था, जिसे कई क्षेत्रों में डिग्री-आवश्यकता के रूप में लिया गया था, अब उत्साह से देखा जाता है।[according to whom?] शुरू में कुछ गणितीय शुद्धतावादियों द्वारा प्राप्त, इसे अब कुछ क्षेत्रों में आवश्यक कार्यप्रणाली माना जाता है।

  • संख्या सिद्धांत में, एक वितरण फ़ंक्शन द्वारा उत्पन्न डेटा के बिखराव के भूखंडों को अंतर्निहित पैटर्न को प्रकट करने के लिए आंकड़ों में उपयोग किए जाने वाले परिचित उपकरणों के साथ बदल दिया जा सकता है, जो तब परिकल्पना को जन्म दे सकता है।
  • अराजकता सिद्धांत और फ्रैक्टल ज्यामिति के संयोजन के पूर्वानुमान में आंकड़ों के पूर्वानुमान के तरीकों का उपयोग वीडियो कार्यों को बनाने के लिए किया जा सकता है।[65]
  • जैक्सन पोलक की प्रक्रिया कला कलात्मक प्रयोगों पर निर्भर थी, जिससे प्रकृति में अंतर्निहित वितरण को कलात्मक रूप से प्रकट किया गया था।[66] कंप्यूटर के आगमन के साथ, मूविंग वीडियो आर्ट बनाने और विश्लेषण करने के लिए इस तरह के वितरण-चालित प्राकृतिक प्रक्रियाओं को औपचारिक बनाने के लिए सांख्यिकीय विधियों को लागू किया गया था।[citation needed]
  • सांख्यिकी के तरीकों का उपयोग प्रदर्शन कला में प्रमुख रूप से किया जा सकता है, जैसा कि एक मार्कोव प्रक्रिया के आधार पर एक कार्ड ट्रिक है जो केवल कुछ समय काम करता है, जिसके अवसर को सांख्यिकीय पद्धति का उपयोग करके भविष्यवाणी की जा सकती है।
  • आंकड़ों का उपयोग मुख्य रूप से कला बनाने के लिए किया जा सकता है, जैसा कि इयानिस ज़ेनकिस द्वारा आविष्कार किए गए सांख्यिकीय या स्टोकेस्टिक संगीत में है, जहां संगीत प्रदर्शन-विशिष्ट है। हालांकि इस प्रकार की कलात्मकता हमेशा अपेक्षित रूप से बाहर नहीं आती है, यह उन तरीकों से व्यवहार करती है जो आंकड़ों का उपयोग करके अनुमानित और ट्यून करने योग्य हैं।

विशेष अनुशासन

सांख्यिकीय तकनीकों का उपयोग वैज्ञानिक और सामाजिक अनुसंधान की एक विस्तृत श्रृंखला में किया जाता है, जिनमें शामिल हैं: बायोस्टैटिस्टिक्स, कम्प्यूटेशनल बायोलॉजी, कम्प्यूटेशनल समाजशास्त्र, नेटवर्क जीव विज्ञान, सामाजिक विज्ञान, समाजशास्त्र और सामाजिक अनुसंधान है। पूछताछ के कुछ क्षेत्र ने इतने बड़े पैमाने पर आँकड़ों को लागू किया कि उनके पास विशेष शब्दावली है। ज़ो इन विषयों में शामिल हैं:

इसके अलावा, विशेष प्रकार के सांख्यिकीय विश्लेषण हैं जिन्होंने अपनी विशेष शब्दावली और कार्यप्रणाली भी विकसित की है:

सांख्यिकी व्यवसाय और विनिर्माण में भी एक प्रमुख आधार उपकरण बनाते हैं। इसका उपयोग माप प्रणाली परिवर्तनशीलता, नियंत्रण प्रक्रियाओं (सांख्यिकीय प्रक्रिया नियंत्रण या SPC में), आंकड़ो को सारांशित करने के लिए और आंकड़े-संचालित निर्णय लेने के लिए किया जाता है। इन भूमिकाओं में, यह एक महत्वपूर्ण उपकरण है, और शायद एकमात्र विश्वसनीय उपकरण है।[citation needed]


यह भी देखें

नींव और सांख्यिकी के प्रमुख क्षेत्र


संदर्भ

  1. "Statistics". Oxford Reference. Oxford University Press. January 2008. ISBN 978-0-19-954145-4. Archived from the original on 2020-09-03. Retrieved 2019-08-14.
  2. Romijn, Jan-Willem (2014). "Philosophy of statistics". Stanford Encyclopedia of Philosophy. Archived from the original on 2021-10-19. Retrieved 2016-11-03.
  3. "Cambridge Dictionary". Archived from the original on 2020-11-22. Retrieved 2019-08-14.
  4. Dodge, Y. (2006) The Oxford Dictionary of Statistical Terms, Oxford University Press. ISBN 0-19-920613-9
  5. 5.0 5.1 Lund Research Ltd. "Descriptive and Inferential Statistics". statistics.laerd.com. Archived from the original on 2020-10-26. Retrieved 2014-03-23.
  6. "What Is the Difference Between Type I and Type II Hypothesis Testing Errors?". About.com Education. Archived from the original on 2017-02-27. Retrieved 2015-11-27.
  7. Moses, Lincoln E. (1986) Think and Explain with Statistics, Addison-Wesley, ISBN 978-0-201-15619-5. pp. 1–3
  8. Hays, William Lee, (1973) Statistics for the Social Sciences, Holt, Rinehart and Winston, p.xii, ISBN 978-0-03-077945-9
  9. Moore, David (1992). "Teaching Statistics as a Respectable Subject". In F. Gordon; S. Gordon (eds.). Statistics for the Twenty-First Century. Washington, DC: The Mathematical Association of America. pp. 14–25. ISBN 978-0-88385-078-7.
  10. Chance, Beth L.; Rossman, Allan J. (2005). "Preface" (PDF). Investigating Statistical Concepts, Applications, and Methods. Duxbury Press. ISBN 978-0-495-05064-3. Archived (PDF) from the original on 2020-11-22. Retrieved 2009-12-06.
  11. Lakshmikantham, D.; Kannan, V. (2002). Handbook of stochastic analysis and applications. New York: M. Dekker. ISBN 0824706609.
  12. Schervish, Mark J. (1995). Theory of statistics (Corr. 2nd print. ed.). New York: Springer. ISBN 0387945466.
  13. 13.0 13.1 Broemeling, Lyle D. (1 November 2011). "An Account of Early Statistical Inference in Arab Cryptology". The American Statistician. 65 (4): 255–257. doi:10.1198/tas.2011.10191. S2CID 123537702.
  14. Willcox, Walter (1938) "The Founder of Statistics". Review of the International Statistical Institute 5(4): 321–328. JSTOR 1400906
  15. J. Franklin, The Science of Conjecture: Evidence and Probability before Pascal, Johns Hopkins Univ Pr 2002
  16. Helen Mary Walker (1975). Studies in the history of statistical method. Arno Press. ISBN 9780405066283. Archived from the original on 2020-07-27. Retrieved 2015-06-27.
  17. Galton, F (1877). "Typical laws of heredity". Nature. 15 (388): 492–553. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0.
  18. Stigler, S.M. (1989). "Francis Galton's Account of the Invention of Correlation". Statistical Science. 4 (2): 73–79. doi:10.1214/ss/1177012580.
  19. Pearson, K. (1900). "On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling". Philosophical Magazine. Series 5. 50 (302): 157–175. doi:10.1080/14786440009463897. Archived from the original on 2020-08-18. Retrieved 2019-06-27.
  20. "Karl Pearson (1857–1936)". Department of Statistical Science – University College London. Archived from the original on 2008-09-25.
  21. Fisher|1971|loc=Chapter II. The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis
  22. OED quote: 1935 R.A. Fisher, The Design of Experiments ii. 19, "We may speak of this hypothesis as the 'null hypothesis', and the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation."
  23. Box, JF (February 1980). "R.A. Fisher and the Design of Experiments, 1922–1926". The American Statistician. 34 (1): 1–7. doi:10.2307/2682986. JSTOR 2682986.
  24. Yates, F (June 1964). "Sir Ronald Fisher and the Design of Experiments". Biometrics. 20 (2): 307–321. doi:10.2307/2528399. JSTOR 2528399.
  25. Stanley, Julian C. (1966). "The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later". American Educational Research Journal. 3 (3): 223–229. doi:10.3102/00028312003003223. JSTOR 1161806. S2CID 145725524.
  26. Agresti, Alan; David B. Hichcock (2005). "Bayesian Inference for Categorical Data Analysis" (PDF). Statistical Methods & Applications. 14 (3): 298. doi:10.1007/s10260-005-0121-y. S2CID 18896230. Archived (PDF) from the original on 2013-12-19. Retrieved 2013-12-19.
  27. Edwards, A.W.F. (1998). "Natural Selection and the Sex Ratio: Fisher's Sources". American Naturalist. 151 (6): 564–569. doi:10.1086/286141. PMID 18811377. S2CID 40540426.
  28. Fisher, R.A. (1915) The evolution of sexual preference. Eugenics Review (7) 184:192
  29. Fisher, R.A. (1930) The Genetical Theory of Natural Selection. ISBN 0-19-850440-3
  30. Edwards, A.W.F. (2000) Perspectives: Anecdotal, Historial and Critical Commentaries on Genetics. The Genetics Society of America (154) 1419:1426
  31. Andersson, Malte (1994). Sexual Selection. Princeton University Press. ISBN 0-691-00057-3. Archived from the original on 2019-12-25. Retrieved 2019-09-19.
  32. Andersson, M. and Simmons, L.W. (2006) Sexual selection and mate choice. Trends, Ecology and Evolution (21) 296:302
  33. Gayon, J. (2010) Sexual selection: Another Darwinian process. Comptes Rendus Biologies (333) 134:144
  34. Neyman, J (1934). "On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection". Journal of the Royal Statistical Society. 97 (4): 557–625. doi:10.2307/2342192. JSTOR 2342192.
  35. "Science in a Complex World – Big Data: Opportunity or Threat?". Santa Fe Institute. Archived from the original on 2016-05-30. Retrieved 2014-10-13.
  36. Freedman, D.A. (2005) Statistical Models: Theory and Practice, Cambridge University Press. ISBN 978-0-521-67105-7
  37. McCarney R, Warner J, Iliffe S, van Haselen R, Griffin M, Fisher P (2007). "The Hawthorne Effect: a randomised, controlled trial". BMC Med Res Methodol. 7 (1): 30. doi:10.1186/1471-2288-7-30. PMC 1936999. PMID 17608932.
  38. Rothman, Kenneth J; Greenland, Sander; Lash, Timothy, eds. (2008). "7". Modern Epidemiology (in English) (3rd ed.). Lippincott Williams & Wilkins. p. 100. ISBN 9780781755641.
  39. Mosteller, F.; Tukey, J.W (1977). Data analysis and regression. Boston: Addison-Wesley.
  40. Nelder, J.A. (1990). The knowledge needed to computerise the analysis and interpretation of statistical information. In Expert systems and artificial intelligence: the need for information about data. Library Association Report, London, March, 23–27.
  41. Chrisman, Nicholas R (1998). "Rethinking Levels of Measurement for Cartography". Cartography and Geographic Information Science. 25 (4): 231–242. doi:10.1559/152304098782383043.
  42. van den Berg, G. (1991). Choosing an analysis method. Leiden: DSWO Press
  43. Hand, D.J. (2004). Measurement theory and practice: The world through quantification. London: Arnold.
  44. Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
  45. Upton, G., Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4.
  46. 46.0 46.1 Piazza Elio, Probabilità e Statistica, Esculapio 2007
  47. Everitt, Brian (1998). The Cambridge Dictionary of Statistics. Cambridge, UK New York: Cambridge University Press. ISBN 0521593468.
  48. "Cohen (1994) The Earth Is Round (p < .05)". YourStatsGuru.com. Archived from the original on 2015-09-05. Retrieved 2015-07-20.
  49. Rubin, Donald B.; Little, Roderick J.A., Statistical analysis with missing data, New York: Wiley 2002
  50. Ioannidis, J.P.A. (2005). "Why Most Published Research Findings Are False". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722.
  51. 51.0 51.1 51.2 Huff, Darrell (1954) How to Lie with Statistics, WW Norton & Company, Inc. New York. ISBN 0-393-31072-8
  52. Warne, R. Lazo; Ramos, T.; Ritter, N. (2012). "Statistical Methods Used in Gifted Education Journals, 2006–2010". Gifted Child Quarterly. 56 (3): 134–149. doi:10.1177/0016986212444122. S2CID 144168910.
  53. 53.0 53.1 Drennan, Robert D. (2008). "Statistics in archaeology". In Pearsall, Deborah M. (ed.). Encyclopedia of Archaeology. Elsevier Inc. pp. 2093–2100. ISBN 978-0-12-373962-9.
  54. 54.0 54.1 Cohen, Jerome B. (December 1938). "Misuse of Statistics". Journal of the American Statistical Association. JSTOR. 33 (204): 657–674. doi:10.1080/01621459.1938.10502344.
  55. Freund, J.E. (1988). "Modern Elementary Statistics". Credo Reference.
  56. Huff, Darrell; Irving Geis (1954). How to Lie with Statistics. New York: Norton. The dependability of a sample can be destroyed by [bias]... allow yourself some degree of skepticism.
  57. Nelder, John A. (1999). "From Statistics to Statistical Science". Journal of the Royal Statistical Society. Series D (The Statistician). 48 (2): 257–269. doi:10.1111/1467-9884.00187. ISSN 0039-0526. JSTOR 2681191. Archived from the original on 2022-01-15. Retrieved 2022-01-15.
  58. Nikoletseas, M.M. (2014) "Statistics: Concepts and Examples." ISBN 978-1500815684
  59. Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1994) Introduction to Statistics: Concepts and Applications, pp. 5–9. West Group. ISBN 978-0-314-03309-3
  60. "Journal of Business & Economic Statistics". Journal of Business & Economic Statistics. Taylor & Francis. Archived from the original on 27 July 2020. Retrieved 16 March 2020.
  61. 61.0 61.1 Natalia Loaiza Velásquez, María Isabel González Lutz & Julián Monge-Nájera (2011). "Which statistics should tropical biologists learn?" (PDF). Revista Biología Tropical. 59: 983–992. Archived (PDF) from the original on 2020-10-19. Retrieved 2020-04-26.
  62. "Aims and scope". Journal of Business & Economic Statistics. Taylor & Francis. Archived from the original on 23 June 2021. Retrieved 16 March 2020.
  63. "Journal of Business & Economic Statistics". Journal of Business & Economic Statistics. Taylor & Francis. Archived from the original on 27 July 2020. Retrieved 16 March 2020.
  64. Numerous texts are available, reflecting the scope and reach of the discipline in the business world:
    • Sharpe, N. (2014). Business Statistics, Pearson. ISBN 978-0134705217
    • Wegner, T. (2010). Applied Business Statistics: Methods and Excel-Based Applications, Juta Academic. ISBN 0702172863
    Two open textbooks are:
  65. Cline, Graysen (2019). Nonparametric Statistical Methods Using R. EDTECH. ISBN 978-1-83947-325-8. OCLC 1132348139. Archived from the original on 2022-05-15. Retrieved 2021-09-16.
  66. Palacios, Bernardo; Rosario, Alfonso; Wilhelmus, Monica M.; Zetina, Sandra; Zenit, Roberto (2019-10-30). "Pollock avoided hydrodynamic instabilities to paint with his dripping technique". PLOS ONE (in English). 14 (10): e0223706. Bibcode:2019PLoSO..1423706P. doi:10.1371/journal.pone.0223706. ISSN 1932-6203. PMC 6821064. PMID 31665191.


अग्रिम पठन


बाहरी संबंध

{{Navbox

| name =गणित के क्षेत्र

|state = autocollapse


| title =अंक शास्त्र | bodyclass = hlist

|above =


| group1 = नींव | list1 =* श्रेणी सिद्धांत

| group2 =बीजगणित | list2 =* सार

| group3 = विश्लेषण | list3 =* पथरी

| group4 = असतत | list4 =* कॉम्बीनेटरिक्स

| group5 =ज्यामिति | list5 =* बीजगणितीय

| group6 =संख्या सिद्धांत | list6 =* अंकगणित

| group7 =टोपोलॉजी | list7 =* सामान्य

| group8 = लागू | list8 =* इंजीनियरिंग गणित

| group9 = कम्प्यूटेशनल | list9 =* कंप्यूटर विज्ञान

| group10 = संबंधित विषय | list10 =* अनौपचारिक गणित

| below =* '

}}

<!


]