समूहीकृत डेटा
समूहीकृत डेटा एक चर और विशेषता (अनुसंधान) के व्यक्तिगत यादृच्छिक चर को समूहों में एकत्रित करके बनाए गए डेटा हैं, ताकि इन समूहों का एक आवृत्ति वितरण डेटा को सारांशित करने या डेटा विश्लेषण के सुविधाजनक साधन के रूप में कार्य करे। समूहीकरण के दो प्रमुख प्रकार हैं: एकल-आयामी चर का डेटा बिनिंग, डिब्बे में अलग-अलग संख्याओं को गिनकर बदलना; और कुछ आयामों (विशेष रूप से स्वतंत्र चर द्वारा) द्वारा बहु-आयामी चर को समूहित करना, असमूहीकृत आयामों (विशेष रूप से आश्रित चर) का वितरण प्राप्त करना।
उदाहरण
निम्नलिखित अपरिष्कृत डेटासेट पर विचार करके समूहीकृत डेटा के विचार को चित्रित किया जा सकता है:
20 | 25 | 24 | 33 | 13 | 26 | 8 | 19 | 31 | 11 | 16 | 21 | 17 | 11 | 34 | 14 | 15 | 21 | 18 | 17 |
उपरोक्त डेटा को कई तरीकों में से किसी एक में बारंबारता वितरण बनाने के लिए समूहीकृत किया जा सकता है। एक तरीका अंतराल को आधार के रूप में उपयोग करना है।
उपरोक्त आंकड़ों में सबसे छोटा मान 8 है और सबसे बड़ा 34 है। 8 से 34 तक के अंतराल को छोटे उपअंतरालों में विभाजित किया जाता है (जिन्हें वर्ग अंतराल कहा जाता है)। प्रत्येक वर्ग अंतराल के लिए, इस अंतराल में आने वाले डेटा मदों की संख्या की गणना की जाती है। यह संख्या उस वर्ग अंतराल की बारंबारता कहलाती है। परिणाम निम्नानुसार आवृत्ति तालिका के रूप में सारणीबद्ध हैं:
Time taken (in seconds) | Frequency |
---|---|
5 ≤ t < 10 | 1 |
10 ≤ t < 15 | 4 |
15 ≤ t < 20 | 6 |
20 ≤ t < 25 | 4 |
25 ≤ t < 30 | 2 |
30 ≤ t < 35 | 3 |
डेटा को समूहीकृत करने की एक अन्य विधि संख्यात्मक अंतरालों के बजाय कुछ गुणात्मक विशेषताओं का उपयोग करना है। उदाहरण के लिए, मान लें कि उपरोक्त उदाहरण में, तीन प्रकार के छात्र हैं: 1) सामान्य से नीचे, यदि प्रतिक्रिया समय 5 से 14 सेकंड है, 2) सामान्य यदि यह 15 और 24 सेकंड के बीच है, और 3) सामान्य से अधिक है यदि यह 25 सेकंड या अधिक है, तो समूहीकृत डेटा ऐसा दिखता है:
Frequency | |
---|---|
Below normal | 5 |
Normal | 10 |
Above normal | 5 |
फिर भी डेटा को समूहीकृत करने का एक अन्य उदाहरण कुछ सामान्य रूप से उपयोग किए जाने वाले संख्यात्मक मानों का उपयोग है, जो वास्तव में वे नाम हैं जिन्हें हम श्रेणियों को निर्दिष्ट करते हैं। उदाहरण के लिए, आइए एक कक्षा में विद्यार्थियों के आयु वितरण को देखें। छात्र 10 वर्ष, 11 वर्ष या 12 वर्ष के हो सकते हैं। ये आयु समूह 10, 11 और 12 हैं। ध्यान दें कि आयु वर्ग 10 में छात्र 10 वर्ष और 0 दिन से 10 वर्ष और 364 दिन के हैं, और उनकी औसत आयु 10.5 वर्ष है, अगर हम उम्र देखें निरंतर पैमाने में। समूहीकृत डेटा ऐसा दिखता है:
Age | Frequency |
---|---|
10 | 10 |
11 | 20 |
12 | 10 |
समूहीकृत डेटा का माध्य
एक अनुमान, , जिस जनसंख्या से डेटा खींचा जाता है, उसकी गणना समूहीकृत डेटा से की जा सकती है:
इस सूत्र में, x वर्ग अंतराल के मध्यबिंदु को संदर्भित करता है, और f वर्ग आवृत्ति है। ध्यान दें कि इसका परिणाम असमूहीकृत डेटा के नमूना माध्य से भिन्न होगा। उपरोक्त उदाहरण में समूहीकृत डेटा के माध्य की गणना निम्नानुसार की जा सकती है:
Class Intervals | Frequency ( f ) | Midpoint ( x ) | f x |
---|---|---|---|
5 and above, below 10 | 1 | 7.5 | 7.5 |
10 ≤ t < 15 | 4 | 12.5 | 50 |
15 ≤ t < 20 | 6 | 17.5 | 105 |
20 ≤ t < 25 | 4 | 22.5 | 90 |
25 ≤ t < 30 | 2 | 27.5 | 55 |
30 ≤ t < 35 | 3 | 32.5 | 97.5 |
TOTAL | 20 | 405 |
इस प्रकार, समूहीकृत डेटा का माध्य है
उपरोक्त उदाहरण 4 में समूहीकृत डेटा के माध्य की गणना निम्नानुसार की जा सकती है:
Age Group | Frequency ( f ) | Midpoint ( x ) | f x |
---|---|---|---|
10 | 10 | 10.5 | 105 |
11 | 20 | 11.5 | 230 |
12 | 10 | 12.5 | 125 |
TOTAL | 40 | 460 |
इस प्रकार, समूहीकृत डेटा का माध्य है
यह भी देखें
- संपूर्ण आंकड़ा
- डेटा बिनिंग
- एक सेट का विभाजन
- माप का स्तर
- आवृति वितरण
- निरंतर सुविधाओं का विवेक
- Logistic regression § Minimum chi-squared estimator for grouped data
This article includes a list of general references, but it lacks sufficient corresponding inline citations. (June 2010) (Learn how and when to remove this template message) |
संदर्भ
- Newbold, P.; Carlson, W.; Thorne, B. (2009). Statistics for Business and Economics (Seventh ed.). Pearson Education. ISBN 978-0-13-507248-6.