समूहीकृत डेटा: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Organized raw data that has not been otherwise processed or transformed}} समूहीकृत डेटा एक चर और विशेषत...")
 
(अक्सर)
Line 1: Line 1:
{{Short description|Organized raw data that has not been otherwise processed or transformed}}
{{Short description|Organized raw data that has not been otherwise processed or transformed}}
समूहीकृत डेटा एक [[चर और विशेषता (अनुसंधान)]] के व्यक्तिगत [[यादृच्छिक चर]] को समूहों में एकत्रित करके बनाए गए डेटा हैं, ताकि इन समूहों का एक आवृत्ति वितरण डेटा को सारांशित करने या [[डेटा विश्लेषण]] के सुविधाजनक साधन के रूप में कार्य करे। समूहीकरण के दो प्रमुख प्रकार हैं: एकल-आयामी चर का [[डेटा बिनिंग]], डिब्बे में अलग-अलग संख्याओं को गिनकर बदलना; और कुछ आयामों (विशेष रूप से [[स्वतंत्र चर]] द्वारा) द्वारा बहु-आयामी चर को समूहित करना, असमूहीकृत आयामों (विशेष रूप से आश्रित चर) का वितरण प्राप्त करना।
समूहीकृत आंकड़े एक [[चर और विशेषता (अनुसंधान)]] के व्यक्तिगत [[यादृच्छिक चर]] को समूहों में एकत्रित करके बनाए गए आंकड़े हैं, ताकि इन समूहों का आवृत्ति वितरण आंकड़े को संक्षेप या [[डेटा विश्लेषण|आंकड़े  विश्लेषण]] करने के एक सुविधाजनक साधन के रूप में कार्य करता है। समूहन के दो प्रमुख प्रकार हैं: एकल-आयामी चर का [[डेटा बिनिंग|आंकड़े  बिनिंग]], बिन में गिनती के आधार पर व्यक्तिगत संख्याओं की जगह लेना; और कुछ आयामों (विशेष रूप से स्वतंत्र चर द्वारा) द्वारा बहु-आयामी चर को समूहबद्ध करना, गैर-विकसित आयामों का वितरण प्राप्त करना (विशेष रूप से [[स्वतंत्र चर|स्वतंत्र चर द्वारा]])


== उदाहरण ==
== उदाहरण ==
निम्नलिखित अपरिष्कृत डेटासेट पर विचार करके समूहीकृत डेटा के विचार को चित्रित किया जा सकता है:
निम्नलिखित अपरिष्कृत आंकड़े सेट पर विचार करके समूहीकृत आंकड़े  के विचार को चित्रित किया जा सकता है:


{| class="wikitable" width="30" style="text-align: center;"
{| class="wikitable" width="30" style="text-align: center;"
|+ Table 1: ''Time taken (in seconds) by a group of students to answer a simple math question''
|+ तालिका 1: छात्रों के एक समूह द्वारा गणित के एक साधारण प्रश्न का उत्तर देने में लगा समय (सेकंड में)
| 20 || 25 || 24 || 33 || 13 || 26 || 8 || 19 || 31 || 11 || 16 || 21 || 17 || 11 || 34 || 14 || 15 || 21 || 18 || 17
| 20 || 25 || 24 || 33 || 13 || 26 || 8 || 19 || 31 || 11 || 16 || 21 || 17 || 11 || 34 || 14 || 15 || 21 || 18 || 17
|}
|}
उपरोक्त डेटा को कई तरीकों में से किसी एक में बारंबारता वितरण बनाने के लिए समूहीकृत किया जा सकता है। एक तरीका अंतराल को आधार के रूप में उपयोग करना है।
उपरोक्त आंकड़े  को कई तरीकों से एक आवृत्ति वितरण बनाने के लिए समूहबद्ध किया जा सकता है। एक तरीका है अंतराल को आधार के रूप में प्रयोग करना है।


उपरोक्त आंकड़ों में सबसे छोटा मान 8 है और सबसे बड़ा 34 है। 8 से 34 तक के अंतराल को छोटे उपअंतरालों में विभाजित किया जाता है (जिन्हें वर्ग अंतराल कहा जाता है)। प्रत्येक वर्ग अंतराल के लिए, इस अंतराल में आने वाले डेटा मदों की संख्या की गणना की जाती है। यह संख्या उस वर्ग अंतराल की बारंबारता कहलाती है। परिणाम निम्नानुसार [[आवृत्ति तालिका]] के रूप में सारणीबद्ध हैं:
उपर्युक्त  आंकड़े  में सबसे छोटा मान 8 है और सबसे बड़ा 34 है. 8 से 34 के बीच के अंतराल को छोटे उप अंतरालों में विभाजित किया गया है (जिसे कक्षा अंतराल कहा जाता है)। प्रत्येक कक्षा अंतराल के लिए, इस अंतराल में गिरने वाले आंकड़े  मदों की संख्या गिनी जाती है। इस संख्या को उस वर्ग अंतराल की आवृत्ति कहा जाता है। परिणामों को एक [[आवृत्ति तालिका]] के रूप में इस प्रकार सारणीबद्ध किया गया है:


{| class="wikitable" width="300" style="text-align: center;"
{| class="wikitable" width="300" style="text-align: center;"
|+ Table 2: ''Frequency distribution of the time taken (in seconds) by the group of students to answer a simple math question''
|+ तालिका 2: गणित के साधारण प्रश्न का उत्तर देने के लिए छात्रों के समूह द्वारा (सेकेंड में) लिया गया समय का आवृत्ति वितरण
|-
|-
! Time taken (in seconds) !! Frequency
! (सेकेंड में) समय लिया !! आवृत्ति
|-
|-
| 5 ≤ t < 10 ||  1
| 5 ≤ t < 10 ||  1
Line 30: Line 30:
| 30 ≤ t < 35 || 3
| 30 ≤ t < 35 || 3
|}
|}
डेटा को समूहीकृत करने की एक अन्य विधि संख्यात्मक अंतरालों के बजाय कुछ गुणात्मक विशेषताओं का उपयोग करना है। उदाहरण के लिए, मान लें कि उपरोक्त उदाहरण में, तीन प्रकार के छात्र हैं: 1) सामान्य से नीचे, यदि प्रतिक्रिया समय 5 से 14 सेकंड है, 2) सामान्य यदि यह 15 और 24 सेकंड के बीच है, और 3) सामान्य से अधिक है यदि यह 25 सेकंड या अधिक है, तो समूहीकृत डेटा ऐसा दिखता है:
आंकड़े  समूहन की एक अन्य विधि संख्यात्मक अंतराल के बजाय कुछ गुणात्मक विशेषताओं का उपयोग करना है। उदाहरण के लिए, मान लीजिए कि उपरोक्त उदाहरण में, तीन प्रकार के छात्र हैं: 1) सामान्य से नीचे, यदि प्रतिक्रिया समय 5 से 14 सेकंड है, 2 सामान्य है यदि यह 15 से 24 सेकंड के बीच है, और 3) सामान्य से अधिक है यदि यह 25 सेकंड या उससे अधिक है, तो समूह  आंकड़े  इस तरह दिखता है:


{| class="wikitable" width="300"
{| class="wikitable" width="300"
|+ Table 3: ''Frequency distribution of the three types of students ''
|+ तालिका 3: तीन प्रकार के छात्रों का आवृत्ति वितरण
|-
|-
!  !! Frequency
!  !! आवृत्ति
|-
|-
| Below normal || align="center"|  5
| सामान्य से नीचे || align="center" |  5
|-
|-
| Normal || align="center"| 10
| सामान्य || align="center" | 10
|-
|-
| Above normal || align="center"| 5
| सामान्य से उपर || align="center" | 5
|}
|}
फिर भी डेटा को समूहीकृत करने का एक अन्य उदाहरण कुछ सामान्य रूप से उपयोग किए जाने वाले संख्यात्मक मानों का उपयोग है, जो वास्तव में वे नाम हैं जिन्हें हम श्रेणियों को निर्दिष्ट करते हैं। उदाहरण के लिए, आइए एक कक्षा में विद्यार्थियों के आयु वितरण को देखें। छात्र 10 वर्ष, 11 वर्ष या 12 वर्ष के हो सकते हैं। ये आयु समूह 10, 11 और 12 हैं। ध्यान दें कि आयु वर्ग 10 में छात्र 10 वर्ष और 0 दिन से 10 वर्ष और 364 दिन के हैं, और उनकी औसत आयु 10.5 वर्ष है, अगर हम उम्र देखें निरंतर पैमाने में। समूहीकृत डेटा ऐसा दिखता है:
फिर भी आंकड़े को समूहबद्ध करने का एक और उदाहरण सामान्यतःपर उपयोग किए जाने वाले कुछ संख्यात्मक मूल्यों का उपयोग है, जो वास्तव में नाम हैं जिन्हें हम श्रेणियों में असाइन करते हैं। उदाहरण के लिए, आइए हम एक कक्षा में छात्रों के आयु वितरण को देखें। छात्र 10 वर्ष, 11 वर्ष या 12 वर्ष के हो सकते हैं। ये 10 वर्ष, 11 वर्ष और 12 वर्ष के आयु वर्ग के छात्र हैं। नोट करें कि 10 वर्ष और 0 दिन, 10 वर्ष और 364 दिन के छात्र हैं, और यदि हम निरंतर आयु को देखते हैं तो उनकी औसत आयु 10.5 वर्ष है। समूहित आंकड़े इस तरह दिखता है:


{| class="wikitable" width="300"
{| class="wikitable" width="300"
|+ Table 4: ''Age distribution of a class of students ''
|+ तालिका 4: छात्रों की एक कक्षा का आयु वितरण
|-
|-
! Age !! Frequency
! आयु !! आवृत्ति
|-
|-
| 10 || align="center"| 10
| 10 || align="center"| 10
Line 58: Line 58:




== समूहीकृत डेटा का माध्य ==
== समूहीकृत आंकड़े का माध्य ==
एक अनुमान, <math>\bar{x}</math>, जिस जनसंख्या से डेटा खींचा जाता है, उसकी गणना समूहीकृत डेटा से की जा सकती है:
एक अनुमान, <math>\bar{x}</math>, जिस जनसंख्या से आंकड़े खींचा जाता है, उसकी गणना समूहीकृत आंकड़े से की जा सकती है:


:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} .</math>
:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} .</math>
इस सूत्र में, x वर्ग अंतराल के मध्यबिंदु को संदर्भित करता है, और f वर्ग आवृत्ति है। ध्यान दें कि इसका परिणाम असमूहीकृत डेटा के [[नमूना माध्य]] से भिन्न होगा। उपरोक्त उदाहरण में समूहीकृत डेटा के माध्य की गणना निम्नानुसार की जा सकती है:
इस सूत्र में, x वर्ग अंतराल के मध्यबिंदु को संदर्भित करता है, और f वर्ग आवृत्ति है। ध्यान दें कि इसका परिणाम असमूहीकृत आंकड़े के [[नमूना माध्य]] से भिन्न होगा। उपरोक्त उदाहरण में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:


{| class="wikitable" style="text-align: center;"
{| class="wikitable" style="text-align: center;"
|-
|-
! Class Intervals !! Frequency ('' f '') !! Midpoint ( ''x'' ) !! ''f x''
! वर्ग अंतराल !! आवृत्ति  ('' f '') !! मध्य बिन्दु ( ''x'' ) !! ''f x''
|-
|-
| width="200"| 5 and above, below 10 || width="150"| 1 || width="100"| 7.5 || width="75"|7.5
| width="200"| 5 और 5 से ऊपर, 10 से नीचे || width="150" | 1 || width="100"| 7.5 || width="75"|7.5
|-
|-
| 10 ≤ t < 15 || 4 || 12.5 || 50
| 10 ≤ t < 15 || 4 || 12.5 || 50
Line 80: Line 80:
| 30 ≤ t < 35 || 3 || 32.5 || 97.5
| 30 ≤ t < 35 || 3 || 32.5 || 97.5
|-
|-
|  '''TOTAL''' ||  '''20''' ||  ||  '''405'''
|  '''योग''' ||  '''20''' ||  ||  '''405'''
|}
|}
<br />
<br />
इस प्रकार, समूहीकृत डेटा का माध्य है
इस प्रकार, समूहीकृत आंकड़े का माध्य है


:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{405}{20} = 20.25</math>
:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{405}{20} = 20.25</math>
<br />
<br />
उपरोक्त उदाहरण 4 में समूहीकृत डेटा के माध्य की गणना निम्नानुसार की जा सकती है:
उपरोक्त उदाहरण 4 में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:


{| class="wikitable" style="text-align: center;"
{| class="wikitable" style="text-align: center;"
|-
|-
! Age Group !! Frequency ('' f '') !! Midpoint ( ''x'' ) !! ''f x''
! वर्ग अंतराल !! आवृत्ति  ('' f '') !! मध्य बिन्दु ( ''x'' ) !! ''f x''
|-
|-
| width="200"| 10 || width="150"| 10 || width="100"| 10.5 || width="75"|105
| width="200"| 10 || width="150"| 10 || width="100"| 10.5 || width="75"|105
Line 100: Line 100:


|-
|-
|  '''TOTAL''' ||  '''40''' ||  ||  '''460'''
|  '''योग''' ||  '''40''' ||  ||  '''460'''
|}
|}
<br />
<br />
इस प्रकार, समूहीकृत डेटा का माध्य है
इस प्रकार, समूहीकृत आंकड़े का माध्य है


:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{460}{40} = 11.5</math>
:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{460}{40} = 11.5</math>
Line 110: Line 110:
== यह भी देखें ==
== यह भी देखें ==
*[[संपूर्ण आंकड़ा]]
*[[संपूर्ण आंकड़ा]]
* डेटा बिनिंग
* आंकड़े  बिनिंग
* [[एक सेट का विभाजन]]
* [[एक सेट का विभाजन]]
* [[माप का स्तर]]
* [[माप का स्तर]]
*आवृति वितरण
*आवृति वितरण
*[[निरंतर सुविधाओं का विवेक]]
*[[निरंतर सुविधाओं का विवेक]]
* {{section link|Logistic regression#Minimum chi-squared estimator for grouped data}}
* {{section link|समूहबद्ध डेटा के लिए लॉजिस्टिक रिग्रेशन #न्यूनतम ची-वर्ग अनुमानकर्ता}}


{{More footnotes|date=June 2010}}
{{More footnotes|date=June 2010}}

Revision as of 23:09, 28 March 2023

समूहीकृत आंकड़े एक चर और विशेषता (अनुसंधान) के व्यक्तिगत यादृच्छिक चर को समूहों में एकत्रित करके बनाए गए आंकड़े हैं, ताकि इन समूहों का आवृत्ति वितरण आंकड़े को संक्षेप या आंकड़े विश्लेषण करने के एक सुविधाजनक साधन के रूप में कार्य करता है। समूहन के दो प्रमुख प्रकार हैं: एकल-आयामी चर का आंकड़े बिनिंग, बिन में गिनती के आधार पर व्यक्तिगत संख्याओं की जगह लेना; और कुछ आयामों (विशेष रूप से स्वतंत्र चर द्वारा) द्वारा बहु-आयामी चर को समूहबद्ध करना, गैर-विकसित आयामों का वितरण प्राप्त करना (विशेष रूप से स्वतंत्र चर द्वारा)।

उदाहरण

निम्नलिखित अपरिष्कृत आंकड़े सेट पर विचार करके समूहीकृत आंकड़े के विचार को चित्रित किया जा सकता है:

तालिका 1: छात्रों के एक समूह द्वारा गणित के एक साधारण प्रश्न का उत्तर देने में लगा समय (सेकंड में)।
20 25 24 33 13 26 8 19 31 11 16 21 17 11 34 14 15 21 18 17

उपरोक्त आंकड़े को कई तरीकों से एक आवृत्ति वितरण बनाने के लिए समूहबद्ध किया जा सकता है। एक तरीका है अंतराल को आधार के रूप में प्रयोग करना है।

उपर्युक्त आंकड़े में सबसे छोटा मान 8 है और सबसे बड़ा 34 है. 8 से 34 के बीच के अंतराल को छोटे उप अंतरालों में विभाजित किया गया है (जिसे कक्षा अंतराल कहा जाता है)। प्रत्येक कक्षा अंतराल के लिए, इस अंतराल में गिरने वाले आंकड़े मदों की संख्या गिनी जाती है। इस संख्या को उस वर्ग अंतराल की आवृत्ति कहा जाता है। परिणामों को एक आवृत्ति तालिका के रूप में इस प्रकार सारणीबद्ध किया गया है:

तालिका 2: गणित के साधारण प्रश्न का उत्तर देने के लिए छात्रों के समूह द्वारा (सेकेंड में) लिया गया समय का आवृत्ति वितरण
(सेकेंड में) समय लिया आवृत्ति
5 ≤ t < 10 1
10 ≤ t < 15 4
15 ≤ t < 20 6
20 ≤ t < 25 4
25 ≤ t < 30 2
30 ≤ t < 35 3

आंकड़े समूहन की एक अन्य विधि संख्यात्मक अंतराल के बजाय कुछ गुणात्मक विशेषताओं का उपयोग करना है। उदाहरण के लिए, मान लीजिए कि उपरोक्त उदाहरण में, तीन प्रकार के छात्र हैं: 1) सामान्य से नीचे, यदि प्रतिक्रिया समय 5 से 14 सेकंड है, 2 सामान्य है यदि यह 15 से 24 सेकंड के बीच है, और 3) सामान्य से अधिक है यदि यह 25 सेकंड या उससे अधिक है, तो समूह आंकड़े इस तरह दिखता है:

तालिका 3: तीन प्रकार के छात्रों का आवृत्ति वितरण
आवृत्ति
सामान्य से नीचे 5
सामान्य 10
सामान्य से उपर 5

फिर भी आंकड़े को समूहबद्ध करने का एक और उदाहरण सामान्यतःपर उपयोग किए जाने वाले कुछ संख्यात्मक मूल्यों का उपयोग है, जो वास्तव में नाम हैं जिन्हें हम श्रेणियों में असाइन करते हैं। उदाहरण के लिए, आइए हम एक कक्षा में छात्रों के आयु वितरण को देखें। छात्र 10 वर्ष, 11 वर्ष या 12 वर्ष के हो सकते हैं। ये 10 वर्ष, 11 वर्ष और 12 वर्ष के आयु वर्ग के छात्र हैं। नोट करें कि 10 वर्ष और 0 दिन, 10 वर्ष और 364 दिन के छात्र हैं, और यदि हम निरंतर आयु को देखते हैं तो उनकी औसत आयु 10.5 वर्ष है। समूहित आंकड़े इस तरह दिखता है:

तालिका 4: छात्रों की एक कक्षा का आयु वितरण
आयु आवृत्ति
10 10
11 20
12 10


समूहीकृत आंकड़े का माध्य

एक अनुमान, , जिस जनसंख्या से आंकड़े खींचा जाता है, उसकी गणना समूहीकृत आंकड़े से की जा सकती है:

इस सूत्र में, x वर्ग अंतराल के मध्यबिंदु को संदर्भित करता है, और f वर्ग आवृत्ति है। ध्यान दें कि इसका परिणाम असमूहीकृत आंकड़े के नमूना माध्य से भिन्न होगा। उपरोक्त उदाहरण में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:

वर्ग अंतराल आवृत्ति ( f ) मध्य बिन्दु ( x ) f x
5 और 5 से ऊपर, 10 से नीचे 1 7.5 7.5
10 ≤ t < 15 4 12.5 50
15 ≤ t < 20 6 17.5 105
20 ≤ t < 25 4 22.5 90
25 ≤ t < 30 2 27.5 55
30 ≤ t < 35 3 32.5 97.5
योग 20 405


इस प्रकार, समूहीकृत आंकड़े का माध्य है


उपरोक्त उदाहरण 4 में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:

वर्ग अंतराल आवृत्ति ( f ) मध्य बिन्दु ( x ) f x
10 10 10.5 105
11 20 11.5 230
12 10 12.5 125
योग 40 460


इस प्रकार, समूहीकृत आंकड़े का माध्य है


यह भी देखें

संदर्भ

  • Newbold, P.; Carlson, W.; Thorne, B. (2009). Statistics for Business and Economics (Seventh ed.). Pearson Education. ISBN 978-0-13-507248-6.