समूहीकृत डेटा: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Organized raw data that has not been otherwise processed or transformed}} समूहीकृत डेटा एक चर और विशेषत...")
 
No edit summary
 
(5 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Short description|Organized raw data that has not been otherwise processed or transformed}}
{{Short description|Organized raw data that has not been otherwise processed or transformed}}
समूहीकृत डेटा एक [[चर और विशेषता (अनुसंधान)]] के व्यक्तिगत [[यादृच्छिक चर]] को समूहों में एकत्रित करके बनाए गए डेटा हैं, ताकि इन समूहों का एक आवृत्ति वितरण डेटा को सारांशित करने या [[डेटा विश्लेषण]] के सुविधाजनक साधन के रूप में कार्य करे। समूहीकरण के दो प्रमुख प्रकार हैं: एकल-आयामी चर का [[डेटा बिनिंग]], डिब्बे में अलग-अलग संख्याओं को गिनकर बदलना; और कुछ आयामों (विशेष रूप से [[स्वतंत्र चर]] द्वारा) द्वारा बहु-आयामी चर को समूहित करना, असमूहीकृत आयामों (विशेष रूप से आश्रित चर) का वितरण प्राप्त करना।
'''समूहीकृत डेटा''' एक [[चर और विशेषता (अनुसंधान)]] के व्यक्तिगत [[यादृच्छिक चर]] को समूहों में एकत्रित करके बनाए गए आंकड़े हैं, ताकि इन समूहों का आवृत्ति वितरण आंकड़े को संक्षेप या [[डेटा विश्लेषण|आंकड़े  विश्लेषण]] करने के एक सुविधाजनक साधन के रूप में कार्य करता है। समूहन के दो प्रमुख प्रकार हैं: एकल-आयामी चर का [[डेटा बिनिंग|आंकड़े  बिनिंग]], बिन में गिनती के आधार पर व्यक्तिगत संख्याओं की जगह लेना; और कुछ आयामों (विशेष रूप से स्वतंत्र चर द्वारा) द्वारा बहु-आयामी चर को समूहबद्ध करना, गैर-विकसित आयामों का वितरण प्राप्त करना (विशेष रूप से [[स्वतंत्र चर|स्वतंत्र चर द्वारा]])


== उदाहरण ==
== उदाहरण ==
निम्नलिखित अपरिष्कृत डेटासेट पर विचार करके समूहीकृत डेटा के विचार को चित्रित किया जा सकता है:
निम्नलिखित अपरिष्कृत आंकड़े सेट पर विचार करके समूहीकृत आंकड़े  के विचार को चित्रित किया जा सकता है:


{| class="wikitable" width="30" style="text-align: center;"
{| class="wikitable" width="30" style="text-align: center;"
|+ Table 1: ''Time taken (in seconds) by a group of students to answer a simple math question''
|+ तालिका 1: छात्रों के एक समूह द्वारा गणित के एक साधारण प्रश्न का उत्तर देने में लगा समय (सेकंड में)
| 20 || 25 || 24 || 33 || 13 || 26 || 8 || 19 || 31 || 11 || 16 || 21 || 17 || 11 || 34 || 14 || 15 || 21 || 18 || 17
| 20 || 25 || 24 || 33 || 13 || 26 || 8 || 19 || 31 || 11 || 16 || 21 || 17 || 11 || 34 || 14 || 15 || 21 || 18 || 17
|}
|}
उपरोक्त डेटा को कई तरीकों में से किसी एक में बारंबारता वितरण बनाने के लिए समूहीकृत किया जा सकता है। एक तरीका अंतराल को आधार के रूप में उपयोग करना है।
उपरोक्त आंकड़े  को कई तरीकों से एक आवृत्ति वितरण बनाने के लिए समूहबद्ध किया जा सकता है। एक तरीका है अंतराल को आधार के रूप में प्रयोग करना है।


उपरोक्त आंकड़ों में सबसे छोटा मान 8 है और सबसे बड़ा 34 है। 8 से 34 तक के अंतराल को छोटे उपअंतरालों में विभाजित किया जाता है (जिन्हें वर्ग अंतराल कहा जाता है)। प्रत्येक वर्ग अंतराल के लिए, इस अंतराल में आने वाले डेटा मदों की संख्या की गणना की जाती है। यह संख्या उस वर्ग अंतराल की बारंबारता कहलाती है। परिणाम निम्नानुसार [[आवृत्ति तालिका]] के रूप में सारणीबद्ध हैं:
उपर्युक्त  आंकड़े  में सबसे छोटा मान 8 है और सबसे बड़ा 34 है. 8 से 34 के बीच के अंतराल को छोटे उप अंतरालों में विभाजित किया गया है (जिसे कक्षा अंतराल कहा जाता है)। प्रत्येक कक्षा अंतराल के लिए, इस अंतराल में गिरने वाले आंकड़े  मदों की संख्या गिनी जाती है। इस संख्या को उस वर्ग अंतराल की आवृत्ति कहा जाता है। परिणामों को एक [[आवृत्ति तालिका]] के रूप में इस प्रकार सारणीबद्ध किया गया है:


{| class="wikitable" width="300" style="text-align: center;"
{| class="wikitable" width="300" style="text-align: center;"
|+ Table 2: ''Frequency distribution of the time taken (in seconds) by the group of students to answer a simple math question''
|+ तालिका 2: गणित के साधारण प्रश्न का उत्तर देने के लिए छात्रों के समूह द्वारा (सेकेंड में) लिया गया समय का आवृत्ति वितरण
|-
|-
! Time taken (in seconds) !! Frequency
! (सेकेंड में) समय लिया !! आवृत्ति
|-
|-
| 5 ≤ t < 10 ||  1
| 5 ≤ t < 10 ||  1
Line 30: Line 30:
| 30 ≤ t < 35 || 3
| 30 ≤ t < 35 || 3
|}
|}
डेटा को समूहीकृत करने की एक अन्य विधि संख्यात्मक अंतरालों के बजाय कुछ गुणात्मक विशेषताओं का उपयोग करना है। उदाहरण के लिए, मान लें कि उपरोक्त उदाहरण में, तीन प्रकार के छात्र हैं: 1) सामान्य से नीचे, यदि प्रतिक्रिया समय 5 से 14 सेकंड है, 2) सामान्य यदि यह 15 और 24 सेकंड के बीच है, और 3) सामान्य से अधिक है यदि यह 25 सेकंड या अधिक है, तो समूहीकृत डेटा ऐसा दिखता है:
आंकड़े  समूहन की एक अन्य विधि संख्यात्मक अंतराल के बजाय कुछ गुणात्मक विशेषताओं का उपयोग करना है। उदाहरण के लिए, मान लीजिए कि उपरोक्त उदाहरण में, तीन प्रकार के छात्र हैं: 1) सामान्य से नीचे, यदि प्रतिक्रिया समय 5 से 14 सेकंड है, 2 सामान्य है यदि यह 15 से 24 सेकंड के बीच है, और 3) सामान्य से अधिक है यदि यह 25 सेकंड या उससे अधिक है, तो समूह  आंकड़े  इस तरह दिखता है:


{| class="wikitable" width="300"
{| class="wikitable" width="300"
|+ Table 3: ''Frequency distribution of the three types of students ''
|+ तालिका 3: तीन प्रकार के छात्रों का आवृत्ति वितरण
|-
|-
!  !! Frequency
!  !! आवृत्ति
|-
|-
| Below normal || align="center"|  5
| सामान्य से नीचे || align="center" |  5
|-
|-
| Normal || align="center"| 10
| सामान्य || align="center" | 10
|-
|-
| Above normal || align="center"| 5
| सामान्य से उपर || align="center" | 5
|}
|}
फिर भी डेटा को समूहीकृत करने का एक अन्य उदाहरण कुछ सामान्य रूप से उपयोग किए जाने वाले संख्यात्मक मानों का उपयोग है, जो वास्तव में वे नाम हैं जिन्हें हम श्रेणियों को निर्दिष्ट करते हैं। उदाहरण के लिए, आइए एक कक्षा में विद्यार्थियों के आयु वितरण को देखें। छात्र 10 वर्ष, 11 वर्ष या 12 वर्ष के हो सकते हैं। ये आयु समूह 10, 11 और 12 हैं। ध्यान दें कि आयु वर्ग 10 में छात्र 10 वर्ष और 0 दिन से 10 वर्ष और 364 दिन के हैं, और उनकी औसत आयु 10.5 वर्ष है, अगर हम उम्र देखें निरंतर पैमाने में। समूहीकृत डेटा ऐसा दिखता है:
फिर भी आंकड़े को समूहबद्ध करने का एक और उदाहरण सामान्यतः उपयोग किए जाने वाले कुछ संख्यात्मक मूल्यों का उपयोग है, जो वास्तव में नाम हैं जिन्हें हम श्रेणियों में असाइन करते हैं। उदाहरण के लिए, आइए हम एक कक्षा में छात्रों के आयु वितरण को देखें। छात्र 10 वर्ष, 11 वर्ष या 12 वर्ष के हो सकते हैं। ये 10 वर्ष, 11 वर्ष और 12 वर्ष के आयु वर्ग के छात्र हैं। नोट करें कि 10 वर्ष और 0 दिन, 10 वर्ष और 364 दिन के छात्र हैं, और यदि हम निरंतर आयु को देखते हैं तो उनकी औसत आयु 10.5 वर्ष है। समूहित आंकड़े इस तरह दिखता है:


{| class="wikitable" width="300"
{| class="wikitable" width="300"
|+ Table 4: ''Age distribution of a class of students ''
|+ तालिका 4: छात्रों की एक कक्षा का आयु वितरण
|-
|-
! Age !! Frequency
! आयु !! आवृत्ति
|-
|-
| 10 || align="center"| 10
| 10 || align="center"| 10
Line 56: Line 56:
| 12 || align="center"| 10
| 12 || align="center"| 10
|}
|}
 
== समूहीकृत आंकड़े का माध्य ==
 
एक अनुमान, <math>\bar{x}</math>, जिस जनसंख्या से आंकड़े खींचा जाता है, उसकी गणना समूहीकृत आंकड़े से की जा सकती है:
== समूहीकृत डेटा का माध्य ==
एक अनुमान, <math>\bar{x}</math>, जिस जनसंख्या से डेटा खींचा जाता है, उसकी गणना समूहीकृत डेटा से की जा सकती है:


:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} .</math>
:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} .</math>
इस सूत्र में, x वर्ग अंतराल के मध्यबिंदु को संदर्भित करता है, और f वर्ग आवृत्ति है। ध्यान दें कि इसका परिणाम असमूहीकृत डेटा के [[नमूना माध्य]] से भिन्न होगा। उपरोक्त उदाहरण में समूहीकृत डेटा के माध्य की गणना निम्नानुसार की जा सकती है:
इस सूत्र में, x वर्ग अंतराल के मध्यबिंदु को संदर्भित करता है, और f वर्ग आवृत्ति है। ध्यान दें कि इसका परिणाम असमूहीकृत आंकड़े के [[नमूना माध्य]] से भिन्न होगा। उपरोक्त उदाहरण में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:


{| class="wikitable" style="text-align: center;"
{| class="wikitable" style="text-align: center;"
|-
|-
! Class Intervals !! Frequency ('' f '') !! Midpoint ( ''x'' ) !! ''f x''
! वर्ग अंतराल !! आवृत्ति  ('' f '') !! मध्य बिन्दु ( ''x'' ) !! ''f x''
|-
|-
| width="200"| 5 and above, below 10 || width="150"| 1 || width="100"| 7.5 || width="75"|7.5
| width="200"| 5 और 5 से ऊपर, 10 से नीचे || width="150" | 1 || width="100"| 7.5 || width="75"|7.5
|-
|-
| 10 ≤ t < 15 || 4 || 12.5 || 50
| 10 ≤ t < 15 || 4 || 12.5 || 50
Line 80: Line 78:
| 30 ≤ t < 35 || 3 || 32.5 || 97.5
| 30 ≤ t < 35 || 3 || 32.5 || 97.5
|-
|-
|  '''TOTAL''' ||  '''20''' ||  ||  '''405'''
|  '''योग''' ||  '''20''' ||  ||  '''405'''
|}
|}
<br />
<br />इस प्रकार, समूहीकृत आंकड़े का माध्य है
इस प्रकार, समूहीकृत डेटा का माध्य है


:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{405}{20} = 20.25</math>
:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{405}{20} = 20.25</math>
<br />
<br />उपरोक्त उदाहरण 4 में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:
उपरोक्त उदाहरण 4 में समूहीकृत डेटा के माध्य की गणना निम्नानुसार की जा सकती है:


{| class="wikitable" style="text-align: center;"
{| class="wikitable" style="text-align: center;"
|-
|-
! Age Group !! Frequency ('' f '') !! Midpoint ( ''x'' ) !! ''f x''
! वर्ग अंतराल !! आवृत्ति  ('' f '') !! मध्य बिन्दु ( ''x'' ) !! ''f x''
|-
|-
| width="200"| 10 || width="150"| 10 || width="100"| 10.5 || width="75"|105
| width="200"| 10 || width="150"| 10 || width="100"| 10.5 || width="75"|105
Line 100: Line 96:


|-
|-
|  '''TOTAL''' ||  '''40''' ||  ||  '''460'''
|  '''योग''' ||  '''40''' ||  ||  '''460'''
|}
|}
<br />
इस प्रकार, समूहीकृत आंकड़े का माध्य है
इस प्रकार, समूहीकृत डेटा का माध्य है


:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{460}{40} = 11.5</math>
:<math>\bar{x}=\frac{\sum{f\,x}}{\sum{f}} = \frac{460}{40} = 11.5</math>
== यह भी देखें ==
== यह भी देखें ==
*[[संपूर्ण आंकड़ा]]
*[[संपूर्ण आंकड़ा]]
* डेटा बिनिंग
* आंकड़े  बिनिंग
* [[एक सेट का विभाजन]]
* [[एक सेट का विभाजन]]
* [[माप का स्तर]]
* [[माप का स्तर]]
*आवृति वितरण
*आवृति वितरण
*[[निरंतर सुविधाओं का विवेक]]
*[[निरंतर सुविधाओं का विवेक]]
* {{section link|Logistic regression#Minimum chi-squared estimator for grouped data}}
* {{section link|समूहबद्ध डेटा के लिए लॉजिस्टिक रिग्रेशन #न्यूनतम ची-वर्ग अनुमानकर्ता}}
 
{{More footnotes|date=June 2010}}


==संदर्भ==
==संदर्भ==
*{{cite book |last=Newbold |first=P. |first2=W. |last2=Carlson |first3=B. |last3=Thorne |year=2009 |title=Statistics for Business and Economics |edition=Seventh |publisher=Pearson Education |isbn=978-0-13-507248-6 }}
*{{cite book |last=Newbold |first=P. |first2=W. |last2=Carlson |first3=B. |last3=Thorne |year=2009 |title=Statistics for Business and Economics |edition=Seventh |publisher=Pearson Education |isbn=978-0-13-507248-6 }}


{{Statistics|descriptive}}
[[Category: वर्णनात्मक आँकड़े]] [[Category: सांख्यिकीय डेटा कोडिंग]]
[[Category: Machine Translated Page]]
[[Category:Created On 21/03/2023]]
[[Category:Created On 21/03/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:वर्णनात्मक आँकड़े]]
[[Category:सांख्यिकीय डेटा कोडिंग]]

Latest revision as of 10:47, 31 August 2023

समूहीकृत डेटा एक चर और विशेषता (अनुसंधान) के व्यक्तिगत यादृच्छिक चर को समूहों में एकत्रित करके बनाए गए आंकड़े हैं, ताकि इन समूहों का आवृत्ति वितरण आंकड़े को संक्षेप या आंकड़े विश्लेषण करने के एक सुविधाजनक साधन के रूप में कार्य करता है। समूहन के दो प्रमुख प्रकार हैं: एकल-आयामी चर का आंकड़े बिनिंग, बिन में गिनती के आधार पर व्यक्तिगत संख्याओं की जगह लेना; और कुछ आयामों (विशेष रूप से स्वतंत्र चर द्वारा) द्वारा बहु-आयामी चर को समूहबद्ध करना, गैर-विकसित आयामों का वितरण प्राप्त करना (विशेष रूप से स्वतंत्र चर द्वारा)।

उदाहरण

निम्नलिखित अपरिष्कृत आंकड़े सेट पर विचार करके समूहीकृत आंकड़े के विचार को चित्रित किया जा सकता है:

तालिका 1: छात्रों के एक समूह द्वारा गणित के एक साधारण प्रश्न का उत्तर देने में लगा समय (सेकंड में)।
20 25 24 33 13 26 8 19 31 11 16 21 17 11 34 14 15 21 18 17

उपरोक्त आंकड़े को कई तरीकों से एक आवृत्ति वितरण बनाने के लिए समूहबद्ध किया जा सकता है। एक तरीका है अंतराल को आधार के रूप में प्रयोग करना है।

उपर्युक्त आंकड़े में सबसे छोटा मान 8 है और सबसे बड़ा 34 है. 8 से 34 के बीच के अंतराल को छोटे उप अंतरालों में विभाजित किया गया है (जिसे कक्षा अंतराल कहा जाता है)। प्रत्येक कक्षा अंतराल के लिए, इस अंतराल में गिरने वाले आंकड़े मदों की संख्या गिनी जाती है। इस संख्या को उस वर्ग अंतराल की आवृत्ति कहा जाता है। परिणामों को एक आवृत्ति तालिका के रूप में इस प्रकार सारणीबद्ध किया गया है:

तालिका 2: गणित के साधारण प्रश्न का उत्तर देने के लिए छात्रों के समूह द्वारा (सेकेंड में) लिया गया समय का आवृत्ति वितरण
(सेकेंड में) समय लिया आवृत्ति
5 ≤ t < 10 1
10 ≤ t < 15 4
15 ≤ t < 20 6
20 ≤ t < 25 4
25 ≤ t < 30 2
30 ≤ t < 35 3

आंकड़े समूहन की एक अन्य विधि संख्यात्मक अंतराल के बजाय कुछ गुणात्मक विशेषताओं का उपयोग करना है। उदाहरण के लिए, मान लीजिए कि उपरोक्त उदाहरण में, तीन प्रकार के छात्र हैं: 1) सामान्य से नीचे, यदि प्रतिक्रिया समय 5 से 14 सेकंड है, 2 सामान्य है यदि यह 15 से 24 सेकंड के बीच है, और 3) सामान्य से अधिक है यदि यह 25 सेकंड या उससे अधिक है, तो समूह आंकड़े इस तरह दिखता है:

तालिका 3: तीन प्रकार के छात्रों का आवृत्ति वितरण
आवृत्ति
सामान्य से नीचे 5
सामान्य 10
सामान्य से उपर 5

फिर भी आंकड़े को समूहबद्ध करने का एक और उदाहरण सामान्यतः उपयोग किए जाने वाले कुछ संख्यात्मक मूल्यों का उपयोग है, जो वास्तव में नाम हैं जिन्हें हम श्रेणियों में असाइन करते हैं। उदाहरण के लिए, आइए हम एक कक्षा में छात्रों के आयु वितरण को देखें। छात्र 10 वर्ष, 11 वर्ष या 12 वर्ष के हो सकते हैं। ये 10 वर्ष, 11 वर्ष और 12 वर्ष के आयु वर्ग के छात्र हैं। नोट करें कि 10 वर्ष और 0 दिन, 10 वर्ष और 364 दिन के छात्र हैं, और यदि हम निरंतर आयु को देखते हैं तो उनकी औसत आयु 10.5 वर्ष है। समूहित आंकड़े इस तरह दिखता है:

तालिका 4: छात्रों की एक कक्षा का आयु वितरण
आयु आवृत्ति
10 10
11 20
12 10

समूहीकृत आंकड़े का माध्य

एक अनुमान, , जिस जनसंख्या से आंकड़े खींचा जाता है, उसकी गणना समूहीकृत आंकड़े से की जा सकती है:

इस सूत्र में, x वर्ग अंतराल के मध्यबिंदु को संदर्भित करता है, और f वर्ग आवृत्ति है। ध्यान दें कि इसका परिणाम असमूहीकृत आंकड़े के नमूना माध्य से भिन्न होगा। उपरोक्त उदाहरण में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:

वर्ग अंतराल आवृत्ति ( f ) मध्य बिन्दु ( x ) f x
5 और 5 से ऊपर, 10 से नीचे 1 7.5 7.5
10 ≤ t < 15 4 12.5 50
15 ≤ t < 20 6 17.5 105
20 ≤ t < 25 4 22.5 90
25 ≤ t < 30 2 27.5 55
30 ≤ t < 35 3 32.5 97.5
योग 20 405


इस प्रकार, समूहीकृत आंकड़े का माध्य है


उपरोक्त उदाहरण 4 में समूहीकृत आंकड़े के माध्य की गणना निम्नानुसार की जा सकती है:

वर्ग अंतराल आवृत्ति ( f ) मध्य बिन्दु ( x ) f x
10 10 10.5 105
11 20 11.5 230
12 10 12.5 125
योग 40 460

इस प्रकार, समूहीकृत आंकड़े का माध्य है

यह भी देखें

संदर्भ

  • Newbold, P.; Carlson, W.; Thorne, B. (2009). Statistics for Business and Economics (Seventh ed.). Pearson Education. ISBN 978-0-13-507248-6.