डेटा सेट: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{short description|Collection of data}}
{{short description|Collection of data}}
{{for multi|फ़ाइल के लिए आईबीएम मेनफ्रेम शब्द|डेटा सेट (आईबीएम रूप रेखा)|दूरसंचार इंटरफ़ेस डिवाइस|मोडम}}
{{for multi|फ़ाइल के लिए आईबीएम मेनफ्रेम शब्द|डेटा सेट (आईबीएम रूप रेखा)|दूरसंचार इंटरफ़ेस डिवाइस|मोडम}}
डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक [[तालिका (डेटाबेस)|तालिकाओं (डेटाबेस)]] के [[जानकारी|समान]] है, जहाँ तालिका का प्रत्येक [[स्तंभ (डेटाबेस)]] एक विशेष [[चर (कंप्यूटर विज्ञान)|चर (संगणक विज्ञान)]] का प्रतिनिधित्व करता है, और प्रत्येक [[पंक्ति (डेटाबेस)]] एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी सम्मिलित हो सकता है।<ref name="Editorial">{{cite journal | last1 = Snijders | first1 = C. | last2 = Matzat | first2 = U. | last3 = Reips | first3 = U.-D. | year = 2012 | title = 'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल| url = http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | journal = International Journal of Internet Science | volume = 7 | pages = 1–5 }}</ref>
डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक [[तालिका (डेटाबेस)|तालिकाओं (डेटाबेस)]] के [[जानकारी|समान]] है, जहाँ तालिका का प्रत्येक [[स्तंभ (डेटाबेस)]] एक विशेष [[चर (कंप्यूटर विज्ञान)|चर (संगणक विज्ञान)]] का प्रतिनिधित्व करता है, और प्रत्येक [[पंक्ति (डेटाबेस)]] एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी सम्मिलित हो सकता है।<ref name="Editorial">{{cite journal | last1 = Snijders | first1 = C. | last2 = Matzat | first2 = U. | last3 = Reips | first3 = U.-D. | year = 2012 | title = 'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल| url = http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | journal = International Journal of Internet Science | volume = 7 | pages = 1–5 }}</ref>
 
ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।<ref>{{Cite web|url=http://www.europeandataportal.eu/data/en/dataset|title=यूरोपीय खुला डेटा पोर्टल|website=यूरोपीय खुला डेटा पोर्टल|publisher=European Commission|access-date=2016-09-23}}</ref> कुछ अन्य मुद्दे  ([[रीयल-टाइम डेटा|वास्तविक-समय डेटा]],<ref name=":0">{{Cite journal|last=Atz|first=U|date=2014|title=डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक|url=http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf#page=258 |archive-url=https://web.archive.org/web/20160820031406/http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf |archive-date=2016-08-20 |url-status=live|journal=CEDEM 2014 Proceedings|access-date=2016-08-01}}</ref> [[NoSQL]] गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में सामान्य सहमति तक पहुंचने में कठिनाई को बढ़ाता है।<ref name=":0" />
 
 


ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।<ref>{{Cite web|url=http://www.europeandataportal.eu/data/en/dataset|title=यूरोपीय खुला डेटा पोर्टल|website=यूरोपीय खुला डेटा पोर्टल|publisher=European Commission|access-date=2016-09-23}}</ref> कुछ अन्य मुद्दे ([[रीयल-टाइम डेटा|वास्तविक-समय डेटा]],<ref name=":0">{{Cite journal|last=Atz|first=U|date=2014|title=डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक|url=http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf#page=258 |archive-url=https://web.archive.org/web/20160820031406/http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf |archive-date=2016-08-20 |url-status=live|journal=CEDEM 2014 Proceedings|access-date=2016-08-01}}</ref> [[NoSQL|नो एसक्यूएल]] गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में सामान्य सहमति तक पहुंचने में कठिनाई को बढ़ाता है।<ref name=":0" />
== गुण ==
== गुण ==
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार सम्मिलित हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता|कुर्तोसिस]]। {{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=जान एम. ज़्य्टको, जन राउच |isbn=978-3-540-66490-1 |year=2000}}
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार सम्मिलित हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता|कुर्तोसिस]]। <ref>{{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=जान एम. ज़्य्टको, जन राउच |isbn=978-3-540-66490-1 |year=2000}}</ref>


मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। चूँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।
मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। चूँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।


आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम|कलन विधि]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है। एसडीई>{{cite book |title=सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन|author=United Nations Statistical Commission |author2=United Nations Economic Commission for Europe |year=2007 |publisher=United Nations Publications |isbn=978-9211169522 |page=20 |url=https://books.google.com/books?id=X0wtLo2XY9gC |access-date=19 July 2015}}
आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम|कलन विधि]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।<ref>{{cite book |title=सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन|author=United Nations Statistical Commission |author2=United Nations Economic Commission for Europe |year=2007 |publisher=United Nations Publications |isbn=978-9211169522 |page=20 |url=https://books.google.com/books?id=X0wtLo2XY9gC |access-date=19 July 2015}}</ref>


== क्लासिक डेटा सेट ==
== क्लासिक डेटा सेट ==
Line 43: Line 40:
* [[इंटरोऑपरेबिलिटी]]
* [[इंटरोऑपरेबिलिटी]]
* [[डेटा संग्रह प्रणाली]]
* [[डेटा संग्रह प्रणाली]]
{{Clear}}
== संदर्भ ==
== संदर्भ ==
{{reflist}}
{{reflist}}

Revision as of 22:01, 29 December 2022

डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक तालिकाओं (डेटाबेस) के समान है, जहाँ तालिका का प्रत्येक स्तंभ (डेटाबेस) एक विशेष चर (संगणक विज्ञान) का प्रतिनिधित्व करता है, और प्रत्येक पंक्ति (डेटाबेस) एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी सम्मिलित हो सकता है।[1]

ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।[2] कुछ अन्य मुद्दे (वास्तविक-समय डेटा,[3] नो एसक्यूएल गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में सामान्य सहमति तक पहुंचने में कठिनाई को बढ़ाता है।[3]

गुण

कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार सम्मिलित हैं, और उन पर लागू होने वाले विभिन्न सांख्यिकीय उपाय, जैसे कि मानक विचलन और कुर्तोसिस[4]

मान संख्याएँ हो सकती हैं, जैसे वास्तविक संख्याएँ या पूर्णांक, उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। चूँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।

आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के सॉफ़्टवेयर के परीक्षण के उद्देश्य से कलन विधि द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। एसपीएसएस जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।[5]

क्लासिक डेटा सेट

सांख्यिकीय साहित्य में कई पारंपरिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:

डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:

यह भी देखें

संदर्भ

  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल". International Journal of Internet Science. 7: 1–5.
  2. "यूरोपीय खुला डेटा पोर्टल". यूरोपीय खुला डेटा पोर्टल. European Commission. Retrieved 2016-09-23.
  3. 3.0 3.1 Atz, U (2014). "डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक" (PDF). CEDEM 2014 Proceedings. Archived (PDF) from the original on 2016-08-20. Retrieved 2016-08-01.
  4. जान एम. ज़्य्टको, जन राउच (2000). डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत. ISBN 978-3-540-66490-1.
  5. United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन. United Nations Publications. p. 20. ISBN 978-9211169522. Retrieved 19 July 2015.
  6. Fisher, R.A. (1963). "टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Archived from the original (PDF) on 2011-09-28. Retrieved 2007-05-22.


बाहरी संबंध