डेटा सेट: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Collection of data}} {{for multi|IBM mainframe term for a file|Data set (IBM mainframe)|the telecommunications interface device|Modem}} डेटा से...")
 
No edit summary
 
(10 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Collection of data}}
{{short description|Collection of data}}
{{for multi|IBM mainframe term for a file|Data set (IBM mainframe)|the telecommunications interface device|Modem}}
{{for multi|फ़ाइल के लिए आईबीएम मेनफ्रेम शब्द|डेटा सेट (आईबीएम रूप रेखा)|दूरसंचार इंटरफ़ेस डिवाइस|मोडम}}
डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के मामले में, एक डेटा सेट एक या एक से अधिक [[तालिका (डेटाबेस)]] से मेल [[जानकारी]] है, जहाँ तालिका का प्रत्येक [[स्तंभ (डेटाबेस)]] एक विशेष [[चर (कंप्यूटर विज्ञान)]] का प्रतिनिधित्व करता है, और प्रत्येक [[पंक्ति (डेटाबेस)]] एक दिए गए रिकॉर्ड (डेटाबेस) से मेल खाती है। कंप्यूटर विज्ञान) प्रश्न में सेट किए गए डेटा के। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी शामिल हो सकता है।<ref name="Editorial">{{cite journal | last1 = Snijders | first1 = C. | last2 = Matzat | first2 = U. | last3 = Reips | first3 = U.-D. | year = 2012 | title = 'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल| url = http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | journal = International Journal of Internet Science | volume = 7 | pages = 1–5 }}</ref>
डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक [[तालिका (डेटाबेस)|तालिकाओं (डेटाबेस)]] के [[जानकारी|समान]] है, जहाँ तालिका का प्रत्येक [[स्तंभ (डेटाबेस)]] एक विशेष [[चर (कंप्यूटर विज्ञान)|चर (संगणक विज्ञान)]] का प्रतिनिधित्व करता है, और प्रत्येक [[पंक्ति (डेटाबेस)]] एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी सम्मिलित हो सकता है।<ref name="Editorial">{{cite journal | last1 = Snijders | first1 = C. | last2 = Matzat | first2 = U. | last3 = Reips | first3 = U.-D. | year = 2012 | title = 'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल| url = http://www.ijis.net/ijis7_1/ijis7_1_editorial.html | journal = International Journal of Internet Science | volume = 7 | pages = 1–5 }}</ref>
ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा रिपॉजिटरी में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।<ref>{{Cite web|url=http://www.europeandataportal.eu/data/en/dataset|title=यूरोपीय खुला डेटा पोर्टल|website=यूरोपीय खुला डेटा पोर्टल|publisher=European Commission|access-date=2016-09-23}}</ref> कुछ अन्य मुद्दे ([[रीयल-टाइम डेटा]]|रीयल-टाइम डेटा स्रोत,<ref name=":0">{{Cite journal|last=Atz|first=U|date=2014|title=डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक|url=http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf#page=258 |archive-url=https://web.archive.org/web/20160820031406/http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf |archive-date=2016-08-20 |url-status=live|journal=CEDEM 2014 Proceedings|access-date=2016-08-01}}</ref> [[NoSQL]] | गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में आम सहमति तक पहुंचने में कठिनाई को बढ़ाता है।<ref name=":0" />
 


ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।<ref>{{Cite web|url=http://www.europeandataportal.eu/data/en/dataset|title=यूरोपीय खुला डेटा पोर्टल|website=यूरोपीय खुला डेटा पोर्टल|publisher=European Commission|access-date=2016-09-23}}</ref> कुछ अन्य मुद्दे ([[रीयल-टाइम डेटा|वास्तविक-समय डेटा]],<ref name=":0">{{Cite journal|last=Atz|first=U|date=2014|title=डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक|url=http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf#page=258 |archive-url=https://web.archive.org/web/20160820031406/http://duweb.donau-uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem14/cedem14_proceedings.pdf |archive-date=2016-08-20 |url-status=live|journal=CEDEM 2014 Proceedings|access-date=2016-08-01}}</ref> [[NoSQL|नो एसक्यूएल]] गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में सामान्य सहमति तक पहुंचने में कठिनाई को बढ़ाता है।<ref name=":0" />
== गुण ==
== गुण ==
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता]]।{{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=Jan M. Żytkow, Jan Rauch |isbn=978-3-540-66490-1 |year=2000}}</रेफरी>
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार सम्मिलित हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता|कुर्तोसिस]]। <ref>{{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=जान एम. ज़्य्टको, जन राउच |isbn=978-3-540-66490-1 |year=2000}}</ref>


मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की जातीयता का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लापता मान भी हो सकते हैं, जिन्हें किसी तरह इंगित किया जाना चाहिए।
मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। चूँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।


आंकड़ों में, डेटा सेट आमतौर पर एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों से मेल खाती है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा गायब है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।
आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम|कलन विधि]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।<ref>{{cite book |title=सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन|author=United Nations Statistical Commission |author2=United Nations Economic Commission for Europe |year=2007 |publisher=United Nations Publications |isbn=978-9211169522 |page=20 |url=https://books.google.com/books?id=X0wtLo2XY9gC |access-date=19 July 2015}}</ref>
रेफरी नाम = एसडीई>{{cite book |title=सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन|author=United Nations Statistical Commission |author2=United Nations Economic Commission for Europe |year=2007 |publisher=United Nations Publications |isbn=978-9211169522 |page=20 |url=https://books.google.com/books?id=X0wtLo2XY9gC |access-date=19 July 2015}}</रेफरी>


== क्लासिक डेटा सेट ==
== क्लासिक डेटा सेट ==
[[सांख्यिकीय]] साहित्य में कई क्लासिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:
[[सांख्यिकीय]] साहित्य में कई पारंपरिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:


* [[आइरिस फूल डेटा सेट]] - [[रोनाल्ड फिशर]] (1936) द्वारा पेश किया गया बहुभिन्नरूपी डेटा सेट।<ref name="fisher36">{{cite journal|author=Fisher, R.A.|title=टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग|journal=[[Annals of Eugenics]]|volume=7|pages=179&ndash;188|year=1963|issue=2|url=http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|doi=10.1111/j.1469-1809.1936.tb02137.x|hdl=2440/15227|hdl-access=free|access-date=2007-05-22|archive-date=2011-09-28|archive-url=https://web.archive.org/web/20110928044802/http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|url-status=dead}}</ref>
* [[आइरिस फूल डेटा सेट|आइरिस फ्लावर डेटा सेट]] - [[रोनाल्ड फिशर]] (1936) द्वारा पेश किया गया बहुभिन्नरूपी डेटा सेट।<ref name="fisher36">{{cite journal|author=Fisher, R.A.|title=टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग|journal=[[Annals of Eugenics]]|volume=7|pages=179&ndash;188|year=1963|issue=2|url=http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|doi=10.1111/j.1469-1809.1936.tb02137.x|hdl=2440/15227|hdl-access=free|access-date=2007-05-22|archive-date=2011-09-28|archive-url=https://web.archive.org/web/20110928044802/http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|url-status=dead}}</ref>
* MNIST डेटाबेस - हस्तलिखित अंकों की छवियां आमतौर पर वर्गीकरण, क्लस्टरिंग और इमेज प्रोसेसिंग एल्गोरिदम का परीक्षण करने के लिए उपयोग की जाती हैं
* एमएनआईएसटी डेटाबेस - हस्तलिखित अंकों की छवियां सामान्यतः वर्गीकरण, क्लस्टरिंग और इमेज प्रोसेसिंग कलन विधि का परीक्षण करने के लिए उपयोग की जाती हैं
* [[श्रेणीबद्ध डेटा विश्लेषण]] - पुस्तक में प्रयुक्त डेटा सेट, श्रेणीबद्ध डेटा विश्लेषण का एक परिचय।
* [[श्रेणीबद्ध डेटा विश्लेषण]] - पुस्तक में प्रयुक्त डेटा सेट, श्रेणीबद्ध डेटा विश्लेषण का एक परिचय।
*मजबूत आंकड़े - [[मजबूत प्रतिगमन और बाहरी पहचान]] में इस्तेमाल होने वाले डेटा सेट ([[पीटर रूसो]] और लेरॉय, 1968)। [http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ कोलोन विश्वविद्यालय में ऑनलाइन प्रदान किया गया।]
*मजबूत आंकड़े - [[मजबूत प्रतिगमन और बाहरी पहचान]] में उपयोग होने वाले डेटा सेट ([[पीटर रूसो]] और लेरॉय, 1968)। [http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ कोलोन विश्वविद्यालय में ऑनलाइन प्रदान किया गया।]
*[[समय श्रृंखला]]- चैटफ़ील्ड की किताब, द एनालिसिस ऑफ़ टाइम सीरीज़ में इस्तेमाल किया गया डेटा [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ है जो StatLib द्वारा ऑनलाइन उपलब्ध कराया गया है .]
*[[समय श्रृंखला]] - चैटफ़ील्ड की पुस्तक, द एनालिसिस ऑफ़ टाइम सीरीज़ में उपयोग किया गया डेटा [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ है जो StatLib द्वारा ऑनलाइन उपलब्ध कराया गया है .]
*एक्सट्रीम वैल्यूज़ - पुस्तक में उपयोग किया गया डेटा, एन इंट्रोडक्शन टू द स्टैटिस्टिकल मॉडलिंग ऑफ़ एक्सट्रीम वैल्यूज़ हैं [https://web.archive.org/web/20060910161517/http://homes.stat.unipd.it/coles/public_html /ismev/ismev.dat डेटा का एक स्नैपशॉट जैसा कि यह पुस्तक के लेखक स्टुअर्ट कोल्स] द्वारा ऑन-लाइन प्रदान किया गया था।
*एक्सट्रीम वैल्यूज़ - पुस्तक में उपयोग किया गया डेटा, एन इंट्रोडक्शन टू द स्टैटिस्टिकल मॉडलिंग ऑफ़ एक्सट्रीम वैल्यूज़ हैं [https://web.archive.org/web/20060910161517/http://homes.stat.unipd.it/coles/public_html /ismev/ismev.dat डेटा का एक स्नैपशॉट जैसा कि यह पुस्तक के लेखक स्टुअर्ट कोल्स] द्वारा ऑन-लाइन प्रदान किया गया था।
*बायेसियन डेटा विश्लेषण - पुस्तक के लेखकों में से एक [[एंड्रयू गेलमैन]] द्वारा [http://www.stat.columbia.edu/~gelman/book/data/ ऑन-लाइन प्रदान किया गया] पुस्तक में उपयोग किया गया डेटा है।
*बायेसियन डेटा विश्लेषण - पुस्तक के लेखकों में से एक [[एंड्रयू गेलमैन]] द्वारा [http://www.stat.columbia.edu/~gelman/book/data/ ऑन-लाइन प्रदान किया गया] पुस्तक में उपयोग किया गया डेटा है।
* [https://web.archive.org/web/20171023174701/http://ftp.ics.uci.edu:80/pub/machine-learning-databases/liver-disorders/ Bupa लिवर डेटा] - में उपयोग किया जाता है मशीन लर्निंग (डेटा माइनिंग) साहित्य में कई पेपर।
* [https://web.archive.org/web/20171023174701/http://ftp.ics.uci.edu:80/pub/machine-learning-databases/liver-disorders/ बुपा लिवर डेटा] - में उपयोग किया जाता है मशीन लर्निंग (डेटा माइनिंग) साहित्य में कई पेपर।
* Anscombe की चौकड़ी - सांख्यिकीय भ्रम से बचने के लिए डेटा को रेखांकन करने के महत्व को दर्शाने वाला छोटा डेटा सेट
* अन्स्कोम्बे की चौकड़ी - सांख्यिकीय भ्रम से बचने के लिए डेटा को रेखांकन करने के महत्व को दर्शाने वाला छोटा डेटा सेट


डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:
डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:
Line 42: Line 40:
* [[इंटरोऑपरेबिलिटी]]
* [[इंटरोऑपरेबिलिटी]]
* [[डेटा संग्रह प्रणाली]]
* [[डेटा संग्रह प्रणाली]]
{{Clear}}
== संदर्भ ==
== संदर्भ ==
{{reflist}}
{{reflist}}




==इस पेज में लापता आंतरिक लिंक की सूची==
*रिकॉर्ड (कंप्यूटर विज्ञान)
*मुक्त डेटा
*आरोपण (सांख्यिकी)
*आंकड़े
*माप का स्तर
*लापता मूल्य
*नमूनाकरण (सांख्यिकी)
*सांख्यिकीय जनसंख्या
*नाममात्र का आकड़ा
*एमएनआईएसटी डेटाबेस
*मजबूत आँकड़े
*डेटा के नमूने
== बाहरी संबंध ==
== बाहरी संबंध ==
{{Wiktionary}}
{{Wiktionary}}
Line 82: Line 62:
* [https://www.workwithdata.com/ Work With Data]
* [https://www.workwithdata.com/ Work With Data]


{{DEFAULTSORT:Data Set}}[[Category:कंप्यूटर डेटा]]
{{DEFAULTSORT:Data Set}}
[[Category:सांख्यिकीय डेटा सेट]]
 


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Data Set]]
[[Category:Created On 05/12/2022]]
[[Category:Articles with short description|Data Set]]
[[Category:CS1 français-language sources (fr)]]
[[Category:CS1 maint]]
[[Category:CS1 Ελληνικά-language sources (el)]]
[[Category:Citation Style 1 templates|W]]
[[Category:Collapse templates]]
[[Category:Created On 05/12/2022|Data Set]]
[[Category:Machine Translated Page|Data Set]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors|Data Set]]
[[Category:Short description with empty Wikidata description|Data Set]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates based on the Citation/CS1 Lua module]]
[[Category:Templates generating COinS|Cite web]]
[[Category:Templates generating microformats]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates used by AutoWikiBrowser|Cite web]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia fully protected templates|Cite web]]
[[Category:Wikipedia metatemplates]]
[[Category:कंप्यूटर डेटा|Data Set]]
[[Category:सांख्यिकीय डेटा सेट|Data Set]]

Latest revision as of 11:38, 12 January 2023

डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक तालिकाओं (डेटाबेस) के समान है, जहाँ तालिका का प्रत्येक स्तंभ (डेटाबेस) एक विशेष चर (संगणक विज्ञान) का प्रतिनिधित्व करता है, और प्रत्येक पंक्ति (डेटाबेस) एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी सम्मिलित हो सकता है।[1]

ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।[2] कुछ अन्य मुद्दे (वास्तविक-समय डेटा,[3] नो एसक्यूएल गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में सामान्य सहमति तक पहुंचने में कठिनाई को बढ़ाता है।[3]

गुण

कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार सम्मिलित हैं, और उन पर लागू होने वाले विभिन्न सांख्यिकीय उपाय, जैसे कि मानक विचलन और कुर्तोसिस[4]

मान संख्याएँ हो सकती हैं, जैसे वास्तविक संख्याएँ या पूर्णांक, उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। चूँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।

आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के सॉफ़्टवेयर के परीक्षण के उद्देश्य से कलन विधि द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। एसपीएसएस जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।[5]

क्लासिक डेटा सेट

सांख्यिकीय साहित्य में कई पारंपरिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:

डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:

यह भी देखें

संदर्भ

  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल". International Journal of Internet Science. 7: 1–5.
  2. "यूरोपीय खुला डेटा पोर्टल". यूरोपीय खुला डेटा पोर्टल. European Commission. Retrieved 2016-09-23.
  3. 3.0 3.1 Atz, U (2014). "डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक" (PDF). CEDEM 2014 Proceedings. Archived (PDF) from the original on 2016-08-20. Retrieved 2016-08-01.
  4. जान एम. ज़्य्टको, जन राउच (2000). डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत. ISBN 978-3-540-66490-1.
  5. United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन. United Nations Publications. p. 20. ISBN 978-9211169522. Retrieved 19 July 2015.
  6. Fisher, R.A. (1963). "टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Archived from the original (PDF) on 2011-09-28. Retrieved 2007-05-22.


बाहरी संबंध