डेटा सेट: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 8: Line 8:


== गुण ==
== गुण ==
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता|कुर्तोसिस]]। {{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=जान एम. ज़्य्टको, जन राउच |isbn=978-3-540-66490-1 |year=2000}}</रेफरी>
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न [[सांख्यिकीय उपाय]], जैसे कि [[मानक विचलन]] और [[कुकुदता|कुर्तोसिस]]। {{Cite book |url=https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 |title=डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत|author=जान एम. ज़्य्टको, जन राउच |isbn=978-3-540-66490-1 |year=2000}}


मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।आंकड़ों में, डेटा सेट आमतौर पर एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों से मेल खाती है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा गायब है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।
मान [[संख्या]]एँ हो सकती हैं, जैसे [[वास्तविक संख्या]]एँ या [[पूर्णांक]], उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।
रेफरी नाम = एसडीई>{{cite book |title=सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन|author=United Nations Statistical Commission |author2=United Nations Economic Commission for Europe |year=2007 |publisher=United Nations Publications |isbn=978-9211169522 |page=20 |url=https://books.google.com/books?id=X0wtLo2XY9gC |access-date=19 July 2015}}</रेफरी>


आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम|कलन विधि]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है।
आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के [[सॉफ़्टवेयर]] के परीक्षण के उद्देश्य से [[एल्गोरिदम|कलन विधि]] द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। [[एसपीएसएस]] जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है। एसडीई>{{cite book |title=सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन|author=United Nations Statistical Commission |author2=United Nations Economic Commission for Europe |year=2007 |publisher=United Nations Publications |isbn=978-9211169522 |page=20 |url=https://books.google.com/books?id=X0wtLo2XY9gC |access-date=19 July 2015}}
रेफरी नाम = एसडीई>{{cite book |title=सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन|author=United Nations Statistical Commission |author2=United Nations Economic Commission for Europe |year=2007 |publisher=United Nations Publications |isbn=978-9211169522 |page=20 |url=https://books.google.com/books?id=X0wtLo2XY9gC |access-date=19 July 2015}}</रेफरी>


== क्लासिक डेटा सेट ==
== क्लासिक डेटा सेट ==
[[सांख्यिकीय]] साहित्य में कई क्लासिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:
[[सांख्यिकीय]] साहित्य में कई पारंपरिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:


* [[आइरिस फूल डेटा सेट]] - [[रोनाल्ड फिशर]] (1936) द्वारा पेश किया गया बहुभिन्नरूपी डेटा सेट।<ref name="fisher36">{{cite journal|author=Fisher, R.A.|title=टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग|journal=[[Annals of Eugenics]]|volume=7|pages=179&ndash;188|year=1963|issue=2|url=http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|doi=10.1111/j.1469-1809.1936.tb02137.x|hdl=2440/15227|hdl-access=free|access-date=2007-05-22|archive-date=2011-09-28|archive-url=https://web.archive.org/web/20110928044802/http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|url-status=dead}}</ref>
* [[आइरिस फूल डेटा सेट|आइरिस फ्लावर डेटा सेट]] - [[रोनाल्ड फिशर]] (1936) द्वारा पेश किया गया बहुभिन्नरूपी डेटा सेट।<ref name="fisher36">{{cite journal|author=Fisher, R.A.|title=टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग|journal=[[Annals of Eugenics]]|volume=7|pages=179&ndash;188|year=1963|issue=2|url=http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|doi=10.1111/j.1469-1809.1936.tb02137.x|hdl=2440/15227|hdl-access=free|access-date=2007-05-22|archive-date=2011-09-28|archive-url=https://web.archive.org/web/20110928044802/http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf|url-status=dead}}</ref>
* MNIST डेटाबेस - हस्तलिखित अंकों की छवियां सामान्यतः वर्गीकरण, क्लस्टरिंग और इमेज प्रोसेसिंग एल्गोरिदम का परीक्षण करने के लिए उपयोग की जाती हैं
* एमएनआईएसटी डेटाबेस - हस्तलिखित अंकों की छवियां सामान्यतः वर्गीकरण, क्लस्टरिंग और इमेज प्रोसेसिंग कलन विधि का परीक्षण करने के लिए उपयोग की जाती हैं
* [[श्रेणीबद्ध डेटा विश्लेषण]] - पुस्तक में प्रयुक्त डेटा सेट, श्रेणीबद्ध डेटा विश्लेषण का एक परिचय।
* [[श्रेणीबद्ध डेटा विश्लेषण]] - पुस्तक में प्रयुक्त डेटा सेट, श्रेणीबद्ध डेटा विश्लेषण का एक परिचय।
*मजबूत आंकड़े - [[मजबूत प्रतिगमन और बाहरी पहचान]] में इस्तेमाल होने वाले डेटा सेट ([[पीटर रूसो]] और लेरॉय, 1968)। [http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ कोलोन विश्वविद्यालय में ऑनलाइन प्रदान किया गया।]
*मजबूत आंकड़े - [[मजबूत प्रतिगमन और बाहरी पहचान]] में इस्तेमाल होने वाले डेटा सेट ([[पीटर रूसो]] और लेरॉय, 1968)। [http://www.uni-koeln.de/themen/statistik/data/rousseeuw/ कोलोन विश्वविद्यालय में ऑनलाइन प्रदान किया गया।]
*[[समय श्रृंखला]]- चैटफ़ील्ड की किताब, द एनालिसिस ऑफ़ टाइम सीरीज़ में इस्तेमाल किया गया डेटा [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ है जो StatLib द्वारा ऑनलाइन उपलब्ध कराया गया है .]
*[[समय श्रृंखला]] - चैटफ़ील्ड की पुस्तक, द एनालिसिस ऑफ़ टाइम सीरीज़ में इस्तेमाल किया गया डेटा [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ है जो StatLib द्वारा ऑनलाइन उपलब्ध कराया गया है .]
*एक्सट्रीम वैल्यूज़ - पुस्तक में उपयोग किया गया डेटा, एन इंट्रोडक्शन टू द स्टैटिस्टिकल मॉडलिंग ऑफ़ एक्सट्रीम वैल्यूज़ हैं [https://web.archive.org/web/20060910161517/http://homes.stat.unipd.it/coles/public_html /ismev/ismev.dat डेटा का एक स्नैपशॉट जैसा कि यह पुस्तक के लेखक स्टुअर्ट कोल्स] द्वारा ऑन-लाइन प्रदान किया गया था।
*एक्सट्रीम वैल्यूज़ - पुस्तक में उपयोग किया गया डेटा, एन इंट्रोडक्शन टू द स्टैटिस्टिकल मॉडलिंग ऑफ़ एक्सट्रीम वैल्यूज़ हैं [https://web.archive.org/web/20060910161517/http://homes.stat.unipd.it/coles/public_html /ismev/ismev.dat डेटा का एक स्नैपशॉट जैसा कि यह पुस्तक के लेखक स्टुअर्ट कोल्स] द्वारा ऑन-लाइन प्रदान किया गया था।
*बायेसियन डेटा विश्लेषण - पुस्तक के लेखकों में से एक [[एंड्रयू गेलमैन]] द्वारा [http://www.stat.columbia.edu/~gelman/book/data/ ऑन-लाइन प्रदान किया गया] पुस्तक में उपयोग किया गया डेटा है।
*बायेसियन डेटा विश्लेषण - पुस्तक के लेखकों में से एक [[एंड्रयू गेलमैन]] द्वारा [http://www.stat.columbia.edu/~gelman/book/data/ ऑन-लाइन प्रदान किया गया] पुस्तक में उपयोग किया गया डेटा है।
* [https://web.archive.org/web/20171023174701/http://ftp.ics.uci.edu:80/pub/machine-learning-databases/liver-disorders/ Bupa लिवर डेटा] - में उपयोग किया जाता है मशीन लर्निंग (डेटा माइनिंग) साहित्य में कई पेपर।
* [https://web.archive.org/web/20171023174701/http://ftp.ics.uci.edu:80/pub/machine-learning-databases/liver-disorders/ बुपा लिवर डेटा] - में उपयोग किया जाता है मशीन लर्निंग (डेटा माइनिंग) साहित्य में कई पेपर।
* Anscombe की चौकड़ी - सांख्यिकीय भ्रम से बचने के लिए डेटा को रेखांकन करने के महत्व को दर्शाने वाला छोटा डेटा सेट
* अन्स्कोम्बे की चौकड़ी - सांख्यिकीय भ्रम से बचने के लिए डेटा को रेखांकन करने के महत्व को दर्शाने वाला छोटा डेटा सेट


डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:
डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:

Revision as of 12:45, 19 December 2022

डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक तालिकाओं (डेटाबेस) के समान है, जहाँ तालिका का प्रत्येक स्तंभ (डेटाबेस) एक विशेष चर (संगणक विज्ञान) का प्रतिनिधित्व करता है, और प्रत्येक पंक्ति (डेटाबेस) एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी शामिल हो सकता है।[1]

ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।[2] कुछ अन्य मुद्दे (वास्तविक-समय डेटा,[3] NoSQL गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में आम सहमति तक पहुंचने में कठिनाई को बढ़ाता है।[3]


गुण

कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न सांख्यिकीय उपाय, जैसे कि मानक विचलन और कुर्तोसिसजान एम. ज़्य्टको, जन राउच (2000). डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत. ISBN 978-3-540-66490-1.

मान संख्याएँ हो सकती हैं, जैसे वास्तविक संख्याएँ या पूर्णांक, उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।

आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के सॉफ़्टवेयर के परीक्षण के उद्देश्य से कलन विधि द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। एसपीएसएस जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है। एसडीई>United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन. United Nations Publications. p. 20. ISBN 978-9211169522. Retrieved 19 July 2015.

क्लासिक डेटा सेट

सांख्यिकीय साहित्य में कई पारंपरिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:

डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:

यह भी देखें


संदर्भ

  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल". International Journal of Internet Science. 7: 1–5.
  2. "यूरोपीय खुला डेटा पोर्टल". यूरोपीय खुला डेटा पोर्टल. European Commission. Retrieved 2016-09-23.
  3. 3.0 3.1 Atz, U (2014). "डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक" (PDF). CEDEM 2014 Proceedings. Archived (PDF) from the original on 2016-08-20. Retrieved 2016-08-01.
  4. Fisher, R.A. (1963). "टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Archived from the original (PDF) on 2011-09-28. Retrieved 2007-05-22.


बाहरी संबंध