डेटा सेट
डेटा सेट (या डेटासेट) डेटा का एक संग्रह है। सारणीबद्ध डेटा के स्थितियों में, एक डेटा सेट एक या एक से अधिक तालिकाओं (डेटाबेस) के समान है, जहाँ तालिका का प्रत्येक स्तंभ (डेटाबेस) एक विशेष चर (संगणक विज्ञान) का प्रतिनिधित्व करता है, और प्रत्येक पंक्ति (डेटाबेस) एक दिए गए रिकॉर्ड (डेटाबेस) के समान है। डेटा सेट प्रत्येक चर के मानों को सूचीबद्ध करता है, उदाहरण के लिए डेटा सेट के प्रत्येक सदस्य के लिए किसी वस्तु की ऊंचाई और वजन। डेटा सेट में दस्तावेज़ों या फ़ाइलों का संग्रह भी शामिल हो सकता है।[1]
ओपन डेटा अनुशासन में, डेटा सेट एक सार्वजनिक ओपन डेटा कोष में जारी सूचना को मापने की इकाई है। यूरोपीय data.europa.eu पोर्टल एक मिलियन से अधिक डेटा सेट एकत्र करता है।[2] कुछ अन्य मुद्दे (वास्तविक-समय डेटा,[3] NoSQL गैर-संबंधपरक डेटा सेट, आदि) इसके बारे में आम सहमति तक पहुंचने में कठिनाई को बढ़ाता है।[3]
गुण
कई विशेषताएँ डेटा सेट की संरचना और गुणों को परिभाषित करती हैं। इनमें विशेषताओं या चरों की संख्या और प्रकार शामिल हैं, और उन पर लागू होने वाले विभिन्न सांख्यिकीय उपाय, जैसे कि मानक विचलन और कुर्तोसिस। जान एम. ज़्य्टको, जन राउच (2000). डेटा माइनिंग और नॉलेज डिस्कवरी के सिद्धांत. ISBN 978-3-540-66490-1.</रेफरी>
मान संख्याएँ हो सकती हैं, जैसे वास्तविक संख्याएँ या पूर्णांक, उदाहरण के लिए सेंटीमीटर में किसी व्यक्ति की ऊँचाई का प्रतिनिधित्व करना, लेकिन यह नाममात्र डेटा भी हो सकता है (अर्थात, संख्या मानों से युक्त नहीं), उदाहरण के लिए किसी व्यक्ति की त्रुटि का प्रतिनिधित्व करना। अधिक सामान्यतः, मान माप के स्तर के रूप में वर्णित किसी भी प्रकार के हो सकते हैं। प्रत्येक चर के लिए, मान सामान्यतः सभी समान प्रकार के होते हैं। हालाँकि, लुप्त मान भी हो सकते हैं, जिन्हें किसी तरह दर्शाना चाहिए।आंकड़ों में, डेटा सेट आमतौर पर एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों से मेल खाती है। कुछ प्रकार के सॉफ़्टवेयर के परीक्षण के उद्देश्य से एल्गोरिदम द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। एसपीएसएस जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा गायब है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है। रेफरी नाम = एसडीई>United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन. United Nations Publications. p. 20. ISBN 978-9211169522. Retrieved 19 July 2015.</रेफरी>
आंकड़ों में, डेटा सेट सामान्यतः एक सांख्यिकीय आबादी के नमूने (सांख्यिकी) द्वारा प्राप्त वास्तविक टिप्पणियों से आते हैं, और प्रत्येक पंक्ति उस आबादी के एक तत्व पर टिप्पणियों के समान है। कुछ प्रकार के सॉफ़्टवेयर के परीक्षण के उद्देश्य से कलन विधि द्वारा डेटा सेट को और उत्पन्न किया जा सकता है। एसपीएसएस जैसे कुछ आधुनिक सांख्यिकीय विश्लेषण सॉफ्टवेयर अभी भी शास्त्रीय डेटा सेट फैशन में अपना डेटा प्रस्तुत करते हैं। यदि डेटा लुप्त है या संदिग्ध है तो डेटा सेट को पूरा करने के लिए इंप्यूटेशन (सांख्यिकी) विधि का उपयोग किया जा सकता है। रेफरी नाम = एसडीई>United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). सांख्यिकीय डेटा संपादन: डेटा गुणवत्ता पर प्रभाव: सांख्यिकीय डेटा संपादन का खंड 3, यूरोपीय सांख्यिकीविदों का सम्मेलन सांख्यिकीय मानक और अध्ययन. United Nations Publications. p. 20. ISBN 978-9211169522. Retrieved 19 July 2015.</रेफरी>
क्लासिक डेटा सेट
सांख्यिकीय साहित्य में कई क्लासिक डेटा सेटों का बड़े पैमाने पर उपयोग किया गया है:
- आइरिस फूल डेटा सेट - रोनाल्ड फिशर (1936) द्वारा पेश किया गया बहुभिन्नरूपी डेटा सेट।[4]
- MNIST डेटाबेस - हस्तलिखित अंकों की छवियां सामान्यतः वर्गीकरण, क्लस्टरिंग और इमेज प्रोसेसिंग एल्गोरिदम का परीक्षण करने के लिए उपयोग की जाती हैं
- श्रेणीबद्ध डेटा विश्लेषण - पुस्तक में प्रयुक्त डेटा सेट, श्रेणीबद्ध डेटा विश्लेषण का एक परिचय।
- मजबूत आंकड़े - मजबूत प्रतिगमन और बाहरी पहचान में इस्तेमाल होने वाले डेटा सेट (पीटर रूसो और लेरॉय, 1968)। कोलोन विश्वविद्यालय में ऑनलाइन प्रदान किया गया।
- समय श्रृंखला़ - चैटफ़ील्ड की किताब, द एनालिसिस ऑफ़ टाइम सीरीज़ में इस्तेमाल किया गया डेटा है जो StatLib द्वारा ऑनलाइन उपलब्ध कराया गया है .
- एक्सट्रीम वैल्यूज़ - पुस्तक में उपयोग किया गया डेटा, एन इंट्रोडक्शन टू द स्टैटिस्टिकल मॉडलिंग ऑफ़ एक्सट्रीम वैल्यूज़ हैं /ismev/ismev.dat डेटा का एक स्नैपशॉट जैसा कि यह पुस्तक के लेखक स्टुअर्ट कोल्स द्वारा ऑन-लाइन प्रदान किया गया था।
- बायेसियन डेटा विश्लेषण - पुस्तक के लेखकों में से एक एंड्रयू गेलमैन द्वारा ऑन-लाइन प्रदान किया गया पुस्तक में उपयोग किया गया डेटा है।
- Bupa लिवर डेटा - में उपयोग किया जाता है मशीन लर्निंग (डेटा माइनिंग) साहित्य में कई पेपर।
- Anscombe की चौकड़ी - सांख्यिकीय भ्रम से बचने के लिए डेटा को रेखांकन करने के महत्व को दर्शाने वाला छोटा डेटा सेट
डेटा सेट तक पहुंच प्रदान करने वाले कई पोर्टल हैं:
यह भी देखें
- जानकारी
- डेटा सम्मिश्रण
- डेटा (कंप्यूटिंग)
- डेटा नमूने
- डेटा भंडार
- इंटरोऑपरेबिलिटी
- डेटा संग्रह प्रणाली
संदर्भ
- ↑ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'बिग डेटा': इंटरनेट के क्षेत्र में ज्ञान का बड़ा अंतराल". International Journal of Internet Science. 7: 1–5.
- ↑ "यूरोपीय खुला डेटा पोर्टल". यूरोपीय खुला डेटा पोर्टल. European Commission. Retrieved 2016-09-23.
- ↑ 3.0 3.1 Atz, U (2014). "डेटा का ताऊ: कैटलॉग में डेटा की समयबद्धता का आकलन करने के लिए एक नया मीट्रिक" (PDF). CEDEM 2014 Proceedings. Archived (PDF) from the original on 2016-08-20. Retrieved 2016-08-01.
- ↑ Fisher, R.A. (1963). "टैक्सोनोमिक समस्याओं में एकाधिक मापन का उपयोग" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Archived from the original (PDF) on 2011-09-28. Retrieved 2007-05-22.
बाहरी संबंध
- Datahub – a community-managed home for open data sets
- Data.gov – the U.S. Government's open data
- data.world
- GCMD – the Global Change Master Directory containing over 34,000 descriptions of Earth science and environmental science data sets and services
- Humanitarian Data Exchange(HDX) – The Humanitarian Data Exchange (HDX) is an open humanitarian data sharing platform managed by the United Nations Office for the Coordination of Humanitarian Affairs.
- NYC Open Data – free public data published by New York City agencies and other partners.
- Relational data set repository
- Research Pipeline – a wiki/website with links to data sets on many different topics
- StatLib–JASA Data Archive
- UCI – a machine learning repository
- UK Government Public Data
- World Bank Open Data – Free and open access to global development data by World Bank
- A collection of simple 2D datasets
- Work With Data