डेटा क्यूरेशन
डेटा क्यूरेशन संगठन और विभिन्न स्रोतों से एकत्रित डेटा का एकीकरण है। इसमें डेटा का एनोटेशन, प्रकाशन और प्रस्तुति शामिल है जैसे कि डेटा का मूल्य समय के साथ बना रहता है और डेटा पुन: उपयोग और संरक्षण के लिए उपलब्ध रहता है। डेटा क्यूरेशन में "डेटा में मूल्य जोड़ने की क्षमता के साथ-साथ सैद्धांतिक और नियंत्रित डेटा निर्माण, रखरखाव और प्रबंधन के लिए आवश्यक सभी प्रक्रियाएं शामिल हैं"।[1] विज्ञान में, डेटा क्यूरेशन वैज्ञानिक ग्रंथों से महत्वपूर्ण जानकारी निकालने की प्रक्रिया का संकेत दे सकता है, जैसे कि विशेषज्ञों द्वारा शोध लेख, एक इलेक्ट्रॉनिक प्रारूप में परिवर्तित करने के लिए, जैसे कि एक जैविक डेटाबेस की प्रविष्टि।[2]
बड़े डेटा के आधुनिक युग में, डेटा की अवधि अधिक महत्वपूर्ण हो गई है, विशेष रूप से उच्च मात्रा और जटिल डेटा सिस्टम को संसाधित करने वाले सॉफ़्टवेयर के लिए।[3] इस शब्द का उपयोग ऐतिहासिक अवसरों और मानविकी में भी किया जाता है,[4] जहां डिजिटल मानविकी परियोजनाओं से सांस्कृतिक और विद्वतापूर्ण डेटा को बढ़ाने के लिए डेटा अवधि की विशेषज्ञता और विश्लेषणात्मक प्रथाओं की आवश्यकता होती है।[5] व्यापक शब्दों में, क्यूरेशन का अर्थ है एक घटक (डेटा तत्व) को बनाने, प्रबंधित करने, बनाए रखने और मान्य करने के लिए की जाने वाली गतिविधियों और प्रक्रियाओं की एक श्रृंखला।[6] विशेष रूप से, डेटा क्यूरेशन यह निर्धारित करने का प्रयास है कि कौन सी जानकारी सहेजने लायक है और कितने समय के लिए।[7]
इतिहास और अभ्यास
उपयोगकर्ता (सिस्टम), डेटाबेस के बजाय, आमतौर पर डेटा क्यूरेशन शुरू करता है और मेटाडाटा को बनाए रखता है।[8]इलिनोइस विश्वविद्यालय के ग्रेजुएट स्कूल ऑफ लाइब्रेरी एंड इंफॉर्मेशन साइंस के अनुसार, डेटा क्यूरेशन, छात्रवृत्ति, विज्ञान और शिक्षा के लिए ब्याज और उपयोगिता के अपने जीवनचक्र के माध्यम से डेटा का सक्रिय और चालू प्रबंधन है; क्यूरेशन गतिविधियाँ डेटा की खोज और पुनर्प्राप्ति को सक्षम करती हैं, गुणवत्ता बनाए रखती हैं, मूल्य जोड़ती हैं, और समय के साथ पुन: उपयोग प्रदान करती हैं।[9] डेटा क्यूरेशन वर्कफ़्लो डेटा गुणवत्ता प्रबंधन, सूचना गोपनीयता, सूचना जीवनचक्र प्रबंधन और एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड से अलग है।[8] 20वीं सदी की शुरुआत से जनगणना के आंकड़े सारणीबद्ध पंच कार्ड के रूप में उपलब्ध हैं और 1960 के दशक से इलेक्ट्रॉनिक हैं।[10] राजनीतिक और सामाजिक अनुसंधान के लिए इंटर-यूनिवर्सिटी कंसोर्टियम|राजनीतिक और सामाजिक अनुसंधान के लिए इंटर-यूनिवर्सिटी कंसोर्टियम (आईसीपीएसआर) वेबसाइट 1962 को उनके पहले सर्वेक्षण डेटा संग्रह की तारीख के रूप में चिन्हित करती है।[11] इलिनोइस जर्नल, लाइब्रेरी ट्रेंड्स के 1982 के अंक में डेटा पुस्तकालयों पर गहरी पृष्ठभूमि दिखाई दी।[12] डेटा आर्काइव मूवमेंट पर ऐतिहासिक पृष्ठभूमि के लिए, न्यूमेरिक डेटा के लिए सोशल साइंटिफिक इंफॉर्मेशन नीड्स: द इवोल्यूशन ऑफ द इंटरनेशनल डेटा आर्काइव इन्फ्रास्ट्रक्चर देखें।[13] किसी भी संगठन के भीतर की गई सटीक क्यूरेशन प्रक्रिया डेटा की मात्रा पर निर्भर करती है, डेटा में कितना शोर होता है, और डेटा के अपेक्षित भविष्य के उपयोग का इसके प्रसार के लिए क्या मतलब है।[3]
अंतरिक्ष डेटा में संकट के कारण 1999 में अभिलेखीय सूचना प्रणाली खोलें | ओपन आर्काइवल इंफॉर्मेशन सिस्टम (OAIS) मॉडल का निर्माण हुआ,[14] स्पेस डेटा सिस्टम्स के लिए परामर्शदात्री समिति | स्पेस डेटा सिस्टम्स के लिए सलाहकार समिति (CCSDS) द्वारा संचालित, जिसका गठन 1982 में किया गया था।[15] डेटा क्यूरेशन शब्द का उपयोग कभी-कभी जैविक डेटाबेस के संदर्भ में किया जाता है, जहां विशिष्ट जैविक जानकारी पहले शोध लेखों की एक श्रृंखला से प्राप्त की जाती है और फिर डेटाबेस की एक विशिष्ट श्रेणी में संग्रहीत की जाती है। उदाहरण के लिए, विभिन्न स्रोतों से अवसाद-रोधी दवाओं के बारे में जानकारी प्राप्त की जा सकती है और यह जाँचने के बाद कि वे एक डेटाबेस के रूप में उपलब्ध हैं या नहीं, उन्हें एक दवा के डेटाबेस की अवसाद-रोधी श्रेणी के तहत सहेजा जाता है। डेटा की गुणवत्ता और सटीकता सुनिश्चित करने के लिए उद्यम अपनी परिचालन और रणनीतिक प्रक्रियाओं के भीतर डेटा क्यूरेशन का भी उपयोग कर रहे हैं।[16][17] चिकित्सीय इमेजिंग में, डेटा क्यूरेशन आमतौर पर छवि पिक्सेल डेटा या मेडिकल इमेजिंग फ़ाइल स्वरूपों जैसे डीआईसीओएम की छवि मेटाडेटा के समायोजन को संदर्भित करता है। डेटा क्यूरेशन किसी भी प्रसंस्करण चरण का उल्लेख कर सकता है जो स्वास्थ्य सुविधा या अन्य नैदानिक सेटिंग में इमेजिंग डेटा के अधिग्रहण के बाद होता है। ऐसे संदर्भों में, यह डेटा प्रबंधन, डेटा निर्माण, संशोधन, सत्यापन, निष्कर्षण, एकीकरण, मानकीकरण, रूपांतरण, रखरखाव, गुणवत्ता आश्वासन, और सत्यापन, साथ ही डेटा अखंडता, पता लगाने की क्षमता सहित गतिविधियों की एक श्रृंखला के लिए एक हाइपोनीमी और हाइपरनीमी है। और पुनरुत्पादन जांच।[18]
परियोजनाएं और अध्ययन
सूचना पुन: उपयोग (डीआईपीआईआर) परियोजना के लिए प्रसार सूचना पैकेज (डीआईपीएस) मात्रात्मक सामाजिक वैज्ञानिकों, पुरातत्वविदों और प्राणीविदों द्वारा उत्पादित और उपयोग किए जाने वाले शोध डेटा का अध्ययन कर रहा है। इच्छित दर्शक वे शोधकर्ता हैं जो द्वितीयक डेटा और डिजिटल क्यूरेटर, डिजिटल रिपॉजिटरी मैनेजर, डेटा सेंटर स्टाफ और अन्य जो डिजिटल जानकारी एकत्र, प्रबंधित और संग्रहीत करते हैं, का उपयोग करते हैं।[19] प्रोटीन डाटा बैंक की स्थापना 1971 में ब्रुकहैवन राष्ट्रीय प्रयोगशाला में की गई थी और यह एक वैश्विक परियोजना के रूप में विकसित हो गया है।[20] प्रोटीन और अन्य बड़े जैविक अणुओं के त्रि-आयामी संरचनात्मक डेटा के लिए एक डेटाबेस, पीडीबी में 120,000 से अधिक संरचनाएं हैं, सभी मानकीकृत, प्रयोगात्मक डेटा के खिलाफ मान्य और एनोटेट हैं।
फ्लाईबेस, कीट परिवार ड्रोसोफिलिडे के लिए आनुवंशिक और आणविक डेटा का प्राथमिक भंडार, 1992 से पहले का है। फ्लाईबेस पूरे ड्रोसोफिला मेलानोगास्टर जीनोम की व्याख्या करता है।[21] भाषाई डेटा कंसोर्टियम भाषाई डेटा के लिए डेटा भंडार है, जो 1992 से पहले का है।[22] स्लोन डिजिटल स्काई सर्वे ने 2000 में रात के आकाश का सर्वेक्षण करना शुरू किया।[23] कंप्यूटर वैज्ञानिक जिम ग्रे (कंप्यूटर वैज्ञानिक) ने SDSS के डेटा आर्किटेक्चर पर काम करते हुए, विज्ञान में डेटा क्यूरेशन के विचार का समर्थन किया।[24] डाटानेट यू.एस. नेशनल साइंस फाउंडेशन ऑफ साइबर इंफ्रास्ट्रक्चर का एक शोध कार्यक्रम था, जो विज्ञान में डेटा प्रबंधन परियोजनाओं को वित्तपोषित करता था।[25] DataONE (डेटा ऑब्जर्वेशन नेटवर्क फॉर अर्थ) डेटा नेटवर्क के माध्यम से वित्त पोषित परियोजनाओं में से एक है, जो पर्यावरण विज्ञान समुदाय को डेटा को संरक्षित और साझा करने में मदद करता है।[26]
यह भी देखें
- बायोक्यूरेटर
- डेटा पुरातत्व
- डेटा गिरावट
- डेटा प्रारूप प्रबंधन
- डेटा संरक्षण
- डेटा प्रबंधन
- डेटा तकरार
- डिजिटल क्यूरेशन – कच्चे डेटा के बजाय प्रकाशित दस्तावेज़ों की अवधि[7]* डिजिटल संरक्षण
- सूचनाविद् – डेटा क्यूरेशन में व्यापक विशेषज्ञता वाला व्यक्ति
संदर्भ
- ↑ Renée J. Miller, “Big Data Curation” in 20th International Conference on Management of Data (COMAD) 2014, Hyderabad, India, December 17–19, 2014
- ↑ Bio creative Glossary. Retrieved on 3 October 2016.
- ↑ 3.0 3.1 Furht, Borko; Armando Escalante (2011). डेटा इंटेंसिव कंप्यूटिंग की हैंडबुक. Springer Science & Business Media. p. 32. ISBN 9781461414155. Retrieved 2 October 2016.
- ↑ Sabharwal, Arjun (2015). डिजिटल मानविकी में डिजिटल क्यूरेशन: अभिलेखीय और विशेष संग्रहों का संरक्षण और प्रचार करना. Chandos Publishing. p. 60. ISBN 9780081001783. Retrieved 2 October 2016.
- ↑ "An Introduction to Humanities Data Curation" by Julia Flanders and Trevor Muñoz http://guide.dhcuration.org/intro/. Not available any more: archive.org
- ↑ Pilin Glossary. Not available any more: archive.org
- ↑ 7.0 7.1 Borgman, C (2015). बड़ा डेटा, थोड़ा डेटा, कोई डेटा नहीं: नेटवर्क की दुनिया में छात्रवृत्ति. Cambridge, Massachusetts: MIT Press. pp. 13. ISBN 978-0-262-02856-1.
- ↑ 8.0 8.1 Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin Shank (2015). डेटा जलाशय का डिजाइन और संचालन. IBM Redbooks. pp. 111–113. ISBN 9780837440668. Retrieved 2 October 2016.
- ↑ Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L.; Smith, Linda C. (2007). "डेटा क्यूरेशन पर एक शैक्षिक कार्यक्रम". ALA Science & Technology Section Conference. Retrieved 7 October 2013.
- ↑ "डिजिटल सूचना (पीडीआई) रिपोर्ट का संरक्षण" (PDF). 1996. Retrieved 2018-03-13.
- ↑ "आईसीपीएसआर: इतिहास". www.icpsr.umich.edu (in English). Retrieved 2018-03-15.
- ↑ Heim, Kathleen M. (November 29, 1982). "लाइब्रेरी ट्रेंड्स 30 (3) विंटर 1982: डेटा लाइब्रेरी फॉर द सोशल साइंसेज". Library Trends – via www.ideals.illinois.edu.
- ↑ Kathleen M. Heim, "Social Scientific Information Needs for Numeric Data: The Evolution of the International Data Archive Infrastructure." in Collection Management 9 (Spring 1987): 1-53.
- ↑ "OAIS संदर्भ मॉडल" (in English). 2015-12-09. Retrieved 2018-03-15.
- ↑ "CCSDS.org - स्पेस डेटा सिस्टम्स के लिए सलाहकार समिति (CCSDS)". public.ccsds.org. Retrieved 2018-03-14.
- ↑ E. Curry, A. Freitas, and S. O’Riáin, “The Role of Community-Driven Data Curation for Enterprises,” Archived 2012-01-23 at the Wayback Machine in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47. ISBN 978-1-4419-7664-2
- ↑ A. Freitas, E. Curry, “Big Data Curation,” Archived 2016-09-13 at the Wayback Machine in New Horizons for a Data-Driven Economy, Springer (Open Access), 2015.
- ↑ Diaz, Oliver; Kushibar, Kaisar; Osuala, Richard; Linardos, Akis; Garrucho, Lidia; Igual, Laura; Radeva, Petia; Prior, Fred; Gkontra, Polyxeni; Lekadir, Karim (2021). "Data preparation for artificial intelligence in medical imaging: A comprehensive guide to open-access platforms and tools". European Journal of Medical Physics. 83: 25–37. doi:10.1016/j.ejmp.2021.02.007. PMID 33684723. S2CID 232160057. Retrieved 30 April 2021.
- ↑ Dissemination Information Packages for Information Reuse (DIPIR) project http://www.oclc.org/research/themes/user-studies/dipir.html
- ↑ "आरसीएसबी पीडीबी: पीडीबी आर्काइव और आरसीएसबी पीडीबी के बारे में". About the PDB Archive and the RCSB PDB. Retrieved 15 March 2018.
- ↑ Gramates, LS; Marygold, SJ; dos Santos, G; Urbano, J-M; Antonazzo, G; Matthews, BB; Rey, AJ; Tabone, CJ; Crosby, MA; Emmert, DB; Falls, K; Goodman, JL; Hu, Y; Ponting, L; Schroeder, AJ; Strelets, VB; Thurmond, J; Zhou, P; FlyBase Consortium (2017). "lyBase at 25: भविष्य की ओर देख रहे हैं". Nucleic Acids Res. 45 (D1): D663–D671. doi:10.1093/nar/gkw1016. PMC 5210523. PMID 27799470.
- ↑ "एलडीसी के बारे में". Linguistic Data Consortium. Retrieved 15 March 2018.
- ↑ "स्लोन डिजिटल स्काई सर्वे". SDSS. Retrieved 15 March 2018.
- ↑ Palmer, Carole L.; Weber, Nicholas M.; Muñoz, Trevor; Renear, Allen H. (June 2013). "डेटा क्यूरेशन की नींव: अनुसंधान डेटा के साथ "उद्देश्यपूर्ण कार्य" का शिक्षाशास्त्र और अभ्यास". Archive Journal. 3. hdl:2142/78099.
- ↑ "सस्टेनेबल डिजिटल डेटा प्रिजर्वेशन एंड एक्सेस नेटवर्क पार्टनर्स (डेटानेट) प्रोग्राम सारांश". National Science Foundation. September 28, 2007. Retrieved March 15, 2018.
- ↑ "डेटावन क्या है?". What is DataONE?. Retrieved 15 March 2018.
इस पेज में लापता आंतरिक लिंक की सूची
- डाटा प्रबंधन
- बड़ा डेटा
- आंकड़ा मान्यीकरण
- आधार सामग्री की गुणवत्ता
- reproducibility
बाहरी संबंध
- Curation of ecological and environmental data: DataONE
- Data management tools and services spanning multiple scientific disciplines: DataConservancy