डेटा क्लीन्सिंग: Difference between revisions

From Vigyanwiki
m (Abhishek moved page डेटा सफाई to डेटा क्लीन्सिंग without leaving a redirect)
No edit summary
 
(5 intermediate revisions by 4 users not shown)
Line 2: Line 2:
{{distinguish|स्वच्छीकरण (वर्गीकृत सूचना)|डेटा  मार्जन}}
{{distinguish|स्वच्छीकरण (वर्गीकृत सूचना)|डेटा  मार्जन}}


डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा प्रक्षालन को [[डेटा की गड़बड़ी|डेटा की]] त्रुटि टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से|सहभागितापूर्ण विधि से]] किया जा सकता है।
'''डेटा प्रक्षालन या [[डेटा क्लीन्सिंग]]''' रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा क्लीन्सिंग को [[डेटा की गड़बड़ी|डेटा की]] त्रुटि टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से|सहभागितापूर्ण विधि से]] किया जा सकता है।


इस प्रकार से प्रक्षालन के बाद, [[डेटा सेट|डेटा समूह]] प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। अतः डेटा प्रक्षालन डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।
इस प्रकार से प्रक्षालन के बाद, [[डेटा सेट|डेटा समूह]] प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न संग्रह में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। अतः डेटा क्लीन्सिंग डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।


डेटा प्रक्षालन की वास्तविक प्रक्रिया [[टंकण त्रुटि]] को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक|स्वानुशासित तर्क]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा प्रक्षालन का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।
डेटा क्लीन्सिंग की वास्तविक प्रक्रिया [[टंकण त्रुटि]] को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक|स्वानुशासित तर्क]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा क्लीन्सिंग हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा क्लीन्सिंग का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा क्लीन्सिंग में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।


== प्रेरणा ==
== प्रेरणा ==
Line 23: Line 23:
** ''अनुप्रस्थ-क्षेत्र सत्यापन'': एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
** ''अनुप्रस्थ-क्षेत्र सत्यापन'': एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
* यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
* यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
* पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
* पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा क्लीन्सिंग पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
* संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
* संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
* एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
* एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
Line 36: Line 36:


अतः ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। इस प्रकार से उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref>
अतः ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। इस प्रकार से उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref>
* डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
* डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें।
* कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
* कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं।
* डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें
* डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें।
* एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें
* एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें।
* प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें
* प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें।
* प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना
* प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना।
* अंतर्विभागीय सहयोग को बढ़ावा देना
* अंतर्विभागीय सहयोग को बढ़ावा देना।
* सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
* सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं।
* डेटा गुणवत्ता को निरंतर मापें और सुधारें
* डेटा गुणवत्ता को निरंतर मापें और सुधारें।


इस प्रकार से अन्य में सम्मिलित हैं:
इस प्रकार से अन्य में सम्मिलित हैं:
Line 53: Line 53:


==प्रणाली==
==प्रणाली==
अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा प्रक्षालन प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।
अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा क्लीन्सिंग प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।


==गुणवत्ता स्क्रीन==
==गुणवत्ता स्क्रीन==
डेटा प्रक्षालन प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
डेटा क्लीन्सिंग प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
* स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
* स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
* संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
* संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
* बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।
* यापार नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।


इस प्रकार से जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।
इस प्रकार से जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।
Line 66: Line 66:


==वर्तमान उपकरणों और प्रक्रियाओं की आलोचना==
==वर्तमान उपकरणों और प्रक्रियाओं की आलोचना==
इस प्रकार से अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
इस प्रकार से अधिकांश डेटा क्लीन्सिंग टूल की प्रयोज्यता में सीमाएँ हैं:
* परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है
* परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है।
* समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है
* समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है।
* सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है
* सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है।


==त्रुटि घटना स्कीमा==
==त्रुटि घटना स्कीमा==
Line 96: Line 96:
{{data}}
{{data}}


{{DEFAULTSORT:Data Cleansing}}[[Category: आधार सामग्री की गुणवत्ता]]
{{DEFAULTSORT:Data Cleansing}}


 
[[Category:Articles with hatnote templates targeting a nonexistent page|Data Cleansing]]
 
[[Category:CS1 English-language sources (en)]]
[[Category: Machine Translated Page]]
[[Category:Collapse templates|Data Cleansing]]
[[Category:Created On 06/07/2023]]
[[Category:Created On 06/07/2023|Data Cleansing]]
[[Category:Lua-based templates|Data Cleansing]]
[[Category:Machine Translated Page|Data Cleansing]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Data Cleansing]]
[[Category:Pages with script errors|Data Cleansing]]
[[Category:Sidebars with styles needing conversion|Data Cleansing]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Data Cleansing]]
[[Category:Templates generating microformats|Data Cleansing]]
[[Category:Templates that add a tracking category|Data Cleansing]]
[[Category:Templates that are not mobile friendly|Data Cleansing]]
[[Category:Templates that generate short descriptions|Data Cleansing]]
[[Category:Templates using TemplateData|Data Cleansing]]
[[Category:Wikipedia metatemplates|Data Cleansing]]
[[Category:आधार सामग्री की गुणवत्ता|Data Cleansing]]

Latest revision as of 10:41, 15 July 2023

डेटा प्रक्षालन या डेटा क्लीन्सिंग रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।[1] डेटा क्लीन्सिंग को डेटा की त्रुटि टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण विधि से किया जा सकता है।

इस प्रकार से प्रक्षालन के बाद, डेटा समूह प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न संग्रह में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। अतः डेटा क्लीन्सिंग डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।

डेटा क्लीन्सिंग की वास्तविक प्रक्रिया टंकण त्रुटि को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या स्वानुशासित तर्क या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा क्लीन्सिंग हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा क्लीन्सिंग का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा क्लीन्सिंग में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।[2] और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।

प्रेरणा

अतः प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। इस प्रकार से उदाहरण के लिए, सरकार यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। इस प्रकार से उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक ​​कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।

डेटा गुणवत्ता

इस प्रकार से उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं:

  • वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। इस प्रकार से डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
    • डेटा-प्रकार की बाधाएँ - इस प्रकार से उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, इस प्रकार से उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
    • श्रेणी की बाधाएँ: सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं।
    • अनिवार्य बाधाएँ: कुछ स्तम्भ रिक्त नहीं हो सकते।
    • अद्वितीय बाधाएँ: क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। इस प्रकार से उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है।
    • समूह-सदस्यता बाधाएं: किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। इस प्रकार से उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
    • विजातीय-कुंजी बाधाएं: यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। इस प्रकार से उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विजातीय कुंजी शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है।
    • नियमित अभिव्यक्ति प्रतिरूप: कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। इस प्रकार से उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है।
    • अनुप्रस्थ-क्षेत्र सत्यापन: एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
  • यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
  • पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा क्लीन्सिंग पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
  • संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
  • एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।

इस प्रकार से अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (इस प्रकार से उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)

प्रक्रिया

  • डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामन भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को निम्न बुलेट्स कार्यप्रवाह विनिर्देश और कार्यप्रवाह निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके निकट उच्च-और प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई स्थितियों में बहुत कम या कोई प्रोग्रामन की आवश्यकता के साथ एक दूसरे को प्रभावित करते हुए इस रूप में जांच करने देंगे।
  • कार्यप्रवाह विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे कार्यप्रवाह के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित कार्यप्रवाह प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर स्पष्टता से विचार करना होगा।
  • कार्यप्रवाह निष्पादन: इस चरण में, कार्यप्रवाह को उसके विनिर्देश पूर्ण होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। कार्यप्रवाह का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-संवृत की स्थिति उत्पन्न करता है क्योंकि डेटा-निर्मलन संचालन का निष्पादन कम्प्यूटेशनल रूप से बहुमूल्य हो सकता है।
  • पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।

अतः ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। इस प्रकार से उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:[3][4]

  • डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें।
  • कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं।
  • डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें।
  • एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें।
  • प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें।
  • प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना।
  • अंतर्विभागीय सहयोग को बढ़ावा देना।
  • सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं।
  • डेटा गुणवत्ता को निरंतर मापें और सुधारें।

इस प्रकार से अन्य में सम्मिलित हैं:

  • पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर व्याकरण और भाषाओं के साथ कार्य करता है।
  • डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है।
  • अनुकृति उन्मूलन: अनुकृति का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई की अनुकृति प्रतिनिधित्व सम्मिलित हैं या नहीं। सामान्यतः, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तीव्रता से पहचान के लिए अनुकृति प्रविष्टियों को साथ लाएगा।
  • सांख्यिकीय विधि: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मानों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मानों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। यद्यपि ऐसे डेटा का सुधार जटिल है क्योंकि उचित मान ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मान पर मान समूह करके हल किया जा सकता है। लुप्त मानों को संभालने के लिए सांख्यिकीय विधियों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मानों से प्रतिस्थापित किया जा सकता है, जो सामान्यतः व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।

प्रणाली

अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा क्लीन्सिंग प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।

गुणवत्ता स्क्रीन

डेटा क्लीन्सिंग प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:

  • स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
  • संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
  • यापार नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।

इस प्रकार से जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।

अतः बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए।

वर्तमान उपकरणों और प्रक्रियाओं की आलोचना

इस प्रकार से अधिकांश डेटा क्लीन्सिंग टूल की प्रयोज्यता में सीमाएँ हैं:

  • परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है।
  • समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है।
  • सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है।

त्रुटि घटना स्कीमा

अतः त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना तथ्य तालिका सम्मिलित है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इस प्रकार से इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है।

यह भी देखें

संदर्भ

  1. Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
  2. "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.
  3. Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
  4. Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

अग्रिम पठन

  • McKinney, Wes (2017). "Data Cleaning and Preparation". Python for Data Analysis (2nd ed.). O'Reilly. pp. 195–224. ISBN 978-1-4919-5766-0.
  • van der Loo, Mark; de Jonge, Edwin (2018). Statistical Data Cleaning with Applications in R. Hoboken: Wiley. ISBN 978-1-118-89715-7.

बाह्य संबंध