डेटा क्लीन्सिंग: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
{{short description|Correcting inaccurate computer records}} | {{short description|Correcting inaccurate computer records}} | ||
{{distinguish| | {{distinguish|स्वच्छीकरण (वर्गीकृत सूचना)|डेटा मार्जन}} | ||
डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा सफाई को [[डेटा की गड़बड़ी]] टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से]] तरीके से किया जा सकता है। | |||
डेटा सफ़ाई की वास्तविक प्रक्रिया [[टंकण त्रुटि]] त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा | सफाई के बाद, [[डेटा सेट|डेटा समूह]] सिस्टम में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, ट्रांसमिशन या भंडारण में भ्रष्टाचार, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। डेटा सफ़ाई डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग हमेशा मतलब होता है कि डेटा को प्रवेश के समय सिस्टम से खारिज कर दिया जाता है और डेटा के बैचों के बजाय प्रवेश के समय किया जाता है। | ||
डेटा सफ़ाई की वास्तविक प्रक्रिया [[टंकण त्रुटि]] त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन समाधान मान्य डेटा समूह के साथ क्रॉस-चेकिंग करके डेटा को साफ़ कर देंगे। डेटा सफ़ाई का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित जानकारी जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन नंबर के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का कैनोनिकल फॉर्म#कंप्यूटिंग (या सामान्यीकरण) भी शामिल हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और कॉलमों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से सड़क, सड़क, वगैरह) का विस्तार है। | |||
== प्रेरणा == | == प्रेरणा == | ||
प्रशासनिक रूप से | प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और निजी दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में [[निवेश]] का कारण बन सकता है। उदाहरण के लिए, [[सरकार]] यह तय करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना चाह सकती है कि किन क्षेत्रों में बुनियादी ढांचे और सेवाओं पर अधिक खर्च और निवेश की आवश्यकता है। इस मामले में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क जानकारी, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी। | ||
== डेटा गुणवत्ता == | == डेटा गुणवत्ता == | ||
उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के | उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें शामिल हैं: | ||
* वैधता: वह डिग्री जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर सिस्टम को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना काफी आसान होता है: अमान्य डेटा मुख्य रूप से विरासत संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं: | * वैधता: वह डिग्री जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर सिस्टम को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना काफी आसान होता है: अमान्य डेटा मुख्य रूप से विरासत संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं: | ||
** ''डेटा-प्रकार की बाधाएँ'' - उदाहरण के लिए, किसी विशेष कॉलम में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि। | ** ''डेटा-प्रकार की बाधाएँ'' - उदाहरण के लिए, किसी विशेष कॉलम में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि। | ||
** ''श्रेणी की बाधाएँ:'' आम तौर पर, संख्याएँ या तारीखें निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके पास न्यूनतम और/या अधिकतम अनुमेय मूल्य हैं। | ** ''श्रेणी की बाधाएँ:'' आम तौर पर, संख्याएँ या तारीखें निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके पास न्यूनतम और/या अधिकतम अनुमेय मूल्य हैं। | ||
** ''अनिवार्य बाधाएँ:'' कुछ कॉलम खाली नहीं हो सकते। | ** ''अनिवार्य बाधाएँ:'' कुछ कॉलम खाली नहीं हो सकते। | ||
** ''अद्वितीय बाधाएँ:'' फ़ील्ड, या फ़ील्ड का संयोजन, | ** ''अद्वितीय बाधाएँ:'' फ़ील्ड, या फ़ील्ड का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के पास समान सामाजिक सुरक्षा नंबर नहीं हो सकता। | ||
** '' | ** ''समूह-सदस्यता बाधाएं'': किसी कॉलम के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है। | ||
** ''विदेशी-कुंजी बाधाएं'': यह | ** ''विदेशी-कुंजी बाधाएं'': यह समूह सदस्यता का अधिक सामान्य मामला है। किसी कॉलम में मानों का समूह किसी अन्य तालिका के कॉलम में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य कॉलम को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। [[विदेशी कुंजी]] शब्द रिलेशनल डेटाबेस शब्दावली से लिया गया है। | ||
** ''नियमित अभिव्यक्ति पैटर्न'': कभी-कभी, पाठ फ़ील्ड को इस तरह से मान्य करना होगा। उदाहरण के लिए, फ़ोन नंबरों का पैटर्न (999) 999-9999 होना आवश्यक हो सकता है। | ** ''नियमित अभिव्यक्ति पैटर्न'': कभी-कभी, पाठ फ़ील्ड को इस तरह से मान्य करना होगा। उदाहरण के लिए, फ़ोन नंबरों का पैटर्न (999) 999-9999 होना आवश्यक हो सकता है। | ||
** ''क्रॉस-फ़ील्ड सत्यापन'': एकाधिक फ़ील्ड का उपयोग करने वाली कुछ शर्तें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी मरीज की अस्पताल से छुट्टी की तारीख प्रवेश की तारीख से पहले नहीं हो सकती। | ** ''क्रॉस-फ़ील्ड सत्यापन'': एकाधिक फ़ील्ड का उपयोग करने वाली कुछ शर्तें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी मरीज की अस्पताल से छुट्टी की तारीख प्रवेश की तारीख से पहले नहीं हो सकती। | ||
* सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा- | * सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा-निर्मलन के माध्यम से सटीकता हासिल करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाहरी स्रोत तक पहुंच की आवश्यकता होती है जिसमें सही मूल्य होता है: ऐसा स्वर्ण मानक डेटा अक्सर अनुपलब्ध होता है। भौगोलिक स्थानों (शहर और राज्य) के ज़िप कोड से मेल खाने वाले बाहरी डेटाबेस का उपयोग करके कुछ सफाई संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में सटीकता हासिल की गई है और यह सत्यापित करने में भी मदद मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वास्तव में मौजूद हैं। | ||
* पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा | * पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा शुरू में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, यानी विषय का फिर से साक्षात्कार करना, लेकिन यह भी याद रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पहले उसने क्या खाया था। उन प्रणालियों के मामले में जो इस बात पर जोर देते हैं कि कुछ कॉलम खाली नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का समाधान कर सकता है जो अज्ञात को इंगित करता है या गायब है, लेकिन डिफ़ॉल्ट मानों की आपूर्ति का मतलब यह नहीं है कि डेटा पूरा कर लिया गया है।) | ||
* संगति: वह डिग्री जिस तक मापों का | * संगति: वह डिग्री जिस तक मापों का समूह एस में समतुल्य हैसिस्टम (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा आइटम एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से केवल ही सही हो सकता है। असंगतता को ठीक करना हमेशा संभव नहीं होता है: इसके लिए कई प्रकार की रणनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह तय करना कि कौन सा डेटा हाल ही में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या बस कोशिश करना दोनों डेटा आइटम (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सच्चाई का पता लगाएं। | ||
* एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके | * एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, वजन या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए। | ||
अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा- | अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा-निर्मलन संदर्भों में इसका उपयोग शायद ही कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विदेशी-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।) | ||
== प्रक्रिया == | == प्रक्रिया == | ||
* डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए [[सांख्यिकीय]] और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड | * डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए [[सांख्यिकीय]] और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई मामलों में बहुत कम या कोई प्रोग्रामिंग की आवश्यकता के साथ इंटरैक्टिव रूप से ऐसी जांच करने देंगे। . | ||
* वर्कफ़्लो विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे वर्कफ़्लो के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित वर्कफ़्लो प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर बारीकी से विचार करना होगा। | * वर्कफ़्लो विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे वर्कफ़्लो के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित वर्कफ़्लो प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर बारीकी से विचार करना होगा। | ||
* वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े | * वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-बंद की स्थिति पैदा करता है क्योंकि डेटा-निर्मलन ऑपरेशन का निष्पादन कम्प्यूटेशनल रूप से महंगा हो सकता है। | ||
* पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा- | * पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नया चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक साफ़ करने के लिए अतिरिक्त वर्कफ़्लो के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है। | ||
अच्छी गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर शुरू किया जाना चाहिए। यह केवल इनपुट स्क्रीन पर मजबूत सत्यापन जांच लागू करने का मामला नहीं है, क्योंकि ये जांच कितनी भी मजबूत क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें अक्सर टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref> | अच्छी गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर शुरू किया जाना चाहिए। यह केवल इनपुट स्क्रीन पर मजबूत सत्यापन जांच लागू करने का मामला नहीं है, क्योंकि ये जांच कितनी भी मजबूत क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें अक्सर टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref> | ||
Line 49: | Line 50: | ||
* डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मूल्य रूपांतरण या अनुवाद फ़ंक्शन, साथ ही न्यूनतम और अधिकतम मूल्यों के अनुरूप संख्यात्मक मानों को सामान्य बनाना शामिल है। | * डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मूल्य रूपांतरण या अनुवाद फ़ंक्शन, साथ ही न्यूनतम और अधिकतम मूल्यों के अनुरूप संख्यात्मक मानों को सामान्य बनाना शामिल है। | ||
* डुप्लिकेट उन्मूलन: डुप्लिकेट का पता लगाने के लिए यह निर्धारित करने के लिए [[कलन विधि]] की आवश्यकता होती है कि डेटा में ही इकाई के डुप्लिकेट प्रतिनिधित्व शामिल हैं या नहीं। आमतौर पर, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तेजी से पहचान के लिए डुप्लिकेट प्रविष्टियों को साथ लाएगा। | * डुप्लिकेट उन्मूलन: डुप्लिकेट का पता लगाने के लिए यह निर्धारित करने के लिए [[कलन विधि]] की आवश्यकता होती है कि डेटा में ही इकाई के डुप्लिकेट प्रतिनिधित्व शामिल हैं या नहीं। आमतौर पर, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तेजी से पहचान के लिए डुप्लिकेट प्रविष्टियों को साथ लाएगा। | ||
* सांख्यिकीय तरीके: माध्य, [[मानक विचलन]], सीमा (सांख्यिकी), या [[क्लस्टर विश्लेषण]] एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार | * सांख्यिकीय तरीके: माध्य, [[मानक विचलन]], सीमा (सांख्यिकी), या [[क्लस्टर विश्लेषण]] एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। हालाँकि ऐसे डेटा का सुधार मुश्किल है क्योंकि सही मूल्य ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मूल्य पर मान समूह करके हल किया जा सकता है। लापता मूल्यों को संभालने के लिए सांख्यिकीय तरीकों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मूल्यों से प्रतिस्थापित किया जा सकता है, जो आमतौर पर व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं। | ||
==प्रणाली== | ==प्रणाली== | ||
इस प्रणाली का आवश्यक कार्य | इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के करीब डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। सिस्टम को ऐसा आर्किटेक्चर पेश करना चाहिए जो डेटा को साफ़ कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। अच्छी शुरुआत संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा प्रक्षालन सिस्टम की आवश्यक जटिलता को परिभाषित करने में मदद करेगा और स्रोत सिस्टम में वर्तमान डेटा गुणवत्ता का भी अंदाजा देगा। | ||
==गुणवत्ता स्क्रीन== | ==गुणवत्ता स्क्रीन== | ||
डेटा | डेटा प्रक्षालन सिस्टम का हिस्सा डायग्नोस्टिक फिल्टर का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि इवेंट स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है: | ||
* कॉलम स्क्रीन। व्यक्तिगत कॉलम का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; वगैरह। | * कॉलम स्क्रीन। व्यक्तिगत कॉलम का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; वगैरह। | ||
* संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (आमतौर पर विदेशी/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए। | * संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (आमतौर पर विदेशी/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए। | ||
Line 64: | Line 65: | ||
==मौजूदा उपकरणों और प्रक्रियाओं की आलोचना== | ==मौजूदा उपकरणों और प्रक्रियाओं की आलोचना== | ||
अधिकांश डेटा | अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं: | ||
* परियोजना लागत: लागत आम तौर पर सैकड़ों हजारों डॉलर में होती है | * परियोजना लागत: लागत आम तौर पर सैकड़ों हजारों डॉलर में होती है | ||
* समय: बड़े पैमाने पर डेटा- | * समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में महारत हासिल करने में समय लगता है | ||
* सुरक्षा: क्रॉस-वैलिडेशन के लिए जानकारी साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील विरासत प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है | * सुरक्षा: क्रॉस-वैलिडेशन के लिए जानकारी साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील विरासत प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है | ||
Revision as of 11:01, 13 July 2023
डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना।[1] डेटा सफाई को डेटा की गड़बड़ी टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण तरीके से तरीके से किया जा सकता है।
सफाई के बाद, डेटा समूह सिस्टम में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, ट्रांसमिशन या भंडारण में भ्रष्टाचार, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। डेटा सफ़ाई डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग हमेशा मतलब होता है कि डेटा को प्रवेश के समय सिस्टम से खारिज कर दिया जाता है और डेटा के बैचों के बजाय प्रवेश के समय किया जाता है।
डेटा सफ़ाई की वास्तविक प्रक्रिया टंकण त्रुटि त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या फजी लॉजिक या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन समाधान मान्य डेटा समूह के साथ क्रॉस-चेकिंग करके डेटा को साफ़ कर देंगे। डेटा सफ़ाई का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित जानकारी जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन नंबर के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का कैनोनिकल फॉर्म#कंप्यूटिंग (या सामान्यीकरण) भी शामिल हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और कॉलमों के डेटा को साथ लाने की प्रक्रिया है।[2] और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से सड़क, सड़क, वगैरह) का विस्तार है।
प्रेरणा
प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और निजी दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। उदाहरण के लिए, सरकार यह तय करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना चाह सकती है कि किन क्षेत्रों में बुनियादी ढांचे और सेवाओं पर अधिक खर्च और निवेश की आवश्यकता है। इस मामले में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क जानकारी, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।
डेटा गुणवत्ता
उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें शामिल हैं:
- वैधता: वह डिग्री जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर सिस्टम को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना काफी आसान होता है: अमान्य डेटा मुख्य रूप से विरासत संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
- डेटा-प्रकार की बाधाएँ - उदाहरण के लिए, किसी विशेष कॉलम में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
- श्रेणी की बाधाएँ: आम तौर पर, संख्याएँ या तारीखें निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके पास न्यूनतम और/या अधिकतम अनुमेय मूल्य हैं।
- अनिवार्य बाधाएँ: कुछ कॉलम खाली नहीं हो सकते।
- अद्वितीय बाधाएँ: फ़ील्ड, या फ़ील्ड का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के पास समान सामाजिक सुरक्षा नंबर नहीं हो सकता।
- समूह-सदस्यता बाधाएं: किसी कॉलम के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
- विदेशी-कुंजी बाधाएं: यह समूह सदस्यता का अधिक सामान्य मामला है। किसी कॉलम में मानों का समूह किसी अन्य तालिका के कॉलम में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य कॉलम को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विदेशी कुंजी शब्द रिलेशनल डेटाबेस शब्दावली से लिया गया है।
- नियमित अभिव्यक्ति पैटर्न: कभी-कभी, पाठ फ़ील्ड को इस तरह से मान्य करना होगा। उदाहरण के लिए, फ़ोन नंबरों का पैटर्न (999) 999-9999 होना आवश्यक हो सकता है।
- क्रॉस-फ़ील्ड सत्यापन: एकाधिक फ़ील्ड का उपयोग करने वाली कुछ शर्तें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी मरीज की अस्पताल से छुट्टी की तारीख प्रवेश की तारीख से पहले नहीं हो सकती।
- सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा-निर्मलन के माध्यम से सटीकता हासिल करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाहरी स्रोत तक पहुंच की आवश्यकता होती है जिसमें सही मूल्य होता है: ऐसा स्वर्ण मानक डेटा अक्सर अनुपलब्ध होता है। भौगोलिक स्थानों (शहर और राज्य) के ज़िप कोड से मेल खाने वाले बाहरी डेटाबेस का उपयोग करके कुछ सफाई संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में सटीकता हासिल की गई है और यह सत्यापित करने में भी मदद मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वास्तव में मौजूद हैं।
- पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा शुरू में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, यानी विषय का फिर से साक्षात्कार करना, लेकिन यह भी याद रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पहले उसने क्या खाया था। उन प्रणालियों के मामले में जो इस बात पर जोर देते हैं कि कुछ कॉलम खाली नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का समाधान कर सकता है जो अज्ञात को इंगित करता है या गायब है, लेकिन डिफ़ॉल्ट मानों की आपूर्ति का मतलब यह नहीं है कि डेटा पूरा कर लिया गया है।)
- संगति: वह डिग्री जिस तक मापों का समूह एस में समतुल्य हैसिस्टम (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा आइटम एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से केवल ही सही हो सकता है। असंगतता को ठीक करना हमेशा संभव नहीं होता है: इसके लिए कई प्रकार की रणनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह तय करना कि कौन सा डेटा हाल ही में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या बस कोशिश करना दोनों डेटा आइटम (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सच्चाई का पता लगाएं।
- एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, वजन या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा-निर्मलन संदर्भों में इसका उपयोग शायद ही कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विदेशी-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)
प्रक्रिया
- डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई मामलों में बहुत कम या कोई प्रोग्रामिंग की आवश्यकता के साथ इंटरैक्टिव रूप से ऐसी जांच करने देंगे। .
- वर्कफ़्लो विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे वर्कफ़्लो के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित वर्कफ़्लो प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर बारीकी से विचार करना होगा।
- वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-बंद की स्थिति पैदा करता है क्योंकि डेटा-निर्मलन ऑपरेशन का निष्पादन कम्प्यूटेशनल रूप से महंगा हो सकता है।
- पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नया चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक साफ़ करने के लिए अतिरिक्त वर्कफ़्लो के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।
अच्छी गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर शुरू किया जाना चाहिए। यह केवल इनपुट स्क्रीन पर मजबूत सत्यापन जांच लागू करने का मामला नहीं है, क्योंकि ये जांच कितनी भी मजबूत क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें अक्सर टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:[3][4]
- डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
- कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
- डेटा एंट्री माहौल को बेहतर बनाने के लिए पैसा खर्च करें
- एप्लिकेशन एकीकरण को बेहतर बनाने के लिए पैसा खर्च करें
- प्रक्रियाओं के काम करने के तरीके को बदलने के लिए पैसा खर्च करें
- शुरू से अंत तक टीम जागरूकता को बढ़ावा देना
- अंतर्विभागीय सहयोग को बढ़ावा देना
- सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
- डेटा गुणवत्ता को लगातार मापें और सुधारें
अन्य में शामिल हैं:
- पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए। पार्सर यह तय करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी तरह है जैसे पार्सर व्याकरण और भाषाओं के साथ काम करता है।
- डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मूल्य रूपांतरण या अनुवाद फ़ंक्शन, साथ ही न्यूनतम और अधिकतम मूल्यों के अनुरूप संख्यात्मक मानों को सामान्य बनाना शामिल है।
- डुप्लिकेट उन्मूलन: डुप्लिकेट का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई के डुप्लिकेट प्रतिनिधित्व शामिल हैं या नहीं। आमतौर पर, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तेजी से पहचान के लिए डुप्लिकेट प्रविष्टियों को साथ लाएगा।
- सांख्यिकीय तरीके: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। हालाँकि ऐसे डेटा का सुधार मुश्किल है क्योंकि सही मूल्य ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मूल्य पर मान समूह करके हल किया जा सकता है। लापता मूल्यों को संभालने के लिए सांख्यिकीय तरीकों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मूल्यों से प्रतिस्थापित किया जा सकता है, जो आमतौर पर व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।
प्रणाली
इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के करीब डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। सिस्टम को ऐसा आर्किटेक्चर पेश करना चाहिए जो डेटा को साफ़ कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। अच्छी शुरुआत संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा प्रक्षालन सिस्टम की आवश्यक जटिलता को परिभाषित करने में मदद करेगा और स्रोत सिस्टम में वर्तमान डेटा गुणवत्ता का भी अंदाजा देगा।
गुणवत्ता स्क्रीन
डेटा प्रक्षालन सिस्टम का हिस्सा डायग्नोस्टिक फिल्टर का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि इवेंट स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
- कॉलम स्क्रीन। व्यक्तिगत कॉलम का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; वगैरह।
- संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (आमतौर पर विदेशी/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
- बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, शायद कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।
जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अलावा कहीं और भेज सकती है या डेटा को टैग कर सकती है। बाद वाले विकल्प को सबसे अच्छा समाधान माना जाता है क्योंकि पहले विकल्प के लिए आवश्यक है कि हर बार समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरे का तात्पर्य है कि लक्ष्य प्रणाली (अखंडता) से डेटा गायब है और यह अक्सर स्पष्ट नहीं है कि क्या होना चाहिए इन डेटा को.
मौजूदा उपकरणों और प्रक्रियाओं की आलोचना
अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
- परियोजना लागत: लागत आम तौर पर सैकड़ों हजारों डॉलर में होती है
- समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में महारत हासिल करने में समय लगता है
- सुरक्षा: क्रॉस-वैलिडेशन के लिए जानकारी साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील विरासत प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है
त्रुटि घटना स्कीमा
त्रुटि इवेंट स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन आयाम तालिकाओं की विदेशी कुंजियों के साथ त्रुटि घटना तथ्य तालिका शामिल है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के बारे में भी जानकारी होती है। इसके अलावा, मुख्य तालिका में विदेशी कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और फ़ील्ड में त्रुटि हुई और त्रुटि स्थिति के बारे में विस्तृत जानकारी शामिल है।
यह भी देखें
- डेटा संपादन
- डेटा खनन
- डेटाबेस मरम्मत
- पुनरावृत्तीय आनुपातिक फिटिंग
- रिकॉर्ड लिंकेज
- एकल ग्राहक दृश्य
- त्रिकोणीकरण (सामाजिक विज्ञान)
संदर्भ
- ↑ Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
- ↑ "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.
- ↑ Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
- ↑ Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5
अग्रिम पठन
- McKinney, Wes (2017). "Data Cleaning and Preparation". Python for Data Analysis (2nd ed.). O'Reilly. pp. 195–224. ISBN 978-1-4919-5766-0.
- van der Loo, Mark; de Jonge, Edwin (2018). Statistical Data Cleaning with Applications in R. Hoboken: Wiley. ISBN 978-1-118-89715-7.
बाहरी संबंध
- Computerworld: Data Scrubbing (February 10, 2003)
- Erhard Rahm, Hong Hai Do: Data Cleaning: Problems and Current Approaches
- Data cleansing. Datamanagement.wiki.