डेटा क्लीन्सिंग: Difference between revisions

Revision as of 11:01, 13 July 2023

डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना।^[1] डेटा सफाई को डेटा की गड़बड़ी टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण तरीके से तरीके से किया जा सकता है।

सफाई के बाद, डेटा समूह सिस्टम में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, ट्रांसमिशन या भंडारण में भ्रष्टाचार, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। डेटा सफ़ाई डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग हमेशा मतलब होता है कि डेटा को प्रवेश के समय सिस्टम से खारिज कर दिया जाता है और डेटा के बैचों के बजाय प्रवेश के समय किया जाता है।

डेटा सफ़ाई की वास्तविक प्रक्रिया टंकण त्रुटि त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या फजी लॉजिक या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन समाधान मान्य डेटा समूह के साथ क्रॉस-चेकिंग करके डेटा को साफ़ कर देंगे। डेटा सफ़ाई का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित जानकारी जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन नंबर के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का कैनोनिकल फॉर्म#कंप्यूटिंग (या सामान्यीकरण) भी शामिल हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और कॉलमों के डेटा को साथ लाने की प्रक्रिया है।^[2] और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से सड़क, सड़क, वगैरह) का विस्तार है।

प्रेरणा

प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और निजी दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। उदाहरण के लिए, सरकार यह तय करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना चाह सकती है कि किन क्षेत्रों में बुनियादी ढांचे और सेवाओं पर अधिक खर्च और निवेश की आवश्यकता है। इस मामले में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क जानकारी, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।

डेटा गुणवत्ता

उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें शामिल हैं:

वैधता: वह डिग्री जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर सिस्टम को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना काफी आसान होता है: अमान्य डेटा मुख्य रूप से विरासत संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
- डेटा-प्रकार की बाधाएँ - उदाहरण के लिए, किसी विशेष कॉलम में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
- श्रेणी की बाधाएँ: आम तौर पर, संख्याएँ या तारीखें निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके पास न्यूनतम और/या अधिकतम अनुमेय मूल्य हैं।
- अनिवार्य बाधाएँ: कुछ कॉलम खाली नहीं हो सकते।
- अद्वितीय बाधाएँ: फ़ील्ड, या फ़ील्ड का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के पास समान सामाजिक सुरक्षा नंबर नहीं हो सकता।
- समूह-सदस्यता बाधाएं: किसी कॉलम के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
- विदेशी-कुंजी बाधाएं: यह समूह सदस्यता का अधिक सामान्य मामला है। किसी कॉलम में मानों का समूह किसी अन्य तालिका के कॉलम में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य कॉलम को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विदेशी कुंजी शब्द रिलेशनल डेटाबेस शब्दावली से लिया गया है।
- नियमित अभिव्यक्ति पैटर्न: कभी-कभी, पाठ फ़ील्ड को इस तरह से मान्य करना होगा। उदाहरण के लिए, फ़ोन नंबरों का पैटर्न (999) 999-9999 होना आवश्यक हो सकता है।
- क्रॉस-फ़ील्ड सत्यापन: एकाधिक फ़ील्ड का उपयोग करने वाली कुछ शर्तें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी मरीज की अस्पताल से छुट्टी की तारीख प्रवेश की तारीख से पहले नहीं हो सकती।
सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा-निर्मलन के माध्यम से सटीकता हासिल करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाहरी स्रोत तक पहुंच की आवश्यकता होती है जिसमें सही मूल्य होता है: ऐसा स्वर्ण मानक डेटा अक्सर अनुपलब्ध होता है। भौगोलिक स्थानों (शहर और राज्य) के ज़िप कोड से मेल खाने वाले बाहरी डेटाबेस का उपयोग करके कुछ सफाई संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में सटीकता हासिल की गई है और यह सत्यापित करने में भी मदद मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वास्तव में मौजूद हैं।
पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा शुरू में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, यानी विषय का फिर से साक्षात्कार करना, लेकिन यह भी याद रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पहले उसने क्या खाया था। उन प्रणालियों के मामले में जो इस बात पर जोर देते हैं कि कुछ कॉलम खाली नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का समाधान कर सकता है जो अज्ञात को इंगित करता है या गायब है, लेकिन डिफ़ॉल्ट मानों की आपूर्ति का मतलब यह नहीं है कि डेटा पूरा कर लिया गया है।)
संगति: वह डिग्री जिस तक मापों का समूह एस में समतुल्य हैसिस्टम (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा आइटम एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से केवल ही सही हो सकता है। असंगतता को ठीक करना हमेशा संभव नहीं होता है: इसके लिए कई प्रकार की रणनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह तय करना कि कौन सा डेटा हाल ही में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या बस कोशिश करना दोनों डेटा आइटम (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सच्चाई का पता लगाएं।
एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, वजन या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।

अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा-निर्मलन संदर्भों में इसका उपयोग शायद ही कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विदेशी-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)

प्रक्रिया

डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई मामलों में बहुत कम या कोई प्रोग्रामिंग की आवश्यकता के साथ इंटरैक्टिव रूप से ऐसी जांच करने देंगे। .
वर्कफ़्लो विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे वर्कफ़्लो के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित वर्कफ़्लो प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर बारीकी से विचार करना होगा।
वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-बंद की स्थिति पैदा करता है क्योंकि डेटा-निर्मलन ऑपरेशन का निष्पादन कम्प्यूटेशनल रूप से महंगा हो सकता है।
पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नया चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक साफ़ करने के लिए अतिरिक्त वर्कफ़्लो के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।

अच्छी गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर शुरू किया जाना चाहिए। यह केवल इनपुट स्क्रीन पर मजबूत सत्यापन जांच लागू करने का मामला नहीं है, क्योंकि ये जांच कितनी भी मजबूत क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें अक्सर टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:^[3]^[4]

डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
डेटा एंट्री माहौल को बेहतर बनाने के लिए पैसा खर्च करें
एप्लिकेशन एकीकरण को बेहतर बनाने के लिए पैसा खर्च करें
प्रक्रियाओं के काम करने के तरीके को बदलने के लिए पैसा खर्च करें
शुरू से अंत तक टीम जागरूकता को बढ़ावा देना
अंतर्विभागीय सहयोग को बढ़ावा देना
सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
डेटा गुणवत्ता को लगातार मापें और सुधारें

अन्य में शामिल हैं:

पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए। पार्सर यह तय करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी तरह है जैसे पार्सर व्याकरण और भाषाओं के साथ काम करता है।
डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मूल्य रूपांतरण या अनुवाद फ़ंक्शन, साथ ही न्यूनतम और अधिकतम मूल्यों के अनुरूप संख्यात्मक मानों को सामान्य बनाना शामिल है।
डुप्लिकेट उन्मूलन: डुप्लिकेट का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई के डुप्लिकेट प्रतिनिधित्व शामिल हैं या नहीं। आमतौर पर, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तेजी से पहचान के लिए डुप्लिकेट प्रविष्टियों को साथ लाएगा।
सांख्यिकीय तरीके: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। हालाँकि ऐसे डेटा का सुधार मुश्किल है क्योंकि सही मूल्य ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मूल्य पर मान समूह करके हल किया जा सकता है। लापता मूल्यों को संभालने के लिए सांख्यिकीय तरीकों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मूल्यों से प्रतिस्थापित किया जा सकता है, जो आमतौर पर व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।

प्रणाली

इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के करीब डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। सिस्टम को ऐसा आर्किटेक्चर पेश करना चाहिए जो डेटा को साफ़ कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। अच्छी शुरुआत संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा प्रक्षालन सिस्टम की आवश्यक जटिलता को परिभाषित करने में मदद करेगा और स्रोत सिस्टम में वर्तमान डेटा गुणवत्ता का भी अंदाजा देगा।

गुणवत्ता स्क्रीन

डेटा प्रक्षालन सिस्टम का हिस्सा डायग्नोस्टिक फिल्टर का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि इवेंट स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:

कॉलम स्क्रीन। व्यक्तिगत कॉलम का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; वगैरह।
संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (आमतौर पर विदेशी/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, शायद कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।

जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अलावा कहीं और भेज सकती है या डेटा को टैग कर सकती है। बाद वाले विकल्प को सबसे अच्छा समाधान माना जाता है क्योंकि पहले विकल्प के लिए आवश्यक है कि हर बार समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरे का तात्पर्य है कि लक्ष्य प्रणाली (अखंडता) से डेटा गायब है और यह अक्सर स्पष्ट नहीं है कि क्या होना चाहिए इन डेटा को.

मौजूदा उपकरणों और प्रक्रियाओं की आलोचना

अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:

परियोजना लागत: लागत आम तौर पर सैकड़ों हजारों डॉलर में होती है
समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में महारत हासिल करने में समय लगता है
सुरक्षा: क्रॉस-वैलिडेशन के लिए जानकारी साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील विरासत प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है

त्रुटि घटना स्कीमा

त्रुटि इवेंट स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन आयाम तालिकाओं की विदेशी कुंजियों के साथ त्रुटि घटना तथ्य तालिका शामिल है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के बारे में भी जानकारी होती है। इसके अलावा, मुख्य तालिका में विदेशी कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और फ़ील्ड में त्रुटि हुई और त्रुटि स्थिति के बारे में विस्तृत जानकारी शामिल है।

यह भी देखें

संदर्भ

↑ Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
↑ "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.
↑ Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
↑ Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

अग्रिम पठन

McKinney, Wes (2017). "Data Cleaning and Preparation". Python for Data Analysis (2nd ed.). O'Reilly. pp. 195–224. ISBN 978-1-4919-5766-0.
van der Loo, Mark; de Jonge, Edwin (2018). Statistical Data Cleaning with Applications in R. Hoboken: Wiley. ISBN 978-1-118-89715-7.

बाहरी संबंध

Computerworld: Data Scrubbing (February 10, 2003)
Erhard Rahm, Hong Hai Do: Data Cleaning: Problems and Current Approaches
Data cleansing. Datamanagement.wiki.

[1] Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021

[2] "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.

[3] Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5

[4] Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

[1]

[2]

[3]

[4]

@@ Line 1: / Line 1: @@
 {{short description|Correcting inaccurate computer records}}
-{{distinguish|Sanitization (classified information)|Data scrubbing}}
+{{distinguish|स्वच्छीकरण (वर्गीकृत सूचना)|डेटा  मार्जन}}
-डेटा क्लींजिंग या डेटा क्लीनिंग रिकॉर्ड सेट, टेबल ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या गलत [[ भंडारण रिकार्ड ]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, गलत, गलत या अप्रासंगिक भागों की पहचान करना है और फिर गंदे डेटा या मोटे डेटा को बदलना, संशोधित करना या हटाना।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा सफाई को [[डेटा की गड़बड़ी]] टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन ]] के रूप में [[सहभागितापूर्ण तरीके से]] तरीके से किया जा सकता है।
-सफाई के बाद, [[डेटा सेट]] सिस्टम में अन्य समान डेटा सेट के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, ट्रांसमिशन या भंडारण में भ्रष्टाचार, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। डेटा सफ़ाई डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग हमेशा मतलब होता है कि डेटा को प्रवेश के समय सिस्टम से खारिज कर दिया जाता है और डेटा के बैचों के बजाय प्रवेश के समय किया जाता है।
+डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा सफाई को [[डेटा की गड़बड़ी]] टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से]] तरीके से किया जा सकता है।
-डेटा सफ़ाई की वास्तविक प्रक्रिया [[टंकण त्रुटि]] त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा क्लींजिंग समाधान मान्य डेटा सेट के साथ क्रॉस-चेकिंग करके डेटा को साफ़ कर देंगे। डेटा सफ़ाई का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित जानकारी जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन नंबर के साथ पते जोड़ना। डेटा क्लींजिंग में डेटा का कैनोनिकल फॉर्म#कंप्यूटिंग (या सामान्यीकरण) भी शामिल हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और कॉलमों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा सेट में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से सड़क, सड़क, वगैरह) का विस्तार है।
+सफाई के बाद, [[डेटा सेट|डेटा समूह]] सिस्टम में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, ट्रांसमिशन या भंडारण में भ्रष्टाचार, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। डेटा सफ़ाई डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग हमेशा मतलब होता है कि डेटा को प्रवेश के समय सिस्टम से खारिज कर दिया जाता है और डेटा के बैचों के बजाय प्रवेश के समय किया जाता है।
+डेटा सफ़ाई की वास्तविक प्रक्रिया [[टंकण त्रुटि]] त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन समाधान मान्य डेटा समूह के साथ क्रॉस-चेकिंग करके डेटा को साफ़ कर देंगे। डेटा सफ़ाई का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित जानकारी जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन नंबर के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का कैनोनिकल फॉर्म#कंप्यूटिंग (या सामान्यीकरण) भी शामिल हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और कॉलमों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से सड़क, सड़क, वगैरह) का विस्तार है।
 == प्रेरणा ==
-प्रशासनिक रूप से गलत, असंगत डेटा सार्वजनिक और निजी दोनों स्तरों पर गलत निष्कर्ष और गलत दिशा में [[निवेश]] का कारण बन सकता है। उदाहरण के लिए, [[सरकार]] यह तय करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना चाह सकती है कि किन क्षेत्रों में बुनियादी ढांचे और सेवाओं पर अधिक खर्च और निवेश की आवश्यकता है। इस मामले में, गलत राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में गलत डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क जानकारी, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।
+प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और निजी दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में [[निवेश]] का कारण बन सकता है। उदाहरण के लिए, [[सरकार]] यह तय करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना चाह सकती है कि किन क्षेत्रों में बुनियादी ढांचे और सेवाओं पर अधिक खर्च और निवेश की आवश्यकता है। इस मामले में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क जानकारी, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।
 == डेटा गुणवत्ता ==
-उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के सेट को पारित करने की आवश्यकता होती है। उनमें शामिल हैं:
+उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें शामिल हैं:
 * वैधता: वह डिग्री जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर सिस्टम को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना काफी आसान होता है: अमान्य डेटा मुख्य रूप से विरासत संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
 ** ''डेटा-प्रकार की बाधाएँ'' - उदाहरण के लिए, किसी विशेष कॉलम में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
 ** ''श्रेणी की बाधाएँ:'' आम तौर पर, संख्याएँ या तारीखें निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके पास न्यूनतम और/या अधिकतम अनुमेय मूल्य हैं।
 ** ''अनिवार्य बाधाएँ:'' कुछ कॉलम खाली नहीं हो सकते।
-** ''अद्वितीय बाधाएँ:'' फ़ील्ड, या फ़ील्ड का संयोजन, डेटासेट में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के पास समान सामाजिक सुरक्षा नंबर नहीं हो सकता।
+** ''अद्वितीय बाधाएँ:'' फ़ील्ड, या फ़ील्ड का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के पास समान सामाजिक सुरक्षा नंबर नहीं हो सकता।
-** ''सेट-सदस्यता बाधाएं'': किसी कॉलम के मान अलग-अलग मानों या कोड के सेट से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
+** ''समूह-सदस्यता बाधाएं'': किसी कॉलम के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
-** ''विदेशी-कुंजी बाधाएं'': यह सेट सदस्यता का अधिक सामान्य मामला है। किसी कॉलम में मानों का सेट किसी अन्य तालिका के कॉलम में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य कॉलम को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का सेट अलग राज्य तालिका में दर्ज किया गया है। [[विदेशी कुंजी]] शब्द रिलेशनल डेटाबेस शब्दावली से लिया गया है।
+** ''विदेशी-कुंजी बाधाएं'': यह समूह सदस्यता का अधिक सामान्य मामला है। किसी कॉलम में मानों का समूह किसी अन्य तालिका के कॉलम में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य कॉलम को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। [[विदेशी कुंजी]] शब्द रिलेशनल डेटाबेस शब्दावली से लिया गया है।
 ** ''नियमित अभिव्यक्ति पैटर्न'': कभी-कभी, पाठ फ़ील्ड को इस तरह से मान्य करना होगा। उदाहरण के लिए, फ़ोन नंबरों का पैटर्न (999) 999-9999 होना आवश्यक हो सकता है।
 ** ''क्रॉस-फ़ील्ड सत्यापन'': एकाधिक फ़ील्ड का उपयोग करने वाली कुछ शर्तें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी मरीज की अस्पताल से छुट्टी की तारीख प्रवेश की तारीख से पहले नहीं हो सकती।
-* सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा-क्लीनिंग के माध्यम से सटीकता हासिल करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाहरी स्रोत तक पहुंच की आवश्यकता होती है जिसमें सही मूल्य होता है: ऐसा स्वर्ण मानक डेटा अक्सर अनुपलब्ध होता है। भौगोलिक स्थानों (शहर और राज्य) के ज़िप कोड से मेल खाने वाले बाहरी डेटाबेस का उपयोग करके कुछ सफाई संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में सटीकता हासिल की गई है और यह सत्यापित करने में भी मदद मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वास्तव में मौजूद हैं।
+* सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा-निर्मलन के माध्यम से सटीकता हासिल करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाहरी स्रोत तक पहुंच की आवश्यकता होती है जिसमें सही मूल्य होता है: ऐसा स्वर्ण मानक डेटा अक्सर अनुपलब्ध होता है। भौगोलिक स्थानों (शहर और राज्य) के ज़िप कोड से मेल खाने वाले बाहरी डेटाबेस का उपयोग करके कुछ सफाई संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में सटीकता हासिल की गई है और यह सत्यापित करने में भी मदद मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वास्तव में मौजूद हैं।
-* पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा क्लींजिंग पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा शुरू में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, यानी विषय का फिर से साक्षात्कार करना, लेकिन यह भी याद रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पहले उसने क्या खाया था। उन प्रणालियों के मामले में जो इस बात पर जोर देते हैं कि कुछ कॉलम खाली नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का समाधान कर सकता है जो अज्ञात को इंगित करता है या गायब है, लेकिन डिफ़ॉल्ट मानों की आपूर्ति का मतलब यह नहीं है कि डेटा पूरा कर लिया गया है।)
+* पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा शुरू में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, यानी विषय का फिर से साक्षात्कार करना, लेकिन यह भी याद रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पहले उसने क्या खाया था। उन प्रणालियों के मामले में जो इस बात पर जोर देते हैं कि कुछ कॉलम खाली नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का समाधान कर सकता है जो अज्ञात को इंगित करता है या गायब है, लेकिन डिफ़ॉल्ट मानों की आपूर्ति का मतलब यह नहीं है कि डेटा पूरा कर लिया गया है।)
-* संगति: वह डिग्री जिस तक मापों का सेट एस में समतुल्य हैसिस्टम (संगति भी देखें)। असंगति तब होती है जब डेटा सेट में दो डेटा आइटम एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से केवल ही सही हो सकता है। असंगतता को ठीक करना हमेशा संभव नहीं होता है: इसके लिए कई प्रकार की रणनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह तय करना कि कौन सा डेटा हाल ही में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या बस कोशिश करना दोनों डेटा आइटम (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सच्चाई का पता लगाएं।
+* संगति: वह डिग्री जिस तक मापों का समूह एस में समतुल्य हैसिस्टम (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा आइटम एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से केवल ही सही हो सकता है। असंगतता को ठीक करना हमेशा संभव नहीं होता है: इसके लिए कई प्रकार की रणनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह तय करना कि कौन सा डेटा हाल ही में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या बस कोशिश करना दोनों डेटा आइटम (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सच्चाई का पता लगाएं।
-* एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके सेट डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासेट में, वजन या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
+* एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, वजन या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
-अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा-क्लीनिंग संदर्भों में इसका उपयोग शायद ही कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विदेशी-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)
+अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा-निर्मलन संदर्भों में इसका उपयोग शायद ही कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विदेशी-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)
 == प्रक्रिया ==
-* डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए [[सांख्यिकीय]] और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड क्लींजिंग सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई मामलों में बहुत कम या कोई प्रोग्रामिंग की आवश्यकता के साथ इंटरैक्टिव रूप से ऐसी जांच करने देंगे। .
+* डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए [[सांख्यिकीय]] और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई मामलों में बहुत कम या कोई प्रोग्रामिंग की आवश्यकता के साथ इंटरैक्टिव रूप से ऐसी जांच करने देंगे। .
 * वर्कफ़्लो विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे वर्कफ़्लो के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित वर्कफ़्लो प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर बारीकी से विचार करना होगा।
-* वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े सेट पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-बंद की स्थिति पैदा करता है क्योंकि डेटा-क्लीनिंग ऑपरेशन का निष्पादन कम्प्यूटेशनल रूप से महंगा हो सकता है।
+* वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-बंद की स्थिति पैदा करता है क्योंकि डेटा-निर्मलन ऑपरेशन का निष्पादन कम्प्यूटेशनल रूप से महंगा हो सकता है।
-* पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-क्लीनिंग प्रक्रिया में नया चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक साफ़ करने के लिए अतिरिक्त वर्कफ़्लो के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।
+* पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नया चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक साफ़ करने के लिए अतिरिक्त वर्कफ़्लो के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।
 अच्छी गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर शुरू किया जाना चाहिए। यह केवल इनपुट स्क्रीन पर मजबूत सत्यापन जांच लागू करने का मामला नहीं है, क्योंकि ये जांच कितनी भी मजबूत क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें अक्सर टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref>
@@ Line 49: / Line 50: @@
 * डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मूल्य रूपांतरण या अनुवाद फ़ंक्शन, साथ ही न्यूनतम और अधिकतम मूल्यों के अनुरूप संख्यात्मक मानों को सामान्य बनाना शामिल है।
 * डुप्लिकेट उन्मूलन: डुप्लिकेट का पता लगाने के लिए यह निर्धारित करने के लिए [[कलन विधि]] की आवश्यकता होती है कि डेटा में ही इकाई के डुप्लिकेट प्रतिनिधित्व शामिल हैं या नहीं। आमतौर पर, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तेजी से पहचान के लिए डुप्लिकेट प्रविष्टियों को साथ लाएगा।
-* सांख्यिकीय तरीके: माध्य, [[मानक विचलन]], सीमा (सांख्यिकी), या [[क्लस्टर विश्लेषण]] एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार गलत हैं। हालाँकि ऐसे डेटा का सुधार मुश्किल है क्योंकि सही मूल्य ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मूल्य पर मान सेट करके हल किया जा सकता है। लापता मूल्यों को संभालने के लिए सांख्यिकीय तरीकों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मूल्यों से प्रतिस्थापित किया जा सकता है, जो आमतौर पर व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।
+* सांख्यिकीय तरीके: माध्य, [[मानक विचलन]], सीमा (सांख्यिकी), या [[क्लस्टर विश्लेषण]] एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। हालाँकि ऐसे डेटा का सुधार मुश्किल है क्योंकि सही मूल्य ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मूल्य पर मान समूह करके हल किया जा सकता है। लापता मूल्यों को संभालने के लिए सांख्यिकीय तरीकों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मूल्यों से प्रतिस्थापित किया जा सकता है, जो आमतौर पर व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।
 ==प्रणाली==
-इस प्रणाली का आवश्यक कार्य गंदे डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के करीब डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। सिस्टम को ऐसा आर्किटेक्चर पेश करना चाहिए जो डेटा को साफ़ कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। अच्छी शुरुआत संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा क्लींजिंग सिस्टम की आवश्यक जटिलता को परिभाषित करने में मदद करेगा और स्रोत सिस्टम में वर्तमान डेटा गुणवत्ता का भी अंदाजा देगा।
+इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के करीब डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। सिस्टम को ऐसा आर्किटेक्चर पेश करना चाहिए जो डेटा को साफ़ कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। अच्छी शुरुआत संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा प्रक्षालन सिस्टम की आवश्यक जटिलता को परिभाषित करने में मदद करेगा और स्रोत सिस्टम में वर्तमान डेटा गुणवत्ता का भी अंदाजा देगा।
 ==गुणवत्ता स्क्रीन==
-डेटा क्लींजिंग सिस्टम का हिस्सा डायग्नोस्टिक फिल्टर का सेट है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि इवेंट स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
+डेटा प्रक्षालन सिस्टम का हिस्सा डायग्नोस्टिक फिल्टर का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि इवेंट स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
 * कॉलम स्क्रीन। व्यक्तिगत कॉलम का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; वगैरह।
 * संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (आमतौर पर विदेशी/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
@@ Line 64: / Line 65: @@
 ==मौजूदा उपकरणों और प्रक्रियाओं की आलोचना==
-अधिकांश डेटा क्लींजिंग टूल की प्रयोज्यता में सीमाएँ हैं:
+अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
 * परियोजना लागत: लागत आम तौर पर सैकड़ों हजारों डॉलर में होती है
-* समय: बड़े पैमाने पर डेटा-क्लीनिंग सॉफ़्टवेयर में महारत हासिल करने में समय लगता है
+* समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में महारत हासिल करने में समय लगता है
 * सुरक्षा: क्रॉस-वैलिडेशन के लिए जानकारी साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील विरासत प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है

Anonymous

Search

डेटा क्लीन्सिंग: Difference between revisions

Namespaces

More

Page actions

Revision as of 11:01, 13 July 2023

Contents

प्रेरणा

डेटा गुणवत्ता

प्रक्रिया

प्रणाली

गुणवत्ता स्क्रीन

मौजूदा उपकरणों और प्रक्रियाओं की आलोचना

त्रुटि घटना स्कीमा

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

डेटा क्लीन्सिंग: Difference between revisions

Revision as of 11:01, 13 July 2023

प्रेरणा

डेटा गुणवत्ता

प्रक्रिया

प्रणाली

गुणवत्ता स्क्रीन

मौजूदा उपकरणों और प्रक्रियाओं की आलोचना

त्रुटि घटना स्कीमा

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories