डेटा क्लीन्सिंग

From Vigyanwiki
Revision as of 23:09, 12 July 2023 by alpha>Aagman

डेटा क्लींजिंग या डेटा क्लीनिंग रिकॉर्ड सेट, टेबल (डेटाबेस) या डेटाबेस से भ्रष्ट या गलत भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, गलत, गलत या अप्रासंगिक भागों की पहचान करना है और फिर गंदे डेटा या मोटे डेटा को बदलना, संशोधित करना या हटाना।[1] डेटा सफाई को डेटा की गड़बड़ी टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण तरीके से तरीके से किया जा सकता है।

सफाई के बाद, डेटा सेट सिस्टम में अन्य समान डेटा सेट के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, ट्रांसमिशन या भंडारण में भ्रष्टाचार, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। डेटा सफ़ाई डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग हमेशा मतलब होता है कि डेटा को प्रवेश के समय सिस्टम से खारिज कर दिया जाता है और डेटा के बैचों के बजाय प्रवेश के समय किया जाता है।

डेटा सफ़ाई की वास्तविक प्रक्रिया टंकण त्रुटि त्रुटियों को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मूल्यों को मान्य करना और सही करना शामिल हो सकता है। सत्यापन सख्त हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या फजी लॉजिक या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को सही करना जो मौजूदा, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा क्लींजिंग समाधान मान्य डेटा सेट के साथ क्रॉस-चेकिंग करके डेटा को साफ़ कर देंगे। डेटा सफ़ाई का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित जानकारी जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन नंबर के साथ पते जोड़ना। डेटा क्लींजिंग में डेटा का कैनोनिकल फॉर्म#कंप्यूटिंग (या सामान्यीकरण) भी शामिल हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और कॉलमों के डेटा को साथ लाने की प्रक्रिया है।[2] और इसे समेकित डेटा सेट में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से सड़क, सड़क, वगैरह) का विस्तार है।

प्रेरणा

प्रशासनिक रूप से गलत, असंगत डेटा सार्वजनिक और निजी दोनों स्तरों पर गलत निष्कर्ष और गलत दिशा में निवेश का कारण बन सकता है। उदाहरण के लिए, सरकार यह तय करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना चाह सकती है कि किन क्षेत्रों में बुनियादी ढांचे और सेवाओं पर अधिक खर्च और निवेश की आवश्यकता है। इस मामले में, गलत राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में गलत डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क जानकारी, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक ​​कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।

डेटा गुणवत्ता

उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के सेट को पारित करने की आवश्यकता होती है। उनमें शामिल हैं:

  • वैधता: वह डिग्री जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर सिस्टम को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना काफी आसान होता है: अमान्य डेटा मुख्य रूप से विरासत संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
    • डेटा-प्रकार की बाधाएँ - उदाहरण के लिए, किसी विशेष कॉलम में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
    • श्रेणी की बाधाएँ: आम तौर पर, संख्याएँ या तारीखें निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके पास न्यूनतम और/या अधिकतम अनुमेय मूल्य हैं।
    • अनिवार्य बाधाएँ: कुछ कॉलम खाली नहीं हो सकते।
    • अद्वितीय बाधाएँ: फ़ील्ड, या फ़ील्ड का संयोजन, डेटासेट में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के पास समान सामाजिक सुरक्षा नंबर नहीं हो सकता।
    • सेट-सदस्यता बाधाएं: किसी कॉलम के मान अलग-अलग मानों या कोड के सेट से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
    • विदेशी-कुंजी बाधाएं: यह सेट सदस्यता का अधिक सामान्य मामला है। किसी कॉलम में मानों का सेट किसी अन्य तालिका के कॉलम में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य कॉलम को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का सेट अलग राज्य तालिका में दर्ज किया गया है। विदेशी कुंजी शब्द रिलेशनल डेटाबेस शब्दावली से लिया गया है।
    • नियमित अभिव्यक्ति पैटर्न: कभी-कभी, पाठ फ़ील्ड को इस तरह से मान्य करना होगा। उदाहरण के लिए, फ़ोन नंबरों का पैटर्न (999) 999-9999 होना आवश्यक हो सकता है।
    • क्रॉस-फ़ील्ड सत्यापन: एकाधिक फ़ील्ड का उपयोग करने वाली कुछ शर्तें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी मरीज की अस्पताल से छुट्टी की तारीख प्रवेश की तारीख से पहले नहीं हो सकती।
  • सटीकता: किसी मानक या वास्तविक मूल्य के माप की अनुरूपता की डिग्री - सटीकता और परिशुद्धता भी देखें। सामान्य मामले में डेटा-क्लीनिंग के माध्यम से सटीकता हासिल करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाहरी स्रोत तक पहुंच की आवश्यकता होती है जिसमें सही मूल्य होता है: ऐसा स्वर्ण मानक डेटा अक्सर अनुपलब्ध होता है। भौगोलिक स्थानों (शहर और राज्य) के ज़िप कोड से मेल खाने वाले बाहरी डेटाबेस का उपयोग करके कुछ सफाई संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में सटीकता हासिल की गई है और यह सत्यापित करने में भी मदद मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वास्तव में मौजूद हैं।
  • पूर्णता: वह डिग्री जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा क्लींजिंग पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा शुरू में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, यानी विषय का फिर से साक्षात्कार करना, लेकिन यह भी याद रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पहले उसने क्या खाया था। उन प्रणालियों के मामले में जो इस बात पर जोर देते हैं कि कुछ कॉलम खाली नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का समाधान कर सकता है जो अज्ञात को इंगित करता है या गायब है, लेकिन डिफ़ॉल्ट मानों की आपूर्ति का मतलब यह नहीं है कि डेटा पूरा कर लिया गया है।)
  • संगति: वह डिग्री जिस तक मापों का सेट एस में समतुल्य हैसिस्टम (संगति भी देखें)। असंगति तब होती है जब डेटा सेट में दो डेटा आइटम एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से केवल ही सही हो सकता है। असंगतता को ठीक करना हमेशा संभव नहीं होता है: इसके लिए कई प्रकार की रणनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह तय करना कि कौन सा डेटा हाल ही में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या बस कोशिश करना दोनों डेटा आइटम (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सच्चाई का पता लगाएं।
  • एकरूपता: वह डिग्री जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके सेट डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासेट में, वजन या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।

अखंडता शब्द में सटीकता, स्थिरता और सत्यापन के कुछ पहलू शामिल हैं (डेटा अखंडता भी देखें) लेकिन डेटा-क्लीनिंग संदर्भों में इसका उपयोग शायद ही कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विदेशी-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)

प्रक्रिया

  • डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामिंग भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को नीचे बुलेट्स वर्कफ़्लो विनिर्देश और वर्कफ़्लो निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके पास हाई-एंड क्लींजिंग सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई मामलों में बहुत कम या कोई प्रोग्रामिंग की आवश्यकता के साथ इंटरैक्टिव रूप से ऐसी जांच करने देंगे। .
  • वर्कफ़्लो विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे वर्कफ़्लो के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित वर्कफ़्लो प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर बारीकी से विचार करना होगा।
  • वर्कफ़्लो निष्पादन: इस चरण में, वर्कफ़्लो को उसके विनिर्देश पूरा होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। वर्कफ़्लो का कार्यान्वयन डेटा के बड़े सेट पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-बंद की स्थिति पैदा करता है क्योंकि डेटा-क्लीनिंग ऑपरेशन का निष्पादन कम्प्यूटेशनल रूप से महंगा हो सकता है।
  • पोस्ट-प्रोसेसिंग और नियंत्रण: सफाई वर्कफ़्लो को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। वर्कफ़्लो के निष्पादन के दौरान जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-क्लीनिंग प्रक्रिया में नया चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक साफ़ करने के लिए अतिरिक्त वर्कफ़्लो के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।

अच्छी गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर शुरू किया जाना चाहिए। यह केवल इनपुट स्क्रीन पर मजबूत सत्यापन जांच लागू करने का मामला नहीं है, क्योंकि ये जांच कितनी भी मजबूत क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें अक्सर टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:[3][4]

  • डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
  • कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
  • डेटा एंट्री माहौल को बेहतर बनाने के लिए पैसा खर्च करें
  • एप्लिकेशन एकीकरण को बेहतर बनाने के लिए पैसा खर्च करें
  • प्रक्रियाओं के काम करने के तरीके को बदलने के लिए पैसा खर्च करें
  • शुरू से अंत तक टीम जागरूकता को बढ़ावा देना
  • अंतर्विभागीय सहयोग को बढ़ावा देना
  • सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
  • डेटा गुणवत्ता को लगातार मापें और सुधारें

अन्य में शामिल हैं:

  • पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए। पार्सर यह तय करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी तरह है जैसे पार्सर व्याकरण और भाषाओं के साथ काम करता है।
  • डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मूल्य रूपांतरण या अनुवाद फ़ंक्शन, साथ ही न्यूनतम और अधिकतम मूल्यों के अनुरूप संख्यात्मक मानों को सामान्य बनाना शामिल है।
  • डुप्लिकेट उन्मूलन: डुप्लिकेट का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई के डुप्लिकेट प्रतिनिधित्व शामिल हैं या नहीं। आमतौर पर, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तेजी से पहचान के लिए डुप्लिकेट प्रविष्टियों को साथ लाएगा।
  • सांख्यिकीय तरीके: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मूल्यों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मूल्यों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार गलत हैं। हालाँकि ऐसे डेटा का सुधार मुश्किल है क्योंकि सही मूल्य ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मूल्य पर मान सेट करके हल किया जा सकता है। लापता मूल्यों को संभालने के लिए सांख्यिकीय तरीकों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मूल्यों से प्रतिस्थापित किया जा सकता है, जो आमतौर पर व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।

प्रणाली

इस प्रणाली का आवश्यक कार्य गंदे डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के करीब डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। सिस्टम को ऐसा आर्किटेक्चर पेश करना चाहिए जो डेटा को साफ़ कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। अच्छी शुरुआत संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा क्लींजिंग सिस्टम की आवश्यक जटिलता को परिभाषित करने में मदद करेगा और स्रोत सिस्टम में वर्तमान डेटा गुणवत्ता का भी अंदाजा देगा।

गुणवत्ता स्क्रीन

डेटा क्लींजिंग सिस्टम का हिस्सा डायग्नोस्टिक फिल्टर का सेट है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि इवेंट स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:

  • कॉलम स्क्रीन। व्यक्तिगत कॉलम का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; वगैरह।
  • संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (आमतौर पर विदेशी/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
  • बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, शायद कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।

जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अलावा कहीं और भेज सकती है या डेटा को टैग कर सकती है। बाद वाले विकल्प को सबसे अच्छा समाधान माना जाता है क्योंकि पहले विकल्प के लिए आवश्यक है कि हर बार समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरे का तात्पर्य है कि लक्ष्य प्रणाली (अखंडता) से डेटा गायब है और यह अक्सर स्पष्ट नहीं है कि क्या होना चाहिए इन डेटा को.

मौजूदा उपकरणों और प्रक्रियाओं की आलोचना

अधिकांश डेटा क्लींजिंग टूल की प्रयोज्यता में सीमाएँ हैं:

  • परियोजना लागत: लागत आम तौर पर सैकड़ों हजारों डॉलर में होती है
  • समय: बड़े पैमाने पर डेटा-क्लीनिंग सॉफ़्टवेयर में महारत हासिल करने में समय लगता है
  • सुरक्षा: क्रॉस-वैलिडेशन के लिए जानकारी साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील विरासत प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है

त्रुटि घटना स्कीमा

त्रुटि इवेंट स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन आयाम तालिकाओं की विदेशी कुंजियों के साथ त्रुटि घटना तथ्य तालिका शामिल है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के बारे में भी जानकारी होती है। इसके अलावा, मुख्य तालिका में विदेशी कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और फ़ील्ड में त्रुटि हुई और त्रुटि स्थिति के बारे में विस्तृत जानकारी शामिल है।

यह भी देखें

संदर्भ

  1. Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
  2. "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.
  3. Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
  4. Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

अग्रिम पठन

  • McKinney, Wes (2017). "Data Cleaning and Preparation". Python for Data Analysis (2nd ed.). O'Reilly. pp. 195–224. ISBN 978-1-4919-5766-0.
  • van der Loo, Mark; de Jonge, Edwin (2018). Statistical Data Cleaning with Applications in R. Hoboken: Wiley. ISBN 978-1-118-89715-7.

बाहरी संबंध