डेटा क्लीन्सिंग: Difference between revisions

Revision as of 16:35, 13 July 2023

डेटा प्रक्षालन या डेटा क्लीन्सिंग रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।^[1] डेटा क्लीन्सिंग को डेटा की त्रुटि टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण विधि से किया जा सकता है।

इस प्रकार से प्रक्षालन के बाद, डेटा समूह प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। अतः डेटा क्लीन्सिंग डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।

डेटा क्लीन्सिंग की वास्तविक प्रक्रिया टंकण त्रुटि को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या स्वानुशासित तर्क या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा क्लीन्सिंग हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा क्लीन्सिंग का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा क्लीन्सिंग में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।^[2] और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।

प्रेरणा

अतः प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। इस प्रकार से उदाहरण के लिए, सरकार यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। इस प्रकार से उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।

डेटा गुणवत्ता

इस प्रकार से उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं:

वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। इस प्रकार से डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
- डेटा-प्रकार की बाधाएँ - इस प्रकार से उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, इस प्रकार से उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
- श्रेणी की बाधाएँ: सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं।
- अनिवार्य बाधाएँ: कुछ स्तम्भ रिक्त नहीं हो सकते।
- अद्वितीय बाधाएँ: क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। इस प्रकार से उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है।
- समूह-सदस्यता बाधाएं: किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। इस प्रकार से उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
- विजातीय-कुंजी बाधाएं: यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। इस प्रकार से उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विजातीय कुंजी शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है।
- नियमित अभिव्यक्ति प्रतिरूप: कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। इस प्रकार से उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है।
- अनुप्रस्थ-क्षेत्र सत्यापन: एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा क्लीन्सिंग पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।

इस प्रकार से अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (इस प्रकार से उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)

प्रक्रिया

डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामन भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को निम्न बुलेट्स कार्यप्रवाह विनिर्देश और कार्यप्रवाह निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके निकट उच्च-और प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई स्थितियों में बहुत कम या कोई प्रोग्रामन की आवश्यकता के साथ एक दूसरे को प्रभावित करते हुए इस रूप में जांच करने देंगे।
कार्यप्रवाह विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे कार्यप्रवाह के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित कार्यप्रवाह प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर स्पष्टता से विचार करना होगा।
कार्यप्रवाह निष्पादन: इस चरण में, कार्यप्रवाह को उसके विनिर्देश पूर्ण होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। कार्यप्रवाह का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-संवृत की स्थिति उत्पन्न करता है क्योंकि डेटा-निर्मलन संचालन का निष्पादन कम्प्यूटेशनल रूप से बहुमूल्य हो सकता है।
पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।

अतः ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। इस प्रकार से उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:^[3]^[4]

डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें
एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें
प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें
प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना
अंतर्विभागीय सहयोग को बढ़ावा देना
सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
डेटा गुणवत्ता को निरंतर मापें और सुधारें

इस प्रकार से अन्य में सम्मिलित हैं:

पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर व्याकरण और भाषाओं के साथ कार्य करता है।
डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है।
अनुकृति उन्मूलन: अनुकृति का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई की अनुकृति प्रतिनिधित्व सम्मिलित हैं या नहीं। सामान्यतः, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तीव्रता से पहचान के लिए अनुकृति प्रविष्टियों को साथ लाएगा।
सांख्यिकीय विधि: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मानों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मानों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। यद्यपि ऐसे डेटा का सुधार जटिल है क्योंकि उचित मान ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मान पर मान समूह करके हल किया जा सकता है। लुप्त मानों को संभालने के लिए सांख्यिकीय विधियों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मानों से प्रतिस्थापित किया जा सकता है, जो सामान्यतः व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।

प्रणाली

अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा क्लीन्सिंग प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।

गुणवत्ता स्क्रीन

डेटा क्लीन्सिंग प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:

स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।

इस प्रकार से जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।

अतः बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए।

वर्तमान उपकरणों और प्रक्रियाओं की आलोचना

इस प्रकार से अधिकांश डेटा क्लीन्सिंग टूल की प्रयोज्यता में सीमाएँ हैं:

परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है
समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है
सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है

त्रुटि घटना स्कीमा

अतः त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना तथ्य तालिका सम्मिलित है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इस प्रकार से इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है।

यह भी देखें

संदर्भ

↑ Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
↑ "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.
↑ Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
↑ Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

अग्रिम पठन

McKinney, Wes (2017). "Data Cleaning and Preparation". Python for Data Analysis (2nd ed.). O'Reilly. pp. 195–224. ISBN 978-1-4919-5766-0.
van der Loo, Mark; de Jonge, Edwin (2018). Statistical Data Cleaning with Applications in R. Hoboken: Wiley. ISBN 978-1-118-89715-7.

बाह्य संबंध

Computerworld: Data Scrubbing (February 10, 2003)
Erhard Rahm, Hong Hai Do: Data Cleaning: Problems and Current Approaches
Data cleansing. Datamanagement.wiki.

[1] Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021

[2] "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.

[3] Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5

[4] Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

[1]

[2]

[3]

[4]

@@ Line 2: / Line 2: @@
 {{distinguish|स्वच्छीकरण (वर्गीकृत सूचना)|डेटा  मार्जन}}
-डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा प्रक्षालन को [[डेटा की गड़बड़ी|डेटा की]] त्रुटि टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से|सहभागितापूर्ण विधि से]] किया जा सकता है।
+'''डेटा प्रक्षालन या [[डेटा क्लीन्सिंग]]''' रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा क्लीन्सिंग को [[डेटा की गड़बड़ी|डेटा की]] त्रुटि टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से|सहभागितापूर्ण विधि से]] किया जा सकता है।
-इस प्रकार से प्रक्षालन के बाद, [[डेटा सेट|डेटा समूह]] प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। अतः डेटा प्रक्षालन डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।
+इस प्रकार से प्रक्षालन के बाद, [[डेटा सेट|डेटा समूह]] प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। अतः डेटा क्लीन्सिंग डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।
-डेटा प्रक्षालन की वास्तविक प्रक्रिया [[टंकण त्रुटि]] को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक|स्वानुशासित तर्क]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा प्रक्षालन का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।
+डेटा क्लीन्सिंग की वास्तविक प्रक्रिया [[टंकण त्रुटि]] को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक|स्वानुशासित तर्क]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा क्लीन्सिंग हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा क्लीन्सिंग का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा क्लीन्सिंग में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।
 == प्रेरणा ==
@@ Line 23: / Line 23: @@
 ** ''अनुप्रस्थ-क्षेत्र सत्यापन'': एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
 * यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
-* पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
+* पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा क्लीन्सिंग पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
 * संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
 * एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
@@ Line 53: / Line 53: @@
 ==प्रणाली==
-अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा प्रक्षालन प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।
+अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा क्लीन्सिंग प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।
 ==गुणवत्ता स्क्रीन==
-डेटा प्रक्षालन प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
+डेटा क्लीन्सिंग प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
 * स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
 * संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
@@ Line 66: / Line 66: @@
 ==वर्तमान उपकरणों और प्रक्रियाओं की आलोचना==
-इस प्रकार से अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
+इस प्रकार से अधिकांश डेटा क्लीन्सिंग टूल की प्रयोज्यता में सीमाएँ हैं:
 * परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है
 * समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है

Anonymous

Search

डेटा क्लीन्सिंग: Difference between revisions

Namespaces

More

Page actions

Revision as of 16:35, 13 July 2023

Contents

प्रेरणा

डेटा गुणवत्ता

प्रक्रिया

प्रणाली

गुणवत्ता स्क्रीन

वर्तमान उपकरणों और प्रक्रियाओं की आलोचना

त्रुटि घटना स्कीमा

यह भी देखें

संदर्भ

अग्रिम पठन

बाह्य संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

डेटा क्लीन्सिंग: Difference between revisions

Revision as of 16:35, 13 July 2023

प्रेरणा

डेटा गुणवत्ता

प्रक्रिया

प्रणाली

गुणवत्ता स्क्रीन

वर्तमान उपकरणों और प्रक्रियाओं की आलोचना

त्रुटि घटना स्कीमा

यह भी देखें

संदर्भ

अग्रिम पठन

बाह्य संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories