डेटा क्लीन्सिंग: Difference between revisions
No edit summary |
No edit summary |
||
Line 2: | Line 2: | ||
{{distinguish|स्वच्छीकरण (वर्गीकृत सूचना)|डेटा मार्जन}} | {{distinguish|स्वच्छीकरण (वर्गीकृत सूचना)|डेटा मार्जन}} | ||
डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या | डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा प्रक्षालन को [[डेटा की गड़बड़ी|डेटा की]] त्रुटि टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से|सहभागितापूर्ण विधि से]] किया जा सकता है। | ||
प्रक्षालन के बाद, [[डेटा सेट|डेटा समूह]] प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। डेटा प्रक्षालन डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है। | |||
डेटा | डेटा प्रक्षालन की वास्तविक प्रक्रिया [[टंकण त्रुटि]] को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक|स्वानुशासित तर्क]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। डेटा प्रक्षालन का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है। | ||
== प्रेरणा == | == प्रेरणा == | ||
प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और | प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में [[निवेश]] का कारण बन सकता है। उदाहरण के लिए, [[सरकार]] यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी। | ||
== डेटा गुणवत्ता == | == डेटा गुणवत्ता == | ||
उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें | उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं: | ||
* वैधता: वह | * वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं: | ||
** ''डेटा-प्रकार की बाधाएँ'' - उदाहरण के लिए, किसी विशेष | ** ''डेटा-प्रकार की बाधाएँ'' - उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि। | ||
** ''श्रेणी की बाधाएँ:'' | ** ''श्रेणी की बाधाएँ:'' सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं। | ||
** ''अनिवार्य बाधाएँ:'' कुछ | ** ''अनिवार्य बाधाएँ:'' कुछ स्तम्भ रिक्त नहीं हो सकते। | ||
** ''अद्वितीय बाधाएँ:'' | ** ''अद्वितीय बाधाएँ:'' क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है। | ||
** ''समूह-सदस्यता बाधाएं'': किसी | ** ''समूह-सदस्यता बाधाएं'': किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है। | ||
** '' | ** ''विजातीय-कुंजी बाधाएं'': यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। [[विदेशी कुंजी|विजातीय कुंजी]] शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है। | ||
** ''नियमित अभिव्यक्ति | ** ''नियमित अभिव्यक्ति प्रतिरूप'': कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है। | ||
** '' | ** ''अनुप्रस्थ-क्षेत्र सत्यापन'': एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती। | ||
* | * यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं। | ||
* पूर्णता: वह | * पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।) | ||
* संगति: वह | * संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं। | ||
* एकरूपता: वह | * एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए। | ||
अखंडता शब्द में | अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।) | ||
== प्रक्रिया == | == प्रक्रिया == | ||
* डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए [[सांख्यिकीय]] और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक | * डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए [[सांख्यिकीय]] और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामन भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को निम्न बुलेट्स कार्यप्रवाह विनिर्देश और कार्यप्रवाह निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके निकट उच्च-और प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई स्थितियों में बहुत कम या कोई प्रोग्रामन की आवश्यकता के साथ एक दूसरे को प्रभावित करते हुए इस रूप में जांच करने देंगे। | ||
* | * कार्यप्रवाह विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे कार्यप्रवाह के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित कार्यप्रवाह प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर स्पष्टता से विचार करना होगा। | ||
* | * कार्यप्रवाह निष्पादन: इस चरण में, कार्यप्रवाह को उसके विनिर्देश पूर्ण होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। कार्यप्रवाह का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-संवृत की स्थिति उत्पन्न करता है क्योंकि डेटा-निर्मलन संचालन का निष्पादन कम्प्यूटेशनल रूप से बहुमूल्य हो सकता है। | ||
* पोस्ट-प्रोसेसिंग और नियंत्रण: | * पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है। | ||
ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref> | |||
* डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें | * डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें | ||
* कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं | * कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं | ||
* डेटा एंट्री | * डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें | ||
* एप्लिकेशन एकीकरण को | * एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें | ||
* प्रक्रियाओं के | * प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें | ||
* | * प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना | ||
* अंतर्विभागीय सहयोग को बढ़ावा देना | * अंतर्विभागीय सहयोग को बढ़ावा देना | ||
* सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं | * सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं | ||
* डेटा गुणवत्ता को | * डेटा गुणवत्ता को निरंतर मापें और सुधारें | ||
अन्य में | अन्य में सम्मिलित हैं: | ||
* पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के | * पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर [[व्याकरण]] और भाषाओं के साथ कार्य करता है। | ||
* डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें | * डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है। | ||
* | * अनुकृति उन्मूलन: अनुकृति का पता लगाने के लिए यह निर्धारित करने के लिए [[कलन विधि]] की आवश्यकता होती है कि डेटा में ही इकाई की अनुकृति प्रतिनिधित्व सम्मिलित हैं या नहीं। सामान्यतः, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तीव्रता से पहचान के लिए अनुकृति प्रविष्टियों को साथ लाएगा। | ||
* सांख्यिकीय | * सांख्यिकीय विधि: माध्य, [[मानक विचलन]], सीमा (सांख्यिकी), या [[क्लस्टर विश्लेषण]] एल्गोरिदम के मानों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मानों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। यद्यपि ऐसे डेटा का सुधार जटिल है क्योंकि उचित मान ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मान पर मान समूह करके हल किया जा सकता है। लुप्त मानों को संभालने के लिए सांख्यिकीय विधियों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मानों से प्रतिस्थापित किया जा सकता है, जो सामान्यतः व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं। | ||
==प्रणाली== | ==प्रणाली== | ||
इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के | इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा प्रक्षालन प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा। | ||
==गुणवत्ता स्क्रीन== | ==गुणवत्ता स्क्रीन== | ||
डेटा प्रक्षालन | डेटा प्रक्षालन प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है: | ||
* | * स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि। | ||
* संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों ( | * संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए। | ||
* बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, | * बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए। | ||
जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के | जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है। | ||
== | बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए। | ||
==वर्तमान उपकरणों और प्रक्रियाओं की आलोचना== | |||
अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं: | अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं: | ||
* परियोजना लागत: लागत | * परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है | ||
* समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में | * समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है | ||
* सुरक्षा: | * सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है | ||
==त्रुटि घटना स्कीमा== | ==त्रुटि घटना स्कीमा== | ||
त्रुटि | त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना [[तथ्य तालिका]] सम्मिलित है जो दिनांक (कब), [[बैच जॉब]] (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है। | ||
== यह भी देखें == | == यह भी देखें == | ||
* [[डेटा संपादन]] | * [[डेटा संपादन]] | ||
* [[डेटा खनन]] | * [[डेटा खनन]] | ||
* [[डेटाबेस मरम्मत]] | * [[डेटाबेस मरम्मत|डेटाबेस सुधार]] | ||
* [[पुनरावृत्तीय आनुपातिक फिटिंग]] | * [[पुनरावृत्तीय आनुपातिक फिटिंग|पुनरावृत्तीय आनुपातिक यथार्थ]] | ||
* [[रिकॉर्ड लिंकेज]] | * [[रिकॉर्ड लिंकेज|रिकॉर्ड सहलग्नता]] | ||
* [[एकल ग्राहक दृश्य]] | * [[एकल ग्राहक दृश्य|एकल ग्राहक दृष्टि]] | ||
*त्रिकोणीकरण (सामाजिक विज्ञान) | *त्रिकोणीकरण (सामाजिक विज्ञान) | ||
Line 88: | Line 89: | ||
* {{cite book |first=Wes |last=McKinney |title=Python for Data Analysis |edition=2nd |location= |publisher=O'Reilly |year=2017 |isbn=978-1-4919-5766-0 |chapter=Data Cleaning and Preparation |pages=195–224 }} | * {{cite book |first=Wes |last=McKinney |title=Python for Data Analysis |edition=2nd |location= |publisher=O'Reilly |year=2017 |isbn=978-1-4919-5766-0 |chapter=Data Cleaning and Preparation |pages=195–224 }} | ||
* {{cite book |last=van der Loo |first=Mark |first2=Edwin |last2=de Jonge |title=Statistical Data Cleaning with Applications in R |location=Hoboken |publisher=Wiley |year=2018 |isbn=978-1-118-89715-7 }} | * {{cite book |last=van der Loo |first=Mark |first2=Edwin |last2=de Jonge |title=Statistical Data Cleaning with Applications in R |location=Hoboken |publisher=Wiley |year=2018 |isbn=978-1-118-89715-7 }} | ||
== | == बाह्य संबंध == | ||
* [https://web.archive.org/web/20100313055016/http://www.computerworld.com/s/article/78230/Data_Scrubbing ''Computerworld: Data Scrubbing''] (February 10, 2003) | * [https://web.archive.org/web/20100313055016/http://www.computerworld.com/s/article/78230/Data_Scrubbing ''Computerworld: Data Scrubbing''] (February 10, 2003) | ||
* Erhard Rahm, Hong Hai Do: [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.98.8661&rep=rep1&type=pdf ''Data Cleaning: Problems and Current Approaches''] | * Erhard Rahm, Hong Hai Do: [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.98.8661&rep=rep1&type=pdf ''Data Cleaning: Problems and Current Approaches''] |
Revision as of 11:50, 13 July 2023
डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।[1] डेटा प्रक्षालन को डेटा की त्रुटि टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण विधि से किया जा सकता है।
प्रक्षालन के बाद, डेटा समूह प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। डेटा प्रक्षालन डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।
डेटा प्रक्षालन की वास्तविक प्रक्रिया टंकण त्रुटि को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या स्वानुशासित तर्क या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। डेटा प्रक्षालन का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।[2] और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।
प्रेरणा
प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। उदाहरण के लिए, सरकार यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।
डेटा गुणवत्ता
उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं:
- वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
- डेटा-प्रकार की बाधाएँ - उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
- श्रेणी की बाधाएँ: सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं।
- अनिवार्य बाधाएँ: कुछ स्तम्भ रिक्त नहीं हो सकते।
- अद्वितीय बाधाएँ: क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है।
- समूह-सदस्यता बाधाएं: किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
- विजातीय-कुंजी बाधाएं: यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विजातीय कुंजी शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है।
- नियमित अभिव्यक्ति प्रतिरूप: कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है।
- अनुप्रस्थ-क्षेत्र सत्यापन: एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
- यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
- पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
- संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
- एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)
प्रक्रिया
- डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामन भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को निम्न बुलेट्स कार्यप्रवाह विनिर्देश और कार्यप्रवाह निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके निकट उच्च-और प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई स्थितियों में बहुत कम या कोई प्रोग्रामन की आवश्यकता के साथ एक दूसरे को प्रभावित करते हुए इस रूप में जांच करने देंगे।
- कार्यप्रवाह विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे कार्यप्रवाह के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित कार्यप्रवाह प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर स्पष्टता से विचार करना होगा।
- कार्यप्रवाह निष्पादन: इस चरण में, कार्यप्रवाह को उसके विनिर्देश पूर्ण होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। कार्यप्रवाह का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-संवृत की स्थिति उत्पन्न करता है क्योंकि डेटा-निर्मलन संचालन का निष्पादन कम्प्यूटेशनल रूप से बहुमूल्य हो सकता है।
- पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।
ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:[3][4]
- डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
- कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
- डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें
- एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें
- प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें
- प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना
- अंतर्विभागीय सहयोग को बढ़ावा देना
- सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
- डेटा गुणवत्ता को निरंतर मापें और सुधारें
अन्य में सम्मिलित हैं:
- पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर व्याकरण और भाषाओं के साथ कार्य करता है।
- डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है।
- अनुकृति उन्मूलन: अनुकृति का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई की अनुकृति प्रतिनिधित्व सम्मिलित हैं या नहीं। सामान्यतः, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तीव्रता से पहचान के लिए अनुकृति प्रविष्टियों को साथ लाएगा।
- सांख्यिकीय विधि: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मानों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मानों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। यद्यपि ऐसे डेटा का सुधार जटिल है क्योंकि उचित मान ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मान पर मान समूह करके हल किया जा सकता है। लुप्त मानों को संभालने के लिए सांख्यिकीय विधियों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मानों से प्रतिस्थापित किया जा सकता है, जो सामान्यतः व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।
प्रणाली
इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा प्रक्षालन प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।
गुणवत्ता स्क्रीन
डेटा प्रक्षालन प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
- स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
- संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
- बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।
जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।
बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए।
वर्तमान उपकरणों और प्रक्रियाओं की आलोचना
अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
- परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है
- समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है
- सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है
त्रुटि घटना स्कीमा
त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना तथ्य तालिका सम्मिलित है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है।
यह भी देखें
- डेटा संपादन
- डेटा खनन
- डेटाबेस सुधार
- पुनरावृत्तीय आनुपातिक यथार्थ
- रिकॉर्ड सहलग्नता
- एकल ग्राहक दृष्टि
- त्रिकोणीकरण (सामाजिक विज्ञान)
संदर्भ
- ↑ Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
- ↑ "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.
- ↑ Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
- ↑ Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5
अग्रिम पठन
- McKinney, Wes (2017). "Data Cleaning and Preparation". Python for Data Analysis (2nd ed.). O'Reilly. pp. 195–224. ISBN 978-1-4919-5766-0.
- van der Loo, Mark; de Jonge, Edwin (2018). Statistical Data Cleaning with Applications in R. Hoboken: Wiley. ISBN 978-1-118-89715-7.
बाह्य संबंध
- Computerworld: Data Scrubbing (February 10, 2003)
- Erhard Rahm, Hong Hai Do: Data Cleaning: Problems and Current Approaches
- Data cleansing. Datamanagement.wiki.