डेटा क्लीन्सिंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 4: Line 4:
डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा प्रक्षालन को [[डेटा की गड़बड़ी|डेटा की]] त्रुटि टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से|सहभागितापूर्ण विधि से]] किया जा सकता है।
डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका ([[डेटाबेस]]) या डेटाबेस से भ्रष्ट या अशुद्ध [[ भंडारण रिकार्ड |भंडारण रिकार्ड]] का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।<ref>{{Citation | year = 2013 |last1=Wu |first1 = S. |title= A review on coarse warranty data and analysis | journal = Reliability Engineering and System |volume = 114 |pages=1–11 |doi=10.1016/j.ress.2012.12.021|url=https://kar.kent.ac.uk/32972/1/LatestVersionV01.pdf }}</ref> डेटा प्रक्षालन को [[डेटा की गड़बड़ी|डेटा की]] त्रुटि टूल के साथ, या [[स्क्रिप्ट (कंप्यूटिंग)]] या [[डेटा गुणवत्ता फ़ायरवॉल]] के माध्यम से [[ प्रचय संसाधन |प्रचय संसाधन]] के रूप में [[सहभागितापूर्ण तरीके से|सहभागितापूर्ण विधि से]] किया जा सकता है।


प्रक्षालन के बाद, [[डेटा सेट|डेटा समूह]] प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। डेटा प्रक्षालन डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।
इस प्रकार से प्रक्षालन के बाद, [[डेटा सेट|डेटा समूह]] प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न [[डेटा शब्दकोश]] परिभाषाओं के कारण हो सकती हैं। अतः डेटा प्रक्षालन डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।


डेटा प्रक्षालन की वास्तविक प्रक्रिया [[टंकण त्रुटि]] को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक|स्वानुशासित तर्क]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। डेटा प्रक्षालन का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।
डेटा प्रक्षालन की वास्तविक प्रक्रिया [[टंकण त्रुटि]] को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध [[डाक कोड]] नहीं है), या [[फजी लॉजिक|स्वानुशासित तर्क]] या [[अनुमानित स्ट्रिंग मिलान]] के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा प्रक्षालन का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।<ref>{{cite web |title=Data 101: What is Data Harmonization? |url=https://datorama.com/blog/2017/04/14/data-101-what-is-data-harmonization/ |website=Datorama |access-date=14 August 2019 |language=en |date=14 April 2017}}</ref> और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।


== प्रेरणा ==
== प्रेरणा ==
प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में [[निवेश]] का कारण बन सकता है। उदाहरण के लिए, [[सरकार]] यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक ​​कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।
अतः प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में [[निवेश]] का कारण बन सकता है। इस प्रकार से उदाहरण के लिए, [[सरकार]] यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। इस प्रकार से उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक ​​कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।


== डेटा गुणवत्ता ==
== डेटा गुणवत्ता ==
उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं:
इस प्रकार से उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं:
* वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
* वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। इस प्रकार से डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
** ''डेटा-प्रकार की बाधाएँ'' - उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
** ''डेटा-प्रकार की बाधाएँ'' - इस प्रकार से उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, इस प्रकार से उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
** ''श्रेणी की बाधाएँ:'' सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं।
** ''श्रेणी की बाधाएँ:'' सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं।
** ''अनिवार्य बाधाएँ:'' कुछ स्तम्भ रिक्त नहीं हो सकते।
** ''अनिवार्य बाधाएँ:'' कुछ स्तम्भ रिक्त नहीं हो सकते।
** ''अद्वितीय बाधाएँ:'' क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है।
** ''अद्वितीय बाधाएँ:'' क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। इस प्रकार से उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है।
** ''समूह-सदस्यता बाधाएं'': किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
** ''समूह-सदस्यता बाधाएं'': किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। इस प्रकार से उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
** ''विजातीय-कुंजी बाधाएं'': यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। [[विदेशी कुंजी|विजातीय कुंजी]] शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है।
** ''विजातीय-कुंजी बाधाएं'': यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। इस प्रकार से उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। [[विदेशी कुंजी|विजातीय कुंजी]] शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है।
** ''नियमित अभिव्यक्ति प्रतिरूप'': कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है।
** ''नियमित अभिव्यक्ति प्रतिरूप'': कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। इस प्रकार से उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है।
** ''अनुप्रस्थ-क्षेत्र सत्यापन'': एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
** ''अनुप्रस्थ-क्षेत्र सत्यापन'': एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
* यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
* यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
* पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
* पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
* संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
* संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
* एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।
* एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।


अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)
इस प्रकार से अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (इस प्रकार से उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)


== प्रक्रिया ==
== प्रक्रिया ==
Line 35: Line 35:
* पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।
* पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।


ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref>
अतः ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। इस प्रकार से उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:<ref>Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. ''The Data Warehouse Lifecycle Toolkit'', Wiley Publishing, Inc., 2008. {{ISBN|978-0-470-14977-5}}</ref><ref>Olson, J. E. ''Data Quality: The Accuracy Dimension", [[Morgan Kaufmann]], 2002. {{ISBN|1-55860-891-5}}''</ref>
* डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
* डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
* कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
* कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
Line 46: Line 46:
* डेटा गुणवत्ता को निरंतर मापें और सुधारें
* डेटा गुणवत्ता को निरंतर मापें और सुधारें


अन्य में सम्मिलित हैं:
इस प्रकार से अन्य में सम्मिलित हैं:
* पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर [[व्याकरण]] और भाषाओं के साथ कार्य करता है।
* पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर [[व्याकरण]] और भाषाओं के साथ कार्य करता है।
* डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है।
* डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है।
Line 53: Line 53:


==प्रणाली==
==प्रणाली==
इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा प्रक्षालन प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।
अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और [[डेटा वेयरहाउस]] में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण [[डेटा प्रोफाइलिंग]] विश्लेषण करना है जो डेटा प्रक्षालन प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।


==गुणवत्ता स्क्रीन==
==गुणवत्ता स्क्रीन==
डेटा प्रक्षालन प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
डेटा प्रक्षालन प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:
* स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
* स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. [[शून्य वर्ण]] मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
* संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
* संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की [[अखंडता]] का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
* बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।
* बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।


जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।
इस प्रकार से जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।


बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए।
अतः बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए।


==वर्तमान उपकरणों और प्रक्रियाओं की आलोचना==
==वर्तमान उपकरणों और प्रक्रियाओं की आलोचना==
अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
इस प्रकार से अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:
* परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है
* परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है
* समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है
* समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है
Line 72: Line 72:


==त्रुटि घटना स्कीमा==
==त्रुटि घटना स्कीमा==
त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना [[तथ्य तालिका]] सम्मिलित है जो दिनांक (कब), [[बैच जॉब]] (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है।
अतः त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना [[तथ्य तालिका]] सम्मिलित है जो दिनांक (कब), [[बैच जॉब]] (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इस प्रकार से इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है।


== यह भी देखें ==
== यह भी देखें ==

Revision as of 11:54, 13 July 2023

डेटा प्रक्षालन या डेटा निर्मलन रिकॉर्ड समूह, तालिका (डेटाबेस) या डेटाबेस से भ्रष्ट या अशुद्ध भंडारण रिकार्ड का पता लगाने और उसे ठीक करने (या हटाने) की प्रक्रिया है और इसका तात्पर्य डेटा के अपूर्ण, अनुचित, अशुद्ध या अप्रासंगिक भागों की पहचान करना है और फिर अस्पष्ट डेटा या स्थूल डेटा को बदलना, संशोधित करना या हटाना है।[1] डेटा प्रक्षालन को डेटा की त्रुटि टूल के साथ, या स्क्रिप्ट (कंप्यूटिंग) या डेटा गुणवत्ता फ़ायरवॉल के माध्यम से प्रचय संसाधन के रूप में सहभागितापूर्ण विधि से किया जा सकता है।

इस प्रकार से प्रक्षालन के बाद, डेटा समूह प्रणाली में अन्य समान डेटा समूह के अनुरूप होना चाहिए। पाई गई या हटाई गई विसंगतियां मूल रूप से उपयोगकर्ता प्रविष्टि त्रुटियों, संचार या भंडारण में अवमिश्रण, या विभिन्न स्टोरों में समान संस्थाओं की विभिन्न डेटा शब्दकोश परिभाषाओं के कारण हो सकती हैं। अतः डेटा प्रक्षालन डेटा सत्यापन से भिन्न होती है क्योंकि सत्यापन का लगभग सदैव अर्थ होता है कि डेटा को प्रवेश के समय प्रणाली से निरस्त कर दिया जाता है और डेटा के बैचों के अतिरिक्त प्रवेश के समय किया जाता है।

डेटा प्रक्षालन की वास्तविक प्रक्रिया टंकण त्रुटि को दूर करना या संस्थाओं की ज्ञात सूची के विरुद्ध मानों को मान्य करना और ठीक करना सम्मिलित हो सकता है। सत्यापन दृढ हो सकता है (जैसे कि किसी भी पते को अस्वीकार करना जिसमें वैध डाक कोड नहीं है), या स्वानुशासित तर्क या अनुमानित स्ट्रिंग मिलान के साथ (जैसे कि रिकॉर्ड को ठीक करना जो वर्तमान, ज्ञात रिकॉर्ड से आंशिक रूप से मेल खाता है)। कुछ डेटा प्रक्षालन हल मान्य डेटा समूह के साथ द्विपक्षीय जांच करके डेटा को प्रक्षालित कर देंगे। इस प्रकार से डेटा प्रक्षालन का सामान्य अभ्यास डेटा संवर्द्धन है, जहां संबंधित सूचना जोड़कर डेटा को अधिक संपूर्ण बनाया जाता है। इस प्रकार से उदाहरण के लिए, उस पते से संबंधित किसी फ़ोन संख्या के साथ पते जोड़ना। डेटा प्रक्षालन में डेटा का विहित रूप कंप्यूटिंग (या सामान्यीकरण) भी सम्मिलित हो सकता है, जो अलग-अलग फ़ाइल स्वरूपों, नामकरण परंपराओं और स्तम्भों के डेटा को साथ लाने की प्रक्रिया है।[2] और इसे समेकित डेटा समूह में परिवर्तित करना; सरल उदाहरण संक्षिप्ताक्षरों (st, rd, आदि से पथ, सड़क, आदि) का विस्तार है।

प्रेरणा

अतः प्रशासनिक रूप से अशुद्ध, असंगत डेटा सार्वजनिक और व्यक्तिगत दोनों स्तरों पर अशुद्ध निष्कर्ष और अशुद्ध दिशा में निवेश का कारण बन सकता है। इस प्रकार से उदाहरण के लिए, सरकार यह निर्धारित करने के लिए जनसंख्या जनगणना के आंकड़ों का विश्लेषण करना का चुनाव कर सकती है कि किन क्षेत्रों में मूलभूत संरचना और सेवाओं पर अधिक व्यय और निवेश की आवश्यकता है। इस स्थिति में, अशुद्ध राजकोषीय निर्णयों से बचने के लिए विश्वसनीय डेटा तक पहुंच होना महत्वपूर्ण होगा। व्यापार जगत में अशुद्ध डेटा महंगा पड़ सकता है। कई कंपनियां ग्राहक सूचना डेटाबेस का उपयोग करती हैं जो संपर्क सूचना, पते और प्राथमिकताओं जैसे डेटा को रिकॉर्ड करती हैं। इस प्रकार से उदाहरण के लिए, यदि पते असंगत हैं, तो कंपनी को मेल दोबारा भेजने या यहां तक ​​कि ग्राहकों को खोने की लागत भी भुगतनी पड़ेगी।

डेटा गुणवत्ता

इस प्रकार से उच्च-गुणवत्ता वाले डेटा को गुणवत्ता मानदंडों के समूह को पारित करने की आवश्यकता होती है। उनमें सम्मिलित हैं:

  • वैधता: वह परिमाण जिस तक उपाय परिभाषित व्यावसायिक नियमों या बाधाओं के अनुरूप हैं (वैधता (आंकड़े) भी देखें)। जब आधुनिक डेटाबेस तकनीक का उपयोग डेटा-कैप्चर प्रणाली को डिज़ाइन करने के लिए किया जाता है, तो वैधता सुनिश्चित करना अत्यधिक सरल होता है: अमान्य डेटा मुख्य रूप से धरोहर संदर्भों में उत्पन्न होता है (जहां सॉफ़्टवेयर में बाधाएं लागू नहीं की गई थीं) या जहां अनुचित डेटा-कैप्चर तकनीक का उपयोग किया गया था (जैसे, स्प्रेडशीट, यदि सेल सत्यापन का उपयोग नहीं किया जाता है, तो यह सीमित करना बहुत कठिन है कि उपयोगकर्ता सेल में क्या दर्ज करना चाहता है)। इस प्रकार से डेटा बाधाएँ निम्नलिखित श्रेणियों में आती हैं:
    • डेटा-प्रकार की बाधाएँ - इस प्रकार से उदाहरण के लिए, किसी विशेष स्तम्भ में मान विशेष डेटा प्रकार का होना चाहिए, इस प्रकार से उदाहरण के लिए, बूलियन, संख्यात्मक (पूर्णांक या वास्तविक), दिनांक, आदि।
    • श्रेणी की बाधाएँ: सामान्यतः, संख्याएँ या दिनांक निश्चित सीमा के भीतर आनी चाहिए। अर्थात्, उनके निकट न्यूनतम और/या अधिकतम अनुमेय मान हैं।
    • अनिवार्य बाधाएँ: कुछ स्तम्भ रिक्त नहीं हो सकते।
    • अद्वितीय बाधाएँ: क्षेत्र, या क्षेत्र का संयोजन, डेटासमूह में अद्वितीय होना चाहिए। इस प्रकार से उदाहरण के लिए, किन्हीं दो व्यक्तियों के निकट समान सामाजिक सुरक्षा संख्या नहीं हो सकती है।
    • समूह-सदस्यता बाधाएं: किसी स्तम्भ के मान अलग-अलग मानों या कोड के समूह से आते हैं। इस प्रकार से उदाहरण के लिए, किसी व्यक्ति का लिंग महिला, पुरुष या गैर-बाइनरी हो सकता है।
    • विजातीय-कुंजी बाधाएं: यह समूह सदस्यता की अधिक सामान्य स्थिति है। किसी स्तम्भ में मानों का समूह किसी अन्य तालिका के स्तम्भ में परिभाषित किया जाता है जिसमें अद्वितीय मान होते हैं। इस प्रकार से उदाहरण के लिए, अमेरिकी करदाता डेटाबेस में, राज्य स्तम्भ को अमेरिका के परिभाषित राज्यों या क्षेत्रों में से से संबंधित होना आवश्यक है: अनुमत राज्यों/क्षेत्रों का समूह अलग राज्य तालिका में दर्ज किया गया है। विजातीय कुंजी शब्द सम्बन्ध डेटाबेस शब्दावली से लिया गया है।
    • नियमित अभिव्यक्ति प्रतिरूप: कभी-कभी, पाठ क्षेत्र को इस प्रकार से मान्य करना होगा। इस प्रकार से उदाहरण के लिए, फ़ोन संख्याओं का प्रतिरूप (999) 999-9999 होना आवश्यक हो सकता है।
    • अनुप्रस्थ-क्षेत्र सत्यापन: एकाधिक क्षेत्र का उपयोग करने वाली कुछ प्रतिबंधें अवश्य लागू होनी चाहिए। इस प्रकार से उदाहरण के लिए, प्रयोगशाला चिकित्सा में, विभेदक श्वेत रक्त कोशिका गणना के घटकों का योग 100 के बराबर होना चाहिए (क्योंकि वे सभी प्रतिशत हैं)। अस्पताल डेटाबेस में, किसी रोगी की अस्पताल से अवकाश का दिनांक प्रवेश के दिनांक से पूर्व नहीं हो सकती।
  • यथार्थता: किसी मानक या वास्तविक मान के माप की अनुरूपता के परिमाण - यथार्थता और परिशुद्धता भी देखें। सामान्य स्थिति में डेटा-निर्मलन के माध्यम से यथार्थता प्राप्त करना बहुत कठिन है क्योंकि इसके लिए डेटा के बाह्य स्रोत तक पहुंच की आवश्यकता होती है जिसमें उचित मान होता है: ऐसा स्वर्ण मानक डेटा प्रायः अनुपलब्ध होता है। भौगोलिक स्थानों (नगर और राज्य) के ज़िप कोड से मेल खाने वाले बाह्य डेटाबेस का उपयोग करके कुछ प्रक्षालन संदर्भों, विशेष रूप से ग्राहक संपर्क डेटा में यथार्थता प्राप्त की गई है और यह सत्यापित करने में भी सहायता मिलती है कि इन ज़िप कोड के भीतर सड़क के पते वस्तुतः स्थित हैं।
  • पूर्णता: वह परिमाण जिस तक सभी आवश्यक उपाय ज्ञात हैं। डेटा प्रक्षालन पद्धति के साथ अपूर्णता को ठीक करना लगभग असंभव है: कोई भी उन तथ्यों का अनुमान नहीं लगा सकता है जो उस समय कैप्चर नहीं किए गए थे जब प्रश्न में डेटा प्रारंभ में दर्ज किया गया था। (कुछ संदर्भों में, इस प्रकार से उदाहरण के लिए, साक्षात्कार डेटा, डेटा के मूल स्रोत पर वापस जाकर अपूर्णता को ठीक करना संभव हो सकता है, अर्थात विषय का फिर से साक्षात्कार करना, परन्तु यह भी स्मृति में रखने की समस्याओं के कारण सफलता की गारंटी नहीं देता है - इस प्रकार से उदाहरण के लिए, भोजन की खपत पर डेटा इकट्ठा करने के लिए साक्षात्कार में, किसी को यह याद रखने की संभावना नहीं है कि छह महीने पूर्व उसने क्या खाया था। उन प्रणालियों के स्थिति में जो इस बात पर बल देते हैं कि कुछ स्तम्भ रिक्त नहीं होने चाहिए, कोई मान निर्दिष्ट करके समस्या का हल कर सकता है जो अज्ञात को इंगित करता है या लुप्त है, परन्तु डिफ़ॉल्ट मानों की आपूर्ति का अर्थ यह नहीं है कि डेटा पूर्ण कर लिया गया है।)
  • संगति: वह परिमाण जिस तक मापों का समूह एस में समतुल्य है प्रणाली (संगति भी देखें)। असंगति तब होती है जब डेटा समूह में दो डेटा वस्तुएं एक-दूसरे के विपरीत होते हैं: इस प्रकार से उदाहरण के लिए, ग्राहक को दो अलग-अलग प्रणालियों में दो अलग-अलग वर्तमान पते के रूप में दर्ज किया जाता है, और उनमें से मात्र ही उचित हो सकता है। असंगतता को ठीक करना सदैव संभव नहीं होता है: इसके लिए कई प्रकार की कार्यनीतियों की आवश्यकता होती है - इस प्रकार से उदाहरण के लिए, यह निर्धारित करना कि कौन सा डेटा वर्तमान में रिकॉर्ड किया गया था, कौन सा डेटा स्रोत सबसे विश्वसनीय होने की संभावना है (बाद वाला ज्ञान किसी दिए गए संगठन के लिए विशिष्ट हो सकता है), या मात्र प्रयास करना दोनों डेटा वस्तुएं (इस प्रकार से उदाहरण के लिए, ग्राहक को कॉल करना) का परीक्षण करके सत्यता का पता लगाएं।
  • एकरूपता: वह परिमाण जिस तक सभी प्रणालियों में माप की समान इकाइयों का उपयोग करके समूह डेटा माप निर्दिष्ट किया जाता है (माप की इकाइयाँ भी देखें)। विभिन्न स्थानों से एकत्र किए गए डेटासमूह में, भार या तो पाउंड या किलो में दर्ज किया जा सकता है और अंकगणितीय परिवर्तन का उपयोग करके इसे ही माप में परिवर्तित किया जाना चाहिए।

इस प्रकार से अखंडता शब्द में यथार्थता, स्थिरता और सत्यापन के कुछ गुण सम्मिलित हैं (डेटा अखंडता भी देखें) परन्तु डेटा-निर्मलन संदर्भों में इसका उपयोग संभवतः कभी किया जाता है क्योंकि यह अपर्याप्त रूप से विशिष्ट है। (इस प्रकार से उदाहरण के लिए, संदर्भात्मक अखंडता शब्द है जिसका उपयोग उपरोक्त विजातीय-कुंजी बाधाओं के प्रवर्तन को संदर्भित करने के लिए किया जाता है।)

प्रक्रिया

  • डेटा ऑडिटिंग: विसंगतियों और विरोधाभासों का पता लगाने के लिए सांख्यिकीय और डेटाबेस विधियों के उपयोग से डेटा का ऑडिट किया जाता है: यह अंततः विसंगतियों की विशेषताओं और उनके स्थानों को इंगित करता है। कई व्यावसायिक सॉफ़्टवेयर पैकेज आपको विभिन्न प्रकार की बाधाओं को निर्दिष्ट करने देंगे (एक व्याकरण का उपयोग करके जो मानक प्रोग्रामन भाषा, जैसे जावास्क्रिप्ट या विज़ुअल बेसिक के अनुरूप है) और फिर कोड उत्पन्न करेंगे जो इन बाधाओं के उल्लंघन के लिए डेटा की जांच करेगा। इस प्रक्रिया को निम्न बुलेट्स कार्यप्रवाह विनिर्देश और कार्यप्रवाह निष्पादन में संदर्भित किया गया है। उन उपयोगकर्ताओं के लिए जिनके निकट उच्च-और प्रक्षालन सॉफ़्टवेयर तक पहुंच नहीं है, माइक्रोसॉफ्ट एक्सेस या फ़ाइल मेकर प्रो जैसे माइक्रो कंप्यूटर डेटाबेस पैकेज आपको बाधा-दर-बाधा के आधार पर, कई स्थितियों में बहुत कम या कोई प्रोग्रामन की आवश्यकता के साथ एक दूसरे को प्रभावित करते हुए इस रूप में जांच करने देंगे।
  • कार्यप्रवाह विशिष्टता: विसंगतियों का पता लगाना और हटाना डेटा पर संचालन के अनुक्रम द्वारा किया जाता है जिसे कार्यप्रवाह के रूप में जाना जाता है। यह डेटा की ऑडिटिंग की प्रक्रिया के बाद निर्दिष्ट किया जाता है और उच्च गुणवत्ता वाले डेटा के अंतिम उत्पाद को प्राप्त करने में महत्वपूर्ण है। उचित कार्यप्रवाह प्राप्त करने के लिए, डेटा में विसंगतियों और त्रुटियों के कारणों पर स्पष्टता से विचार करना होगा।
  • कार्यप्रवाह निष्पादन: इस चरण में, कार्यप्रवाह को उसके विनिर्देश पूर्ण होने और उसकी शुद्धता सत्यापित होने के बाद निष्पादित किया जाता है। कार्यप्रवाह का कार्यान्वयन डेटा के बड़े समूह पर भी कुशल होना चाहिए, जो अनिवार्य रूप से व्यापार-संवृत की स्थिति उत्पन्न करता है क्योंकि डेटा-निर्मलन संचालन का निष्पादन कम्प्यूटेशनल रूप से बहुमूल्य हो सकता है।
  • पोस्ट-प्रोसेसिंग और नियंत्रण: प्रक्षालन कार्यप्रवाह को निष्पादित करने के बाद, शुद्धता को सत्यापित करने के लिए परिणामों का निरीक्षण किया जाता है। कार्यप्रवाह के निष्पादन के समय जो डेटा ठीक नहीं किया जा सका, यदि संभव हो तो उसे मैन्युअल रूप से ठीक किया जाता है। परिणाम डेटा-निर्मलन प्रक्रिया में नवीन चक्र है जहां स्वचालित प्रसंस्करण द्वारा डेटा को और अधिक प्रक्षालित करने के लिए अतिरिक्त कार्यप्रवाह के विनिर्देशन की अनुमति देने के लिए डेटा को फिर से ऑडिट किया जाता है।

अतः ठीक गुणवत्ता वाले स्रोत डेटा का संबंध "डेटा गुणवत्ता संस्कृति" से है और इसे संगठन के शीर्ष पर प्रारंभ किया जाना चाहिए। यह मात्र इनपुट स्क्रीन पर दृढ सत्यापन जांच लागू करने का स्थिति नहीं है, क्योंकि ये जांच कितनी भी दृढ क्यों न हों, फिर भी उपयोगकर्ताओं द्वारा इन्हें प्रायः टाला जा सकता है। इस प्रकार से उन संगठनों के लिए नौ-चरणीय मार्गदर्शिका है जो डेटा गुणवत्ता में सुधार करना चाहते हैं:[3][4]

  • डेटा गुणवत्ता संस्कृति के प्रति उच्च स्तरीय प्रतिबद्धता की घोषणा करें
  • कार्यकारी स्तर पर प्रक्रिया पुनर्रचना को आगे बढ़ाएं
  • डेटा एंट्री परिवेश को ठीक बनाने के लिए पैसा व्यय करें
  • एप्लिकेशन एकीकरण को ठीक बनाने के लिए पैसा व्यय करें
  • प्रक्रियाओं के कार्य करने के विधि को बदलने के लिए पैसा व्यय करें
  • प्रारंभ से अंत तक समूह जागरूकता को बढ़ावा देना
  • अंतर्विभागीय सहयोग को बढ़ावा देना
  • सार्वजनिक रूप से डेटा गुणवत्ता उत्कृष्टता का जश्न मनाएं
  • डेटा गुणवत्ता को निरंतर मापें और सुधारें

इस प्रकार से अन्य में सम्मिलित हैं:

  • पार्सिंग: सिंटैक्स त्रुटियों का पता लगाने के लिए है। पार्सर यह निर्धारित करता है कि अनुमत डेटा विनिर्देश के भीतर डेटा की स्ट्रिंग स्वीकार्य है या नहीं। यह उसी प्रकार है जैसे पार्सर व्याकरण और भाषाओं के साथ कार्य करता है।
  • डेटा परिवर्तन: डेटा परिवर्तन डेटा को उसके दिए गए प्रारूप से उपयुक्त एप्लिकेशन द्वारा अपेक्षित प्रारूप में मैप करने की अनुमति देता है। इसमें मान रूपांतरण या अनुवाद क्रिया, साथ ही न्यूनतम और अधिकतम मानों के अनुरूप संख्यात्मक मानों को सामान्य बनाना सम्मिलित है।
  • अनुकृति उन्मूलन: अनुकृति का पता लगाने के लिए यह निर्धारित करने के लिए कलन विधि की आवश्यकता होती है कि डेटा में ही इकाई की अनुकृति प्रतिनिधित्व सम्मिलित हैं या नहीं। सामान्यतः, डेटा को कुंजी द्वारा क्रमबद्ध किया जाता है जो तीव्रता से पहचान के लिए अनुकृति प्रविष्टियों को साथ लाएगा।
  • सांख्यिकीय विधि: माध्य, मानक विचलन, सीमा (सांख्यिकी), या क्लस्टर विश्लेषण एल्गोरिदम के मानों का उपयोग करके डेटा का विश्लेषण करके, विशेषज्ञ के लिए उन मानों को ढूंढना संभव है जो अप्रत्याशित और इस प्रकार अशुद्ध हैं। यद्यपि ऐसे डेटा का सुधार जटिल है क्योंकि उचित मान ज्ञात नहीं है, इसे औसत या अन्य सांख्यिकीय मान पर मान समूह करके हल किया जा सकता है। लुप्त मानों को संभालने के लिए सांख्यिकीय विधियों का भी उपयोग किया जा सकता है जिन्हें या अधिक प्रशंसनीय मानों से प्रतिस्थापित किया जा सकता है, जो सामान्यतः व्यापक डेटा वृद्धि एल्गोरिदम द्वारा प्राप्त किए जाते हैं।

प्रणाली

अतः इस प्रणाली का आवश्यक कार्य अस्पष्ट डेटा को ठीक करने और स्रोत उत्पादन प्रणाली से जितना संभव हो सके मूल डेटा के निकट डेटा को बनाए रखने के बीच उपयुक्त संतुलन ढूंढना है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड आर्किटेक्ट के लिए चुनौती है। प्रणाली को ऐसा संरचना प्रस्तुत करना चाहिए जो डेटा को प्रक्षालित कर सके, गुणवत्तापूर्ण घटनाओं को रिकॉर्ड कर सके और डेटा वेयरहाउस में डेटा की गुणवत्ता को माप/नियंत्रित कर सके। ठीक प्रारंभ संपूर्ण डेटा प्रोफाइलिंग विश्लेषण करना है जो डेटा प्रक्षालन प्रणाली की आवश्यक जटिलता को परिभाषित करने में सहायता करेगा और स्रोत प्रणाली में वर्तमान डेटा गुणवत्ता का भी विचार देगा।

गुणवत्ता स्क्रीन

डेटा प्रक्षालन प्रणाली का भाग नैदानिक निस्यंदक का समूह है जिसे गुणवत्ता स्क्रीन के रूप में जाना जाता है। उनमें से प्रत्येक डेटा प्रवाह में परीक्षण लागू करता है, जो विफल होने पर, त्रुटि घटना स्कीमा में त्रुटि दर्ज करता है। इस प्रकार से गुणवत्तापूर्ण स्क्रीन को तीन श्रेणियों में बांटा गया है:

  • स्तम्भ स्क्रीन। व्यक्तिगत स्तम्भ का परीक्षण, उदा. शून्य वर्ण मान जैसे अप्रत्याशित मानों के लिए; गैर-संख्यात्मक मान जो संख्यात्मक होने चाहिए; सीमा से बाहर मान; आदि।
  • संरचना स्क्रीन। इनका उपयोग समान या भिन्न तालिकाओं में स्तंभों (सामान्यतः विजातीय/प्राथमिक कुंजियाँ) के बीच विभिन्न संबंधों की अखंडता का परीक्षण करने के लिए किया जाता है। उनका उपयोग यह परीक्षण करने के लिए भी किया जाता है कि स्तंभों का समूह कुछ संरचनात्मक परिभाषा के अनुसार मान्य है जिसका उसे पालन करना चाहिए।
  • बिजनेस नियम स्क्रीन। तीन परीक्षणों में सबसे जटिल। वे यह देखने के लिए परीक्षण करते हैं कि क्या डेटा, संभवतः कई तालिकाओं में, विशिष्ट व्यावसायिक नियमों का पालन करता है। उदाहरण यह हो सकता है कि यदि किसी ग्राहक को निश्चित प्रकार के ग्राहक के रूप में चिह्नित किया गया है, तो इस प्रकार के ग्राहक को परिभाषित करने वाले व्यावसायिक नियमों का पालन किया जाना चाहिए।

इस प्रकार से जब गुणवत्ता स्क्रीन कोई त्रुटि रिकॉर्ड करती है, तो यह या तो डेटा प्रवाह प्रक्रिया को रोक सकती है, दोषपूर्ण डेटा को लक्ष्य प्रणाली के अतिरिक्त कहीं और भेज सकती है या डेटा को टैग कर सकती है।

अतः बाद वाले विकल्प को सबसे ठीक हल माना जाता है क्योंकि पूर्व विकल्प के लिए आवश्यक है कि प्रत्येक समय समस्या होने पर किसी को मैन्युअल रूप से निपटना होगा और दूसरा तात्पर्य यह है कि लक्ष्य प्रणाली (अखंडता) से डेटा लुप्त है और यह प्रायः अस्पष्ट है कि इन डेटा का क्या होना चाहिए।

वर्तमान उपकरणों और प्रक्रियाओं की आलोचना

इस प्रकार से अधिकांश डेटा प्रक्षालन टूल की प्रयोज्यता में सीमाएँ हैं:

  • परियोजना लागत: लागत सामान्यतः सैकड़ों हजारों डॉलर में होती है
  • समय: बड़े पैमाने पर डेटा-निर्मलन सॉफ़्टवेयर में आधिपत्य प्राप्त करने में समय लगता है
  • सुरक्षा: अनुप्रस्थ-मान्यकरण के लिए सूचना साझा करने की आवश्यकता होती है, जिससे एप्लिकेशन को संवेदनशील धरोहर प्रणालियों सहित सभी प्रणालियों तक पहुंच मिलती है

त्रुटि घटना स्कीमा

अतः त्रुटि घटना स्कीमा गुणवत्ता स्क्रीन द्वारा फेंकी गई सभी त्रुटि घटनाओं का रिकॉर्ड रखती है। इसमें तीन विमा तालिकाओं की विजातीय कुंजियों के साथ त्रुटि घटना तथ्य तालिका सम्मिलित है जो दिनांक (कब), बैच जॉब (कहां) और स्क्रीन (त्रुटि किसने उत्पन्न की) का प्रतिनिधित्व करती है। इस प्रकार से इसमें त्रुटि कब हुई और त्रुटि की गंभीरता के विषय में भी सूचना होती है। इसके अतिरिक्त, मुख्य तालिका में विजातीय कुंजी के साथ त्रुटि घटना विवरण तथ्य तालिका है जिसमें किस तालिका, रिकॉर्ड और क्षेत्र में त्रुटि हुई और त्रुटि स्थिति के विषय में विस्तृत सूचना सम्मिलित है।

यह भी देखें

संदर्भ

  1. Wu, S. (2013), "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
  2. "Data 101: What is Data Harmonization?". Datorama (in English). 14 April 2017. Retrieved 14 August 2019.
  3. Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
  4. Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

अग्रिम पठन

  • McKinney, Wes (2017). "Data Cleaning and Preparation". Python for Data Analysis (2nd ed.). O'Reilly. pp. 195–224. ISBN 978-1-4919-5766-0.
  • van der Loo, Mark; de Jonge, Edwin (2018). Statistical Data Cleaning with Applications in R. Hoboken: Wiley. ISBN 978-1-118-89715-7.

बाह्य संबंध