डेटा मैपिंग: Difference between revisions
(Created page with "{{Data transformation}} {{Expert needed|Information Architecture|reason=The information appears outdated and requires sources both historical (history of data mapping) and cu...") |
No edit summary |
||
Line 1: | Line 1: | ||
{{Data transformation}} | {{Data transformation}} | ||
[[ कम्प्यूटिंग ]] और [[डेटा प्रबंधन]] में, डेटा मैपिंग दो अलग-अलग [[डेटा मॉडल]] के बीच [[डेटा तत्व]] मैप (गणित) बनाने की प्रक्रिया है। डेटा मैपिंग का उपयोग विभिन्न प्रकार के [[डेटा एकीकरण|डेटा ीकरण]] कार्यों के लिए पहले चरण के रूप में किया जाता है, जिसमें शामिल हैं:<ref name="ShahbazData15">{{cite book |url=https://books.google.com/books?id=pRChCgAAQBAJ |title=डेटा वेयरहाउस डिज़ाइन के लिए डेटा मैपिंग|author=Shahbaz, Q. |publisher=Elsevier |pages=180 |year=2015 |isbn=9780128053355 |access-date=29 May 2018}}</ref> | |||
[[ कम्प्यूटिंग ]] और [[डेटा प्रबंधन]] में, डेटा मैपिंग दो अलग-अलग [[डेटा मॉडल]] के बीच [[डेटा तत्व]] मैप (गणित) बनाने की प्रक्रिया है। डेटा मैपिंग का उपयोग विभिन्न प्रकार के [[डेटा एकीकरण]] कार्यों के लिए पहले चरण के रूप में किया जाता है, जिसमें शामिल हैं:<ref name="ShahbazData15">{{cite book |url=https://books.google.com/books?id=pRChCgAAQBAJ |title=डेटा वेयरहाउस डिज़ाइन के लिए डेटा मैपिंग|author=Shahbaz, Q. |publisher=Elsevier |pages=180 |year=2015 |isbn=9780128053355 |access-date=29 May 2018}}</ref> | |||
* डेटा स्रोत और गंतव्य के बीच [[डेटा परिवर्तन]] या [[डेटा मध्यस्थता]] | * डेटा स्रोत और गंतव्य के बीच [[डेटा परिवर्तन]] या [[डेटा मध्यस्थता]] | ||
* डेटा वंश विश्लेषण के भाग के रूप में डेटा संबंधों की पहचान | * डेटा वंश विश्लेषण के भाग के रूप में डेटा संबंधों की पहचान | ||
* डेटा मास्किंग या [[de-पहचान]] प्रोजेक्ट के हिस्से के रूप में किसी अन्य उपयोगकर्ता आईडी में छिपे हुए संवेदनशील डेटा जैसे सामाजिक सुरक्षा नंबर के अंतिम चार अंक की खोज | * डेटा मास्किंग या [[de-पहचान]] प्रोजेक्ट के हिस्से के रूप में किसी अन्य उपयोगकर्ता आईडी में छिपे हुए संवेदनशील डेटा जैसे सामाजिक सुरक्षा नंबर के अंतिम चार अंक की खोज | ||
* | * ही डेटाबेस में ाधिक डेटाबेस का [[डेटा समेकन]] और समेकन या उन्मूलन के लिए डेटा के अनावश्यक कॉलम की पहचान करना | ||
उदाहरण के लिए, | उदाहरण के लिए, कंपनी जो अन्य कंपनियों के साथ खरीदारी और चालान प्रसारित करना और प्राप्त करना चाहती है, वह खरीद ऑर्डर और चालान जैसी वस्तुओं के लिए कंपनी के डेटा से मानकीकृत एएनएसआई एएससी ्स 12 संदेशों के लिए डेटा मैप बनाने के लिए डेटा मैपिंग का उपयोग कर सकती है। | ||
==मानक== | ==मानक== | ||
X12 मानक सामान्य इलेक्ट्रॉनिक [[आंकड़े]] इंटरचेंज (EDI) मानक हैं जो किसी [[कंपनी लॉ)]]कानून) को उद्योग की परवाह किए बिना किसी अन्य कंपनी के साथ डेटा का आदान-प्रदान करने की अनुमति देने के लिए डिज़ाइन किए गए हैं। मानकों को मान्यता प्राप्त मानक समिति X12 (ASC X12) द्वारा बनाए रखा जाता है, अमेरिकी राष्ट्रीय मानक संस्थान (ANSI) को EDI के लिए मानक निर्धारित करने के लिए मान्यता प्राप्त है। X12 मानकों को अक्सर ANSI ASC X12 मानक कहा जाता है। | X12 मानक सामान्य इलेक्ट्रॉनिक [[आंकड़े]] इंटरचेंज (EDI) मानक हैं जो किसी [[कंपनी लॉ)]]कानून) को उद्योग की परवाह किए बिना किसी अन्य कंपनी के साथ डेटा का आदान-प्रदान करने की अनुमति देने के लिए डिज़ाइन किए गए हैं। मानकों को मान्यता प्राप्त मानक समिति X12 (ASC X12) द्वारा बनाए रखा जाता है, अमेरिकी राष्ट्रीय मानक संस्थान (ANSI) को EDI के लिए मानक निर्धारित करने के लिए मान्यता प्राप्त है। X12 मानकों को अक्सर ANSI ASC X12 मानक कहा जाता है। | ||
[[W3C]] ने [[ संबंध का डेटाबेस ]] में डेटा को रिसोर्स_डिस्क्रिप्शन_फ्रेमवर्क (आरडीएफ) के संदर्भ में व्यक्त डेटा से मैप करने के लिए | [[W3C]] ने [[ संबंध का डेटाबेस ]] में डेटा को रिसोर्स_डिस्क्रिप्शन_फ्रेमवर्क (आरडीएफ) के संदर्भ में व्यक्त डेटा से मैप करने के लिए मानक के रूप में [https://www.w3.org/TR/r2rml/ R2RML] पेश किया। | ||
भविष्य में, [[ संसाधन विवरण रूपरेखा ]] (आरडीएफ), [[वेब ओन्टोलॉजी भाषा]] (ओडब्लूएल) और मानकीकृत [[मेटाडेटा रजिस्ट्री]] जैसे [[सेमांटिक वेब]] भाषाओं पर आधारित उपकरण डेटा मैपिंग को और अधिक स्वचालित प्रक्रिया बना देंगे। यदि प्रत्येक एप्लिकेशन [[मेटाडेटा प्रकाशन]] करता है तो यह प्रक्रिया तेज हो जाएगी। पूर्ण स्वचालित डेटा मैपिंग | भविष्य में, [[ संसाधन विवरण रूपरेखा ]] (आरडीएफ), [[वेब ओन्टोलॉजी भाषा]] (ओडब्लूएल) और मानकीकृत [[मेटाडेटा रजिस्ट्री]] जैसे [[सेमांटिक वेब]] भाषाओं पर आधारित उपकरण डेटा मैपिंग को और अधिक स्वचालित प्रक्रिया बना देंगे। यदि प्रत्येक एप्लिकेशन [[मेटाडेटा प्रकाशन]] करता है तो यह प्रक्रिया तेज हो जाएगी। पूर्ण स्वचालित डेटा मैपिंग बहुत ही कठिन समस्या है (अर्थात् अनुवाद देखें)। | ||
==हाथ से कोडित, ग्राफिकल मैनुअल == | ==हाथ से कोडित, ग्राफिकल मैनुअल == | ||
डेटा मैपिंग प्रक्रियात्मक कोड का उपयोग करके, [[एक्सएसएलटी]] ट्रांसफॉर्म बनाकर या ग्राफिकल मैपिंग टूल का उपयोग करके विभिन्न तरीकों से की जा सकती है जो स्वचालित रूप से निष्पादन योग्य ट्रांसफॉर्मेशन प्रोग्राम उत्पन्न करते हैं। ये ग्राफ़िकल उपकरण हैं जो उपयोगकर्ता को डेटा के | डेटा मैपिंग प्रक्रियात्मक कोड का उपयोग करके, [[एक्सएसएलटी|्सएसएलटी]] ट्रांसफॉर्म बनाकर या ग्राफिकल मैपिंग टूल का उपयोग करके विभिन्न तरीकों से की जा सकती है जो स्वचालित रूप से निष्पादन योग्य ट्रांसफॉर्मेशन प्रोग्राम उत्पन्न करते हैं। ये ग्राफ़िकल उपकरण हैं जो उपयोगकर्ता को डेटा के सेट के फ़ील्ड से दूसरे सेट के फ़ील्ड तक रेखाएँ खींचने की अनुमति देते हैं। कुछ ग्राफिकल डेटा मैपिंग टूल उपयोगकर्ताओं को किसी स्रोत और गंतव्य को ऑटो-कनेक्ट करने की अनुमति देते हैं। यह सुविधा स्रोत और गंतव्य डेटा तत्व नाम के समान होने पर निर्भर है। परिवर्तन कार्यक्रम स्वचालित रूप से SQL, XSLT, Java (प्रोग्रामिंग भाषा), या [[C++]] में बनाए जाते हैं। इस प्रकार के ग्राफ़िकल उपकरण अधिकांश ्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड (्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड) टूल में डेटा मूवमेंट का समर्थन करने के लिए डेटा मैप दर्ज करने के प्राथमिक साधन के रूप में पाए जाते हैं। उदाहरणों में SAP BODS और Informatica PowerCenter शामिल हैं। | ||
==डेटा-संचालित मैपिंग== | ==डेटा-संचालित मैपिंग== | ||
यह डेटा मैपिंग में नवीनतम दृष्टिकोण है और इसमें दो डेटा सेटों के बीच जटिल मैपिंग को स्वचालित रूप से खोजने के लिए अनुमान और आंकड़ों का उपयोग करके दो डेटा स्रोतों में वास्तविक डेटा मूल्यों का | यह डेटा मैपिंग में नवीनतम दृष्टिकोण है और इसमें दो डेटा सेटों के बीच जटिल मैपिंग को स्वचालित रूप से खोजने के लिए अनुमान और आंकड़ों का उपयोग करके दो डेटा स्रोतों में वास्तविक डेटा मूल्यों का साथ मूल्यांकन करना शामिल है। इस दृष्टिकोण का उपयोग दो डेटा सेटों के बीच परिवर्तनों को खोजने, सबस्ट्रिंग, संयोजन, [[अंकगणित]], केस स्टेटमेंट के साथ-साथ अन्य प्रकार के परिवर्तन तर्क की खोज के लिए किया जाता है। यह दृष्टिकोण उन डेटा अपवादों का भी पता लगाता है जो खोजे गए परिवर्तन तर्क का पालन नहीं करते हैं। | ||
==सिमेंटिक मैपिंग== | ==सिमेंटिक मैपिंग== | ||
[[सिमेंटिक मैपर]] डेटा मैपर्स के ऑटो-कनेक्ट फीचर के समान है, इस अपवाद के साथ कि डेटा तत्व पर्यायवाची शब्दों को देखने के लिए मेटाडेटा रजिस्ट्री से परामर्श लिया जा सकता है। उदाहरण के लिए, यदि स्रोत सिस्टम फर्स्टनाम को सूचीबद्ध करता है लेकिन गंतव्य पर्सनगिवेननाम को सूचीबद्ध करता है, तो मैपिंग तब भी की जाएगी यदि ये डेटा तत्व मेटाडेटा रजिस्ट्री में समानार्थक शब्द के रूप में सूचीबद्ध हैं। सिमेंटिक मैपिंग केवल डेटा के स्तंभों के बीच सटीक मिलान खोजने में सक्षम है और स्तंभों के बीच किसी भी परिवर्तन तर्क या अपवाद की खोज नहीं करेगी। | [[सिमेंटिक मैपर]] डेटा मैपर्स के ऑटो-कनेक्ट फीचर के समान है, इस अपवाद के साथ कि डेटा तत्व पर्यायवाची शब्दों को देखने के लिए मेटाडेटा रजिस्ट्री से परामर्श लिया जा सकता है। उदाहरण के लिए, यदि स्रोत सिस्टम फर्स्टनाम को सूचीबद्ध करता है लेकिन गंतव्य पर्सनगिवेननाम को सूचीबद्ध करता है, तो मैपिंग तब भी की जाएगी यदि ये डेटा तत्व मेटाडेटा रजिस्ट्री में समानार्थक शब्द के रूप में सूचीबद्ध हैं। सिमेंटिक मैपिंग केवल डेटा के स्तंभों के बीच सटीक मिलान खोजने में सक्षम है और स्तंभों के बीच किसी भी परिवर्तन तर्क या अपवाद की खोज नहीं करेगी। | ||
डेटा वंशावली डेटा के प्रत्येक टुकड़े के जीवन चक्र का | डेटा वंशावली डेटा के प्रत्येक टुकड़े के जीवन चक्र का ट्रैक है क्योंकि इसे एनालिटिक्स सिस्टम द्वारा अंतर्ग्रहण, संसाधित और आउटपुट किया जाता है। यह एनालिटिक्स पाइपलाइन में दृश्यता प्रदान करता है और त्रुटियों को उनके स्रोतों तक ट्रेस करना आसान बनाता है। यह चरण-वार डिबगिंग या खोए हुए आउटपुट को पुन: उत्पन्न करने के लिए डेटा प्रवाह के विशिष्ट भागों या इनपुट को फिर से चलाने में भी सक्षम बनाता है। वास्तव में, डेटाबेस सिस्टम ने पहले से ही समान सत्यापन और डिबगिंग चुनौतियों का समाधान करने के लिए ऐसी जानकारी का उपयोग किया है, जिसे डेटा उद्गम कहा जाता है।<ref>De, Soumyarupa. (2012). Newt : an architecture for lineage based replay and debugging in DISC systems. UC San Diego: b7355202. Retrieved from: https://escholarship.org/uc/item/3170p7zn</ref> | ||
==यह भी देखें== | == यह भी देखें == | ||
* डेटा | * डेटा ीकरण | ||
* [[डेटा की गड़बड़ी]] | * [[डेटा की गड़बड़ी]] | ||
*[[पहचान परिवर्तन]] | *[[पहचान परिवर्तन]] | ||
Line 42: | Line 39: | ||
*[[अर्थ विज्ञान]] वेब | *[[अर्थ विज्ञान]] वेब | ||
*शब्दार्थ | *शब्दार्थ | ||
* | *्सएसएलटी - ्सएमएल परिवर्तन भाषा | ||
==संदर्भ== | ==संदर्भ== |
Revision as of 18:11, 17 July 2023
Data transformation |
---|
Concepts |
Transformation languages |
Techniques and transforms |
Applications |
Related |
कम्प्यूटिंग और डेटा प्रबंधन में, डेटा मैपिंग दो अलग-अलग डेटा मॉडल के बीच डेटा तत्व मैप (गणित) बनाने की प्रक्रिया है। डेटा मैपिंग का उपयोग विभिन्न प्रकार के डेटा ीकरण कार्यों के लिए पहले चरण के रूप में किया जाता है, जिसमें शामिल हैं:[1]
- डेटा स्रोत और गंतव्य के बीच डेटा परिवर्तन या डेटा मध्यस्थता
- डेटा वंश विश्लेषण के भाग के रूप में डेटा संबंधों की पहचान
- डेटा मास्किंग या de-पहचान प्रोजेक्ट के हिस्से के रूप में किसी अन्य उपयोगकर्ता आईडी में छिपे हुए संवेदनशील डेटा जैसे सामाजिक सुरक्षा नंबर के अंतिम चार अंक की खोज
- ही डेटाबेस में ाधिक डेटाबेस का डेटा समेकन और समेकन या उन्मूलन के लिए डेटा के अनावश्यक कॉलम की पहचान करना
उदाहरण के लिए, कंपनी जो अन्य कंपनियों के साथ खरीदारी और चालान प्रसारित करना और प्राप्त करना चाहती है, वह खरीद ऑर्डर और चालान जैसी वस्तुओं के लिए कंपनी के डेटा से मानकीकृत एएनएसआई एएससी ्स 12 संदेशों के लिए डेटा मैप बनाने के लिए डेटा मैपिंग का उपयोग कर सकती है।
मानक
X12 मानक सामान्य इलेक्ट्रॉनिक आंकड़े इंटरचेंज (EDI) मानक हैं जो किसी कंपनी लॉ)कानून) को उद्योग की परवाह किए बिना किसी अन्य कंपनी के साथ डेटा का आदान-प्रदान करने की अनुमति देने के लिए डिज़ाइन किए गए हैं। मानकों को मान्यता प्राप्त मानक समिति X12 (ASC X12) द्वारा बनाए रखा जाता है, अमेरिकी राष्ट्रीय मानक संस्थान (ANSI) को EDI के लिए मानक निर्धारित करने के लिए मान्यता प्राप्त है। X12 मानकों को अक्सर ANSI ASC X12 मानक कहा जाता है।
W3C ने संबंध का डेटाबेस में डेटा को रिसोर्स_डिस्क्रिप्शन_फ्रेमवर्क (आरडीएफ) के संदर्भ में व्यक्त डेटा से मैप करने के लिए मानक के रूप में R2RML पेश किया।
भविष्य में, संसाधन विवरण रूपरेखा (आरडीएफ), वेब ओन्टोलॉजी भाषा (ओडब्लूएल) और मानकीकृत मेटाडेटा रजिस्ट्री जैसे सेमांटिक वेब भाषाओं पर आधारित उपकरण डेटा मैपिंग को और अधिक स्वचालित प्रक्रिया बना देंगे। यदि प्रत्येक एप्लिकेशन मेटाडेटा प्रकाशन करता है तो यह प्रक्रिया तेज हो जाएगी। पूर्ण स्वचालित डेटा मैपिंग बहुत ही कठिन समस्या है (अर्थात् अनुवाद देखें)।
हाथ से कोडित, ग्राफिकल मैनुअल
डेटा मैपिंग प्रक्रियात्मक कोड का उपयोग करके, ्सएसएलटी ट्रांसफॉर्म बनाकर या ग्राफिकल मैपिंग टूल का उपयोग करके विभिन्न तरीकों से की जा सकती है जो स्वचालित रूप से निष्पादन योग्य ट्रांसफॉर्मेशन प्रोग्राम उत्पन्न करते हैं। ये ग्राफ़िकल उपकरण हैं जो उपयोगकर्ता को डेटा के सेट के फ़ील्ड से दूसरे सेट के फ़ील्ड तक रेखाएँ खींचने की अनुमति देते हैं। कुछ ग्राफिकल डेटा मैपिंग टूल उपयोगकर्ताओं को किसी स्रोत और गंतव्य को ऑटो-कनेक्ट करने की अनुमति देते हैं। यह सुविधा स्रोत और गंतव्य डेटा तत्व नाम के समान होने पर निर्भर है। परिवर्तन कार्यक्रम स्वचालित रूप से SQL, XSLT, Java (प्रोग्रामिंग भाषा), या C++ में बनाए जाते हैं। इस प्रकार के ग्राफ़िकल उपकरण अधिकांश ्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड (्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड) टूल में डेटा मूवमेंट का समर्थन करने के लिए डेटा मैप दर्ज करने के प्राथमिक साधन के रूप में पाए जाते हैं। उदाहरणों में SAP BODS और Informatica PowerCenter शामिल हैं।
डेटा-संचालित मैपिंग
यह डेटा मैपिंग में नवीनतम दृष्टिकोण है और इसमें दो डेटा सेटों के बीच जटिल मैपिंग को स्वचालित रूप से खोजने के लिए अनुमान और आंकड़ों का उपयोग करके दो डेटा स्रोतों में वास्तविक डेटा मूल्यों का साथ मूल्यांकन करना शामिल है। इस दृष्टिकोण का उपयोग दो डेटा सेटों के बीच परिवर्तनों को खोजने, सबस्ट्रिंग, संयोजन, अंकगणित, केस स्टेटमेंट के साथ-साथ अन्य प्रकार के परिवर्तन तर्क की खोज के लिए किया जाता है। यह दृष्टिकोण उन डेटा अपवादों का भी पता लगाता है जो खोजे गए परिवर्तन तर्क का पालन नहीं करते हैं।
सिमेंटिक मैपिंग
सिमेंटिक मैपर डेटा मैपर्स के ऑटो-कनेक्ट फीचर के समान है, इस अपवाद के साथ कि डेटा तत्व पर्यायवाची शब्दों को देखने के लिए मेटाडेटा रजिस्ट्री से परामर्श लिया जा सकता है। उदाहरण के लिए, यदि स्रोत सिस्टम फर्स्टनाम को सूचीबद्ध करता है लेकिन गंतव्य पर्सनगिवेननाम को सूचीबद्ध करता है, तो मैपिंग तब भी की जाएगी यदि ये डेटा तत्व मेटाडेटा रजिस्ट्री में समानार्थक शब्द के रूप में सूचीबद्ध हैं। सिमेंटिक मैपिंग केवल डेटा के स्तंभों के बीच सटीक मिलान खोजने में सक्षम है और स्तंभों के बीच किसी भी परिवर्तन तर्क या अपवाद की खोज नहीं करेगी।
डेटा वंशावली डेटा के प्रत्येक टुकड़े के जीवन चक्र का ट्रैक है क्योंकि इसे एनालिटिक्स सिस्टम द्वारा अंतर्ग्रहण, संसाधित और आउटपुट किया जाता है। यह एनालिटिक्स पाइपलाइन में दृश्यता प्रदान करता है और त्रुटियों को उनके स्रोतों तक ट्रेस करना आसान बनाता है। यह चरण-वार डिबगिंग या खोए हुए आउटपुट को पुन: उत्पन्न करने के लिए डेटा प्रवाह के विशिष्ट भागों या इनपुट को फिर से चलाने में भी सक्षम बनाता है। वास्तव में, डेटाबेस सिस्टम ने पहले से ही समान सत्यापन और डिबगिंग चुनौतियों का समाधान करने के लिए ऐसी जानकारी का उपयोग किया है, जिसे डेटा उद्गम कहा जाता है।[2]
यह भी देखें
- डेटा ीकरण
- डेटा की गड़बड़ी
- पहचान परिवर्तन
- आईएसओ/आईईसी 11179 - आईएसओ/आईईसी मेटा डेटा रजिस्ट्री मानक
- मेटाडेटा
- मेटाडेटा प्रकाशन
- स्कीमा मिलान
- शब्दार्थ विविधता
- सिमेंटिक मैपर
- शब्दार्थ अनुवाद
- अर्थ विज्ञान वेब
- शब्दार्थ
- ्सएसएलटी - ्सएमएल परिवर्तन भाषा
संदर्भ
- ↑ Shahbaz, Q. (2015). डेटा वेयरहाउस डिज़ाइन के लिए डेटा मैपिंग. Elsevier. p. 180. ISBN 9780128053355. Retrieved 29 May 2018.
- ↑ De, Soumyarupa. (2012). Newt : an architecture for lineage based replay and debugging in DISC systems. UC San Diego: b7355202. Retrieved from: https://escholarship.org/uc/item/3170p7zn