डेटा वॉल्ट मॉडलिंग: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Database modeling method}} | {{Short description|Database modeling method}} | ||
[[File:Data Vault Example.png|thumb|upright=1.5|दो हब (नीला), लिंक (हरा) और चार उपग्रह (पीला) के साथ सरल डेटा वॉल्ट मॉडल]][[आंकड़े]] वॉल्ट मॉडलिंग [[डेटाबेस]] मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का | [[File:Data Vault Example.png|thumb|upright=1.5|दो हब (नीला), लिंक (हरा) और चार उपग्रह (पीला) के साथ सरल डेटा वॉल्ट मॉडल]][[आंकड़े]] वॉल्ट मॉडलिंग [[डेटाबेस]] मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का प्रणाली भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ [[ लेखापरीक्षा |लेखापरीक्षा]] की आवश्यकता पर जोर देने जैसे विवादों से संबंधित है जहां डेटाबेस [[डेटा वंश]] में सभी डेटा सम्मिलित हैं। इसका कारणयह है कि डेटा वॉल्ट में प्रत्येक [[पंक्ति (डेटाबेस)]] के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में [[डैन लिनस्टेड]] द्वारा प्रकाशित की गई थी। | ||
डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा | डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा कारणव्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 74</ref> इसे इस कथन में संक्षेपित किया गया है कि डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है।<ref>[[#rdamhof1|The next generation EDW]]</ref> जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का ही संस्करण और सत्य का ही स्रोत।<ref>Building a scalable datawarehouse with data vault 2.0, p. 6</ref> | ||
मॉडलिंग पद्धति को [[डेटा संरचना]] को वर्णनात्मक [[विशेषता (कंप्यूटिंग)]] से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 21</ref> डेटा वॉल्ट को यथासंभव [[समानांतर कंप्यूटिंग]] लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,<ref>[[#dvsuper|Super Charge your data warehouse]], page 76</ref> जिससे कि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके। | मॉडलिंग पद्धति को [[डेटा संरचना]] को वर्णनात्मक [[विशेषता (कंप्यूटिंग)]] से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 21</ref> डेटा वॉल्ट को यथासंभव [[समानांतर कंप्यूटिंग]] लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,<ref>[[#dvsuper|Super Charge your data warehouse]], page 76</ref> जिससे कि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके। | ||
[[स्टार स्कीमा]] ([[आयामी मॉडलिंग]]) और मौलिक [[ संबंधपरक मॉडल |संबंधपरक मॉडल]] (3NF) के विपरीत, डेटा वॉल्ट और [[एंकर मॉडलिंग]] उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, किन्तु उन्हें उन्नत | [[स्टार स्कीमा]] ([[आयामी मॉडलिंग]]) और मौलिक [[ संबंधपरक मॉडल |संबंधपरक मॉडल]] (3NF) के विपरीत, डेटा वॉल्ट और [[एंकर मॉडलिंग]] उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, किन्तु उन्हें उन्नत विधि माना जाता है जिसके लिए अनुभवी [[डेटा आर्किटेक्ट]] की आवश्यकता होती है। .<ref>{{cite web|access-date=2023-02-22|first=Johan|language=sv|surname=Porsby|title=Rålager istället för ett strukturerat datalager|url=https://www.agero.se/blogg/ralager-istallet-for-ett-strukturerat-datalager|work=www.agero.se}}<!-- auto-translated by Module:CS1 translator --></ref> डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं,<ref>{{cite web|access-date=2023-02-22|first=Johan|language=sv|surname=Porsby|title=Datamodeller för data warehouse|url=https://www.agero.se/blogg/datamodeller-for-data-warehouse|work=www.agero.se}}<!-- auto-translated by Module:CS1 translator --></ref> किन्तु एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है। | ||
==इतिहास और दर्शन== | ==इतिहास और दर्शन== | ||
अपने प्रारंभिक दिनों में, डैन लिनस्टेड ने मॉडलिंग | अपने प्रारंभिक दिनों में, डैन लिनस्टेड ने मॉडलिंग विधि का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था।<ref>Building a scalable datawarehouse with data vault 2.0, p. 11</ref> या सामान्य मूलभूत मॉडलिंग वास्तुकला।<ref>Building a scalable datawarehouse with data vault 2.0, p. xv</ref> [[डेटा वेयरहाउस]] मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और [[ एंटरप्राइज़ बस मैट्रिक्स |एंटरप्राइज़ बस मैट्रिक्स]] के साथ [[राल्फ किमबॉल]] के अनुसार मॉडल बनाते हैं, या आप डेटाबेस [[सामान्य रूप]]ों के साथ [[बिल इनमोन]] के अनुसार मॉडल बनाते हैं. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों विधि ों में समस्याएं हैं. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई स्थितियों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन विवादों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)। | ||
विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं: | विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं: | ||
Line 16: | Line 16: | ||
डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, यदि वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के समय ही डेटा की व्याख्या की जा रही है। | डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, यदि वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के समय ही डेटा की व्याख्या की जा रही है। | ||
एक और | एक और उद्देश्य जिसके लिए डेटा वॉल्ट प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में [[सर्बनेस-ऑक्सले]] आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है। | ||
डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह [[खुला मानक]] है.<ref>[[#dvos2|A short intro to#datavault 2.0]]</ref> नए विनिर्देश में तीन स्तंभ सम्मिलित हैं: कार्यप्रणाली ([[सॉफ्टवेयर इंजीनियरिंग संस्थान]]/[[क्षमता परिपक्वता मॉडल]], [[सिक्स सिग्मा]], [[सिस्टम विकास जीवन चक्र]], आदि), वास्तुकला (अन्य के बीच इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में [[लगातार स्टेजिंग क्षेत्र]] कहा जाता है) 2.0) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, [[NoSQL|नहीं SQL]] जैसे नए घटकों को सम्मिलित करने पर ध्यान केंद्रित किया गया है - और उपस्तिथा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। | डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह [[खुला मानक]] है.<ref>[[#dvos2|A short intro to#datavault 2.0]]</ref> नए विनिर्देश में तीन स्तंभ सम्मिलित हैं: कार्यप्रणाली ([[सॉफ्टवेयर इंजीनियरिंग संस्थान]]/[[क्षमता परिपक्वता मॉडल]], [[सिक्स सिग्मा]], [[सिस्टम विकास जीवन चक्र]], आदि), वास्तुकला (अन्य के बीच इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में [[लगातार स्टेजिंग क्षेत्र]] कहा जाता है) 2.0) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, [[NoSQL|नहीं SQL]] जैसे नए घटकों को सम्मिलित करने पर ध्यान केंद्रित किया गया है - और उपस्तिथा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। | ||
Line 23: | Line 23: | ||
=== इतिहास === | === इतिहास === | ||
डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की श्रृंखला में डेटा वॉल्ट पद्धति के | डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की श्रृंखला में डेटा वॉल्ट पद्धति के मूलभूत नियमों का विस्तार और व्याख्या की गई है। इनमें सामान्य सिंहावलोकन सम्मिलित है,<ref>[[#tdan1|Data Vault Series 1 – Data Vault Overview]]</ref> घटकों का अवलोकन,<ref>[[#tdan2|Data Vault Series 2 – Data Vault Components]]</ref> अंतिम तिथियों और जुड़ावों के बारे में चर्चा,<ref>[[#tdan3|Data Vault Series 3 – End Dates and Basic Joins]]</ref> लिंक टेबल,<ref>[[#tdan4|Data Vault Series 4 – Link tables]], paragraph 2.3</ref> और लोडिंग प्रथाओं पर लेख।<ref name="DataVault_a">#tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस</ref> | ||
विधि के लिए वैकल्पिक (और संभवतः ही कभी उपयोग किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है। | विधि के लिए वैकल्पिक (और संभवतः ही कभी उपयोग किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है। | ||
Line 39: | Line 39: | ||
एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ का ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी। | एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ का ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी। | ||
डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा | डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा प्रणाली [[ चित्रमय मॉडल |चित्रमय मॉडल]] है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस संसार में हब और रिश्तों के साथ ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है। | ||
== | == मूलभूत धारणाएँ == | ||
डेटा वॉल्ट व्यावसायिक कुंजियों (जो अधिकांशतः परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। . | डेटा वॉल्ट व्यावसायिक कुंजियों (जो अधिकांशतः परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। . | ||
व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका | व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका कारणयह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 61, why are business keys important</ref> कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है। | ||
=== हब === | === हब === | ||
Line 75: | Line 75: | ||
व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं। | व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं। | ||
ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन | ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन स्थितियों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)। | ||
लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। | लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। चूँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस स्थितियों में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, किंतु व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है। | ||
लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा सम्मिलित है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है। | लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा सम्मिलित है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है। | ||
Line 99: | Line 99: | ||
|} | |} | ||
===उपग्रह === | ===उपग्रह === | ||
हब और लिंक मॉडल की संरचना बनाते हैं, किन्तु उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा सम्मिलित है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी सम्मिलित है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को | हब और लिंक मॉडल की संरचना बनाते हैं, किन्तु उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा सम्मिलित है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी सम्मिलित है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को स्थितियों के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और अधिक समष्टि (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर अधिक सरल (केवल वैध-संकेतक के साथ लिंक पर उपग्रह) तक हो सकता है और समयरेखा)। | ||
सामान्यतः विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। | सामान्यतः विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। चूँकि, आकार, निवेश, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं। | ||
सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है। | सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है। | ||
एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता | एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता प्रारंभ और समाप्त करता है।<ref>[https://dbtvault.readthedocs.io/en/latest/tutorial/tut_eff_satellites/ Effectivity Satellites - dbtvault]</ref> | ||
==== सैटेलाइट उदाहरण ==== | ==== सैटेलाइट उदाहरण ==== | ||
यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ सम्मिलित हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी सम्मिलित है जिसमें | यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ सम्मिलित हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी सम्मिलित है जिसमें कठिन परिस्थिति श्रेणी के लिए कोड सम्मिलित हैं जिसमें यह संबंध माना जाता है। | ||
{| class="wikitable" | {| class="wikitable" | ||
Line 118: | Line 118: | ||
|- | |- | ||
|- | |- | ||
| S_SEQ_NR || यदि एक मूल कुंजी के लिए कई वैध उपग्रह हैं तो विशिष्टता | | S_SEQ_NR || यदि एक मूल कुंजी के लिए कई वैध उपग्रह हैं तो विशिष्टता प्रयुक्त करने के लिए ऑर्डर या अनुक्रम संख्या || नहीं (**) || ऐसा तब हो सकता है, उदाहरण के लिए, आपके पास एक हब पाठ्यक्रम है और पाठ्यक्रम का नाम एक विशेषता है, किन्तु कई अलग-अलग भाषाओं में है। | ||
|- | |- | ||
| S_LDTS || मूल कुंजी L_DRIVER_ID के लिए विशेषता मानों के इस संयोजन की वैधता के लिए लोड दिनांक (प्रारंभ तिथि)। || हाँ | | S_LDTS || मूल कुंजी L_DRIVER_ID के लिए विशेषता मानों के इस संयोजन की वैधता के लिए लोड दिनांक (प्रारंभ तिथि)। || हाँ | ||
Line 130: | Line 130: | ||
| NR_OF_ACCIDENTS || इस वाहन चालक द्वारा इस वाहन से हुई दुर्घटनाओं की संख्या || नहीं (*) | | NR_OF_ACCIDENTS || इस वाहन चालक द्वारा इस वाहन से हुई दुर्घटनाओं की संख्या || नहीं (*) | ||
|- | |- | ||
| R_RISK_CATEGORY_CD || ड्राइवर के लिए | | R_RISK_CATEGORY_CD || ड्राइवर के लिए कठिन परिस्थिति श्रेणी. यह R_RISK_CATEGORY का संदर्भ है || नहीं (*) | ||
|- | |- | ||
| S_RSRC || पहली बार लोड होने पर इस उपग्रह में जानकारी का रिकॉर्ड स्रोत || हाँ | | S_RSRC || पहली बार लोड होने पर इस उपग्रह में जानकारी का रिकॉर्ड स्रोत || हाँ | ||
Line 137: | Line 137: | ||
|} | |} | ||
(*) कम से कम विशेषता अनिवार्य है। | (*) कम से कम विशेषता अनिवार्य है। | ||
(**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता | (**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता प्रयुक्त करने के लिए इसकी आवश्यकता होती है। | ||
=== संदर्भ तालिकाएँ === | === संदर्भ तालिकाएँ === | ||
Line 143: | Line 143: | ||
<ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 8.0, page 146</ref></ब्लॉककोट> | <ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 8.0, page 146</ref></ब्लॉककोट> | ||
संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, किन्तु कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट | संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, किन्तु कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट स्थितियों में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, किन्तु यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 8.0, page 149</ref> सामान्यतः, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं। | ||
==== संदर्भ उदाहरण ==== | ==== संदर्भ उदाहरण ==== | ||
यह वाहन चालकों के लिए | यह वाहन चालकों के लिए कठिन परिस्थिति श्रेणियों वाली संदर्भ तालिका का उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है. | ||
{| class="wikitable" | {| class="wikitable" | ||
Line 152: | Line 152: | ||
! कार्यक्षेत्र नाम !! विवरण !! अनिवार्य? | ! कार्यक्षेत्र नाम !! विवरण !! अनिवार्य? | ||
|- | |- | ||
| R_RISK_CATEGORY_CD || | | R_RISK_CATEGORY_CD || कठिन परिस्थिति श्रेणी के लिए कोड || हाँ | ||
|- | |- | ||
| RISK_CATEGORY_DESC || | | RISK_CATEGORY_DESC || कठिन परिस्थिति श्रेणी का विवरण || नहीं (*) | ||
|} | |} | ||
(*) कम से कम विशेषता अनिवार्य है। | (*) कम से कम विशेषता अनिवार्य है। | ||
Line 164: | Line 164: | ||
चूंकि हब लिंक के अतिरिक्त एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं। | चूंकि हब लिंक के अतिरिक्त एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं। | ||
ईटीएल अधिक सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे | ईटीएल अधिक सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे स्थितियों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।<ref name="DataVault_a" /> | ||
डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई | डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई विधि ी त्रुटि न हो। | ||
== डेटा वॉल्ट और आयामी मॉडलिंग == | == डेटा वॉल्ट और आयामी मॉडलिंग == | ||
Line 179: | Line 179: | ||
डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/[[सीएमएमआई]] स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक सम्मिलित हैं, और उन्हें सिक्स सिग्मा, [[कुल गुणवत्ता प्रबंधन]] और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और नियत के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ सम्मिलित होना चाहिए। | डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/[[सीएमएमआई]] स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक सम्मिलित हैं, और उन्हें सिक्स सिग्मा, [[कुल गुणवत्ता प्रबंधन]] और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और नियत के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ सम्मिलित होना चाहिए। | ||
डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना | डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना प्रारंभ कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है। | ||
== उपकरण == | == उपकरण == | ||
Line 251: | Line 251: | ||
* हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2। | * हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2। | ||
* डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98। | * डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98। | ||
* डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को | * डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को प्रयुक्त करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2। | ||
* डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9। | * डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9। | ||
* दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173। | * दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173। |
Revision as of 11:49, 13 August 2023
आंकड़े वॉल्ट मॉडलिंग डेटाबेस मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का प्रणाली भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ लेखापरीक्षा की आवश्यकता पर जोर देने जैसे विवादों से संबंधित है जहां डेटाबेस डेटा वंश में सभी डेटा सम्मिलित हैं। इसका कारणयह है कि डेटा वॉल्ट में प्रत्येक पंक्ति (डेटाबेस) के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में डैन लिनस्टेड द्वारा प्रकाशित की गई थी।
डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा कारणव्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है।[1] इसे इस कथन में संक्षेपित किया गया है कि डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है।[2] जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का ही संस्करण और सत्य का ही स्रोत।[3]
मॉडलिंग पद्धति को डेटा संरचना को वर्णनात्मक विशेषता (कंप्यूटिंग) से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।[4] डेटा वॉल्ट को यथासंभव समानांतर कंप्यूटिंग लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,[5] जिससे कि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।
स्टार स्कीमा (आयामी मॉडलिंग) और मौलिक संबंधपरक मॉडल (3NF) के विपरीत, डेटा वॉल्ट और एंकर मॉडलिंग उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, किन्तु उन्हें उन्नत विधि माना जाता है जिसके लिए अनुभवी डेटा आर्किटेक्ट की आवश्यकता होती है। .[6] डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं,[7] किन्तु एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।
इतिहास और दर्शन
अपने प्रारंभिक दिनों में, डैन लिनस्टेड ने मॉडलिंग विधि का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था।[8] या सामान्य मूलभूत मॉडलिंग वास्तुकला।[9] डेटा वेयरहाउस मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और एंटरप्राइज़ बस मैट्रिक्स के साथ राल्फ किमबॉल के अनुसार मॉडल बनाते हैं, या आप डेटाबेस सामान्य रूपों के साथ बिल इनमोन के अनुसार मॉडल बनाते हैं. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों विधि ों में समस्याएं हैं. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई स्थितियों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन विवादों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)।
विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:
"डेटा वॉल्ट मॉडल एक विवरण उन्मुख, ऐतिहासिक ट्रैकिंग और सामान्यीकृत तालिकाओं का विशिष्ट रूप से जुड़ा हुआ सेट है जो व्यवसाय के एक या अधिक कार्यात्मक क्षेत्रों का समर्थन करता है। यह एक हाइब्रिड दृष्टिकोण है जिसमें तीसरे सामान्य फॉर्म (3NF) और [[स्टार] के बीच सर्वोत्तम नस्ल शामिल है स्कीमा]]। डिज़ाइन लचीला, स्केलेबल, सुसंगत और उद्यम की आवश्यकताओं के अनुकूल है"[10]
डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, यदि वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के समय ही डेटा की व्याख्या की जा रही है।
एक और उद्देश्य जिसके लिए डेटा वॉल्ट प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में सर्बनेस-ऑक्सले आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।
डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह खुला मानक है.[11] नए विनिर्देश में तीन स्तंभ सम्मिलित हैं: कार्यप्रणाली (सॉफ्टवेयर इंजीनियरिंग संस्थान/क्षमता परिपक्वता मॉडल, सिक्स सिग्मा, सिस्टम विकास जीवन चक्र, आदि), वास्तुकला (अन्य के बीच इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में लगातार स्टेजिंग क्षेत्र कहा जाता है) 2.0) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, नहीं SQL जैसे नए घटकों को सम्मिलित करने पर ध्यान केंद्रित किया गया है - और उपस्तिथा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण।
ईडीडब्ल्यू और बीआई सिस्टम को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को सम्मिलित करने के लिए विनिर्देश विकसित करना आवश्यक है।
इतिहास
डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की श्रृंखला में डेटा वॉल्ट पद्धति के मूलभूत नियमों का विस्तार और व्याख्या की गई है। इनमें सामान्य सिंहावलोकन सम्मिलित है,[12] घटकों का अवलोकन,[13] अंतिम तिथियों और जुड़ावों के बारे में चर्चा,[14] लिंक टेबल,[15] और लोडिंग प्रथाओं पर लेख।[16]
विधि के लिए वैकल्पिक (और संभवतः ही कभी उपयोग किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है।
Ref>#dwdummy, पृष्ठ 83</ref>
डेटा वॉल्ट 2.0
Ref>#dvos2|#datavault 2.0 का संक्षिप्त परिचय</ref>[17]
2013 तक दृश्य में आ गया है और कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं के साथ-साथ बिग डेटा, नहीं SQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण को मेज पर लाता है।
वैकल्पिक व्याख्याएँ
डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के वेक्टर) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में वेक्टर)। एल्गोरिदम के डेटा माइनिंग सेट का उपयोग करके, विश्वास अंतराल और सांख्यिकीय पावर रेटिंग के साथ लिंक बनाए जा सकते हैं। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में उपस्तिथ नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं।[18] एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ का ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी।
डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा प्रणाली चित्रमय मॉडल है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस संसार में हब और रिश्तों के साथ ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।
मूलभूत धारणाएँ
डेटा वॉल्ट व्यावसायिक कुंजियों (जो अधिकांशतः परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। .
व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका कारणयह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है।[19] कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।
हब
हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की सूची होती है। हब में प्रत्येक हब आइटम के लिए सरोगेट कुंजी और प्राकृतिक कुंजी की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः कई भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।
हब में कम से कम निम्नलिखित फ़ील्ड सम्मिलित हैं:[20] * सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।
- एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड सम्मिलित हो सकते हैं.
- रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
- वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।
एक हब में कई व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ ही व्यवसाय कुंजी प्रदान करती हैं किन्तु टकराव के साथ जिनके अलग-अलग अर्थ होते हैं।
हब में सामान्यतः कम से कम उपग्रह होना चाहिए।[20]
हब उदाहरण
यह कारों वाली हब-टेबल का उदाहरण है, जिसे कार (H_CAR) कहा जाता है। ड्राइविंग कुंजी वाहन पहचान संख्या है।
कार्यक्षेत्र नाम | विवरण | अनिवार्य? | टिप्पणी |
---|---|---|---|
H_CAR_ID | हब के लिए अनुक्रम आईडी और सरोगेट कुंजी | नहीं | अनुशंसित किन्तु वैकल्पिक[21] |
VEHICLE_ID_NR | व्यवसाय कुंजी जो इस हब को चलाती है। समग्र व्यवसाय कुंजी के लिए एक से अधिक फ़ील्ड हो सकते हैं | हाँ | |
H_RSRC | पहली बार लोड होने पर इस कुंजी का रिकॉर्ड स्रोत | हाँ | |
LOAD_AUDIT_ID | ऑडिट जानकारी, जैसे लोड समय, लोड की अवधि, लाइनों की संख्या, आदि के साथ एक तालिका में एक आईडी। | नहीं |
लिंक
व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं।
ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन स्थितियों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।
लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। चूँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस स्थितियों में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, किंतु व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।
लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा सम्मिलित है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।
लिंक उदाहरण
यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के बीच लिंक-टेबल का उदाहरण है। लिंक को ड्राइवर (L_DRIVER) कहा जाता है।
कार्यक्षेत्र नाम | विवरण | अनिवार्य? | टिप्पणी |
---|---|---|---|
L_DRIVER_ID | लिंक के लिए अनुक्रम आईडी और सरोगेट कुंजी | नहीं | अनुशंसित किन्तु वैकल्पिक[21] |
H_CAR_ID | कार हब के लिए सरोगेट कुंजी, लिंक का पहला एंकर | हाँ | |
H_PERSON_ID | व्यक्ति हब के लिए सरोगेट कुंजी, लिंक का दूसरा एंकर | हाँ | |
L_RSRC | पहली बार लोड होने पर इस एसोसिएशन का रिकॉर्डस्रोत | हाँ | |
LOAD_AUDIT_ID | ऑडिट जानकारी, जैसे लोड समय, लोड की अवधि, लाइनों की संख्या, आदि के साथ एक तालिका में एक आईडी। | नहीं |
उपग्रह
हब और लिंक मॉडल की संरचना बनाते हैं, किन्तु उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा सम्मिलित है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी सम्मिलित है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को स्थितियों के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और अधिक समष्टि (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर अधिक सरल (केवल वैध-संकेतक के साथ लिंक पर उपग्रह) तक हो सकता है और समयरेखा)।
सामान्यतः विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। चूँकि, आकार, निवेश, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।
सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।
एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता प्रारंभ और समाप्त करता है।[22]
सैटेलाइट उदाहरण
यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ सम्मिलित हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी सम्मिलित है जिसमें कठिन परिस्थिति श्रेणी के लिए कोड सम्मिलित हैं जिसमें यह संबंध माना जाता है।
कार्यक्षेत्र नाम | विवरण | अनिवार्य? | टिप्पणी |
---|---|---|---|
S_DRIVER_INSURANCE_ID | लिंक पर उपग्रह के लिए अनुक्रम आईडी और सरोगेट कुंजी | नहीं | अनुशंसित किन्तु वैकल्पिक[21] |
L_DRIVER_ID | (सरोगेट) ड्राइवर लिंक के लिए प्राथमिक कुंजी, उपग्रह का जनक | हाँ | |
S_SEQ_NR | यदि एक मूल कुंजी के लिए कई वैध उपग्रह हैं तो विशिष्टता प्रयुक्त करने के लिए ऑर्डर या अनुक्रम संख्या | नहीं (**) | ऐसा तब हो सकता है, उदाहरण के लिए, आपके पास एक हब पाठ्यक्रम है और पाठ्यक्रम का नाम एक विशेषता है, किन्तु कई अलग-अलग भाषाओं में है। |
S_LDTS | मूल कुंजी L_DRIVER_ID के लिए विशेषता मानों के इस संयोजन की वैधता के लिए लोड दिनांक (प्रारंभ तिथि)। | हाँ | |
S_LEDTS | मूल कुंजी L_DRIVER_ID के लिए विशेषता मानों के इस संयोजन की वैधता के लिए लोड समाप्ति तिथि (अंतिम तिथि)। | नहीं | |
IND_PRIMARY_DRIVER | संकेतक कि ड्राइवर इस कार का प्राथमिक ड्राइवर है या नहीं | नहीं (*) | |
INSURANCE_COMPANY | इस वाहन और इस ड्राइवर के लिए बीमा कंपनी का नाम | नहीं (*) | |
NR_OF_ACCIDENTS | इस वाहन चालक द्वारा इस वाहन से हुई दुर्घटनाओं की संख्या | नहीं (*) | |
R_RISK_CATEGORY_CD | ड्राइवर के लिए कठिन परिस्थिति श्रेणी. यह R_RISK_CATEGORY का संदर्भ है | नहीं (*) | |
S_RSRC | पहली बार लोड होने पर इस उपग्रह में जानकारी का रिकॉर्ड स्रोत | हाँ | |
LOAD_AUDIT_ID | ऑडिट जानकारी, जैसे लोड समय, लोड की अवधि, लाइनों की संख्या, आदि के साथ एक तालिका में एक आईडी। | नहीं |
(*) कम से कम विशेषता अनिवार्य है। (**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता प्रयुक्त करने के लिए इसकी आवश्यकता होती है।
संदर्भ तालिकाएँ
संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का सामान्य हिस्सा हैं। वे सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं: <ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है।[23]</ब्लॉककोट>
संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, किन्तु कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट स्थितियों में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, किन्तु यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ।[24] सामान्यतः, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।
संदर्भ उदाहरण
यह वाहन चालकों के लिए कठिन परिस्थिति श्रेणियों वाली संदर्भ तालिका का उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.
कार्यक्षेत्र नाम | विवरण | अनिवार्य? |
---|---|---|
R_RISK_CATEGORY_CD | कठिन परिस्थिति श्रेणी के लिए कोड | हाँ |
RISK_CATEGORY_DESC | कठिन परिस्थिति श्रेणी का विवरण | नहीं (*) |
(*) कम से कम विशेषता अनिवार्य है।
लोड हो रहा है अभ्यास
डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड अधिक सरल है (देखें #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के बाद, यदि आप हब से पूछताछ करते हैं तो अब आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के बीच संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तो आप सभी लिंक में उपग्रह जोड़ सकते हैं।
चूंकि हब लिंक के अतिरिक्त एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।
ईटीएल अधिक सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे स्थितियों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।[16]
डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई विधि ी त्रुटि न हो।
डेटा वॉल्ट और आयामी मॉडलिंग
डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही कॉग्नोस, ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण , एसएपी बिजनेस ऑब्जेक्ट्स, पेंटाहो एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है। चूंकि ये अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को आयामी मॉडलिंग में सम्मिलित करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण सामान्यतः आवश्यक होता है।
इस उद्देश्य के लिए, उन हबों पर उपस्तिथ हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर उपस्तिथ लिंक और संबंधित उपग्रहों को आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।
ध्यान दें कि चूंकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, किन्तु आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.[25]
डेटा वॉल्ट पद्धति
डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/सीएमएमआई स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक सम्मिलित हैं, और उन्हें सिक्स सिग्मा, कुल गुणवत्ता प्रबंधन और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और नियत के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ सम्मिलित होना चाहिए।
डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना प्रारंभ कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।
उपकरण
टूल के कुछ उदाहरण हैं:
यह भी देखें
- बिल इनमोन
- डेटा वेयरहाउस
- किमबॉल जीवनचक्र, राल्फ किमबॉल द्वारा विकसित
- लगातार स्टेजिंग क्षेत्र
संदर्भ
उद्धरण
- ↑ Super Charge your data warehouse, page 74
- ↑ The next generation EDW
- ↑ Building a scalable datawarehouse with data vault 2.0, p. 6
- ↑ Super Charge your data warehouse, page 21
- ↑ Super Charge your data warehouse, page 76
- ↑ Porsby, Johan. "Rålager istället för ett strukturerat datalager". www.agero.se (in svenska). Retrieved 2023-02-22.
- ↑ Porsby, Johan. "Datamodeller för data warehouse". www.agero.se (in svenska). Retrieved 2023-02-22.
- ↑ Building a scalable datawarehouse with data vault 2.0, p. 11
- ↑ Building a scalable datawarehouse with data vault 2.0, p. xv
- ↑ The New Business Supermodel, glossary, page 75
- ↑ A short intro to#datavault 2.0
- ↑ Data Vault Series 1 – Data Vault Overview
- ↑ Data Vault Series 2 – Data Vault Components
- ↑ Data Vault Series 3 – End Dates and Basic Joins
- ↑ Data Vault Series 4 – Link tables, paragraph 2.3
- ↑ 16.0 16.1 #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस
- ↑ Data Vault 2.0 Being Announced
- ↑ Super Charge your Data Warehouse, paragraph 5.20, page 110
- ↑ Super Charge your data warehouse, page 61, why are business keys important
- ↑ 20.0 20.1 Data Vault Forum, Standards section, section 3.0 Hub Rules
- ↑ 21.0 21.1 21.2 Data Vault Modeling Specification v1.0.9
- ↑ Effectivity Satellites - dbtvault
- ↑ Super Charge your Data Warehouse, paragraph 8.0, page 146
- ↑ Super Charge your Data Warehouse, paragraph 8.0, page 149
- ↑ Melbournevault, 16 May 2023
स्रोत
- Linstedt, Dan (December 2010). अपने डेटा वेयरहाउस को सुपर चार्ज करें. Dan Linstedt. ISBN 978-0-9866757-1-3.
- Thomas C. Hammergren; Alan R. Simon (February 2009). डमीज़ के लिए डेटा वेयरहाउसिंग, दूसरा संस्करण. John Wiley & Sons. ISBN 978-0-470-40747-9.
- Ronald Damhof; Lidwine van As (August 25, 2008). "अगली पीढ़ी EDW - सत्य के एकल संस्करण के विचार को छोड़ देना" (PDF). Database Magazine (DB/M). Array Publications B.V.
- Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 1 - डेटा वॉल्ट अवलोकन". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
- Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 2 - डेटा वॉल्ट घटक". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
- Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 3 - अंतिम तिथियां और मूल जुड़ाव". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
- Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 4 - लिंक टेबल्स". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
- Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 5 - लोडिंग अभ्यास". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
- Kunenborg, Ronald. "डेटा वॉल्ट नियम v1.0.8 चीट शीट" (PDF). Data Vault Rules. Grundsätzlich IT. Retrieved 26 September 2012. v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
- Linstedt, Dan. "डेटा वॉल्ट मॉडलिंग विशिष्टता v1.0.9". Data Vault Forum. Dan Linstedt. Retrieved 26 September 2012.
- Linstedt, Dan. "डेटा वॉल्ट लोडिंग विशिष्टता v1.2". DanLinstedt.com. Dan Linstedt. Retrieved 2014-01-03.
- Linstedt, Dan. "#डेटावॉल्ट 2.0 का संक्षिप्त परिचय". DanLinstedt.com. Dan Linstedt. Retrieved 2014-01-03.
- Linstedt, Dan. "डेटा वॉल्ट 2.0 की घोषणा की जा रही है". DanLinstedt.com. Dan Linstedt. Retrieved 2014-01-03.
- डच भाषा के स्रोत
- Ketelaars, M.W.A.M. (2005-11-25). "डेटा वॉल्ट के साथ मॉडल डेटा वेयरहाउस". Database Magazine (DB/M). Array Publications B.V. (7): 36–40.
- Verhagen, K.; Vrijkorte, B. (June 10, 2008). "रिलेशनल बनाम डेटा वॉल्ट". Database Magazine (DB/M). Array Publications B.V. (4): 6–9.
साहित्य
- पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
- जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
- केंट ग्राज़ियानो: उत्तम डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
- हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2।
- डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
- डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को प्रयुक्त करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
- डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
- दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।
बाहरी संबंध
- डेटा वॉल्ट समुदाय उपयोगकर्ताओं के लिए घर
- प्रमाणीकरण का मार्ग
- डेटा वॉल्ट मॉडलिंग के आविष्कारक डैन लिनस्टेड का मुखपृष्ठ
- डेटा वॉल्ट को समर्पित एक वेबसाइट, जिसका रखरखाव डैन लिनस्टेड द्वारा किया जाता है
- डेटा वॉल्ट मॉडलिंग दृष्टिकोण और कार्यप्रणाली पर यूट्यूब वीडियो
- डैन लिनस्टेड स्लाइडशेयर साइट
- डेटा वॉल्ट प्रमाणन साइट
- चंचल डेटा साइट
- अनुशासित एजाइल डिलीवरी (डीएडी) साइट