डेटा वॉल्ट मॉडलिंग: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Database modeling method}} {{Refimprove|date=November 2016}} File:Data Vault Example.png|thumb|upright=1.5|दो हब (नीला), एक लिं...")
 
No edit summary
Line 1: Line 1:
{{Short description|Database modeling method}}
{{Short description|Database modeling method}}
{{Refimprove|date=November 2016}}
[[File:Data Vault Example.png|thumb|upright=1.5|दो हब (नीला), लिंक (हरा) और चार उपग्रह (पीला) के साथ सरल डेटा वॉल्ट मॉडल]][[आंकड़े]] वॉल्ट मॉडलिंग [[डेटाबेस]] मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का तरीका भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ [[ लेखापरीक्षा |लेखापरीक्षा]] की आवश्यकता पर जोर देने जैसे मुद्दों से संबंधित है जहां डेटाबेस [[डेटा वंश]] में सभी डेटा शामिल हैं। इसका मतलब यह है कि डेटा वॉल्ट में प्रत्येक [[पंक्ति (डेटाबेस)]] के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में [[डैन लिनस्टेड]] द्वारा प्रकाशित की गई थी।
[[File:Data Vault Example.png|thumb|upright=1.5|दो हब (नीला), एक लिंक (हरा) और चार उपग्रह (पीला) के साथ सरल डेटा वॉल्ट मॉडल]][[आंकड़े]] वॉल्ट मॉडलिंग एक [[डेटाबेस]] मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का एक तरीका भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ [[ लेखापरीक्षा ]] की आवश्यकता पर जोर देने जैसे मुद्दों से संबंधित है जहां डेटाबेस [[डेटा वंश]] में सभी डेटा शामिल हैं। इसका मतलब यह है कि डेटा वॉल्ट में प्रत्येक [[पंक्ति (डेटाबेस)]] के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में [[डैन लिनस्टेड]] द्वारा प्रकाशित की गई थी।


डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा मतलब व्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 74</ref> इसे इस कथन में संक्षेपित किया गया है कि एक डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है।<ref>[[#rdamhof1|The next generation EDW]]</ref> जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। एक डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का एक ही संस्करण और सत्य का एक ही स्रोत।<ref>Building a scalable datawarehouse with data vault 2.0, p. 6</ref>
डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा मतलब व्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 74</ref> इसे इस कथन में संक्षेपित किया गया है कि डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है।<ref>[[#rdamhof1|The next generation EDW]]</ref> जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का ही संस्करण और सत्य का ही स्रोत।<ref>Building a scalable datawarehouse with data vault 2.0, p. 6</ref>
मॉडलिंग पद्धति को [[डेटा संरचना]] को वर्णनात्मक [[विशेषता (कंप्यूटिंग)]] से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 21</ref> डेटा वॉल्ट को यथासंभव [[समानांतर कंप्यूटिंग]] लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,<ref>[[#dvsuper|Super Charge your data warehouse]], page 76</ref> ताकि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।
मॉडलिंग पद्धति को [[डेटा संरचना]] को वर्णनात्मक [[विशेषता (कंप्यूटिंग)]] से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 21</ref> डेटा वॉल्ट को यथासंभव [[समानांतर कंप्यूटिंग]] लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,<ref>[[#dvsuper|Super Charge your data warehouse]], page 76</ref> ताकि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।


[[स्टार स्कीमा]] ([[आयामी मॉडलिंग]]) और शास्त्रीय [[ संबंधपरक मॉडल ]] (3NF) के विपरीत, डेटा वॉल्ट और [[एंकर मॉडलिंग]] उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, लेकिन उन्हें उन्नत तकनीक माना जाता है जिसके लिए अनुभवी [[डेटा आर्किटेक्ट]] की आवश्यकता होती है। .<ref>{{cite web|access-date=2023-02-22|first=Johan|language=sv|surname=Porsby|title=Rålager istället för ett strukturerat datalager|url=https://www.agero.se/blogg/ralager-istallet-for-ett-strukturerat-datalager|work=www.agero.se}}<!-- auto-translated by Module:CS1 translator --></ref> डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं,<ref>{{cite web|access-date=2023-02-22|first=Johan|language=sv|surname=Porsby|title=Datamodeller för data warehouse|url=https://www.agero.se/blogg/datamodeller-for-data-warehouse|work=www.agero.se}}<!-- auto-translated by Module:CS1 translator --></ref> लेकिन एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।{{citation needed|date=March 2023}}
[[स्टार स्कीमा]] ([[आयामी मॉडलिंग]]) और शास्त्रीय [[ संबंधपरक मॉडल |संबंधपरक मॉडल]] (3NF) के विपरीत, डेटा वॉल्ट और [[एंकर मॉडलिंग]] उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, लेकिन उन्हें उन्नत तकनीक माना जाता है जिसके लिए अनुभवी [[डेटा आर्किटेक्ट]] की आवश्यकता होती है। .<ref>{{cite web|access-date=2023-02-22|first=Johan|language=sv|surname=Porsby|title=Rålager istället för ett strukturerat datalager|url=https://www.agero.se/blogg/ralager-istallet-for-ett-strukturerat-datalager|work=www.agero.se}}<!-- auto-translated by Module:CS1 translator --></ref> डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं,<ref>{{cite web|access-date=2023-02-22|first=Johan|language=sv|surname=Porsby|title=Datamodeller för data warehouse|url=https://www.agero.se/blogg/datamodeller-for-data-warehouse|work=www.agero.se}}<!-- auto-translated by Module:CS1 translator --></ref> लेकिन एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।


==इतिहास और दर्शन==
==इतिहास और दर्शन==
{{Original research|discuss=Template talk:Original research#discuss parameter|date=August 2019}}
अपने शुरुआती दिनों में, डैन लिनस्टेड ने मॉडलिंग तकनीक का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था।<ref>Building a scalable datawarehouse with data vault 2.0, p. 11</ref> या सामान्य मूलभूत मॉडलिंग वास्तुकला।<ref>Building a scalable datawarehouse with data vault 2.0, p. xv</ref> [[डेटा वेयरहाउस]] मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और [[ एंटरप्राइज़ बस मैट्रिक्स |एंटरप्राइज़ बस मैट्रिक्स]] के साथ [[राल्फ किमबॉल]] के अनुसार मॉडल बनाते हैं, या आप डेटाबेस [[सामान्य रूप]]ों के साथ [[बिल इनमोन]] के अनुसार मॉडल बनाते हैं. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों तकनीकों में समस्याएं हैं. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई मामलों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन मुद्दों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)।
 
अपने शुरुआती दिनों में, डैन लिनस्टेड ने मॉडलिंग तकनीक का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था।<ref>Building a scalable datawarehouse with data vault 2.0, p. 11</ref> या सामान्य मूलभूत मॉडलिंग वास्तुकला।<ref>Building a scalable datawarehouse with data vault 2.0, p. xv</ref> [[डेटा वेयरहाउस]] मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और [[ एंटरप्राइज़ बस मैट्रिक्स ]] के साथ [[राल्फ किमबॉल]] के अनुसार मॉडल बनाते हैं, या आप डेटाबेस [[सामान्य रूप]]ों के साथ [[बिल इनमोन]] के अनुसार मॉडल बनाते हैं{{Citation needed|date=August 2019}}. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों तकनीकों में समस्याएं हैं{{Citation needed|date=August 2019}}. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई मामलों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी{{Citation needed|date=August 2019}}. डेटा वॉल्ट को उन मुद्दों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)।


विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:
विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:
{{quotation | "The Data Vault Model is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and [[star schema]]. The design is flexible, scalable, consistent and adaptable to the needs of the enterprise"<ref>[[#dved2|The New Business Supermodel]], glossary, page 75</ref>}}
{{quotation | "The Data Vault Model is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and [[star schema]]. The design is flexible, scalable, consistent and adaptable to the needs of the enterprise"<ref>[[#dved2|The New Business Supermodel]], glossary, page 75</ref>}}


डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, भले ही वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए एक समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की एक व्याख्या है जो एक विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के दौरान ही डेटा की व्याख्या की जा रही है।
डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, भले ही वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के दौरान ही डेटा की व्याख्या की जा रही है।


एक और मुद्दा जिसके लिए डेटा वॉल्ट एक प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में [[सर्बनेस-ऑक्सले]] आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए एक प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।
एक और मुद्दा जिसके लिए डेटा वॉल्ट प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में [[सर्बनेस-ऑक्सले]] आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।


डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह एक [[खुला मानक]] है.<ref>[[#dvos2|A short intro to#datavault 2.0]]</ref> नए विनिर्देश में तीन स्तंभ शामिल हैं: कार्यप्रणाली ([[सॉफ्टवेयर इंजीनियरिंग संस्थान]]/[[क्षमता परिपक्वता मॉडल]], [[सिक्स सिग्मा]], [[सिस्टम विकास जीवन चक्र]], आदि), वास्तुकला (अन्य के बीच एक इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में [[लगातार स्टेजिंग क्षेत्र]] कहा जाता है) 2.0) और एक प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, [[NoSQL]] जैसे नए घटकों को शामिल करने पर ध्यान केंद्रित किया गया है - और मौजूदा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ एक स्केलेबल डेटा वेयरहाउस का निर्माण।
डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह [[खुला मानक]] है.<ref>[[#dvos2|A short intro to#datavault 2.0]]</ref> नए विनिर्देश में तीन स्तंभ शामिल हैं: कार्यप्रणाली ([[सॉफ्टवेयर इंजीनियरिंग संस्थान]]/[[क्षमता परिपक्वता मॉडल]], [[सिक्स सिग्मा]], [[सिस्टम विकास जीवन चक्र]], आदि), वास्तुकला (अन्य के बीच इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में [[लगातार स्टेजिंग क्षेत्र]] कहा जाता है) 2.0) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, [[NoSQL]] जैसे नए घटकों को शामिल करने पर ध्यान केंद्रित किया गया है - और मौजूदा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण।


ईडीडब्ल्यू और बीआई सिस्टम को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को शामिल करने के लिए विनिर्देश विकसित करना आवश्यक है।
ईडीडब्ल्यू और बीआई सिस्टम को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को शामिल करने के लिए विनिर्देश विकसित करना आवश्यक है।


=== इतिहास ===
=== इतिहास ===
डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में एक सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की एक श्रृंखला में डेटा वॉल्ट पद्धति के बुनियादी नियमों का विस्तार और व्याख्या की गई है। इनमें एक सामान्य सिंहावलोकन शामिल है,<ref>[[#tdan1|Data Vault Series 1 – Data Vault Overview]]</ref> घटकों का अवलोकन,<ref>[[#tdan2|Data Vault Series 2 – Data Vault Components]]</ref> अंतिम तिथियों और जुड़ावों के बारे में चर्चा,<ref>[[#tdan3|Data Vault Series 3 – End Dates and Basic Joins]]</ref> लिंक टेबल,<ref>[[#tdan4|Data Vault Series 4 – Link tables]], paragraph 2.3</ref> और लोडिंग प्रथाओं पर एक लेख।<ref name="DataVault_a">#tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस</ref>
डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की श्रृंखला में डेटा वॉल्ट पद्धति के बुनियादी नियमों का विस्तार और व्याख्या की गई है। इनमें सामान्य सिंहावलोकन शामिल है,<ref>[[#tdan1|Data Vault Series 1 – Data Vault Overview]]</ref> घटकों का अवलोकन,<ref>[[#tdan2|Data Vault Series 2 – Data Vault Components]]</ref> अंतिम तिथियों और जुड़ावों के बारे में चर्चा,<ref>[[#tdan3|Data Vault Series 3 – End Dates and Basic Joins]]</ref> लिंक टेबल,<ref>[[#tdan4|Data Vault Series 4 – Link tables]], paragraph 2.3</ref> और लोडिंग प्रथाओं पर लेख।<ref name="DataVault_a">#tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस</ref>


विधि के लिए एक वैकल्पिक (और शायद ही कभी इस्तेमाल किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है।
विधि के लिए वैकल्पिक (और शायद ही कभी इस्तेमाल किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है।
Ref>#dwdummy, पृष्ठ 83</ref>
 
Ref>#dwdummy, पृष्ठ 83<nowiki></ref></nowiki>


डेटा वॉल्ट 2.0
डेटा वॉल्ट 2.0
Ref>#dvos2|#datavault 2.0 का संक्षिप्त परिचय</ref><ref>[[#dvspec2|Data Vault 2.0 Being Announced]]</ref> 2013 तक दृश्य में आ गया है और कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं के साथ-साथ बिग डेटा, NoSQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण को मेज पर लाता है।
 
Ref>#dvos2|#datavault 2.0 का संक्षिप्त परिचय<nowiki></ref></nowiki><ref>[[#dvspec2|Data Vault 2.0 Being Announced]]</ref> 2013 तक दृश्य में आ गया है और कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं के साथ-साथ बिग डेटा, NoSQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण को मेज पर लाता है।


=== वैकल्पिक व्याख्याएँ ===
=== वैकल्पिक व्याख्याएँ ===
डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के एक सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के वेक्टर) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में वेक्टर)। एल्गोरिदम के डेटा माइनिंग सेट का उपयोग करके, [[विश्वास अंतराल]] और सांख्यिकीय पावर रेटिंग के साथ लिंक बनाए जा सकते हैं। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में मौजूद नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 5.20, page 110</ref>
डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के वेक्टर) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में वेक्टर)। एल्गोरिदम के डेटा माइनिंग सेट का उपयोग करके, [[विश्वास अंतराल]] और सांख्यिकीय पावर रेटिंग के साथ लिंक बनाए जा सकते हैं। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में मौजूद नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 5.20, page 110</ref>
एक अन्य दृष्टिकोण यह है कि एक डेटा वॉल्ट मॉडल एंटरप्राइज़ का एक ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी।
एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ का ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी।


डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा तरीका [[ चित्रमय मॉडल ]] है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस दुनिया में हब और रिश्तों के साथ एक ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।
डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा तरीका [[ चित्रमय मॉडल |चित्रमय मॉडल]] है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस दुनिया में हब और रिश्तों के साथ ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।


== बुनियादी धारणाएँ ==
== बुनियादी धारणाएँ ==
डेटा वॉल्ट व्यावसायिक कुंजियों (जो अक्सर परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से एक व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। .
डेटा वॉल्ट व्यावसायिक कुंजियों (जो अक्सर परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। .


व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का एक मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका मतलब यह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 61, why are business keys important</ref> कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।
व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका मतलब यह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है।<ref>[[#dvsuper|Super Charge your data warehouse]], page 61, why are business keys important</ref> कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।


=== हब ===
=== हब ===
हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की एक सूची होती है। हब में प्रत्येक हब आइटम के लिए एक [[सरोगेट कुंजी]] और [[प्राकृतिक कुंजी]] की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः कई भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।
हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की सूची होती है। हब में प्रत्येक हब आइटम के लिए [[सरोगेट कुंजी]] और [[प्राकृतिक कुंजी]] की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः कई भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।


हब में कम से कम निम्नलिखित फ़ील्ड शामिल हैं:<ref name="DataVault">[[#dvforum1|Data Vault Forum, Standards section]], section 3.0 Hub Rules</ref> * एक सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।
हब में कम से कम निम्नलिखित फ़ील्ड शामिल हैं:<ref name="DataVault">[[#dvforum1|Data Vault Forum, Standards section]], section 3.0 Hub Rules</ref> * सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।
* एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड शामिल हो सकते हैं.
* एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड शामिल हो सकते हैं.
* रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
* रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
* वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।
* वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।


एक हब में कई व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ एक ही व्यवसाय कुंजी प्रदान करती हैं लेकिन टकराव के साथ जिनके अलग-अलग अर्थ होते हैं।
एक हब में कई व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ ही व्यवसाय कुंजी प्रदान करती हैं लेकिन टकराव के साथ जिनके अलग-अलग अर्थ होते हैं।
 
हब में सामान्यतः कम से कम एक उपग्रह होना चाहिए।<ref name="DataVault" />
 
 


हब में सामान्यतः कम से कम उपग्रह होना चाहिए।<ref name="DataVault" />
==== हब उदाहरण ====
==== हब उदाहरण ====
यह कारों वाली हब-टेबल का एक उदाहरण है, जिसे कार (H_CAR) कहा जाता है। ड्राइविंग कुंजी [[वाहन पहचान संख्या]] है।
यह कारों वाली हब-टेबल का उदाहरण है, जिसे कार (H_CAR) कहा जाता है। ड्राइविंग कुंजी [[वाहन पहचान संख्या]] है।


{| class="wikitable"
{| class="wikitable"
Line 73: Line 69:
| LOAD_AUDIT_ID || An ID into a table with audit information, such as load time, duration of load, number of lines, etc. || No
| LOAD_AUDIT_ID || An ID into a table with audit information, such as load time, duration of load, number of lines, etc. || No
|}
|}
=== लिंक ===
=== लिंक ===
व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए एक दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं।
व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं।


ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में एक नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच एक लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक एक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना एक बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ एक नए लिंक के समान होता है, इन मामलों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।
ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन मामलों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।


लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से एक वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ एक ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। हालाँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस मामले में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, बल्कि व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।
लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। हालाँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस मामले में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, बल्कि व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।


लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा शामिल है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।
लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा शामिल है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।


==== लिंक उदाहरण ====
==== लिंक उदाहरण ====
यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के बीच लिंक-टेबल का एक उदाहरण है। लिंक को ड्राइवर (L_DRIVER) कहा जाता है।
यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के बीच लिंक-टेबल का उदाहरण है। लिंक को ड्राइवर (L_DRIVER) कहा जाता है।


{| class="wikitable"
{| class="wikitable"
Line 101: Line 95:
| LOAD_AUDIT_ID || An ID into a table with audit information, such as load time, duration of load, number of lines, etc. || No ||
| LOAD_AUDIT_ID || An ID into a table with audit information, such as load time, duration of load, number of lines, etc. || No ||
|}
|}
===उपग्रह ===
===उपग्रह ===
हब और लिंक मॉडल की संरचना बनाते हैं, लेकिन उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा शामिल है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ एक समयरेखा भी शामिल है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को मामले के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और काफी जटिल (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर काफी सरल (केवल एक वैध-संकेतक के साथ एक लिंक पर एक उपग्रह) तक हो सकता है और एक समयरेखा)।
हब और लिंक मॉडल की संरचना बनाते हैं, लेकिन उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा शामिल है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी शामिल है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को मामले के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और काफी जटिल (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर काफी सरल (केवल वैध-संकेतक के साथ लिंक पर उपग्रह) तक हो सकता है और समयरेखा)।


आमतौर पर विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। हालाँकि, आकार, लागत, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।
आमतौर पर विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। हालाँकि, आकार, लागत, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।
Line 110: Line 102:
सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।
सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।


एक प्रभावशाली उपग्रह एक लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता शुरू और समाप्त करता है।<ref>[https://dbtvault.readthedocs.io/en/latest/tutorial/tut_eff_satellites/ Effectivity Satellites - dbtvault]</ref>
एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता शुरू और समाप्त करता है।<ref>[https://dbtvault.readthedocs.io/en/latest/tutorial/tut_eff_satellites/ Effectivity Satellites - dbtvault]</ref>
 
 
==== सैटेलाइट उदाहरण ====
==== सैटेलाइट उदाहरण ====
यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर एक उपग्रह के लिए एक उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ शामिल हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए एक संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक एक लुकअप- या संदर्भ तालिका का संदर्भ भी शामिल है जिसमें जोखिम श्रेणी के लिए कोड शामिल हैं जिसमें यह संबंध माना जाता है।
यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ शामिल हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी शामिल है जिसमें जोखिम श्रेणी के लिए कोड शामिल हैं जिसमें यह संबंध माना जाता है।


{| class="wikitable"
{| class="wikitable"
Line 143: Line 133:
| LOAD_AUDIT_ID || An ID into a table with audit information, such as load time, duration of load, number of lines, etc. || No
| LOAD_AUDIT_ID || An ID into a table with audit information, such as load time, duration of load, number of lines, etc. || No
|}
|}
(*) कम से कम एक विशेषता अनिवार्य है।
(*) कम से कम विशेषता अनिवार्य है।
(**) अनुक्रम संख्या अनिवार्य हो जाती है यदि एक ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता लागू करने के लिए इसकी आवश्यकता होती है।
(**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता लागू करने के लिए इसकी आवश्यकता होती है।


=== संदर्भ तालिकाएँ ===
=== संदर्भ तालिकाएँ ===
संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का एक सामान्य हिस्सा हैं। वे सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं:
संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का सामान्य हिस्सा हैं। वे सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं:
<ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की एक विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 8.0, page 146</ref></ब्लॉककोट>
<ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 8.0, page 146</ref></ब्लॉककोट>


संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, लेकिन कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट मामले में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक ​​कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, लेकिन यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 8.0, page 149</ref> आम तौर पर, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।
संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, लेकिन कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट मामले में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक ​​कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, लेकिन यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ।<ref>[[#dvsuper|Super Charge your Data Warehouse]], paragraph 8.0, page 149</ref> आम तौर पर, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।


==== संदर्भ उदाहरण ====
==== संदर्भ उदाहरण ====
यह वाहन चालकों के लिए जोखिम श्रेणियों वाली संदर्भ तालिका का एक उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.
यह वाहन चालकों के लिए जोखिम श्रेणियों वाली संदर्भ तालिका का उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.


{| class="wikitable"
{| class="wikitable"
Line 163: Line 153:
| RISK_CATEGORY_DESC || A description of the risk category || No (*)
| RISK_CATEGORY_DESC || A description of the risk category || No (*)
|}
|}
(*) कम से कम एक विशेषता अनिवार्य है।
(*) कम से कम विशेषता अनिवार्य है।


== लोड हो रहा है अभ्यास ==
== लोड हो रहा है अभ्यास ==


डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड काफी सरल है (देखें #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के बाद, यदि आप हब से पूछताछ करते हैं तो अब आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के बीच संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। एक बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तो आप सभी लिंक में उपग्रह जोड़ सकते हैं।
डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड काफी सरल है (देखें #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के बाद, यदि आप हब से पूछताछ करते हैं तो अब आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के बीच संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तो आप सभी लिंक में उपग्रह जोड़ सकते हैं।


चूंकि हब लिंक के अलावा एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।
चूंकि हब लिंक के अलावा एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।


ईटीएल काफी सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल एक और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे मामलों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।<ref name="DataVault_a" />
ईटीएल काफी सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे मामलों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।<ref name="DataVault_a" />


डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई तकनीकी त्रुटि न हो।
डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई तकनीकी त्रुटि न हो।
Line 177: Line 167:
== डेटा वॉल्ट और आयामी मॉडलिंग ==
== डेटा वॉल्ट और आयामी मॉडलिंग ==


डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही [[कॉग्नोस]], [[ ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण ]], [[एसएपी बिजनेस ऑब्जेक्ट्स]], [[पेंटाहो]] एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है।{{citation needed|date=December 2015}} चूंकि ये अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को [[आयामी मॉडलिंग]] में शामिल करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण आमतौर पर आवश्यक होता है।
डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही [[कॉग्नोस]], [[ ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण |ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण]] , [[एसएपी बिजनेस ऑब्जेक्ट्स]], [[पेंटाहो]] एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है। चूंकि ये अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को [[आयामी मॉडलिंग]] में शामिल करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण आमतौर पर आवश्यक होता है।


इस उद्देश्य के लिए, उन हबों पर मौजूद हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर मौजूद लिंक और संबंधित उपग्रहों को एक आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से एक आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।
इस उद्देश्य के लिए, उन हबों पर मौजूद हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर मौजूद लिंक और संबंधित उपग्रहों को आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।


ध्यान दें कि हालांकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, लेकिन आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.<ref>[https://melbournevault.com.au/ Melbournevault], 16 May 2023</ref>
ध्यान दें कि हालांकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, लेकिन आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.<ref>[https://melbournevault.com.au/ Melbournevault], 16 May 2023</ref>
== डेटा वॉल्ट पद्धति ==
== डेटा वॉल्ट पद्धति ==


डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/[[सीएमएमआई]] स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक शामिल हैं, और उन्हें सिक्स सिग्मा, [[कुल गुणवत्ता प्रबंधन]] और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और तैनाती के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में एक छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में एक उत्पादन रिलीज़ शामिल होना चाहिए।
डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/[[सीएमएमआई]] स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक शामिल हैं, और उन्हें सिक्स सिग्मा, [[कुल गुणवत्ता प्रबंधन]] और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और तैनाती के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ शामिल होना चाहिए।


डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना शुरू कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।
डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना शुरू कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।
Line 204: Line 192:


== संदर्भ ==
== संदर्भ ==
=== उद्धरण ===
=== उद्धरण ===
{{Reflist}}
{{Reflist}}
=== स्रोत ===
=== स्रोत ===
{{refbegin}}
{{refbegin}}
Line 260: Line 243:


==साहित्य==
==साहित्य==
* पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर एक व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
* पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
* जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
* जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
* केंट ग्राज़ियानो: बेहतर डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
* केंट ग्राज़ियानो: बेहतर डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
Line 266: Line 249:
* डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
* डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
* डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को लागू करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
* डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को लागू करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
* डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ एक स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
* डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
* दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।
* दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।


Line 279: Line 262:
* [http://www.AgileData.org Agile Data Site]
* [http://www.AgileData.org Agile Data Site]
* [http://www.DisciplinedAgileDelivery.com Disciplined Agile Delivery (DAD) Site]
* [http://www.DisciplinedAgileDelivery.com Disciplined Agile Delivery (DAD) Site]
{{Data warehouse}}
[[Category: डेटा भण्डारण]]  
[[Category: डेटा भण्डारण]]  



Revision as of 16:00, 11 August 2023

दो हब (नीला), लिंक (हरा) और चार उपग्रह (पीला) के साथ सरल डेटा वॉल्ट मॉडल

आंकड़े वॉल्ट मॉडलिंग डेटाबेस मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का तरीका भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ लेखापरीक्षा की आवश्यकता पर जोर देने जैसे मुद्दों से संबंधित है जहां डेटाबेस डेटा वंश में सभी डेटा शामिल हैं। इसका मतलब यह है कि डेटा वॉल्ट में प्रत्येक पंक्ति (डेटाबेस) के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में डैन लिनस्टेड द्वारा प्रकाशित की गई थी।

डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा मतलब व्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है।[1] इसे इस कथन में संक्षेपित किया गया है कि डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है।[2] जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का ही संस्करण और सत्य का ही स्रोत।[3] मॉडलिंग पद्धति को डेटा संरचना को वर्णनात्मक विशेषता (कंप्यूटिंग) से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।[4] डेटा वॉल्ट को यथासंभव समानांतर कंप्यूटिंग लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,[5] ताकि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।

स्टार स्कीमा (आयामी मॉडलिंग) और शास्त्रीय संबंधपरक मॉडल (3NF) के विपरीत, डेटा वॉल्ट और एंकर मॉडलिंग उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, लेकिन उन्हें उन्नत तकनीक माना जाता है जिसके लिए अनुभवी डेटा आर्किटेक्ट की आवश्यकता होती है। .[6] डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं,[7] लेकिन एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।

इतिहास और दर्शन

अपने शुरुआती दिनों में, डैन लिनस्टेड ने मॉडलिंग तकनीक का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था।[8] या सामान्य मूलभूत मॉडलिंग वास्तुकला।[9] डेटा वेयरहाउस मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और एंटरप्राइज़ बस मैट्रिक्स के साथ राल्फ किमबॉल के अनुसार मॉडल बनाते हैं, या आप डेटाबेस सामान्य रूपों के साथ बिल इनमोन के अनुसार मॉडल बनाते हैं. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों तकनीकों में समस्याएं हैं. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई मामलों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन मुद्दों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)।

विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:

"The Data Vault Model is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent and adaptable to the needs of the enterprise"[10]

डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, भले ही वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के दौरान ही डेटा की व्याख्या की जा रही है।

एक और मुद्दा जिसके लिए डेटा वॉल्ट प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में सर्बनेस-ऑक्सले आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।

डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह खुला मानक है.[11] नए विनिर्देश में तीन स्तंभ शामिल हैं: कार्यप्रणाली (सॉफ्टवेयर इंजीनियरिंग संस्थान/क्षमता परिपक्वता मॉडल, सिक्स सिग्मा, सिस्टम विकास जीवन चक्र, आदि), वास्तुकला (अन्य के बीच इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में लगातार स्टेजिंग क्षेत्र कहा जाता है) 2.0) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, NoSQL जैसे नए घटकों को शामिल करने पर ध्यान केंद्रित किया गया है - और मौजूदा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण।

ईडीडब्ल्यू और बीआई सिस्टम को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को शामिल करने के लिए विनिर्देश विकसित करना आवश्यक है।

इतिहास

डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की श्रृंखला में डेटा वॉल्ट पद्धति के बुनियादी नियमों का विस्तार और व्याख्या की गई है। इनमें सामान्य सिंहावलोकन शामिल है,[12] घटकों का अवलोकन,[13] अंतिम तिथियों और जुड़ावों के बारे में चर्चा,[14] लिंक टेबल,[15] और लोडिंग प्रथाओं पर लेख।[16]

विधि के लिए वैकल्पिक (और शायद ही कभी इस्तेमाल किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है।

Ref>#dwdummy, पृष्ठ 83</ref>

डेटा वॉल्ट 2.0

Ref>#dvos2|#datavault 2.0 का संक्षिप्त परिचय</ref>[17] 2013 तक दृश्य में आ गया है और कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं के साथ-साथ बिग डेटा, NoSQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण को मेज पर लाता है।

वैकल्पिक व्याख्याएँ

डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के वेक्टर) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में वेक्टर)। एल्गोरिदम के डेटा माइनिंग सेट का उपयोग करके, विश्वास अंतराल और सांख्यिकीय पावर रेटिंग के साथ लिंक बनाए जा सकते हैं। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में मौजूद नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं।[18] एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ का ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी।

डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा तरीका चित्रमय मॉडल है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस दुनिया में हब और रिश्तों के साथ ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।

बुनियादी धारणाएँ

डेटा वॉल्ट व्यावसायिक कुंजियों (जो अक्सर परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। .

व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका मतलब यह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है।[19] कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।

हब

हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की सूची होती है। हब में प्रत्येक हब आइटम के लिए सरोगेट कुंजी और प्राकृतिक कुंजी की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः कई भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।

हब में कम से कम निम्नलिखित फ़ील्ड शामिल हैं:[20] * सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।

  • एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड शामिल हो सकते हैं.
  • रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
  • वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।

एक हब में कई व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ ही व्यवसाय कुंजी प्रदान करती हैं लेकिन टकराव के साथ जिनके अलग-अलग अर्थ होते हैं।

हब में सामान्यतः कम से कम उपग्रह होना चाहिए।[20]

हब उदाहरण

यह कारों वाली हब-टेबल का उदाहरण है, जिसे कार (H_CAR) कहा जाता है। ड्राइविंग कुंजी वाहन पहचान संख्या है।

Fieldname Description Mandatory? Comment
H_CAR_ID Sequence ID and surrogate key for the hub No Recommended but optional[21]
VEHICLE_ID_NR The business key that drives this hub. Can be more than one field for a composite business key Yes
H_RSRC The record source of this key when first loaded Yes
LOAD_AUDIT_ID An ID into a table with audit information, such as load time, duration of load, number of lines, etc. No

लिंक

व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं।

ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन मामलों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।

लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। हालाँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस मामले में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, बल्कि व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।

लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा शामिल है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।

लिंक उदाहरण

यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के बीच लिंक-टेबल का उदाहरण है। लिंक को ड्राइवर (L_DRIVER) कहा जाता है।

Fieldname Description Mandatory? Comment
L_DRIVER_ID Sequence ID and surrogate key for the Link No Recommended but optional[21]
H_CAR_ID surrogate key for the car hub, the first anchor of the link Yes
H_PERSON_ID surrogate key for the person hub, the second anchor of the link Yes
L_RSRC The recordsource of this association when first loaded Yes
LOAD_AUDIT_ID An ID into a table with audit information, such as load time, duration of load, number of lines, etc. No

उपग्रह

हब और लिंक मॉडल की संरचना बनाते हैं, लेकिन उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा शामिल है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी शामिल है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को मामले के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और काफी जटिल (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर काफी सरल (केवल वैध-संकेतक के साथ लिंक पर उपग्रह) तक हो सकता है और समयरेखा)।

आमतौर पर विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। हालाँकि, आकार, लागत, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।

सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।

एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता शुरू और समाप्त करता है।[22]

सैटेलाइट उदाहरण

यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ शामिल हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी शामिल है जिसमें जोखिम श्रेणी के लिए कोड शामिल हैं जिसमें यह संबंध माना जाता है।

Fieldname Description Mandatory? Comment
S_DRIVER_INSURANCE_ID Sequence ID and surrogate key for the satellite on the link No Recommended but optional[21]
L_DRIVER_ID (surrogate) primary key for the driver link, the parent of the satellite Yes
S_SEQ_NR Ordering or sequence number, to enforce uniqueness if there are several valid satellites for one parent key No(**) This can happen if, for instance, you have a hub COURSE and the name of the course is an attribute but in several different languages.
S_LDTS Load Date (startdate) for the validity of this combination of attribute values for parent key L_DRIVER_ID Yes
S_LEDTS Load End Date (enddate) for the validity of this combination of attribute values for parent key L_DRIVER_ID No
IND_PRIMARY_DRIVER Indicator whether the driver is the primary driver for this car No (*)
INSURANCE_COMPANY The name of the insurance company for this vehicle and this driver No (*)
NR_OF_ACCIDENTS The number of accidents by this driver in this vehicle No (*)
R_RISK_CATEGORY_CD The risk category for the driver. This is a reference to R_RISK_CATEGORY No (*)
S_RSRC The recordsource of the information in this satellite when first loaded Yes
LOAD_AUDIT_ID An ID into a table with audit information, such as load time, duration of load, number of lines, etc. No

(*) कम से कम विशेषता अनिवार्य है। (**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता लागू करने के लिए इसकी आवश्यकता होती है।

संदर्भ तालिकाएँ

संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का सामान्य हिस्सा हैं। वे सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं: <ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है।[23]</ब्लॉककोट>

संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, लेकिन कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट मामले में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक ​​कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, लेकिन यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ।[24] आम तौर पर, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।

संदर्भ उदाहरण

यह वाहन चालकों के लिए जोखिम श्रेणियों वाली संदर्भ तालिका का उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.

Fieldname Description Mandatory?
R_RISK_CATEGORY_CD The code for the risk category Yes
RISK_CATEGORY_DESC A description of the risk category No (*)

(*) कम से कम विशेषता अनिवार्य है।

लोड हो रहा है अभ्यास

डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड काफी सरल है (देखें #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के बाद, यदि आप हब से पूछताछ करते हैं तो अब आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के बीच संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तो आप सभी लिंक में उपग्रह जोड़ सकते हैं।

चूंकि हब लिंक के अलावा एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।

ईटीएल काफी सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे मामलों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।[16]

डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई तकनीकी त्रुटि न हो।

डेटा वॉल्ट और आयामी मॉडलिंग

डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही कॉग्नोस, ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण , एसएपी बिजनेस ऑब्जेक्ट्स, पेंटाहो एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है। चूंकि ये अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को आयामी मॉडलिंग में शामिल करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण आमतौर पर आवश्यक होता है।

इस उद्देश्य के लिए, उन हबों पर मौजूद हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर मौजूद लिंक और संबंधित उपग्रहों को आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।

ध्यान दें कि हालांकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, लेकिन आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.[25]

डेटा वॉल्ट पद्धति

डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/सीएमएमआई स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक शामिल हैं, और उन्हें सिक्स सिग्मा, कुल गुणवत्ता प्रबंधन और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और तैनाती के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ शामिल होना चाहिए।

डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना शुरू कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।

उपकरण

टूल के कुछ उदाहरण हैं:[clarification needed]

यह भी देखें

  • बिल इनमोन
  • डेटा वेयरहाउस
  • किमबॉल जीवनचक्र, राल्फ किमबॉल द्वारा विकसित
  • लगातार स्टेजिंग क्षेत्र

संदर्भ

उद्धरण

  1. Super Charge your data warehouse, page 74
  2. The next generation EDW
  3. Building a scalable datawarehouse with data vault 2.0, p. 6
  4. Super Charge your data warehouse, page 21
  5. Super Charge your data warehouse, page 76
  6. Porsby, Johan. "Rålager istället för ett strukturerat datalager". www.agero.se (in svenska). Retrieved 2023-02-22.
  7. Porsby, Johan. "Datamodeller för data warehouse". www.agero.se (in svenska). Retrieved 2023-02-22.
  8. Building a scalable datawarehouse with data vault 2.0, p. 11
  9. Building a scalable datawarehouse with data vault 2.0, p. xv
  10. The New Business Supermodel, glossary, page 75
  11. A short intro to#datavault 2.0
  12. Data Vault Series 1 – Data Vault Overview
  13. Data Vault Series 2 – Data Vault Components
  14. Data Vault Series 3 – End Dates and Basic Joins
  15. Data Vault Series 4 – Link tables, paragraph 2.3
  16. 16.0 16.1 #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस
  17. Data Vault 2.0 Being Announced
  18. Super Charge your Data Warehouse, paragraph 5.20, page 110
  19. Super Charge your data warehouse, page 61, why are business keys important
  20. 20.0 20.1 Data Vault Forum, Standards section, section 3.0 Hub Rules
  21. 21.0 21.1 21.2 Data Vault Modeling Specification v1.0.9
  22. Effectivity Satellites - dbtvault
  23. Super Charge your Data Warehouse, paragraph 8.0, page 146
  24. Super Charge your Data Warehouse, paragraph 8.0, page 149
  25. Melbournevault, 16 May 2023

स्रोत

डच भाषा के स्रोत
  • Ketelaars, M.W.A.M. (2005-11-25). "डेटा वॉल्ट के साथ मॉडल डेटा वेयरहाउस". Database Magazine (DB/M). Array Publications B.V. (7): 36–40.
  • Verhagen, K.; Vrijkorte, B. (June 10, 2008). "रिलेशनल बनाम डेटा वॉल्ट". Database Magazine (DB/M). Array Publications B.V. (4): 6–9.

साहित्य

  • पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
  • जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
  • केंट ग्राज़ियानो: बेहतर डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
  • हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2।
  • डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
  • डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को लागू करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
  • डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
  • दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।

बाहरी संबंध