डेटा वॉल्ट मॉडलिंग

दो हब (नीला), लिंक (हरा) और चार उपग्रह (पीला) के साथ सरल डेटा वॉल्ट मॉडल

आंकड़े वॉल्ट मॉडलिंग डेटाबेस मॉडलिंग विधि है जिसे कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने का तरीका भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ लेखापरीक्षा की आवश्यकता पर जोर देने जैसे मुद्दों से संबंधित है जहां डेटाबेस डेटा वंश में सभी डेटा शामिल हैं। इसका मतलब यह है कि डेटा वॉल्ट में प्रत्येक पंक्ति (डेटाबेस) के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा 2000 में डैन लिनस्टेड द्वारा प्रकाशित की गई थी।

डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा (बुरा मतलब व्यावसायिक नियमों के अनुरूप न होना) के बीच कोई अंतर नहीं करता है।^[1] इसे इस कथन में संक्षेपित किया गया है कि डेटा वॉल्ट सत्य के एकल स्रोत को संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा सभी समय के सभी डेटा के रूप में भी व्यक्त किया जाता है) जो सत्य के एकल संस्करण को संग्रहीत करने के अन्य डेटा वेयरहाउस तरीकों के अभ्यास के विपरीत है।^[2] जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या साफ़ कर दिया जाता है। डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का ही संस्करण और सत्य का ही स्रोत।^[3] मॉडलिंग पद्धति को डेटा संरचना को वर्णनात्मक विशेषता (कंप्यूटिंग) से स्पष्ट रूप से अलग करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।^[4] डेटा वॉल्ट को यथासंभव समानांतर कंप्यूटिंग लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,^[5] ताकि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।

स्टार स्कीमा (आयामी मॉडलिंग) और शास्त्रीय संबंधपरक मॉडल (3NF) के विपरीत, डेटा वॉल्ट और एंकर मॉडलिंग उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत सिस्टम को बदला या जोड़ा जाता है, लेकिन उन्हें उन्नत तकनीक माना जाता है जिसके लिए अनुभवी डेटा आर्किटेक्ट की आवश्यकता होती है। .^[6] डेटा वॉल्ट और एंकर मॉडल दोनों एंटिटी (कंप्यूटर विज्ञान)|एंटिटी-आधारित मॉडल हैं,^[7] लेकिन एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।

इतिहास और दर्शन

अपने शुरुआती दिनों में, डैन लिनस्टेड ने मॉडलिंग तकनीक का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर के रूप में डेटा वॉल्ट बनना था।^[8] या सामान्य मूलभूत मॉडलिंग वास्तुकला।^[9] डेटा वेयरहाउस मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तो आप अनुरूप आयामों और एंटरप्राइज़ बस मैट्रिक्स के साथ राल्फ किमबॉल के अनुसार मॉडल बनाते हैं, या आप डेटाबेस सामान्य रूपों के साथ बिल इनमोन के अनुसार मॉडल बनाते हैं. डेटा वेयरहाउस को फीड करने वाले सिस्टम में बदलाव से निपटने में दोनों तकनीकों में समस्याएं हैं. अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह कई मामलों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन मुद्दों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को अलग करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के बीच संबंध)।

विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:

"The Data Vault Model is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent and adaptable to the needs of the enterprise"^[10]

डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, भले ही वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तो यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के गलत होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के दौरान ही डेटा की व्याख्या की जा रही है।

एक और मुद्दा जिसके लिए डेटा वॉल्ट प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में सर्बनेस-ऑक्सले आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह कई व्यावसायिक खुफिया कार्यान्वयनों के लिए प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।

डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह खुला मानक है.^[11] नए विनिर्देश में तीन स्तंभ शामिल हैं: कार्यप्रणाली (सॉफ्टवेयर इंजीनियरिंग संस्थान/क्षमता परिपक्वता मॉडल, सिक्स सिग्मा, सिस्टम विकास जीवन चक्र, आदि), वास्तुकला (अन्य के बीच इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट में लगातार स्टेजिंग क्षेत्र कहा जाता है) 2.0) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, NoSQL जैसे नए घटकों को शामिल करने पर ध्यान केंद्रित किया गया है - और मौजूदा मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण।

ईडीडब्ल्यू और बीआई सिस्टम को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को शामिल करने के लिए विनिर्देश विकसित करना आवश्यक है।

इतिहास

डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की श्रृंखला में डेटा वॉल्ट पद्धति के बुनियादी नियमों का विस्तार और व्याख्या की गई है। इनमें सामान्य सिंहावलोकन शामिल है,^[12] घटकों का अवलोकन,^[13] अंतिम तिथियों और जुड़ावों के बारे में चर्चा,^[14] लिंक टेबल,^[15] और लोडिंग प्रथाओं पर लेख।^[16]

विधि के लिए वैकल्पिक (और शायद ही कभी इस्तेमाल किया जाने वाला) नाम कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर है।

Ref>#dwdummy, पृष्ठ 83</ref>

डेटा वॉल्ट 2.0

Ref>#dvos2|#datavault 2.0 का संक्षिप्त परिचय</ref>^[17] 2013 तक दृश्य में आ गया है और कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं के साथ-साथ बिग डेटा, NoSQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण को मेज पर लाता है।

वैकल्पिक व्याख्याएँ

डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के वेक्टर) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में वेक्टर)। एल्गोरिदम के डेटा माइनिंग सेट का उपयोग करके, विश्वास अंतराल और सांख्यिकीय पावर रेटिंग के साथ लिंक बनाए जा सकते हैं। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में मौजूद नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं।^[18] एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ का ऑन्टोलॉजी_(सूचना_विज्ञान) इस अर्थ में प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके बीच संबंधों (लिंक्स) का वर्णन करता है, जहां वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है ज़रूरी।

डेटा वॉल्ट मॉडल के बारे में सोचने का दूसरा तरीका चित्रमय मॉडल है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस दुनिया में हब और रिश्तों के साथ ग्राफ आधारित मॉडल प्रदान करता है। इस तरीके से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।

बुनियादी धारणाएँ

डेटा वॉल्ट व्यावसायिक कुंजियों (जो अक्सर परिवर्तित नहीं होती हैं, क्योंकि वे विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के बीच संबंध को अलग करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। .

व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए ये ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तो आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका मतलब यह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है।^[19] कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।

हब

हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की सूची होती है। हब में प्रत्येक हब आइटम के लिए सरोगेट कुंजी और प्राकृतिक कुंजी की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः कई भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।

हब में कम से कम निम्नलिखित फ़ील्ड शामिल हैं:^[20] * सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।

एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड शामिल हो सकते हैं.
रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।

एक हब में कई व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ ही व्यवसाय कुंजी प्रदान करती हैं लेकिन टकराव के साथ जिनके अलग-अलग अर्थ होते हैं।

हब में सामान्यतः कम से कम उपग्रह होना चाहिए।^[20]

हब उदाहरण

यह कारों वाली हब-टेबल का उदाहरण है, जिसे कार (H_CAR) कहा जाता है। ड्राइविंग कुंजी वाहन पहचान संख्या है।

Fieldname	Description	Mandatory?	Comment
H_CAR_ID	Sequence ID and surrogate key for the hub	No	Recommended but optional^[21]
VEHICLE_ID_NR	The business key that drives this hub. Can be more than one field for a composite business key	Yes
H_RSRC	The record source of this key when first loaded	Yes
LOAD_AUDIT_ID	An ID into a table with audit information, such as load time, duration of load, number of lines, etc.	No

लिंक

व्यावसायिक कुंजियों के बीच संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। ये तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ कई-से-कई जुड़ने वाली तालिकाएँ हैं।

ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के बीच कोई संबंध है, तो आप उत्पाद और परिवहन कंपनी के केंद्रों के बीच लिंक का संदर्भ जोड़ सकते हैं। यह डिलीवरी नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के बीच निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन मामलों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।

लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में ऑर्डर नंबर के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, अद्वितीय संख्या. बाद वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। हालाँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस मामले में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, बल्कि व्यवसाय कुंजी अद्वितीय संख्या को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (अब निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।

लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा शामिल है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।

लिंक उदाहरण

यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के बीच लिंक-टेबल का उदाहरण है। लिंक को ड्राइवर (L_DRIVER) कहा जाता है।

Fieldname	Description	Mandatory?	Comment
L_DRIVER_ID	Sequence ID and surrogate key for the Link	No	Recommended but optional^[21]
H_CAR_ID	surrogate key for the car hub, the first anchor of the link	Yes
H_PERSON_ID	surrogate key for the person hub, the second anchor of the link	Yes
L_RSRC	The recordsource of this association when first loaded	Yes
LOAD_AUDIT_ID	An ID into a table with audit information, such as load time, duration of load, number of lines, etc.	No

उपग्रह

हब और लिंक मॉडल की संरचना बनाते हैं, लेकिन उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें अलग-अलग तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा शामिल है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी शामिल है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का सार, व्यावसायिक प्रक्रियाओं के लिए संदर्भ प्रदान करते हैं जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को मामले के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और काफी जटिल (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर काफी सरल (केवल वैध-संकेतक के साथ लिंक पर उपग्रह) तक हो सकता है और समयरेखा)।

आमतौर पर विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। हालाँकि, आकार, लागत, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ अलग-अलग दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।

सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।

एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, और उस समय अवधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता शुरू और समाप्त करता है।^[22]

सैटेलाइट उदाहरण

यह कारों और व्यक्तियों के हब के बीच ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ शामिल हैं जो कार और उसे चलाने वाले व्यक्ति के बीच संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक अलग भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी शामिल है जिसमें जोखिम श्रेणी के लिए कोड शामिल हैं जिसमें यह संबंध माना जाता है।

Fieldname	Description	Mandatory?	Comment
S_DRIVER_INSURANCE_ID	Sequence ID and surrogate key for the satellite on the link	No	Recommended but optional^[21]
L_DRIVER_ID	(surrogate) primary key for the driver link, the parent of the satellite	Yes
S_SEQ_NR	Ordering or sequence number, to enforce uniqueness if there are several valid satellites for one parent key	No(**)	This can happen if, for instance, you have a hub COURSE and the name of the course is an attribute but in several different languages.
S_LDTS	Load Date (startdate) for the validity of this combination of attribute values for parent key L_DRIVER_ID	Yes
S_LEDTS	Load End Date (enddate) for the validity of this combination of attribute values for parent key L_DRIVER_ID	No
IND_PRIMARY_DRIVER	Indicator whether the driver is the primary driver for this car	No (*)
INSURANCE_COMPANY	The name of the insurance company for this vehicle and this driver	No (*)
NR_OF_ACCIDENTS	The number of accidents by this driver in this vehicle	No (*)
R_RISK_CATEGORY_CD	The risk category for the driver. This is a reference to R_RISK_CATEGORY	No (*)
S_RSRC	The recordsource of the information in this satellite when first loaded	Yes
LOAD_AUDIT_ID	An ID into a table with audit information, such as load time, duration of load, number of lines, etc.	No

(*) कम से कम विशेषता अनिवार्य है। (**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता लागू करने के लिए इसकी आवश्यकता होती है।

संदर्भ तालिकाएँ

संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का सामान्य हिस्सा हैं। वे सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं: <ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से कई क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से अलग तालिकाओं में रहता है।^[23]</ब्लॉककोट>

संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, लेकिन कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट मामले में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक कि सितारों तक। वे ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, लेकिन यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ।^[24] आम तौर पर, किसी भी अन्य डेटा वेयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।

संदर्भ उदाहरण

यह वाहन चालकों के लिए जोखिम श्रेणियों वाली संदर्भ तालिका का उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.

Fieldname	Description	Mandatory?
R_RISK_CATEGORY_CD	The code for the risk category	Yes
RISK_CATEGORY_DESC	A description of the risk category	No (*)

(*) कम से कम विशेषता अनिवार्य है।

लोड हो रहा है अभ्यास

डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड काफी सरल है (देखें #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के बाद, यदि आप हब से पूछताछ करते हैं तो अब आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के बीच संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तो आप सभी लिंक में उपग्रह जोड़ सकते हैं।

चूंकि हब लिंक के अलावा एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।

ईटीएल काफी सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। कई केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे मामलों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।^[16]

डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई तकनीकी त्रुटि न हो।

डेटा वॉल्ट और आयामी मॉडलिंग

डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही कॉग्नोस, ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण , एसएपी बिजनेस ऑब्जेक्ट्स, पेंटाहो एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है। चूंकि ये अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को आयामी मॉडलिंग में शामिल करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण आमतौर पर आवश्यक होता है।

इस उद्देश्य के लिए, उन हबों पर मौजूद हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर मौजूद लिंक और संबंधित उपग्रहों को आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।

ध्यान दें कि हालांकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, लेकिन आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.^[25]

डेटा वॉल्ट पद्धति

डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/सीएमएमआई स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के कई घटक शामिल हैं, और उन्हें सिक्स सिग्मा, कुल गुणवत्ता प्रबंधन और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और तैनाती के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ शामिल होना चाहिए।

डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट सिस्टम के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना शुरू कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।

उपकरण

टूल के कुछ उदाहरण हैं:^{[clarification needed]}

यह भी देखें

बिल इनमोन
डेटा वेयरहाउस
किमबॉल जीवनचक्र, राल्फ किमबॉल द्वारा विकसित
लगातार स्टेजिंग क्षेत्र

संदर्भ

उद्धरण

↑ Super Charge your data warehouse, page 74
↑ The next generation EDW
↑ Building a scalable datawarehouse with data vault 2.0, p. 6
↑ Super Charge your data warehouse, page 21
↑ Super Charge your data warehouse, page 76
↑ Porsby, Johan. "Rålager istället för ett strukturerat datalager". www.agero.se (in svenska). Retrieved 2023-02-22.
↑ Porsby, Johan. "Datamodeller för data warehouse". www.agero.se (in svenska). Retrieved 2023-02-22.
↑ Building a scalable datawarehouse with data vault 2.0, p. 11
↑ Building a scalable datawarehouse with data vault 2.0, p. xv
↑ The New Business Supermodel, glossary, page 75
↑ A short intro to#datavault 2.0
↑ Data Vault Series 1 – Data Vault Overview
↑ Data Vault Series 2 – Data Vault Components
↑ Data Vault Series 3 – End Dates and Basic Joins
↑ Data Vault Series 4 – Link tables, paragraph 2.3
↑ ^16.0 ^16.1 #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस
↑ Data Vault 2.0 Being Announced
↑ Super Charge your Data Warehouse, paragraph 5.20, page 110
↑ Super Charge your data warehouse, page 61, why are business keys important
↑ ^20.0 ^20.1 Data Vault Forum, Standards section, section 3.0 Hub Rules
↑ ^21.0 ^21.1 ^21.2 Data Vault Modeling Specification v1.0.9
↑ Effectivity Satellites - dbtvault
↑ Super Charge your Data Warehouse, paragraph 8.0, page 146
↑ Super Charge your Data Warehouse, paragraph 8.0, page 149
↑ Melbournevault, 16 May 2023

स्रोत

Linstedt, Dan (December 2010). अपने डेटा वेयरहाउस को सुपर चार्ज करें. Dan Linstedt. ISBN 978-0-9866757-1-3.
Thomas C. Hammergren; Alan R. Simon (February 2009). डमीज़ के लिए डेटा वेयरहाउसिंग, दूसरा संस्करण. John Wiley & Sons. ISBN 978-0-470-40747-9.
Ronald Damhof; Lidwine van As (August 25, 2008). "अगली पीढ़ी EDW - सत्य के एकल संस्करण के विचार को छोड़ देना" (PDF). Database Magazine (DB/M). Array Publications B.V.
Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 1 - डेटा वॉल्ट अवलोकन". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 2 - डेटा वॉल्ट घटक". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 3 - अंतिम तिथियां और मूल जुड़ाव". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 4 - लिंक टेबल्स". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
Linstedt, Dan. "डेटा वॉल्ट श्रृंखला 5 - लोडिंग अभ्यास". Data Vault Series. The Data Administration Newsletter. Retrieved 12 September 2011.
Kunenborg, Ronald. "डेटा वॉल्ट नियम v1.0.8 चीट शीट" (PDF). Data Vault Rules. Grundsätzlich IT. Retrieved 26 September 2012. v1.0.8 में नियमों को दर्शाने वाली चीट शीट और v1.0.8 में नियमों पर मंचों से अतिरिक्त स्पष्टीकरण।
Linstedt, Dan. "डेटा वॉल्ट मॉडलिंग विशिष्टता v1.0.9". Data Vault Forum. Dan Linstedt. Retrieved 26 September 2012.
Linstedt, Dan. "डेटा वॉल्ट लोडिंग विशिष्टता v1.2". DanLinstedt.com. Dan Linstedt. Retrieved 2014-01-03.
Linstedt, Dan. "#डेटावॉल्ट 2.0 का संक्षिप्त परिचय". DanLinstedt.com. Dan Linstedt. Retrieved 2014-01-03.
Linstedt, Dan. "डेटा वॉल्ट 2.0 की घोषणा की जा रही है". DanLinstedt.com. Dan Linstedt. Retrieved 2014-01-03.

डच भाषा के स्रोत

Ketelaars, M.W.A.M. (2005-11-25). "डेटा वॉल्ट के साथ मॉडल डेटा वेयरहाउस". Database Magazine (DB/M). Array Publications B.V. (7): 36–40.
Verhagen, K.; Vrijkorte, B. (June 10, 2008). "रिलेशनल बनाम डेटा वॉल्ट". Database Magazine (DB/M). Array Publications B.V. (4): 6–9.

साहित्य

पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
केंट ग्राज़ियानो: बेहतर डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2।
डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को लागू करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।

बाहरी संबंध

[1] Super Charge your data warehouse, page 74

[2] The next generation EDW

[3] Building a scalable datawarehouse with data vault 2.0, p. 6

[4] Super Charge your data warehouse, page 21

[5] Super Charge your data warehouse, page 76

[6] Porsby, Johan. "Rålager istället för ett strukturerat datalager". www.agero.se (in svenska). Retrieved 2023-02-22.

[7] Porsby, Johan. "Datamodeller för data warehouse". www.agero.se (in svenska). Retrieved 2023-02-22.

[8] Building a scalable datawarehouse with data vault 2.0, p. 11

[9] Building a scalable datawarehouse with data vault 2.0, p. xv

[10] The New Business Supermodel, glossary, page 75

[11] A short intro to#datavault 2.0

[12] Data Vault Series 1 – Data Vault Overview

[13] Data Vault Series 2 – Data Vault Components

[14] Data Vault Series 3 – End Dates and Basic Joins

[15] Data Vault Series 4 – Link tables, paragraph 2.3

[DataVault_a-16] 16.0 ^16.1 #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस

[17] Data Vault 2.0 Being Announced

[18] Super Charge your Data Warehouse, paragraph 5.20, page 110

[19] Super Charge your data warehouse, page 61, why are business keys important

[DataVault-20] 20.0 ^20.1 Data Vault Forum, Standards section, section 3.0 Hub Rules

[ReferenceA-21] 21.0 ^21.1 ^21.2 Data Vault Modeling Specification v1.0.9

[22] Effectivity Satellites - dbtvault

[23] Super Charge your Data Warehouse, paragraph 8.0, page 146

[24] Super Charge your Data Warehouse, paragraph 8.0, page 149

[25] Melbournevault, 16 May 2023

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Anonymous

Search

डेटा वॉल्ट मॉडलिंग

Namespaces

More

Page actions

Contents

इतिहास और दर्शन

इतिहास

वैकल्पिक व्याख्याएँ

बुनियादी धारणाएँ

हब

हब उदाहरण

लिंक

लिंक उदाहरण

उपग्रह

सैटेलाइट उदाहरण

संदर्भ तालिकाएँ

संदर्भ उदाहरण

लोड हो रहा है अभ्यास

डेटा वॉल्ट और आयामी मॉडलिंग

डेटा वॉल्ट पद्धति

उपकरण

यह भी देखें

संदर्भ

उद्धरण

स्रोत

साहित्य

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

डेटा वॉल्ट मॉडलिंग

इतिहास और दर्शन

इतिहास

वैकल्पिक व्याख्याएँ

बुनियादी धारणाएँ

हब

हब उदाहरण

लिंक

लिंक उदाहरण

उपग्रह

सैटेलाइट उदाहरण

संदर्भ तालिकाएँ

संदर्भ उदाहरण

लोड हो रहा है अभ्यास

डेटा वॉल्ट और आयामी मॉडलिंग

डेटा वॉल्ट पद्धति

उपकरण

यह भी देखें

संदर्भ

उद्धरण

स्रोत

साहित्य

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Hidden categories