डेटा वॉल्ट मॉडलिंग

From Vigyanwiki
दो हब (नीला), लिंक (हरा) और चार उपग्रह (पीला) के साथ सरल डेटा वॉल्ट मॉडल

डेटा वॉल्ट मॉडलिंग डेटाबेस मॉडलिंग विधि है जिसे अनेक परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए डिज़ाइन किया गया है। यह ऐतिहासिक डेटा को देखने की प्रणाली भी है जो ऑडिटिंग, डेटा का पता लगाना, लोडिंग गति और लचीलेपन (संगठनात्मक) को बदलने के साथ-साथ डेटाबेस में सभी डेटा कहां से आया है, इसका पता लगाने की आवश्यकता पर जोर देने जैसे विवादों से संबंधित है। इसका कारण यह है कि डेटा वॉल्ट में प्रत्येक पंक्ति (डेटाबेस) के साथ रिकॉर्ड स्रोत और लोड दिनांक विशेषताएँ होनी चाहिए, जिससे ऑडिटर को स्रोत पर मूल्यों का पता लगाने में सक्षम बनाया जा सके। यह अवधारणा सत्र 2000 में डैन लिनस्टेड द्वारा प्रकाशित की गई थी।

डेटा वॉल्ट मॉडलिंग अच्छे और बुरे डेटा ("खराब" का अर्थ व्यावसायिक नियमों के अनुरूप नहीं होना) के मध्य कोई अंतर नहीं करता है।[1] इसे इस कथन में संक्षेपित किया गया है कि डेटा वॉल्ट "तथ्यों का एक एकल संस्करण" संग्रहीत करता है (जिसे डैन लिनस्टेड द्वारा "सभी डेटा, सभी समय के रूप में भी व्यक्त किया गया है") भंडारण के अन्य डेटा वेयरहाउस तरीकों में अभ्यास के विपरीत है। सत्य का एक एकल संस्करण"[2] जहां परिभाषाओं के अनुरूप नहीं होने वाले डेटा को हटा दिया जाता है या "साफ" कर दिया जाता है। डेटा वॉल्ट एंटरप्राइज़ डेटा वेयरहाउस दोनों प्रदान करता है; तथ्यों का ही संस्करण और सत्य का ही स्रोत हैं।[3]

मॉडलिंग पद्धति को डेटा संरचना को वर्णनात्मक विशेषता (कंप्यूटिंग) से स्पष्ट रूप से भिन्न करके, उस व्यावसायिक वातावरण में परिवर्तन के लिए लचीला बनाया गया है जहां से संग्रहीत डेटा आ रहा है।[4] डेटा वॉल्ट को यथासंभव समानांतर कंप्यूटिंग लोडिंग सक्षम करने के लिए डिज़ाइन किया गया है,[5] जिससे कि बड़े रीडिज़ाइन की आवश्यकता के बिना बहुत बड़े कार्यान्वयन को आगे बढ़ाया जा सके।

स्टार स्कीमा (आयामी मॉडलिंग) और क्लासिकल रिलेशनल मॉडल (3NF) के विपरीत, डेटा वॉल्ट और एंकर मॉडलिंग उन परिवर्तनों को कैप्चर करने के लिए उपयुक्त हैं जो तब होते हैं जब स्रोत प्रणाली को बदला या जोड़ा जाता है, किन्तु उन्हें उन्नत विधि माना जाता है जिसके लिए अनुभवी डेटा आर्किटेक्ट की आवश्यकता होती है। .[6] डेटा वॉल्ट और एंकर मॉडल दोनों इकाई-आधारित मॉडल हैं,[7] किन्तु एंकर मॉडल में अधिक सामान्यीकृत दृष्टिकोण होता है।

इतिहास और दर्शन

अपने प्रारंभिक दिनों में, डैन लिनस्टेड ने मॉडलिंग विधि का उल्लेख किया, जिसे सामान्य मूलभूत वेयरहाउस आर्किटेक्चर या सामान्य फाउंडेशनल मॉडलिंग आर्किटेक्चर[8]के रूप में डेटा वॉल्ट बनना था।[9] डेटा वेयरहाउस मॉडलिंग में उस परत के मॉडलिंग के लिए दो प्रसिद्ध प्रतिस्पर्धी विकल्प हैं जहां डेटा संग्रहीत किया जाता है। या तब आप अनुरूप आयामों और एंटरप्राइज़ डेटा बस के साथ राल्फ किमबॉल के अनुसार मॉडल बनाते हैं, या आप सामान्यीकृत डेटाबेस के साथ बिल इनमोन के अनुसार मॉडल बनाते हैं। डेटा वेयरहाउस को फीड करने वाले पद्धति में बदलाव से निपटने में दोनों विधियों में समस्याएं हैं। अनुरूप आयामों के लिए आपको डेटा को साफ़ करना होगा (इसे अनुरूप बनाने के लिए) और यह अनेक स्थितियों में अवांछनीय है क्योंकि इससे अनिवार्य रूप से जानकारी खो जाएगी. डेटा वॉल्ट को उन विवादों के प्रभाव से बचने या कम करने के लिए डिज़ाइन किया गया है, उन्हें डेटा वेयरहाउस के उन क्षेत्रों में ले जाया जाता है जो ऐतिहासिक भंडारण क्षेत्र के बाहर हैं (डेटा मार्ट में सफाई की जाती है) और संरचनात्मक वस्तुओं (व्यावसायिक कुंजी और) को भिन्न करके वर्णनात्मक विशेषताओं से व्यावसायिक कुंजियों के मध्य संबंध)।

विधि के निर्माता, डैन लिनस्टेड, परिणामी डेटाबेस का वर्णन इस प्रकार करते हैं:

"डेटा वॉल्ट मॉडल एक विवरण उन्मुख, ऐतिहासिक ट्रैकिंग और सामान्यीकृत तालिकाओं का विशिष्ट रूप से जुड़ा हुआ सेट है जो व्यवसाय के एक या अधिक कार्यात्मक क्षेत्रों का समर्थन करता है। यह एक हाइब्रिड दृष्टिकोण है जिसमें तीसरे सामान्य फॉर्म (3NF) और [[स्टार] के बीच सर्वोत्तम नस्ल शामिल है स्कीमा]]। डिज़ाइन लचीला, स्केलेबल, सुसंगत और उद्यम की आवश्यकताओं के अनुकूल है"[10]

डेटा वॉल्ट का दर्शन यह है कि सभी डेटा प्रासंगिक डेटा है, यदि वह स्थापित परिभाषाओं और व्यावसायिक नियमों के अनुरूप न हो। यदि डेटा इन परिभाषाओं और नियमों के अनुरूप नहीं है तब यह व्यवसाय के लिए समस्या है, न कि डेटा वेयरहाउस के लिए। डेटा के "गलत" होने का निर्धारण डेटा की व्याख्या है जो विशेष दृष्टिकोण से उत्पन्न होती है जो हर किसी के लिए या हर समय मान्य नहीं हो सकती है। इसलिए डेटा वॉल्ट को सभी डेटा कैप्चर करना होगा और केवल डेटा वॉल्ट से डेटा की रिपोर्टिंग या निकालने के समय ही डेटा की व्याख्या की जा रही है।

एक और उद्देश्य जिसके लिए डेटा वॉल्ट प्रतिक्रिया है, वह यह है कि डेटा वेयरहाउस में सभी डेटा की पूर्ण ऑडिटेबिलिटी और ट्रैसेबिलिटी की आवश्यकता बढ़ती जा रही है। संयुक्त राज्य अमेरिका में सर्बनेस-ऑक्सले आवश्यकताओं और यूरोप में इसी तरह के उपायों के कारण यह अनेक व्यावसायिक खुफिया कार्यान्वयनों के लिए प्रासंगिक विषय है, इसलिए किसी भी डेटा वॉल्ट कार्यान्वयन का ध्यान सभी सूचनाओं की पूर्ण ट्रेसबिलिटी और ऑडिटेबिलिटी पर है।

डेटा वॉल्ट 2.0 नया स्पेसिफिकेशन है। यह एक खुला मानक है.[11] नए विनिर्देश में तीन स्तंभ सम्मिलित हैं: कार्यप्रणाली (सॉफ्टवेयर इंजीनियरिंग संस्थान/क्षमता परिपक्वता मॉडल, सिक्स सिग्मा, प्रणाली विकास जीवन चक्र, आदि), आर्किटेक्चर (अन्य के मध्य इनपुट परत (डेटा चरण, जिसे डेटा वॉल्ट 2.0 में लगातार स्टेजिंग क्षेत्र कहा जाता है) और प्रस्तुति परत (डेटा मार्ट), और डेटा गुणवत्ता सेवाओं और मास्टर डेटा सेवाओं का प्रबंधन), और मॉडल। कार्यप्रणाली के भीतर, सर्वोत्तम प्रथाओं के कार्यान्वयन को परिभाषित किया गया है। डेटा वॉल्ट 2.0 में बड़े डेटा, NoSQL जैसे नए घटकों को सम्मिलित करने पर ध्यान केंद्रित किया गया है - और उपस्तिथ मॉडल के प्रदर्शन पर भी ध्यान केंद्रित किया गया है। पुराना विनिर्देश (अधिकांश भाग के लिए यहां प्रलेखित) डेटा वॉल्ट मॉडलिंग पर अत्यधिक केंद्रित है। यह पुस्तक में प्रलेखित है: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण।

ईडीडब्ल्यू और बीआई प्रणाली को आज के व्यवसायों की जरूरतों और इच्छाओं के अनुरूप बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ-साथ नए घटकों को सम्मिलित करने के लिए विनिर्देश विकसित करना आवश्यक है।

इतिहास

डेटा वॉल्ट मॉडलिंग की कल्पना मूल रूप से सत्र 1990 के दशक में डैन लिनस्टेड द्वारा की गई थी और इसे 2000 में सार्वजनिक डोमेन मॉडलिंग पद्धति के रूप में जारी किया गया था। डेटा एडमिनिस्ट्रेशन न्यूज़लैटर में पाँच लेखों की एक श्रृंखला में डेटा वॉल्ट पद्धति के मूलभूत नियमों का विस्तार और व्याख्या की गई है। इनमें सामान्य अवलोकन‚ घटकों का अवलोकन,[12] अंतिम तिथियों और जुड़ावों के बारे में चर्चा,[13] लिंक टेबल,[14] और लोडिंग प्रथाओं पर लेख।[15] सम्मिलित है,[16]

विधि के लिए वैकल्पिक (और संभवतः ही कभी उपयोग किया जाने वाला) नाम "कॉमन फाउंडेशनल इंटीग्रेशन मॉडलिंग आर्किटेक्चर" है।

डेटा वॉल्ट 2.0 तक परिदृश्य में आ गया है और बिग डेटा, NoSQL, असंरचित, अर्ध-संरचित निर्बाध एकीकरण के साथ-साथ कार्यप्रणाली, वास्तुकला और कार्यान्वयन सर्वोत्तम प्रथाओं को सामने लाता है।[17]

वैकल्पिक व्याख्याएँ

डैन लिनस्टेड के अनुसार, डेटा मॉडल न्यूरॉन्स, डेंड्राइट्स और सिनैप्स के सरलीकृत दृश्य से प्रेरित (या पैटर्नयुक्त) है - जहां न्यूरॉन्स हब और हब सैटेलाइट से जुड़े होते हैं, लिंक डेंड्राइट (सूचना के सदिश) होते हैं, और अन्य लिंक होते हैं सिनैप्स (विपरीत दिशा में सदिश)। एल्गोरिदम के डेटा माइनिंग समूह का उपयोग करके, लिंक को आत्मविश्वास और पावर रेटिंग के साथ स्कोर किया जा सकता है। उन्हें उन रिश्तों के बारे में सीखने के अनुसार बनाया और गिराया जा सकता है जो वर्तमान में उपस्तिथ नहीं हैं। मॉडल को स्वचालित रूप से रूपांतरित, अनुकूलित और समायोजित किया जा सकता है क्योंकि इसका उपयोग किया जाता है और इसमें नई संरचनाएं डाली जाती हैं।[18]

एक अन्य दृष्टिकोण यह है कि डेटा वॉल्ट मॉडल एंटरप्राइज़ इस अर्थ में एंटरप्राइज़ का एक ऑन्टोलॉजी प्रदान करता है कि यह एंटरप्राइज़ (हब) के डोमेन में शर्तों और उनके मध्य संबंधों (लिंक्स) का वर्णन करता है, जहां आवश्यक हो, वर्णनात्मक विशेषताओं (उपग्रहों) को जोड़ता है।

डेटा वॉल्ट मॉडल के बारे में सोचने की दूसरी प्रणाली ग्राफिकल मॉडल है। डेटा वॉल्ट मॉडल वास्तव में रिलेशनल डेटाबेस संसार में हब और रिश्तों के साथ "ग्राफ़ आधारित" मॉडल प्रदान करता है। इस विधि से, डेवलपर उप-सेकंड प्रतिक्रियाओं के साथ ग्राफ़-आधारित संबंधों को प्राप्त करने के लिए SQL का उपयोग कर सकता है।

मूलभूत धारणाएँ

डेटा वॉल्ट व्यावसायिक कुंजियों (जो अधिकांशतः परिवर्तित नहीं होती हैं, क्योंकि वह विशिष्ट रूप से व्यावसायिक इकाई की पहचान करती हैं) और उन कुंजियों की वर्णनात्मक विशेषताओं से उन व्यावसायिक कुंजियों के मध्य संबंध को भिन्न करके पर्यावरण में परिवर्तन से निपटने की समस्या को हल करने का प्रयास करता है। .

व्यावसायिक कुंजियाँ और उनके संबंध संरचनात्मक गुण हैं, जो डेटा मॉडल का कंकाल बनाते हैं। डेटा वॉल्ट पद्धति का मुख्य सिद्धांत यह है कि वास्तविक व्यावसायिक कुंजियाँ केवल तभी बदलती हैं जब व्यवसाय बदलता है और इसलिए यह ऐतिहासिक डेटाबेस की संरचना प्राप्त करने के लिए सबसे स्थिर तत्व हैं। यदि आप इन कुंजियों का उपयोग डेटा वेयरहाउस की रीढ़ के रूप में करते हैं, तब आप शेष डेटा को उनके आसपास व्यवस्थित कर सकते हैं। इसका कारण यह है कि हब के लिए सही कुंजी चुनना आपके मॉडल की स्थिरता के लिए सबसे महत्वपूर्ण है।[19] कुंजियाँ संरचना पर कुछ बाधाओं के साथ तालिकाओं में संग्रहीत की जाती हैं। इन की-टेबल्स को हब कहा जाता है।

हब

हब में परिवर्तन की कम प्रवृत्ति वाली अद्वितीय व्यावसायिक कुंजियों की सूची होती है। हब में प्रत्येक हब आइटम के लिए सरोगेट कुंजी और व्यवसाय कुंजी की उत्पत्ति का वर्णन करने वाला मेटाडेटा भी होता है। हब पर जानकारी के लिए वर्णनात्मक विशेषताएँ (जैसे कुंजी के लिए विवरण, संभवतः अनेक भाषाओं में) सैटेलाइट तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिन पर नीचे चर्चा की जाएगी।

हब में कम से कम निम्नलिखित फ़ील्ड सम्मिलित हैं:[20]

  • सरोगेट कुंजी, जिसका उपयोग अन्य संरचनाओं को इस तालिका से जोड़ने के लिए किया जाता है।
  • एक प्राकृतिक कुंजी, इस हब के लिए ड्राइवर। व्यवसाय कुंजी में अनेक फ़ील्ड सम्मिलित हो सकते हैं.
  • रिकॉर्ड स्रोत, जिसका उपयोग यह देखने के लिए किया जा सकता है कि किस सिस्टम ने प्रत्येक व्यावसायिक कुंजी को पहले लोड किया है।
  • वैकल्पिक रूप से, आपके पास मैन्युअल अपडेट (उपयोगकर्ता/समय) और निष्कर्षण तिथि के बारे में जानकारी के साथ मेटाडेटा फ़ील्ड भी हो सकते हैं।

एक हब में अनेक व्यावसायिक कुंजियाँ रखने की अनुमति नहीं है, सिवाय इसके कि जब दो प्रणालियाँ ही व्यवसाय कुंजी प्रदान करती हैं किन्तु टकराव के साथ जिनके भिन्न-भिन्न अर्थ होते हैं।

हब में सामान्यतः कम से कम उपग्रह होना चाहिए।[20]

हब उदाहरण

यह कारों वाली हब-टेबल का उदाहरण है, जिसे "कार" (H_CAR) कहा जाता है। ड्राइविंग कुंजी वाहन पहचान संख्या है।

कार्यक्षेत्र नाम विवरण अनिवार्य? टिप्पणी
H_CAR_ID हब के लिए अनुक्रम आईडी और सरोगेट कुंजी नहीं अनुशंसित किन्तु वैकल्पिक[21]
VEHICLE_ID_NR व्यवसाय कुंजी जो इस हब को चलाती है। समग्र व्यवसाय कुंजी के लिए एक से अधिक फ़ील्ड हो सकते हैं हाँ
H_RSRC पहली बार लोड होने पर इस कुंजी का रिकॉर्ड स्रोत हाँ
LOAD_AUDIT_ID ऑडिट जानकारी, जैसे लोड समय, लोड की अवधि, लाइनों की संख्या, आदि के साथ एक तालिका में एक आईडी। नहीं

लिंक

व्यावसायिक कुंजियों के मध्य संबंध या लेनदेन (उदाहरण के लिए खरीद लेनदेन के माध्यम से ग्राहक और उत्पाद के लिए दूसरे के साथ संबंध) को लिंक तालिकाओं का उपयोग करके तैयार किया जाता है। यह तालिकाएँ मूल रूप से कुछ मेटाडेटा के साथ अनेक-से-अनेक जुड़ने वाली तालिकाएँ हैं।

ग्रैन्युलैरिटी में बदलाव से निपटने के लिए लिंक अन्य लिंक से लिंक कर सकते हैं (उदाहरण के लिए, डेटाबेस तालिका में नई कुंजी जोड़ने से डेटाबेस तालिका का आकार बदल जाएगा)। उदाहरण के लिए, यदि आपके पास ग्राहक और पते के मध्य कोई संबंध है, तब आप उत्पाद और परिवहन कंपनी के केंद्रों के मध्य लिंक का संदर्भ जोड़ सकते हैं। यह "डिलीवरी" नामक लिंक हो सकता है। किसी लिंक को दूसरे लिंक में संदर्भित करना बुरा अभ्यास माना जाता है, क्योंकि यह लिंक के मध्य निर्भरता का परिचय देता है जो समानांतर लोडिंग को और अधिक कठिन बना देता है। चूँकि किसी अन्य लिंक का लिंक दूसरे लिंक के हब के साथ नए लिंक के समान होता है, इन स्थितियों में अन्य लिंक को संदर्भित किए बिना लिंक बनाना पसंदीदा समाधान है (अधिक जानकारी के लिए लोडिंग प्रथाओं पर अनुभाग देखें)।

लिंक कभी-कभी हब को ऐसी जानकारी से जोड़ते हैं जो हब बनाने के लिए अपने आप में पर्याप्त नहीं होती है। ऐसा तब होता है जब लिंक से जुड़ी व्यावसायिक कुंजी में से वास्तविक व्यावसायिक कुंजी नहीं होती है। उदाहरण के तौर पर, कुंजी के रूप में "ऑर्डर नंबर" के साथ ऑर्डर फॉर्म लें, और ऑर्डर लाइनों को अद्वितीय बनाने के लिए अर्ध-यादृच्छिक संख्या के साथ कुंजीबद्ध करें। मान लीजिए, "अद्वितीय संख्या" पश्चात् वाली कुंजी वास्तविक व्यावसायिक कुंजी नहीं है, इसलिए यह कोई केंद्र नहीं है। चूँकि, लिंक के लिए सही ग्रैन्युलैरिटी की गारंटी के लिए हमें इसका उपयोग करने की आवश्यकता है। इस स्थितियों में, हम सरोगेट कुंजी वाले हब का उपयोग नहीं करते हैं, किंतु व्यवसाय कुंजी "यूनिक नंबर" को लिंक में ही जोड़ते हैं। ऐसा केवल तभी किया जाता है जब व्यवसाय कुंजी को किसी अन्य लिंक के लिए या उपग्रह में विशेषताओं के लिए कुंजी के रूप में उपयोग करने की कोई संभावना नहीं होती है। इस निर्माण को डैन लिनस्टेड ने अपने (वर्तमान निष्क्रिय) फोरम पर 'पेग-लेग्ड लिंक' कहा है।

लिंक में लिंक किए गए हब के लिए सरोगेट कुंजी, लिंक के लिए उनकी स्वयं की सरोगेट कुंजी और एसोसिएशन की उत्पत्ति का वर्णन करने वाला मेटाडेटा सम्मिलित है। एसोसिएशन पर जानकारी के लिए वर्णनात्मक विशेषताएं (जैसे समय, कीमत या राशि) उपग्रह तालिकाओं नामक संरचनाओं में संग्रहीत की जाती हैं जिनकी चर्चा नीचे की गई है।

लिंक उदाहरण

यह कारों (H_CAR) और व्यक्तियों (H_PERSON) के लिए दो हब के मध्य लिंक-टेबल का उदाहरण है। लिंक को "ड्राइवर" (L_DRIVER) कहा जाता है।

कार्यक्षेत्र नाम विवरण अनिवार्य? टिप्पणी
L_DRIVER_ID लिंक के लिए अनुक्रम आईडी और सरोगेट कुंजी नहीं अनुशंसित किन्तु वैकल्पिक[21]
H_CAR_ID कार हब के लिए सरोगेट कुंजी, लिंक का पहला एंकर हाँ
H_PERSON_ID व्यक्ति हब के लिए सरोगेट कुंजी, लिंक का दूसरा एंकर हाँ
L_RSRC पहली बार लोड होने पर इस एसोसिएशन का रिकॉर्डस्रोत हाँ
LOAD_AUDIT_ID ऑडिट जानकारी, जैसे लोड समय, लोड की अवधि, लाइनों की संख्या, आदि के साथ एक तालिका में एक आईडी। नहीं

उपग्रह

हब और लिंक मॉडल की संरचना बनाते हैं, किन्तु उनमें कोई अस्थायी विशेषताएँ नहीं होती हैं और कोई वर्णनात्मक विशेषताएँ नहीं होती हैं। इन्हें भिन्न-भिन्न तालिकाओं में संग्रहीत किया जाता है जिन्हें उपग्रह कहा जाता है। इनमें मेटाडेटा सम्मिलित है जो उन्हें उनके मूल हब या लिंक से जोड़ता है, मेटाडेटा एसोसिएशन और विशेषताओं की उत्पत्ति का वर्णन करता है, साथ ही विशेषता के लिए प्रारंभ और समाप्ति तिथियों के साथ समयरेखा भी सम्मिलित है। जहां हब और लिंक मॉडल की संरचना प्रदान करते हैं, उपग्रह मॉडल का "मीट" प्रदान करते हैं, व्यावसायिक प्रक्रियाओं के लिए संदर्भ जो हब और लिंक में कैप्चर किए जाते हैं। इन विशेषताओं को स्थितियों के विवरण के साथ-साथ समयरेखा दोनों के संबंध में संग्रहीत किया जाता है और अधिक समष्टि (ग्राहक की पूरी प्रोफ़ाइल का वर्णन करने वाले सभी क्षेत्र) से लेकर अधिक सरल (केवल वैध-संकेतक के साथ लिंक पर उपग्रह) तक हो सकता है और समयरेखा)।

सामान्यतः विशेषताओं को स्रोत प्रणाली के अनुसार उपग्रहों में समूहीकृत किया जाता है। चूँकि, आकार, निवेश, गति, मात्रा या रंग जैसी वर्णनात्मक विशेषताएँ भिन्न-भिन्न दरों पर बदल सकती हैं, इसलिए आप इन विशेषताओं को उनके परिवर्तन की दर के आधार पर विभिन्न उपग्रहों में विभाजित भी कर सकते हैं।

सभी तालिकाओं में मेटाडेटा होता है, जो कम से कम स्रोत प्रणाली और उस तारीख का वर्णन करता है जिस दिन यह प्रविष्टि वैध हो गई थी, डेटा वेयरहाउस में प्रवेश करते ही डेटा का संपूर्ण ऐतिहासिक दृश्य देता है।

एक प्रभावशाली उपग्रह लिंक पर बना उपग्रह है, "और उस समयावधि को रिकॉर्ड करता है जब संबंधित लिंक प्रभावशीलता को प्रारम्भ और समाप्त करता है"।[22]

सैटेलाइट उदाहरण

यह कारों और व्यक्तियों के हब के मध्य ड्राइवर-लिंक पर उपग्रह के लिए उदाहरण है, जिसे ड्राइवर बीमा (S_DRIVER_INSURANCE) कहा जाता है। इस उपग्रह में ऐसी विशेषताएँ सम्मिलित हैं जो कार और उसे चलाने वाले व्यक्ति के मध्य संबंधों के बीमा के लिए विशिष्ट हैं, उदाहरण के लिए संकेतक कि क्या यह प्राथमिक चालक है, इस कार और व्यक्ति के लिए बीमा कंपनी का नाम (एक भिन्न भी हो सकता है) हब) और वाहन और चालक के इस संयोजन से जुड़ी दुर्घटनाओं की संख्या का सारांश। इसमें R_RISK_CATEGORY नामक लुकअप- या संदर्भ तालिका का संदर्भ भी सम्मिलित है जिसमें कठिन परिस्थिति श्रेणी के लिए कोड सम्मिलित हैं जिसमें यह संबंध माना जाता है।

कार्यक्षेत्र नाम विवरण अनिवार्य? टिप्पणी
S_DRIVER_INSURANCE_ID लिंक पर उपग्रह के लिए अनुक्रम आईडी और सरोगेट कुंजी नहीं अनुशंसित किन्तु वैकल्पिक[21]
L_DRIVER_ID (सरोगेट) ड्राइवर लिंक के लिए प्राथमिक कुंजी, उपग्रह का जनक हाँ
S_SEQ_NR यदि एक मूल कुंजी के लिए अनेक वैध उपग्रह हैं तब विशिष्टता प्रयुक्त करने के लिए ऑर्डर या अनुक्रम संख्या नहीं (**) ऐसा तब हो सकता है, उदाहरण के लिए, आपके पास एक हब पाठ्यक्रम है और पाठ्यक्रम का नाम एक विशेषता है, किन्तु अनेक भिन्न-भिन्न भाषाओं में है।
S_LDTS मूल कुंजी L_DRIVER_ID के लिए विशेषता मानों के इस संयोजन की वैधता के लिए लोड दिनांक (प्रारंभ तिथि)। हाँ
S_LEDTS मूल कुंजी L_DRIVER_ID के लिए विशेषता मानों के इस संयोजन की वैधता के लिए लोड समाप्ति तिथि (अंतिम तिथि)। नहीं
IND_PRIMARY_DRIVER संकेतक कि ड्राइवर इस कार का प्राथमिक ड्राइवर है या नहीं नहीं (*)
INSURANCE_COMPANY इस वाहन और इस ड्राइवर के लिए बीमा कंपनी का नाम नहीं (*)
NR_OF_ACCIDENTS इस वाहन चालक द्वारा इस वाहन से हुई दुर्घटनाओं की संख्या नहीं (*)
R_RISK_CATEGORY_CD ड्राइवर के लिए कठिन परिस्थिति श्रेणी. यह R_RISK_CATEGORY का संदर्भ है नहीं (*)
S_RSRC पहली बार लोड होने पर इस उपग्रह में जानकारी का रिकॉर्ड स्रोत हाँ
LOAD_AUDIT_ID ऑडिट जानकारी, जैसे लोड समय, लोड की अवधि, लाइनों की संख्या, आदि के साथ एक तालिका में एक आईडी। नहीं

(*) कम से कम विशेषता अनिवार्य है। (**) अनुक्रम संख्या अनिवार्य हो जाती है यदि ही हब या लिंक पर एकाधिक वैध उपग्रहों के लिए विशिष्टता प्रयुक्त करने के लिए इसकी आवश्यकता होती है।

संदर्भ तालिकाएँ

संदर्भ तालिकाएँ स्वस्थ डेटा वॉल्ट मॉडल का सामान्य हिस्सा हैं। वह सरल संदर्भ डेटा के अनावश्यक भंडारण को रोकने के लिए हैं जिन्हें बहुत अधिक संदर्भित किया जाता है। अधिक औपचारिक रूप से, डैन लिनस्टेड संदर्भ डेटा को इस प्रकार परिभाषित करते हैं: <ब्लॉककोट>कोड से विवरण को हल करने, या कुंजियों को सुसंगत तरीके से अनुवाद करने के लिए आवश्यक समझी जाने वाली कोई भी जानकारी। इनमें से अनेक क्षेत्र प्रकृति में वर्णनात्मक हैं और अन्य अधिक महत्वपूर्ण जानकारी की विशिष्ट स्थिति का 'वर्णन' करते हैं। इस प्रकार, संदर्भ डेटा कच्चे डेटा वॉल्ट तालिकाओं से भिन्न तालिकाओं में रहता है।[23]</ब्लॉककोट>

संदर्भ तालिकाएँ उपग्रहों से संदर्भित होती हैं, किन्तु कभी भी भौतिक विदेशी कुंजियों से बंधी नहीं होती हैं। संदर्भ तालिकाओं के लिए कोई निर्धारित संरचना नहीं है: आपके विशिष्ट स्थितियों में जो सबसे अच्छा काम करता है उसका उपयोग करें, साधारण लुकअप तालिकाओं से लेकर छोटे डेटा वॉल्ट या यहां तक ​​कि सितारों तक। वह ऐतिहासिक हो सकते हैं या उनका कोई इतिहास नहीं हो सकता है, किन्तु यह अनुशंसा की जाती है कि आप प्राकृतिक कुंजियों से चिपके रहें और उस स्थिति में सरोगेट कुंजियाँ न बनाएँ।[24] सामान्यतः, किसी भी अन्य डेटा वहयरहाउस की तरह, डेटा वॉल्ट में बहुत सारी संदर्भ तालिकाएँ होती हैं।

संदर्भ उदाहरण

यह वाहन चालकों के लिए कठिन परिस्थिति श्रेणियों वाली संदर्भ तालिका का उदाहरण है। इसे डेटा वॉल्ट में किसी भी उपग्रह से संदर्भित किया जा सकता है। अभी के लिए हम इसे उपग्रह S_DRIVER_INSURANCE से संदर्भित करते हैं। संदर्भ तालिका R_RISK_CATEGORY है.

कार्यक्षेत्र नाम विवरण अनिवार्य?
R_RISK_CATEGORY_CD कठिन परिस्थिति श्रेणी के लिए कोड हाँ
RISK_CATEGORY_DESC कठिन परिस्थिति श्रेणी का विवरण नहीं (*)

(*) कम से कम विशेषता अनिवार्य है।

लोड हो रहा है अभ्यास

डेटा वॉल्ट मॉडल को अपडेट करने के लिए एक्सट्रैक्ट,_ट्रांसफॉर्म,_लोड अधिक सरल है (देखें #tdan5|डेटा वॉल्ट श्रेणी 5 - लोडिंग प्रैक्टिस)। सबसे पहले आपको सभी हब को लोड करना होगा, किसी भी नई व्यावसायिक कुंजी के लिए सरोगेट आईडी बनाना होगा। ऐसा करने के पश्चात्, यदि आप हब से पूछताछ करते हैं तब वर्तमान आप सरोगेट आईडी के लिए सभी व्यावसायिक कुंजियों का समाधान कर सकते हैं। दूसरा चरण हब के मध्य संबंधों को हल करना और किसी भी नए एसोसिएशन के लिए सरोगेट आईडी बनाना है। साथ ही, आप हब से जुड़े सभी उपग्रह भी बना सकते हैं, क्योंकि आप सरोगेट आईडी की कुंजी को हल कर सकते हैं। बार जब आप सभी नए लिंक उनकी सरोगेट कुंजियों के साथ बना लेते हैं, तब आप सभी लिंक में उपग्रह जोड़ सकते हैं।

चूंकि हब लिंक के अतिरिक्त एक-दूसरे से जुड़े नहीं हैं, आप सभी हब को समानांतर में लोड कर सकते हैं। चूँकि लिंक सीधे एक-दूसरे से जुड़े नहीं होते हैं, आप सभी लिंक को समानांतर में भी लोड कर सकते हैं। चूँकि उपग्रहों को केवल हब और लिंक से जोड़ा जा सकता है, आप इन्हें समानांतर में भी लोड कर सकते हैं।

ईटीएल अधिक सरल है और स्वचालन या टेम्प्लेटिंग को आसान बनाता है। समस्याएँ केवल अन्य लिंक से संबंधित लिंक के साथ होती हैं, क्योंकि लिंक में व्यावसायिक कुंजियों को हल करने से केवल और लिंक मिलता है जिसे भी हल करना होता है। अनेक केंद्रों के लिंक के साथ इस स्थिति की समानता के कारण, ऐसे स्थितियों को फिर से तैयार करके इस कठिनाई से बचा जा सकता है और यह वास्तव में अनुशंसित अभ्यास है।[15]

डेटा वॉल्ट से डेटा कभी नहीं हटाया जाता है, जब तक कि डेटा लोड करते समय कोई विधि ी त्रुटि न हो।

डेटा वॉल्ट और आयामी मॉडलिंग

डेटा वॉल्ट मॉडल परत का उपयोग सामान्यतः डेटा संग्रहीत करने के लिए किया जाता है। यह क्वेरी प्रदर्शन के लिए अनुकूलित नहीं है, न ही कॉग्नोस, ओरेकल बिजनेस इंटेलिजेंस सुइट एंटरप्राइज संस्करण , एसएपी बिजनेस ऑब्जेक्ट्स, पेंटाहो एट अल जैसे प्रसिद्ध क्वेरी-टूल्स द्वारा क्वेरी करना आसान है। चूंकि यह अंतिम-उपयोगकर्ता कंप्यूटिंग उपकरण अपने डेटा को आयामी मॉडलिंग में सम्मिलित करने की अपेक्षा करते हैं या पसंद करते हैं, इसलिए रूपांतरण सामान्यतः आवश्यक होता है।

इस उद्देश्य के लिए, उन हबों पर उपस्तिथ हब और संबंधित उपग्रहों को आयाम के रूप में माना जा सकता है और उन लिंक पर उपस्तिथ लिंक और संबंधित उपग्रहों को आयामी मॉडल में तथ्य तालिका के रूप में देखा जा सकता है। यह आपको दृश्यों का उपयोग करके डेटा वॉल्ट मॉडल से आयामी मॉडल को जल्दी से प्रोटोटाइप करने में सक्षम बनाता है।

ध्यान दें कि चूंकि डेटा वॉल्ट मॉडल से डेटा को (साफ किए गए) आयामी मॉडल में स्थानांतरित करना अपेक्षाकृत सरल है, किन्तु आयामी मॉडल की तथ्य तालिकाओं की असामान्य प्रकृति को देखते हुए, इसका उलटा उतना आसान नहीं है, जो कि तीसरे सामान्य रूप से मौलिक रूप से भिन्न है। डेटा वॉल्ट.[25]

डेटा वॉल्ट पद्धति

डेटा वॉल्ट पद्धति सॉफ्टवेयर इंजीनियरिंग संस्थान/सीएमएमआई स्तर 5 सर्वोत्तम प्रथाओं पर आधारित है। इसमें सीएमएमआई स्तर 5 के अनेक घटक सम्मिलित हैं, और उन्हें सिक्स सिग्मा, कुल गुणवत्ता प्रबंधन और एसडीएलसी की सर्वोत्तम प्रथाओं के साथ जोड़ा गया है। विशेष रूप से, यह निर्माण और नियत के लिए स्कॉट एंबलर की चुस्त कार्यप्रणाली पर केंद्रित है। डेटा वॉल्ट परियोजनाओं में छोटा, स्कोप-नियंत्रित रिलीज़ चक्र होता है और इसमें हर 2 से 3 सप्ताह में उत्पादन रिलीज़ सम्मिलित होना चाहिए।

डेटा वॉल्ट पद्धति का उपयोग करने वाली टीमों को सीएमएमआई स्तर 5 पर अपेक्षित दोहराए जाने योग्य, सुसंगत और मापने योग्य परियोजनाओं को आसानी से अनुकूलित करना चाहिए। ईडीडब्ल्यू डेटा वॉल्ट प्रणाली के माध्यम से प्रवाहित होने वाला डेटा टीक्यूएम (कुल गुणवत्ता प्रबंधन) जीवन-चक्र का पालन करना प्रारंभ कर देगा। लंबे समय से बीआई (बिजनेस इंटेलिजेंस) परियोजनाओं से गायब है।

उपकरण

टूल के कुछ उदाहरण हैं:

यह भी देखें

  • बिल इनमोन
  • डेटा वेयरहाउस
  • किमबॉल जीवनचक्र, राल्फ किमबॉल द्वारा विकसित
  • लगातार स्टेजिंग क्षेत्र

संदर्भ

उद्धरण

  1. Super Charge your data warehouse, page 74
  2. The next generation EDW
  3. Building a scalable datawarehouse with data vault 2.0, p. 6
  4. Super Charge your data warehouse, page 21
  5. Super Charge your data warehouse, page 76
  6. Porsby, Johan. "Rålager istället för ett strukturerat datalager". www.agero.se (in svenska). Retrieved 2023-02-22.
  7. Porsby, Johan. "Datamodeller för data warehouse". www.agero.se (in svenska). Retrieved 2023-02-22.
  8. Building a scalable datawarehouse with data vault 2.0, p. xv
  9. Building a scalable datawarehouse with data vault 2.0, p. 11
  10. The New Business Supermodel, glossary, page 75
  11. A short intro to#datavault 2.0
  12. Data Vault Series 2 – Data Vault Components
  13. Data Vault Series 3 – End Dates and Basic Joins
  14. Data Vault Series 4 – Link tables, paragraph 2.3
  15. 15.0 15.1 #tdan5|डेटा वॉल्ट सीरीज 5 - लोडिंग प्रैक्टिस
  16. Data Vault Series 1 – Data Vault Overview
  17. Data Vault 2.0 Being Announced
  18. Super Charge your Data Warehouse, paragraph 5.20, page 110
  19. Super Charge your data warehouse, page 61, why are business keys important
  20. 20.0 20.1 Data Vault Forum, Standards section, section 3.0 Hub Rules
  21. 21.0 21.1 21.2 Data Vault Modeling Specification v1.0.9
  22. Effectivity Satellites - dbtvault
  23. Super Charge your Data Warehouse, paragraph 8.0, page 146
  24. Super Charge your Data Warehouse, paragraph 8.0, page 149
  25. Melbournevault, 16 May 2023

स्रोत

डच भाषा के स्रोत
  • Ketelaars, M.W.A.M. (2005-11-25). "डेटा वॉल्ट के साथ मॉडल डेटा वेयरहाउस". Database Magazine (DB/M). Array Publications B.V. (7): 36–40.
  • Verhagen, K.; Vrijkorte, B. (June 10, 2008). "रिलेशनल बनाम डेटा वॉल्ट". Database Magazine (DB/M). Array Publications B.V. (4): 6–9.

साहित्य

  • पैट्रिक क्यूबा: डेटा वॉल्ट गुरु। डेटा वॉल्ट बनाने पर व्यावहारिक मार्गदर्शिका। सेल्बस्टवेरलाग, ओहने ऑर्ट 2020, आईएसबीएन 979-86-9130808-6।
  • जॉन जाइल्स: द एलिफेंट इन द फ्रिज। व्यवसाय-केंद्रित मॉडल के निर्माण के माध्यम से डेटा वॉल्ट की सफलता के लिए निर्देशित कदम। टेक्निक्स, बास्किंग रिज 2019, आईएसबीएन 978-1-63462-489-3।
  • केंट ग्राज़ियानो: उत्तम डेटा मॉडलिंग। डेटा वॉल्ट 2.0 का उपयोग करके एजाइल डेटा इंजीनियरिंग का परिचय। डेटा वारियर, ह्यूस्टन 2015।
  • हंस हल्टग्रेन: डेटा वॉल्ट के साथ एजाइल डेटा वेयरहाउस की मॉडलिंग। ब्राइटन हैमिल्टन, डेनवर यू. एक। 2012, आईएसबीएन 978-0-615-72308-2।
  • डिर्क लर्नर: चुस्त डेटा-वेयरहाउस-आर्किटेक्टुरेन के लिए डेटा वॉल्ट। इन: स्टीफ़न ट्रैश, माइकल ज़िमर (एचआरएसजी): एजाइल बिजनेस इंटेलिजेंस। थ्योरी अंड प्रैक्सिस. dpunkt.verlag, हीडलबर्ग 2016, आईएसबीएन 978-3-86490-312-0, एस. 83-98।
  • डैनियल लिनस्टेड: अपने डेटा वेयरहाउस को सुपर चार्ज करें। आपके डेटा वॉल्ट को प्रयुक्त करने के लिए अमूल्य डेटा मॉडलिंग नियम। लिनस्टेड, सेंट एल्बंस, वर्मोंट 2011, आईएसबीएन 978-1-4637-7868-2।
  • डैनियल लिनस्टेड, माइकल ओल्स्चिम्के: डेटा वॉल्ट 2.0 के साथ स्केलेबल डेटा वेयरहाउस का निर्माण। मॉर्गन कॉफ़मैन, वाल्थम, मैसाचुसेट्स 2016, आईएसबीएन 978-0-12-802510-9।
  • दानी श्नाइडर, क्लॉस जॉर्डन यू। ए.: डेटा वेयरहाउस ब्लूप्रिंट। डेर प्रैक्सिस में बिजनेस इंटेलिजेंस। हैंसर, मुंचेन 2016, आईएसबीएन 978-3-446-45075-2, एस. 35-37, 161-173।

बाहरी संबंध