डेटा वेयरहाउस: Difference between revisions
No edit summary |
No edit summary |
||
(11 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{Short description|Centralized storage of knowledge}} | {{Short description|Centralized storage of knowledge}} | ||
[[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]] | [[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]] | ||
[[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे | [[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे उद्योग डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और [[डेटा विश्लेषण]] के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।<ref>{{cite conference|last1=Dedić|first1=Nedim|last2=Stanier|first2=Clare|year=2016|editor1-last=Hammoudi|editor1-first=Slimane|editor2-last=Maciaszek|editor2-first=Leszek|editor3-last=Missikoff|editor3-first=Michele M. Missikoff|editor4-last=Camp|editor4-first=Olivier|editor5-last=Cordeiro|editor5-first=José|title=An Evaluation of the Challenges of Multilingualism in Data Warehouse Development|url=http://eprints.staffs.ac.uk/2770/|journal=Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016)|publisher=SciTePress|volume=1|pages=196–206|conference=International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy|conference-url=https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-url=https://web.archive.org/web/20180522180940/https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-date=2018-05-22 |url-status=live|doi=10.5220/0005858401960206|isbn=978-989-758-187-8|doi-access=free}}</ref> डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय [[भंडार (संस्करण नियंत्रण)]] हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं<ref name="rjmetrics">{{cite web|url=https://blog.rjmetrics.com/2014/12/04/10-common-mistakes-when-building-a-data-warehouse/|publisher=blog.rjmetrics.com|title=9 Reasons Data Warehouse Projects Fail|date=4 December 2014|access-date=2017-04-30}}</ref> जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।<ref name="spotlessdata">{{cite web|url=https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|archive-url=https://web.archive.org/web/20180726071809/https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|url-status=dead|archive-date=2018-07-26|publisher=spotlessdata.com|title=Exploring Data Warehouses and Data Quality|access-date=2017-04-30}}</ref> यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।<ref>{{Cite web |title=What is a Data Warehouse? {{!}} Key Concepts {{!}} Amazon Web Services |url=https://aws.amazon.com/data-warehouse/ |access-date=2023-02-13 |website=Amazon Web Services, Inc. |language=en-US}}</ref> | ||
वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे | वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे विपणन या खरीद) से [[डालना|अपलोड]] किया जाता है। डेटा [[परिचालन डेटा स्टोर]] से निकल सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।<ref name="rjmetrics"/> | ||
एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य | एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य विधियां हैं। | ||
== ईटीएल-आधारित डेटा वेयरहाउसिंग == | == ईटीएल-आधारित डेटा वेयरहाउसिंग == | ||
विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)|अभिनय (डेटा)]], [[डेटा एकीकरण]] और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा | विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)|अभिनय (डेटा)]], [[डेटा एकीकरण]] और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा समुच्चय को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी [[स्टार स्कीमा]] कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।<ref name=IJCA96Patil>{{cite journal |url=http://www.ijcaonline.org/proceedings/icwet/number9/2131-db195 |author1=Patil, Preeti S. |author2=Srikantha Rao |author3=Suryakant B. Patil |title=Optimization of Data Warehousing System: Simplification in Reporting and Analysis |journal=IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET) |year=2011 |volume=9 |issue=6 |pages=33–37 |publisher=Foundation of Computer Science}}</ref> | ||
डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक | डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक प्रस्तुतेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।<ref>Marakas & O'Brien 2009</ref> चूँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और [[डेटा शब्दकोश]] को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस विस्तृत संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में [[व्यापार खुफिया उपकरण|व्यापार गुप्त उपकरण]], डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और [[मेटा डेटा]] को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण सम्मिलित हैं। | ||
== ईएलटी-आधारित डेटा वेयरहाउसिंग == | == ईएलटी-आधारित डेटा वेयरहाउसिंग == | ||
[[File:ELT Diagram.png|thumb|244x244px|एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर]]एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके | [[File:ELT Diagram.png|thumb|244x244px|एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर]]एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके अतिरिक्त, यह डेटा वेयरहाउस के अंदर ही अभिनय क्षेत्र बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है। | ||
== लाभ == | == लाभ == | ||
Line 18: | Line 18: | ||
* एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है। | * एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है। | ||
* लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें। | * लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें। | ||
* डेटा इतिहास बनाए रखें, | * डेटा इतिहास बनाए रखें, चाहे स्रोत लेनदेन प्रणालियां न हों। | ||
* कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, | * कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, किन्तु विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो। | ||
* लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें। | * लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें। | ||
* संगठन की जानकारी को लगातार प्रस्तुत करें। | * संगठन की जानकारी को लगातार प्रस्तुत करें। | ||
* डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए [[सामान्य डेटा मॉडल]] प्रदान करें। | * डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए [[सामान्य डेटा मॉडल]] प्रदान करें। | ||
* डेटा को पुनर्गठित करें | * डेटा को पुनर्गठित करें जिससे यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए। | ||
* डेटा को पुनर्व्यवस्थित करें | * डेटा को पुनर्व्यवस्थित करें जिससे यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे। | ||
* परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से [[ग्राहक संबंध प्रबंधन]] (सीआरएम) प्रणालियों में मूल्य जोड़ें। | * परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से [[ग्राहक संबंध प्रबंधन]] (सीआरएम) प्रणालियों में मूल्य जोड़ें। | ||
*निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं। | *निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं। | ||
Line 30: | Line 30: | ||
== सामान्य == | == सामान्य == | ||
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित | डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित सम्मिलित हैं: | ||
* | * स्रोत प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं; | ||
* डेटा एकीकरण | * डेटा एकीकरण विधि और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं; | ||
* किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर; | * किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर; | ||
* विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग; | * विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग; | ||
Line 49: | Line 49: | ||
==संबंधित प्रणाली ([[डेटा मार्ट]], ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)== | ==संबंधित प्रणाली ([[डेटा मार्ट]], ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)== | ||
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा | डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के अन्दर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।<ref>{{cite web |url=http://docs.oracle.com/html/E10312_01/dm_concepts.htm |title=Data Mart Concepts |publisher=Oracle |year=2007}}</ref> इस प्रणाली में डेटा मॉडलिंग विधियों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल उपसमुच्चय को आवरण करते हैं, वे अधिकांश प्रायुक्त करने में आसान और तेज़ होते हैं। | ||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+ डेटा वेयरहाउस और डेटा मार्ट के बीच अंतर | ||
|- | |- | ||
! | ! गुण | ||
! | ! डेटा वेयरहाउस | ||
! | ! डेटा मार्ट | ||
|- | |- | ||
! style="text-align: left" | | ! style="text-align: left" | डेटा का सीमा | ||
| | | उद्यम-व्यापी | ||
| | | विभाग चौड़ा | ||
|- | |- | ||
! style="text-align: left" | | ! style="text-align: left" | विषय क्षेत्रों की संख्या | ||
| | | एकाधिक | ||
| | | एकल | ||
|- | |- | ||
! style="text-align: left" | | ! style="text-align: left" | बनाना कितना कठिन है | ||
| | | कठिन | ||
| | | सरल | ||
|- | |- | ||
! style="text-align: left" | | ! style="text-align: left" | बनने में कितना समय लगता है | ||
| | | अधिक | ||
| | | कम | ||
|- | |- | ||
! style="text-align: left" | | ! style="text-align: left" | स्मृति की मात्रा | ||
| | | बड़ा | ||
| | | सीमित | ||
|} | |} | ||
डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट | डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट सम्मिलित हैं।{{clarify |date=March 2017 |reason= }} | ||
ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न | ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण सम्मिलित होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का विस्तृत रूप से [[डेटा खनन]] विधियों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के निकट होने की अपेक्षा होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन मूलभूत संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं। | ||
[[ऑनलाइन लेनदेन प्रसंस्करण]] (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल ( | [[ऑनलाइन लेनदेन प्रसंस्करण]] (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः [[तीसरा सामान्य रूप]]) है।<ref>{{cite web |url=http://datawarehouse4u.info/OLTP-vs-OLAP.html |title=OLTP vs. OLAP |year=2009 |website=Datawarehouse4u.Info |quote=We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.}}</ref> इस प्रणाली में डेटा मॉडलिंग विधियों के लिए सामान्यीकरण आदर्श है। | ||
[[भविष्य बतानेवाला विश्लेषक]] जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की [[भविष्यवाणी]] करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, | [[भविष्य बतानेवाला विश्लेषक]] जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की [[भविष्यवाणी]] करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, चूंकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है। | ||
== इतिहास == | == इतिहास == | ||
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। | डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। चूंकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, किन्तु उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था। | ||
इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का | इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का विधि बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के अन्दर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक विधियां से प्रबंधित किया जा सकता है। | ||
डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास: | डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास: | ||
Line 96: | Line 96: | ||
* 1970 - [[ACNielsen|एसीनीलसन]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" /> | * 1970 - [[ACNielsen|एसीनीलसन]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" /> | ||
*1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref> | *1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref> | ||
* 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER|मैपर]] (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) | * 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER|मैपर]] (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) प्रस्तुत की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें संसार की पहली [[चौथी पीढ़ी की प्रोग्रामिंग भाषा]] सम्मिलित है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस विधि का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है। | ||
* 1983 - [[टेराडाटा]] ने डीबीसी/1012 डेटाबेस कंप्यूटर | * 1983 - [[टेराडाटा]] ने डीबीसी/1012 डेटाबेस कंप्यूटर प्रस्तुत किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।<ref>{{Cite news |title= Will Teradata revive a market? |author= Paul Gillin |pages= 43, 48 |work= Computer World |date= February 20, 1984 |url= https://books.google.com/books?id=5pw6ePUC8YYC&pg=PA48 |access-date= 2017-03-13 }}</ref> | ||
* 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम|रूपक कंप्यूटर प्रणालियों]], डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है। | * 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम|रूपक कंप्यूटर प्रणालियों]], डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है। | ||
* 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref> | * 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref> | ||
* 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस | * 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस प्रस्तुत किया। | ||
* 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है। | * 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है। | ||
* 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर | * 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर प्रस्तुत किया। | ||
* 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref> | * 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref> | ||
* 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई। | * 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई। | ||
Line 108: | Line 108: | ||
* 2000 - [[डैन लिनस्टेड]] ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। . | * 2000 - [[डैन लिनस्टेड]] ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। . | ||
* 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था। | * 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था। | ||
* 2012 - बिल इनमोन सार्वजनिक | * 2012 - बिल इनमोन सार्वजनिक विधि को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को प्रायुक्त करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त विधि द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है। | ||
== सूचना भंडारण == | == सूचना भंडारण == | ||
Line 127: | Line 127: | ||
=== डेटा भंडारण के लिए आयामी | === डेटा भंडारण के लिए आयामी विरुद्ध सामान्यीकृत दृष्टिकोण === | ||
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं। | डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं। | ||
Line 134: | Line 134: | ||
==== आयामी दृष्टिकोण ==== | ==== आयामी दृष्टिकोण ==== | ||
एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो | एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है। | ||
आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" /> व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं | आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" /> व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं चूंकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा प्रस्तुत किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस सम्मिलित नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग विधि बहुत उपयोगी है। | ||
तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है। | तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है। | ||
आयामी दृष्टिकोण के मुख्य | आयामी दृष्टिकोण के मुख्य हानि निम्नलिखित हैं: | ||
# तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है। | # तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है। | ||
# डेटा वेयरहाउस संरचना को संशोधित करना | # डेटा वेयरहाउस संरचना को संशोधित करना कठिन है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के विधियां को बदल देता है। | ||
==== सामान्यीकृत दृष्टिकोण ==== | ==== सामान्यीकृत दृष्टिकोण ==== | ||
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा | सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा सीमा तक, [[डेटाबेस सामान्यीकरण]] नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में प्रायुक्त किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस प्रायुक्त किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)। | ||
इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ | इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ हानि यह हैं कि इसमें सम्मिलित तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में सम्मिलित करना और डेटा के स्रोतों और [[डेटा संरचना]] डेटा वेयरहाउस की त्रुटिहीन समझ के बिना जानकारी तक पहुंचना कठिन हो सकता है। | ||
सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ | सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ सम्मिलित हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को सीमा तक सामान्य करना सम्मिलित हो सकता है (किमबॉल, राल्फ 2008)। | ||
सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। | सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। विधि से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) किन्तु यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह विधि एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Small_Worlds_Data_Transformation_Measure |title=Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development |publisher=Mike2.openmethodology.org |access-date=2013-06-14}}</ref> | ||
== डिजाइन | == डिजाइन की विधियां == | ||
=== नीचे से ऊपर डिज़ाइन === | === नीचे से ऊपर डिज़ाइन === | ||
नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को | नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को विस्तृत डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट विधियों से)।<ref>{{Cite web|url=http://decisionworks.com/2003/09/the-bottom-up-misnomer/|title=The Bottom-Up Misnomer - DecisionWorks Consulting|website=DecisionWorks Consulting|date=17 September 2003|language=en-US|access-date=2016-03-06}}</ref> | ||
=== उपर से नीचे डिज़ाइन === | === उपर से नीचे डिज़ाइन === | ||
उपर से नीचे दृष्टिकोण सामान्यीकृत | उपर से नीचे दृष्टिकोण सामान्यीकृत उद्योग [[डेटा मॉडल]] का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।<ref name="ReferenceA">Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005</ref> | ||
=== हाइब्रिड डिजाइन === | === हाइब्रिड डिजाइन === | ||
डेटा वेयरहाउस (डीडब्लू) | डेटा वेयरहाउस (डीडब्लू) अधिकांश [[हब और प्रवक्ता वास्तुकला]] के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और [[उद्यम संसाधन योजना]] सम्मिलित होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और [[ट्रांसफॉर्म लोड निकालें|परिवर्तन लोड निकालें]] प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत विधियां से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं। | ||
डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, | डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, चूंकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को [[मास्टर डेटा प्रबंधन]] भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है। | ||
डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास | डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास सम्मिलित हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, किन्तु यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है। | ||
== डेटा वेयरहाउस विशेषताएँ == | == डेटा वेयरहाउस विशेषताएँ == | ||
मूलभूत विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता सम्मिलित हैं। | |||
=== विषय-उन्मुख === | === विषय-उन्मुख === | ||
Line 180: | Line 180: | ||
=== एकीकृत === | === एकीकृत === | ||
डेटा वेयरहाउस के | डेटा वेयरहाउस के अन्दर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि सम्मिलित हैं। | ||
=== समय-संस्करण === | === समय-संस्करण === | ||
चूंकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)<ref name=":1">{{Cite book|title=Data warehousing fundamentals for IT professionals|last=Paulraj.|first=Ponniah|date=2010|publisher=John Wiley & Sons|others=Ponniah, Paulraj.|isbn=9780470462072|edition= 2nd |location=Hoboken, N.J.|oclc=662453070}}</ref> | |||
Line 193: | Line 193: | ||
=== एकत्रीकरण === | === एकत्रीकरण === | ||
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, | डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, सामान्यतः, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।<ref name=":1" /> | ||
=== वर्चुअलाइजेशन === | === वर्चुअलाइजेशन === | ||
[[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ | [[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ प्रौद्योगिक कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। चूँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से संबन्ध चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।<ref name="Paiho">{{cite journal | url=https://doi.org/10.1049/smc2.12044 | doi=10.1049/smc2.12044 | title=Opportunities of collected city data for smart cities | year=2022 | last1=Paiho | first1=Satu | last2=Tuominen | first2=Pekka | last3=Rökman | first3=Jyri | last4=Ylikerälä | first4=Markus | last5=Pajula | first5=Juha | last6=Siikavirta | first6=Hanne | journal=IET Smart Cities | volume=4 | issue=4 | pages=275–291 | s2cid=253467923 }}</ref> | ||
Line 204: | Line 204: | ||
== | == विरुद्ध परिचालन प्रणाली == | ||
डेटाबेस सामान्यीकरण और [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर | डेटाबेस सामान्यीकरण और [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ प्रविष्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है। | ||
डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में | डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना सम्मिलित होता है और यदि कभी हो तो संभवतः ही कभी {{code|select *}}, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं चूंकि विश्लेषण डेटाबेस (शिथिल, ओलाप) [[स्तंभ-उन्मुख DBMS|स्तंभ-उन्मुख डीबीएमएस]] के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है। | ||
== संगठन उपयोग में विकास == | == संगठन उपयोग में विकास == | ||
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं: | ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं: | ||
; ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र ( | ; ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (सामान्यतः दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है। | ||
; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है। | ; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है। | ||
; ऑन-समय डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है | ; ऑन-समय डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है | ||
; एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, | ; एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, जिससे उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।<ref>{{cite web |url=http://www.tech-faq.com/data-warehouse.html |title=Data Warehouse |date=6 April 2019 }}</ref> | ||
Line 238: | Line 238: | ||
{{Data warehouse}} | {{Data warehouse}} | ||
{{DEFAULTSORT:Data Warehouse}} | {{DEFAULTSORT:Data Warehouse}} | ||
[[Category:All articles with unsourced statements|Data Warehouse]] | |||
[[Category:Articles with unsourced statements from June 2014|Data Warehouse]] | |||
[[Category: | [[Category:CS1 English-language sources (en)]] | ||
[[Category:Created On 16/02/2023]] | [[Category:Collapse templates|Data Warehouse]] | ||
[[Category:Created On 16/02/2023|Data Warehouse]] | |||
[[Category:Lua-based templates|Data Warehouse]] | |||
[[Category:Machine Translated Page|Data Warehouse]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists|Data Warehouse]] | |||
[[Category:Pages with script errors|Data Warehouse]] | |||
[[Category:Short description with empty Wikidata description|Data Warehouse]] | |||
[[Category:Sidebars with styles needing conversion|Data Warehouse]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready|Data Warehouse]] | |||
[[Category:Templates generating microformats|Data Warehouse]] | |||
[[Category:Templates that add a tracking category|Data Warehouse]] | |||
[[Category:Templates that are not mobile friendly|Data Warehouse]] | |||
[[Category:Templates that generate short descriptions|Data Warehouse]] | |||
[[Category:Templates using TemplateData|Data Warehouse]] | |||
[[Category:Wikipedia articles needing clarification from March 2017|Data Warehouse]] | |||
[[Category:Wikipedia metatemplates|Data Warehouse]] | |||
[[Category:डेटा प्रबंधन|Data Warehouse]] | |||
[[Category:डेटा वेयरहाउसिंग| डेटा वेयरहाउसिंग]] |
Latest revision as of 15:47, 16 March 2023
कम्प्यूटिंग में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे उद्योग डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और डेटा विश्लेषण के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।[1] डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार (संस्करण नियंत्रण) हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं[2] जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।[3] यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।[4]
वेयरहाउस में स्टोर किया गया डेटा संचालन प्रणाली (जैसे विपणन या खरीद) से अपलोड किया जाता है। डेटा परिचालन डेटा स्टोर से निकल सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।[2]
एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य विधियां हैं।
ईटीएल-आधारित डेटा वेयरहाउसिंग
विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस[5] अपने प्रमुख कार्यों को व्यवस्थित करने के लिए अभिनय (डेटा), डेटा एकीकरण और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा समुच्चय को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी स्टार स्कीमा कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।[6]
डेटा का मुख्य स्रोत डेटा खनन, ओएलएपी, बाजार अनुसंधान और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक प्रस्तुतेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।[7] चूँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और डेटा शब्दकोश को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस विस्तृत संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में व्यापार गुप्त उपकरण, डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और मेटा डेटा को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण सम्मिलित हैं।
ईएलटी-आधारित डेटा वेयरहाउसिंग
एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके अतिरिक्त, यह डेटा वेयरहाउस के अंदर ही अभिनय क्षेत्र बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।
लाभ
डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:
- एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
- लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
- डेटा इतिहास बनाए रखें, चाहे स्रोत लेनदेन प्रणालियां न हों।
- कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, किन्तु विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
- लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
- संगठन की जानकारी को लगातार प्रस्तुत करें।
- डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए सामान्य डेटा मॉडल प्रदान करें।
- डेटा को पुनर्गठित करें जिससे यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
- डेटा को पुनर्व्यवस्थित करें जिससे यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
- परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से ग्राहक संबंध प्रबंधन (सीआरएम) प्रणालियों में मूल्य जोड़ें।
- निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
- दोहराए गए डेटा को व्यवस्थित और स्पष्ट करें।
सामान्य
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित सम्मिलित हैं:
- स्रोत प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
- डेटा एकीकरण विधि और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
- किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
- विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
- मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।
ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।[8]
डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत प्रणाली से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।[8]
रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।[8]
मेटाडेटा डेटा के बारे में डेटा है। आईटी कर्मियों को डेटा स्रोतों; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय के बारे में जानकारी चाहिए।[8]
आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।[8] डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।[8]डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे अभिगम किया जा सकता है।
संबंधित प्रणाली (डेटा मार्ट, ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के अन्दर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।[9] इस प्रणाली में डेटा मॉडलिंग विधियों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल उपसमुच्चय को आवरण करते हैं, वे अधिकांश प्रायुक्त करने में आसान और तेज़ होते हैं।
गुण | डेटा वेयरहाउस | डेटा मार्ट |
---|---|---|
डेटा का सीमा | उद्यम-व्यापी | विभाग चौड़ा |
विषय क्षेत्रों की संख्या | एकाधिक | एकल |
बनाना कितना कठिन है | कठिन | सरल |
बनने में कितना समय लगता है | अधिक | कम |
स्मृति की मात्रा | बड़ा | सीमित |
डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट सम्मिलित हैं।[clarification needed]
ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण सम्मिलित होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का विस्तृत रूप से डेटा खनन विधियों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के निकट होने की अपेक्षा होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन मूलभूत संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।
ऑनलाइन लेनदेन प्रसंस्करण (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः तीसरा सामान्य रूप) है।[10] इस प्रणाली में डेटा मॉडलिंग विधियों के लिए सामान्यीकरण आदर्श है।
भविष्य बतानेवाला विश्लेषक जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, चूंकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।
इतिहास
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है[11] जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से निर्णय समर्थन प्रणाली तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। चूंकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, किन्तु उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।
इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का विधि बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के अन्दर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक विधियां से प्रबंधित किया जा सकता है।
डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:
- 1960 - जनरल मिल्स और डार्टमाउथ कॉलेज, संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।[12]
- 1970 - एसीनीलसन और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।[12]
- 1970 - बिल इनमोन ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।[citation needed][13]
- 1975 - स्पेरी यूनिवैक ने मैपर (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) प्रस्तुत की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें संसार की पहली चौथी पीढ़ी की प्रोग्रामिंग भाषा सम्मिलित है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस विधि का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
- 1983 - टेराडाटा ने डीबीसी/1012 डेटाबेस कंप्यूटर प्रस्तुत किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।[14]
- 1984 - डेविड लिडल और डॉन मस्सारो द्वारा स्थापित रूपक कंप्यूटर प्रणालियों, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
- 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।[15]
- 1990 - राल्फ किमबॉल द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस प्रस्तुत किया।
- 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
- 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर प्रस्तुत किया।
- 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।[16]
- 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
- 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।[17]
- 2000 - डैन लिनस्टेड ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई डेटा वॉल्ट मॉडलिंग को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। .
- 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था।
- 2012 - बिल इनमोन सार्वजनिक विधि को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को प्रायुक्त करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त विधि द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।
सूचना भंडारण
तथ्य
तथ्य मूल्य या माप है, जो प्रबंधित इकाई या प्रणाली के बारे में तथ्य का प्रतिनिधित्व करता है।
तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, मोबाइल टेलीफोन प्रणाली में, यदि बीटीएस (बेस ट्रांसीवर स्टेशन) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा:
tch_req_total = 1000
tch_req_success = 820
tch_req_fail = 180
इससे अधिक सेवा या व्यवसाय-प्रासंगिक जानकारी निकालने के लिए कच्चे स्तर पर तथ्यों को विभिन्न आयामों (डेटा वेयरहाउस) में उच्च स्तरों पर एकत्रित किया जाता है। इन्हें समुच्चय या सारांश या एकत्रित तथ्य कहा जाता है।
उदाहरण के लिए, यदि किसी शहर में तीन बीटीएस हैं, तो उपरोक्त तथ्यों को नेटवर्क आयाम में बीटीएस से शहर स्तर तक एकत्र किया जा सकता है। उदाहरण के लिए:
tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3
डेटा भंडारण के लिए आयामी विरुद्ध सामान्यीकृत दृष्टिकोण
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।
आयाम प्रस्ताव राल्फ किमबॉल के प्रस्ताव को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को आयाम मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।[18]
आयामी दृष्टिकोण
एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है।
आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।[17] व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं चूंकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा प्रस्तुत किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस सम्मिलित नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग विधि बहुत उपयोगी है।
तथ्यों और आयामों के मॉडल को डेटा क्यूब के रूप में भी समझा जा सकता है।[19] जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।
आयामी दृष्टिकोण के मुख्य हानि निम्नलिखित हैं:
- तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
- डेटा वेयरहाउस संरचना को संशोधित करना कठिन है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के विधियां को बदल देता है।
सामान्यीकृत दृष्टिकोण
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा सीमा तक, डेटाबेस सामान्यीकरण नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में प्रायुक्त किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस प्रायुक्त किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।
इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ हानि यह हैं कि इसमें सम्मिलित तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में सम्मिलित करना और डेटा के स्रोतों और डेटा संरचना डेटा वेयरहाउस की त्रुटिहीन समझ के बिना जानकारी तक पहुंचना कठिन हो सकता है।
सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ सम्मिलित हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को सीमा तक सामान्य करना सम्मिलित हो सकता है (किमबॉल, राल्फ 2008)।
सूचना-संचालित व्यवसाय में,[20] रॉबर्ट हिलार्ड (लेखक) व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। विधि से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) किन्तु यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह विधि एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।[21]
डिजाइन की विधियां
नीचे से ऊपर डिज़ाइन
नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को विस्तृत डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट विधियों से)।[22]
उपर से नीचे डिज़ाइन
उपर से नीचे दृष्टिकोण सामान्यीकृत उद्योग डेटा मॉडल का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।[23]
हाइब्रिड डिजाइन
डेटा वेयरहाउस (डीडब्लू) अधिकांश हब और प्रवक्ता वास्तुकला के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और उद्यम संसाधन योजना सम्मिलित होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और परिवर्तन लोड निकालें प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत विधियां से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।
डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, चूंकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को मास्टर डेटा प्रबंधन भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।
डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास सम्मिलित हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, किन्तु यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।
डेटा वेयरहाउस विशेषताएँ
मूलभूत विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता सम्मिलित हैं।
विषय-उन्मुख
परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के आस-पास घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तविक में उपयोगी हो सकता है।
आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।
एकीकृत
डेटा वेयरहाउस के अन्दर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि सम्मिलित हैं।
समय-संस्करण
चूंकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)[24]
अहिंसक
डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो) है।[25]
डेटा वेयरहाउस विकल्प
एकत्रीकरण
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, सामान्यतः, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।[24]
वर्चुअलाइजेशन
डेटा वर्चुअलाइजेशन के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ प्रौद्योगिक कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। चूँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से संबन्ध चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।[26]
डेटा वेयरहाउस आर्किटेक्चर
किसी संगठन द्वारा निर्दिष्ट डेटा वेयरहाउस के निर्माण/संगठन के लिए उपयोग की जाने वाली विभिन्न विधियाँ असंख्य हैं। डेटा वेयरहाउस की सही कार्यक्षमता के लिए विशेष रूप से आवश्यक हार्डवेयर, निर्मित सॉफ़्टवेयर और डेटा संसाधन डेटा वेयरहाउस आर्किटेक्चर के मुख्य घटक हैं। सभी डेटा वेयरहाउस में कई चरण होते हैं जिनमें संगठन की आवश्यकताओं को संशोधित और ठीक किया जाता है।[27]
विरुद्ध परिचालन प्रणाली
डेटाबेस सामान्यीकरण और इकाई-संबंध मॉडल के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ प्रविष्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।
डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना सम्मिलित होता है और यदि कभी हो तो संभवतः ही कभी select *
, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं चूंकि विश्लेषण डेटाबेस (शिथिल, ओलाप) स्तंभ-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है।
संगठन उपयोग में विकास
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:
- ऑफ़लाइन परिचालन डेटा वेयरहाउस
- विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (सामान्यतः दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
- ऑफ़लाइन डेटा वेयरहाउस
- इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
- ऑन-समय डेटा वेयरहाउस
- ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
- एकीकृत डेटा वेयरहाउस
- ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, जिससे उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।[28]
यह भी देखें
- व्यापार गुप्त सॉफ्टवेयर
- डेटा मेश, बड़े डेटा के प्रबंधन के लिए डोमेन-उन्मुख डेटा आर्किटेक्चर प्रतिमान
- वर्चुअल डेटाबेस मैनेजर, वर्चुअल डेटा वेयरहाउस में गैर-संबंधपरक डेटा का प्रतिनिधित्व करता है
संदर्भ
- ↑ Dedić, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José (eds.). An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016). Vol. 1. SciTePress. pp. 196–206. doi:10.5220/0005858401960206. ISBN 978-989-758-187-8. Archived (PDF) from the original on 2018-05-22.
- ↑ 2.0 2.1 "9 Reasons Data Warehouse Projects Fail". blog.rjmetrics.com. 4 December 2014. Retrieved 2017-04-30.
- ↑ "Exploring Data Warehouses and Data Quality". spotlessdata.com. Archived from the original on 2018-07-26. Retrieved 2017-04-30.
- ↑ "What is a Data Warehouse? | Key Concepts | Amazon Web Services". Amazon Web Services, Inc. (in English). Retrieved 2023-02-13.
- ↑ "What is Big Data?". spotlessdata.com. Archived from the original on 2017-02-17. Retrieved 2017-04-30.
- ↑ Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). "Optimization of Data Warehousing System: Simplification in Reporting and Analysis". IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET). Foundation of Computer Science. 9 (6): 33–37.
- ↑ Marakas & O'Brien 2009
- ↑ 8.0 8.1 8.2 8.3 8.4 8.5 Rainer, R. Kelly; Cegielski, Casey G. (2012-05-01). Introduction to Information Systems: Enabling and Transforming Business, 4th Edition (Kindle ed.). Wiley. pp. 127, 128, 130, 131, 133. ISBN 978-1118129401.
- ↑ "Data Mart Concepts". Oracle. 2007.
- ↑ "OLTP vs. OLAP". Datawarehouse4u.Info. 2009.
We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.
- ↑ "The Story So Far". 2002-04-15. Archived from the original on 2008-07-08. Retrieved 2008-09-21.
- ↑ 12.0 12.1 Kimball 2013, pg. 15
- ↑ "The audit of the Data Warehouse Framework" (PDF). Archived (PDF) from the original on 2012-05-12.
- ↑ Paul Gillin (February 20, 1984). "Will Teradata revive a market?". Computer World. pp. 43, 48. Retrieved 2017-03-13.
- ↑ Devlin, B. A.; Murphy, P. T. (1988). "An architecture for a business and information system". IBM Systems Journal. 27: 60–80. doi:10.1147/sj.271.0060.
- ↑ Inmon, Bill (1992). Building the Data Warehouse. Wiley. ISBN 0-471-56960-7.
- ↑ 17.0 17.1 Kimball, Ralph (2011). The Data Warehouse Toolkit. Wiley. p. 237. ISBN 978-0-470-14977-5.
- ↑ Golfarelli, Matteo; Maio, Dario; Rizzi, Stefano (1998-06-01). "The dimensional fact model: a conceptual model for data warehouses". International Journal of Cooperative Information Systems. 07 (2n03): 215–247. doi:10.1142/S0218843098000118. ISSN 0218-8430.
- ↑ "Introduction to Data Cubes".
- ↑ Hillard, Robert (2010). Information-Driven Business. Wiley. ISBN 978-0-470-62577-4.
- ↑ "Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development". Mike2.openmethodology.org. Retrieved 2013-06-14.
- ↑ "The Bottom-Up Misnomer - DecisionWorks Consulting". DecisionWorks Consulting (in English). 17 September 2003. Retrieved 2016-03-06.
- ↑ Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005
- ↑ 24.0 24.1 Paulraj., Ponniah (2010). Data warehousing fundamentals for IT professionals. Ponniah, Paulraj. (2nd ed.). Hoboken, N.J.: John Wiley & Sons. ISBN 9780470462072. OCLC 662453070.
- ↑ H., Inmon, William (2005). Building the data warehouse (4th ed.). Indianapolis, IN: Wiley Pub. ISBN 9780764599446. OCLC 61762085.
{{cite book}}
: CS1 maint: multiple names: authors list (link) - ↑ Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Opportunities of collected city data for smart cities". IET Smart Cities. 4 (4): 275–291. doi:10.1049/smc2.12044. S2CID 253467923.
- ↑ Gupta, Satinder Bal; Mittal, Aditya (2009). Introduction to Database Management System. Laxmi Publications. ISBN 9788131807248.
- ↑ "Data Warehouse". 6 April 2019.
अग्रिम पठन
- Davenport, Thomas H. and Harris, Jeanne G. Competing on Analytics: The New Science of Winning (2007) Harvard Business School Press. ISBN 978-1-4221-0332-6
- Ganczarski, Joe. Data Warehouse Implementations: Critical Implementation Factors Study (2009) VDM Verlag ISBN 3-639-18589-7 ISBN 978-3-639-18589-8
- Kimball, Ralph and Ross, Margy. The Data Warehouse Toolkit Third Edition (2013) Wiley, ISBN 978-1-118-53080-1
- Linstedt, Graziano, Hultgren. The Business of Data Vault Modeling Second Edition (2010) Dan linstedt, ISBN 978-1-4357-1914-9
- William Inmon. Building the Data Warehouse (2005) John Wiley and Sons, ISBN 978-81-265-0645-3