डेटा वेयरहाउस: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Centralized storage of knowledge}} alt=|thumb|डेटा वेयरहाउस अवलोकन File...")
 
No edit summary
Line 1: Line 1:
{{Short description|Centralized storage of knowledge}}
{{Short description|Centralized storage of knowledge}}
[[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]]
[[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]]
[[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (DW या DWH), जिसे एंटरप्राइज़ डेटा वेयरहाउस (EDW) के रूप में भी जाना जाता है, एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और [[डेटा विश्लेषण]] के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का एक प्रमुख घटक माना जाता है।<ref>{{cite conference|last1=Dedić|first1=Nedim|last2=Stanier|first2=Clare|year=2016|editor1-last=Hammoudi|editor1-first=Slimane|editor2-last=Maciaszek|editor2-first=Leszek|editor3-last=Missikoff|editor3-first=Michele M. Missikoff|editor4-last=Camp|editor4-first=Olivier|editor5-last=Cordeiro|editor5-first=José|title=An Evaluation of the Challenges of Multilingualism in Data Warehouse Development|url=http://eprints.staffs.ac.uk/2770/|journal=Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016)|publisher=SciTePress|volume=1|pages=196–206|conference=International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy|conference-url=https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-url=https://web.archive.org/web/20180522180940/https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-date=2018-05-22 |url-status=live|doi=10.5220/0005858401960206|isbn=978-989-758-187-8|doi-access=free}}</ref> डीडब्ल्यू एक या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय [[भंडार (संस्करण नियंत्रण)]] हैं। वे वर्तमान और ऐतिहासिक डेटा को एक ही स्थान पर संग्रहीत करते हैं<ref name="rjmetrics">{{cite web|url=https://blog.rjmetrics.com/2014/12/04/10-common-mistakes-when-building-a-data-warehouse/|publisher=blog.rjmetrics.com|title=9 Reasons Data Warehouse Projects Fail|date=4 December 2014|access-date=2017-04-30}}</ref> जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।<ref name="spotlessdata">{{cite web|url=https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|archive-url=https://web.archive.org/web/20180726071809/https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|url-status=dead|archive-date=2018-07-26|publisher=spotlessdata.com|title=Exploring Data Warehouses and Data Quality|access-date=2017-04-30}}</ref> यह कंपनियों के लिए फायदेमंद है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।<ref>{{Cite web |title=What is a Data Warehouse? {{!}} Key Concepts {{!}} Amazon Web Services |url=https://aws.amazon.com/data-warehouse/ |access-date=2023-02-13 |website=Amazon Web Services, Inc. |language=en-US}}</ref>
[[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (DW या DWH), जिसे एंटरप्राइज़ डेटा वेयरहाउस (EDW) के रूप में भी जाना जाता है, ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और [[डेटा विश्लेषण]] के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।<ref>{{cite conference|last1=Dedić|first1=Nedim|last2=Stanier|first2=Clare|year=2016|editor1-last=Hammoudi|editor1-first=Slimane|editor2-last=Maciaszek|editor2-first=Leszek|editor3-last=Missikoff|editor3-first=Michele M. Missikoff|editor4-last=Camp|editor4-first=Olivier|editor5-last=Cordeiro|editor5-first=José|title=An Evaluation of the Challenges of Multilingualism in Data Warehouse Development|url=http://eprints.staffs.ac.uk/2770/|journal=Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016)|publisher=SciTePress|volume=1|pages=196–206|conference=International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy|conference-url=https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-url=https://web.archive.org/web/20180522180940/https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-date=2018-05-22 |url-status=live|doi=10.5220/0005858401960206|isbn=978-989-758-187-8|doi-access=free}}</ref> डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय [[भंडार (संस्करण नियंत्रण)]] हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं<ref name="rjmetrics">{{cite web|url=https://blog.rjmetrics.com/2014/12/04/10-common-mistakes-when-building-a-data-warehouse/|publisher=blog.rjmetrics.com|title=9 Reasons Data Warehouse Projects Fail|date=4 December 2014|access-date=2017-04-30}}</ref> जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।<ref name="spotlessdata">{{cite web|url=https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|archive-url=https://web.archive.org/web/20180726071809/https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|url-status=dead|archive-date=2018-07-26|publisher=spotlessdata.com|title=Exploring Data Warehouses and Data Quality|access-date=2017-04-30}}</ref> यह कंपनियों के लिए फायदेमंद है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।<ref>{{Cite web |title=What is a Data Warehouse? {{!}} Key Concepts {{!}} Amazon Web Services |url=https://aws.amazon.com/data-warehouse/ |access-date=2023-02-13 |website=Amazon Web Services, Inc. |language=en-US}}</ref>
वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे मार्केटिंग या सेल्स) से [[डालना]] किया जाता है। डेटा एक [[परिचालन डेटा स्टोर]] से गुजर सकता है और डेटा क्लींजिंग की आवश्यकता हो सकती है<ref name="rjmetrics"/>रिपोर्टिंग के लिए DW में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए।
वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे मार्केटिंग या सेल्स) से [[डालना]] किया जाता है। डेटा [[परिचालन डेटा स्टोर]] से गुजर सकता है और डेटा क्लींजिंग की आवश्यकता हो सकती है<ref name="rjmetrics"/>रिपोर्टिंग के लिए DW में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए।


एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ETL) और एक्सट्रैक्ट, लोड, ट्रांसफॉर्म (ELT) डेटा वेयरहाउस सिस्टम बनाने के लिए उपयोग किए जाने वाले दो मुख्य तरीके हैं।
एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ETL) और एक्सट्रैक्ट, लोड, ट्रांसफॉर्म (ELT) डेटा वेयरहाउस सिस्टम बनाने के लिए उपयोग किए जाने वाले दो मुख्य तरीके हैं।


== ईटीएल-आधारित डेटा वेयरहाउसिंग ==
== ईटीएल-आधारित डेटा वेयरहाउसिंग ==
ठेठ एक्सट्रैक्ट, ट्रांसफॉर्म, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)]], [[डेटा एकीकरण]] और एक्सेस लेयर्स का उपयोग करता है। स्टेजिंग लेयर या स्टेजिंग डेटाबेस प्रत्येक असमान स्रोत डेटा सिस्टम से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को स्टेजिंग परत से रूपांतरित करके अलग-अलग डेटा सेट को एकीकृत करती है, अक्सर इस रूपांतरित डेटा को एक ऑपरेशनल डेटा स्टोर (ODS) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अक्सर डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिन्हें अक्सर आयाम कहा जाता है, और #तथ्यों और समग्र तथ्यों में। तथ्यों और आयामों के संयोजन को कभी-कभी [[स्टार स्कीमा]] कहा जाता है। एक्सेस परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।<ref name=IJCA96Patil>{{cite journal |url=http://www.ijcaonline.org/proceedings/icwet/number9/2131-db195 |author1=Patil, Preeti S. |author2=Srikantha Rao |author3=Suryakant B. Patil |title=Optimization of Data Warehousing System: Simplification in Reporting and Analysis |journal=IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET) |year=2011 |volume=9 |issue=6 |pages=33–37 |publisher=Foundation of Computer Science}}</ref>
ठेठ एक्सट्रैक्ट, ट्रांसफॉर्म, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)]], [[डेटा एकीकरण]] और एक्सेस लेयर्स का उपयोग करता है। स्टेजिंग लेयर या स्टेजिंग डेटाबेस प्रत्येक असमान स्रोत डेटा सिस्टम से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को स्टेजिंग परत से रूपांतरित करके अलग-अलग डेटा सेट को एकीकृत करती है, अक्सर इस रूपांतरित डेटा को ऑपरेशनल डेटा स्टोर (ODS) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अक्सर डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिन्हें अक्सर आयाम कहा जाता है, और #तथ्यों और समग्र तथ्यों में। तथ्यों और आयामों के संयोजन को कभी-कभी [[स्टार स्कीमा]] कहा जाता है। एक्सेस परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।<ref name=IJCA96Patil>{{cite journal |url=http://www.ijcaonline.org/proceedings/icwet/number9/2131-db195 |author1=Patil, Preeti S. |author2=Srikantha Rao |author3=Suryakant B. Patil |title=Optimization of Data Warehousing System: Simplification in Reporting and Analysis |journal=IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET) |year=2011 |volume=9 |issue=6 |pages=33–37 |publisher=Foundation of Computer Science}}</ref>
डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक पेशेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।<ref>Marakas & O'Brien 2009</ref> हालाँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और [[डेटा शब्दकोश]] को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग सिस्टम के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस व्यापक संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए एक विस्तारित परिभाषा में [[व्यापार खुफिया उपकरण]], डेटा निकालने, बदलने और डेटा को रिपॉजिटरी में लोड करने और [[मेटा डेटा]] को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण शामिल हैं।
डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक पेशेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।<ref>Marakas & O'Brien 2009</ref> हालाँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और [[डेटा शब्दकोश]] को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग सिस्टम के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस व्यापक संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में [[व्यापार खुफिया उपकरण]], डेटा निकालने, बदलने और डेटा को रिपॉजिटरी में लोड करने और [[मेटा डेटा]] को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण शामिल हैं।


== ईएलटी-आधारित डेटा वेयरहाउसिंग ==
== ईएलटी-आधारित डेटा वेयरहाउसिंग ==
[[File:ELT Diagram.png|thumb|244x244px|एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर]]एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा ट्रांसफ़ॉर्मेशन के लिए एक अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके बजाय, यह डेटा वेयरहाउस के अंदर ही एक स्टेजिंग एरिया बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।
[[File:ELT Diagram.png|thumb|244x244px|एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर]]एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा ट्रांसफ़ॉर्मेशन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके बजाय, यह डेटा वेयरहाउस के अंदर ही स्टेजिंग एरिया बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।


== लाभ ==
== लाभ ==
एक डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की एक प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:
डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:
* एकाधिक स्रोतों से डेटा को एक डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए एक ODS में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
* एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ODS में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
* लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
* लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
* उद्गम को बनाए रखें # डेटा उद्गम, भले ही स्रोत लेनदेन प्रणालियां न हों।
* उद्गम को बनाए रखें # डेटा उद्गम, भले ही स्रोत लेनदेन प्रणालियां न हों।
* कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में एक केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, लेकिन विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
* कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, लेकिन विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
* लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
* लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
* संगठन की जानकारी को लगातार प्रस्तुत करें।
* संगठन की जानकारी को लगातार प्रस्तुत करें।
* डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए एक [[सामान्य डेटा मॉडल]] प्रदान करें।
* डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए [[सामान्य डेटा मॉडल]] प्रदान करें।
* डेटा को पुनर्गठित करें ताकि यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
* डेटा को पुनर्गठित करें ताकि यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
* डेटा को पुनर्व्यवस्थित करें ताकि यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
* डेटा को पुनर्व्यवस्थित करें ताकि यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
Line 37: Line 37:
*मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।
*मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।


ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए एक सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।<ref name=rainer2012>{{cite book|last1=Rainer|first1=R. Kelly|first2=Casey G. |last2=Cegielski |title=Introduction to Information Systems: Enabling and Transforming Business, 4th Edition|url=https://archive.org/details/introductiontoin00rain_274|url-access=limited|date=2012-05-01|publisher=Wiley|pages=[https://archive.org/details/introductiontoin00rain_274/page/n138 127], 128, 130, 131, 133 |isbn=978-1118129401|edition=Kindle}}</ref>
ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।<ref name=rainer2012>{{cite book|last1=Rainer|first1=R. Kelly|first2=Casey G. |last2=Cegielski |title=Introduction to Information Systems: Enabling and Transforming Business, 4th Edition|url=https://archive.org/details/introductiontoin00rain_274|url-access=limited|date=2012-05-01|publisher=Wiley|pages=[https://archive.org/details/introductiontoin00rain_274/page/n138 127], 128, 130, 131, 133 |isbn=978-1118129401|edition=Kindle}}</ref>
डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत सिस्टम से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।<ref name=rainer2012/>
डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत सिस्टम से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।<ref name=rainer2012/>


Line 44: Line 44:
मेटाडेटा डेटा के बारे में डेटा है। IT कर्मियों को डेटा स्रोतों के बारे में जानकारी चाहिए; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय।<ref name=rainer2012 />
मेटाडेटा डेटा के बारे में डेटा है। IT कर्मियों को डेटा स्रोतों के बारे में जानकारी चाहिए; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय।<ref name=rainer2012 />


आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।<ref name=rainer2012 />एक डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।<ref name=rainer2012 />डेटा मार्ट या वेयरहाउस में एक बार डेटा स्टोर हो जाने के बाद, इसे एक्सेस किया जा सकता है।
आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।<ref name=rainer2012 />डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।<ref name=rainer2012 />डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे एक्सेस किया जा सकता है।


==संबंधित सिस्टम ([[डेटा मार्ट]], OLAP, OLTP, प्रेडिक्टिव एनालिटिक्स)==
==संबंधित सिस्टम ([[डेटा मार्ट]], OLAP, OLTP, प्रेडिक्टिव एनालिटिक्स)==
डेटा मार्ट डेटा वेयरहाउस का एक सरल रूप है जो एक विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अक्सर एक संगठन के भीतर एक ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, एक केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।<ref>{{cite web |url=http://docs.oracle.com/html/E10312_01/dm_concepts.htm |title=Data Mart Concepts |publisher=Oracle |year=2007}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट आमतौर पर डेटा वेयरहाउस में निहित डेटा के केवल एक सबसेट को कवर करते हैं, वे अक्सर लागू करने में आसान और तेज़ होते हैं।
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अक्सर संगठन के भीतर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।<ref>{{cite web |url=http://docs.oracle.com/html/E10312_01/dm_concepts.htm |title=Data Mart Concepts |publisher=Oracle |year=2007}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट आमतौर पर डेटा वेयरहाउस में निहित डेटा के केवल सबसेट को कवर करते हैं, वे अक्सर लागू करने में आसान और तेज़ होते हैं।


{| class="wikitable"
{| class="wikitable"
Line 77: Line 77:
|}
|}
डेटा मार्ट के प्रकारों में डेटा_मार्ट#निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट शामिल हैं।{{clarify |date=March 2017 |reason= }}
डेटा मार्ट के प्रकारों में डेटा_मार्ट#निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट शामिल हैं।{{clarify |date=March 2017 |reason= }}
ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अक्सर बहुत जटिल होते हैं और एकत्रीकरण शामिल होते हैं। OLAP सिस्टम के लिए, प्रतिक्रिया समय एक प्रभावी उपाय है। OLAP एप्लिकेशन का व्यापक रूप से [[डेटा खनन]] तकनीकों द्वारा उपयोग किया जाता है। OLAP डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (आमतौर पर स्टार स्कीमा) में संग्रहीत करते हैं। OLAP सिस्टम में आमतौर पर डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता एक दिन के करीब होने की उम्मीद होती है। OLAP दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। OLAP में तीन बुनियादी ऑपरेशन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।
ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अक्सर बहुत जटिल होते हैं और एकत्रीकरण शामिल होते हैं। OLAP सिस्टम के लिए, प्रतिक्रिया समय प्रभावी उपाय है। OLAP एप्लिकेशन का व्यापक रूप से [[डेटा खनन]] तकनीकों द्वारा उपयोग किया जाता है। OLAP डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (आमतौर पर स्टार स्कीमा) में संग्रहीत करते हैं। OLAP सिस्टम में आमतौर पर डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के करीब होने की उम्मीद होती है। OLAP दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। OLAP में तीन बुनियादी ऑपरेशन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।


[[ऑनलाइन लेनदेन प्रसंस्करण]] (OLTP) को बड़ी संख्या में छोटे ऑन-लाइन ट्रांजेक्शन (INSERT, UPDATE, DELETE) की विशेषता है। OLTP प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी सिस्टम के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। OLTP डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (आमतौर पर [[तीसरा सामान्य रूप]]) है।<ref>{{cite web |url=http://datawarehouse4u.info/OLTP-vs-OLAP.html |title=OLTP vs. OLAP |year=2009 |website=Datawarehouse4u.Info |quote=We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए सामान्यीकरण आदर्श है।
[[ऑनलाइन लेनदेन प्रसंस्करण]] (OLTP) को बड़ी संख्या में छोटे ऑन-लाइन ट्रांजेक्शन (INSERT, UPDATE, DELETE) की विशेषता है। OLTP प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी सिस्टम के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। OLTP डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (आमतौर पर [[तीसरा सामान्य रूप]]) है।<ref>{{cite web |url=http://datawarehouse4u.info/OLTP-vs-OLAP.html |title=OLTP vs. OLAP |year=2009 |website=Datawarehouse4u.Info |quote=We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए सामान्यीकरण आदर्श है।
Line 84: Line 84:


== इतिहास ==
== इतिहास ==
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए एक वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। हालांकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, लेकिन उन्हें अक्सर समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, आमतौर पर दीर्घकालिक मौजूदा परिचालन प्रणालियों (आमतौर पर विरासत प्रणालियों के रूप में संदर्भित) से, आमतौर पर प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अलावा, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अक्सर नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। हालांकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, लेकिन उन्हें अक्सर समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, आमतौर पर दीर्घकालिक मौजूदा परिचालन प्रणालियों (आमतौर पर विरासत प्रणालियों के रूप में संदर्भित) से, आमतौर पर प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अलावा, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अक्सर नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।


इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, एक संगठन के डेटा संसाधनों पर एक डॉलर का मूल्य रखने और फिर उस मूल्य को एक बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने एक भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित सिस्टम से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का एक तरीका बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के भीतर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक तरीके से प्रबंधित किया जा सकता है।
इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित सिस्टम से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का तरीका बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के भीतर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक तरीके से प्रबंधित किया जा सकता है।


डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:
डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:


* 1960 - [[जनरल मिल्स]] और [[डार्टमाउथ कॉलेज]], एक संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।<ref name="kimball16">Kimball 2013, pg. 15</ref>
* 1960 - [[जनरल मिल्स]] और [[डार्टमाउथ कॉलेज]], संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।<ref name="kimball16">Kimball 2013, pg. 15</ref>
* 1970 - [[ACNielsen]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" />* 1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref>
* 1970 - [[ACNielsen]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" />* 1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref>
* 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER]] (MAintain, Prepare, and Production Executive Reports) पेश की, एक डेटाबेस प्रबंधन और रिपोर्टिंग सिस्टम जिसमें दुनिया की पहली [[चौथी पीढ़ी की प्रोग्रामिंग भाषा]] शामिल है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस तकनीक का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
* 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER]] (MAintain, Prepare, and Production Executive Reports) पेश की, डेटाबेस प्रबंधन और रिपोर्टिंग सिस्टम जिसमें दुनिया की पहली [[चौथी पीढ़ी की प्रोग्रामिंग भाषा]] शामिल है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस तकनीक का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
* 1983 - [[टेराडाटा]] ने डीबीसी 1012|डीबीसी/1012 डेटाबेस कंप्यूटर पेश किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।<ref>{{Cite news |title= Will Teradata revive a market? |author= Paul Gillin |pages= 43, 48 |work= Computer World |date= February 20, 1984 |url= https://books.google.com/books?id=5pw6ePUC8YYC&pg=PA48 |access-date= 2017-03-13 }}</ref>
* 1983 - [[टेराडाटा]] ने डीबीसी 1012|डीबीसी/1012 डेटाबेस कंप्यूटर पेश किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।<ref>{{Cite news |title= Will Teradata revive a market? |author= Paul Gillin |pages= 43, 48 |work= Computer World |date= February 20, 1984 |url= https://books.google.com/books?id=5pw6ePUC8YYC&pg=PA48 |access-date= 2017-03-13 }}</ref>
* 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम]]्स, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए एक हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
* 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम]]्स, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
* 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया एक व्यवसाय और सूचना प्रणाली के लिए एक वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref>
* 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref>
* 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक सिस्टम्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए एक डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस पेश किया।
* 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक सिस्टम्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस पेश किया।
* 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर एक संपत्ति के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
* 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
* 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर पेश किया।
* 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर पेश किया।
* 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref>
* 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref>
* 1995 - डेटा वेयरहाउसिंग संस्थान, एक लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
* 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
* 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।<ref name=":0">{{cite book|title=The Data Warehouse Toolkit|last=Kimball|first=Ralph|publisher=Wiley|year=2011|isbn=978-0-470-14977-5|page=237}}</ref>
* 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।<ref name=":0">{{cite book|title=The Data Warehouse Toolkit|last=Kimball|first=Ralph|publisher=Wiley|year=2011|isbn=978-0-470-14977-5|page=237}}</ref>
* 2000 - [[डैन लिनस्टेड]]्ट ने [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जिसकी कल्पना 1990 में कई परिचालन प्रणालियों से आने वाले डेटा के दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए इनमोन और किमबॉल के विकल्प के रूप में की गई थी, जिसमें ट्रेसिंग, ऑडिटिंग और लचीलेपन पर जोर दिया गया था। स्रोत डेटा मॉडल में परिवर्तन।
* 2000 - [[डैन लिनस्टेड]]्ट ने [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जिसकी कल्पना 1990 में कई परिचालन प्रणालियों से आने वाले डेटा के दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए इनमोन और किमबॉल के विकल्प के रूप में की गई थी, जिसमें ट्रेसिंग, ऑडिटिंग और लचीलेपन पर जोर दिया गया था। स्रोत डेटा मॉडल में परिवर्तन।
* 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने टॉप-डाउन दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को गढ़ा।
* 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने टॉप-डाउन दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को गढ़ा।
* 2012 - बिल इनमोन सार्वजनिक तकनीक को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को लागू करती है और कच्चे पाठ और संदर्भ को एक मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। एक बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार खुफिया तकनीक द्वारा आसानी से और कुशलता से एक्सेस और विश्लेषण किया जा सकता है। टेक्स्टुअल ईटीएल के निष्पादन के माध्यम से टेक्स्टुअल डिसएम्बिगेशन पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।
* 2012 - बिल इनमोन सार्वजनिक तकनीक को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को लागू करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार खुफिया तकनीक द्वारा आसानी से और कुशलता से एक्सेस और विश्लेषण किया जा सकता है। टेक्स्टुअल ईटीएल के निष्पादन के माध्यम से टेक्स्टुअल डिसएम्बिगेशन पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।


== सूचना भंडारण ==
== सूचना भंडारण ==


=== तथ्य ===
=== तथ्य ===
एक तथ्य एक मूल्य या माप है, जो प्रबंधित इकाई या सिस्टम के बारे में एक तथ्य का प्रतिनिधित्व करता है।
तथ्य मूल्य या माप है, जो प्रबंधित इकाई या सिस्टम के बारे में तथ्य का प्रतिनिधित्व करता है।


तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, एक मोबाइल टेलीफोन प्रणाली में, यदि एक बीटीएस ([[बेस ट्रांसीवर स्टेशन]]) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा:
तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, मोबाइल टेलीफोन प्रणाली में, यदि बीटीएस ([[बेस ट्रांसीवर स्टेशन]]) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा:
* {{code|tch_req_total {{=}} 1000}}
* {{code|tch_req_total {{=}} 1000}}
* {{code|tch_req_success {{=}} 820}}
* {{code|tch_req_success {{=}} 820}}
Line 130: Line 130:


==== आयामी दृष्टिकोण ====
==== आयामी दृष्टिकोण ====
एक स्टार स्कीमा में, लेन-देन डेटा को तथ्यों में विभाजित किया जाता है, जो आम तौर पर संख्यात्मक लेनदेन डेटा और आयाम (डेटा वेयरहाउस) होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए, एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे कि ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल कीमत, और ऑर्डर की तारीख, ग्राहक का नाम, उत्पाद संख्या, ऑर्डर शिप-टू और बिल-टू जैसे आयामों में। आदेश प्राप्त करने के लिए जिम्मेदार स्थान, और विक्रेता।
स्टार स्कीमा में, लेन-देन डेटा को तथ्यों में विभाजित किया जाता है, जो आम तौर पर संख्यात्मक लेनदेन डेटा और आयाम (डेटा वेयरहाउस) होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए, बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे कि ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल कीमत, और ऑर्डर की तारीख, ग्राहक का नाम, उत्पाद संख्या, ऑर्डर शिप-टू और बिल-टू जैसे आयामों में। आदेश प्राप्त करने के लिए जिम्मेदार स्थान, और विक्रेता।


आयामी दृष्टिकोण का एक प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" />व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं जबकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। डायमेंशनल मॉडल द्वारा पेश किया गया एक और फायदा यह है कि इसमें हर बार एक रिलेशनल डेटाबेस शामिल नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग तकनीक बहुत उपयोगी है।
आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" />व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं जबकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। डायमेंशनल मॉडल द्वारा पेश किया गया और फायदा यह है कि इसमें हर बार रिलेशनल डेटाबेस शामिल नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग तकनीक बहुत उपयोगी है।


तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।
तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।
Line 141: Line 141:


==== सामान्यीकृत दृष्टिकोण ====
==== सामान्यीकृत दृष्टिकोण ====
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा एक हद तक, [[डेटाबेस सामान्यीकरण]] नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा एक साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो एक रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में लागू किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो एक साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अलावा, जब डेटाबेस लागू किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा हद तक, [[डेटाबेस सामान्यीकरण]] नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में लागू किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अलावा, जब डेटाबेस लागू किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।
इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ नुकसान यह हैं कि इसमें शामिल तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में शामिल करना और डेटा के स्रोतों और [[डेटा संरचना]] की सटीक समझ के बिना जानकारी तक पहुंचना मुश्किल हो सकता है। डेटा वेयरहाउस की।
इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ नुकसान यह हैं कि इसमें शामिल तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में शामिल करना और डेटा के स्रोतों और [[डेटा संरचना]] की सटीक समझ के बिना जानकारी तक पहुंचना मुश्किल हो सकता है। डेटा वेयरहाउस की।


सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ शामिल हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण # सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को एक हद तक सामान्य करना शामिल हो सकता है (किमबॉल, राल्फ 2008)।
सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ शामिल हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण # सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को हद तक सामान्य करना शामिल हो सकता है (किमबॉल, राल्फ 2008)।


सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए एक दृष्टिकोण का प्रस्ताव करते हैं। तकनीक से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) लेकिन यह अतिरिक्त जानकारी उपयोगिता की कीमत पर आती है। यह तकनीक एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Small_Worlds_Data_Transformation_Measure |title=Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development |publisher=Mike2.openmethodology.org |access-date=2013-06-14}}</ref>
सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। तकनीक से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) लेकिन यह अतिरिक्त जानकारी उपयोगिता की कीमत पर आती है। यह तकनीक एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Small_Worlds_Data_Transformation_Measure |title=Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development |publisher=Mike2.openmethodology.org |access-date=2013-06-14}}</ref>




== डिजाइन के तरीके ==
== डिजाइन के तरीके ==
{{refimprove section|date=July 2015}}
=== बॉटम-अप डिज़ाइन ===
=== बॉटम-अप डिज़ाइन ===
बॉटम-अप एप्रोच में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को एक व्यापक डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का एक संग्रह # प्रकार और तथ्य (डेटा वेयरहाउस) # टाइप, जो आयाम हैं जो दो या दो से अधिक तथ्यों के बीच साझा किए जाते हैं (एक विशिष्ट तरीके से) डेटा मार्ट्स।<ref>{{Cite web|url=http://decisionworks.com/2003/09/the-bottom-up-misnomer/|title=The Bottom-Up Misnomer - DecisionWorks Consulting|website=DecisionWorks Consulting|date=17 September 2003|language=en-US|access-date=2016-03-06}}</ref>
बॉटम-अप एप्रोच में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को व्यापक डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह # प्रकार और तथ्य (डेटा वेयरहाउस) # टाइप, जो आयाम हैं जो दो या दो से अधिक तथ्यों के बीच साझा किए जाते हैं (विशिष्ट तरीके से) डेटा मार्ट्स।<ref>{{Cite web|url=http://decisionworks.com/2003/09/the-bottom-up-misnomer/|title=The Bottom-Up Misnomer - DecisionWorks Consulting|website=DecisionWorks Consulting|date=17 September 2003|language=en-US|access-date=2016-03-06}}</ref>




Line 162: Line 159:


=== हाइब्रिड डिजाइन ===
=== हाइब्रिड डिजाइन ===
डेटा वेयरहाउस (DW) अक्सर [[हब और प्रवक्ता वास्तुकला]] के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अक्सर ग्राहक संबंध प्रबंधन और [[उद्यम संसाधन योजना]] शामिल होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और [[ट्रांसफॉर्म लोड निकालें]] प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अक्सर एक ऑपरेशनल डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविक DW में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अक्सर डेटा को सामान्यीकृत तरीके से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।
डेटा वेयरहाउस (DW) अक्सर [[हब और प्रवक्ता वास्तुकला]] के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अक्सर ग्राहक संबंध प्रबंधन और [[उद्यम संसाधन योजना]] शामिल होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और [[ट्रांसफॉर्म लोड निकालें]] प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अक्सर ऑपरेशनल डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविक DW में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अक्सर डेटा को सामान्यीकृत तरीके से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।


डेटा अतिरेक को समाप्त करने के लिए एक हाइब्रिड DW डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। एक सामान्य संबंधपरक डेटाबेस, हालांकि, व्यावसायिक खुफिया रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का एक ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की एक विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर एक DW को एक [[मास्टर डेटा प्रबंधन]] रिपॉजिटरी से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।
डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड DW डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, हालांकि, व्यावसायिक खुफिया रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर DW को [[मास्टर डेटा प्रबंधन]] रिपॉजिटरी से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।


डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली एक हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास शामिल हैं। डेटा वॉल्ट मॉडल एक सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, लेकिन यह एक टॉप-डाउन आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र एक्सेस करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।
डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास शामिल हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, लेकिन यह टॉप-डाउन आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र एक्सेस करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।


== डेटा वेयरहाउस विशेषताएँ ==
== डेटा वेयरहाउस विशेषताएँ ==
Line 179: Line 176:


=== समय-संस्करण ===
=== समय-संस्करण ===
जबकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा एक लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)<ref name=":1">{{Cite book|title=Data warehousing fundamentals for IT professionals|last=Paulraj.|first=Ponniah|date=2010|publisher=John Wiley & Sons|others=Ponniah, Paulraj.|isbn=9780470462072|edition= 2nd |location=Hoboken, N.J.|oclc=662453070}}</ref>
जबकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)<ref name=":1">{{Cite book|title=Data warehousing fundamentals for IT professionals|last=Paulraj.|first=Ponniah|date=2010|publisher=John Wiley & Sons|others=Ponniah, Paulraj.|isbn=9780470462072|edition= 2nd |location=Hoboken, N.J.|oclc=662453070}}</ref>




Line 189: Line 186:


=== एकत्रीकरण ===
=== एकत्रीकरण ===
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे एक निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, आमतौर पर, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।<ref name=":1" />
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, आमतौर पर, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।<ref name=":1" />




=== वर्चुअलाइजेशन ===
=== वर्चुअलाइजेशन ===
[[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए रीयल-टाइम एक्सेस स्थापित किया जाता है। यह कुछ तकनीकी कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना। इसके अलावा, व्यक्तिगत जानकारी वाले एक नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। हालाँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से कनेक्शन चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से एक है।<ref name="Paiho">{{cite journal | url=https://doi.org/10.1049/smc2.12044 | doi=10.1049/smc2.12044 | title=Opportunities of collected city data for smart cities | year=2022 | last1=Paiho | first1=Satu | last2=Tuominen | first2=Pekka | last3=Rökman | first3=Jyri | last4=Ylikerälä | first4=Markus | last5=Pajula | first5=Juha | last6=Siikavirta | first6=Hanne | journal=IET Smart Cities | volume=4 | issue=4 | pages=275–291 | s2cid=253467923 }}</ref>
[[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए रीयल-टाइम एक्सेस स्थापित किया जाता है। यह कुछ तकनीकी कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना। इसके अलावा, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। हालाँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से कनेक्शन चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।<ref name="Paiho">{{cite journal | url=https://doi.org/10.1049/smc2.12044 | doi=10.1049/smc2.12044 | title=Opportunities of collected city data for smart cities | year=2022 | last1=Paiho | first1=Satu | last2=Tuominen | first2=Pekka | last3=Rökman | first3=Jyri | last4=Ylikerälä | first4=Markus | last5=Pajula | first5=Juha | last6=Siikavirta | first6=Hanne | journal=IET Smart Cities | volume=4 | issue=4 | pages=275–291 | s2cid=253467923 }}</ref>




Line 201: Line 198:


== बनाम परिचालन प्रणाली ==
== बनाम परिचालन प्रणाली ==
डेटाबेस सामान्यीकरण और एक [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। ऑपरेशनल सिस्टम डिज़ाइनर आमतौर पर डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अक्सर एक व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ इन्सर्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को आमतौर पर परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।
डेटाबेस सामान्यीकरण और [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। ऑपरेशनल सिस्टम डिज़ाइनर आमतौर पर डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अक्सर व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ इन्सर्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को आमतौर पर परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।


डेटा वेयरहाउस को विश्लेषणात्मक एक्सेस पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में आम तौर पर विशिष्ट क्षेत्रों का चयन करना शामिल होता है और यदि कभी हो तो शायद ही कभी {{code|select *}}, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। एक्सेस पैटर्न में इन अंतरों के कारण, ऑपरेशनल डेटाबेस (शिथिल, OLTP) पंक्ति-उन्मुख DBMS के उपयोग से लाभान्वित होते हैं जबकि एनालिटिक्स डेटाबेस (शिथिल, OLAP) [[स्तंभ-उन्मुख DBMS]] के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का एक स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस आम तौर पर एक अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा माइग्रेट करता है।
डेटा वेयरहाउस को विश्लेषणात्मक एक्सेस पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में आम तौर पर विशिष्ट क्षेत्रों का चयन करना शामिल होता है और यदि कभी हो तो शायद ही कभी {{code|select *}}, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। एक्सेस पैटर्न में इन अंतरों के कारण, ऑपरेशनल डेटाबेस (शिथिल, OLTP) पंक्ति-उन्मुख DBMS के उपयोग से लाभान्वित होते हैं जबकि एनालिटिक्स डेटाबेस (शिथिल, OLAP) [[स्तंभ-उन्मुख DBMS]] के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस आम तौर पर अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा माइग्रेट करता है।


== संगठन उपयोग में विकास ==
== संगठन उपयोग में विकास ==
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:


; ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से एक नियमित समय चक्र (आमतौर पर दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एक एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
; ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (आमतौर पर दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
; ऑन-टाइम डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग रीयल-टाइम डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
; ऑन-टाइम डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग रीयल-टाइम डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
Line 217: Line 214:
  {{Wikitionary|data warehouse}}
  {{Wikitionary|data warehouse}}
* [[व्यापार खुफिया सॉफ्टवेयर]]
* [[व्यापार खुफिया सॉफ्टवेयर]]
* डेटा मेश, बड़े डेटा के प्रबंधन के लिए एक डोमेन-उन्मुख डेटा आर्किटेक्चर प्रतिमान
* डेटा मेश, बड़े डेटा के प्रबंधन के लिए डोमेन-उन्मुख डेटा आर्किटेक्चर प्रतिमान
* [[वर्चुअल डेटाबेस मैनेजर]], वर्चुअल डेटा वेयरहाउस में गैर-संबंधपरक डेटा का प्रतिनिधित्व करता है
* [[वर्चुअल डेटाबेस मैनेजर]], वर्चुअल डेटा वेयरहाउस में गैर-संबंधपरक डेटा का प्रतिनिधित्व करता है


Line 233: Line 230:
{{data}}
{{data}}
{{Data warehouse}}
{{Data warehouse}}
{{Authority control}}


{{DEFAULTSORT:Data Warehouse}}[[Category: डेटा प्रबंधन]] [[Category: डेटा वेयरहाउसिंग| डेटा वेयरहाउसिंग]]  
{{DEFAULTSORT:Data Warehouse}}[[Category: डेटा प्रबंधन]] [[Category: डेटा वेयरहाउसिंग| डेटा वेयरहाउसिंग]]  

Revision as of 05:46, 22 February 2023

डेटा वेयरहाउस अवलोकन
डेटा वेयरहाउस का मूल आर्किटेक्चर

कम्प्यूटिंग में, डेटा वेयरहाउस (DW या DWH), जिसे एंटरप्राइज़ डेटा वेयरहाउस (EDW) के रूप में भी जाना जाता है, ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और डेटा विश्लेषण के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।[1] डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार (संस्करण नियंत्रण) हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं[2] जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।[3] यह कंपनियों के लिए फायदेमंद है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।[4]

वेयरहाउस में स्टोर किया गया डेटा संचालन प्रणाली (जैसे मार्केटिंग या सेल्स) से डालना किया जाता है। डेटा परिचालन डेटा स्टोर से गुजर सकता है और डेटा क्लींजिंग की आवश्यकता हो सकती है[2]रिपोर्टिंग के लिए DW में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए।

एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ETL) और एक्सट्रैक्ट, लोड, ट्रांसफॉर्म (ELT) डेटा वेयरहाउस सिस्टम बनाने के लिए उपयोग किए जाने वाले दो मुख्य तरीके हैं।

ईटीएल-आधारित डेटा वेयरहाउसिंग

ठेठ एक्सट्रैक्ट, ट्रांसफॉर्म, लोड (ईटीएल) आधारित डेटा वेयरहाउस[5] अपने प्रमुख कार्यों को व्यवस्थित करने के लिए स्टेजिंग (डेटा), डेटा एकीकरण और एक्सेस लेयर्स का उपयोग करता है। स्टेजिंग लेयर या स्टेजिंग डेटाबेस प्रत्येक असमान स्रोत डेटा सिस्टम से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को स्टेजिंग परत से रूपांतरित करके अलग-अलग डेटा सेट को एकीकृत करती है, अक्सर इस रूपांतरित डेटा को ऑपरेशनल डेटा स्टोर (ODS) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अक्सर डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिन्हें अक्सर आयाम कहा जाता है, और #तथ्यों और समग्र तथ्यों में। तथ्यों और आयामों के संयोजन को कभी-कभी स्टार स्कीमा कहा जाता है। एक्सेस परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।[6] डेटा का मुख्य स्रोत डेटा खनन, ओएलएपी, बाजार अनुसंधान और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक पेशेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।[7] हालाँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और डेटा शब्दकोश को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग सिस्टम के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस व्यापक संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में व्यापार खुफिया उपकरण, डेटा निकालने, बदलने और डेटा को रिपॉजिटरी में लोड करने और मेटा डेटा को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण शामिल हैं।

ईएलटी-आधारित डेटा वेयरहाउसिंग

एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर

एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा ट्रांसफ़ॉर्मेशन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके बजाय, यह डेटा वेयरहाउस के अंदर ही स्टेजिंग एरिया बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।

लाभ

डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:

  • एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ODS में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
  • लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
  • उद्गम को बनाए रखें # डेटा उद्गम, भले ही स्रोत लेनदेन प्रणालियां न हों।
  • कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, लेकिन विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
  • लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
  • संगठन की जानकारी को लगातार प्रस्तुत करें।
  • डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए सामान्य डेटा मॉडल प्रदान करें।
  • डेटा को पुनर्गठित करें ताकि यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
  • डेटा को पुनर्व्यवस्थित करें ताकि यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
  • परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से ग्राहक संबंध प्रबंधन (सीआरएम) प्रणालियों में मूल्य जोड़ें।
  • निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
  • दोहराए गए डेटा को व्यवस्थित और स्पष्ट करें।

सामान्य

डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित शामिल हैं:

  • सोर्स सिस्टम जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
  • डेटा एकीकरण तकनीक और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
  • किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
  • विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
  • मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।

ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।[8] डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत सिस्टम से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।[8]

रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।[8]

मेटाडेटा डेटा के बारे में डेटा है। IT कर्मियों को डेटा स्रोतों के बारे में जानकारी चाहिए; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय।[8]

आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।[8]डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।[8]डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे एक्सेस किया जा सकता है।

संबंधित सिस्टम (डेटा मार्ट, OLAP, OLTP, प्रेडिक्टिव एनालिटिक्स)

डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अक्सर संगठन के भीतर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।[9] इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट आमतौर पर डेटा वेयरहाउस में निहित डेटा के केवल सबसेट को कवर करते हैं, वे अक्सर लागू करने में आसान और तेज़ होते हैं।

Difference between data warehouse and data mart
Attribute Data warehouse Data mart
Scope of the data enterprise-wide department-wide
Number of subject areas multiple single
How difficult to build difficult easy
How much time takes to build more less
Amount of memory larger limited

डेटा मार्ट के प्रकारों में डेटा_मार्ट#निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट शामिल हैं।[clarification needed] ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अक्सर बहुत जटिल होते हैं और एकत्रीकरण शामिल होते हैं। OLAP सिस्टम के लिए, प्रतिक्रिया समय प्रभावी उपाय है। OLAP एप्लिकेशन का व्यापक रूप से डेटा खनन तकनीकों द्वारा उपयोग किया जाता है। OLAP डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (आमतौर पर स्टार स्कीमा) में संग्रहीत करते हैं। OLAP सिस्टम में आमतौर पर डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के करीब होने की उम्मीद होती है। OLAP दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। OLAP में तीन बुनियादी ऑपरेशन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।

ऑनलाइन लेनदेन प्रसंस्करण (OLTP) को बड़ी संख्या में छोटे ऑन-लाइन ट्रांजेक्शन (INSERT, UPDATE, DELETE) की विशेषता है। OLTP प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी सिस्टम के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। OLTP डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (आमतौर पर तीसरा सामान्य रूप) है।[10] इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए सामान्यीकरण आदर्श है।

भविष्य बतानेवाला विश्लेषक जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण OLAP से अलग है जिसमें OLAP ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, जबकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।

इतिहास

डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है[11] जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से निर्णय समर्थन प्रणाली तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। हालांकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, लेकिन उन्हें अक्सर समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, आमतौर पर दीर्घकालिक मौजूदा परिचालन प्रणालियों (आमतौर पर विरासत प्रणालियों के रूप में संदर्भित) से, आमतौर पर प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अलावा, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अक्सर नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।

इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित सिस्टम से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का तरीका बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के भीतर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक तरीके से प्रबंधित किया जा सकता है।

डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:

  • 1960 - जनरल मिल्स और डार्टमाउथ कॉलेज, संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।[12]
  • 1970 - ACNielsen और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।[12]* 1970 - बिल इनमोन ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।[citation needed][13]
  • 1975 - स्पेरी यूनिवैक ने MAPPER (MAintain, Prepare, and Production Executive Reports) पेश की, डेटाबेस प्रबंधन और रिपोर्टिंग सिस्टम जिसमें दुनिया की पहली चौथी पीढ़ी की प्रोग्रामिंग भाषा शामिल है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस तकनीक का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
  • 1983 - टेराडाटा ने डीबीसी 1012|डीबीसी/1012 डेटाबेस कंप्यूटर पेश किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।[14]
  • 1984 - डेविड लिडल और डॉन मस्सारो द्वारा स्थापित रूपक कंप्यूटर सिस्टम्स, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
  • 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।[15]
  • 1990 - राल्फ किमबॉल द्वारा स्थापित रेड ब्रिक सिस्टम्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस पेश किया।
  • 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
  • 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर पेश किया।
  • 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।[16]
  • 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
  • 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।[17]
  • 2000 - डैन लिनस्टेड्ट ने डेटा वॉल्ट मॉडलिंग को सार्वजनिक डोमेन में जारी किया, जिसकी कल्पना 1990 में कई परिचालन प्रणालियों से आने वाले डेटा के दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए इनमोन और किमबॉल के विकल्प के रूप में की गई थी, जिसमें ट्रेसिंग, ऑडिटिंग और लचीलेपन पर जोर दिया गया था। स्रोत डेटा मॉडल में परिवर्तन।
  • 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने टॉप-डाउन दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को गढ़ा।
  • 2012 - बिल इनमोन सार्वजनिक तकनीक को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को लागू करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार खुफिया तकनीक द्वारा आसानी से और कुशलता से एक्सेस और विश्लेषण किया जा सकता है। टेक्स्टुअल ईटीएल के निष्पादन के माध्यम से टेक्स्टुअल डिसएम्बिगेशन पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।

सूचना भंडारण

तथ्य

तथ्य मूल्य या माप है, जो प्रबंधित इकाई या सिस्टम के बारे में तथ्य का प्रतिनिधित्व करता है।

तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, मोबाइल टेलीफोन प्रणाली में, यदि बीटीएस (बेस ट्रांसीवर स्टेशन) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा:

  • tch_req_total = 1000
  • tch_req_success = 820
  • tch_req_fail = 180

इससे अधिक सेवा या व्यवसाय-प्रासंगिक जानकारी निकालने के लिए कच्चे स्तर पर तथ्यों को विभिन्न आयामों (डेटा वेयरहाउस) में उच्च स्तरों पर एकत्रित किया जाता है। इन्हें समुच्चय या सारांश या एकत्रित तथ्य कहा जाता है।

उदाहरण के लिए, यदि किसी शहर में तीन बीटीएस हैं, तो उपरोक्त तथ्यों को नेटवर्क आयाम में बीटीएस से शहर स्तर तक एकत्र किया जा सकता है। उदाहरण के लिए:

  • tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
  • avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3


डेटा भंडारण के लिए आयामी बनाम सामान्यीकृत दृष्टिकोण

डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।

डायमेंशनल एप्रोच राल्फ किमबॉल के एप्रोच को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को डायमेंशनल मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।[18]


आयामी दृष्टिकोण

स्टार स्कीमा में, लेन-देन डेटा को तथ्यों में विभाजित किया जाता है, जो आम तौर पर संख्यात्मक लेनदेन डेटा और आयाम (डेटा वेयरहाउस) होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए, बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे कि ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल कीमत, और ऑर्डर की तारीख, ग्राहक का नाम, उत्पाद संख्या, ऑर्डर शिप-टू और बिल-टू जैसे आयामों में। आदेश प्राप्त करने के लिए जिम्मेदार स्थान, और विक्रेता।

आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।[17]व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं जबकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। डायमेंशनल मॉडल द्वारा पेश किया गया और फायदा यह है कि इसमें हर बार रिलेशनल डेटाबेस शामिल नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग तकनीक बहुत उपयोगी है।

तथ्यों और आयामों के मॉडल को डेटा क्यूब के रूप में भी समझा जा सकता है।[19] जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।

आयामी दृष्टिकोण के मुख्य नुकसान निम्नलिखित हैं:

  1. तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
  2. डेटा वेयरहाउस संरचना को संशोधित करना मुश्किल है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के तरीके को बदल देता है।

सामान्यीकृत दृष्टिकोण

सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा हद तक, डेटाबेस सामान्यीकरण नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में लागू किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अलावा, जब डेटाबेस लागू किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)। इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ नुकसान यह हैं कि इसमें शामिल तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में शामिल करना और डेटा के स्रोतों और डेटा संरचना की सटीक समझ के बिना जानकारी तक पहुंचना मुश्किल हो सकता है। डेटा वेयरहाउस की।

सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ शामिल हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण # सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को हद तक सामान्य करना शामिल हो सकता है (किमबॉल, राल्फ 2008)।

सूचना-संचालित व्यवसाय में,[20] रॉबर्ट हिलार्ड (लेखक) व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। तकनीक से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) लेकिन यह अतिरिक्त जानकारी उपयोगिता की कीमत पर आती है। यह तकनीक एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।[21]


डिजाइन के तरीके

बॉटम-अप डिज़ाइन

बॉटम-अप एप्रोच में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को व्यापक डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह # प्रकार और तथ्य (डेटा वेयरहाउस) # टाइप, जो आयाम हैं जो दो या दो से अधिक तथ्यों के बीच साझा किए जाते हैं (विशिष्ट तरीके से) डेटा मार्ट्स।[22]


टॉप-डाउन डिज़ाइन

टॉप-डाउन दृष्टिकोण सामान्यीकृत एंटरप्राइज़ डेटा मॉडल का उपयोग करके डिज़ाइन किया गया है। डेटा तत्व | परमाणु डेटा, यानी, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले डायमेंशनल डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।[23]


हाइब्रिड डिजाइन

डेटा वेयरहाउस (DW) अक्सर हब और प्रवक्ता वास्तुकला के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अक्सर ग्राहक संबंध प्रबंधन और उद्यम संसाधन योजना शामिल होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और ट्रांसफॉर्म लोड निकालें प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अक्सर ऑपरेशनल डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविक DW में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अक्सर डेटा को सामान्यीकृत तरीके से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।

डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड DW डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, हालांकि, व्यावसायिक खुफिया रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर DW को मास्टर डेटा प्रबंधन रिपॉजिटरी से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।

डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास शामिल हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, लेकिन यह टॉप-डाउन आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र एक्सेस करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।

डेटा वेयरहाउस विशेषताएँ

बुनियादी विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा ग्रैन्युलैरिटी शामिल हैं।

विषय-उन्मुख

परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के इर्द-गिर्द घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तव में उपयोगी हो सकता है। आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।

एकीकृत

डेटा वेयरहाउस के भीतर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि शामिल हैं।

समय-संस्करण

जबकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)[24]


अहिंसक

डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो)।[25]


डेटा वेयरहाउस विकल्प

एकत्रीकरण

डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, आमतौर पर, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।[24]


वर्चुअलाइजेशन

डेटा वर्चुअलाइजेशन के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए रीयल-टाइम एक्सेस स्थापित किया जाता है। यह कुछ तकनीकी कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना। इसके अलावा, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। हालाँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से कनेक्शन चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।[26]


डेटा वेयरहाउस आर्किटेक्चर

किसी संगठन द्वारा निर्दिष्ट डेटा वेयरहाउस के निर्माण/संगठन के लिए उपयोग की जाने वाली विभिन्न विधियाँ असंख्य हैं। डेटा वेयरहाउस की सही कार्यक्षमता के लिए विशेष रूप से आवश्यक हार्डवेयर, निर्मित सॉफ़्टवेयर और डेटा संसाधन डेटा वेयरहाउस आर्किटेक्चर के मुख्य घटक हैं। सभी डेटा वेयरहाउस में कई चरण होते हैं जिनमें संगठन की आवश्यकताओं को संशोधित और ठीक किया जाता है।[27]


बनाम परिचालन प्रणाली

डेटाबेस सामान्यीकरण और इकाई-संबंध मॉडल के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। ऑपरेशनल सिस्टम डिज़ाइनर आमतौर पर डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अक्सर व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ इन्सर्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को आमतौर पर परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।

डेटा वेयरहाउस को विश्लेषणात्मक एक्सेस पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में आम तौर पर विशिष्ट क्षेत्रों का चयन करना शामिल होता है और यदि कभी हो तो शायद ही कभी select *, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। एक्सेस पैटर्न में इन अंतरों के कारण, ऑपरेशनल डेटाबेस (शिथिल, OLTP) पंक्ति-उन्मुख DBMS के उपयोग से लाभान्वित होते हैं जबकि एनालिटिक्स डेटाबेस (शिथिल, OLAP) स्तंभ-उन्मुख DBMS के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस आम तौर पर अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा माइग्रेट करता है।

संगठन उपयोग में विकास

ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:

ऑफ़लाइन परिचालन डेटा वेयरहाउस
विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (आमतौर पर दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
ऑफ़लाइन डेटा वेयरहाउस
इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
ऑन-टाइम डेटा वेयरहाउस
ऑनलाइन एकीकृत डेटा वेयरहाउसिंग रीयल-टाइम डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
एकीकृत डेटा वेयरहाउस
ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, ताकि उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।[28]


यह भी देखें

संदर्भ

  1. Dedić, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José (eds.). An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016). Vol. 1. SciTePress. pp. 196–206. doi:10.5220/0005858401960206. ISBN 978-989-758-187-8. Archived (PDF) from the original on 2018-05-22.
  2. 2.0 2.1 "9 Reasons Data Warehouse Projects Fail". blog.rjmetrics.com. 4 December 2014. Retrieved 2017-04-30.
  3. "Exploring Data Warehouses and Data Quality". spotlessdata.com. Archived from the original on 2018-07-26. Retrieved 2017-04-30.
  4. "What is a Data Warehouse? | Key Concepts | Amazon Web Services". Amazon Web Services, Inc. (in English). Retrieved 2023-02-13.
  5. "What is Big Data?". spotlessdata.com. Archived from the original on 2017-02-17. Retrieved 2017-04-30.
  6. Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). "Optimization of Data Warehousing System: Simplification in Reporting and Analysis". IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET). Foundation of Computer Science. 9 (6): 33–37.
  7. Marakas & O'Brien 2009
  8. 8.0 8.1 8.2 8.3 8.4 8.5 Rainer, R. Kelly; Cegielski, Casey G. (2012-05-01). Introduction to Information Systems: Enabling and Transforming Business, 4th Edition (Kindle ed.). Wiley. pp. 127, 128, 130, 131, 133. ISBN 978-1118129401.
  9. "Data Mart Concepts". Oracle. 2007.
  10. "OLTP vs. OLAP". Datawarehouse4u.Info. 2009. We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.
  11. "The Story So Far". 2002-04-15. Archived from the original on 2008-07-08. Retrieved 2008-09-21.
  12. 12.0 12.1 Kimball 2013, pg. 15
  13. "The audit of the Data Warehouse Framework" (PDF). Archived (PDF) from the original on 2012-05-12.
  14. Paul Gillin (February 20, 1984). "Will Teradata revive a market?". Computer World. pp. 43, 48. Retrieved 2017-03-13.
  15. Devlin, B. A.; Murphy, P. T. (1988). "An architecture for a business and information system". IBM Systems Journal. 27: 60–80. doi:10.1147/sj.271.0060.
  16. Inmon, Bill (1992). Building the Data Warehouse. Wiley. ISBN 0-471-56960-7.
  17. 17.0 17.1 Kimball, Ralph (2011). The Data Warehouse Toolkit. Wiley. p. 237. ISBN 978-0-470-14977-5.
  18. Golfarelli, Matteo; Maio, Dario; Rizzi, Stefano (1998-06-01). "The dimensional fact model: a conceptual model for data warehouses". International Journal of Cooperative Information Systems. 07 (2n03): 215–247. doi:10.1142/S0218843098000118. ISSN 0218-8430.
  19. "Introduction to Data Cubes".
  20. Hillard, Robert (2010). Information-Driven Business. Wiley. ISBN 978-0-470-62577-4.
  21. "Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development". Mike2.openmethodology.org. Retrieved 2013-06-14.
  22. "The Bottom-Up Misnomer - DecisionWorks Consulting". DecisionWorks Consulting (in English). 17 September 2003. Retrieved 2016-03-06.
  23. Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005
  24. 24.0 24.1 Paulraj., Ponniah (2010). Data warehousing fundamentals for IT professionals. Ponniah, Paulraj. (2nd ed.). Hoboken, N.J.: John Wiley & Sons. ISBN 9780470462072. OCLC 662453070.
  25. H., Inmon, William (2005). Building the data warehouse (4th ed.). Indianapolis, IN: Wiley Pub. ISBN 9780764599446. OCLC 61762085.{{cite book}}: CS1 maint: multiple names: authors list (link)
  26. Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Opportunities of collected city data for smart cities". IET Smart Cities. 4 (4): 275–291. doi:10.1049/smc2.12044. S2CID 253467923.
  27. Gupta, Satinder Bal; Mittal, Aditya (2009). Introduction to Database Management System. Laxmi Publications. ISBN 9788131807248.
  28. "Data Warehouse". 6 April 2019.


अग्रिम पठन