डेटा वेयरहाउस: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(14 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Centralized storage of knowledge}}
{{Short description|Centralized storage of knowledge}}
[[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]]
[[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]]
[[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे एंटरप्राइज़ डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और [[डेटा विश्लेषण]] के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।<ref>{{cite conference|last1=Dedić|first1=Nedim|last2=Stanier|first2=Clare|year=2016|editor1-last=Hammoudi|editor1-first=Slimane|editor2-last=Maciaszek|editor2-first=Leszek|editor3-last=Missikoff|editor3-first=Michele M. Missikoff|editor4-last=Camp|editor4-first=Olivier|editor5-last=Cordeiro|editor5-first=José|title=An Evaluation of the Challenges of Multilingualism in Data Warehouse Development|url=http://eprints.staffs.ac.uk/2770/|journal=Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016)|publisher=SciTePress|volume=1|pages=196–206|conference=International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy|conference-url=https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-url=https://web.archive.org/web/20180522180940/https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-date=2018-05-22 |url-status=live|doi=10.5220/0005858401960206|isbn=978-989-758-187-8|doi-access=free}}</ref> डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय [[भंडार (संस्करण नियंत्रण)]] हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं<ref name="rjmetrics">{{cite web|url=https://blog.rjmetrics.com/2014/12/04/10-common-mistakes-when-building-a-data-warehouse/|publisher=blog.rjmetrics.com|title=9 Reasons Data Warehouse Projects Fail|date=4 December 2014|access-date=2017-04-30}}</ref> जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।<ref name="spotlessdata">{{cite web|url=https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|archive-url=https://web.archive.org/web/20180726071809/https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|url-status=dead|archive-date=2018-07-26|publisher=spotlessdata.com|title=Exploring Data Warehouses and Data Quality|access-date=2017-04-30}}</ref> यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।<ref>{{Cite web |title=What is a Data Warehouse? {{!}} Key Concepts {{!}} Amazon Web Services |url=https://aws.amazon.com/data-warehouse/ |access-date=2023-02-13 |website=Amazon Web Services, Inc. |language=en-US}}</ref>
[[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे उद्योग डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और [[डेटा विश्लेषण]] के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।<ref>{{cite conference|last1=Dedić|first1=Nedim|last2=Stanier|first2=Clare|year=2016|editor1-last=Hammoudi|editor1-first=Slimane|editor2-last=Maciaszek|editor2-first=Leszek|editor3-last=Missikoff|editor3-first=Michele M. Missikoff|editor4-last=Camp|editor4-first=Olivier|editor5-last=Cordeiro|editor5-first=José|title=An Evaluation of the Challenges of Multilingualism in Data Warehouse Development|url=http://eprints.staffs.ac.uk/2770/|journal=Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016)|publisher=SciTePress|volume=1|pages=196–206|conference=International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy|conference-url=https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-url=https://web.archive.org/web/20180522180940/https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-date=2018-05-22 |url-status=live|doi=10.5220/0005858401960206|isbn=978-989-758-187-8|doi-access=free}}</ref> डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय [[भंडार (संस्करण नियंत्रण)]] हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं<ref name="rjmetrics">{{cite web|url=https://blog.rjmetrics.com/2014/12/04/10-common-mistakes-when-building-a-data-warehouse/|publisher=blog.rjmetrics.com|title=9 Reasons Data Warehouse Projects Fail|date=4 December 2014|access-date=2017-04-30}}</ref> जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।<ref name="spotlessdata">{{cite web|url=https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|archive-url=https://web.archive.org/web/20180726071809/https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|url-status=dead|archive-date=2018-07-26|publisher=spotlessdata.com|title=Exploring Data Warehouses and Data Quality|access-date=2017-04-30}}</ref> यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।<ref>{{Cite web |title=What is a Data Warehouse? {{!}} Key Concepts {{!}} Amazon Web Services |url=https://aws.amazon.com/data-warehouse/ |access-date=2023-02-13 |website=Amazon Web Services, Inc. |language=en-US}}</ref>
वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे मार्केटिंग या सेल्स) से [[डालना|अपलोड]] किया जाता है। डेटा [[परिचालन डेटा स्टोर]] से गुजर सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।<ref name="rjmetrics"/>  
वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे विपणन या खरीद) से [[डालना|अपलोड]] किया जाता है। डेटा [[परिचालन डेटा स्टोर]] से निकल सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।<ref name="rjmetrics"/>  


एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य तरीके हैं।
एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य विधियां हैं।


== ईटीएल-आधारित डेटा वेयरहाउसिंग ==
== ईटीएल-आधारित डेटा वेयरहाउसिंग ==
विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)|अभिनय (डेटा)]], [[डेटा एकीकरण]] और एक्सेस लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा सेट को एकीकृत करती है, अक्सर इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अक्सर डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अक्सर आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी [[स्टार स्कीमा]] कहा जाता है। एक्सेस परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।<ref name=IJCA96Patil>{{cite journal |url=http://www.ijcaonline.org/proceedings/icwet/number9/2131-db195 |author1=Patil, Preeti S. |author2=Srikantha Rao |author3=Suryakant B. Patil |title=Optimization of Data Warehousing System: Simplification in Reporting and Analysis |journal=IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET) |year=2011 |volume=9 |issue=6 |pages=33–37 |publisher=Foundation of Computer Science}}</ref>
विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)|अभिनय (डेटा)]], [[डेटा एकीकरण]] और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा समुच्चय को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी [[स्टार स्कीमा]] कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।<ref name=IJCA96Patil>{{cite journal |url=http://www.ijcaonline.org/proceedings/icwet/number9/2131-db195 |author1=Patil, Preeti S. |author2=Srikantha Rao |author3=Suryakant B. Patil |title=Optimization of Data Warehousing System: Simplification in Reporting and Analysis |journal=IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET) |year=2011 |volume=9 |issue=6 |pages=33–37 |publisher=Foundation of Computer Science}}</ref>


डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक पेशेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।<ref>Marakas & O'Brien 2009</ref> हालाँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और [[डेटा शब्दकोश]] को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस व्यापक संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में [[व्यापार खुफिया उपकरण]], डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और [[मेटा डेटा]] को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण शामिल हैं।
डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक प्रस्तुतेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।<ref>Marakas & O'Brien 2009</ref> चूँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और [[डेटा शब्दकोश]] को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस विस्तृत संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में [[व्यापार खुफिया उपकरण|व्यापार गुप्त उपकरण]], डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और [[मेटा डेटा]] को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण सम्मिलित हैं।


== ईएलटी-आधारित डेटा वेयरहाउसिंग ==
== ईएलटी-आधारित डेटा वेयरहाउसिंग ==
[[File:ELT Diagram.png|thumb|244x244px|एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर]]एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके बजाय, यह डेटा वेयरहाउस के अंदर ही अभिनय क्षेत्र बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।
[[File:ELT Diagram.png|thumb|244x244px|एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर]]एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके अतिरिक्त, यह डेटा वेयरहाउस के अंदर ही अभिनय क्षेत्र बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।


== लाभ ==
== लाभ ==
Line 18: Line 18:
* एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
* एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
* लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
* लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
* डेटा इतिहास बनाए रखें, भले ही स्रोत लेनदेन प्रणालियां न हों।
* डेटा इतिहास बनाए रखें, चाहे स्रोत लेनदेन प्रणालियां न हों।
* कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, लेकिन विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
* कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, किन्तु विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
* लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
* लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
* संगठन की जानकारी को लगातार प्रस्तुत करें।
* संगठन की जानकारी को लगातार प्रस्तुत करें।
* डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए [[सामान्य डेटा मॉडल]] प्रदान करें।
* डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए [[सामान्य डेटा मॉडल]] प्रदान करें।
* डेटा को पुनर्गठित करें ताकि यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
* डेटा को पुनर्गठित करें जिससे यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
* डेटा को पुनर्व्यवस्थित करें ताकि यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
* डेटा को पुनर्व्यवस्थित करें जिससे यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
* परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से [[ग्राहक संबंध प्रबंधन]] (सीआरएम) प्रणालियों में मूल्य जोड़ें।
* परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से [[ग्राहक संबंध प्रबंधन]] (सीआरएम) प्रणालियों में मूल्य जोड़ें।
*निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
*निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
Line 30: Line 30:


== सामान्य ==
== सामान्य ==
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित शामिल हैं:
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित सम्मिलित हैं:


* सोर्स प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
* स्रोत प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
* डेटा एकीकरण तकनीक और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
* डेटा एकीकरण विधि और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
* किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
* किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
* विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
* विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
Line 39: Line 39:


ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।<ref name=rainer2012>{{cite book|last1=Rainer|first1=R. Kelly|first2=Casey G. |last2=Cegielski |title=Introduction to Information Systems: Enabling and Transforming Business, 4th Edition|url=https://archive.org/details/introductiontoin00rain_274|url-access=limited|date=2012-05-01|publisher=Wiley|pages=[https://archive.org/details/introductiontoin00rain_274/page/n138 127], 128, 130, 131, 133 |isbn=978-1118129401|edition=Kindle}}</ref>
ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।<ref name=rainer2012>{{cite book|last1=Rainer|first1=R. Kelly|first2=Casey G. |last2=Cegielski |title=Introduction to Information Systems: Enabling and Transforming Business, 4th Edition|url=https://archive.org/details/introductiontoin00rain_274|url-access=limited|date=2012-05-01|publisher=Wiley|pages=[https://archive.org/details/introductiontoin00rain_274/page/n138 127], 128, 130, 131, 133 |isbn=978-1118129401|edition=Kindle}}</ref>
डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत प्रणाली से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।<ref name=rainer2012/>
 
डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत प्रणाली से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।<ref name="rainer2012" />


रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।<ref name=rainer2012 />
रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।<ref name=rainer2012 />


मेटाडेटा डेटा के बारे में डेटा है। IT कर्मियों को डेटा स्रोतों के बारे में जानकारी चाहिए; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय।<ref name=rainer2012 />
मेटाडेटा डेटा के बारे में डेटा है। आईटी कर्मियों को डेटा स्रोतों; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय के बारे में जानकारी चाहिए।<ref name=rainer2012 />


आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।<ref name=rainer2012 />डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।<ref name=rainer2012 />डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे एक्सेस किया जा सकता है।
आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।<ref name=rainer2012 /> डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।<ref name=rainer2012 />डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे अभिगम किया जा सकता है।


==संबंधित प्रणाली ([[डेटा मार्ट]], OLAP, OLTP, प्रेडिक्टिव एनालिटिक्स)==
==संबंधित प्रणाली ([[डेटा मार्ट]], ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)==
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अक्सर संगठन के भीतर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।<ref>{{cite web |url=http://docs.oracle.com/html/E10312_01/dm_concepts.htm |title=Data Mart Concepts |publisher=Oracle |year=2007}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट आमतौर पर डेटा वेयरहाउस में निहित डेटा के केवल सबसेट को कवर करते हैं, वे अक्सर लागू करने में आसान और तेज़ होते हैं।
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के अन्दर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।<ref>{{cite web |url=http://docs.oracle.com/html/E10312_01/dm_concepts.htm |title=Data Mart Concepts |publisher=Oracle |year=2007}}</ref> इस प्रणाली में डेटा मॉडलिंग विधियों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल उपसमुच्चय को आवरण करते हैं, वे अधिकांश प्रायुक्त करने में आसान और तेज़ होते हैं।


{| class="wikitable"
{| class="wikitable"
|+ Difference between data warehouse and {{nowrap|data mart}}
|+ डेटा वेयरहाउस और डेटा मार्ट के बीच अंतर
|-
|-
! Attribute
! गुण
! Data warehouse
! डेटा वेयरहाउस
! Data mart
! डेटा मार्ट
|-
|-
! style="text-align: left" | Scope of the data
! style="text-align: left" | डेटा का सीमा
| enterprise-wide
| उद्यम-व्यापी
| department-wide
| विभाग चौड़ा
|-
|-
! style="text-align: left" | Number of subject areas
! style="text-align: left" | विषय क्षेत्रों की संख्या
| multiple
| एकाधिक
| single
| एकल
|-
|-
! style="text-align: left" | How difficult to build
! style="text-align: left" | बनाना कितना कठिन है
| difficult
| कठिन
| easy
| सरल
|-
|-
! style="text-align: left" | How much time takes to build
! style="text-align: left" | बनने में कितना समय लगता है
| more
| अधिक
| less
| कम
|-
|-
! style="text-align: left" | Amount of memory
! style="text-align: left" | स्मृति की मात्रा
| larger
| बड़ा
| limited
| सीमित
|}
|}
डेटा मार्ट के प्रकारों में डेटा_मार्ट#निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट शामिल हैं।{{clarify |date=March 2017 |reason= }}
डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट सम्मिलित हैं।{{clarify |date=March 2017 |reason= }}
ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अक्सर बहुत जटिल होते हैं और एकत्रीकरण शामिल होते हैं। OLAP प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। OLAP एप्लिकेशन का व्यापक रूप से [[डेटा खनन]] तकनीकों द्वारा उपयोग किया जाता है। OLAP डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (आमतौर पर स्टार स्कीमा) में संग्रहीत करते हैं। OLAP प्रणाली में आमतौर पर डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के करीब होने की उम्मीद होती है। OLAP दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। OLAP में तीन बुनियादी ऑपरेशन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।
 
ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण सम्मिलित होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का विस्तृत रूप से [[डेटा खनन]] विधियों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के निकट होने की अपेक्षा होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन मूलभूत संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।


[[ऑनलाइन लेनदेन प्रसंस्करण]] (OLTP) को बड़ी संख्या में छोटे ऑन-लाइन ट्रांजेक्शन (INSERT, UPDATE, DELETE) की विशेषता है। OLTP प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। OLTP डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (आमतौर पर [[तीसरा सामान्य रूप]]) है।<ref>{{cite web |url=http://datawarehouse4u.info/OLTP-vs-OLAP.html |title=OLTP vs. OLAP |year=2009 |website=Datawarehouse4u.Info |quote=We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए सामान्यीकरण आदर्श है।
[[ऑनलाइन लेनदेन प्रसंस्करण]] (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः [[तीसरा सामान्य रूप]]) है।<ref>{{cite web |url=http://datawarehouse4u.info/OLTP-vs-OLAP.html |title=OLTP vs. OLAP |year=2009 |website=Datawarehouse4u.Info |quote=We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.}}</ref> इस प्रणाली में डेटा मॉडलिंग विधियों के लिए सामान्यीकरण आदर्श है।


[[भविष्य बतानेवाला विश्लेषक]] जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की [[भविष्यवाणी]] करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण OLAP से अलग है जिसमें OLAP ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, जबकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।
[[भविष्य बतानेवाला विश्लेषक]] जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की [[भविष्यवाणी]] करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, चूंकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।


== इतिहास ==
== इतिहास ==
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। हालांकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, लेकिन उन्हें अक्सर समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, आमतौर पर दीर्घकालिक मौजूदा परिचालन प्रणालियों (आमतौर पर विरासत प्रणालियों के रूप में संदर्भित) से, आमतौर पर प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अलावा, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अक्सर नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। चूंकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, किन्तु उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।


इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का तरीका बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के भीतर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक तरीके से प्रबंधित किया जा सकता है।
इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का विधि बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के अन्दर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक विधियां से प्रबंधित किया जा सकता है।


डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:
डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:


* 1960 - [[जनरल मिल्स]] और [[डार्टमाउथ कॉलेज]], संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।<ref name="kimball16">Kimball 2013, pg. 15</ref>
* 1960 - [[जनरल मिल्स]] और [[डार्टमाउथ कॉलेज]], संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।<ref name="kimball16">Kimball 2013, pg. 15</ref>
* 1970 - [[ACNielsen]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" />* 1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref>
* 1970 - [[ACNielsen|एसीनीलसन]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" />
* 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER]] (MAintain, Prepare, and Production Executive Reports) पेश की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें दुनिया की पहली [[चौथी पीढ़ी की प्रोग्रामिंग भाषा]] शामिल है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस तकनीक का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
*1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref>
* 1983 - [[टेराडाटा]] ने डीबीसी 1012|डीबीसी/1012 डेटाबेस कंप्यूटर पेश किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।<ref>{{Cite news |title= Will Teradata revive a market? |author= Paul Gillin |pages= 43, 48 |work= Computer World |date= February 20, 1984 |url= https://books.google.com/books?id=5pw6ePUC8YYC&pg=PA48 |access-date= 2017-03-13 }}</ref>
* 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER|मैपर]] (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) प्रस्तुत की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें संसार की पहली [[चौथी पीढ़ी की प्रोग्रामिंग भाषा]] सम्मिलित है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस विधि का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
* 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम|रूपक कंप्यूटर प्रणाली]]्स, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
* 1983 - [[टेराडाटा]] ने डीबीसी/1012 डेटाबेस कंप्यूटर प्रस्तुत किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।<ref>{{Cite news |title= Will Teradata revive a market? |author= Paul Gillin |pages= 43, 48 |work= Computer World |date= February 20, 1984 |url= https://books.google.com/books?id=5pw6ePUC8YYC&pg=PA48 |access-date= 2017-03-13 }}</ref>
* 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम|रूपक कंप्यूटर प्रणालियों]], डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
* 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref>
* 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref>
* 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस पेश किया।
* 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस प्रस्तुत किया।
* 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर संपत्ति के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
* 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
* 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर पेश किया।
* 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर प्रस्तुत किया।
* 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref>
* 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref>
* 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
* 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
* 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।<ref name=":0">{{cite book|title=The Data Warehouse Toolkit|last=Kimball|first=Ralph|publisher=Wiley|year=2011|isbn=978-0-470-14977-5|page=237}}</ref>
* 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।<ref name=":0">{{cite book|title=The Data Warehouse Toolkit|last=Kimball|first=Ralph|publisher=Wiley|year=2011|isbn=978-0-470-14977-5|page=237}}</ref>
* 2000 - [[डैन लिनस्टेड]]्ट ने [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जिसकी कल्पना 1990 में कई परिचालन प्रणालियों से आने वाले डेटा के दीर्घकालिक ऐतिहासिक भंडारण प्रदान करने के लिए इनमोन और किमबॉल के विकल्प के रूप में की गई थी, जिसमें ट्रेसिंग, ऑडिटिंग और लचीलेपन पर जोर दिया गया था। स्रोत डेटा मॉडल में परिवर्तन।
* 2000 - [[डैन लिनस्टेड]] ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। .
* 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने टॉप-डाउन दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को गढ़ा।
* 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था।
* 2012 - बिल इनमोन सार्वजनिक तकनीक को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को लागू करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार खुफिया तकनीक द्वारा आसानी से और कुशलता से एक्सेस और विश्लेषण किया जा सकता है। टेक्स्टुअल ईटीएल के निष्पादन के माध्यम से टेक्स्टुअल डिसएम्बिगेशन पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।
* 2012 - बिल इनमोन सार्वजनिक विधि को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को प्रायुक्त करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त विधि द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।


== सूचना भंडारण ==
== सूचना भंडारण ==
Line 124: Line 127:




=== डेटा भंडारण के लिए आयामी बनाम सामान्यीकृत दृष्टिकोण ===
=== डेटा भंडारण के लिए आयामी विरुद्ध सामान्यीकृत दृष्टिकोण ===
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।


डायमेंशनल एप्रोच राल्फ किमबॉल के एप्रोच को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को डायमेंशनल मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।<ref>{{Cite journal|last1=Golfarelli|first1=Matteo|last2=Maio|first2=Dario|last3=Rizzi|first3=Stefano|date=1998-06-01|title=The dimensional fact model: a conceptual model for data warehouses|url=https://www.worldscientific.com/doi/abs/10.1142/S0218843098000118|journal=International Journal of Cooperative Information Systems|volume=07|issue=2n03|pages=215–247|doi=10.1142/S0218843098000118|issn=0218-8430}}</ref>
आयाम प्रस्ताव राल्फ किमबॉल के प्रस्ताव को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को आयाम मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।<ref>{{Cite journal|last1=Golfarelli|first1=Matteo|last2=Maio|first2=Dario|last3=Rizzi|first3=Stefano|date=1998-06-01|title=The dimensional fact model: a conceptual model for data warehouses|url=https://www.worldscientific.com/doi/abs/10.1142/S0218843098000118|journal=International Journal of Cooperative Information Systems|volume=07|issue=2n03|pages=215–247|doi=10.1142/S0218843098000118|issn=0218-8430}}</ref>




==== आयामी दृष्टिकोण ====
==== आयामी दृष्टिकोण ====
स्टार स्कीमा में, लेन-देन डेटा को तथ्यों में विभाजित किया जाता है, जो आम तौर पर संख्यात्मक लेनदेन डेटा और आयाम (डेटा वेयरहाउस) होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए, बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे कि ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल कीमत, और ऑर्डर की तारीख, ग्राहक का नाम, उत्पाद संख्या, ऑर्डर शिप-टू और बिल-टू जैसे आयामों में। आदेश प्राप्त करने के लिए जिम्मेदार स्थान, और विक्रेता।
एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है।


आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" />व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं जबकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। डायमेंशनल मॉडल द्वारा पेश किया गया और फायदा यह है कि इसमें हर बार रिलेशनल डेटाबेस शामिल नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग तकनीक बहुत उपयोगी है।
आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" /> व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं चूंकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा प्रस्तुत किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस सम्मिलित नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग विधि बहुत उपयोगी है।


तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।
तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।


आयामी दृष्टिकोण के मुख्य नुकसान निम्नलिखित हैं:
आयामी दृष्टिकोण के मुख्य हानि निम्नलिखित हैं:
# तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
# तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
# डेटा वेयरहाउस संरचना को संशोधित करना मुश्किल है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के तरीके को बदल देता है।
# डेटा वेयरहाउस संरचना को संशोधित करना कठिन है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के विधियां को बदल देता है।


==== सामान्यीकृत दृष्टिकोण ====
==== सामान्यीकृत दृष्टिकोण ====
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा हद तक, [[डेटाबेस सामान्यीकरण]] नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में लागू किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अलावा, जब डेटाबेस लागू किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा सीमा तक, [[डेटाबेस सामान्यीकरण]] नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में प्रायुक्त किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस प्रायुक्त किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।
इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ नुकसान यह हैं कि इसमें शामिल तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में शामिल करना और डेटा के स्रोतों और [[डेटा संरचना]] की सटीक समझ के बिना जानकारी तक पहुंचना मुश्किल हो सकता है। डेटा वेयरहाउस की।
 
इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ हानि यह हैं कि इसमें सम्मिलित तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में सम्मिलित करना और डेटा के स्रोतों और [[डेटा संरचना]] डेटा वेयरहाउस की त्रुटिहीन समझ के बिना जानकारी तक पहुंचना कठिन हो सकता है।  


सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ शामिल हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण # सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को हद तक सामान्य करना शामिल हो सकता है (किमबॉल, राल्फ 2008)।
सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ सम्मिलित हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को सीमा तक सामान्य करना सम्मिलित हो सकता है (किमबॉल, राल्फ 2008)।


सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। तकनीक से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) लेकिन यह अतिरिक्त जानकारी उपयोगिता की कीमत पर आती है। यह तकनीक एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Small_Worlds_Data_Transformation_Measure |title=Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development |publisher=Mike2.openmethodology.org |access-date=2013-06-14}}</ref>
सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। विधि से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) किन्तु यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह विधि एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Small_Worlds_Data_Transformation_Measure |title=Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development |publisher=Mike2.openmethodology.org |access-date=2013-06-14}}</ref>




== डिजाइन के तरीके ==
=== बॉटम-अप डिज़ाइन ===
बॉटम-अप एप्रोच में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को व्यापक डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह # प्रकार और तथ्य (डेटा वेयरहाउस) # टाइप, जो आयाम हैं जो दो या दो से अधिक तथ्यों के बीच साझा किए जाते हैं (विशिष्ट तरीके से) डेटा मार्ट्स।<ref>{{Cite web|url=http://decisionworks.com/2003/09/the-bottom-up-misnomer/|title=The Bottom-Up Misnomer - DecisionWorks Consulting|website=DecisionWorks Consulting|date=17 September 2003|language=en-US|access-date=2016-03-06}}</ref>


== डिजाइन की विधियां ==
=== नीचे से ऊपर डिज़ाइन ===
नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को विस्तृत डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट विधियों से)।<ref>{{Cite web|url=http://decisionworks.com/2003/09/the-bottom-up-misnomer/|title=The Bottom-Up Misnomer - DecisionWorks Consulting|website=DecisionWorks Consulting|date=17 September 2003|language=en-US|access-date=2016-03-06}}</ref>


=== टॉप-डाउन डिज़ाइन ===
 
टॉप-डाउन दृष्टिकोण सामान्यीकृत एंटरप्राइज़ [[डेटा मॉडल]] का उपयोग करके डिज़ाइन किया गया है। डेटा तत्व | परमाणु डेटा, यानी, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले डायमेंशनल डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।<ref name="ReferenceA">Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005</ref>
=== उपर से नीचे डिज़ाइन ===
उपर से नीचे दृष्टिकोण सामान्यीकृत उद्योग [[डेटा मॉडल]] का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।<ref name="ReferenceA">Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005</ref>




=== हाइब्रिड डिजाइन ===
=== हाइब्रिड डिजाइन ===
डेटा वेयरहाउस (DW) अक्सर [[हब और प्रवक्ता वास्तुकला]] के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अक्सर ग्राहक संबंध प्रबंधन और [[उद्यम संसाधन योजना]] शामिल होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और [[ट्रांसफॉर्म लोड निकालें|परिवर्तन लोड निकालें]] प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अक्सर संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अक्सर डेटा को सामान्यीकृत तरीके से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।
डेटा वेयरहाउस (डीडब्लू) अधिकांश [[हब और प्रवक्ता वास्तुकला]] के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और [[उद्यम संसाधन योजना]] सम्मिलित होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और [[ट्रांसफॉर्म लोड निकालें|परिवर्तन लोड निकालें]] प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत विधियां से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।


डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, हालांकि, व्यावसायिक खुफिया रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को [[मास्टर डेटा प्रबंधन]] भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।
डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, चूंकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को [[मास्टर डेटा प्रबंधन]] भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।


डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास शामिल हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, लेकिन यह टॉप-डाउन आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र एक्सेस करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।
डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास सम्मिलित हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, किन्तु यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।


== डेटा वेयरहाउस विशेषताएँ ==
== डेटा वेयरहाउस विशेषताएँ ==
बुनियादी विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा ग्रैन्युलैरिटी शामिल हैं।
मूलभूत विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता सम्मिलित हैं।


=== विषय-उन्मुख ===
=== विषय-उन्मुख ===
परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के इर्द-गिर्द घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तव में उपयोगी हो सकता है।
परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के आस-पास घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तविक में उपयोगी हो सकता है।
 
आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।
आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।


=== एकीकृत ===
=== एकीकृत ===
डेटा वेयरहाउस के भीतर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि शामिल हैं।
डेटा वेयरहाउस के अन्दर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि सम्मिलित हैं।


=== समय-संस्करण ===
=== समय-संस्करण ===
जबकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)<ref name=":1">{{Cite book|title=Data warehousing fundamentals for IT professionals|last=Paulraj.|first=Ponniah|date=2010|publisher=John Wiley & Sons|others=Ponniah, Paulraj.|isbn=9780470462072|edition= 2nd |location=Hoboken, N.J.|oclc=662453070}}</ref>
चूंकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)<ref name=":1">{{Cite book|title=Data warehousing fundamentals for IT professionals|last=Paulraj.|first=Ponniah|date=2010|publisher=John Wiley & Sons|others=Ponniah, Paulraj.|isbn=9780470462072|edition= 2nd |location=Hoboken, N.J.|oclc=662453070}}</ref>




=== अहिंसक ===
=== अहिंसक ===
डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो)<ref>{{Cite book|title=Building the data warehouse|last=H.|first=Inmon, William|date=2005|publisher=Wiley Pub|isbn=9780764599446|edition= 4th |location=Indianapolis, IN|oclc=61762085}}</ref>
डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो) है।<ref>{{Cite book|title=Building the data warehouse|last=H.|first=Inmon, William|date=2005|publisher=Wiley Pub|isbn=9780764599446|edition= 4th |location=Indianapolis, IN|oclc=61762085}}</ref>




Line 187: Line 193:


=== एकत्रीकरण ===
=== एकत्रीकरण ===
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, आमतौर पर, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।<ref name=":1" />
डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, सामान्यतः, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।<ref name=":1" />




=== वर्चुअलाइजेशन ===
=== वर्चुअलाइजेशन ===
[[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए रीयल-टाइम एक्सेस स्थापित किया जाता है। यह कुछ तकनीकी कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना। इसके अलावा, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। हालाँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से कनेक्शन चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।<ref name="Paiho">{{cite journal | url=https://doi.org/10.1049/smc2.12044 | doi=10.1049/smc2.12044 | title=Opportunities of collected city data for smart cities | year=2022 | last1=Paiho | first1=Satu | last2=Tuominen | first2=Pekka | last3=Rökman | first3=Jyri | last4=Ylikerälä | first4=Markus | last5=Pajula | first5=Juha | last6=Siikavirta | first6=Hanne | journal=IET Smart Cities | volume=4 | issue=4 | pages=275–291 | s2cid=253467923 }}</ref>
[[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ प्रौद्योगिक कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। चूँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से संबन्ध चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।<ref name="Paiho">{{cite journal | url=https://doi.org/10.1049/smc2.12044 | doi=10.1049/smc2.12044 | title=Opportunities of collected city data for smart cities | year=2022 | last1=Paiho | first1=Satu | last2=Tuominen | first2=Pekka | last3=Rökman | first3=Jyri | last4=Ylikerälä | first4=Markus | last5=Pajula | first5=Juha | last6=Siikavirta | first6=Hanne | journal=IET Smart Cities | volume=4 | issue=4 | pages=275–291 | s2cid=253467923 }}</ref>




Line 198: Line 204:




== बनाम परिचालन प्रणाली ==
== विरुद्ध परिचालन प्रणाली ==
डेटाबेस सामान्यीकरण और [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर आमतौर पर डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अक्सर व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ इन्सर्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को आमतौर पर परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।
डेटाबेस सामान्यीकरण और [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ प्रविष्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।


डेटा वेयरहाउस को विश्लेषणात्मक एक्सेस पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में आम तौर पर विशिष्ट क्षेत्रों का चयन करना शामिल होता है और यदि कभी हो तो शायद ही कभी {{code|select *}}, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। एक्सेस पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, OLTP) पंक्ति-उन्मुख DBMS के उपयोग से लाभान्वित होते हैं जबकि एनालिटिक्स डेटाबेस (शिथिल, OLAP) [[स्तंभ-उन्मुख DBMS]] के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस आम तौर पर अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा माइग्रेट करता है।
डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना सम्मिलित होता है और यदि कभी हो तो संभवतः ही कभी {{code|select *}}, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं चूंकि विश्लेषण डेटाबेस (शिथिल, ओलाप) [[स्तंभ-उन्मुख DBMS|स्तंभ-उन्मुख डीबीएमएस]] के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है।


== संगठन उपयोग में विकास ==
== संगठन उपयोग में विकास ==
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:
ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:


; ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (आमतौर पर दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
; ऑफ़लाइन परिचालन डेटा वेयरहाउस: विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (सामान्यतः दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
; ऑन-टाइम डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग रीयल-टाइम डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
; ऑन-समय डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
; एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, ताकि उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।<ref>{{cite web |url=http://www.tech-faq.com/data-warehouse.html |title=Data Warehouse |date=6 April 2019 }}</ref>
; एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, जिससे उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।<ref>{{cite web |url=http://www.tech-faq.com/data-warehouse.html |title=Data Warehouse |date=6 April 2019 }}</ref>




== यह भी देखें ==
== यह भी देखें ==
  {{Wikitionary|data warehouse}}
  {{Wikitionary|data warehouse}}
* [[व्यापार खुफिया सॉफ्टवेयर]]
* [[व्यापार खुफिया सॉफ्टवेयर|व्यापार गुप्त सॉफ्टवेयर]]
* डेटा मेश, बड़े डेटा के प्रबंधन के लिए डोमेन-उन्मुख डेटा आर्किटेक्चर प्रतिमान
* डेटा मेश, बड़े डेटा के प्रबंधन के लिए डोमेन-उन्मुख डेटा आर्किटेक्चर प्रतिमान
* [[वर्चुअल डेटाबेस मैनेजर]], वर्चुअल डेटा वेयरहाउस में गैर-संबंधपरक डेटा का प्रतिनिधित्व करता है
* [[वर्चुअल डेटाबेस मैनेजर]], वर्चुअल डेटा वेयरहाउस में गैर-संबंधपरक डेटा का प्रतिनिधित्व करता है
Line 232: Line 238:
{{Data warehouse}}
{{Data warehouse}}


{{DEFAULTSORT:Data Warehouse}}[[Category: डेटा प्रबंधन]] [[Category: डेटा वेयरहाउसिंग| डेटा वेयरहाउसिंग]]
{{DEFAULTSORT:Data Warehouse}}
 
 


[[Category: Machine Translated Page]]
[[Category:All articles with unsourced statements|Data Warehouse]]
[[Category:Created On 16/02/2023]]
[[Category:Articles with unsourced statements from June 2014|Data Warehouse]]
[[Category:CS1 English-language sources (en)]]
[[Category:Collapse templates|Data Warehouse]]
[[Category:Created On 16/02/2023|Data Warehouse]]
[[Category:Lua-based templates|Data Warehouse]]
[[Category:Machine Translated Page|Data Warehouse]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Data Warehouse]]
[[Category:Pages with script errors|Data Warehouse]]
[[Category:Short description with empty Wikidata description|Data Warehouse]]
[[Category:Sidebars with styles needing conversion|Data Warehouse]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Data Warehouse]]
[[Category:Templates generating microformats|Data Warehouse]]
[[Category:Templates that add a tracking category|Data Warehouse]]
[[Category:Templates that are not mobile friendly|Data Warehouse]]
[[Category:Templates that generate short descriptions|Data Warehouse]]
[[Category:Templates using TemplateData|Data Warehouse]]
[[Category:Wikipedia articles needing clarification from March 2017|Data Warehouse]]
[[Category:Wikipedia metatemplates|Data Warehouse]]
[[Category:डेटा प्रबंधन|Data Warehouse]]
[[Category:डेटा वेयरहाउसिंग| डेटा वेयरहाउसिंग]]

Latest revision as of 15:47, 16 March 2023

डेटा वेयरहाउस अवलोकन
डेटा वेयरहाउस का मूल आर्किटेक्चर

कम्प्यूटिंग में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे उद्योग डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और डेटा विश्लेषण के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।[1] डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार (संस्करण नियंत्रण) हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं[2] जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।[3] यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।[4]

वेयरहाउस में स्टोर किया गया डेटा संचालन प्रणाली (जैसे विपणन या खरीद) से अपलोड किया जाता है। डेटा परिचालन डेटा स्टोर से निकल सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।[2]

एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य विधियां हैं।

ईटीएल-आधारित डेटा वेयरहाउसिंग

विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस[5] अपने प्रमुख कार्यों को व्यवस्थित करने के लिए अभिनय (डेटा), डेटा एकीकरण और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा समुच्चय को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी स्टार स्कीमा कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।[6]

डेटा का मुख्य स्रोत डेटा खनन, ओएलएपी, बाजार अनुसंधान और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक प्रस्तुतेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।[7] चूँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और डेटा शब्दकोश को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस विस्तृत संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में व्यापार गुप्त उपकरण, डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और मेटा डेटा को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण सम्मिलित हैं।

ईएलटी-आधारित डेटा वेयरहाउसिंग

एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर

एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके अतिरिक्त, यह डेटा वेयरहाउस के अंदर ही अभिनय क्षेत्र बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।

लाभ

डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:

  • एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
  • लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
  • डेटा इतिहास बनाए रखें, चाहे स्रोत लेनदेन प्रणालियां न हों।
  • कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, किन्तु विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
  • लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
  • संगठन की जानकारी को लगातार प्रस्तुत करें।
  • डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए सामान्य डेटा मॉडल प्रदान करें।
  • डेटा को पुनर्गठित करें जिससे यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
  • डेटा को पुनर्व्यवस्थित करें जिससे यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
  • परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से ग्राहक संबंध प्रबंधन (सीआरएम) प्रणालियों में मूल्य जोड़ें।
  • निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
  • दोहराए गए डेटा को व्यवस्थित और स्पष्ट करें।

सामान्य

डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित सम्मिलित हैं:

  • स्रोत प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
  • डेटा एकीकरण विधि और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
  • किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
  • विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
  • मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।

ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।[8]

डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत प्रणाली से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।[8]

रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।[8]

मेटाडेटा डेटा के बारे में डेटा है। आईटी कर्मियों को डेटा स्रोतों; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय के बारे में जानकारी चाहिए।[8]

आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।[8] डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।[8]डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे अभिगम किया जा सकता है।

संबंधित प्रणाली (डेटा मार्ट, ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)

डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के अन्दर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।[9] इस प्रणाली में डेटा मॉडलिंग विधियों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल उपसमुच्चय को आवरण करते हैं, वे अधिकांश प्रायुक्त करने में आसान और तेज़ होते हैं।

डेटा वेयरहाउस और डेटा मार्ट के बीच अंतर
गुण डेटा वेयरहाउस डेटा मार्ट
डेटा का सीमा उद्यम-व्यापी विभाग चौड़ा
विषय क्षेत्रों की संख्या एकाधिक एकल
बनाना कितना कठिन है कठिन सरल
बनने में कितना समय लगता है अधिक कम
स्मृति की मात्रा बड़ा सीमित

डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट सम्मिलित हैं।[clarification needed]

ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण सम्मिलित होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का विस्तृत रूप से डेटा खनन विधियों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के निकट होने की अपेक्षा होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन मूलभूत संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।

ऑनलाइन लेनदेन प्रसंस्करण (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः तीसरा सामान्य रूप) है।[10] इस प्रणाली में डेटा मॉडलिंग विधियों के लिए सामान्यीकरण आदर्श है।

भविष्य बतानेवाला विश्लेषक जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, चूंकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।

इतिहास

डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है[11] जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से निर्णय समर्थन प्रणाली तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। चूंकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, किन्तु उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।

इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का विधि बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के अन्दर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक विधियां से प्रबंधित किया जा सकता है।

डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:

  • 1960 - जनरल मिल्स और डार्टमाउथ कॉलेज, संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।[12]
  • 1970 - एसीनीलसन और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।[12]
  • 1970 - बिल इनमोन ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।[citation needed][13]
  • 1975 - स्पेरी यूनिवैक ने मैपर (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) प्रस्तुत की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें संसार की पहली चौथी पीढ़ी की प्रोग्रामिंग भाषा सम्मिलित है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस विधि का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
  • 1983 - टेराडाटा ने डीबीसी/1012 डेटाबेस कंप्यूटर प्रस्तुत किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।[14]
  • 1984 - डेविड लिडल और डॉन मस्सारो द्वारा स्थापित रूपक कंप्यूटर प्रणालियों, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
  • 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।[15]
  • 1990 - राल्फ किमबॉल द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस प्रस्तुत किया।
  • 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
  • 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर प्रस्तुत किया।
  • 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।[16]
  • 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
  • 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।[17]
  • 2000 - डैन लिनस्टेड ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई डेटा वॉल्ट मॉडलिंग को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। .
  • 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था।
  • 2012 - बिल इनमोन सार्वजनिक विधि को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को प्रायुक्त करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त विधि द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।

सूचना भंडारण

तथ्य

तथ्य मूल्य या माप है, जो प्रबंधित इकाई या प्रणाली के बारे में तथ्य का प्रतिनिधित्व करता है।

तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, मोबाइल टेलीफोन प्रणाली में, यदि बीटीएस (बेस ट्रांसीवर स्टेशन) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा:

  • tch_req_total = 1000
  • tch_req_success = 820
  • tch_req_fail = 180

इससे अधिक सेवा या व्यवसाय-प्रासंगिक जानकारी निकालने के लिए कच्चे स्तर पर तथ्यों को विभिन्न आयामों (डेटा वेयरहाउस) में उच्च स्तरों पर एकत्रित किया जाता है। इन्हें समुच्चय या सारांश या एकत्रित तथ्य कहा जाता है।

उदाहरण के लिए, यदि किसी शहर में तीन बीटीएस हैं, तो उपरोक्त तथ्यों को नेटवर्क आयाम में बीटीएस से शहर स्तर तक एकत्र किया जा सकता है। उदाहरण के लिए:

  • tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
  • avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3


डेटा भंडारण के लिए आयामी विरुद्ध सामान्यीकृत दृष्टिकोण

डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।

आयाम प्रस्ताव राल्फ किमबॉल के प्रस्ताव को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को आयाम मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।[18]


आयामी दृष्टिकोण

एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है।

आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।[17] व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं चूंकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा प्रस्तुत किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस सम्मिलित नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग विधि बहुत उपयोगी है।

तथ्यों और आयामों के मॉडल को डेटा क्यूब के रूप में भी समझा जा सकता है।[19] जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।

आयामी दृष्टिकोण के मुख्य हानि निम्नलिखित हैं:

  1. तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
  2. डेटा वेयरहाउस संरचना को संशोधित करना कठिन है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के विधियां को बदल देता है।

सामान्यीकृत दृष्टिकोण

सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा सीमा तक, डेटाबेस सामान्यीकरण नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में प्रायुक्त किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस प्रायुक्त किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।

इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ हानि यह हैं कि इसमें सम्मिलित तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में सम्मिलित करना और डेटा के स्रोतों और डेटा संरचना डेटा वेयरहाउस की त्रुटिहीन समझ के बिना जानकारी तक पहुंचना कठिन हो सकता है।

सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ सम्मिलित हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को सीमा तक सामान्य करना सम्मिलित हो सकता है (किमबॉल, राल्फ 2008)।

सूचना-संचालित व्यवसाय में,[20] रॉबर्ट हिलार्ड (लेखक) व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। विधि से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) किन्तु यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह विधि एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।[21]


डिजाइन की विधियां

नीचे से ऊपर डिज़ाइन

नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को विस्तृत डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट विधियों से)।[22]


उपर से नीचे डिज़ाइन

उपर से नीचे दृष्टिकोण सामान्यीकृत उद्योग डेटा मॉडल का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।[23]


हाइब्रिड डिजाइन

डेटा वेयरहाउस (डीडब्लू) अधिकांश हब और प्रवक्ता वास्तुकला के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और उद्यम संसाधन योजना सम्मिलित होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और परिवर्तन लोड निकालें प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत विधियां से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।

डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, चूंकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को मास्टर डेटा प्रबंधन भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।

डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास सम्मिलित हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, किन्तु यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।

डेटा वेयरहाउस विशेषताएँ

मूलभूत विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता सम्मिलित हैं।

विषय-उन्मुख

परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के आस-पास घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तविक में उपयोगी हो सकता है।

आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।

एकीकृत

डेटा वेयरहाउस के अन्दर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि सम्मिलित हैं।

समय-संस्करण

चूंकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)[24]


अहिंसक

डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो) है।[25]


डेटा वेयरहाउस विकल्प

एकत्रीकरण

डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, सामान्यतः, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।[24]


वर्चुअलाइजेशन

डेटा वर्चुअलाइजेशन के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ प्रौद्योगिक कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। चूँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से संबन्ध चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।[26]


डेटा वेयरहाउस आर्किटेक्चर

किसी संगठन द्वारा निर्दिष्ट डेटा वेयरहाउस के निर्माण/संगठन के लिए उपयोग की जाने वाली विभिन्न विधियाँ असंख्य हैं। डेटा वेयरहाउस की सही कार्यक्षमता के लिए विशेष रूप से आवश्यक हार्डवेयर, निर्मित सॉफ़्टवेयर और डेटा संसाधन डेटा वेयरहाउस आर्किटेक्चर के मुख्य घटक हैं। सभी डेटा वेयरहाउस में कई चरण होते हैं जिनमें संगठन की आवश्यकताओं को संशोधित और ठीक किया जाता है।[27]


विरुद्ध परिचालन प्रणाली

डेटाबेस सामान्यीकरण और इकाई-संबंध मॉडल के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ प्रविष्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।

डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना सम्मिलित होता है और यदि कभी हो तो संभवतः ही कभी select *, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं चूंकि विश्लेषण डेटाबेस (शिथिल, ओलाप) स्तंभ-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है।

संगठन उपयोग में विकास

ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:

ऑफ़लाइन परिचालन डेटा वेयरहाउस
विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (सामान्यतः दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
ऑफ़लाइन डेटा वेयरहाउस
इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
ऑन-समय डेटा वेयरहाउस
ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
एकीकृत डेटा वेयरहाउस
ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, जिससे उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।[28]


यह भी देखें

संदर्भ

  1. Dedić, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José (eds.). An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016). Vol. 1. SciTePress. pp. 196–206. doi:10.5220/0005858401960206. ISBN 978-989-758-187-8. Archived (PDF) from the original on 2018-05-22.
  2. 2.0 2.1 "9 Reasons Data Warehouse Projects Fail". blog.rjmetrics.com. 4 December 2014. Retrieved 2017-04-30.
  3. "Exploring Data Warehouses and Data Quality". spotlessdata.com. Archived from the original on 2018-07-26. Retrieved 2017-04-30.
  4. "What is a Data Warehouse? | Key Concepts | Amazon Web Services". Amazon Web Services, Inc. (in English). Retrieved 2023-02-13.
  5. "What is Big Data?". spotlessdata.com. Archived from the original on 2017-02-17. Retrieved 2017-04-30.
  6. Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). "Optimization of Data Warehousing System: Simplification in Reporting and Analysis". IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET). Foundation of Computer Science. 9 (6): 33–37.
  7. Marakas & O'Brien 2009
  8. 8.0 8.1 8.2 8.3 8.4 8.5 Rainer, R. Kelly; Cegielski, Casey G. (2012-05-01). Introduction to Information Systems: Enabling and Transforming Business, 4th Edition (Kindle ed.). Wiley. pp. 127, 128, 130, 131, 133. ISBN 978-1118129401.
  9. "Data Mart Concepts". Oracle. 2007.
  10. "OLTP vs. OLAP". Datawarehouse4u.Info. 2009. We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.
  11. "The Story So Far". 2002-04-15. Archived from the original on 2008-07-08. Retrieved 2008-09-21.
  12. 12.0 12.1 Kimball 2013, pg. 15
  13. "The audit of the Data Warehouse Framework" (PDF). Archived (PDF) from the original on 2012-05-12.
  14. Paul Gillin (February 20, 1984). "Will Teradata revive a market?". Computer World. pp. 43, 48. Retrieved 2017-03-13.
  15. Devlin, B. A.; Murphy, P. T. (1988). "An architecture for a business and information system". IBM Systems Journal. 27: 60–80. doi:10.1147/sj.271.0060.
  16. Inmon, Bill (1992). Building the Data Warehouse. Wiley. ISBN 0-471-56960-7.
  17. 17.0 17.1 Kimball, Ralph (2011). The Data Warehouse Toolkit. Wiley. p. 237. ISBN 978-0-470-14977-5.
  18. Golfarelli, Matteo; Maio, Dario; Rizzi, Stefano (1998-06-01). "The dimensional fact model: a conceptual model for data warehouses". International Journal of Cooperative Information Systems. 07 (2n03): 215–247. doi:10.1142/S0218843098000118. ISSN 0218-8430.
  19. "Introduction to Data Cubes".
  20. Hillard, Robert (2010). Information-Driven Business. Wiley. ISBN 978-0-470-62577-4.
  21. "Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development". Mike2.openmethodology.org. Retrieved 2013-06-14.
  22. "The Bottom-Up Misnomer - DecisionWorks Consulting". DecisionWorks Consulting (in English). 17 September 2003. Retrieved 2016-03-06.
  23. Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005
  24. 24.0 24.1 Paulraj., Ponniah (2010). Data warehousing fundamentals for IT professionals. Ponniah, Paulraj. (2nd ed.). Hoboken, N.J.: John Wiley & Sons. ISBN 9780470462072. OCLC 662453070.
  25. H., Inmon, William (2005). Building the data warehouse (4th ed.). Indianapolis, IN: Wiley Pub. ISBN 9780764599446. OCLC 61762085.{{cite book}}: CS1 maint: multiple names: authors list (link)
  26. Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Opportunities of collected city data for smart cities". IET Smart Cities. 4 (4): 275–291. doi:10.1049/smc2.12044. S2CID 253467923.
  27. Gupta, Satinder Bal; Mittal, Aditya (2009). Introduction to Database Management System. Laxmi Publications. ISBN 9788131807248.
  28. "Data Warehouse". 6 April 2019.


अग्रिम पठन