डेटा वेयरहाउस: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(7 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Centralized storage of knowledge}}
{{Short description|Centralized storage of knowledge}}
[[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]]
[[File:Data Warehouse Feeding Data Mart.jpg|alt=|thumb|डेटा वेयरहाउस अवलोकन]]
[[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे एंटरप्राइज़ डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और [[डेटा विश्लेषण]] के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।<ref>{{cite conference|last1=Dedić|first1=Nedim|last2=Stanier|first2=Clare|year=2016|editor1-last=Hammoudi|editor1-first=Slimane|editor2-last=Maciaszek|editor2-first=Leszek|editor3-last=Missikoff|editor3-first=Michele M. Missikoff|editor4-last=Camp|editor4-first=Olivier|editor5-last=Cordeiro|editor5-first=José|title=An Evaluation of the Challenges of Multilingualism in Data Warehouse Development|url=http://eprints.staffs.ac.uk/2770/|journal=Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016)|publisher=SciTePress|volume=1|pages=196–206|conference=International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy|conference-url=https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-url=https://web.archive.org/web/20180522180940/https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-date=2018-05-22 |url-status=live|doi=10.5220/0005858401960206|isbn=978-989-758-187-8|doi-access=free}}</ref> डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय [[भंडार (संस्करण नियंत्रण)]] हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं<ref name="rjmetrics">{{cite web|url=https://blog.rjmetrics.com/2014/12/04/10-common-mistakes-when-building-a-data-warehouse/|publisher=blog.rjmetrics.com|title=9 Reasons Data Warehouse Projects Fail|date=4 December 2014|access-date=2017-04-30}}</ref> जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।<ref name="spotlessdata">{{cite web|url=https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|archive-url=https://web.archive.org/web/20180726071809/https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|url-status=dead|archive-date=2018-07-26|publisher=spotlessdata.com|title=Exploring Data Warehouses and Data Quality|access-date=2017-04-30}}</ref> यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।<ref>{{Cite web |title=What is a Data Warehouse? {{!}} Key Concepts {{!}} Amazon Web Services |url=https://aws.amazon.com/data-warehouse/ |access-date=2023-02-13 |website=Amazon Web Services, Inc. |language=en-US}}</ref>
[[File:Data warehouse architecture.jpg|thumb|upright=1.5|डेटा वेयरहाउस का मूल आर्किटेक्चर]][[कम्प्यूटिंग]] में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे उद्योग डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और [[डेटा विश्लेषण]] के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।<ref>{{cite conference|last1=Dedić|first1=Nedim|last2=Stanier|first2=Clare|year=2016|editor1-last=Hammoudi|editor1-first=Slimane|editor2-last=Maciaszek|editor2-first=Leszek|editor3-last=Missikoff|editor3-first=Michele M. Missikoff|editor4-last=Camp|editor4-first=Olivier|editor5-last=Cordeiro|editor5-first=José|title=An Evaluation of the Challenges of Multilingualism in Data Warehouse Development|url=http://eprints.staffs.ac.uk/2770/|journal=Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016)|publisher=SciTePress|volume=1|pages=196–206|conference=International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy|conference-url=https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-url=https://web.archive.org/web/20180522180940/https://eprints.staffs.ac.uk/2770/1/ICEIS_2016_Volume_1.pdf |archive-date=2018-05-22 |url-status=live|doi=10.5220/0005858401960206|isbn=978-989-758-187-8|doi-access=free}}</ref> डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय [[भंडार (संस्करण नियंत्रण)]] हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं<ref name="rjmetrics">{{cite web|url=https://blog.rjmetrics.com/2014/12/04/10-common-mistakes-when-building-a-data-warehouse/|publisher=blog.rjmetrics.com|title=9 Reasons Data Warehouse Projects Fail|date=4 December 2014|access-date=2017-04-30}}</ref> जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।<ref name="spotlessdata">{{cite web|url=https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|archive-url=https://web.archive.org/web/20180726071809/https://spotlessdata.com/blog/exploring-data-warehouses-and-data-quality|url-status=dead|archive-date=2018-07-26|publisher=spotlessdata.com|title=Exploring Data Warehouses and Data Quality|access-date=2017-04-30}}</ref> यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।<ref>{{Cite web |title=What is a Data Warehouse? {{!}} Key Concepts {{!}} Amazon Web Services |url=https://aws.amazon.com/data-warehouse/ |access-date=2023-02-13 |website=Amazon Web Services, Inc. |language=en-US}}</ref>
वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे मार्केटिंग या सेल्स) से [[डालना|अपलोड]] किया जाता है। डेटा [[परिचालन डेटा स्टोर]] से गुजर सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।<ref name="rjmetrics"/>  
वेयरहाउस में स्टोर किया गया डेटा [[संचालन प्रणाली]] (जैसे विपणन या खरीद) से [[डालना|अपलोड]] किया जाता है। डेटा [[परिचालन डेटा स्टोर]] से निकल सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।<ref name="rjmetrics"/>  


एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य तरीके हैं।
एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य विधियां हैं।


== ईटीएल-आधारित डेटा वेयरहाउसिंग ==
== ईटीएल-आधारित डेटा वेयरहाउसिंग ==
विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)|अभिनय (डेटा)]], [[डेटा एकीकरण]] और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा सेट को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी [[स्टार स्कीमा]] कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।<ref name=IJCA96Patil>{{cite journal |url=http://www.ijcaonline.org/proceedings/icwet/number9/2131-db195 |author1=Patil, Preeti S. |author2=Srikantha Rao |author3=Suryakant B. Patil |title=Optimization of Data Warehousing System: Simplification in Reporting and Analysis |journal=IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET) |year=2011 |volume=9 |issue=6 |pages=33–37 |publisher=Foundation of Computer Science}}</ref>
विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस<ref name="spotlessdata2">{{cite web|url=https://spotlessdata.com/what-big-data|archive-url=https://web.archive.org/web/20170217144032/https://spotlessdata.com/what-big-data|url-status=dead|archive-date=2017-02-17|publisher=spotlessdata.com|title=What is Big Data?|access-date=2017-04-30}}</ref> अपने प्रमुख कार्यों को व्यवस्थित करने के लिए [[स्टेजिंग (डेटा)|अभिनय (डेटा)]], [[डेटा एकीकरण]] और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा समुच्चय को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी [[स्टार स्कीमा]] कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।<ref name=IJCA96Patil>{{cite journal |url=http://www.ijcaonline.org/proceedings/icwet/number9/2131-db195 |author1=Patil, Preeti S. |author2=Srikantha Rao |author3=Suryakant B. Patil |title=Optimization of Data Warehousing System: Simplification in Reporting and Analysis |journal=IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET) |year=2011 |volume=9 |issue=6 |pages=33–37 |publisher=Foundation of Computer Science}}</ref>


डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक पेशेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।<ref>Marakas & O'Brien 2009</ref> हालाँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और [[डेटा शब्दकोश]] को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस व्यापक संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में [[व्यापार खुफिया उपकरण|व्यापार गुप्त उपकरण]], डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और [[मेटा डेटा]] को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण शामिल हैं।
डेटा का मुख्य स्रोत [[डेटा खनन]], ओएलएपी, [[बाजार अनुसंधान]] और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक प्रस्तुतेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।<ref>Marakas & O'Brien 2009</ref> चूँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और [[डेटा शब्दकोश]] को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस विस्तृत संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में [[व्यापार खुफिया उपकरण|व्यापार गुप्त उपकरण]], डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और [[मेटा डेटा]] को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण सम्मिलित हैं।


== ईएलटी-आधारित डेटा वेयरहाउसिंग ==
== ईएलटी-आधारित डेटा वेयरहाउसिंग ==
Line 18: Line 18:
* एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
* एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
* लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
* लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
* डेटा इतिहास बनाए रखें, भले ही स्रोत लेनदेन प्रणालियां न हों।
* डेटा इतिहास बनाए रखें, चाहे स्रोत लेनदेन प्रणालियां न हों।
* कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, लेकिन विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
* कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, किन्तु विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
* लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
* लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
* संगठन की जानकारी को लगातार प्रस्तुत करें।
* संगठन की जानकारी को लगातार प्रस्तुत करें।
* डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए [[सामान्य डेटा मॉडल]] प्रदान करें।
* डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए [[सामान्य डेटा मॉडल]] प्रदान करें।
* डेटा को पुनर्गठित करें ताकि यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
* डेटा को पुनर्गठित करें जिससे यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
* डेटा को पुनर्व्यवस्थित करें ताकि यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
* डेटा को पुनर्व्यवस्थित करें जिससे यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
* परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से [[ग्राहक संबंध प्रबंधन]] (सीआरएम) प्रणालियों में मूल्य जोड़ें।
* परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से [[ग्राहक संबंध प्रबंधन]] (सीआरएम) प्रणालियों में मूल्य जोड़ें।
*निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
*निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
Line 30: Line 30:


== सामान्य ==
== सामान्य ==
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित शामिल हैं:
डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित सम्मिलित हैं:


* सोर्स प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
* स्रोत प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
* डेटा एकीकरण तकनीक और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
* डेटा एकीकरण विधि और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
* किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
* किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
* विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
* विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
Line 49: Line 49:


==संबंधित प्रणाली ([[डेटा मार्ट]], ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)==
==संबंधित प्रणाली ([[डेटा मार्ट]], ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)==
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के भीतर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।<ref>{{cite web |url=http://docs.oracle.com/html/E10312_01/dm_concepts.htm |title=Data Mart Concepts |publisher=Oracle |year=2007}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल सबसेट को कवर करते हैं, वे अधिकांश लागू करने में आसान और तेज़ होते हैं।
डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के अन्दर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।<ref>{{cite web |url=http://docs.oracle.com/html/E10312_01/dm_concepts.htm |title=Data Mart Concepts |publisher=Oracle |year=2007}}</ref> इस प्रणाली में डेटा मॉडलिंग विधियों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल उपसमुच्चय को आवरण करते हैं, वे अधिकांश प्रायुक्त करने में आसान और तेज़ होते हैं।


{| class="wikitable"
{| class="wikitable"
|+ Difference between data warehouse and {{nowrap|data mart}}
|+ डेटा वेयरहाउस और डेटा मार्ट के बीच अंतर
|-
|-
! Attribute
! गुण
! Data warehouse
! डेटा वेयरहाउस
! Data mart
! डेटा मार्ट
|-
|-
! style="text-align: left" | Scope of the data
! style="text-align: left" | डेटा का सीमा
| enterprise-wide
| उद्यम-व्यापी
| department-wide
| विभाग चौड़ा
|-
|-
! style="text-align: left" | Number of subject areas
! style="text-align: left" | विषय क्षेत्रों की संख्या
| multiple
| एकाधिक
| single
| एकल
|-
|-
! style="text-align: left" | How difficult to build
! style="text-align: left" | बनाना कितना कठिन है
| difficult
| कठिन
| easy
| सरल
|-
|-
! style="text-align: left" | How much time takes to build
! style="text-align: left" | बनने में कितना समय लगता है
| more
| अधिक
| less
| कम
|-
|-
! style="text-align: left" | Amount of memory
! style="text-align: left" | स्मृति की मात्रा
| larger
| बड़ा
| limited
| सीमित
|}
|}
डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट शामिल हैं।{{clarify |date=March 2017 |reason= }}
डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट सम्मिलित हैं।{{clarify |date=March 2017 |reason= }}


ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण शामिल होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का व्यापक रूप से [[डेटा खनन]] तकनीकों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के करीब होने की उम्मीद होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन बुनियादी संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।
ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण सम्मिलित होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का विस्तृत रूप से [[डेटा खनन]] विधियों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के निकट होने की अपेक्षा होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन मूलभूत संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।


[[ऑनलाइन लेनदेन प्रसंस्करण]] (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः [[तीसरा सामान्य रूप]]) है।<ref>{{cite web |url=http://datawarehouse4u.info/OLTP-vs-OLAP.html |title=OLTP vs. OLAP |year=2009 |website=Datawarehouse4u.Info |quote=We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.}}</ref> इस प्रणाली में डेटा मॉडलिंग तकनीकों के लिए सामान्यीकरण आदर्श है।
[[ऑनलाइन लेनदेन प्रसंस्करण]] (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः [[तीसरा सामान्य रूप]]) है।<ref>{{cite web |url=http://datawarehouse4u.info/OLTP-vs-OLAP.html |title=OLTP vs. OLAP |year=2009 |website=Datawarehouse4u.Info |quote=We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.}}</ref> इस प्रणाली में डेटा मॉडलिंग विधियों के लिए सामान्यीकरण आदर्श है।


[[भविष्य बतानेवाला विश्लेषक]] जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की [[भविष्यवाणी]] करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, जबकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।
[[भविष्य बतानेवाला विश्लेषक]] जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की [[भविष्यवाणी]] करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, चूंकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।


== इतिहास ==
== इतिहास ==
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। हालांकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, लेकिन उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।
डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है<ref>{{cite web |url=http://www.computerworld.com/databasetopics/data/story/0,10801,70102,00.html |title=The Story So Far |date=2002-04-15 |access-date=2008-09-21 |url-status=dead |archive-url=https://web.archive.org/web/20080708182105/http://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html |archive-date=2008-07-08 }}</ref> जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से [[निर्णय समर्थन प्रणाली]] तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। चूंकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, किन्तु उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।


इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का तरीका बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के भीतर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक तरीके से प्रबंधित किया जा सकता है।
इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का विधि बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के अन्दर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक विधियां से प्रबंधित किया जा सकता है।


डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:
डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:
Line 96: Line 96:
* 1970 - [[ACNielsen|एसीनीलसन]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" />
* 1970 - [[ACNielsen|एसीनीलसन]] और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।<ref name="kimball16" />
*1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref>
*1970 - [[बिल इनमोन]] ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।{{citation needed|date=June 2014}}<ref>{{Cite web|title=The audit of the Data Warehouse Framework|url=http://ceur-ws.org/Vol-19/paper14.pdf |archive-url=https://web.archive.org/web/20120512064024/http://ceur-ws.org/Vol-19/paper14.pdf |archive-date=2012-05-12 |url-status=live}}</ref>
* 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER|मैपर]] (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) पेश की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें दुनिया की पहली [[चौथी पीढ़ी की प्रोग्रामिंग भाषा]] शामिल है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस तकनीक का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
* 1975 - [[स्पेरी यूनिवैक]] ने [[MAPPER|मैपर]] (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) प्रस्तुत की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें संसार की पहली [[चौथी पीढ़ी की प्रोग्रामिंग भाषा]] सम्मिलित है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस विधि का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
* 1983 - [[टेराडाटा]] ने डीबीसी/1012 डेटाबेस कंप्यूटर पेश किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।<ref>{{Cite news |title= Will Teradata revive a market? |author= Paul Gillin |pages= 43, 48 |work= Computer World |date= February 20, 1984 |url= https://books.google.com/books?id=5pw6ePUC8YYC&pg=PA48 |access-date= 2017-03-13 }}</ref>
* 1983 - [[टेराडाटा]] ने डीबीसी/1012 डेटाबेस कंप्यूटर प्रस्तुत किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।<ref>{{Cite news |title= Will Teradata revive a market? |author= Paul Gillin |pages= 43, 48 |work= Computer World |date= February 20, 1984 |url= https://books.google.com/books?id=5pw6ePUC8YYC&pg=PA48 |access-date= 2017-03-13 }}</ref>
* 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम|रूपक कंप्यूटर प्रणालियों]], डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
* 1984 - [[डेविड लिडल]] और डॉन मस्सारो द्वारा स्थापित [[रूपक कंप्यूटर सिस्टम|रूपक कंप्यूटर प्रणालियों]], डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
* 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref>
* 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।<ref>{{cite journal|title=An architecture for a business and information system|journal=IBM Systems Journal | doi=10.1147/sj.271.0060|volume=27|pages=60–80|year=1988|last1=Devlin|first1=B. A.|last2=Murphy|first2=P. T.}}</ref>
* 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस पेश किया।
* 1990 - [[राल्फ किमबॉल]] द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस प्रस्तुत किया।
* 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
* 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
* 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर पेश किया।
* 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर प्रस्तुत किया।
* 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref>
* 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।<ref>{{cite book|last=Inmon|first=Bill|title=Building the Data Warehouse|year=1992|publisher=Wiley|isbn=0-471-56960-7|url=https://archive.org/details/buildingdataware00inmo_1}}</ref>
* 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
* 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
Line 108: Line 108:
* 2000 - [[डैन लिनस्टेड]] ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। .
* 2000 - [[डैन लिनस्टेड]] ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई [[डेटा वॉल्ट मॉडलिंग]] को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। .
* 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था।
* 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था।
* 2012 - बिल इनमोन सार्वजनिक तकनीक को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को लागू करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त तकनीक द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।
* 2012 - बिल इनमोन सार्वजनिक विधि को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को प्रायुक्त करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त विधि द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।


== सूचना भंडारण ==
== सूचना भंडारण ==
Line 127: Line 127:




=== डेटा भंडारण के लिए आयामी बनाम सामान्यीकृत दृष्टिकोण ===
=== डेटा भंडारण के लिए आयामी विरुद्ध सामान्यीकृत दृष्टिकोण ===
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।
डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।


Line 136: Line 136:
एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है।
एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है।


आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" /> व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं जबकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा पेश किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस शामिल नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग तकनीक बहुत उपयोगी है।
आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।<ref name=":0" /> व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं चूंकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा प्रस्तुत किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस सम्मिलित नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग विधि बहुत उपयोगी है।


तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।
तथ्यों और आयामों के मॉडल को [[डेटा क्यूब]] के रूप में भी समझा जा सकता है।<ref>{{cite web| url = http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html| title = Introduction to Data Cubes}}</ref> जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।


आयामी दृष्टिकोण के मुख्य नुकसान निम्नलिखित हैं:
आयामी दृष्टिकोण के मुख्य हानि निम्नलिखित हैं:
# तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
# तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
# डेटा वेयरहाउस संरचना को संशोधित करना मुश्किल है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के तरीके को बदल देता है।
# डेटा वेयरहाउस संरचना को संशोधित करना कठिन है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के विधियां को बदल देता है।


==== सामान्यीकृत दृष्टिकोण ====
==== सामान्यीकृत दृष्टिकोण ====
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा हद तक, [[डेटाबेस सामान्यीकरण]] नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में लागू किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस लागू किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।
सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा सीमा तक, [[डेटाबेस सामान्यीकरण]] नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में प्रायुक्त किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस प्रायुक्त किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।


इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ नुकसान यह हैं कि इसमें शामिल तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में शामिल करना और डेटा के स्रोतों और [[डेटा संरचना]] डेटा वेयरहाउस की सटीक समझ के बिना जानकारी तक पहुंचना मुश्किल हो सकता है।  
इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ हानि यह हैं कि इसमें सम्मिलित तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में सम्मिलित करना और डेटा के स्रोतों और [[डेटा संरचना]] डेटा वेयरहाउस की त्रुटिहीन समझ के बिना जानकारी तक पहुंचना कठिन हो सकता है।  


सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ शामिल हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को हद तक सामान्य करना शामिल हो सकता है (किमबॉल, राल्फ 2008)।
सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ सम्मिलित हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को सीमा तक सामान्य करना सम्मिलित हो सकता है (किमबॉल, राल्फ 2008)।


सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। तकनीक से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) लेकिन यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह तकनीक एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Small_Worlds_Data_Transformation_Measure |title=Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development |publisher=Mike2.openmethodology.org |access-date=2013-06-14}}</ref>
सूचना-संचालित व्यवसाय में,<ref>{{cite book|last=Hillard|first=Robert|title=Information-Driven Business|year=2010|publisher=Wiley|isbn=978-0-470-62577-4}}</ref> [[रॉबर्ट हिलार्ड (लेखक)]] व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। विधि से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) किन्तु यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह विधि एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।<ref>{{cite web|url=http://mike2.openmethodology.org/wiki/Small_Worlds_Data_Transformation_Measure |title=Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development |publisher=Mike2.openmethodology.org |access-date=2013-06-14}}</ref>






== डिजाइन के तरीके ==
== डिजाइन की विधियां ==
=== नीचे से ऊपर डिज़ाइन ===
=== नीचे से ऊपर डिज़ाइन ===
नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को व्यापक डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट तरीके से)।<ref>{{Cite web|url=http://decisionworks.com/2003/09/the-bottom-up-misnomer/|title=The Bottom-Up Misnomer - DecisionWorks Consulting|website=DecisionWorks Consulting|date=17 September 2003|language=en-US|access-date=2016-03-06}}</ref>
नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को विस्तृत डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट विधियों से)।<ref>{{Cite web|url=http://decisionworks.com/2003/09/the-bottom-up-misnomer/|title=The Bottom-Up Misnomer - DecisionWorks Consulting|website=DecisionWorks Consulting|date=17 September 2003|language=en-US|access-date=2016-03-06}}</ref>




=== उपर से नीचे डिज़ाइन ===
=== उपर से नीचे डिज़ाइन ===
उपर से नीचे दृष्टिकोण सामान्यीकृत एंटरप्राइज़ [[डेटा मॉडल]] का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।<ref name="ReferenceA">Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005</ref>
उपर से नीचे दृष्टिकोण सामान्यीकृत उद्योग [[डेटा मॉडल]] का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।<ref name="ReferenceA">Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005</ref>




=== हाइब्रिड डिजाइन ===
=== हाइब्रिड डिजाइन ===
डेटा वेयरहाउस (डीडब्लू) अधिकांश [[हब और प्रवक्ता वास्तुकला]] के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और [[उद्यम संसाधन योजना]] शामिल होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और [[ट्रांसफॉर्म लोड निकालें|परिवर्तन लोड निकालें]] प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत तरीके से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।
डेटा वेयरहाउस (डीडब्लू) अधिकांश [[हब और प्रवक्ता वास्तुकला]] के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और [[उद्यम संसाधन योजना]] सम्मिलित होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और [[ट्रांसफॉर्म लोड निकालें|परिवर्तन लोड निकालें]] प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत विधियां से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।


डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, हालांकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को [[मास्टर डेटा प्रबंधन]] भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।
डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, चूंकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को [[मास्टर डेटा प्रबंधन]] भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।


डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास शामिल हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, लेकिन यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।
डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास सम्मिलित हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, किन्तु यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।


== डेटा वेयरहाउस विशेषताएँ ==
== डेटा वेयरहाउस विशेषताएँ ==
बुनियादी विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता शामिल हैं।
मूलभूत विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता सम्मिलित हैं।


=== विषय-उन्मुख ===
=== विषय-उन्मुख ===
Line 180: Line 180:


=== एकीकृत ===
=== एकीकृत ===
डेटा वेयरहाउस के भीतर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि शामिल हैं।
डेटा वेयरहाउस के अन्दर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि सम्मिलित हैं।


=== समय-संस्करण ===
=== समय-संस्करण ===
जबकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)<ref name=":1">{{Cite book|title=Data warehousing fundamentals for IT professionals|last=Paulraj.|first=Ponniah|date=2010|publisher=John Wiley & Sons|others=Ponniah, Paulraj.|isbn=9780470462072|edition= 2nd |location=Hoboken, N.J.|oclc=662453070}}</ref>
चूंकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)<ref name=":1">{{Cite book|title=Data warehousing fundamentals for IT professionals|last=Paulraj.|first=Ponniah|date=2010|publisher=John Wiley & Sons|others=Ponniah, Paulraj.|isbn=9780470462072|edition= 2nd |location=Hoboken, N.J.|oclc=662453070}}</ref>




Line 197: Line 197:


=== वर्चुअलाइजेशन ===
=== वर्चुअलाइजेशन ===
[[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ तकनीकी कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। हालाँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से कनेक्शन चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।<ref name="Paiho">{{cite journal | url=https://doi.org/10.1049/smc2.12044 | doi=10.1049/smc2.12044 | title=Opportunities of collected city data for smart cities | year=2022 | last1=Paiho | first1=Satu | last2=Tuominen | first2=Pekka | last3=Rökman | first3=Jyri | last4=Ylikerälä | first4=Markus | last5=Pajula | first5=Juha | last6=Siikavirta | first6=Hanne | journal=IET Smart Cities | volume=4 | issue=4 | pages=275–291 | s2cid=253467923 }}</ref>
[[डेटा वर्चुअलाइजेशन]] के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ प्रौद्योगिक कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। चूँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से संबन्ध चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।<ref name="Paiho">{{cite journal | url=https://doi.org/10.1049/smc2.12044 | doi=10.1049/smc2.12044 | title=Opportunities of collected city data for smart cities | year=2022 | last1=Paiho | first1=Satu | last2=Tuominen | first2=Pekka | last3=Rökman | first3=Jyri | last4=Ylikerälä | first4=Markus | last5=Pajula | first5=Juha | last6=Siikavirta | first6=Hanne | journal=IET Smart Cities | volume=4 | issue=4 | pages=275–291 | s2cid=253467923 }}</ref>




Line 204: Line 204:




== बनाम परिचालन प्रणाली ==
== विरुद्ध परिचालन प्रणाली ==
डेटाबेस सामान्यीकरण और [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ इन्सर्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।
डेटाबेस सामान्यीकरण और [[इकाई-संबंध मॉडल]] के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ प्रविष्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।


डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना शामिल होता है और यदि कभी हो तो शायद ही कभी {{code|select *}}, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं जबकि विश्लेषण डेटाबेस (शिथिल, ओलाप) [[स्तंभ-उन्मुख DBMS|स्तंभ-उन्मुख डीबीएमएस]] के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है।
डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना सम्मिलित होता है और यदि कभी हो तो संभवतः ही कभी {{code|select *}}, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं चूंकि विश्लेषण डेटाबेस (शिथिल, ओलाप) [[स्तंभ-उन्मुख DBMS|स्तंभ-उन्मुख डीबीएमएस]] के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है।


== संगठन उपयोग में विकास ==
== संगठन उपयोग में विकास ==
Line 215: Line 215:
; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
; ऑफ़लाइन डेटा वेयरहाउस: इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
; ऑन-समय डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
; ऑन-समय डेटा वेयरहाउस: ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
; एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, ताकि उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।<ref>{{cite web |url=http://www.tech-faq.com/data-warehouse.html |title=Data Warehouse |date=6 April 2019 }}</ref>
; एकीकृत डेटा वेयरहाउस: ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, जिससे उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।<ref>{{cite web |url=http://www.tech-faq.com/data-warehouse.html |title=Data Warehouse |date=6 April 2019 }}</ref>




Line 238: Line 238:
{{Data warehouse}}
{{Data warehouse}}


{{DEFAULTSORT:Data Warehouse}}[[Category: डेटा प्रबंधन]] [[Category: डेटा वेयरहाउसिंग| डेटा वेयरहाउसिंग]]
{{DEFAULTSORT:Data Warehouse}}


 
[[Category:All articles with unsourced statements|Data Warehouse]]
 
[[Category:Articles with unsourced statements from June 2014|Data Warehouse]]
[[Category: Machine Translated Page]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 16/02/2023]]
[[Category:Collapse templates|Data Warehouse]]
[[Category:Created On 16/02/2023|Data Warehouse]]
[[Category:Lua-based templates|Data Warehouse]]
[[Category:Machine Translated Page|Data Warehouse]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Data Warehouse]]
[[Category:Pages with script errors|Data Warehouse]]
[[Category:Short description with empty Wikidata description|Data Warehouse]]
[[Category:Sidebars with styles needing conversion|Data Warehouse]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Data Warehouse]]
[[Category:Templates generating microformats|Data Warehouse]]
[[Category:Templates that add a tracking category|Data Warehouse]]
[[Category:Templates that are not mobile friendly|Data Warehouse]]
[[Category:Templates that generate short descriptions|Data Warehouse]]
[[Category:Templates using TemplateData|Data Warehouse]]
[[Category:Wikipedia articles needing clarification from March 2017|Data Warehouse]]
[[Category:Wikipedia metatemplates|Data Warehouse]]
[[Category:डेटा प्रबंधन|Data Warehouse]]
[[Category:डेटा वेयरहाउसिंग| डेटा वेयरहाउसिंग]]

Latest revision as of 15:47, 16 March 2023

डेटा वेयरहाउस अवलोकन
डेटा वेयरहाउस का मूल आर्किटेक्चर

कम्प्यूटिंग में, डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे उद्योग डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, डेटा वेयरहाउस एक ऐसी प्रणाली है जिसका उपयोग व्यावसायिक रिपोर्टिंग और डेटा विश्लेषण के लिए किया जाता है और इसे व्यावसायिक बुद्धिमत्ता का प्रमुख घटक माना जाता है।[1] डीडब्ल्यू या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार (संस्करण नियंत्रण) हैं। वे वर्तमान और ऐतिहासिक डेटा को ही स्थान पर संग्रहीत करते हैं[2] जिनका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है।[3] यह कंपनियों के लिए लाभदायक है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।[4]

वेयरहाउस में स्टोर किया गया डेटा संचालन प्रणाली (जैसे विपणन या खरीद) से अपलोड किया जाता है। डेटा परिचालन डेटा स्टोर से निकल सकता है और रिपोर्टिंग के लिए डीडब्ल्यू में उपयोग किए जाने से पहले डेटा की गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त संचालन के लिए डेटा क्लींजिंग की आवश्यकता हो सकती है।[2]

एक्सट्रेक्ट, परिवर्तन, लोड (ईटीएल) और एक्सट्रैक्ट, लोड, परिवर्तन (ईएलटी) डेटा वेयरहाउस प्रणाली बनाने के लिए उपयोग किए जाने वाले दो मुख्य विधियां हैं।

ईटीएल-आधारित डेटा वेयरहाउसिंग

विशिष्ट एक्सट्रैक्ट, परिवर्तन, लोड (ईटीएल) आधारित डेटा वेयरहाउस[5] अपने प्रमुख कार्यों को व्यवस्थित करने के लिए अभिनय (डेटा), डेटा एकीकरण और अभिगम लेयर्स का उपयोग करता है। अभिनय लेयर या अभिनय डेटाबेस प्रत्येक असमान स्रोत डेटा प्रणाली से निकाले गए कच्चे डेटा को संग्रहीत करता है। एकीकरण परत डेटा को अभिनय परत से रूपांतरित करके अलग-अलग डेटा समुच्चय को एकीकृत करती है, अधिकांश इस रूपांतरित डेटा को संचालन डेटा स्टोर (ओडीएस) डेटाबेस में संग्रहीत करती है। एकीकृत डेटा को फिर दूसरे डेटाबेस में ले जाया जाता है, जिसे अधिकांश डेटा वेयरहाउस डेटाबेस कहा जाता है, जहाँ डेटा को पदानुक्रमित समूहों में व्यवस्थित किया जाता है, जिसे अधिकांश आयाम और तथ्यों और समग्र तथ्यों में कहा जाता है। तथ्यों और आयामों के संयोजन को कभी-कभी स्टार स्कीमा कहा जाता है। अभिगम परत उपयोगकर्ताओं को डेटा पुनर्प्राप्त करने में सहायता करती है।[6]

डेटा का मुख्य स्रोत डेटा खनन, ओएलएपी, बाजार अनुसंधान और निर्णय समर्थन के लिए प्रबंधकों और अन्य व्यावसायिक प्रस्तुतेवरों द्वारा उपयोग के लिए डेटा सफाई, रूपांतरित, सूचीबद्ध और उपलब्ध कराया गया है।[7] चूँकि, डेटा को पुनः प्राप्त करने और उसका विश्लेषण करने, डेटा निकालने, बदलने और लोड करने और डेटा शब्दकोश को प्रबंधित करने के साधन भी डेटा वेयरहाउसिंग प्रणाली के आवश्यक घटक माने जाते हैं। डेटा वेयरहाउसिंग के कई संदर्भ इस विस्तृत संदर्भ का उपयोग करते हैं। इस प्रकार, डेटा वेयरहाउसिंग के लिए विस्तारित परिभाषा में व्यापार गुप्त उपकरण, डेटा निकालने, बदलने और डेटा को भण्डार में लोड करने और मेटा डेटा को प्रबंधित करने और पुनर्प्राप्त करने के लिए उपकरण सम्मिलित हैं।

ईएलटी-आधारित डेटा वेयरहाउसिंग

एक्सट्रेक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउस आर्किटेक्चर

एक्सट्रैक्ट, लोड, ट्रांसफ़ॉर्म-आधारित डेटा वेयरहाउसिंग डेटा परिवर्तन के लिए अलग एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड टूल से छुटकारा दिलाता है। इसके अतिरिक्त, यह डेटा वेयरहाउस के अंदर ही अभिनय क्षेत्र बनाए रखता है। इस दृष्टिकोण में, डेटा को विषम स्रोत प्रणालियों से निकाला जाता है और फिर किसी भी परिवर्तन के होने से पहले सीधे डेटा वेयरहाउस में लोड किया जाता है। सभी आवश्यक परिवर्तनों को तब डेटा वेयरहाउस के अंदर ही संभाला जाता है। अंत में, हेरफेर किए गए डेटा को उसी डेटा वेयरहाउस में लक्ष्य तालिकाओं में लोड किया जाता है।

लाभ

डेटा वेयरहाउस स्रोत लेनदेन प्रणाली से जानकारी की प्रति रखता है। यह वास्तुशिल्प जटिलता अवसर प्रदान करती है:

  • एकाधिक स्रोतों से डेटा को डेटाबेस और डेटा मॉडल में एकीकृत करें। एकल डेटाबेस में डेटा का अधिक मण्डली इसलिए ओडीएस में डेटा प्रस्तुत करने के लिए एकल क्वेरी इंजन का उपयोग किया जा सकता है।
  • लेन-देन प्रसंस्करण डेटाबेस में बड़े, लंबे समय तक चलने वाले विश्लेषण प्रश्नों को चलाने के प्रयासों के कारण लेनदेन प्रसंस्करण प्रणालियों में डेटाबेस अलगाव स्तर लॉक विवाद की समस्या को कम करें।
  • डेटा इतिहास बनाए रखें, चाहे स्रोत लेनदेन प्रणालियां न हों।
  • कई स्रोत प्रणालियों से डेटा को एकीकृत करें, पूरे उद्यम में केंद्रीय दृश्य को सक्षम करें। यह लाभ हमेशा मूल्यवान होता है, किन्तु विशेष रूप से तब जब संगठन विलय द्वारा विकसित हुआ हो।
  • लगातार कोड और विवरण प्रदान करके, फ़्लैगिंग या खराब डेटा को ठीक करके डेटा की गुणवत्ता में सुधार करें।
  • संगठन की जानकारी को लगातार प्रस्तुत करें।
  • डेटा के स्रोत की परवाह किए बिना रुचि के सभी डेटा के लिए सामान्य डेटा मॉडल प्रदान करें।
  • डेटा को पुनर्गठित करें जिससे यह व्यावसायिक उपयोगकर्ताओं के लिए समझ में आए।
  • डेटा को पुनर्व्यवस्थित करें जिससे यह परिचालन प्रणालियों को प्रभावित किए बिना जटिल विश्लेषणात्मक प्रश्नों के लिए भी उत्कृष्ट क्वेरी प्रदर्शन प्रदान करे।
  • परिचालन व्यावसायिक अनुप्रयोगों, विशेष रूप से ग्राहक संबंध प्रबंधन (सीआरएम) प्रणालियों में मूल्य जोड़ें।
  • निर्णय लें–समर्थन प्रश्नों को लिखना आसान बनाएं।
  • दोहराए गए डेटा को व्यवस्थित और स्पष्ट करें।

सामान्य

डेटा वेयरहाउस और मार्ट के वातावरण में निम्नलिखित सम्मिलित हैं:

  • स्रोत प्रणाली जो वेयरहाउस या मार्ट को डेटा प्रदान करते हैं;
  • डेटा एकीकरण विधि और प्रक्रियाएँ जो उपयोग के लिए डेटा तैयार करने के लिए आवश्यक हैं;
  • किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा स्टोर करने के लिए विभिन्न आर्किटेक्चर;
  • विभिन्न प्रकार के उपयोगकर्ताओं के लिए विभिन्न उपकरण और अनुप्रयोग;
  • मेटाडाटा, डेटा गुणवत्ता, और शासन प्रक्रियाएं यह सुनिश्चित करने के लिए होनी चाहिए कि गोदाम या मार्ट अपने उद्देश्यों को पूरा करता है।

ऊपर सूचीबद्ध स्रोत प्रणालियों के संबंध में, आर. केली रेनर कहते हैं, डेटा वेयरहाउस में डेटा के लिए सामान्य स्रोत कंपनी का परिचालन डेटाबेस है, जो रिलेशनल डेटाबेस हो सकता है।[8]

डेटा एकीकरण के संबंध में, रेनर कहते हैं, स्रोत प्रणाली से डेटा निकालना, उन्हें रूपांतरित करना और उन्हें डेटा मार्ट या वेयरहाउस में लोड करना आवश्यक है।[8]

रेनर किसी संगठन के डेटा वेयरहाउस या डेटा मार्ट में डेटा संग्रहीत करने पर चर्चा करता है।[8]

मेटाडेटा डेटा के बारे में डेटा है। आईटी कर्मियों को डेटा स्रोतों; डेटाबेस, तालिका और स्तंभ नाम; ताज़ा कार्यक्रम; और डेटा उपयोग के उपाय के बारे में जानकारी चाहिए।[8]

आज, सबसे सफल कंपनियाँ वे हैं जो बाज़ार में परिवर्तनों और अवसरों के प्रति त्वरित और लचीले ढंग से प्रतिक्रिया कर सकती हैं। इस प्रतिक्रिया की कुंजी विश्लेषकों और प्रबंधकों द्वारा डेटा और सूचना का प्रभावी और कुशल उपयोग है।[8] डेटा वेयरहाउस ऐतिहासिक डेटा का भंडार है जो विषय द्वारा संगठन में निर्णय लेने वालों का समर्थन करने के लिए आयोजित किया जाता है।[8]डेटा मार्ट या वेयरहाउस में बार डेटा स्टोर हो जाने के बाद, इसे अभिगम किया जा सकता है।

संबंधित प्रणाली (डेटा मार्ट, ओलाप, ओएलटीपी, प्रेडिक्टिव एनालिटिक्स)

डेटा मार्ट डेटा वेयरहाउस का सरल रूप है जो विषय (या कार्यात्मक क्षेत्र) पर केंद्रित है, इसलिए वे बिक्री, वित्त या विपणन जैसे सीमित स्रोतों से डेटा प्राप्त करते हैं। डेटा मौसा अधिकांश संगठन के अन्दर ही विभाग द्वारा निर्मित और नियंत्रित होते हैं। स्रोत आंतरिक संचालन प्रणाली, केंद्रीय डेटा वेयरहाउस या बाहरी डेटा हो सकते हैं।[9] इस प्रणाली में डेटा मॉडलिंग विधियों के लिए विसामान्यीकरण आदर्श है। यह देखते हुए कि डेटा मार्ट सामान्यतः डेटा वेयरहाउस में निहित डेटा के केवल उपसमुच्चय को आवरण करते हैं, वे अधिकांश प्रायुक्त करने में आसान और तेज़ होते हैं।

डेटा वेयरहाउस और डेटा मार्ट के बीच अंतर
गुण डेटा वेयरहाउस डेटा मार्ट
डेटा का सीमा उद्यम-व्यापी विभाग चौड़ा
विषय क्षेत्रों की संख्या एकाधिक एकल
बनाना कितना कठिन है कठिन सरल
बनने में कितना समय लगता है अधिक कम
स्मृति की मात्रा बड़ा सीमित

डेटा मार्ट के प्रकारों में डेटा_मार्ट निर्भर_डेटा_मार्ट, स्वतंत्र और हाइब्रिड डेटा मार्ट सम्मिलित हैं।[clarification needed]

ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) को अपेक्षाकृत कम मात्रा में लेनदेन की विशेषता है। प्रश्न अधिकांश बहुत जटिल होते हैं और एकत्रीकरण सम्मिलित होते हैं। ओलाप प्रणाली के लिए, प्रतिक्रिया समय प्रभावी उपाय है। ओलाप एप्लिकेशन का विस्तृत रूप से डेटा खनन विधियों द्वारा उपयोग किया जाता है। ओलाप डेटाबेस एकीकृत, ऐतिहासिक डेटा को बहु-आयामी स्कीमा (सामान्यतः स्टार स्कीमा) में संग्रहीत करते हैं। ओलाप प्रणाली में सामान्यतः डेटा मौसा के विपरीत कुछ घंटों की डेटा विलंबता होती है, जहाँ विलंबता दिन के निकट होने की अपेक्षा होती है। ओलाप दृष्टिकोण का उपयोग कई स्रोतों और दृष्टिकोणों से बहुआयामी डेटा का विश्लेषण करने के लिए किया जाता है। ओलाप में तीन मूलभूत संचालन रोल-अप (समेकन), ड्रिल-डाउन और स्लाइसिंग और डाइसिंग हैं।

ऑनलाइन लेनदेन प्रसंस्करण (ओएलटीपी) को बड़ी संख्या में छोटे ऑन-लाइन लेन-देन (सम्मिलित करें, अद्यतन करें, हटाएं) की विशेषता है। ओएलटीपी प्रणालियाँ बहु-पहुँच वाले वातावरण में बहुत तेज़ क्वेरी प्रोसेसिंग और डेटा अखंडता बनाए रखने पर ज़ोर देती हैं। ओएलटीपी प्रणाली के लिए, प्रभावशीलता को प्रति सेकंड लेनदेन की संख्या से मापा जाता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होता है। लेनदेन डेटाबेस को स्टोर करने के लिए उपयोग की जाने वाली स्कीमा इकाई मॉडल (सामान्यतः तीसरा सामान्य रूप) है।[10] इस प्रणाली में डेटा मॉडलिंग विधियों के लिए सामान्यीकरण आदर्श है।

भविष्य बतानेवाला विश्लेषक जटिल गणितीय मॉडल का उपयोग करके डेटा में पैटर्न की पहचान और छिपे हुए पैटर्न को मापने के बारे में है जिसका उपयोग भविष्य के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है। भविष्य कहनेवाला विश्लेषण ओलाप से अलग है जिसमें ओलाप ऐतिहासिक डेटा विश्लेषण पर केंद्रित है और प्रकृति में प्रतिक्रियाशील है, चूंकि भविष्य कहनेवाला विश्लेषण भविष्य पर केंद्रित है। इन प्रणालियों का उपयोग ग्राहक संबंध प्रबंधन (सीआरएम) के लिए भी किया जाता है।

इतिहास

डेटा वेयरहाउसिंग की अवधारणा 1980 के दशक के अंत की है[11] जब आईबीएम के शोधकर्ता बैरी डिवालिन और पॉल मर्फी ने बिजनेस डेटा वेयरहाउस विकसित किया। संक्षेप में, डेटा वेयरहाउसिंग अवधारणा का उद्देश्य परिचालन प्रणालियों से निर्णय समर्थन प्रणाली तक डेटा के प्रवाह के लिए वास्तुशिल्प मॉडल प्रदान करना था। अवधारणा ने इस प्रवाह से जुड़ी विभिन्न समस्याओं, मुख्य रूप से इससे जुड़ी उच्च लागतों को दूर करने का प्रयास किया था। डेटा वेयरहाउसिंग आर्किटेक्चर के अभाव में, कई निर्णय समर्थन वातावरणों का समर्थन करने के लिए भारी मात्रा में अतिरेक की आवश्यकता थी। बड़े निगमों में, यह स्वतंत्र रूप से संचालित करने के लिए बहु-निर्णय समर्थन परिवेशों के लिए विशिष्ट था। चूंकि प्रत्येक परिवेश ने अलग-अलग उपयोगकर्ताओं को सेवा प्रदान की, किन्तु उन्हें अधिकांश समान संग्रहीत डेटा की बहुत आवश्यकता होती थी। विभिन्न स्रोतों से डेटा एकत्र करने, साफ करने और एकीकृत करने की प्रक्रिया, सामान्यतः दीर्घकालिक वर्तमान परिचालन प्रणालियों (सामान्यतः विरासत प्रणालियों के रूप में संदर्भित) से, सामान्यतः प्रत्येक वातावरण के लिए आंशिक रूप से दोहराई जाती थी। इसके अतिरिक्त, नई निर्णय समर्थन आवश्यकताओं के उभरने के साथ परिचालन प्रणालियों की बार-बार पुन: जांच की गई। अधिकांश नई आवश्यकताओं के लिए डेटा मार्ट से नए डेटा को इकट्ठा करने, साफ करने और एकीकृत करने की आवश्यकता होती है जिसे उपयोगकर्ताओं द्वारा तैयार पहुंच के लिए तैयार किया गया था।

इसके अतिरिक्त, जेम्स एम. केर द्वारा द आईआरएम इंपीरेटिव (विली एंड संस, 1991) के प्रकाशन के साथ, संगठन के डेटा संसाधनों पर डॉलर का मूल्य रखने और फिर उस मूल्य को बैलेंस शीट पर गुण के रूप में रिपोर्ट करने का विचार लोकप्रिय हो गया। . पुस्तक में, केर ने भंडारण क्षेत्र बनाने के लिए लेनदेन-संचालित प्रणाली से प्राप्त डेटा से विषय-क्षेत्र डेटाबेस को पॉप्युलेट करने का विधि बताया, जहां कार्यकारी निर्णय लेने को सूचित करने के लिए सारांश डेटा का और अधिक लाभ उठाया जा सकता है। इस अवधारणा ने आगे की सोच को बढ़ावा देने के लिए काम किया कि किसी भी उद्यम के अन्दर डेटा वेयरहाउस को कैसे विकसित और व्यावहारिक विधियां से प्रबंधित किया जा सकता है।

डेटा वेयरहाउसिंग के प्रारंभिक वर्षों में प्रमुख विकास:

  • 1960 - जनरल मिल्स और डार्टमाउथ कॉलेज, संयुक्त शोध परियोजना में, शर्तों के आयाम और तथ्य विकसित करते हैं।[12]
  • 1970 - एसीनीलसन और IRI खुदरा बिक्री के लिए आयामी डेटा बाजार प्रदान करते हैं।[12]
  • 1970 - बिल इनमोन ने डेटा वेयरहाउस शब्द को परिभाषित करना और उस पर चर्चा करना शुरू किया।[citation needed][13]
  • 1975 - स्पेरी यूनिवैक ने मैपर (रखरखाव, तैयारी और उत्पादन कार्यकारी रिपोर्ट) प्रस्तुत की, डेटाबेस प्रबंधन और रिपोर्टिंग प्रणाली जिसमें संसार की पहली चौथी पीढ़ी की प्रोग्रामिंग भाषा सम्मिलित है। यह सूचना केंद्रों (समकालीन डेटा वेयरहाउस विधि का अग्रदूत) के निर्माण के लिए बनाया गया पहला मंच है।
  • 1983 - टेराडाटा ने डीबीसी/1012 डेटाबेस कंप्यूटर प्रस्तुत किया जो विशेष रूप से निर्णय समर्थन के लिए डिजाइन किया गया था।[14]
  • 1984 - डेविड लिडल और डॉन मस्सारो द्वारा स्थापित रूपक कंप्यूटर प्रणालियों, डेटाबेस प्रबंधन और विश्लेषणात्मक प्रणाली बनाने के लिए व्यावसायिक उपयोगकर्ताओं के लिए हार्डवेयर/सॉफ्टवेयर पैकेज और जीयूआई जारी करता है।
  • 1988 - बैरी डिवालिन और पॉल मर्फी ने लेख प्रकाशित किया व्यवसाय और सूचना प्रणाली के लिए वास्तुकला जहां उन्होंने व्यवसाय डेटा वेयरहाउस शब्द का परिचय दिया।[15]
  • 1990 - राल्फ किमबॉल द्वारा स्थापित रेड ब्रिक प्रणाली्स ने विशेष रूप से डेटा वेयरहाउसिंग के लिए डेटाबेस प्रबंधन प्रणाली रेड ब्रिक वेयरहाउस प्रस्तुत किया।
  • 1991 - जेम्स एम. केर द आईआरएम इम्पीरेटिव के लेखक हैं, जो सुझाव देते हैं कि डेटा संसाधनों को बैलेंस शीट पर गुण के रूप में रिपोर्ट किया जा सकता है, डेटा वेयरहाउस की स्थापना में व्यावसायिक रुचि को आगे बढ़ाया जा सकता है।
  • 1991 - बिल इनमोन द्वारा स्थापित प्रिज्म सॉल्यूशंस ने डेटा वेयरहाउस विकसित करने के लिए प्रिज्म वेयरहाउस मैनेजर, सॉफ्टवेयर प्रस्तुत किया।
  • 1992 - बिल इनमोन ने बिल्डिंग द डेटा वेयरहाउस नामक पुस्तक प्रकाशित की।[16]
  • 1995 - डेटा वेयरहाउसिंग संस्थान, लाभकारी संगठन जो डेटा वेयरहाउसिंग को बढ़ावा देता है, की स्थापना की गई।
  • 1996 - राल्फ किमबॉल ने द डेटा वेयरहाउस टूलकिट पुस्तक प्रकाशित की।[17]
  • 2000 - डैन लिनस्टेड ने 1990 में इनमोन और किमबॉल के विकल्प के रूप में कल्पना की गई डेटा वॉल्ट मॉडलिंग को सार्वजनिक डोमेन में जारी किया, जो स्रोत डेटा मॉडल को बदलने के लिए ऑडिटिंग और लचीलापन पर जोर देने के साथ कई परिचालन प्रणालियों से आने वाले डेटा का दीर्घकालिक ऐतिहासिक भंडारण प्रदान करता है। .
  • 2008 - डेरेक स्ट्रॉस और जेनिया नेउशलॉस के साथ बिल इनमोन ने डीडब्ल्यू 2.0 प्रकाशित किया: डेटा वेयरहाउसिंग की अगली पीढ़ी के लिए आर्किटेक्चर, डेटा वेयरहाउसिंग के लिए अपने उपर से नीचे दृष्टिकोण को समझाते हुए और शब्द, डेटा-वेयरहाउसिंग 2.0 को रखा था।
  • 2012 - बिल इनमोन सार्वजनिक विधि को विकसित करता है और इसे शाब्दिक विसंबद्धता के रूप में जाना जाता है। मूलपाठ असंबद्धता कच्चे पाठ के संदर्भ को प्रायुक्त करती है और कच्चे पाठ और संदर्भ को मानक डेटा बेस प्रारूप में पुन: स्वरूपित करती है। बार कच्चे पाठ को मूलपाठ के माध्यम से पारित कर दिया जाता है, इसे मानक व्यापार गुप्त विधि द्वारा आसानी से और कुशलता से अभिगम और विश्लेषण किया जा सकता है। पाठीय ईटीएल के निष्पादन के माध्यम से पाठीय अस्पष्टता निवारण पूरा किया जाता है। जहाँ भी कच्चा पाठ पाया जाता है, जैसे कि दस्तावेज़ों, हडूप, ईमेल, और आगे में, पाठ्य-विच्छेद उपयोगी होता है।

सूचना भंडारण

तथ्य

तथ्य मूल्य या माप है, जो प्रबंधित इकाई या प्रणाली के बारे में तथ्य का प्रतिनिधित्व करता है।

तथ्य, जैसा कि प्रतिवेदी इकाई द्वारा प्रतिवेदित किया गया है, अपरिष्कृत स्तर पर कहा गया है; उदाहरण के लिए, मोबाइल टेलीफोन प्रणाली में, यदि बीटीएस (बेस ट्रांसीवर स्टेशन) ट्रैफिक चैनल आवंटन के लिए 1,000 अनुरोध प्राप्त करता है, 820 के लिए आवंटित करता है, और शेष को अस्वीकार करता है, तो यह प्रबंधन प्रणाली को तीन तथ्यों या मापों की रिपोर्ट करेगा:

  • tch_req_total = 1000
  • tch_req_success = 820
  • tch_req_fail = 180

इससे अधिक सेवा या व्यवसाय-प्रासंगिक जानकारी निकालने के लिए कच्चे स्तर पर तथ्यों को विभिन्न आयामों (डेटा वेयरहाउस) में उच्च स्तरों पर एकत्रित किया जाता है। इन्हें समुच्चय या सारांश या एकत्रित तथ्य कहा जाता है।

उदाहरण के लिए, यदि किसी शहर में तीन बीटीएस हैं, तो उपरोक्त तथ्यों को नेटवर्क आयाम में बीटीएस से शहर स्तर तक एकत्र किया जा सकता है। उदाहरण के लिए:

  • tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
  • avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3


डेटा भंडारण के लिए आयामी विरुद्ध सामान्यीकृत दृष्टिकोण

डेटा वेयरहाउस में डेटा संग्रहीत करने के लिए तीन या अधिक प्रमुख दृष्टिकोण हैं - सबसे महत्वपूर्ण दृष्टिकोण आयामी दृष्टिकोण और सामान्यीकृत दृष्टिकोण हैं।

आयाम प्रस्ताव राल्फ किमबॉल के प्रस्ताव को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को आयाम मॉडल / स्टार स्कीमा का उपयोग करके मॉडल किया जाना चाहिए। सामान्यीकृत दृष्टिकोण, जिसे तीसरा सामान्य फॉर्म मॉडल (तीसरा सामान्य फॉर्म) भी कहा जाता है, बिल इनमोन के दृष्टिकोण को संदर्भित करता है जिसमें यह कहा गया है कि डेटा वेयरहाउस को ई-आर मॉडल/सामान्यीकृत मॉडल का उपयोग करके मॉडल किया जाना चाहिए।[18]


आयामी दृष्टिकोण

एक आयामी दृष्टिकोण में, लेन-देन डेटा को "तथ्यों" में विभाजित किया जाता है, जो सामान्यतः संख्यात्मक लेनदेन डेटा और "आयाम" होते हैं, जो संदर्भ जानकारी होती है जो तथ्यों को संदर्भ देती है। उदाहरण के लिए एक बिक्री लेनदेन को तथ्यों में विभाजित किया जा सकता है जैसे ऑर्डर किए गए उत्पादों की संख्या और उत्पादों के लिए भुगतान की गई कुल मूल्य और ऑर्डर की तारीख जैसे ग्राहक का नाम, उत्पाद संख्या, आदर्श यहां भेजें और बिल प्राप्तकर्ता स्थान, और विक्रेता आदेश प्राप्त करने के लिए जिम्मेदार है।

आयामी दृष्टिकोण का प्रमुख लाभ यह है कि उपयोगकर्ता के लिए समझने और उपयोग करने के लिए डेटा वेयरहाउस आसान है। साथ ही, डेटा वेयरहाउस से डेटा की पुनर्प्राप्ति बहुत तेज़ी से संचालित होती है।[17] व्यापार उपयोगकर्ताओं के लिए आयामी संरचनाओं को समझना आसान है, क्योंकि संरचना को माप/तथ्यों और संदर्भ/आयामों में विभाजित किया गया है। तथ्य संगठन की व्यावसायिक प्रक्रियाओं और संचालन प्रणाली से संबंधित होते हैं चूंकि उनके आसपास के आयामों में माप के बारे में संदर्भ होता है (किमबॉल, राल्फ 2008)। आयाम मॉडल द्वारा प्रस्तुत किया गया और लाभ यह है कि इसमें हर बार रिलेशनल डेटाबेस सम्मिलित नहीं होता है। इस प्रकार, डेटा वेयरहाउस में एंड-यूज़र प्रश्नों के लिए इस प्रकार की मॉडलिंग विधि बहुत उपयोगी है।

तथ्यों और आयामों के मॉडल को डेटा क्यूब के रूप में भी समझा जा सकता है।[19] जहां आयाम बहु-आयामी घन में श्रेणीबद्ध निर्देशांक हैं, तथ्य निर्देशांक के अनुरूप मूल्य है।

आयामी दृष्टिकोण के मुख्य हानि निम्नलिखित हैं:

  1. तथ्यों और आयामों की अखंडता को बनाए रखने के लिए, डेटा वेयरहाउस को विभिन्न परिचालन प्रणालियों के डेटा के साथ लोड करना जटिल है।
  2. डेटा वेयरहाउस संरचना को संशोधित करना कठिन है यदि आयामी दृष्टिकोण अपनाने वाला संगठन व्यवसाय करने के विधियां को बदल देता है।

सामान्यीकृत दृष्टिकोण

सामान्यीकृत दृष्टिकोण में, डेटा वेयरहाउस में डेटा सीमा तक, डेटाबेस सामान्यीकरण नियमों का पालन करते हुए संग्रहीत किया जाता है। टेबल्स को विषय क्षेत्रों द्वारा साथ समूहीकृत किया जाता है जो सामान्य डेटा श्रेणियों (जैसे, ग्राहकों, उत्पादों, वित्त, आदि पर डेटा) को दर्शाता है। सामान्यीकृत संरचना डेटा को संस्थाओं में विभाजित करती है, जो रिलेशनल डेटाबेस में कई टेबल बनाती है। जब बड़े उद्यमों में प्रायुक्त किया जाता है तो परिणाम दर्जनों तालिकाएँ होती हैं जो साथ जुड़ने के जाल से जुड़ी होती हैं। इसके अतिरिक्त, जब डेटाबेस प्रायुक्त किया जाता है, तो बनाई गई प्रत्येक इकाई को अलग-अलग भौतिक तालिकाओं में बदल दिया जाता है (किमबॉल, राल्फ 2008)।

इस दृष्टिकोण का मुख्य लाभ यह है कि डेटाबेस में जानकारी जोड़ना सीधा है। इस दृष्टिकोण के कुछ हानि यह हैं कि इसमें सम्मिलित तालिकाओं की संख्या के कारण, उपयोगकर्ताओं के लिए विभिन्न स्रोतों से डेटा को सार्थक जानकारी में सम्मिलित करना और डेटा के स्रोतों और डेटा संरचना डेटा वेयरहाउस की त्रुटिहीन समझ के बिना जानकारी तक पहुंचना कठिन हो सकता है।

सामान्यीकृत और आयामी मॉडल दोनों को इकाई-संबंध आरेखों में दर्शाया जा सकता है क्योंकि दोनों में संबंधपरक तालिकाएँ सम्मिलित हैं। दो मॉडलों के बीच का अंतर सामान्यीकरण की डिग्री है (डेटाबेस सामान्यीकरण सामान्य रूपों के रूप में भी जाना जाता है)। ये दृष्टिकोण परस्पर अनन्य नहीं हैं, और अन्य दृष्टिकोण भी हैं। आयामी दृष्टिकोण में डेटा को सीमा तक सामान्य करना सम्मिलित हो सकता है (किमबॉल, राल्फ 2008)।

सूचना-संचालित व्यवसाय में,[20] रॉबर्ट हिलार्ड (लेखक) व्यावसायिक समस्या की सूचना आवश्यकताओं के आधार पर दो दृष्टिकोणों की तुलना करने के लिए दृष्टिकोण का प्रस्ताव करते हैं। विधि से पता चलता है कि सामान्यीकृत मॉडल अपने आयामी समकक्षों की तुलना में कहीं अधिक जानकारी रखते हैं (तब भी जब दोनों मॉडलों में समान फ़ील्ड का उपयोग किया जाता है) किन्तु यह अतिरिक्त जानकारी उपयोगिता की मूल्य पर आती है। यह विधि एन्ट्रापी (सूचना सिद्धांत) के संदर्भ में सूचना की मात्रा और लघु विश्व डेटा परिवर्तन माप के संदर्भ में उपयोगिता को मापती है।[21]


डिजाइन की विधियां

नीचे से ऊपर डिज़ाइन

नीचे से ऊपर प्रस्ताव में, विशिष्ट व्यावसायिक प्रक्रियाओं के लिए रिपोर्टिंग और विश्लेषणात्मक क्षमता प्रदान करने के लिए डेटा मार्केट पहले बनाए जाते हैं। इन डेटा मौसा को विस्तृत डेटा वेयरहाउस बनाने के लिए एकीकृत किया जा सकता है। डेटा वेयरहाउस बस आर्किटेक्चर मुख्य रूप से बस का कार्यान्वयन है, आयाम (डेटा वेयरहाउस) का संग्रह प्रकार और तथ्य (डेटा वेयरहाउस) टाइप, जो आयाम हैं जो दो या दो से अधिक डेटा मार्ट्स तथ्यों के बीच साझा किए जाते हैं (विशिष्ट विधियों से)।[22]


उपर से नीचे डिज़ाइन

उपर से नीचे दृष्टिकोण सामान्यीकृत उद्योग डेटा मॉडल का उपयोग करके डिज़ाइन किया गया है। "परमाणु" डेटा, अर्थात्, विवरण के सबसे बड़े स्तर पर डेटा, डेटा वेयरहाउस में संग्रहीत किया जाता है। विशिष्ट व्यावसायिक प्रक्रियाओं या विशिष्ट विभागों के लिए आवश्यक डेटा वाले आयाम डेटा मार्ट डेटा वेयरहाउस से बनाए जाते हैं।[23]


हाइब्रिड डिजाइन

डेटा वेयरहाउस (डीडब्लू) अधिकांश हब और प्रवक्ता वास्तुकला के समान होते हैं। वेयरहाउस को खिलाने वाली लीगेसी प्रणालियों में अधिकांश ग्राहक संबंध प्रबंधन और उद्यम संसाधन योजना सम्मिलित होती है, जिससे बड़ी मात्रा में डेटा उत्पन्न होता है। इन विभिन्न डेटा मॉडलों को समेकित करने के लिए, और परिवर्तन लोड निकालें प्रक्रिया को सुविधाजनक बनाने के लिए, डेटा वेयरहाउस अधिकांश संचालन डेटा स्टोर का उपयोग करते हैं, जिससे जानकारी को वास्तविकिक डीडब्ल्यू में पार्स किया जाता है। डेटा अतिरेक को कम करने के लिए, बड़ी प्रणालियाँ अधिकांश डेटा को सामान्यीकृत विधियां से संग्रहीत करती हैं। विशिष्ट रिपोर्ट के लिए डेटा मार्ट तब डेटा वेयरहाउस के शीर्ष पर बनाए जा सकते हैं।

डेटा अतिरेक को समाप्त करने के लिए हाइब्रिड डीडब्ल्यू डेटाबेस को तीसरे सामान्य रूप में रखा जाता है। सामान्य संबंधपरक डेटाबेस, चूंकि, व्यावसायिक गुप्त रिपोर्टों के लिए कुशल नहीं है, जहां आयामी मॉडलिंग प्रचलित है। छोटे डेटा मार्ट समेकित गोदाम से डेटा के लिए खरीदारी कर सकते हैं और फ़िल्टर्ड, विशिष्ट डेटा का उपयोग तथ्य तालिकाओं और आवश्यक आयामों के लिए कर सकते हैं। डीडब्ल्यू जानकारी का ही स्रोत प्रदान करता है जिससे डेटा मार्ट पढ़ सकते हैं, व्यापार जानकारी की विस्तृत श्रृंखला प्रदान करते हैं। हाइब्रिड आर्किटेक्चर डीडब्ल्यू को मास्टर डेटा प्रबंधन भण्डार से बदलने की अनुमति देता है जहां परिचालन (स्थिर नहीं) जानकारी रह सकती है।

डेटा वॉल्ट मॉडलिंग घटक हब और स्पोक्स आर्किटेक्चर का पालन करते हैं। यह मॉडलिंग शैली हाइब्रिड डिज़ाइन है, जिसमें तीसरे सामान्य रूप और स्टार स्कीमा दोनों से सर्वोत्तम अभ्यास सम्मिलित हैं। डेटा वॉल्ट मॉडल सच्चा तीसरा सामान्य रूप नहीं है, और इसके कुछ नियमों को तोड़ता है, किन्तु यह उपर से नीचे आर्किटेक्चर है जिसमें बॉटम अप डिज़ाइन है। डेटा वॉल्ट मॉडल सख्ती से डेटा वेयरहाउस बनने के लिए तैयार है। इसे एंड-यूज़र अभिगम करने योग्य नहीं बनाया गया है, जिसे बनाने के बाद भी व्यावसायिक उद्देश्यों के लिए डेटा मार्ट या स्टार स्कीमा-आधारित रिलीज़ क्षेत्र के उपयोग की आवश्यकता होती है।

डेटा वेयरहाउस विशेषताएँ

मूलभूत विशेषताएं हैं जो डेटा वेयरहाउस में डेटा को परिभाषित करती हैं जिसमें विषय अभिविन्यास, डेटा एकीकरण, समय-भिन्नता, गैर-वाष्पशील डेटा और डेटा कणिकता सम्मिलित हैं।

विषय-उन्मुख

परिचालन प्रणालियों के विपरीत, डेटा वेयरहाउस में डेटा उद्यम के विषयों के आस-पास घूमता है। विषय अभिविन्यास डेटाबेस सामान्यीकरण नहीं है। निर्णय लेने के लिए विषय अभिविन्यास वास्तविक में उपयोगी हो सकता है।

आवश्यक वस्तुओं को इकट्ठा करना विषय-उन्मुख कहलाता है।

एकीकृत

डेटा वेयरहाउस के अन्दर पाया गया डेटा एकीकृत है। चूंकि यह कई परिचालन प्रणालियों से आता है, सभी विसंगतियों को दूर किया जाना चाहिए। संगतताओं में नामकरण परिपाटी, चरों का मापन, कूटलेखन संरचना, डेटा की भौतिक विशेषताएँ, इत्यादि सम्मिलित हैं।

समय-संस्करण

चूंकि परिचालन प्रणालियाँ वर्तमान मूल्यों को दर्शाती हैं क्योंकि वे दिन-प्रतिदिन के संचालन का समर्थन करती हैं, डेटा वेयरहाउस डेटा लंबे समय के क्षितिज (10 वर्ष तक) का प्रतिनिधित्व करता है जिसका अर्थ है कि यह ज्यादातर ऐतिहासिक डेटा संग्रहीत करता है। यह मुख्य रूप से डेटा माइनिंग और पूर्वानुमान के लिए है। (उदाहरण के लिए, यदि कोई उपयोगकर्ता किसी विशिष्ट ग्राहक के खरीदारी पैटर्न की खोज कर रहा है, तो उपयोगकर्ता को वर्तमान और पिछली खरीदारी के डेटा को देखने की आवश्यकता है।)[24]


अहिंसक

डेटा वेयरहाउस में डेटा केवल पढ़ने के लिए है, जिसका अर्थ है कि इसे अद्यतन, निर्मित या हटाया नहीं जा सकता (जब तक कि ऐसा करने के लिए कोई नियामक या वैधानिक दायित्व न हो) है।[25]


डेटा वेयरहाउस विकल्प

एकत्रीकरण

डेटा वेयरहाउस प्रक्रिया में, डेटा को अमूर्तता के विभिन्न स्तरों पर डेटा मार्ट में एकत्र किया जा सकता है। उपयोगकर्ता पूरे क्षेत्र में किसी उत्पाद की कुल बिक्री इकाइयों को देखना शुरू कर सकता है। फिर उपयोगकर्ता उस क्षेत्र के राज्यों को देखता है। अंत में, वे निश्चित स्थिति में अलग-अलग दुकानों की जांच कर सकते हैं। इसलिए, सामान्यतः, विश्लेषण उच्च स्तर पर शुरू होता है और विवरण के निचले स्तर तक नीचे जाता है।[24]


वर्चुअलाइजेशन

डेटा वर्चुअलाइजेशन के साथ, उपयोग किया गया डेटा अपने मूल स्थानों पर रहता है और वर्चुअल डेटा वेयरहाउस बनाने वाले कई स्रोतों में एनालिटिक्स की अनुमति देने के लिए वास्तविक-समय अभिगम स्थापित किया जाता है। यह कुछ प्रौद्योगिक कठिनाइयों को हल करने में सहायता कर सकता है जैसे कि विभिन्न प्लेटफार्मों से डेटा का संयोजन करते समय संगतता समस्याएं, दोषपूर्ण डेटा के कारण होने वाली त्रुटि के जोखिम को कम करना और नवीनतम डेटा का उपयोग करने की गारंटी देना होता है। इसके अतिरिक्त, व्यक्तिगत जानकारी वाले नए डेटाबेस के निर्माण से बचने से गोपनीयता नियमों का पालन करना आसान हो सकता है। चूँकि, डेटा वर्चुअलाइजेशन के साथ, सभी आवश्यक डेटा स्रोतों से संबन्ध चालू होना चाहिए क्योंकि डेटा की कोई स्थानीय प्रति नहीं है, जो कि दृष्टिकोण की मुख्य कमियों में से है।[26]


डेटा वेयरहाउस आर्किटेक्चर

किसी संगठन द्वारा निर्दिष्ट डेटा वेयरहाउस के निर्माण/संगठन के लिए उपयोग की जाने वाली विभिन्न विधियाँ असंख्य हैं। डेटा वेयरहाउस की सही कार्यक्षमता के लिए विशेष रूप से आवश्यक हार्डवेयर, निर्मित सॉफ़्टवेयर और डेटा संसाधन डेटा वेयरहाउस आर्किटेक्चर के मुख्य घटक हैं। सभी डेटा वेयरहाउस में कई चरण होते हैं जिनमें संगठन की आवश्यकताओं को संशोधित और ठीक किया जाता है।[27]


विरुद्ध परिचालन प्रणाली

डेटाबेस सामान्यीकरण और इकाई-संबंध मॉडल के उपयोग के माध्यम से डेटा अखंडता के संरक्षण और व्यावसायिक लेनदेन की रिकॉर्डिंग की गति के लिए परिचालन प्रणाली को अनुकूलित किया गया है। संचालन प्रणाली डिज़ाइनर सामान्यतः डेटा अखंडता सुनिश्चित करने के लिए कॉड के डेटाबेस सामान्यीकरण के 12 नियमों का पालन करते हैं। पूरी तरह से सामान्यीकृत डेटाबेस डिज़ाइन (अर्थात, जो सभी कॉड नियमों को संतुष्ट करते हैं) अधिकांश व्यापार लेनदेन से जानकारी को दर्जनों से सैकड़ों तालिकाओं में संग्रहीत किया जाता है। संबंधपरक डेटाबेस इन तालिकाओं के बीच संबंधों को प्रबंधित करने में कुशल होते हैं। डेटाबेस में बहुत तेज़ प्रविष्ट/अपडेट प्रदर्शन होता है क्योंकि हर बार लेनदेन संसाधित होने पर उन तालिकाओं में केवल थोड़ी मात्रा में डेटा प्रभावित होता है। प्रदर्शन में सुधार करने के लिए, पुराने डेटा को सामान्यतः परिचालन प्रणालियों से समय-समय पर शुद्ध किया जाता है।

डेटा वेयरहाउस को विश्लेषणात्मक अभिगम पैटर्न के लिए अनुकूलित किया गया है। विश्लेषणात्मक पहुंच पैटर्न में सामान्यतः विशिष्ट क्षेत्रों का चयन करना सम्मिलित होता है और यदि कभी हो तो संभवतः ही कभी select *, जो सभी क्षेत्रों/स्तंभों का चयन करता है, जैसा कि परिचालन डेटाबेस में अधिक सामान्य है। अभिगम पैटर्न में इन अंतरों के कारण, संचालन डेटाबेस (शिथिल, ओएलटीपी) पंक्ति-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं चूंकि विश्लेषण डेटाबेस (शिथिल, ओलाप) स्तंभ-उन्मुख डीबीएमएस के उपयोग से लाभान्वित होते हैं। परिचालन प्रणालियों के विपरीत, जो व्यवसाय का स्नैपशॉट बनाए रखते हैं, डेटा वेयरहाउस सामान्यतः अनंत इतिहास बनाए रखते हैं जो ईटीएल प्रक्रियाओं के माध्यम से कार्यान्वित किया जाता है जो समय-समय पर परिचालन प्रणालियों से डेटा वेयरहाउस में डेटा विस्थापित करता है।

संगठन उपयोग में विकास

ये शब्द डेटा वेयरहाउस के परिष्कार के स्तर को संदर्भित करते हैं:

ऑफ़लाइन परिचालन डेटा वेयरहाउस
विकास के इस चरण में डेटा वेयरहाउस परिचालन प्रणालियों से नियमित समय चक्र (सामान्यतः दैनिक, साप्ताहिक या मासिक) पर अपडेट किए जाते हैं और डेटा को एकीकृत रिपोर्टिंग-उन्मुख डेटाबेस में संग्रहीत किया जाता है।
ऑफ़लाइन डेटा वेयरहाउस
इस स्तर पर डेटा वेयरहाउस को नियमित आधार पर परिचालन प्रणालियों में डेटा से अपडेट किया जाता है और डेटा वेयरहाउस डेटा को रिपोर्टिंग की सुविधा के लिए डिज़ाइन की गई डेटा संरचना में संग्रहीत किया जाता है।
ऑन-समय डेटा वेयरहाउस
ऑनलाइन एकीकृत डेटा वेयरहाउसिंग वास्तविक-समय डेटा वेयरहाउस चरण का प्रतिनिधित्व करता है, वेयरहाउस में स्रोत डेटा पर किए गए प्रत्येक लेनदेन के लिए डेटा अपडेट किया जाता है
एकीकृत डेटा वेयरहाउस
ये डेटा वेयरहाउस व्यवसाय के विभिन्न क्षेत्रों से डेटा इकट्ठा करते हैं, जिससे उपयोगकर्ता उन सूचनाओं को देख सकें जिनकी उन्हें अन्य प्रणालियों में आवश्यकता है।[28]


यह भी देखें

संदर्भ

  1. Dedić, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José (eds.). An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016). Vol. 1. SciTePress. pp. 196–206. doi:10.5220/0005858401960206. ISBN 978-989-758-187-8. Archived (PDF) from the original on 2018-05-22.
  2. 2.0 2.1 "9 Reasons Data Warehouse Projects Fail". blog.rjmetrics.com. 4 December 2014. Retrieved 2017-04-30.
  3. "Exploring Data Warehouses and Data Quality". spotlessdata.com. Archived from the original on 2018-07-26. Retrieved 2017-04-30.
  4. "What is a Data Warehouse? | Key Concepts | Amazon Web Services". Amazon Web Services, Inc. (in English). Retrieved 2023-02-13.
  5. "What is Big Data?". spotlessdata.com. Archived from the original on 2017-02-17. Retrieved 2017-04-30.
  6. Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). "Optimization of Data Warehousing System: Simplification in Reporting and Analysis". IJCA Proceedings on International Conference and Workshop on Emerging Trends in Technology (ICWET). Foundation of Computer Science. 9 (6): 33–37.
  7. Marakas & O'Brien 2009
  8. 8.0 8.1 8.2 8.3 8.4 8.5 Rainer, R. Kelly; Cegielski, Casey G. (2012-05-01). Introduction to Information Systems: Enabling and Transforming Business, 4th Edition (Kindle ed.). Wiley. pp. 127, 128, 130, 131, 133. ISBN 978-1118129401.
  9. "Data Mart Concepts". Oracle. 2007.
  10. "OLTP vs. OLAP". Datawarehouse4u.Info. 2009. We can divide IT systems into transactional (OLTP) and analytical (OLAP). In general, we can assume that OLTP systems provide source data to data warehouses, whereas OLAP systems help to analyze it.
  11. "The Story So Far". 2002-04-15. Archived from the original on 2008-07-08. Retrieved 2008-09-21.
  12. 12.0 12.1 Kimball 2013, pg. 15
  13. "The audit of the Data Warehouse Framework" (PDF). Archived (PDF) from the original on 2012-05-12.
  14. Paul Gillin (February 20, 1984). "Will Teradata revive a market?". Computer World. pp. 43, 48. Retrieved 2017-03-13.
  15. Devlin, B. A.; Murphy, P. T. (1988). "An architecture for a business and information system". IBM Systems Journal. 27: 60–80. doi:10.1147/sj.271.0060.
  16. Inmon, Bill (1992). Building the Data Warehouse. Wiley. ISBN 0-471-56960-7.
  17. 17.0 17.1 Kimball, Ralph (2011). The Data Warehouse Toolkit. Wiley. p. 237. ISBN 978-0-470-14977-5.
  18. Golfarelli, Matteo; Maio, Dario; Rizzi, Stefano (1998-06-01). "The dimensional fact model: a conceptual model for data warehouses". International Journal of Cooperative Information Systems. 07 (2n03): 215–247. doi:10.1142/S0218843098000118. ISSN 0218-8430.
  19. "Introduction to Data Cubes".
  20. Hillard, Robert (2010). Information-Driven Business. Wiley. ISBN 978-0-470-62577-4.
  21. "Information Theory & Business Intelligence Strategy - Small Worlds Data Transformation Measure - MIKE2.0, the open source methodology for Information Development". Mike2.openmethodology.org. Retrieved 2013-06-14.
  22. "The Bottom-Up Misnomer - DecisionWorks Consulting". DecisionWorks Consulting (in English). 17 September 2003. Retrieved 2016-03-06.
  23. Gartner, Of Data Warehouses, Operational Data Stores, Data Marts and Data Outhouses, Dec 2005
  24. 24.0 24.1 Paulraj., Ponniah (2010). Data warehousing fundamentals for IT professionals. Ponniah, Paulraj. (2nd ed.). Hoboken, N.J.: John Wiley & Sons. ISBN 9780470462072. OCLC 662453070.
  25. H., Inmon, William (2005). Building the data warehouse (4th ed.). Indianapolis, IN: Wiley Pub. ISBN 9780764599446. OCLC 61762085.{{cite book}}: CS1 maint: multiple names: authors list (link)
  26. Paiho, Satu; Tuominen, Pekka; Rökman, Jyri; Ylikerälä, Markus; Pajula, Juha; Siikavirta, Hanne (2022). "Opportunities of collected city data for smart cities". IET Smart Cities. 4 (4): 275–291. doi:10.1049/smc2.12044. S2CID 253467923.
  27. Gupta, Satinder Bal; Mittal, Aditya (2009). Introduction to Database Management System. Laxmi Publications. ISBN 9788131807248.
  28. "Data Warehouse". 6 April 2019.


अग्रिम पठन