डेटा एकीकरण

From Vigyanwiki

आंकड़े एकीकरण में विभिन्न स्रोतों में मौजूद डेटा को संयोजित करना और उपयोगकर्ताओं को उनका एकीकृत दृश्य प्रदान करना शामिल है।[1] यह प्रक्रिया विभिन्न स्थितियों में महत्वपूर्ण हो जाती है, जिसमें वाणिज्यिक (जैसे कि जब दो समान कंपनियों को अपने डेटाबेस को मर्ज करने की आवश्यकता होती है) और वैज्ञानिक (उदाहरण के लिए, विभिन्न जैव सूचना विज्ञान रिपॉजिटरी से अनुसंधान परिणामों का संयोजन) दोनों डोमेन शामिल हैं। डेटा एकीकरण बढ़ती आवृत्ति के साथ वॉल्यूम (यानी, बड़ा डेटा) और मौजूदा डेटा सूचना विस्फोट को साझा करने की आवश्यकता के साथ प्रकट होता है।[2] यह व्यापक सैद्धांतिक कार्य का केंद्र बन गया है, और कई खुली समस्याएं अनसुलझी हैं। डेटा एकीकरण आंतरिक और बाहरी उपयोगकर्ताओं के बीच सहयोग को प्रोत्साहित करता है। एकीकृत किया जा रहा डेटा विषम डेटाबेस सिस्टम से प्राप्त किया जाना चाहिए और एकल सुसंगत डेटा स्टोर में परिवर्तित किया जाना चाहिए जो ग्राहकों के लिए फ़ाइलों के नेटवर्क में समकालिक डेटा प्रदान करता है।[3] डेटा एकीकरण का सामान्य उपयोग डेटा खनन में होता है जब मौजूदा डेटाबेस से जानकारी का विश्लेषण और निष्कर्षण किया जाता है जो व्यावसायिक जानकारी के लिए उपयोगी हो सकता है।[4]

इतिहास

चित्र 1: डेटा वेयरहाउस के लिए सरल योजनाबद्ध। एक्सट्रैक्ट, ट्रांसफ़ॉर्म, लोड (ईटीएल) प्रक्रिया स्रोत डेटाबेस से जानकारी निकालती है, उसे रूपांतरित करती है और फिर उसे डेटा वेयरहाउस में लोड करती है।
चित्र 2: डेटा-एकीकरण समाधान के लिए सरल योजनाबद्ध। सिस्टम डिज़ाइनर मध्यस्थ स्कीमा बनाता है जिसके विरुद्ध उपयोगकर्ता क्वेरी चला सकते हैं। यदि आवश्यक हो तो आभासी डेटाबेस आवरण पैटर्न कोड के माध्यम से स्रोत डेटाबेस के साथ इंटरफेस करता है।

विषम डेटा स्रोतों के संयोजन से जुड़े मुद्दों को अक्सर सूचना साइलो के रूप में संदर्भित किया जाता है, ही क्वेरी इंटरफ़ेस के तहत कुछ समय से अस्तित्व में है। 1980 के दशक की शुरुआत में, कंप्यूटर वैज्ञानिकों ने विषम डेटाबेस की अंतरसंचालनीयता के लिए सिस्टम डिजाइन करना शुरू किया।[5] संरचित मेटाडेटा द्वारा संचालित पहला डेटा एकीकरण सिस्टम 1991 में मिनेसोटा विश्वविद्यालय में IPUMS|एकीकृत सार्वजनिक उपयोग माइक्रोडेटा श्रृंखला (IPUMS) के लिए डिज़ाइन किया गया था। आईपीयूएमएस ने डेटा भण्डारण दृष्टिकोण का उपयोग किया, जो विषम स्रोतों से डेटा को निकालता है, रूपांतरित करता है, लोड करता है, अद्वितीय दृश्य तार्किक स्कीमा में डेटा निकालता है, रूपांतरित करता है और लोड करता है ताकि विभिन्न स्रोतों से डेटा संगत हो जाए।[6] हजारों जनसंख्या डेटाबेस को इंटरऑपरेबल बनाकर, आईपीयूएमएस ने बड़े पैमाने पर डेटा एकीकरण की व्यवहार्यता का प्रदर्शन किया। डेटा वेयरहाउस दृष्टिकोण कपलिंग (कंप्यूटर विज्ञान) आर्किटेक्चर प्रदान करता है क्योंकि डेटा पहले से ही क्वेरी योग्य रिपॉजिटरी में भौतिक रूप से समेटा हुआ है, इसलिए आमतौर पर प्रश्नों को हल करने में बहुत कम समय लगता है।[7]

डेटा वेयरहाउस दृष्टिकोण उन डेटा सेटों के लिए कम व्यवहार्य है जिन्हें बार-बार अपडेट किया जाता है, जिसके लिए सिंक्रोनाइज़ेशन के लिए एक्सट्रेक्ट, ट्रांसफॉर्म, लोड (ईटीएल) प्रक्रिया को लगातार पुन: निष्पादित करने की आवश्यकता होती है। डेटा वेयरहाउस के निर्माण में कठिनाइयां तब भी उत्पन्न होती हैं जब किसी के पास सारांश डेटा स्रोतों के लिए केवल क्वेरी इंटरफ़ेस होता है और पूर्ण डेटा तक पहुंच नहीं होती है। यात्रा या वर्गीकृत विज्ञापन वेब अनुप्रयोगों जैसी कई व्यावसायिक क्वेरी सेवाओं को एकीकृत करते समय यह समस्या अक्सर सामने आती है।

As of 2009 डेटा एकीकरण की प्रवृत्ति ने डेटा के ढीले युग्मन का समर्थन किया[8] और डेटा मध्यस्थता स्कीमा (चित्रा 2 देखें) पर वास्तविक समय डेटा तक पहुंचने के लिए एकीकृत क्वेरी-इंटरफ़ेस प्रदान करना, जो मूल डेटाबेस से सीधे जानकारी प्राप्त करने की अनुमति देता है। यह उस युग में लोकप्रिय सेवा-उन्मुख वास्तुकला दृष्टिकोण के अनुरूप है। यह दृष्टिकोण मध्यस्थ स्कीमा और मूल स्रोतों की स्कीमा के बीच मैपिंग पर निर्भर करता है, और मूल डेटाबेस की स्कीमा से मेल खाने के लिए क्वेरी को विघटित क्वेरी में अनुवाद करता है। ऐसी मैपिंग को दो तरीकों से निर्दिष्ट किया जा सकता है: मध्यस्थ स्कीमा में इकाइयों से मूल स्रोतों में इकाइयों तक मैपिंग के रूप में (ग्लोबल-एज़-व्यू)[9] (जीएवी) दृष्टिकोण), या मूल स्रोतों में संस्थाओं से मध्यस्थ स्कीमा (स्थानीय-जैसा-दृश्य) में मैपिंग के रूप में[10] (एलएवी) दृष्टिकोण)। बाद वाले दृष्टिकोण के लिए मध्यस्थ स्कीमा पर प्रश्न को हल करने के लिए अधिक परिष्कृत निष्कर्षों की आवश्यकता होती है, लेकिन (स्थिर) मध्यस्थ स्कीमा में नए डेटा स्रोतों को जोड़ना आसान हो जाता है।

As of 2010 डेटा एकीकरण अनुसंधान में कुछ कार्य सिमेंटिक एकीकरण समस्या से संबंधित हैं। यह समस्या एकीकरण की वास्तुकला की संरचना को संबोधित नहीं करती है, बल्कि विषम डेटा स्रोतों के बीच अर्थ संबंधी संघर्षों को कैसे हल किया जाए। उदाहरण के लिए, यदि दो कंपनियां अपने डेटाबेस का विलय करती हैं, तो कमाई जैसी उनकी संबंधित स्कीमों में कुछ अवधारणाओं और परिभाषाओं के अनिवार्य रूप से अलग-अलग अर्थ होते हैं। डेटाबेस में इसका मतलब डॉलर में मुनाफा (एक फ़्लोटिंग-पॉइंट नंबर) हो सकता है, जबकि दूसरे में यह बिक्री की संख्या (एक पूर्णांक) का प्रतिनिधित्व कर सकता है। ऐसी समस्याओं के समाधान के लिए आम रणनीति में ऑन्टोलॉजी (कंप्यूटर विज्ञान) का उपयोग शामिल है जो स्कीमा शर्तों को स्पष्ट रूप से परिभाषित करता है और इस प्रकार अर्थ संबंधी संघर्षों को हल करने में मदद करता है। यह दृष्टिकोण ऑन्टोलॉजी-आधारित डेटा एकीकरण का प्रतिनिधित्व करता है। दूसरी ओर, विभिन्न जैव सूचना विज्ञान भंडारों से अनुसंधान परिणामों के संयोजन की समस्या के लिए सकारात्मक पूर्वानुमानित मूल्य जैसे एकल मानदंड पर, विभिन्न डेटा स्रोतों से गणना की गई समानताओं की बेंच-मार्किंग की आवश्यकता होती है। यह डेटा स्रोतों को सीधे तुलनीय बनाने में सक्षम बनाता है और प्रयोगों की प्रकृति अलग होने पर भी उन्हें एकीकृत किया जा सकता है।[11]

As of 2011 यह निर्धारित किया गया था कि वर्तमान मॉडलिंग की दिनांक विधियां अलग-अलग डेटा और सूचना साइलो के द्वीपों के रूप में प्रत्येक डेटा आर्किटेक्चर में डेटा अलगाव प्रदान कर रही थीं। यह डेटा अलगाव डेटा मॉडलिंग पद्धति की अनपेक्षित कलाकृति है जिसके परिणामस्वरूप असमान डेटा मॉडल का विकास होता है। अलग-अलग डेटा मॉडल, जब डेटाबेस के रूप में त्वरित किए जाते हैं, तो अलग-अलग डेटाबेस बनाते हैं। डेटा अलगाव विरूपण साक्ष्य को खत्म करने और एकीकृत डेटा मॉडल के विकास को बढ़ावा देने के लिए उन्नत डेटा मॉडल पद्धतियां विकसित की गई हैं।[12] उन्नत डेटा मॉडलिंग विधि डेटा मॉडल को मानकीकृत डेटा इकाइयों के रूप में संरचनात्मक मेटा डेटा के साथ संवर्धित करके पुनर्गठित करती है। कई डेटा मॉडलों को दोबारा बनाने के परिणामस्वरूप, रीकास्ट डेटा मॉडल का सेट अब या अधिक समानता वाले रिश्ते साझा करेगा जो इन डेटा मॉडलों के लिए अब आम संरचनात्मक मेटाडेटा से संबंधित हैं। सामान्यता संबंध सहकर्मी से सहकर्मी प्रकार के इकाई संबंध हैं जो कई डेटा मॉडल की मानकीकृत डेटा इकाइयों से संबंधित होते हैं। ही मानक डेटा इकाई वाले एकाधिक डेटा मॉडल समान समानता संबंध में भाग ले सकते हैं। जब एकीकृत डेटा मॉडल को डेटाबेस के रूप में त्वरित किया जाता है और मास्टर डेटा के सामान्य सेट से उचित रूप से पॉप्युलेट किया जाता है, तो ये डेटाबेस एकीकृत होते हैं।

2011 के बाद से, डेटा हब दृष्टिकोण पूरी तरह से संरचित (आमतौर पर संबंधपरक) एंटरप्राइज़ डेटा वेयरहाउस की तुलना में अधिक रुचि का रहा है। 2013 के बाद से, डेटा लेक दृष्टिकोण डेटा हब के स्तर तक बढ़ गया है। (Google रुझान पर सभी तीन खोज शब्दों की लोकप्रियता देखें।[13]) ये दृष्टिकोण असंरचित या विविध डेटा को स्थान पर जोड़ते हैं, लेकिन हब में सभी डेटा को संरचना और परिभाषित करने के लिए (अक्सर जटिल) मास्टर रिलेशनल स्कीमा की आवश्यकता नहीं होती है।

बाज़ार का अध्ययन करने के लिए उपयोग किए जाने वाले डेटा संग्रह के संबंध में डेटा एकीकरण व्यवसाय में बड़ी भूमिका निभाता है। उपभोक्ताओं से प्राप्त कच्चे डेटा को सुसंगत डेटा में परिवर्तित करना ऐसी चीज़ है जिसे व्यवसाय तब करने का प्रयास करते हैं जब वे इस बात पर विचार करते हैं कि उन्हें आगे क्या कदम उठाना चाहिए।[14] संगठन अपने डेटाबेस से जानकारी और पैटर्न एकत्र करने के लिए डेटा माइनिंग का अधिक बार उपयोग कर रहे हैं, और यह प्रक्रिया उन्हें व्यावसायिक प्रदर्शन बढ़ाने और अधिक कुशलता से आर्थिक विश्लेषण करने के लिए नई व्यावसायिक रणनीति विकसित करने में मदद करती है। अपने सिस्टम में संग्रहित करने के लिए बड़ी मात्रा में डेटा को संकलित करना उनकी सफलता की संभावनाओं को बेहतर बनाने के लिए व्यापारिक सूचना के लिए अनुकूलित डेटा एकीकरण का रूप है।[15]

उदाहरण

एक वेब अनुप्रयोग पर विचार करें जहां उपयोगकर्ता शहरों के बारे में विभिन्न प्रकार की जानकारी (जैसे अपराध आंकड़े, मौसम, होटल, जनसांख्यिकी इत्यादि) पूछ सकता है। परंपरागत रूप से, जानकारी को एकल स्कीमा के साथ एकल डेटाबेस में संग्रहीत किया जाना चाहिए। लेकिन किसी भी एकल उद्यम के लिए इतनी विस्तृत जानकारी एकत्र करना कुछ हद तक कठिन और महंगा होगा। भले ही डेटा इकट्ठा करने के लिए संसाधन मौजूद हों, फिर भी यह मौजूदा अपराध डेटाबेस, मौसम वेबसाइटों और जनगणना डेटा में डुप्लिकेट डेटा की संभावना होगी।

एक डेटा-एकीकरण समाधान इन बाहरी संसाधनों को वर्चुअल डेटाबेस पर भौतिक विचारों के रूप में मानकर इस समस्या का समाधान कर सकता है, जिसके परिणामस्वरूप वर्चुअल डेटा एकीकरण होता है। इसका मतलब यह है कि एप्लिकेशन-डेवलपर्स वर्चुअल स्कीमा-मध्यस्थता स्कीमा-का निर्माण करते हैं ताकि उनके उपयोगकर्ता जिस प्रकार के उत्तर चाहते हैं उन्हें सर्वोत्तम तरीके से मॉडल किया जा सके। इसके बाद, वे प्रत्येक डेटा स्रोत, जैसे अपराध डेटाबेस और मौसम वेबसाइट के लिए रैपर या एडेप्टर डिज़ाइन करते हैं। ये एडाप्टर बस स्थानीय क्वेरी परिणामों (जो संबंधित वेबसाइटों या डेटाबेस द्वारा लौटाए जाते हैं) को डेटा एकीकरण समाधान के लिए आसानी से संसाधित रूप में बदल देते हैं (चित्र 2 देखें)। जब कोई एप्लिकेशन-उपयोगकर्ता मध्यस्थ स्कीमा पर सवाल उठाता है, तो डेटा-एकीकरण समाधान इस क्वेरी को संबंधित डेटा स्रोतों पर उचित प्रश्नों में बदल देता है। अंत में, वर्चुअल डेटाबेस इन प्रश्नों के परिणामों को उपयोगकर्ता की क्वेरी के उत्तर में जोड़ता है।

यह समाधान केवल उनके लिए एडॉप्टर या एप्लिकेशन सॉफ़्टवेयर ब्लेड बनाकर नए स्रोतों को जोड़ने की सुविधा प्रदान करता है। यह एक्स्ट्रैक्ट, ट्रांसफ़ॉर्म, लोड सिस्टम या एकल डेटाबेस समाधान के साथ विरोधाभासी है, जिसके लिए सिस्टम में संपूर्ण नए डेटा सेट के मैन्युअल एकीकरण की आवश्यकता होती है। वर्चुअल ईटीएल समाधान डेटा सामंजस्य को लागू करने के लिए वर्चुअल डेटाबेस का लाभ उठाते हैं; जिससे डेटा को निर्दिष्ट मास्टर स्रोत से फ़ील्ड दर फ़ील्ड निर्धारित लक्ष्यों पर कॉपी किया जाता है। हब और बात की आर्किटेक्चर का उपयोग करके वर्चुअल मध्यस्थता स्कीमा या वर्चुअल मेटाडेटा रिपॉजिटरी का निर्माण करने के लिए उन्नत डेटा वर्चुअलाइजेशन भी ऑब्जेक्ट-ओरिएंटेड मॉडलिंग की अवधारणा पर बनाया गया है।

प्रत्येक डेटा स्रोत अलग-अलग है और इस तरह डेटा स्रोतों के बीच विश्वसनीय जुड़ाव का समर्थन करने के लिए डिज़ाइन नहीं किया गया है। इसलिए, डेटा वर्चुअलाइजेशन के साथ-साथ डेटा फ़ेडरेशन अलग-अलग डेटा सेट से डेटा और जानकारी के संयोजन का समर्थन करने के लिए आकस्मिक डेटा समानता पर निर्भर करता है। डेटा स्रोतों में डेटा मूल्य समानता की कमी के कारण, रिटर्न सेट गलत, अधूरा और सत्यापित करना असंभव हो सकता है।

एक समाधान यह है कि इन डेटाबेसों को एक्स्ट्रैक्ट, ट्रांसफॉर्म, लोड की आवश्यकता के बिना एकीकृत करने के लिए अलग-अलग डेटाबेस को फिर से तैयार किया जाए। रीकास्ट डेटाबेस सामान्यता बाधाओं का समर्थन करते हैं जहां डेटाबेस के बीच संदर्भात्मक अखंडता लागू की जा सकती है। रीकास्ट डेटाबेस सभी डेटाबेस में डेटा मूल्य समानता के साथ डिज़ाइन किए गए डेटा एक्सेस पथ प्रदान करते हैं।

सिद्धांत

डेटा एकीकरण का सिद्धांत[1]डेटाबेस सिद्धांत का उपसमूह बनाता है और प्रथम-क्रम तर्क में समस्या की अंतर्निहित अवधारणाओं को औपचारिक बनाता है। सिद्धांतों को लागू करने से डेटा एकीकरण की व्यवहार्यता और कठिनाई के संकेत मिलते हैं। हालाँकि इसकी परिभाषाएँ अमूर्त लग सकती हैं, उनमें सभी प्रकार की एकीकरण प्रणालियों को समायोजित करने के लिए पर्याप्त व्यापकता है,[16] इनमें वे भी शामिल हैं जिनमें नेस्टेड रिलेशनल/XML डेटाबेस शामिल हैं[17] और वे जो डेटाबेस को प्रोग्राम के रूप में मानते हैं।[18] Oracle या DB2 जैसे विशेष डेटाबेस सिस्टम से कनेक्शन JDBC जैसी कार्यान्वयन-स्तरीय प्रौद्योगिकियों द्वारा प्रदान किए जाते हैं और सैद्धांतिक स्तर पर अध्ययन नहीं किया जाता है।

परिभाषाएँ

डेटा एकीकरण प्रणालियों को औपचारिक रूप से टुपल (गणित) के रूप में परिभाषित किया गया है कहाँ वैश्विक (या मध्यस्थ) स्कीमा है, स्रोत स्कीमा का विषम सेट है, और वह मैपिंग है जो स्रोत और वैश्विक स्कीमा के बीच प्रश्नों को मैप करती है। दोनों और प्रत्येक संबंधित संबंध का डेटाबेस के लिए प्रतीकों से बनी वर्णमाला (कंप्यूटर विज्ञान) पर औपचारिक भाषा में व्यक्त किए जाते हैं। कार्यात्मक विधेय प्रश्नों के बीच अभिकथन शामिल हैं और प्रश्न खत्म . जब उपयोगकर्ता डेटा एकीकरण प्रणाली पर प्रश्न पूछते हैं, तो वे प्रश्न भी पूछते हैं और फिर मैपिंग वैश्विक स्कीमा और स्रोत स्कीमा में तत्वों के बीच कनेक्शन का दावा करती है।

एक स्कीमा पर डेटाबेस को सेट के सेट के रूप में परिभाषित किया गया है, प्रत्येक संबंध के लिए (एक रिलेशनल डेटाबेस में)। स्रोत स्कीमा के अनुरूप डेटाबेस इसमें प्रत्येक विषम डेटा स्रोत के लिए टुपल्स के सेट का सेट शामिल होगा और इसे स्रोत डेटाबेस कहा जाता है। ध्यान दें कि यह एकल स्रोत डेटाबेस वास्तव में डिस्कनेक्ट किए गए डेटाबेस के संग्रह का प्रतिनिधित्व कर सकता है। वर्चुअल मध्यस्थता स्कीमा के अनुरूप डेटाबेस वैश्विक डेटाबेस कहा जाता है. वैश्विक डेटाबेस को मैपिंग को संतुष्ट करना होगा स्रोत डेटाबेस के संबंध में. इस मानचित्रण की वैधता बीच के पत्राचार की प्रकृति पर निर्भर करती है और . इस पत्राचार को मॉडल करने के दो लोकप्रिय तरीके मौजूद हैं: व्यू या जीएवी के रूप में ग्लोबल और व्यू या एलएवी के रूप में स्थानीय।

चित्र 3: जीएवी और एलएवी मैपिंग के टुपल स्पेस का चित्रण।[19] जीएवी में, सिस्टम मध्यस्थों द्वारा मैप किए गए टुपल्स के सेट तक सीमित है, जबकि स्रोतों पर व्यक्त टुपल्स का सेट बहुत बड़ा और समृद्ध हो सकता है। एलएवी में, सिस्टम स्रोतों में टुपल्स के सेट तक सीमित है जबकि वैश्विक स्कीमा पर व्यक्त टुपल्स का सेट बहुत बड़ा हो सकता है। इसलिए, LAV सिस्टम को अक्सर अधूरे उत्तरों से निपटना पड़ता है।

जीएवी सिस्टम वैश्विक डेटाबेस को दृश्य (डेटाबेस) के सेट के रूप में मॉडल करता है . इस मामले में के प्रत्येक तत्व से संबद्ध है प्रश्न खत्म . बीच में अच्छी तरह से परिभाषित संबंधों के कारण क्वेरी अनुकूलक सीधा ऑपरेशन बन जाता है और . जटिलता का बोझ डेटा एकीकरण प्रणाली को निर्देश देने वाले मध्यस्थ कोड को लागू करने पर पड़ता है कि स्रोत डेटाबेस से तत्वों को कैसे पुनर्प्राप्त किया जाए। यदि कोई नया स्रोत सिस्टम में शामिल होता है, तो मध्यस्थ को अद्यतन करने के लिए काफी प्रयास आवश्यक हो सकते हैं, इस प्रकार जब स्रोतों में बदलाव की संभावना नहीं लगती है तो जीएवी दृष्टिकोण बेहतर प्रतीत होता है।

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के जीएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले प्रत्येक शहर के सूचना स्रोतों के लिए मध्यस्थ विकसित करेगा और फिर इन मध्यस्थों के आसपास वैश्विक स्कीमा डिजाइन करेगा। उदाहरण के लिए, विचार करें कि क्या किसी स्रोत ने मौसम वेबसाइट की सेवा दी है। डिज़ाइनर संभवतः वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व जोड़ देगा। फिर अधिकांश प्रयास उचित मध्यस्थ कोड लिखने पर केंद्रित होता है जो मौसम संबंधी पूर्वानुमानों को मौसम वेबसाइट पर प्रश्न में बदल देगा। यदि कोई अन्य स्रोत भी मौसम से संबंधित है तो यह प्रयास जटिल हो सकता है, क्योंकि डिजाइनर को दो स्रोतों से परिणामों को ठीक से संयोजित करने के लिए कोड लिखने की आवश्यकता हो सकती है।

दूसरी ओर, LAV में, स्रोत डेटाबेस को दृश्य (डेटाबेस) के सेट के रूप में तैयार किया जाता है . इस मामले में के प्रत्येक तत्व से संबद्ध है प्रश्न खत्म . यहाँ के बीच सटीक संबंध हैं और अब अच्छी तरह से परिभाषित नहीं हैं। जैसा कि अगले भाग में दिखाया गया है, स्रोतों से तत्वों को कैसे पुनर्प्राप्त किया जाए यह निर्धारित करने का बोझ क्वेरी प्रोसेसर पर रखा गया है। एलएवी मॉडलिंग का लाभ यह है कि जीएवी प्रणाली की तुलना में बहुत कम काम के साथ नए स्रोत जोड़े जा सकते हैं, इस प्रकार उन मामलों में एलएवी दृष्टिकोण को प्राथमिकता दी जानी चाहिए जहां मध्यस्थता स्कीमा कम स्थिर है या बदलने की संभावना है।[1]

उपरोक्त उदाहरण डेटा एकीकरण प्रणाली के लिए एलएवी दृष्टिकोण में, सिस्टम डिजाइनर पहले वैश्विक स्कीमा डिजाइन करता है और फिर संबंधित शहर सूचना स्रोतों के स्कीमा को इनपुट करता है। फिर से विचार करें कि क्या कोई स्रोत मौसम वेबसाइट पर काम करता है। डिज़ाइनर वैश्विक स्कीमा में मौसम के लिए संबंधित तत्व तभी जोड़ेगा जब कोई पहले से मौजूद न हो। फिर प्रोग्रामर वेबसाइट के लिए एडाप्टर या रैपर लिखते हैं और स्रोत स्कीमा में वेबसाइट के परिणामों का स्कीमा विवरण जोड़ते हैं। नए स्रोत को जोड़ने की जटिलता डिज़ाइनर से क्वेरी प्रोसेसर की ओर बढ़ती है।

क्वेरी प्रोसेसिंग

डेटा एकीकरण प्रणालियों में क्वेरी प्रोसेसिंग का सिद्धांत आमतौर पर कंजंक्टिव डेटाबेस क्वेरी भाषा और संगणक वैज्ञानिक , विशुद्ध रूप से घोषणात्मक तर्क प्रोग्रामिंग भाषा का उपयोग करके व्यक्त किया जाता है।[20] कोई संयोजक क्वेरी को डेटाबेस के संबंधों पर लागू तार्किक फ़ंक्शन के रूप में सोच सकता है कहाँ . यदि किसी टुपल या टुपल्स के सेट को नियम में प्रतिस्थापित किया जाता है और यह इसे संतुष्ट करता है (इसे सत्य बनाता है), तो हम उस टुपल को क्वेरी में उत्तरों के सेट के हिस्से के रूप में मानते हैं। जबकि डेटालॉग जैसी औपचारिक भाषाएँ इन प्रश्नों को संक्षिप्त रूप से और अस्पष्टता के बिना व्यक्त करती हैं, सामान्य SQL क्वेरीज़ को संयोजनात्मक क्वेरी के रूप में भी गिना जाता है।

डेटा एकीकरण के संदर्भ में, क्वेरी नियंत्रण संयोजक प्रश्नों की महत्वपूर्ण संपत्ति का प्रतिनिधित्व करता है। पूछताछ इसमें और क्वेरी शामिल है (संकेतित ) यदि आवेदन करने के परिणाम आवेदन करने के परिणामों का उपसमूह हैं किसी भी डेटाबेस के लिए. यदि परिणामी सेट किसी डेटाबेस के लिए समान हैं तो दोनों प्रश्नों को समतुल्य कहा जाता है। यह महत्वपूर्ण है क्योंकि जीएवी और एलएवी दोनों प्रणालियों में, उपयोगकर्ता दृश्य (डेटाबेस) के सेट, या भौतिक संयोजन वाले प्रश्नों द्वारा दर्शाए गए वर्चुअल स्कीमा पर संयोजक प्रश्न पूछता है। एकीकरण का उद्देश्य विचारों द्वारा प्रस्तुत प्रश्नों को फिर से लिखना है ताकि उनके परिणामों को हमारे उपयोगकर्ता की क्वेरी के बराबर या अधिकतम रूप से समाहित किया जा सके। यह दृश्यों (AQUV) का उपयोग करके प्रश्नों का उत्तर देने की समस्या से मेल खाता है।[21] GAV सिस्टम में, सिस्टम डिज़ाइनर क्वेरी-रीराइटिंग को परिभाषित करने के लिए मध्यस्थ कोड लिखता है। उपयोगकर्ता की क्वेरी में प्रत्येक तत्व प्रतिस्थापन नियम से मेल खाता है, जैसे वैश्विक स्कीमा में प्रत्येक तत्व स्रोत पर क्वेरी से मेल खाता है। क्वेरी प्रसंस्करण बस मध्यस्थ में निर्दिष्ट नियम के अनुसार उपयोगकर्ता की क्वेरी के उपलक्ष्यों का विस्तार करता है और इस प्रकार परिणामी क्वेरी समतुल्य होने की संभावना है। जबकि डिज़ाइनर अधिकांश कार्य पहले से करता है, कुछ GAV सिस्टम जैसे Tsimmis में मध्यस्थ विवरण प्रक्रिया को सरल बनाना शामिल है।

एलएवी सिस्टम में, क्वेरीज़ को पुनर्लेखन की अधिक मौलिक प्रक्रिया से गुजरना पड़ता है क्योंकि उपयोगकर्ता की क्वेरी को सरल विस्तार रणनीति के साथ संरेखित करने के लिए कोई मध्यस्थ मौजूद नहीं होता है। सर्वोत्तम पुनर्लेखन खोजने के लिए एकीकरण प्रणाली को संभावित प्रश्नों के स्थान पर खोज निष्पादित करनी चाहिए। परिणामी पुनर्लेखन समतुल्य क्वेरी नहीं हो सकती है, लेकिन अधिकतम रूप से समाहित हो सकती है, और परिणामी टुपल्स अपूर्ण हो सकते हैं। As of 2011 जीक्यूआर एल्गोरिदम[22] LAV डेटा एकीकरण प्रणालियों के लिए अग्रणी क्वेरी पुनर्लेखन एल्गोरिदम है।

सामान्य तौर पर, क्वेरी पुनर्लेखन की जटिलता एनपी-पूर्ण होती है।[21] यदि पुनर्लेखन का स्थान अपेक्षाकृत छोटा है, तो यह कोई समस्या पैदा नहीं करता है - यहां तक ​​कि सैकड़ों स्रोतों के साथ एकीकरण प्रणालियों के लिए भी।

चिकित्सा और जीवन विज्ञान

विज्ञान में बड़े पैमाने के प्रश्न, जैसे वास्तविक विश्व साक्ष्य, ग्लोबल वार्मिंग, आक्रामक प्रजातियों का प्रसार और संसाधन की कमी, मेटा-विश्लेषण के लिए असमान डेटा सेट के संग्रह की आवश्यकता बढ़ रही है। इस प्रकार का डेटा एकीकरण पारिस्थितिक और पर्यावरणीय डेटा के लिए विशेष रूप से चुनौतीपूर्ण है क्योंकि मेटाडेटा मानकों पर सहमति नहीं है और इन क्षेत्रों में कई अलग-अलग डेटा प्रकार तैयार किए जाते हैं। डेटा नेटवर्क जैसी राष्ट्रीय विज्ञान फाउंडेशन की पहल का उद्देश्य साइबर साइबरइन्फ्रास्ट्रक्चर प्रदान करके और मानक निर्धारित करके वैज्ञानिकों के लिए डेटा एकीकरण को आसान बनाना है। पाँच वित्त पोषित डेटानेट पहल डेटावन हैं,[23] न्यू मैक्सिको विश्वविद्यालय में विलियम मिचेनर के नेतृत्व में; डेटा संरक्षण,[24] जॉन्स हॉपकिन्स विश्वविद्यालय के सईद चौधरी के नेतृत्व में; SEAD: क्रियाशील डेटा के माध्यम से सतत पर्यावरण,[25] मिशिगन विश्वविद्यालय के मार्गरेट हेडस्ट्रॉम के नेतृत्व में; डेटानेट फेडरेशन कंसोर्टियम,[26] उत्तरी कैरोलिना विश्वविद्यालय के रीगन मूर के नेतृत्व में; और टेरा पोपुलस,[27] मिनेसोटा विश्वविद्यालय के स्टीवन रग्गल्स के नेतृत्व में। अनुसंधान डेटा एलायंस,[28] हाल ही में वैश्विक डेटा एकीकरण ढाँचे बनाने का पता लगाया गया है। यूरोपीय संघ नवोन्मेषी औषधि पहल के माध्यम से वित्त पोषित OpenPHACTS प्रोजेक्ट ने यूरोपीय जैव सूचना विज्ञान संस्थान, रॉयल सोसाइटी ऑफ केमिस्ट्री, यूनीप्रोट, विकीपाथवेज़ और ड्रगबैंक जैसे प्रदाताओं के डेटासेट को जोड़कर दवा खोज मंच बनाया।

यह भी देखें

उद्यम वास्तुकला ढांचा ढांचा

पाठ खोलें खोलें

संदर्भ

  1. 1.0 1.1 1.2 Maurizio Lenzerini (2002). "Data Integration: A Theoretical Perspective" (PDF). PODS 2002. pp. 233–246.
  2. Frederick Lane (2006). "IDC: World Created 161 Billion Gigs of Data in 2006". Archived from the original on 2015-07-15.
  3. mikben. "Data Coherency - Win32 apps". docs.microsoft.com (in English). Archived from the original on 2020-06-12. Retrieved 2020-11-23.
  4. Chung, P.; Chung, S. H. (2013-05). "On data integration and data mining for developing business intelligence". 2013 IEEE Long Island Systems, Applications and Technology Conference (LISAT): 1–6. doi:10.1109/LISAT.2013.6578235.
  5. John Miles Smith; et al. (1982). "Multibase: integrating heterogeneous distributed database systems". AFIPS '81 Proceedings of the May 4–7, 1981, National Computer Conference. pp. 487–499.
  6. Steven Ruggles, J. David Hacker, and Matthew Sobek (1995). "Order out of Chaos: The Integrated Public Use Microdata Series". Historical Methods. Vol. 28. pp. 33–39.{{cite news}}: CS1 maint: multiple names: authors list (link)
  7. Jennifer Widom (1995). "डेटा वेयरहाउसिंग में अनुसंधान समस्याएं". CIKM '95 Proceedings of the Fourth International Conference on Information and Knowledge Management. pp. 25–30.
  8. Pautasso, Cesare; Wilde, Erik (2009-04-20). "Why is the web loosely coupled? a multi-faceted metric for service design". Proceedings of the 18th International Conference on World Wide Web. WWW '09. Madrid, Spain: Association for Computing Machinery: 911–920. doi:10.1145/1526709.1526832. ISBN 978-1-60558-487-4. S2CID 207172208.
  9. "What is GAV (Global as View)?". GeeksforGeeks (in English). 2020-04-18. Archived from the original on 2020-11-30. Retrieved 2020-11-23.
  10. "Local-as-View", Wikipedia (in Deutsch), 2020-07-24, retrieved 2020-11-23
  11. Shubhra S. Ray; et al. (2009). "Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast" (PDF). IEEE Transactions on Biomedical Engineering. 56 (2): 229–236. CiteSeerX 10.1.1.150.7928. doi:10.1109/TBME.2008.2005955. PMID 19272921. S2CID 10848834. Archived (PDF) from the original on 2010-05-08. Retrieved 2012-05-17.
  12. Michael Mireku Kwakye (2011). "बहुआयामी डेटा मॉडल को मर्ज करने का एक व्यावहारिक दृष्टिकोण". hdl:10393/20457.
  13. "हब लेक और वेयरहाउस खोज रुझान". Archived from the original on 2017-02-17. Retrieved 2016-01-12.
  14. "बिजनेस एनालिटिक्स में डेटा माइनिंग।". Western Governors University. May 15, 2020. Archived from the original on December 23, 2020. Retrieved November 22, 2020.
  15. Surani, Ibrahim (2020-03-30). "Data Integration for Business Intelligence: Best Practices". DATAVERSITY (in English). Archived from the original on 2020-11-30. Retrieved 2020-11-23.
  16. Alagić, Suad; Bernstein, Philip A. (2002). डेटाबेस प्रोग्रामिंग भाषाएँ. Lecture Notes in Computer Science. Vol. 2397. pp. 228–246. doi:10.1007/3-540-46093-4_14. ISBN 978-3-540-44080-2.
  17. "Nested Mappings: Schema Mapping Reloaded" (PDF). Archived (PDF) from the original on 2015-10-28. Retrieved 2015-09-10.
  18. "बीजगणितीय विशिष्टता और सॉफ्टवेयर के विकास के लिए सामान्य फ्रेमवर्क पहल" (PDF). Archived (PDF) from the original on 2016-03-04. Retrieved 2015-09-10.
  19. Christoph Koch (2001). "एकाधिक विकसित स्वायत्त स्कीमाटा के विरुद्ध डेटा एकीकरण" (PDF). Archived from the original (PDF) on 2007-09-26.
  20. Jeffrey D. Ullman (1997). "तार्किक विचारों का उपयोग कर सूचना एकीकरण". ICDT 1997. pp. 19–40.
  21. 21.0 21.1 Alon Y. Halevy (2001). "Answering queries using views: A survey" (PDF). The VLDB Journal. pp. 270–294.
  22. George Konstantinidis; et al. (2011). "Scalable Query Rewriting: A Graph-based Approach" (PDF). in Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD'11, June 12–16, 2011, Athens, Greece.
  23. William Michener; et al. "DataONE: Observation Network for Earth". www.dataone.org. Archived from the original on 2013-01-22. Retrieved 2013-01-19.
  24. Sayeed Choudhury; et al. "डेटा संरक्षण". dataconservancy.org. Archived from the original on 2013-01-13. Retrieved 2013-01-19.
  25. Margaret Hedstrom; et al. "SEAD सतत पर्यावरण - कार्रवाई योग्य डेटा". sead-data.net. Archived from the original on 2012-09-20. Retrieved 2013-01-19.
  26. Reagan Moore; et al. "डेटानेट फेडरेशन कंसोर्टियम". datafed.org. Archived from the original on 2013-04-15. Retrieved 2013-01-19.
  27. Steven Ruggles; et al. "Terra Populus: Integrated Data on Population and the Environment". terrapop.org. Archived from the original on 2013-05-18. Retrieved 2013-01-19.
  28. Bill Nichols. "अनुसंधान डेटा एलायंस". rd-alliance.org. Archived from the original on 2014-11-18. Retrieved 2014-10-01.

बाहरी संबंध