डेटा सम्मिश्रण
डेटा सम्मिश्रण ऐसी प्रक्रिया है जिसके तहत कई स्रोतों से बड़ा डेटा प्राप्त किया जाता है[1] एकल डेटा वेयरहाउस या डेटा सेट में विलय कर दिया जाता है।[2] यह न केवल विभिन्न फ़ाइल स्वरूपों या डेटा के अलग-अलग स्रोतों के विलय से संबंधित है, बल्कि डेटा की विभिन्न किस्मों से भी संबंधित है।[3] डेटा सम्मिश्रण व्यवसाय विश्लेषकों को डेटा के विस्तार से निपटने की अनुमति देता है जिसकी उन्हें अच्छी गुणवत्ता वाली व्यावसायिक बुद्धिमत्ता के आधार पर महत्वपूर्ण व्यावसायिक निर्णय लेने के लिए आवश्यकता होती है।[4]
डेटा विज्ञान द्वारा किसी भी व्यावहारिक हस्तक्षेप के लिए स्रोतों को बहुत तेज़ी से मर्ज करने के लिए डेटा विश्लेषण की आवश्यकताओं के कारण डेटा मिश्रण को डेटा एकीकरण से अलग बताया गया है।[5]
डेटा स्रोतों को संयोजित करने के लिए विश्लेषकों की बढ़ती मांग का प्रतिनिधित्व करते हुए, कई सॉफ्टवेयर कंपनियों ने बड़ी वृद्धि देखी है और लाखों डॉलर जुटाए हैं,[6] बाज़ार में कुछ शुरुआती प्रवेशकों के साथ अब सार्वजनिक कंपनियाँ।[7] उदाहरणों में अमेज़न वेब सेवाएँ, एल्टरेक्स, माइक्रोसॉफ्ट पावर क्वेरी शामिल हैं।[8] और अपने ऊपर लेना,[9] जो कई अलग-अलग डेटा स्रोतों से डेटा को संयोजित करने में सक्षम बनाता है, उदाहरण के लिए, टेक्स्ट फ़ाइलें, डेटाबेस, XML, JSON, और संरचित और अर्ध-संरचित डेटा के कई अन्य रूप।[10][11][12][13]
डेटा ब्लेंडिंग कई मायनों में एक्सट्रेक्ट, ट्रांसफॉर्म, लोड के समान है। ईटीएल और डेटा ब्लेंडिंग दोनों विभिन्न स्रोतों से डेटा लेते हैं और उन्हें संयोजित करते हैं। हालाँकि, ETL का उपयोग डेटा को लक्ष्य डेटाबेस में मर्ज और संरचना करने के लिए किया जाता है,[14] अक्सर डेटा वेयरहाउस. डेटा सम्मिश्रण थोड़ा अलग है क्योंकि यह विशिष्ट समय पर किसी विशिष्ट उपयोग के मामले के लिए डेटा को जोड़ने के बारे में है।[15] कुछ सॉफ़्टवेयर के साथ, डेटा को डेटाबेस में नहीं लिखा जाता है, जो ईटीएल से बहुत अलग है। उदाहरण के लिए, Google डेटा स्टूडियो के साथ[16] और झांकी सॉफ्टवेयर, डेटा मिश्रण रिपोर्टिंग परत पर होता है; यह कहीं लिखा नहीं है, केवल प्रदर्शित किया गया है।
झांकी में डेटा सम्मिश्रण
टेबल्यू सॉफ़्टवेयर में, डेटा सम्मिश्रण डेटा विज़ुअलाइज़ेशन में एकाधिक डेटा स्रोतों से डेटा को संयोजित करने की तकनीक है।[17] डेटा स्रोतों को अलग-अलग संग्रहीत किया जाता है और केवल रिपोर्टिंग परत पर डैशबोर्ड (व्यवसाय) में साथ प्रदर्शित किया जाता है। यह टेबल्यू डेटा मिश्रण को डेटा सम्मिश्रण की अन्य परिभाषाओं से अलग करने वाली प्रमुख अवधारणाओं में से है।
अन्य प्रमुख विभेदक डेटा जॉइन की ग्रैन्युलैरिटी है। आम तौर पर, डेटा को एकल डेटा सेट में मिश्रित करते समय, यह शामिल हों (एसक्यूएल) का उपयोग करेगा, जो आमतौर पर जहां संभव हो वहां आईडी फ़ील्ड का उपयोग करके सबसे अधिक दानेदार स्तर पर जुड़ जाएगा।[18] टेबल्यू में डेटा मिश्रण कम से कम बारीक स्तर पर होना चाहिए।[19]
Google डेटा स्टूडियो में डेटा सम्मिश्रण
Google डेटा स्टूडियो में, डेटा स्रोतों को डेटा स्रोत के रिकॉर्ड को 4 अन्य डेटा स्रोतों के रिकॉर्ड के साथ जोड़कर संयोजित किया जाता है। टेबलू के समान, डेटा मिश्रण केवल रिपोर्टिंग परत पर होता है। मिश्रित डेटा को कभी भी अलग संयुक्त डेटा स्रोत के रूप में संग्रहीत नहीं किया जाता है।[20]
डेटा सम्मिश्रण की चुनौतियाँ
सबसे आम कस्टम मेटाडेटा प्रश्न है: यह डेटासेट मेरे अन्य डेटासेट के साथ कैसे मिश्रित हो सकता है (जुड़ सकता है या जुड़ सकता है)?[21] 2015 फॉरेस्टर कंसल्टिंग अध्ययन में पाया गया कि 52 प्रतिशत कंपनियां 50 या अधिक डेटा स्रोतों का मिश्रण कर रही हैं और 12 प्रतिशत 1,000 से अधिक स्रोतों का मिश्रण कर रही हैं।[22]
यह भी देखें
- डेटा तैयारी
- डाटा संलयन
- डेटा की गड़बड़ी
- डेटा सफाई
- डेटा संपादन
- डेटा स्क्रैपिंग
- डेटा क्यूरेशन
- डेटा प्री-प्रोसेसिंग
संदर्भ
- ↑ Alteryx Analytics Brings Power of Predictive and Big Data to Market
- ↑ Data blending is the process of combining data from multiple sources into a functioning data set
- ↑ The Definitive Guide to Data Blending
- ↑ "डेटा सम्मिश्रण". Trifacta.com. August 24, 2017.
- ↑ What Is Data Blending, and Which Tools Make It Easier?
- ↑ "Incorta raises $30M Series C for ETL-free data processing solution". TechCrunch (in English). Retrieved 2021-02-27.
- ↑ "एल्टरेक्स ने आरंभिक सार्वजनिक पेशकश के मूल्य निर्धारण की घोषणा की". Alteryx (in English). Retrieved 2021-02-27.
- ↑ Corporation, Microsoft. "माइक्रोसॉफ्ट पावर क्वेरी". powerquery.microsoft.com (in English). Retrieved 2021-02-27.
- ↑ "Direct Data Analytics Software | Incorta". www.incorta.com (in English). Retrieved 2021-02-27.
- ↑ "डेटा स्रोत". docs.incorta.com (in English). Retrieved 2021-02-27.
- ↑ davidiseminger. "पावर क्वेरी का उपयोग करके एकाधिक स्रोतों से डेटा को आकार दें और संयोजित करें". docs.microsoft.com (in English). Retrieved 2021-02-27.
- ↑ "समर्थित डेटा स्रोत - अमेज़न क्विकसाइट". docs.aws.amazon.com. Retrieved 2021-02-27.
- ↑ "Data Sources | Alteryx Help". help.alteryx.com. Retrieved 2021-02-27.
- ↑ "ईटीएल कैसे काम करता है". Databricks (in Deutsch). Retrieved 2021-02-27.
- ↑ "What Is Data Blending, and Which Tools Make It Easier?". Software Advice (in English). 2016-08-25. Retrieved 2021-02-27.
- ↑ "Google डेटा स्टूडियो अवलोकन". datastudio.google.com. Retrieved 2021-02-27.
- ↑ "अपना डेटा मिश्रित करें". help.tableau.com (in English). Retrieved 2021-02-27.
- ↑ "एसक्यूएल जॉइन्स की व्याख्या". एसक्यूएल जॉइन्स की व्याख्या (in English). Retrieved 2021-02-27.
- ↑ TAR Solutions (2021-01-20). "झांकी में डेटा सम्मिश्रण". TAR Solutions (in English). Retrieved 2021-02-27.
{{cite web}}
: CS1 maint: url-status (link) - ↑ "डेटा सम्मिश्रण के बारे में - डेटा स्टूडियो सहायता". support.google.com. Retrieved 2021-02-27.
- ↑ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (July 2017). डेटा गड़बड़ी के सिद्धांत. O'Reilly Media.
- ↑ "एनालिटिक्स के लिए डेटा मैशअप". Pentaho.