अपाचे सिस्टमडीएस: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Open-source machine learning system for end-to-end data science lifecycle}} {{DISPLAYTITLE:Apache SystemDS}} {{Infobox software | name = Apache SystemDS |...")
 
No edit summary
Line 15: Line 15:
| website = {{URL|https://systemds.apache.org/}}
| website = {{URL|https://systemds.apache.org/}}
}}
}}
अपाचे सिस्टमडीएस (पहले, अपाचे सिस्टमएमएल) एंड-टू-एंड डेटा साइंस जीवनचक्र के लिए एक ओपन सोर्स एमएल सिस्टम है।
अपाचे सिस्टमडीएस (पहले, अपाचे सिस्टमएमएल) एंड-टू-एंड डेटा साइंस लाइफसाइकिल के लिए एक ओपन सोर्स एमएल सिस्टम है।


SystemDS की विशिष्ट विशेषताएं हैं:
सिस्टमडीएस की विशिष्ट विशेषताएं हैं:


# आर-जैसी और पायथन-जैसी भाषाओं के माध्यम से एल्गोरिदम अनुकूलनशीलता।
# आर-जैसी और पायथन-जैसी भाषाओं के माध्यम से एल्गोरिदम अनुकूलनशीलता।
Line 29: Line 29:


== प्रमुख प्रौद्योगिकियां ==
== प्रमुख प्रौद्योगिकियां ==
SystemDS इंजन में निर्मित कुछ प्रौद्योगिकियाँ निम्नलिखित हैं।
सिस्टमडीएस इंजन में निर्मित कुछ प्रौद्योगिकियाँ निम्नलिखित हैं।


* [https://cacm.acm.org/magazines/2019/5/236413-compressed-linear-algebra-for-declarative-large-scale-machine-learning/fulltext बड़े पैमाने पर मशीन लर्निंग के लिए संपीड़ित रैखिक बीजगणित]
* [https://cacm.acm.org/magazines/2019/5/236413-compressed-linear-algebra-for-declarative-large-scale-machine-learning/fulltext बड़े पैमाने पर मशीन लर्निंग के लिए संपीड़ित रैखिक बीजगणित]
Line 70: Line 70:


== सुधार ==
== सुधार ==
SystemDS 2.0.0 नए नाम के तहत पहली बड़ी रिलीज़ है। इस रिलीज़ में एंड-टू-एंड डेटा विज्ञान जीवनचक्र को बेहतर समर्थन देने के लिए एक प्रमुख रिफैक्टरिंग, कुछ प्रमुख विशेषताएं, बड़ी संख्या में सुधार और सुधार और कुछ प्रयोगात्मक विशेषताएं शामिल हैं। इसके अलावा, यह रिलीज़ कई ऐसी सुविधाओं को भी हटा देता है जो अद्यतित और पुरानी नहीं हैं।
सिस्टमडीएस 2.0.0 नए नाम के तहत पहली बड़ी रिलीज़ है। इस रिलीज़ में एंड-टू-एंड डेटा विज्ञान जीवनचक्र को बेहतर समर्थन देने के लिए एक प्रमुख रिफैक्टरिंग, कुछ प्रमुख विशेषताएं, बड़ी संख्या में सुधार और सुधार और कुछ प्रयोगात्मक विशेषताएं शामिल हैं। इसके अलावा, यह रिलीज़ कई ऐसी सुविधाओं को भी हटा देता है जो अद्यतित और पुरानी नहीं हैं।


* डीएमएल-बॉडीड (स्क्रिप्ट-स्तर) के लिए नया तंत्र <code>builtin</code> फ़ंक्शंस, और डेटा प्रीप्रोसेसिंग के लिए नए अंतर्निहित फ़ंक्शंस का खजाना जिसमें डेटा सफाई, संवर्द्धन और फ़ीचर इंजीनियरिंग तकनीक, नए एमएल एल्गोरिदम और मॉडल डिबगिंग शामिल हैं।
* डीएमएल-बॉडीड (स्क्रिप्ट-स्तर) के लिए नया तंत्र <code>builtin</code> फ़ंक्शंस, और डेटा प्रीप्रोसेसिंग के लिए नए अंतर्निहित फ़ंक्शंस का खजाना जिसमें डेटा सफाई, संवर्द्धन और फ़ीचर इंजीनियरिंग तकनीक, नए एमएल एल्गोरिदम और मॉडल डिबगिंग शामिल हैं।
Line 87: Line 87:
* विविध सुधार: बेहतर दस्तावेज़ीकरण, बेहतर परीक्षण, रन/रिलीज़ स्क्रिप्ट, बेहतर पैकेजिंग, सिस्टमडीएस के लिए डॉकर कंटेनर, लैम्ब्डा एक्सप्रेशन के लिए समर्थन, बग फिक्स।
* विविध सुधार: बेहतर दस्तावेज़ीकरण, बेहतर परीक्षण, रन/रिलीज़ स्क्रिप्ट, बेहतर पैकेजिंग, सिस्टमडीएस के लिए डॉकर कंटेनर, लैम्ब्डा एक्सप्रेशन के लिए समर्थन, बग फिक्स।
* MapReduce कंपाइलर और रनटाइम बैकएंड को हटा दिया गया, <code>pydml</code> पार्सर, जावा-यूडीएफ फ्रेमवर्क, स्क्रिप्ट-स्तरीय डिबगर।
* MapReduce कंपाइलर और रनटाइम बैकएंड को हटा दिया गया, <code>pydml</code> पार्सर, जावा-यूडीएफ फ्रेमवर्क, स्क्रिप्ट-स्तरीय डिबगर।
* पदावनत <code>./scripts/algorithms</code>, क्योंकि वे एल्गोरिदम धीरे-धीरे SystemDS का हिस्सा बन जाएंगे <code>builtin</code>एस।
* पदावनत <code>./scripts/algorithms</code>, क्योंकि वे एल्गोरिदम धीरे-धीरे सिस्टमडीएस का हिस्सा बन जाएंगे <code>builtin</code>एस।
<ref>{{Cite web|last=SystemDS|first=Apache|title=SystemML 1.2.0 Release Notes|url=https://systemds.apache.org/|access-date=2021-02-26|website=systemds.apache.org|language=en}}</ref>
<ref>{{Cite web|last=SystemDS|first=Apache|title=SystemML 1.2.0 Release Notes|url=https://systemds.apache.org/|access-date=2021-02-26|website=systemds.apache.org|language=en}}</ref>




== योगदान ==
== योगदान ==
Apache SystemDS कोड, प्रश्न और उत्तर, सामुदायिक निर्माण, या प्रचार-प्रसार में योगदान का स्वागत करता है। योगदानकर्ता मार्गदर्शिका https://github.com/apache/systemds/blob/main/CONTRIBUTING.md पर उपलब्ध है
Apache सिस्टमडीएस कोड, प्रश्न और उत्तर, सामुदायिक निर्माण, या प्रचार-प्रसार में योगदान का स्वागत करता है। योगदानकर्ता मार्गदर्शिका [https://github.com/apache/systemds/blob/main/CONTRIBUTING.md https://github.com/apache/सिस्टमडीएस/blob/main/CONTRIBUTING.md] पर उपलब्ध है


==यह भी देखें==
==यह भी देखें==

Revision as of 07:06, 14 December 2023

Apache SystemDS
Developer(s)Apache Software Foundation, IBM
Initial releaseNovember 2, 2015; 9 years ago (2015-11-02)
Stable release
3.0.0 / July 5, 2022; 2 years ago (2022-07-05)
RepositorySystemDS Repository
Written inJava, Python, DML, C
Operating systemLinux, macOS, Windows
TypeMachine Learning, Deep Learning, Data Science
LicenseApache License 2.0
Websitesystemds.apache.org

अपाचे सिस्टमडीएस (पहले, अपाचे सिस्टमएमएल) एंड-टू-एंड डेटा साइंस लाइफसाइकिल के लिए एक ओपन सोर्स एमएल सिस्टम है।

सिस्टमडीएस की विशिष्ट विशेषताएं हैं:

  1. आर-जैसी और पायथन-जैसी भाषाओं के माध्यम से एल्गोरिदम अनुकूलनशीलता।
  2. स्टैंडअलोन, अपाचे स्पार्क बैच, अपाचे स्पार्क MLContext, अपाचे Hadoop बैच और JMLC सहित एकाधिक निष्पादन मोड।
  3. दक्षता और स्केलेबिलिटी दोनों सुनिश्चित करने के लिए डेटा और क्लस्टर विशेषताओं के आधार पर स्वचालित अनुकूलन।

इतिहास

SystemML को 2010 में IBM फेलो शिवकुमार वैथ्यनाथन के नेतृत्व में आईबीएम अल्माडेन रिसर्च सेंटर के शोधकर्ताओं द्वारा बनाया गया था। यह देखा गया कि डेटा वैज्ञानिक छोटे डेटा के लिए आर (प्रोग्रामिंग भाषा) और पायथन (प्रोग्रामिंग भाषा) जैसी भाषाओं में मशीन लर्निंग एल्गोरिदम लिखेंगे। जब बड़े डेटा को स्केल करने का समय आया, तो स्काला (प्रोग्रामिंग भाषा) जैसी भाषा में एल्गोरिदम को स्केल करने के लिए एक सिस्टम प्रोग्रामर की आवश्यकता होगी। इस प्रक्रिया में आम तौर पर प्रति पुनरावृत्ति दिन या सप्ताह शामिल होते हैं, और बड़े डेटा पर काम करने के लिए एल्गोरिदम का अनुवाद करने में त्रुटियां होंगी। SystemML इस प्रक्रिया को सरल बनाना चाहता है। SystemML का प्राथमिक लक्ष्य बड़े डेटा पर काम करने के लिए आर-जैसी या पायथन-जैसी भाषा में लिखे गए एल्गोरिदम को स्वचालित रूप से स्केल करना है, जो त्रुटि-प्रवण, बहु-पुनरावृत्त अनुवाद दृष्टिकोण के बिना समान उत्तर उत्पन्न करता है।

15 जून 2015 को, सैन फ्रांसिस्को में स्पार्क शिखर सम्मेलन में, आईबीएम एनालिटिक्स के महाप्रबंधक बेथ स्मिथ ने घोषणा की कि आईबीएम अपाचे स्पार्क और स्पार्क-संबंधित परियोजनाओं के लिए आईबीएम की प्रमुख प्रतिबद्धता के हिस्से के रूप में सिस्टमएमएल को ओपन-सोर्स कर रहा था। SystemML 27 अगस्त, 2015 को GitHub पर सार्वजनिक रूप से उपलब्ध हो गया और 2 नवंबर, 2015 को Apache इनक्यूबेटर प्रोजेक्ट बन गया। 17 मई, 2017 को, Apache सॉफ्टवेयर फाउंडेशन बोर्ड ने Apache SystemML को Apache टॉप लेवल प्रोजेक्ट के रूप में स्नातक करने की मंजूरी दे दी।

प्रमुख प्रौद्योगिकियां

सिस्टमडीएस इंजन में निर्मित कुछ प्रौद्योगिकियाँ निम्नलिखित हैं।

उदाहरण

प्रमुख घटक विश्लेषण

निम्नलिखित कोड स्निपेट[1] इनपुट मैट्रिक्स का प्रमुख घटक विश्लेषण करता है , which returns the and the .

# PCA.dml
# Refer: https://github.com/apache/systemds/blob/master/scripts/algorithms/PCA.dml#L61

N = nrow(A);
D = ncol(A);

# perform z-scoring (centering and scaling)
A = scale(A, center==1, scale==1);

# co-variance matrix 
mu = colSums(A)/N;
C = (t(A) %*% A)/(N-1) - (N/(N-1))*t(mu) %*% mu;


# compute eigen vectors and values
[evalues, evectors] = eigen(C);


मंगलाचरण लिपि

<सिंटैक्सहाइलाइट लैंग= शेल-सेशन > स्पार्क-सबमिट SystemDS.jar -f PCA.dml -nvargs INPUT=INPUT_DIR/pca-1000x1000 \

 आउटपुट=OUTPUT_DIR/pca-1000x1000-मॉडल PROJDATA=1 केंद्र=1 स्केल=1

</सिंटैक्सहाइलाइट>

डेटाबेस फ़ंक्शन

यूक्लिडियन दूरी के साथ DBSCAN क्लस्टरिंग एल्गोरिदम।<सिंटैक्सहाइलाइट lang= r लाइन= 1 > एक्स = रैंड(पंक्तियाँ=1780, कॉलम=180, न्यूनतम=1, अधिकतम=20) [सूचकांक, मॉडल] = डीबीएसकैन(एक्स = एक्स, ईपीएस = 2.5, मिनपीटीएस = 360) </सिंटैक्सहाइलाइट>

सुधार

सिस्टमडीएस 2.0.0 नए नाम के तहत पहली बड़ी रिलीज़ है। इस रिलीज़ में एंड-टू-एंड डेटा विज्ञान जीवनचक्र को बेहतर समर्थन देने के लिए एक प्रमुख रिफैक्टरिंग, कुछ प्रमुख विशेषताएं, बड़ी संख्या में सुधार और सुधार और कुछ प्रयोगात्मक विशेषताएं शामिल हैं। इसके अलावा, यह रिलीज़ कई ऐसी सुविधाओं को भी हटा देता है जो अद्यतित और पुरानी नहीं हैं।

  • डीएमएल-बॉडीड (स्क्रिप्ट-स्तर) के लिए नया तंत्र builtin फ़ंक्शंस, और डेटा प्रीप्रोसेसिंग के लिए नए अंतर्निहित फ़ंक्शंस का खजाना जिसमें डेटा सफाई, संवर्द्धन और फ़ीचर इंजीनियरिंग तकनीक, नए एमएल एल्गोरिदम और मॉडल डिबगिंग शामिल हैं।
  • डेटा सफाई के लिए कई तरीकों को लागू किया गया है जिसमें जंजीर समीकरणों (एमआईसीई) और अन्य तकनीकों द्वारा बहुभिन्नरूपी प्रतिरूपण के साथ कई प्रतिरूपण, एसएमओटीई, वर्ग असंतुलन के लिए एक ओवरसैंपलिंग तकनीक, आगे और पीछे एनए भरना, स्कीमा और लंबाई की जानकारी का उपयोग करके सफाई, बाहरी के लिए समर्थन शामिल है। मानक विचलन और अंतर-चतुर्थक सीमा, और कार्यात्मक निर्भरता खोज का उपयोग करके पता लगाना।
  • वंशावली अनुरेखण और पुन: उपयोग के लिए एक पूर्ण रूपरेखा जिसमें लूप डिडुप्लीकेशन, पूर्ण और आंशिक पुन: उपयोग, कंपाइलर सहायता प्राप्त पुन: उपयोग, पुन: उपयोग की सुविधा के लिए कई नए पुनर्लेखन के लिए समर्थन शामिल है।
  • फ़ेडरेटेड मैट्रिस और फ़्रेम के लिए समर्थन सहित नया फ़ेडरेटेड रनटाइम बैकएंड, फ़ेडरेटेड builtinएस (transform-encode, decode वगैरह।)।
  • रिफैक्टर संपीड़न पैकेज और हानिपूर्ण संपीड़न, बाइनरी सेल संचालन, बाएं मैट्रिक्स गुणन के लिए परिमाणीकरण सहित कार्यक्षमताएं जोड़ें। [प्रयोगात्मक]
  • कई के लिए समर्थन के साथ नई पायथन बाइंडिंग builtinएस, मैट्रिक्स ऑपरेशंस, फ़ेडरेटेड टेंसर और वंश निशान।
  • संचयी समुच्चय ऑपरेटरों का क्यूडा कार्यान्वयन (cumsum, cumprod वगैरह।)
  • स्लाइस फाइंडर के साथ नई मॉडल डिबगिंग तकनीक।
  • नया टेंसर डेटा मॉडल (विभिन्न मूल्य प्रकार के मूल टेंसर, स्कीमा के साथ डेटा टेंसर) [प्रायोगिक]
  • AWS के लिए क्लाउड परिनियोजन स्क्रिप्ट और फ़ेडरेटेड संचालन स्थापित करने और शुरू करने के लिए स्क्रिप्ट।
  • प्रदर्शन में सुधार parallel sort, gpu cum agg, append cbind वगैरह।
  • नए और बेहतर पुनर्लेखन, कम स्पार्क संदर्भ निर्माण, नए सहित विभिन्न कंपाइलर और रनटाइम सुधार eval फ्रेमवर्क, सूची संचालन, अद्यतन देशी कर्नेल लाइब्रेरीज़ जैसे कुछ नाम शामिल हैं।
  • नए डेटा रीडर/लेखक के लिए json फ्रेम और समर्थन के लिए sql डेटा स्रोत के रूप में.
  • विविध सुधार: बेहतर दस्तावेज़ीकरण, बेहतर परीक्षण, रन/रिलीज़ स्क्रिप्ट, बेहतर पैकेजिंग, सिस्टमडीएस के लिए डॉकर कंटेनर, लैम्ब्डा एक्सप्रेशन के लिए समर्थन, बग फिक्स।
  • MapReduce कंपाइलर और रनटाइम बैकएंड को हटा दिया गया, pydml पार्सर, जावा-यूडीएफ फ्रेमवर्क, स्क्रिप्ट-स्तरीय डिबगर।
  • पदावनत ./scripts/algorithms, क्योंकि वे एल्गोरिदम धीरे-धीरे सिस्टमडीएस का हिस्सा बन जाएंगे builtinएस।

[2]


योगदान

Apache सिस्टमडीएस कोड, प्रश्न और उत्तर, सामुदायिक निर्माण, या प्रचार-प्रसार में योगदान का स्वागत करता है। योगदानकर्ता मार्गदर्शिका https://github.com/apache/सिस्टमडीएस/blob/main/CONTRIBUTING.md पर उपलब्ध है

यह भी देखें

  • डीप लर्निंग सॉफ्टवेयर की तुलना

संदर्भ

  1. Apache SystemDS, The Apache Software Foundation, 2022-02-24, retrieved 2022-03-06
  2. SystemDS, Apache. "SystemML 1.2.0 Release Notes". systemds.apache.org (in English). Retrieved 2021-02-26.


बाहरी संबंध