क्यूनिफॉर्म (प्रोग्रामिंग लैंग्वेज)

From Vigyanwiki
Revision as of 19:52, 9 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Open-source workflow language}} {{Infobox programming language | name = Cuneiform | logo = G18225.png | screenshot...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Cuneiform
G18225.png
Cf screenshot.jpg
Paradigmfunctional, scientific workflow
द्वारा डिज़ाइन किया गयाJörgen Brandt
पहली प्रस्तुति2013
Stable release
3.0.4 / November 19, 2018 (2018-11-19)
टाइपिंग अनुशासनstatic, simple types
कार्यान्वयन भाषाErlang
ओएसLinux, Mac OS
लाइसेंसApache License 2.0
फ़ाइल नाम एक्सटेंशनएस.cfl
वेबसाइटcuneiform-lang.org
Influenced by
Swift (parallel scripting language)

क्यूनिफ़ॉर्म एक खुला स्रोत सॉफ्टवेयर है | ओपन-सोर्स वैज्ञानिक कार्यप्रवाह प्रणाली बड़े पैमाने पर वैज्ञानिक डेटा विश्लेषण के लिए।[1][2] यह एक प्रकार की प्रणाली#STATIC कार्यात्मक प्रोग्रामिंग है जो समानांतर कंप्यूटिंग को बढ़ावा देती है। इसमें एक बहुमुखी विदेशी फ़ंक्शन इंटरफ़ेस है जो उपयोगकर्ताओं को कई बाहरी प्रोग्रामिंग भाषाओं से सॉफ़्टवेयर को एकीकृत करने की अनुमति देता है। संगठनात्मक स्तर पर क्यूनिफॉर्म सशर्त (कंप्यूटर प्रोग्रामिंग) और प्रत्यावर्तन जैसी सुविधाएं प्रदान करता है जो इसे ट्यूरिंग पूर्णता|ट्यूरिंग-पूर्ण बनाता है। इसमें, क्यूनिफॉर्म एक कार्यात्मकता की व्यापकता की पेशकश करते हुए अपाचे टवेर्ना, केएनआईएमई, या गैलेक्सी (कम्प्यूटेशनल जीव विज्ञान) जैसे वैज्ञानिक वर्कफ़्लो सिस्टम और मैपरेडस या सुअर (प्रोग्रामिंग उपकरण) जैसे बड़े पैमाने पर डेटा विश्लेषण प्रोग्रामिंग मॉडल के बीच अंतर को बंद करने का प्रयास है। प्रोग्रामिंग भाषा।

क्यूनिफॉर्म को वितरित एरलांग (प्रोग्रामिंग भाषा) में लागू किया गया है। यदि वितरित मोड में चलाया जाता है तो यह चमकीला या सेफ (सॉफ्टवेयर)#CephFS (या किसी अन्य फाइल यूजरस्पेस में फाइलसिस्टम एकीकरण में एक फाइलसिस्टम, जैसे, Apache Hadoop#HDFS) जैसे POSIX-अनुपालक वितरित फ़ाइल सिस्टम को चलाता है। वैकल्पिक रूप से, क्यूनिफ़ॉर्म स्क्रिप्ट को HTCondor या Apache Hadoop के शीर्ष पर निष्पादित किया जा सकता है।[3][4][5][6] क्यूनिफॉर्म पीटर केली के काम से प्रभावित है जो वैज्ञानिक वर्कफ़्लो निष्पादन के लिए एक मॉडल के रूप में कार्यात्मक प्रोग्रामिंग का प्रस्ताव करता है।[7][8] इसमें, क्यूनिफ़ॉर्म स्विफ्ट (समानांतर स्क्रिप्टिंग भाषा) जैसी डेटाफ्लो प्रोग्रामिंग पर आधारित संबंधित वर्कफ़्लो भाषाओं से अलग है।[9]


बाहरी सॉफ़्टवेयर एकीकरण

बाहरी उपकरण और लाइब्रेरी (उदाहरण के लिए, आर (प्रोग्रामिंग भाषा) या पायथन (प्रोग्रामिंग भाषा) लाइब्रेरी) एक विदेशी फ़ंक्शन इंटरफ़ेस के माध्यम से एकीकृत होते हैं। इसमें यह सदृश है, उदाहरण के लिए, KNIME जो स्निपेट नोड्स के माध्यम से बाहरी सॉफ़्टवेयर के उपयोग की अनुमति देता है, या Apache Taverna जो जावा (प्रोग्रामिंग भाषा) सॉफ़्टवेयर को एकीकृत करने के लिए बीनशेल सेवाएं प्रदान करता है। किसी कार्य को किसी विदेशी भाषा में परिभाषित करके किसी बाहरी टूल या लाइब्रेरी के एपीआई का उपयोग करना संभव है। इस तरह, किसी रैपर को लिखने या टूल को दोबारा लागू करने की आवश्यकता के बिना टूल को सीधे एकीकृत किया जा सकता है।[10] वर्तमान में समर्थित विदेशी प्रोग्रामिंग भाषाएँ हैं:

AWK और gnuplot के लिए विदेशी भाषा समर्थन नियोजित परिवर्धन है।

सिस्टम टाइप करें

क्यूनिफ़ॉर्म एक सरल, सांख्यिकीय रूप से जांची गई प्रकार की प्रणाली प्रदान करता है।[11] जबकि क्यूनिफ़ॉर्म सूचियाँ मिश्रित डेटा प्रकारों के रूप में प्रदान करता है, यह रनटाइम त्रुटियों की संभावना से बचने के लिए पारंपरिक सूची एक्सेसर्स (हेड और टेल) को छोड़ देता है जो खाली सूची तक पहुँचने पर उत्पन्न हो सकती हैं। इसके बजाय सूचियों को केवल मैपिंग या फोल्डिंग द्वारा ऑल-ऑर-नथिंग फैशन में एक्सेस किया जाता है। इसके अतिरिक्त, क्यूनिफॉर्म (संगठनात्मक स्तर पर) अंकगणित को छोड़ देता है जो शून्य से विभाजन की संभावना को बाहर कर देता है। किसी भी आंशिक रूप से परिभाषित ऑपरेशन की चूक यह गारंटी देती है कि रनटाइम त्रुटियां विशेष रूप से विदेशी कोड में उत्पन्न हो सकती हैं।

आधार डेटा प्रकार

आधार डेटा प्रकार के रूप में क्यूनिफॉर्म बूलियन्स, स्ट्रिंग्स और फ़ाइलें प्रदान करता है। इसमें, फ़ाइलों का उपयोग विदेशी कार्यों के बीच मनमाने प्रारूप में डेटा का आदान-प्रदान करने के लिए किया जाता है।

रिकॉर्ड और पैटर्न मिलान

क्यूनिफॉर्म यौगिक डेटा प्रकारों के रूप में रिकॉर्ड_(कंप्यूटर_साइंस)एस (स्ट्रक्चर) प्रदान करता है। नीचे दिया गया उदाहरण एक वेरिएबल की परिभाषा दिखाता है r दो क्षेत्रों के साथ एक रिकॉर्ड होना a1 और a2, पहला एक स्ट्रिंग है और दूसरा एक बूलियन है।

let r : <a1 : Str, a2 : Bool> =
  <a1 = "my string", a2 = true>;

रिकॉर्ड्स को प्रक्षेपण के माध्यम से या पैटर्न मिलान के माध्यम से एक्सेस किया जा सकता है। नीचे दिया गया उदाहरण दो फ़ील्ड निकालता है a1 और a2 रिकॉर्ड से r.

let a1 : Str = ( r|a1 );

let <a2 = a2 : Bool> = r;


सूचियाँ और सूची प्रसंस्करण

इसके अलावा, क्यूनिफ़ॉर्म मिश्रित डेटा प्रकारों के रूप में सूचियाँ प्रदान करता है। नीचे दिया गया उदाहरण एक वेरिएबल की परिभाषा दिखाता है xs तीन तत्वों वाली एक फ़ाइल सूची होना।

let xs : [File] =
  ['a.txt', 'b.txt', 'c.txt' : File];

सूचियों को फॉर और फोल्ड ऑपरेटरों के साथ संसाधित किया जा सकता है। इसमें, तत्व-वार सूची का उपभोग करने के लिए ऑपरेटर को कई सूचियाँ दी जा सकती हैं (समान)। for/list रैकेट (प्रोग्रामिंग भाषा) में, mapcar सामान्य लिस्प में या zipwith एर्लांग (प्रोग्रामिंग भाषा) में)।

नीचे दिया गया उदाहरण दिखाता है कि किसी एकल सूची को कैसे मैप किया जाए, परिणाम एक फ़ाइल सूची होगी।

for x <- xs do
  process-one( arg1 = x )
  : File
end;

नीचे दिया गया उदाहरण दिखाता है कि दो सूचियों को कैसे ज़िप किया जाए, जिसके परिणामस्वरूप फ़ाइल सूची भी बन जाएगी।

for x <- xs, y <- ys do
  process-two( arg1 = x, arg2 = y )
  : File
end;

अंत में, फोल्ड ऑपरेटर का उपयोग करके सूचियों को एकत्रित किया जा सकता है। निम्नलिखित उदाहरण किसी सूची के तत्वों का सार प्रस्तुत करता है।

  fold acc = 0, x <- xs do
    add( a = acc, b = x )
  end;


समानांतर निष्पादन

क्यूनिफ़ॉर्म एक विशुद्ध रूप से कार्यात्मक भाषा है, अर्थात, यह संदर्भ (कंप्यूटर विज्ञान) का समर्थन नहीं करती है। परिणामस्वरूप, यह किसी प्रोग्राम को समानांतर भागों में विभाजित करने के लिए सबटर्म-स्वतंत्रता का उपयोग कर सकता है। क्यूनिफ़ॉर्म अनुसूचक इन भागों को कार्यकर्ता नोड्स में वितरित करता है। इसके अलावा, क्यूनिफॉर्म मूल्यों की गणना करने के लिए एक मूल्यांकन रणनीति#कॉल बाय नेम|कॉल-बाय-नेम मूल्यांकन रणनीति का उपयोग करता है, यदि वे गणना परिणाम में योगदान करते हैं। अंत में, विदेशी फ़ंक्शन अनुप्रयोग उन गणनाओं को गति देने के लिए संस्मरण हैं जिनमें पहले से प्राप्त परिणाम शामिल हैं।

उदाहरण के लिए, निम्नलिखित क्यूनिफ़ॉर्म प्रोग्राम अनुप्रयोगों की अनुमति देता है f और g जबकि समानांतर में चलाने के लिए h निर्भर है और इसे तभी शुरू किया जा सकता है जब दोनों हों f और g समाप्त हो गया है।

let output-of-f : File = f();
let output-of-g : File = g();

h( f = output-of-f, g = output-of-g );

निम्नलिखित क्यूनिफ़ॉर्म प्रोग्राम फ़ंक्शन के तीन समानांतर अनुप्रयोग बनाता है f मानचित्रण द्वारा f तीन-तत्व सूची पर:

let xs : [File] =
  ['a.txt', 'b.txt', 'c.txt' : File];

for x <- xs do
  f( x = x )
  : File
end;

इसी प्रकार, के अनुप्रयोग f और g अभिलेख के निर्माण में स्वतंत्र हैं r और, इस प्रकार, समानांतर में चलाया जा सकता है:

let r : <a : File, b : File> =
  &lt;a = f(), b = g()&gt;;

उदाहरण

एक हैलो-वर्ल्ड स्क्रिप्ट:

def greet( person : Str ) -> <out : Str>
in Bash *{
  out="Hello $person"
}*

( greet( person = "world" )|out );

यह स्क्रिप्ट किसी कार्य को परिभाषित करती है greet बैश (यूनिक्स शेल) में जो पहले से जुड़ता है "Hello " इसके स्ट्रिंग तर्क के लिए person. फ़ंक्शन एकल स्ट्रिंग फ़ील्ड के साथ एक रिकॉर्ड तैयार करता है out. को लागू करने greet, तर्क को बांधना person स्ट्रिंग के लिए "world" रिकार्ड तैयार करता है <out = "Hello world">. इस रिकॉर्ड को अपने क्षेत्र में प्रक्षेपित करना out स्ट्रिंग का मूल्यांकन करता है "Hello world".

बैश (यूनिक्स शेल) में किसी कार्य को परिभाषित करके कमांड लाइन टूल को एकीकृत किया जा सकता है:

def samtoolsSort( bam : File ) -> <sorted : File>
in Bash *{
  sorted=sorted.bam
  samtools sort -m 2G $bam -o $sorted
}*

इस उदाहरण में एक कार्य samtoolsSort परिभाषित किया गया। यह टूल SAMtools को कॉल करता है, एक इनपुट फ़ाइल का उपभोग करता है, BAM प्रारूप में, और एक क्रमबद्ध आउटपुट फ़ाइल का उत्पादन करता है, वह भी BAM प्रारूप में।

रिलीज़ इतिहास

Version Appearance Implementation Language Distribution Platform Foreign Languages
1.0.0 May 2014 Java Apache Hadoop Bash, Common Lisp, GNU Octave, Perl, Python, R, Scala
2.0.x Mar. 2015 Java HTCondor, Apache Hadoop Bash, BeanShell, Common Lisp, MATLAB, GNU Octave, Perl, Python, R, Scala
2.2.x Apr. 2016 Erlang HTCondor, Apache Hadoop Bash, Perl, Python, R
3.0.x Feb. 2018 Erlang Distributed Erlang Bash, Erlang, Java, MATLAB, GNU Octave, Perl, Python, R, Racket

अप्रैल 2016 में, क्यूनिफ़ॉर्म की कार्यान्वयन भाषा जावा (प्रोग्रामिंग भाषा) से एर्लांग (प्रोग्रामिंग भाषा) में बदल गई और, फरवरी 2018 में, इसका प्रमुख वितरित निष्पादन प्लेटफ़ॉर्म Hadoop से वितरित एर्लांग में बदल गया। इसके अतिरिक्त, 2015 से 2018 तक HTCondor को एक वैकल्पिक निष्पादन मंच के रूप में बनाए रखा गया था।

क्यूनिफॉर्म की सतह वाक्यविन्यास को दो बार संशोधित किया गया था, जैसा कि प्रमुख संस्करण संख्या में दर्शाया गया है।

संस्करण 1

मई 2014 में प्रकाशित अपने पहले ड्राफ्ट में, क्यूनिफ़ॉर्म मेक (सॉफ़्टवेयर) से निकटता से संबंधित था, जिसमें उसने एक स्थिर डेटा निर्भरता ग्राफ़ का निर्माण किया था जिसे दुभाषिया ने निष्पादन के दौरान ट्रेस किया था। बाद के संस्करणों में मुख्य अंतर सशर्त, पुनरावर्तन, या स्थैतिक प्रकार की जाँच की कमी थी। टिल्ड के साथ एकल-उद्धृत स्ट्रिंग मानों को जोड़कर फ़ाइलों को स्ट्रिंग्स से अलग किया गया था ~. स्क्रिप्ट की क्वेरी अभिव्यक्ति को इसके साथ पेश किया गया था target कीवर्ड. बैश डिफ़ॉल्ट विदेशी भाषा थी. फ़ंक्शन एप्लिकेशन को एक का उपयोग करके निष्पादित किया जाना था apply रूप जो लिया task इसके पहले कीवर्ड तर्क के रूप में। एक साल बाद, इस सतह सिंटैक्स को एक सुव्यवस्थित लेकिन समान संस्करण द्वारा बदल दिया गया।

निम्न उदाहरण स्क्रिप्ट एक FTP सर्वर से एक संदर्भ जीनोम डाउनलोड करती है।

<पूर्व> डाउनलोड-रेफ-जीनोम घोषित करें;

डेफ़टास्क डाउनलोड-एफए (एफए: ~ पथ ~ आईडी) * {

   wget $path/$id.fa.gz
   गनज़िप $id.fa.gz
   एमवी $id.fa $fa

}*

रेफरी-जीनोम-पथ = ~'ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes'; रेफरी-जीनोम-आईडी = ~'chr22';

रेफरी-जीनोम = लागू करें(

   कार्य : डाउनलोड-एफए
   पथ: रेफरी-जीनोम-पथ
   आईडी: रेफरी-जीनोम-आईडी

);

लक्ष्य रेफरी-जीनोम; </पूर्व>

संस्करण 2

क्यूनिफॉर्म 2.0.3 के लिए स्विंग-आधारित संपादक और आरईपीएल

क्यूनिफॉर्म सतह वाक्यविन्यास का दूसरा मसौदा, पहली बार मार्च 2015 में प्रकाशित हुआ, क्यूनिफॉर्म की कार्यान्वयन भाषा के रूप में जावा से एरलांग में संक्रमण के बाद तीन वर्षों तक उपयोग में रहा। मूल्यांकन पहले के तरीकों से अलग है जिसमें दुभाषिया एक स्थिर ग्राफ़ को पार करने के बजाय एक क्वेरी अभिव्यक्ति को कम कर देता है। जिस समय सतही वाक्यविन्यास उपयोग में रहा, उस दौरान दुभाषिया को औपचारिक रूप दिया गया और सरलीकृत किया गया, जिसके परिणामस्वरूप क्यूनिफॉर्म के शब्दार्थ का पहला विवरण सामने आया। वाक्यविन्यास में सशर्त विशेषताएँ थीं। हालाँकि, बूलियन्स को सूचियों के रूप में एन्कोड किया गया था, खाली सूची को बूलियन गलत के रूप में और गैर-रिक्त सूची को बूलियन सत्य के रूप में पुनर्चक्रित किया गया था। पुनरावर्तन को बाद में औपचारिकता के उपोत्पाद के रूप में जोड़ा गया। हालाँकि, स्थैतिक प्रकार की जाँच केवल संस्करण 3 में शुरू की गई थी।

निम्न स्क्रिप्ट एक ज़िपित फ़ाइल को विघटित करती है और इसे समान आकार के विभाजनों में विभाजित करती है।

<पूर्व> डिफ़टास्क अनज़िप (<आउट (फ़ाइल)>: ज़िप (फ़ाइल)) बैश में * {

 अनज़िप -d dir $zip
 आउट=`एलएस डीआईआर | awk '{print dir/ $0}'`

}*

डेफ़टास्क स्प्लिट (<आउट (फ़ाइल)>: फ़ाइल (फ़ाइल)) बैश में * {

 स्प्लिट -एल 1024 $फ़ाइल txt
 आउट=txt*

}*

sotu = sotu/stateoftheunion1790-2014.txt.zip; फ़ाइलएलएसटी = विभाजित(फ़ाइल: अनज़िप(ज़िप: सोटू));

फ़ाइलLst; </पूर्व>

संस्करण 3

क्यूनिफ़ॉर्म के सतह सिंटैक्स का वर्तमान संस्करण, पहले के ड्राफ्ट की तुलना में, मुख्यधारा की कार्यात्मक प्रोग्रामिंग भाषाओं के अंतर को बंद करने का एक प्रयास है। इसमें एक सरल, सांख्यिकीय रूप से जांची गई प्रकार की प्रणाली है और दूसरे प्रकार की मिश्रित डेटा संरचना के रूप में सूचियों के अलावा रिकॉर्ड भी पेश करती है। बूलियन्स एक अलग आधार डेटा प्रकार हैं।

निम्न स्क्रिप्ट एक फ़ाइल को अनटार्स करती है जिसके परिणामस्वरूप एक फ़ाइल सूची बनती है।

<पूर्व> def untar( tar : File ) -> <fileLst : [File]> बैश में *{

 टार एक्सएफ $टार
 फ़ाइलएलएसटी=`टार टीएफ $टार`

}*

चलो hg38Tar : फ़ाइल =

 'hg38/hg38.tar';

चलो <fileLst = faLst : [फ़ाइल]> =

 अनटार(टार = hg38टार);

faLst; </पूर्व>

संदर्भ

  1. "Joergen7/Cuneiform". GitHub. 14 October 2021.
  2. Brandt, Jörgen; Bux, Marc N.; Leser, Ulf (2015). "Cuneiform: A functional language for large scale scientific data analysis" (PDF). Proceedings of the Workshops of the EDBT/ICDT. 1330: 17–26.
  3. "Scalable Multi-Language Data Analysis on Beam: The Cuneiform Experience by Jörgen Brandt". Erlang Central. Archived from the original on 2 October 2016. Retrieved 28 October 2016.
  4. Bux, Marc; Brandt, Jörgen; Lipka, Carsten; Hakimzadeh, Kamal; Dowling, Jim; Leser, Ulf (2015). "SAASFEE: scalable scientific workflow execution engine" (PDF). Proceedings of the VLDB Endowment. 8 (12): 1892–1895. doi:10.14778/2824032.2824094.
  5. Bessani, Alysson; Brandt, Jörgen; Bux, Marc; Cogo, Vinicius; Dimitrova, Lora; Dowling, Jim; Gholami, Ali; Hakimzadeh, Kamal; Hummel, Michael; Ismail, Mahmoud; Laure, Erwin; Leser, Ulf; Litton, Jan-Eric; Martinez, Roxanna; Niazi, Salman; Reichel, Jane; Zimmermann, Karin (2015). "Biobankcloud: a platform for the secure storage, sharing, and processing of large biomedical data sets" (PDF). The First International Workshop on Data Management and Analytics for Medicine and Healthcare (DMAH 2015).
  6. "Scalable Multi-Language Data Analysis on Beam: The Cuneiform Experience". Erlang-factory.com. Retrieved 28 October 2016.
  7. Kelly, Peter M.; Coddington, Paul D.; Wendelborn, Andrew L. (2009). "Lambda calculus as a workflow model". Concurrency and Computation: Practice and Experience. 21 (16): 1999–2017. doi:10.1002/cpe.1448. S2CID 10833434.
  8. Barseghian, Derik; Altintas, Ilkay; Jones, Matthew B.; Crawl, Daniel; Potter, Nathan; Gallagher, James; Cornillon, Peter; Schildhauer, Mark; Borer, Elizabeth T.; Seabloom, Eric W. (2010). "Workflows and extensions to the Kepler scientific workflow system to support environmental sensor data access and analysis" (PDF). Ecological Informatics. 5 (1): 42–50. doi:10.1016/j.ecoinf.2009.08.008. S2CID 16392118.
  9. Di Tommaso, Paolo; Chatzou, Maria; Floden, Evan W; Barja, Pablo Prieto; Palumbo, Emilio; Notredame, Cedric (2017). "Nextflow enables reproducible computational workflows". Nature Biotechnology. 35 (4): 316–319. doi:10.1038/nbt.3820. PMID 28398311. S2CID 9690740.
  10. "एर्लांग में एक कार्यात्मक वर्कफ़्लो भाषा कार्यान्वयन" (PDF). Retrieved 28 October 2016.
  11. Brandt, Jörgen; Reisig, Wolfgang; Leser, Ulf (2017). "Computation semantics of the functional scientific workflow language Cuneiform". Journal of Functional Programming. 27. doi:10.1017/S0956796817000119. S2CID 6128299.