न्यूरल मशीन ट्रांसलेशन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 13: Line 13:
एनएमटी फ्रेज आधारित स्टेटिस्टिकल मशीन ट्रांसलेशन दृष्टिकोण से भिन्न होती है, जो भिन्न -भिन्न इंजीनियर सब कॉम्पोनेन्ट का उपयोग करता है।<ref name="Medical" /> न्यूरल मशीन ट्रांसलेशन (एनएमटी) में पारंपरिक रूप से स्टेटिस्टिकल मशीन ट्रांसलेशन (एसएमटी) में जो किया जाता है वह कोई कठोर कदम नहीं है। इसका मुख्य प्रस्थान शब्दों और आंतरिक स्थितियों के लिए वेक्टर रेप्रज़ेन्टैशन  का उपयोग होता है। एम्बेडिंग निरंतर स्थान रेप्रज़ेन्टैशन का उपयोग है मॉडलों की संरचना फ्रेज आधारित मॉडलों की तुलना में सरल रूप में होती है। कोई भिन्न भाषा मॉडल ट्रांसलेशन मॉडल और पुन: क्रम मॉडल नहीं है, बल्कि केवल एक अनुक्रम मॉडल होता है, जो एक समय में एक शब्द की  पूर्वकथन करता है। चूंकि, यह अनुक्रम  पूर्वकथन संपूर्ण स्रोत वाक्य और पहले से निर्मित लक्ष्य अनुक्रम पर आधारित होता है। एनएमटी मॉडल डीप  लर्निंग  और प्रतिनिधित्व लर्निंग का उपयोग करते हैं।
एनएमटी फ्रेज आधारित स्टेटिस्टिकल मशीन ट्रांसलेशन दृष्टिकोण से भिन्न होती है, जो भिन्न -भिन्न इंजीनियर सब कॉम्पोनेन्ट का उपयोग करता है।<ref name="Medical" /> न्यूरल मशीन ट्रांसलेशन (एनएमटी) में पारंपरिक रूप से स्टेटिस्टिकल मशीन ट्रांसलेशन (एसएमटी) में जो किया जाता है वह कोई कठोर कदम नहीं है। इसका मुख्य प्रस्थान शब्दों और आंतरिक स्थितियों के लिए वेक्टर रेप्रज़ेन्टैशन  का उपयोग होता है। एम्बेडिंग निरंतर स्थान रेप्रज़ेन्टैशन का उपयोग है मॉडलों की संरचना फ्रेज आधारित मॉडलों की तुलना में सरल रूप में होती है। कोई भिन्न भाषा मॉडल ट्रांसलेशन मॉडल और पुन: क्रम मॉडल नहीं है, बल्कि केवल एक अनुक्रम मॉडल होता है, जो एक समय में एक शब्द की  पूर्वकथन करता है। चूंकि, यह अनुक्रम  पूर्वकथन संपूर्ण स्रोत वाक्य और पहले से निर्मित लक्ष्य अनुक्रम पर आधारित होता है। एनएमटी मॉडल डीप  लर्निंग  और प्रतिनिधित्व लर्निंग का उपयोग करते हैं।


शब्द अनुक्रम मॉडलिंग सबसे पहले सामान्यतः  रीकरंट न्यूरल नेटवर्क (आरएनएन) का उपयोग करके किया जाता था। एक द्विदिश [[आवर्तक तंत्रिका नेटवर्क|रीकरंट न्यूरल नेटवर्क]] का उपयोग न्यूरल नेटवर्क द्वारा दूसरे आरएनएन के लिए स्रोत वाक्य को एनकोड करने के लिए किया जाता है, जिसे डिकोडर के रूप में जाना जाता है, जिसका उपयोग  [[लक्ष्य भाषा (अनुवाद)|टारगेट लैंग्वेज  (अनुवाद)]] में शब्दों की  पूर्वकथन करने के लिए किया जाता है।<ref name="align&translate" /> इस प्रकार रीकरंट न्यूरल नेटवर्क को लंबे इनपुट को एक वेक्टर में एन्कोड करने में कठिनाइयों का सामना करना पड़ता है। इसकी भरपाई मैकेनिज्म  द्वारा की जा सकती है<ref name="attention" /> जो डिकोडर को आउटपुट के प्रत्येक शब्द को उत्पन्न करते समय इनपुट के विभिन्न भागो पर ध्यान केंद्रित करने की अनुमति देता है। इस तरह के ध्यान मैकेनिज्म  में विषयो को संबोधित करने वाले कवरेज मॉडल के रूप में होते है, जैसे कि पिछली एलाइनमेंट जानकारी की अनदेखी के कारण अधिक ट्रांसलेशन और कम ट्रांसलेशन होता है।<ref>{{Cite arXiv|eprint=1601.04811|class=cs.CL|first1=Zhaopeng|last1=Tu|first2=Zhengdong|last2=Lu|title=न्यूरल मशीन अनुवाद के लिए मॉडलिंग कवरेज|last3=Liu|first3=Yang|last4=Liu|first4=Xiaohua|last5=Li|first5=Hang|year=2016}}</ref>
शब्द अनुक्रम मॉडलिंग सबसे पहले सामान्यतः  रीकरंट न्यूरल नेटवर्क (आरएनएन) का उपयोग करके किया जाता था। एक द्विदिश [[आवर्तक तंत्रिका नेटवर्क|रीकरंट न्यूरल नेटवर्क]] का उपयोग न्यूरल नेटवर्क द्वारा दूसरे आरएनएन के लिए स्रोत वाक्य को एनकोड करने के लिए किया जाता है, जिसे डिकोडर के रूप में जाना जाता है, जिसका उपयोग  [[लक्ष्य भाषा (अनुवाद)|टारगेट लैंग्वेज  (अनुवाद)]] में शब्दों की  पूर्वकथन करने के लिए किया जाता है।<ref name="align&translate" /> इस प्रकार रीकरंट न्यूरल नेटवर्क को लंबे इनपुट को एक वेक्टर में एन्कोड करने में कठिनाइयों का सामना करना पड़ता है। इसकी भरपाई मैकेनिज्म  द्वारा की जा सकती है<ref name="attention" /> जो डिकोडर को आउटपुट के प्रत्येक शब्द को उत्पन्न करते समय इनपुट के विभिन्न भागो पर अटेंशन केंद्रित करने की अनुमति देता है। इस तरह के अटेंशन मैकेनिज्म  में विषयो को संबोधित करने वाले कवरेज मॉडल के रूप में होते है, जैसे कि पिछली एलाइनमेंट जानकारी की अनदेखी के कारण अधिक ट्रांसलेशन और कम ट्रांसलेशन होता है।<ref>{{Cite arXiv|eprint=1601.04811|class=cs.CL|first1=Zhaopeng|last1=Tu|first2=Zhengdong|last2=Lu|title=न्यूरल मशीन अनुवाद के लिए मॉडलिंग कवरेज|last3=Liu|first3=Yang|last4=Liu|first4=Xiaohua|last5=Li|first5=Hang|year=2016}}</ref>


कन्वेन्शनल न्यूरल नेटवर्क (कन्वेनेट्स) सैद्धांतिक रूप से लंबे समय तक निरंतर अनुक्रमों के लिए कुछ सीमा तक अच्छे होते है, लेकिन शुरुआत में कई कमजोरियों के कारण इसका उपयोग नहीं किया गया था। ध्यान मैकेनिज्म  का उपयोग करके 2017 में इनकी सफलतापूर्वक भरपाई की गई।<ref name="DeepL" />
कन्वेन्शनल न्यूरल नेटवर्क (कन्वेनेट्स) सैद्धांतिक रूप से लंबे समय तक निरंतर अनुक्रमों के लिए कुछ सीमा तक अच्छे होते है, लेकिन शुरुआत में कई कमजोरियों के कारण इसका उपयोग नहीं किया गया था। इन्हें अटेंशन  मैकेनिज्म  का उपयोग करके 2017 में सफलतापूर्वक काम्पन्सेट दिया गया था।<ref name="DeepL" />


[[ट्रांसफार्मर (मशीन लर्निंग मॉडल)]]<ref>{{cite arXiv|last1=Vaswani|first1=Ashish|last2=Shazeer|first2=Noam|last3=Parmar|first3=Niki|last4=Uszkoreit|first4=Jakob|last5=Jones|first5=Llion|last6=Gomez|first6=Aidan N.|last7=Kaiser|first7=Lukasz|last8=Polosukhin|first8=Illia|date=2017-12-05|title=आपको केवल ध्यान की आवश्यकता है|class=cs.CL|eprint=1706.03762}},</ref> एक ध्यान-आधारित मॉडल, कई भाषा युग्मों के लिए प्रमुख वास्तुकला बना हुआ है।<ref>{{Cite journal|last1=Barrault|first1=Loïc|last2=Bojar|first2=Ondřej|last3=Costa-jussà|first3=Marta R.|last4=Federmann|first4=Christian|last5=Fishel|first5=Mark|last6=Graham|first6=Yvette|last7=Haddow|first7=Barry|last8=Huck|first8=Matthias|last9=Koehn|first9=Philipp|last10=Malmasi|first10=Shervin|last11=Monz|first11=Christof|date=August 2019|title=Findings of the 2019 Conference on Machine Translation (WMT19)|url=https://www.aclweb.org/anthology/W19-5301|journal=Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1)|location=Florence, Italy|publisher=Association for Computational Linguistics|pages=1–61|doi=10.18653/v1/W19-5301|doi-access=free}}</ref> ट्रांसफार्मर मॉडल की आत्म-ध्यान परतें युग्मित अनुक्रमों में सभी शब्दों के बीच संबंधों की जांच करके और उन संबंधों को सीधे मॉडलिंग करके अनुक्रम में शब्दों के बीच निर्भरता सीखती हैं। यह आरएनएन द्वारा नियोजित गेटिंग मैकेनिज्म  की तुलना में एक सरल दृष्टिकोण है। और इसकी सादगी ने शोधकर्ताओं को कम-संसाधन सेटिंग्स में भी ट्रांसफार्मर मॉडल के साथ उच्च गुणवत्ता वाले ट्रांसलेशन मॉडल विकसित करने में सक्षम बनाया है।<ref name="sicilian">{{cite arXiv  
[[ट्रांसफार्मर (मशीन लर्निंग मॉडल)]]<ref>{{cite arXiv|last1=Vaswani|first1=Ashish|last2=Shazeer|first2=Noam|last3=Parmar|first3=Niki|last4=Uszkoreit|first4=Jakob|last5=Jones|first5=Llion|last6=Gomez|first6=Aidan N.|last7=Kaiser|first7=Lukasz|last8=Polosukhin|first8=Illia|date=2017-12-05|title=आपको केवल ध्यान की आवश्यकता है|class=cs.CL|eprint=1706.03762}},</ref> एक अटेंशन आधारित मॉडल, जो कई भाषा युग्मों के लिए प्रमुख वास्तुकला के रूप में बना हुआ है।<ref>{{Cite journal|last1=Barrault|first1=Loïc|last2=Bojar|first2=Ondřej|last3=Costa-jussà|first3=Marta R.|last4=Federmann|first4=Christian|last5=Fishel|first5=Mark|last6=Graham|first6=Yvette|last7=Haddow|first7=Barry|last8=Huck|first8=Matthias|last9=Koehn|first9=Philipp|last10=Malmasi|first10=Shervin|last11=Monz|first11=Christof|date=August 2019|title=Findings of the 2019 Conference on Machine Translation (WMT19)|url=https://www.aclweb.org/anthology/W19-5301|journal=Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1)|location=Florence, Italy|publisher=Association for Computational Linguistics|pages=1–61|doi=10.18653/v1/W19-5301|doi-access=free}}</ref> ट्रांसफार्मर मॉडल की सेल्फ अटेंशन परतें युग्मित अनुक्रमों में सभी शब्दों के बीच संबंधों की जांच करके और उन संबंधों को सीधे मॉडलिंग करके अनुक्रम में शब्दों के बीच निर्भरता बनाती हैं। यह आरएनएन द्वारा नियोजित गेटिंग मैकेनिज्म  की तुलना में एक सरल दृष्टिकोण के रूप में होता है और इसकी सादगी ने शोधकर्ताओं को कम-संसाधन सेटिंग्स में भी ट्रांसफार्मर मॉडल के साथ उच्च गुणवत्ता वाले ट्रांसलेशन मॉडल विकसित करने में सक्षम बनाया है।<ref name="sicilian">{{cite arXiv  
  | last      = Wdowiak
  | last      = Wdowiak
  | first      = Eryk
  | first      = Eryk

Revision as of 08:33, 11 August 2023

न्यूरल मशीन ट्रांसलेशन (एनएमटी) मशीन ट्रांसलेशन के लिए एक दृष्टिकोण है, जो शब्दों के अनुक्रम की पॉसिबिलिटी की पूर्वकथन करने के लिए एक आर्टिफिशियल न्यूरल नेटवर्क का उपयोग करता है इस प्रकार विशेष रूप से पूरे वाक्यों को एक एकल एकीकृत मॉडल में मॉडलिंग करता है।

गुण

उन्हें पारंपरिक स्टेटिस्टिकल मशीन ट्रांसलेशन (एसएमटी) मॉडल द्वारा आवश्यक मेमोरी के केवल एक फ्रैक्शन की आवश्यकता होती है। इसके अतिरिक्त पारंपरिक ट्रांसलेशन प्रणालियों के विपरीत न्यूरल ट्रांसलेशन मॉडल के सभी भाग को ट्रांसलेशन निष्पादन को अधिकतम करने के लिए संयुक्त रूप से अंत से अंत तक प्रशिक्षित किया जाता है।[1][2][3]

इतिहास

डीप लर्निंग अनुप्रयोग पहली बार 1990 के दशक में स्पीच रिकग्निशन के रूप में सामने आए थे। मशीनी ट्रांसलेशन में न्यूरल नेटवर्क का उपयोग करने पर पहला वैज्ञानिक पेपर 2014 में सामने आया था, जब बहदानौ एट अल,[R 1] और सुतस्केवर और अन्य,[R 2] प्रस्तावित एंड टू एंड न्यूरल नेटवर्क ट्रांसलेशन मॉडल का प्रस्ताव रखा और औपचारिक रूप से न्यूरल मशीन ट्रांसलेशन शब्द का उपयोग किया गया था। इस प्रकार पहला बड़े पैमाने का एनएमटी प्रणाली बैदु द्वारा 2015 में लॉन्च किया गया था और अगले वर्ष गूगल ने भी दूसरों की तरह एक एनएमटी प्रणाली लॉन्च किया था।[4] इसके बाद अगले कुछ वर्षों में इसमें बहुत प्रगति हुई थी और 2017 में बड़ी शब्दावली एनएमटी, इमेज कैप्शनिंग के लिए अनुप्रयोग सबवर्ड-एनएमटी बहुभाषी एनएमटी, मल्टी-सोर्स एनएमटी, कैरेक्टर-डीसी एनएमटी, जीरो-रिसोर्स एनएमटी, गूगल, फुल कैरेक्टर-एनएमटी, जीरो-शॉट एनएमटी प्रणाली लॉन्च किया था और इस प्रकार 2015 में सार्वजनिक मशीनी ट्रांसलेशन प्रतियोगिता (ओपनएमटी'15) में एनएमटी प्रणाली की पहली उपस्थिति थी। WMT'15 में भी पहली बार एनएमटी दावेदार के रूप में था और अगले वर्ष इसके विजेताओं में पहले से ही 90% एनएमटी प्रणालियाँ सम्मलित थीं।[5]

2017 से, वैश्विक पेटेंट प्रणाली से जानकारी को तुरंत सुलभ बनाने के लिए यूरोपीय पेटेंट कार्यालय द्वारा न्यूरल मशीन ट्रांसलेशन का उपयोग किया गया है।[6] गूगल के सहयोग से विकसित इस प्रणाली को 31 भाषाओं के साथ जोड़ा गया है और 2018 तक इस प्रणाली ने नौ मिलियन से अधिक प्रपत्रो का ट्रांसलेशन किया है।[6]

कामकाज

एनएमटी फ्रेज आधारित स्टेटिस्टिकल मशीन ट्रांसलेशन दृष्टिकोण से भिन्न होती है, जो भिन्न -भिन्न इंजीनियर सब कॉम्पोनेन्ट का उपयोग करता है।[7] न्यूरल मशीन ट्रांसलेशन (एनएमटी) में पारंपरिक रूप से स्टेटिस्टिकल मशीन ट्रांसलेशन (एसएमटी) में जो किया जाता है वह कोई कठोर कदम नहीं है। इसका मुख्य प्रस्थान शब्दों और आंतरिक स्थितियों के लिए वेक्टर रेप्रज़ेन्टैशन का उपयोग होता है। एम्बेडिंग निरंतर स्थान रेप्रज़ेन्टैशन का उपयोग है मॉडलों की संरचना फ्रेज आधारित मॉडलों की तुलना में सरल रूप में होती है। कोई भिन्न भाषा मॉडल ट्रांसलेशन मॉडल और पुन: क्रम मॉडल नहीं है, बल्कि केवल एक अनुक्रम मॉडल होता है, जो एक समय में एक शब्द की पूर्वकथन करता है। चूंकि, यह अनुक्रम पूर्वकथन संपूर्ण स्रोत वाक्य और पहले से निर्मित लक्ष्य अनुक्रम पर आधारित होता है। एनएमटी मॉडल डीप लर्निंग और प्रतिनिधित्व लर्निंग का उपयोग करते हैं।

शब्द अनुक्रम मॉडलिंग सबसे पहले सामान्यतः रीकरंट न्यूरल नेटवर्क (आरएनएन) का उपयोग करके किया जाता था। एक द्विदिश रीकरंट न्यूरल नेटवर्क का उपयोग न्यूरल नेटवर्क द्वारा दूसरे आरएनएन के लिए स्रोत वाक्य को एनकोड करने के लिए किया जाता है, जिसे डिकोडर के रूप में जाना जाता है, जिसका उपयोग टारगेट लैंग्वेज (अनुवाद) में शब्दों की पूर्वकथन करने के लिए किया जाता है।[8] इस प्रकार रीकरंट न्यूरल नेटवर्क को लंबे इनपुट को एक वेक्टर में एन्कोड करने में कठिनाइयों का सामना करना पड़ता है। इसकी भरपाई मैकेनिज्म द्वारा की जा सकती है[9] जो डिकोडर को आउटपुट के प्रत्येक शब्द को उत्पन्न करते समय इनपुट के विभिन्न भागो पर अटेंशन केंद्रित करने की अनुमति देता है। इस तरह के अटेंशन मैकेनिज्म में विषयो को संबोधित करने वाले कवरेज मॉडल के रूप में होते है, जैसे कि पिछली एलाइनमेंट जानकारी की अनदेखी के कारण अधिक ट्रांसलेशन और कम ट्रांसलेशन होता है।[10]

कन्वेन्शनल न्यूरल नेटवर्क (कन्वेनेट्स) सैद्धांतिक रूप से लंबे समय तक निरंतर अनुक्रमों के लिए कुछ सीमा तक अच्छे होते है, लेकिन शुरुआत में कई कमजोरियों के कारण इसका उपयोग नहीं किया गया था। इन्हें अटेंशन मैकेनिज्म का उपयोग करके 2017 में सफलतापूर्वक काम्पन्सेट दिया गया था।[11]

ट्रांसफार्मर (मशीन लर्निंग मॉडल)[12] एक अटेंशन आधारित मॉडल, जो कई भाषा युग्मों के लिए प्रमुख वास्तुकला के रूप में बना हुआ है।[13] ट्रांसफार्मर मॉडल की सेल्फ अटेंशन परतें युग्मित अनुक्रमों में सभी शब्दों के बीच संबंधों की जांच करके और उन संबंधों को सीधे मॉडलिंग करके अनुक्रम में शब्दों के बीच निर्भरता बनाती हैं। यह आरएनएन द्वारा नियोजित गेटिंग मैकेनिज्म की तुलना में एक सरल दृष्टिकोण के रूप में होता है और इसकी सादगी ने शोधकर्ताओं को कम-संसाधन सेटिंग्स में भी ट्रांसफार्मर मॉडल के साथ उच्च गुणवत्ता वाले ट्रांसलेशन मॉडल विकसित करने में सक्षम बनाया है।[14]


अनुप्रयोग

एनएमटी के लिए एक एप्लिकेशन कम संसाधन वाली मशीन ट्रांसलेशन है, जब प्रलर्निंग के लिए केवल थोड़ी मात्रा में डेटा और उदाहरण उपलब्ध होते हैं। ऐसा ही एक उपयोग मामला अक्काडियन भाषा और उसकी बोलियाँ, बेबीलोनियन और असीरियन जैसी प्राचीन भाषाओं का है।[15]


एनएमटी के साथ समस्याएं

एनएमटी आउटपुट में पाई जाने वाली सबसे आम ट्रांसलेशन समस्या वाक्यों के बीच सामंजस्य की कमी है। एक ही शब्द को अक्सर आसन्न वाक्यों में एक भिन्न शब्द के साथ अनुवादित किया जाता है, जिससे पाठक को आश्चर्य होता है कि क्या उसी अवधारणा का उल्लेख किया जा रहा है। अन्य समस्याओं में बहुत समान शब्दों का एक ही शब्द के रूप में ट्रांसलेशन करना शामिल है (उदाहरण के लिए, कंप्यूटर सुरक्षा शब्दावली में, जर्मन ज़ुट्रिट्सकंट्रोल, ज़ुगांग्सकंट्रोल, ज़ुग्रिफ़्सकंट्रोल तीनों का केवल अभिगम नियंत्रण के रूप में ट्रांसलेशन करना, चूंकि वे भिन्न -भिन्न प्रकार हैं जो भौतिक अभिगम नियंत्रण, नेटवर्क अभिगम नियंत्रण, होना चाहिए) डेटा एक्सेस कंट्रोल) और जर्मन में संज्ञाओं के बड़े अक्षरों के कारण उचित नामों का सामान्य संज्ञा के रूप में ट्रांसलेशन करना।

टिप्पणियाँ

  1. Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations; 2015 May 7–9; San Diego, USA; 2015.
  2. Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems; 2014 Dec 8–13; Montreal, QC, Canada; 2014.


संदर्भ

  1. Kalchbrenner, Nal; Blunsom, Philip (2013). "Recurrent Continuous Translation Models". Proceedings of the Association for Computational Linguistics: 1700–1709.
  2. Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Sequence to sequence learning with neural networks". arXiv:1409.3215 [cs.CL].
  3. Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". arXiv:1409.1259 [cs.CL].
  4. Haifeng Wang, Hua Wu, Zhongjun He, Liang Huang, Kenneth Ward Church Progress in Machine Translation // Engineering (2021), doi: https://doi.org/10.1016/j.eng.2021.03.023
  5. Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Findings of the 2016 Conference on Machine Translation" (PDF). ACL 2016 First Conference on Machine Translation (WMT16). The Association for Computational Linguistics: 131–198. Archived from the original (PDF) on 2018-01-27. Retrieved 2018-01-27.
  6. 6.0 6.1 "Neural Machine Translation". European Patent Office. 16 July 2018. Retrieved 14 June 2021.
  7. Wołk, Krzysztof; Marasek, Krzysztof (2015). "Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts". Procedia Computer Science. 64 (64): 2–9. arXiv:1509.08644. Bibcode:2015arXiv150908644W. doi:10.1016/j.procs.2015.08.456. S2CID 15218663.
  8. Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
  9. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014-09-01). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
  10. Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "न्यूरल मशीन अनुवाद के लिए मॉडलिंग कवरेज". arXiv:1601.04811 [cs.CL].
  11. Coldewey, Devin (2017-08-29). "DeepL schools other online translators with clever machine learning". TechCrunch. Retrieved 2018-01-27.
  12. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). "आपको केवल ध्यान की आवश्यकता है". arXiv:1706.03762 [cs.CL].,
  13. Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof (August 2019). "Findings of the 2019 Conference on Machine Translation (WMT19)". Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics: 1–61. doi:10.18653/v1/W19-5301.
  14. Wdowiak, Eryk (2021-09-27). "Sicilian Translator: A Recipe for Low-Resource NMT". arXiv:2110.01938 [cs.CL].
  15. Gutherz, Gai; Gordin, Shai; Sáenz, Luis; Levy, Omer; Berant, Jonathan (2023-05-02). Kearns, Michael (ed.). "न्यूरल मशीन अनुवाद के साथ अक्कादियन का अंग्रेजी में अनुवाद". PNAS Nexus (in English). 2 (5). doi:10.1093/pnasnexus/pgad096. ISSN 2752-6542. PMC 10153418. PMID 37143863.