बीईआरटी (भाषा मॉडल): Difference between revisions
No edit summary |
|||
(3 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{short description|Masked neural language model developed by Google}} | {{short description|Masked neural language model developed by Google}} | ||
ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में [[Google|गूगल]] के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का | ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में [[Google|गूगल]] के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का परिवार है।<ref name=":0">{{cite arXiv |last1=Devlin |first1=Jacob |last2=Chang |first2=Ming-Wei |last3=Lee |first3=Kenton |last4=Toutanova |first4=Kristina |title=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding |date=11 October 2018 |eprint=1810.04805v2|class=cs.CL }}</ref><ref>{{Cite web|url=http://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html|title=Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing|website=Google AI Blog|language=en|access-date=2019-11-27}}</ref> 2020 के साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि "एक वर्ष से कुछ अधिक समय में, बीईआरटी मॉडल का विश्लेषण और संशोधन करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रयोगों में सर्वव्यापी आधार रेखा बन गया है।"<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842–866|doi=10.1162/tacl_a_00349|arxiv=2002.12327|s2cid=211532403}}</ref> | ||
बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में प्रयुक्त किया गया था:<ref name=":0" /> (1) BERT<sub>BASE</sub>: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERT<sub>LARGE</sub>: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो [[बुककॉर्पस]] (800M शब्द) और [[अंग्रेजी विकिपीडिया]] (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।<ref>{{cite arXiv|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|last3=Zemel|first3=Rich|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|date=2015|title=Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books|pages=19–27|class=cs.CV|eprint=1506.06724}}</ref> | बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में प्रयुक्त किया गया था:<ref name=":0" /> (1) BERT<sub>BASE</sub>: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERT<sub>LARGE</sub>: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो [[बुककॉर्पस]] (800M शब्द) और [[अंग्रेजी विकिपीडिया]] (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।<ref>{{cite arXiv|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|last3=Zemel|first3=Rich|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|date=2015|title=Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books|pages=19–27|class=cs.CV|eprint=1506.06724}}</ref> | ||
Line 14: | Line 14: | ||
* 80% प्रायिकता के साथ [एमएएसके] टोकन के साथ प्रतिस्थापित किया गया, | * 80% प्रायिकता के साथ [एमएएसके] टोकन के साथ प्रतिस्थापित किया गया, | ||
* प्रायिकता 10% के साथ | * प्रायिकता 10% के साथ यादृच्छिक शब्द टोकन के साथ प्रतिस्थापित किया गया, | ||
* संभाव्यता 10% के साथ प्रतिस्थापित नहीं किया गया। | * संभाव्यता 10% के साथ प्रतिस्थापित नहीं किया गया। | ||
Line 23: | Line 23: | ||
* "मेरा कुत्ता प्यारा है" 10% संभावना के साथ। | * "मेरा कुत्ता प्यारा है" 10% संभावना के साथ। | ||
इनपुट पाठ को संसाधित करने के बाद, मॉडल का चौथा आउटपुट सदिश | इनपुट पाठ को संसाधित करने के बाद, मॉडल का चौथा आउटपुट सदिश अलग तंत्रिका तंत्र को पास किया जाता है, जो इसकी 30,000-बड़ी शब्दावली पर संभाव्यता वितरण का उत्पादन करता है। | ||
अगले वाक्य की भविष्यवाणी: पाठ के दो स्पैन दिए गए हैं, मॉडल भविष्यवाणी करता है कि क्या ये दो स्पैन क्रमिक रूप से प्रशिक्षण कॉर्पस में दिखाई देते हैं, या तो [IsNext] या [NotNext] का उत्पादन करते हैं। पहला स्पैन | अगले वाक्य की भविष्यवाणी: पाठ के दो स्पैन दिए गए हैं, मॉडल भविष्यवाणी करता है कि क्या ये दो स्पैन क्रमिक रूप से प्रशिक्षण कॉर्पस में दिखाई देते हैं, या तो [IsNext] या [NotNext] का उत्पादन करते हैं। पहला स्पैन विशेष टोकन [सीएलएस] (वर्गीकरण के लिए) से प्रारंभ होता है। दो स्पैन विशेष टोकन [एसईपी] (अलग के लिए) द्वारा अलग किए गए हैं। दो स्पैन को संसाधित करने के बाद, 1-st आउटपुट सदिश ([सीएलएस] के लिए सदिश कोडिंग) बाइनरी वर्गीकरण के लिए [IsNext] और [NotNext] में अलग तंत्रिका तंत्र को पास किया जाता है। | ||
* उदाहरण के लिए, दिया गया "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] वह खेलना पसंद करता है" आउटपुट टोकन [IsNext] होना चाहिए। | * उदाहरण के लिए, दिया गया "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] वह खेलना पसंद करता है" आउटपुट टोकन [IsNext] होना चाहिए। | ||
Line 42: | Line 42: | ||
इन प्राकृतिक भाषा समझ कार्यों पर बीईआरटी स्टेट ऑफ द आर्ट के अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।<ref name=":1">{{Cite book|last1=Kovaleva|first1=Olga|last2=Romanov|first2=Alexey|last3=Rogers|first3=Anna|last4=Rumshisky|first4=Anna|date=November 2019|chapter=Revealing the Dark Secrets of BERT|chapter-url=https://www.aclweb.org/anthology/D19-1445|language=en-us|pages=4364–4373|doi=10.18653/v1/D19-1445|title=Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)|s2cid=201645145}}</ref><ref name=":2">{{Cite journal|last1=Clark|first1=Kevin|last2=Khandelwal|first2=Urvashi|last3=Levy|first3=Omer|last4=Manning|first4=Christopher D.|date=2019|title=What Does BERT Look at? An Analysis of BERT's Attention|journal=Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=276–286|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w19-4828|doi-access=free}}</ref> वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों,<ref>{{Cite journal|last1=Khandelwal|first1=Urvashi|last2=He|first2=He|last3=Qi|first3=Peng|last4=Jurafsky|first4=Dan|date=2018|title=Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context|journal=Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)|pages=284–294|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/p18-1027|arxiv=1805.04623|s2cid=21700944}}</ref><ref>{{Cite journal|last1=Gulordava|first1=Kristina|last2=Bojanowski|first2=Piotr|last3=Grave|first3=Edouard|last4=Linzen|first4=Tal|last5=Baroni|first5=Marco|date=2018|title=रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है|journal=Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)|pages=1195–1205|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/n18-1108|arxiv=1803.11138|s2cid=4460159}}</ref> प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश अभ्यावेदन के विश्लेषण,<ref>{{Cite journal|last1=Giulianelli|first1=Mario|last2=Harding|first2=Jack|last3=Mohnert|first3=Florian|last4=Hupkes|first4=Dieuwke|last5=Zuidema|first5=Willem|date=2018|title=Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=240–248|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5426|arxiv=1808.08079|s2cid=52090220}}</ref><ref>{{Cite journal|last1=Zhang|first1=Kelly|last2=Bowman|first2=Samuel|date=2018|title=Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=359–361|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5448|doi-access=free}}</ref> और आर्किटेक्चर भार द्वारा दर्शाए गए संबंधों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे के संबंधों की जांच पर ध्यान केंद्रित किया है।<ref name=":1" /><ref name=":2" /> बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के समय बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को प्रयुक्त करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं (मैं आज ठीक अनुभव कर रहा हूं, उसके सुनहरे बाल हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है। | इन प्राकृतिक भाषा समझ कार्यों पर बीईआरटी स्टेट ऑफ द आर्ट के अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।<ref name=":1">{{Cite book|last1=Kovaleva|first1=Olga|last2=Romanov|first2=Alexey|last3=Rogers|first3=Anna|last4=Rumshisky|first4=Anna|date=November 2019|chapter=Revealing the Dark Secrets of BERT|chapter-url=https://www.aclweb.org/anthology/D19-1445|language=en-us|pages=4364–4373|doi=10.18653/v1/D19-1445|title=Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)|s2cid=201645145}}</ref><ref name=":2">{{Cite journal|last1=Clark|first1=Kevin|last2=Khandelwal|first2=Urvashi|last3=Levy|first3=Omer|last4=Manning|first4=Christopher D.|date=2019|title=What Does BERT Look at? An Analysis of BERT's Attention|journal=Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=276–286|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w19-4828|doi-access=free}}</ref> वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों,<ref>{{Cite journal|last1=Khandelwal|first1=Urvashi|last2=He|first2=He|last3=Qi|first3=Peng|last4=Jurafsky|first4=Dan|date=2018|title=Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context|journal=Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)|pages=284–294|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/p18-1027|arxiv=1805.04623|s2cid=21700944}}</ref><ref>{{Cite journal|last1=Gulordava|first1=Kristina|last2=Bojanowski|first2=Piotr|last3=Grave|first3=Edouard|last4=Linzen|first4=Tal|last5=Baroni|first5=Marco|date=2018|title=रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है|journal=Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)|pages=1195–1205|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/n18-1108|arxiv=1803.11138|s2cid=4460159}}</ref> प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश अभ्यावेदन के विश्लेषण,<ref>{{Cite journal|last1=Giulianelli|first1=Mario|last2=Harding|first2=Jack|last3=Mohnert|first3=Florian|last4=Hupkes|first4=Dieuwke|last5=Zuidema|first5=Willem|date=2018|title=Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=240–248|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5426|arxiv=1808.08079|s2cid=52090220}}</ref><ref>{{Cite journal|last1=Zhang|first1=Kelly|last2=Bowman|first2=Samuel|date=2018|title=Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=359–361|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5448|doi-access=free}}</ref> और आर्किटेक्चर भार द्वारा दर्शाए गए संबंधों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे के संबंधों की जांच पर ध्यान केंद्रित किया है।<ref name=":1" /><ref name=":2" /> बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के समय बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को प्रयुक्त करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं (मैं आज ठीक अनुभव कर रहा हूं, उसके सुनहरे बाल हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है। | ||
चूँकि यह | चूँकि यह व्यय पर आता है: एनकोडर-ओनली आर्किटेक्चर में डिकोडर की कमी के कारण, बीईआरटी को संकेत नहीं दिया जा सकता है और पाठ उत्पन्न नहीं किया जा सकता है, जबकि द्विदिश मॉडल सामान्य रूप से दाईं ओर के बिना प्रभावी ढंग से काम नहीं करते हैं, इस प्रकार संकेत देना जटिल है, यहां तक कि लघु पाठ निर्माण के लिए परिष्कृत कम्प्यूटेशनल रूप से बहुमूल्य विधियों की आवश्यकता होती है।<ref>{{cite journal | url=https://www.semanticscholar.org/paper/Bidirectional-Language-Models-Are-Also-Few-shot-Patel-Li/b65b7f480a61d3dd31d8117b349cabc87c8ccf6c | s2cid=252595927 | title=द्विदिश भाषा मॉडल भी कम-शॉट सीखने वाले होते हैं| journal=Arxiv | year=2022 | last1=Patel | first1=Ajay | last2=Li | first2=Bryan | last3=Rasooli | first3=Mohammad Sadegh | last4=Constant | first4=Noah | last5=Raffel | first5=Colin | last6=Callison-Burch | first6=Chris }}</ref> | ||
गहरे सीखने वाले तंत्रिका तंत्र के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है। विशिष्ट कार्यों जैसे कि विचार वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर विचार वर्गीकरण कार्य है, तो वित्तीय पाठ के विचार के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन प्रचलित किया गया था।<ref>{{cite web |title=बर्ट|url=https://github.com/google-research/bert |website=GitHub |access-date=28 March 2023}}</ref> | गहरे सीखने वाले तंत्रिका तंत्र के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है। विशिष्ट कार्यों जैसे कि विचार वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर विचार वर्गीकरण कार्य है, तो वित्तीय पाठ के विचार के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन प्रचलित किया गया था।<ref>{{cite web |title=बर्ट|url=https://github.com/google-research/bert |website=GitHub |access-date=28 March 2023}}</ref> | ||
Line 50: | Line 50: | ||
== इतिहास == | == इतिहास == | ||
बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा,<ref>{{cite arXiv |last1=Dai |first1=Andrew |last2=Le | first2=Quoc |title=अर्ध-पर्यवेक्षित अनुक्रम सीखना|date=4 November 2015 |eprint=1511.01432|class=cs.LG }}</ref> जनरेटिव प्री-ट्रेनिंग, [[एल्मो]],<ref>{{cite arXiv |last1=Peters |first1=Matthew |last2=Neumann | first2=Mark |last3=Iyyer | first3=Mohit |last4=Gardner | first4=Matt | last5=Clark | first5=Christopher | last6=Lee | first6=Kenton | last7=Luke | first7= Zettlemoyer |title=गहन संदर्भयुक्त शब्द निरूपण|date=15 February 2018 |eprint=1802.05365v2|class=cs.CL }}</ref> और यूएलएमएफआईटी सम्मिलित है।<ref>{{cite arXiv |last1=Howard |first1=Jeremy |last2=Ruder | first2=Sebastian |title=टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग|date=18 January 2018 |eprint=1801.06146v5|class=cs.CL }}</ref> पिछले मॉडलों के विपरीत, बीईआरटी | बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा,<ref>{{cite arXiv |last1=Dai |first1=Andrew |last2=Le | first2=Quoc |title=अर्ध-पर्यवेक्षित अनुक्रम सीखना|date=4 November 2015 |eprint=1511.01432|class=cs.LG }}</ref> जनरेटिव प्री-ट्रेनिंग, [[एल्मो]],<ref>{{cite arXiv |last1=Peters |first1=Matthew |last2=Neumann | first2=Mark |last3=Iyyer | first3=Mohit |last4=Gardner | first4=Matt | last5=Clark | first5=Christopher | last6=Lee | first6=Kenton | last7=Luke | first7= Zettlemoyer |title=गहन संदर्भयुक्त शब्द निरूपण|date=15 February 2018 |eprint=1802.05365v2|class=cs.CL }}</ref> और यूएलएमएफआईटी सम्मिलित है।<ref>{{cite arXiv |last1=Howard |first1=Jeremy |last2=Ruder | first2=Sebastian |title=टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग|date=18 January 2018 |eprint=1801.06146v5|class=cs.CL }}</ref> पिछले मॉडलों के विपरीत, बीईआरटी गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल साधारण पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां बीईआरटी किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए सदिश में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही word2vec सदिश प्रतिनिधित्व होगा, वह कंपनी चला रहा है और वह मैराथन दौड़ रहा है, बीईआरटी प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा। | ||
25 अक्टूबर, 2019 को, गूगल ने घोषणा की, कि उन्होंने यूएस के अन्दर [[अंग्रेजी भाषा]] गूगल खोज के लिए बीईआरटी मॉडल प्रयुक्त करना प्रारंभ कर दिया है।<ref>{{cite web |last1=Nayak |first1=Pandu |title=खोजों को पहले से बेहतर समझना|url=https://www.blog.google/products/search/search-language-understanding-bert/ |website=Google Blog |date=25 October 2019 |access-date=10 December 2019}}</ref> 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था।<ref>{{cite web |last1=Montti |first1=Roger |title=Google का BERT दुनिया भर में रोल आउट|url=https://www.searchenginejournal.com/google-bert-rolls-out-worldwide/339359/ |website=Search Engine Journal |date=10 December 2019 |publisher=Search Engine Journal |access-date=10 December 2019}}</ref> अक्टूबर 2020 में, लगभग हर | 25 अक्टूबर, 2019 को, गूगल ने घोषणा की, कि उन्होंने यूएस के अन्दर [[अंग्रेजी भाषा]] गूगल खोज के लिए बीईआरटी मॉडल प्रयुक्त करना प्रारंभ कर दिया है।<ref>{{cite web |last1=Nayak |first1=Pandu |title=खोजों को पहले से बेहतर समझना|url=https://www.blog.google/products/search/search-language-understanding-bert/ |website=Google Blog |date=25 October 2019 |access-date=10 December 2019}}</ref> 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था।<ref>{{cite web |last1=Montti |first1=Roger |title=Google का BERT दुनिया भर में रोल आउट|url=https://www.searchenginejournal.com/google-bert-rolls-out-worldwide/339359/ |website=Search Engine Journal |date=10 December 2019 |publisher=Search Engine Journal |access-date=10 December 2019}}</ref> अक्टूबर 2020 में, लगभग हर अंग्रेजी-आधारित क्वेरी को बीईआरटी मॉडल द्वारा संसाधित किया गया था।<ref>{{Cite web|date=2020-10-15|title=Google: BERT now used on almost every English query|url=https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193|access-date=2020-11-24|website=Search Engine Land}}</ref> | ||
Line 74: | Line 74: | ||
{{Natural Language Processing}} | {{Natural Language Processing}} | ||
{{Differentiable computing}} | {{Differentiable computing}} | ||
[[Category:CS1 English-language sources (en)]] | |||
[[Category:Collapse templates]] | |||
[[Category: | |||
[[Category:Created On 02/05/2023]] | [[Category:Created On 02/05/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Sidebars with styles needing conversion]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates generating microformats]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that are not mobile friendly]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Wikipedia metatemplates]] | |||
[[Category:बड़े भाषा मॉडल]] |
Latest revision as of 17:26, 16 May 2023
ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में गूगल के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का परिवार है।[1][2] 2020 के साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि "एक वर्ष से कुछ अधिक समय में, बीईआरटी मॉडल का विश्लेषण और संशोधन करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रयोगों में सर्वव्यापी आधार रेखा बन गया है।"[3]
बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में प्रयुक्त किया गया था:[1] (1) BERTBASE: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERTLARGE: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो बुककॉर्पस (800M शब्द) और अंग्रेजी विकिपीडिया (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।[4]
आर्किटेक्चर
बीईआरटी ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) आर्किटेक्चर पर आधारित है। विशेष रूप से, बीईआरटी ट्रांसफार्मर एन्कोडर परतों से बना है।
बीईआरटी प्रत्येक अंग्रेजी शब्द को पूर्णांक कोड में परिवर्तित करने के लिए वर्डपीस का उपयोग करता है। इसकी शब्दावली का आकार 30,000 है। इसकी शब्दावली में दिखाई न देने वाला कोई भी टोकन को "अज्ञात" के लिए [यूएनके] से परिवर्तित कर दिया जाता है।
बीईआरटी को दो कार्यों पर एक साथ पूर्व-प्रशिक्षित किया गया था:[5]
भाषा मॉडलिंग: भविष्यवाणी के लिए 15% टोकन का चयन किया गया था, और प्रशिक्षण का उद्देश्य चयनित टोकन को उसके संदर्भ में भविष्यवाणी करना था। चयनित टोकन है
- 80% प्रायिकता के साथ [एमएएसके] टोकन के साथ प्रतिस्थापित किया गया,
- प्रायिकता 10% के साथ यादृच्छिक शब्द टोकन के साथ प्रतिस्थापित किया गया,
- संभाव्यता 10% के साथ प्रतिस्थापित नहीं किया गया।
उदाहरण के लिए, वाक्य "मेरा कुत्ता प्यारा है" में भविष्यवाणी के लिए चुना गया चौथा टोकन हो सकता है। मॉडल में इनपुट टेक्स्ट होगा
- "मेरा कुत्ता [एमएएसके] है", जिसकी प्रायिकता 80% है,
- "मेरा कुत्ता खुश है" की प्रायिकता 10% है,
- "मेरा कुत्ता प्यारा है" 10% संभावना के साथ।
इनपुट पाठ को संसाधित करने के बाद, मॉडल का चौथा आउटपुट सदिश अलग तंत्रिका तंत्र को पास किया जाता है, जो इसकी 30,000-बड़ी शब्दावली पर संभाव्यता वितरण का उत्पादन करता है।
अगले वाक्य की भविष्यवाणी: पाठ के दो स्पैन दिए गए हैं, मॉडल भविष्यवाणी करता है कि क्या ये दो स्पैन क्रमिक रूप से प्रशिक्षण कॉर्पस में दिखाई देते हैं, या तो [IsNext] या [NotNext] का उत्पादन करते हैं। पहला स्पैन विशेष टोकन [सीएलएस] (वर्गीकरण के लिए) से प्रारंभ होता है। दो स्पैन विशेष टोकन [एसईपी] (अलग के लिए) द्वारा अलग किए गए हैं। दो स्पैन को संसाधित करने के बाद, 1-st आउटपुट सदिश ([सीएलएस] के लिए सदिश कोडिंग) बाइनरी वर्गीकरण के लिए [IsNext] और [NotNext] में अलग तंत्रिका तंत्र को पास किया जाता है।
- उदाहरण के लिए, दिया गया "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] वह खेलना पसंद करता है" आउटपुट टोकन [IsNext] होना चाहिए।
- यह देखते हुए कि "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] मैग्नेट कैसे काम करता है" मॉडल को टोकन आउटपुट [NotNext] करना चाहिए।
इस प्रशिक्षण प्रक्रिया के परिणामस्वरूप, बीईआरटी संदर्भ में शब्दों और वाक्यों के अव्यक्त स्थान को सीखता है। पूर्व-प्रशिक्षण के बाद, बीईआरटी एनएलपी कार्यों (भाषा अनुमान, पाठ वर्गीकरण) और अनुक्रम-से-अनुक्रम आधारित विशिष्ट कार्यों पर अपने प्रदर्शन को अनुकूलित करने के लिए छोटे डेटासेट पर कम संसाधनों के साथ भाषा निर्माण कार्य (प्रश्न-उत्तर, संवादी प्रतिक्रिया पीढ़ी) ठीक-ट्यूनिंग (मशीन लर्निंग) हो सकता है।[1][6] फाइन-ट्यूनिंग की तुलना में प्री-ट्रेनिंग चरण अत्यधिक अधिक कम्प्यूटेशनल जटिल है।
प्रदर्शन
जब बीईआरटी प्रकाशित हुआ, तो इसने कई प्राकृतिक भाषा समझ कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया:[1]
- जीएलयूई (सामान्य भाषा समझ मूल्यांकन) कार्य सेट (9 कार्यों से मिलकर)
- स्क्वाड (स्टैनफोर्ड प्रश्न उत्तर डेटासेट[7]) v1.1 और v2.0
- एसडब्लूएजी (प्रतिकूल पीढ़ियों के साथ स्थितियां[8])
विश्लेषण
इन प्राकृतिक भाषा समझ कार्यों पर बीईआरटी स्टेट ऑफ द आर्ट के अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।[9][10] वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों,[11][12] प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश अभ्यावेदन के विश्लेषण,[13][14] और आर्किटेक्चर भार द्वारा दर्शाए गए संबंधों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे के संबंधों की जांच पर ध्यान केंद्रित किया है।[9][10] बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के समय बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को प्रयुक्त करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं (मैं आज ठीक अनुभव कर रहा हूं, उसके सुनहरे बाल हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है।
चूँकि यह व्यय पर आता है: एनकोडर-ओनली आर्किटेक्चर में डिकोडर की कमी के कारण, बीईआरटी को संकेत नहीं दिया जा सकता है और पाठ उत्पन्न नहीं किया जा सकता है, जबकि द्विदिश मॉडल सामान्य रूप से दाईं ओर के बिना प्रभावी ढंग से काम नहीं करते हैं, इस प्रकार संकेत देना जटिल है, यहां तक कि लघु पाठ निर्माण के लिए परिष्कृत कम्प्यूटेशनल रूप से बहुमूल्य विधियों की आवश्यकता होती है।[15]
गहरे सीखने वाले तंत्रिका तंत्र के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है। विशिष्ट कार्यों जैसे कि विचार वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर विचार वर्गीकरण कार्य है, तो वित्तीय पाठ के विचार के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन प्रचलित किया गया था।[16]
इतिहास
बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा,[17] जनरेटिव प्री-ट्रेनिंग, एल्मो,[18] और यूएलएमएफआईटी सम्मिलित है।[19] पिछले मॉडलों के विपरीत, बीईआरटी गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल साधारण पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां बीईआरटी किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए सदिश में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही word2vec सदिश प्रतिनिधित्व होगा, वह कंपनी चला रहा है और वह मैराथन दौड़ रहा है, बीईआरटी प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा।
25 अक्टूबर, 2019 को, गूगल ने घोषणा की, कि उन्होंने यूएस के अन्दर अंग्रेजी भाषा गूगल खोज के लिए बीईआरटी मॉडल प्रयुक्त करना प्रारंभ कर दिया है।[20] 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था।[21] अक्टूबर 2020 में, लगभग हर अंग्रेजी-आधारित क्वेरी को बीईआरटी मॉडल द्वारा संसाधित किया गया था।[22]
मान्यता
एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एनएएसीएल) के नॉर्थ अमेरिकन चैप्टर के 2019 वार्षिक सम्मेलन में बीईआरटी का वर्णन करने वाले शोध पत्र ने सर्वश्रेष्ठ लॉन्ग पेपर अवार्ड जीता था।[23]
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
- ↑ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (in English). Retrieved 2019-11-27.
- ↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403.
- ↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books". pp. 19–27. arXiv:1506.06724 [cs.CV].
- ↑ "Summary of the models — transformers 3.4.0 documentation". huggingface.co. Retrieved 2023-02-16.
- ↑ Horev, Rani (2018). "BERT Explained: State of the art language model for NLP". Towards Data Science. Retrieved 27 September 2021.
- ↑ Rajpurkar, Pranav; Zhang, Jian; Lopyrev, Konstantin; Liang, Percy (2016-10-10). "SQuAD: 100,000+ Questions for Machine Comprehension of Text". arXiv:1606.05250 [cs.CL].
- ↑ Zellers, Rowan; Bisk, Yonatan; Schwartz, Roy; Choi, Yejin (2018-08-15). "SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference". arXiv:1808.05326 [cs.CL].
- ↑ 9.0 9.1 Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (in English). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.
- ↑ 10.0 10.1 Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.
- ↑ Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). "Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context". Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 284–294. arXiv:1805.04623. doi:10.18653/v1/p18-1027. S2CID 21700944.
- ↑ Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). "रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है". Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195–1205. arXiv:1803.11138. doi:10.18653/v1/n18-1108. S2CID 4460159.
- ↑ Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). "Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240–248. arXiv:1808.08079. doi:10.18653/v1/w18-5426. S2CID 52090220.
- ↑ Zhang, Kelly; Bowman, Samuel (2018). "Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359–361. doi:10.18653/v1/w18-5448.
- ↑ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). "द्विदिश भाषा मॉडल भी कम-शॉट सीखने वाले होते हैं". Arxiv. S2CID 252595927.
- ↑ "बर्ट". GitHub. Retrieved 28 March 2023.
- ↑ Dai, Andrew; Le, Quoc (4 November 2015). "अर्ध-पर्यवेक्षित अनुक्रम सीखना". arXiv:1511.01432 [cs.LG].
- ↑ Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 February 2018). "गहन संदर्भयुक्त शब्द निरूपण". arXiv:1802.05365v2 [cs.CL].
- ↑ Howard, Jeremy; Ruder, Sebastian (18 January 2018). "टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग". arXiv:1801.06146v5 [cs.CL].
- ↑ Nayak, Pandu (25 October 2019). "खोजों को पहले से बेहतर समझना". Google Blog. Retrieved 10 December 2019.
- ↑ Montti, Roger (10 December 2019). "Google का BERT दुनिया भर में रोल आउट". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.
- ↑ "Google: BERT now used on almost every English query". Search Engine Land. 2020-10-15. Retrieved 2020-11-24.
- ↑ "बेस्ट पेपर अवार्ड्स". NAACL. 2019. Retrieved Mar 28, 2020.
अग्रिम पठन
- Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].