बीईआरटी (भाषा मॉडल): Difference between revisions

From Vigyanwiki
No edit summary
Line 2: Line 2:
ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में [[Google|गूगल]] के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का एक परिवार है।<ref name=":0">{{cite arXiv |last1=Devlin |first1=Jacob |last2=Chang |first2=Ming-Wei |last3=Lee |first3=Kenton |last4=Toutanova |first4=Kristina |title=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding |date=11 October 2018 |eprint=1810.04805v2|class=cs.CL }}</ref><ref>{{Cite web|url=http://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html|title=Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing|website=Google AI Blog|language=en|access-date=2019-11-27}}</ref> 2020 के एक साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि "एक वर्ष से कुछ अधिक समय में, बीईआरटी मॉडल का विश्लेषण और संशोधन करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रयोगों में एक सर्वव्यापी आधार रेखा बन गया है।"<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842–866|doi=10.1162/tacl_a_00349|arxiv=2002.12327|s2cid=211532403}}</ref>
ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में [[Google|गूगल]] के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का एक परिवार है।<ref name=":0">{{cite arXiv |last1=Devlin |first1=Jacob |last2=Chang |first2=Ming-Wei |last3=Lee |first3=Kenton |last4=Toutanova |first4=Kristina |title=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding |date=11 October 2018 |eprint=1810.04805v2|class=cs.CL }}</ref><ref>{{Cite web|url=http://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html|title=Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing|website=Google AI Blog|language=en|access-date=2019-11-27}}</ref> 2020 के एक साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि "एक वर्ष से कुछ अधिक समय में, बीईआरटी मॉडल का विश्लेषण और संशोधन करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रयोगों में एक सर्वव्यापी आधार रेखा बन गया है।"<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842–866|doi=10.1162/tacl_a_00349|arxiv=2002.12327|s2cid=211532403}}</ref>


बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में लागू किया गया था:<ref name=":0" /> (1) BERT<sub>BASE</sub>: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERT<sub>LARGE</sub>: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो [[बुककॉर्पस]] (800M शब्द) और [[अंग्रेजी विकिपीडिया]] (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।<ref>{{cite arXiv|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|last3=Zemel|first3=Rich|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|date=2015|title=Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books|pages=19–27|class=cs.CV|eprint=1506.06724}}</ref>
बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में प्रयुक्त किया गया था:<ref name=":0" /> (1) BERT<sub>BASE</sub>: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERT<sub>LARGE</sub>: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो [[बुककॉर्पस]] (800M शब्द) और [[अंग्रेजी विकिपीडिया]] (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।<ref>{{cite arXiv|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|last3=Zemel|first3=Rich|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|date=2015|title=Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books|pages=19–27|class=cs.CV|eprint=1506.06724}}</ref>


== आर्किटेक्चर ==
== आर्किटेक्चर ==
Line 35: Line 35:
जब बीईआरटी प्रकाशित हुआ, तो इसने कई प्राकृतिक भाषा समझ कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया:<ref name=":0" />
जब बीईआरटी प्रकाशित हुआ, तो इसने कई प्राकृतिक भाषा समझ कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया:<ref name=":0" />


* गोंद ([[सामान्य भाषा समझ मूल्यांकन]]) कार्य सेट (9 कार्यों से मिलकर)
* जीएलयूई ([[सामान्य भाषा समझ मूल्यांकन]]) कार्य सेट (9 कार्यों से मिलकर)
* SQuAD (स्टैनफोर्ड प्रश्न उत्तर डेटासेट<ref>{{Cite arXiv |last1=Rajpurkar |first1=Pranav |last2=Zhang |first2=Jian |last3=Lopyrev |first3=Konstantin |last4=Liang |first4=Percy |date=2016-10-10 |title=SQuAD: 100,000+ Questions for Machine Comprehension of Text |class=cs.CL |eprint=1606.05250}}</ref>) v1.1 और v2.0
* स्क्वाड (स्टैनफोर्ड प्रश्न उत्तर डेटासेट<ref>{{Cite arXiv |last1=Rajpurkar |first1=Pranav |last2=Zhang |first2=Jian |last3=Lopyrev |first3=Konstantin |last4=Liang |first4=Percy |date=2016-10-10 |title=SQuAD: 100,000+ Questions for Machine Comprehension of Text |class=cs.CL |eprint=1606.05250}}</ref>) v1.1 और v2.0
* SWAG (प्रतिकूल पीढ़ियों के साथ स्थितियां<ref>{{Cite arXiv |last1=Zellers |first1=Rowan |last2=Bisk |first2=Yonatan |last3=Schwartz |first3=Roy |last4=Choi |first4=Yejin |date=2018-08-15 |title=SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference |class=cs.CL |eprint=1808.05326}}</ref>)
* एसडब्लूएजी (प्रतिकूल पीढ़ियों के साथ स्थितियां<ref>{{Cite arXiv |last1=Zellers |first1=Rowan |last2=Bisk |first2=Yonatan |last3=Schwartz |first3=Roy |last4=Choi |first4=Yejin |date=2018-08-15 |title=SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference |class=cs.CL |eprint=1808.05326}}</ref>)


== विश्लेषण ==
== विश्लेषण ==
बीईआरटी के स्टेट ऑफ द आर्ट | इन नेचुरल-लैंग्वेज बोध कार्यों पर अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।<ref name=":1">{{Cite book|last1=Kovaleva|first1=Olga|last2=Romanov|first2=Alexey|last3=Rogers|first3=Anna|last4=Rumshisky|first4=Anna|date=November 2019|chapter=Revealing the Dark Secrets of BERT|chapter-url=https://www.aclweb.org/anthology/D19-1445|language=en-us|pages=4364–4373|doi=10.18653/v1/D19-1445|title=Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)|s2cid=201645145}}</ref><ref name=":2">{{Cite journal|last1=Clark|first1=Kevin|last2=Khandelwal|first2=Urvashi|last3=Levy|first3=Omer|last4=Manning|first4=Christopher D.|date=2019|title=What Does BERT Look at? An Analysis of BERT's Attention|journal=Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=276–286|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w19-4828|doi-access=free}}</ref> वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे संबंधों की जांच पर ध्यान केंद्रित किया है,<ref>{{Cite journal|last1=Khandelwal|first1=Urvashi|last2=He|first2=He|last3=Qi|first3=Peng|last4=Jurafsky|first4=Dan|date=2018|title=Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context|journal=Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)|pages=284–294|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/p18-1027|arxiv=1805.04623|s2cid=21700944}}</ref><ref>{{Cite journal|last1=Gulordava|first1=Kristina|last2=Bojanowski|first2=Piotr|last3=Grave|first3=Edouard|last4=Linzen|first4=Tal|last5=Baroni|first5=Marco|date=2018|title=रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है|journal=Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)|pages=1195–1205|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/n18-1108|arxiv=1803.11138|s2cid=4460159}}</ref> प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश स्पेस मॉडल का विश्लेषण,<ref>{{Cite journal|last1=Giulianelli|first1=Mario|last2=Harding|first2=Jack|last3=Mohnert|first3=Florian|last4=Hupkes|first4=Dieuwke|last5=Zuidema|first5=Willem|date=2018|title=Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=240–248|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5426|arxiv=1808.08079|s2cid=52090220}}</ref><ref>{{Cite journal|last1=Zhang|first1=Kelly|last2=Bowman|first2=Samuel|date=2018|title=Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=359–361|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5448|doi-access=free}}</ref> और ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) # आर्किटेक्चर वेट द्वारा दर्शाए गए रिश्ते।<ref name=":1" /><ref name=":2" /> बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के दौरान बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को लागू करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं ('आज मुझे अच्छा लग रहा है', 'उसके पास' ठीक 'सुनहरे बाल' हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है।
इन प्राकृतिक भाषा समझ कार्यों पर बीईआरटी स्टेट ऑफ द आर्ट के अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।<ref name=":1">{{Cite book|last1=Kovaleva|first1=Olga|last2=Romanov|first2=Alexey|last3=Rogers|first3=Anna|last4=Rumshisky|first4=Anna|date=November 2019|chapter=Revealing the Dark Secrets of BERT|chapter-url=https://www.aclweb.org/anthology/D19-1445|language=en-us|pages=4364–4373|doi=10.18653/v1/D19-1445|title=Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)|s2cid=201645145}}</ref><ref name=":2">{{Cite journal|last1=Clark|first1=Kevin|last2=Khandelwal|first2=Urvashi|last3=Levy|first3=Omer|last4=Manning|first4=Christopher D.|date=2019|title=What Does BERT Look at? An Analysis of BERT's Attention|journal=Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=276–286|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w19-4828|doi-access=free}}</ref> वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों,<ref>{{Cite journal|last1=Khandelwal|first1=Urvashi|last2=He|first2=He|last3=Qi|first3=Peng|last4=Jurafsky|first4=Dan|date=2018|title=Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context|journal=Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)|pages=284–294|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/p18-1027|arxiv=1805.04623|s2cid=21700944}}</ref><ref>{{Cite journal|last1=Gulordava|first1=Kristina|last2=Bojanowski|first2=Piotr|last3=Grave|first3=Edouard|last4=Linzen|first4=Tal|last5=Baroni|first5=Marco|date=2018|title=रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है|journal=Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)|pages=1195–1205|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/n18-1108|arxiv=1803.11138|s2cid=4460159}}</ref> प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश अभ्यावेदन के विश्लेषण,<ref>{{Cite journal|last1=Giulianelli|first1=Mario|last2=Harding|first2=Jack|last3=Mohnert|first3=Florian|last4=Hupkes|first4=Dieuwke|last5=Zuidema|first5=Willem|date=2018|title=Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=240–248|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5426|arxiv=1808.08079|s2cid=52090220}}</ref><ref>{{Cite journal|last1=Zhang|first1=Kelly|last2=Bowman|first2=Samuel|date=2018|title=Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis|journal=Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP|pages=359–361|location=Stroudsburg, PA, USA|publisher=Association for Computational Linguistics|doi=10.18653/v1/w18-5448|doi-access=free}}</ref> और आर्किटेक्चर भार द्वारा दर्शाए गए संबंधों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे के संबंधों की जांच पर ध्यान केंद्रित किया है। '''और ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) # आर्किटेक्चर वेट द्वारा दर्शाए गए रिश्ते।'''<ref name=":1" /><ref name=":2" /> बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के समय बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को प्रयुक्त करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं (मैं आज ठीक अनुभव कर रहा हूं, उसके सुनहरे बाल हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है।


चूँकि यह एक व्यय पर आता है: एक डिकोडर की कमी वाले एनकोडर-ओनली आर्किटेक्चर के कारण, बीईआरटी इंजीनियरिंग को बढ़ावा नहीं दे सकता है और प्राकृतिक भाषा पीढ़ी नहीं कर सकता है, जबकि द्विदिश मॉडल सामान्य रूप से सही पक्ष के बिना प्रभावी ढंग से काम नहीं करते हैं,{{Clarify|date=March 2023}} इस प्रकार परिष्कृत कम्प्यूटेशनल रूप से महंगी तकनीकों की आवश्यकता वाले छोटे पाठ निर्माण के साथ, संकेत देना जटिल है।<ref>{{cite journal | url=https://www.semanticscholar.org/paper/Bidirectional-Language-Models-Are-Also-Few-shot-Patel-Li/b65b7f480a61d3dd31d8117b349cabc87c8ccf6c | s2cid=252595927 | title=द्विदिश भाषा मॉडल भी कम-शॉट सीखने वाले होते हैं| journal=Arxiv | year=2022 | last1=Patel | first1=Ajay | last2=Li | first2=Bryan | last3=Rasooli | first3=Mohammad Sadegh | last4=Constant | first4=Noah | last5=Raffel | first5=Colin | last6=Callison-Burch | first6=Chris }}</ref>
चूँकि यह एक व्यय पर आता है: एनकोडर-ओनली आर्किटेक्चर में डिकोडर की कमी के कारण, BERT को संकेत नहीं दिया जा सकता है और पाठ उत्पन्न नहीं किया जा सकता है, जबकि द्विदिश मॉडल सामान्य रूप से दाईं ओर के बिना प्रभावी ढंग से काम नहीं करते हैं,{{Clarify|date=March 2023}} इस प्रकार संकेत देना जटिल है, यहां तक कि लघु पाठ निर्माण के लिए परिष्कृत कम्प्यूटेशनल रूप से बहुमूल्य विधियों की आवश्यकता होती है।<ref>{{cite journal | url=https://www.semanticscholar.org/paper/Bidirectional-Language-Models-Are-Also-Few-shot-Patel-Li/b65b7f480a61d3dd31d8117b349cabc87c8ccf6c | s2cid=252595927 | title=द्विदिश भाषा मॉडल भी कम-शॉट सीखने वाले होते हैं| journal=Arxiv | year=2022 | last1=Patel | first1=Ajay | last2=Li | first2=Bryan | last3=Rasooli | first3=Mohammad Sadegh | last4=Constant | first4=Noah | last5=Raffel | first5=Colin | last6=Callison-Burch | first6=Chris }}</ref>


गहरे सीखने वाले तंत्रिका नेटवर्क के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है | विशिष्ट कार्यों जैसे कि भावना वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर भावना वर्गीकरण कार्य है, तो वित्तीय पाठ की भावना के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन जारी किया गया था।<ref>{{cite web |title=बर्ट|url=https://github.com/google-research/bert |website=GitHub |access-date=28 March 2023}}</ref>
गहरे सीखने वाले तंत्रिका तंत्र के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है। विशिष्ट कार्यों जैसे कि विचार वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर विचार वर्गीकरण कार्य है, तो वित्तीय पाठ के विचार के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन प्रचलित किया गया था।<ref>{{cite web |title=बर्ट|url=https://github.com/google-research/bert |website=GitHub |access-date=28 March 2023}}</ref>




Line 50: Line 50:
== इतिहास ==
== इतिहास ==


बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, ​​केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा<ref>{{cite arXiv |last1=Dai |first1=Andrew |last2=Le | first2=Quoc |title=अर्ध-पर्यवेक्षित अनुक्रम सीखना|date=4 November 2015 |eprint=1511.01432|class=cs.LG }}</ref> जनरेटिव प्री-ट्रेनिंग, [[एल्मो]],<ref>{{cite arXiv |last1=Peters |first1=Matthew |last2=Neumann | first2=Mark |last3=Iyyer | first3=Mohit |last4=Gardner | first4=Matt | last5=Clark | first5=Christopher | last6=Lee | first6=Kenton | last7=Luke | first7= Zettlemoyer |title=गहन संदर्भयुक्त शब्द निरूपण|date=15 February 2018 |eprint=1802.05365v2|class=cs.CL }}</ref> और यूएलएमएफआईटी सम्मिलित है।<ref>{{cite arXiv |last1=Howard |first1=Jeremy |last2=Ruder | first2=Sebastian |title=टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग|date=18 January 2018 |eprint=1801.06146v5|class=cs.CL }}</ref> पिछले मॉडलों के विपरीत, बीईआरटी एक गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल एक सादे पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए एक शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां बीईआरटी किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए सदिश में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही word2vec सदिश प्रतिनिधित्व होगा वह एक कंपनी चला रहा है और वह एक मैराथन दौड़ रहा है, बीईआरटी एक प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा।
बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, ​​केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा,<ref>{{cite arXiv |last1=Dai |first1=Andrew |last2=Le | first2=Quoc |title=अर्ध-पर्यवेक्षित अनुक्रम सीखना|date=4 November 2015 |eprint=1511.01432|class=cs.LG }}</ref> जनरेटिव प्री-ट्रेनिंग, [[एल्मो]],<ref>{{cite arXiv |last1=Peters |first1=Matthew |last2=Neumann | first2=Mark |last3=Iyyer | first3=Mohit |last4=Gardner | first4=Matt | last5=Clark | first5=Christopher | last6=Lee | first6=Kenton | last7=Luke | first7= Zettlemoyer |title=गहन संदर्भयुक्त शब्द निरूपण|date=15 February 2018 |eprint=1802.05365v2|class=cs.CL }}</ref> और यूएलएमएफआईटी सम्मिलित है।<ref>{{cite arXiv |last1=Howard |first1=Jeremy |last2=Ruder | first2=Sebastian |title=टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग|date=18 January 2018 |eprint=1801.06146v5|class=cs.CL }}</ref> पिछले मॉडलों के विपरीत, बीईआरटी एक गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल एक साधारण पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए एक शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां बीईआरटी किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए सदिश में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही word2vec सदिश प्रतिनिधित्व होगा, वह एक कंपनी चला रहा है और वह एक मैराथन दौड़ रहा है, बीईआरटी एक प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा।


25 अक्टूबर, 2019 को, गूगल ने घोषणा की कि उन्होंने यूएस के अन्दर [[अंग्रेजी भाषा]] गूगल खोज के लिए बीईआरटी मॉडल लागू करना प्रारंभ कर दिया है।<ref>{{cite web |last1=Nayak |first1=Pandu |title=खोजों को पहले से बेहतर समझना|url=https://www.blog.google/products/search/search-language-understanding-bert/ |website=Google Blog |date=25 October 2019 |access-date=10 December 2019}}</ref> 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था।<ref>{{cite web |last1=Montti |first1=Roger |title=Google का BERT दुनिया भर में रोल आउट|url=https://www.searchenginejournal.com/google-bert-rolls-out-worldwide/339359/ |website=Search Engine Journal |date=10 December 2019 |publisher=Search Engine Journal |access-date=10 December 2019}}</ref> अक्टूबर 2020 में, लगभग हर एक अंग्रेजी-आधारित क्वेरी को बीईआरटी मॉडल द्वारा संसाधित किया गया था।<ref>{{Cite web|date=2020-10-15|title=Google: BERT now used on almost every English query|url=https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193|access-date=2020-11-24|website=Search Engine Land}}</ref>
25 अक्टूबर, 2019 को, गूगल ने घोषणा की, कि उन्होंने यूएस के अन्दर [[अंग्रेजी भाषा]] गूगल खोज के लिए बीईआरटी मॉडल प्रयुक्त करना प्रारंभ कर दिया है।<ref>{{cite web |last1=Nayak |first1=Pandu |title=खोजों को पहले से बेहतर समझना|url=https://www.blog.google/products/search/search-language-understanding-bert/ |website=Google Blog |date=25 October 2019 |access-date=10 December 2019}}</ref> 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था।<ref>{{cite web |last1=Montti |first1=Roger |title=Google का BERT दुनिया भर में रोल आउट|url=https://www.searchenginejournal.com/google-bert-rolls-out-worldwide/339359/ |website=Search Engine Journal |date=10 December 2019 |publisher=Search Engine Journal |access-date=10 December 2019}}</ref> अक्टूबर 2020 में, लगभग हर एक अंग्रेजी-आधारित क्वेरी को बीईआरटी मॉडल द्वारा संसाधित किया गया था।<ref>{{Cite web|date=2020-10-15|title=Google: BERT now used on almost every English query|url=https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193|access-date=2020-11-24|website=Search Engine Land}}</ref>





Revision as of 01:13, 8 May 2023

ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में गूगल के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का एक परिवार है।[1][2] 2020 के एक साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि "एक वर्ष से कुछ अधिक समय में, बीईआरटी मॉडल का विश्लेषण और संशोधन करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रयोगों में एक सर्वव्यापी आधार रेखा बन गया है।"[3]

बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में प्रयुक्त किया गया था:[1] (1) BERTBASE: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERTLARGE: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो बुककॉर्पस (800M शब्द) और अंग्रेजी विकिपीडिया (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।[4]

आर्किटेक्चर

बीईआरटी ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) आर्किटेक्चर पर आधारित है। विशेष रूप से, बीईआरटी ट्रांसफार्मर एन्कोडर परतों से बना है।

बीईआरटी प्रत्येक अंग्रेजी शब्द को पूर्णांक कोड में परिवर्तित करने के लिए वर्डपीस का उपयोग करता है। इसकी शब्दावली का आकार 30,000 है। इसकी शब्दावली में दिखाई न देने वाला कोई भी टोकन को "अज्ञात" के लिए [यूएनके] से परिवर्तित कर दिया जाता है।

बीईआरटी को दो कार्यों पर एक साथ पूर्व-प्रशिक्षित किया गया था:[5]

भाषा मॉडलिंग: भविष्यवाणी के लिए 15% टोकन का चयन किया गया था, और प्रशिक्षण का उद्देश्य चयनित टोकन को उसके संदर्भ में भविष्यवाणी करना था। चयनित टोकन है

  • 80% प्रायिकता के साथ [एमएएसके] टोकन के साथ प्रतिस्थापित किया गया,
  • प्रायिकता 10% के साथ एक यादृच्छिक शब्द टोकन के साथ प्रतिस्थापित किया गया,
  • संभाव्यता 10% के साथ प्रतिस्थापित नहीं किया गया।

उदाहरण के लिए, वाक्य "मेरा कुत्ता प्यारा है" में भविष्यवाणी के लिए चुना गया चौथा टोकन हो सकता है। मॉडल में इनपुट टेक्स्ट होगा

  • "मेरा कुत्ता [एमएएसके] है", जिसकी प्रायिकता 80% है,
  • "मेरा कुत्ता खुश है" की प्रायिकता 10% है,
  • "मेरा कुत्ता प्यारा है" 10% संभावना के साथ।

इनपुट पाठ को संसाधित करने के बाद, मॉडल का चौथा आउटपुट सदिश एक अलग तंत्रिका नेटवर्क को पास किया जाता है, जो इसकी 30,000-बड़ी शब्दावली पर संभाव्यता वितरण का उत्पादन करता है।

अगले वाक्य की भविष्यवाणी: पाठ के दो स्पैन दिए गए हैं, मॉडल भविष्यवाणी करता है कि क्या ये दो स्पैन क्रमिक रूप से प्रशिक्षण कॉर्पस में दिखाई देते हैं, या तो [IsNext] या [NotNext] का उत्पादन करते हैं। पहला स्पैन एक विशेष टोकन [सीएलएस] (वर्गीकरण के लिए) से प्रारंभ होता है। दो स्पैन एक विशेष टोकन [एसईपी] (अलग के लिए) द्वारा अलग किए गए हैं। दो स्पैन को संसाधित करने के बाद, 1-st आउटपुट सदिश ([सीएलएस] के लिए सदिश कोडिंग) बाइनरी वर्गीकरण के लिए [IsNext] और [NotNext] में एक अलग न्यूरल नेटवर्क को पास किया जाता है।

  • उदाहरण के लिए, दिया गया "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] वह खेलना पसंद करता है" आउटपुट टोकन [IsNext] होना चाहिए।
  • यह देखते हुए कि "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] मैग्नेट कैसे काम करता है" मॉडल को टोकन आउटपुट [NotNext] करना चाहिए।

इस प्रशिक्षण प्रक्रिया के परिणामस्वरूप, बीईआरटी संदर्भ में शब्दों और वाक्यों के अव्यक्त स्थान को सीखता है। पूर्व-प्रशिक्षण के बाद, बीईआरटी एनएलपी कार्यों (भाषा अनुमान, पाठ वर्गीकरण) और अनुक्रम-से-अनुक्रम आधारित विशिष्ट कार्यों पर अपने प्रदर्शन को अनुकूलित करने के लिए छोटे डेटासेट पर कम संसाधनों के साथ भाषा निर्माण कार्य (प्रश्न-उत्तर, संवादी प्रतिक्रिया पीढ़ी) ठीक-ट्यूनिंग (मशीन लर्निंग) हो सकता है।[1][6] फाइन-ट्यूनिंग की तुलना में प्री-ट्रेनिंग चरण अत्यधिक अधिक कम्प्यूटेशनल जटिल है।

प्रदर्शन

जब बीईआरटी प्रकाशित हुआ, तो इसने कई प्राकृतिक भाषा समझ कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया:[1]

  • जीएलयूई (सामान्य भाषा समझ मूल्यांकन) कार्य सेट (9 कार्यों से मिलकर)
  • स्क्वाड (स्टैनफोर्ड प्रश्न उत्तर डेटासेट[7]) v1.1 और v2.0
  • एसडब्लूएजी (प्रतिकूल पीढ़ियों के साथ स्थितियां[8])

विश्लेषण

इन प्राकृतिक भाषा समझ कार्यों पर बीईआरटी स्टेट ऑफ द आर्ट के अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।[9][10] वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों,[11][12] प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश अभ्यावेदन के विश्लेषण,[13][14] और आर्किटेक्चर भार द्वारा दर्शाए गए संबंधों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे के संबंधों की जांच पर ध्यान केंद्रित किया है। और ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) # आर्किटेक्चर वेट द्वारा दर्शाए गए रिश्ते।[9][10] बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के समय बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को प्रयुक्त करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं (मैं आज ठीक अनुभव कर रहा हूं, उसके सुनहरे बाल हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है।

चूँकि यह एक व्यय पर आता है: एनकोडर-ओनली आर्किटेक्चर में डिकोडर की कमी के कारण, BERT को संकेत नहीं दिया जा सकता है और पाठ उत्पन्न नहीं किया जा सकता है, जबकि द्विदिश मॉडल सामान्य रूप से दाईं ओर के बिना प्रभावी ढंग से काम नहीं करते हैं,[clarification needed] इस प्रकार संकेत देना जटिल है, यहां तक कि लघु पाठ निर्माण के लिए परिष्कृत कम्प्यूटेशनल रूप से बहुमूल्य विधियों की आवश्यकता होती है।[15]

गहरे सीखने वाले तंत्रिका तंत्र के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है। विशिष्ट कार्यों जैसे कि विचार वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर विचार वर्गीकरण कार्य है, तो वित्तीय पाठ के विचार के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन प्रचलित किया गया था।[16]


इतिहास

बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, ​​केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा,[17] जनरेटिव प्री-ट्रेनिंग, एल्मो,[18] और यूएलएमएफआईटी सम्मिलित है।[19] पिछले मॉडलों के विपरीत, बीईआरटी एक गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल एक साधारण पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए एक शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां बीईआरटी किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए सदिश में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही word2vec सदिश प्रतिनिधित्व होगा, वह एक कंपनी चला रहा है और वह एक मैराथन दौड़ रहा है, बीईआरटी एक प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा।

25 अक्टूबर, 2019 को, गूगल ने घोषणा की, कि उन्होंने यूएस के अन्दर अंग्रेजी भाषा गूगल खोज के लिए बीईआरटी मॉडल प्रयुक्त करना प्रारंभ कर दिया है।[20] 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था।[21] अक्टूबर 2020 में, लगभग हर एक अंग्रेजी-आधारित क्वेरी को बीईआरटी मॉडल द्वारा संसाधित किया गया था।[22]


मान्यता

एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एनएएसीएल) के नॉर्थ अमेरिकन चैप्टर के 2019 वार्षिक सम्मेलन में बीईआरटी का वर्णन करने वाले शोध पत्र ने सर्वश्रेष्ठ लॉन्ग पेपर अवार्ड जीता था।[23]


संदर्भ

  1. 1.0 1.1 1.2 1.3 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
  2. "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (in English). Retrieved 2019-11-27.
  3. Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403.
  4. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books". pp. 19–27. arXiv:1506.06724 [cs.CV].
  5. "Summary of the models — transformers 3.4.0 documentation". huggingface.co. Retrieved 2023-02-16.
  6. Horev, Rani (2018). "BERT Explained: State of the art language model for NLP". Towards Data Science. Retrieved 27 September 2021.
  7. Rajpurkar, Pranav; Zhang, Jian; Lopyrev, Konstantin; Liang, Percy (2016-10-10). "SQuAD: 100,000+ Questions for Machine Comprehension of Text". arXiv:1606.05250 [cs.CL].
  8. Zellers, Rowan; Bisk, Yonatan; Schwartz, Roy; Choi, Yejin (2018-08-15). "SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference". arXiv:1808.05326 [cs.CL].
  9. 9.0 9.1 Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (in English). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.
  10. 10.0 10.1 Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.
  11. Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). "Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context". Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 284–294. arXiv:1805.04623. doi:10.18653/v1/p18-1027. S2CID 21700944.
  12. Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). "रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है". Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195–1205. arXiv:1803.11138. doi:10.18653/v1/n18-1108. S2CID 4460159.
  13. Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). "Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240–248. arXiv:1808.08079. doi:10.18653/v1/w18-5426. S2CID 52090220.
  14. Zhang, Kelly; Bowman, Samuel (2018). "Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359–361. doi:10.18653/v1/w18-5448.
  15. Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). "द्विदिश भाषा मॉडल भी कम-शॉट सीखने वाले होते हैं". Arxiv. S2CID 252595927.
  16. "बर्ट". GitHub. Retrieved 28 March 2023.
  17. Dai, Andrew; Le, Quoc (4 November 2015). "अर्ध-पर्यवेक्षित अनुक्रम सीखना". arXiv:1511.01432 [cs.LG].
  18. Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 February 2018). "गहन संदर्भयुक्त शब्द निरूपण". arXiv:1802.05365v2 [cs.CL].
  19. Howard, Jeremy; Ruder, Sebastian (18 January 2018). "टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग". arXiv:1801.06146v5 [cs.CL].
  20. Nayak, Pandu (25 October 2019). "खोजों को पहले से बेहतर समझना". Google Blog. Retrieved 10 December 2019.
  21. Montti, Roger (10 December 2019). "Google का BERT दुनिया भर में रोल आउट". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.
  22. "Google: BERT now used on almost every English query". Search Engine Land. 2020-10-15. Retrieved 2020-11-24.
  23. "बेस्ट पेपर अवार्ड्स". NAACL. 2019. Retrieved Mar 28, 2020.


अग्रिम पठन

  • Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].


बाहरी संबंध