बीईआरटी (भाषा मॉडल)

From Vigyanwiki

ट्रांसफ़ॉर्मर्स (बीईआरटी) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में गूगल के शोधकर्ताओं द्वारा प्रस्तुत किए गए नकाबपोश-भाषा मॉडल का परिवार है।[1][2] 2020 के साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि "एक वर्ष से कुछ अधिक समय में, बीईआरटी मॉडल का विश्लेषण और संशोधन करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रयोगों में सर्वव्यापी आधार रेखा बन गया है।"[3]

बीईआरटी को मूल रूप से दो मॉडल आकारों में अंग्रेजी भाषा में प्रयुक्त किया गया था:[1] (1) BERTBASE: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERTLARGE: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर प्रयुक्त किये गए थे। दोनों मॉडलों को टोरंटो बुककॉर्पस (800M शब्द) और अंग्रेजी विकिपीडिया (2,500M शब्द) पर पूर्व-प्रशिक्षित किया गया था।[4]

आर्किटेक्चर

बीईआरटी ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) आर्किटेक्चर पर आधारित है। विशेष रूप से, बीईआरटी ट्रांसफार्मर एन्कोडर परतों से बना है।

बीईआरटी प्रत्येक अंग्रेजी शब्द को पूर्णांक कोड में परिवर्तित करने के लिए वर्डपीस का उपयोग करता है। इसकी शब्दावली का आकार 30,000 है। इसकी शब्दावली में दिखाई न देने वाला कोई भी टोकन को "अज्ञात" के लिए [यूएनके] से परिवर्तित कर दिया जाता है।

बीईआरटी को दो कार्यों पर एक साथ पूर्व-प्रशिक्षित किया गया था:[5]

भाषा मॉडलिंग: भविष्यवाणी के लिए 15% टोकन का चयन किया गया था, और प्रशिक्षण का उद्देश्य चयनित टोकन को उसके संदर्भ में भविष्यवाणी करना था। चयनित टोकन है

  • 80% प्रायिकता के साथ [एमएएसके] टोकन के साथ प्रतिस्थापित किया गया,
  • प्रायिकता 10% के साथ यादृच्छिक शब्द टोकन के साथ प्रतिस्थापित किया गया,
  • संभाव्यता 10% के साथ प्रतिस्थापित नहीं किया गया।

उदाहरण के लिए, वाक्य "मेरा कुत्ता प्यारा है" में भविष्यवाणी के लिए चुना गया चौथा टोकन हो सकता है। मॉडल में इनपुट टेक्स्ट होगा

  • "मेरा कुत्ता [एमएएसके] है", जिसकी प्रायिकता 80% है,
  • "मेरा कुत्ता खुश है" की प्रायिकता 10% है,
  • "मेरा कुत्ता प्यारा है" 10% संभावना के साथ।

इनपुट पाठ को संसाधित करने के बाद, मॉडल का चौथा आउटपुट सदिश अलग तंत्रिका तंत्र को पास किया जाता है, जो इसकी 30,000-बड़ी शब्दावली पर संभाव्यता वितरण का उत्पादन करता है।

अगले वाक्य की भविष्यवाणी: पाठ के दो स्पैन दिए गए हैं, मॉडल भविष्यवाणी करता है कि क्या ये दो स्पैन क्रमिक रूप से प्रशिक्षण कॉर्पस में दिखाई देते हैं, या तो [IsNext] या [NotNext] का उत्पादन करते हैं। पहला स्पैन विशेष टोकन [सीएलएस] (वर्गीकरण के लिए) से प्रारंभ होता है। दो स्पैन विशेष टोकन [एसईपी] (अलग के लिए) द्वारा अलग किए गए हैं। दो स्पैन को संसाधित करने के बाद, 1-st आउटपुट सदिश ([सीएलएस] के लिए सदिश कोडिंग) बाइनरी वर्गीकरण के लिए [IsNext] और [NotNext] में अलग तंत्रिका तंत्र को पास किया जाता है।

  • उदाहरण के लिए, दिया गया "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] वह खेलना पसंद करता है" आउटपुट टोकन [IsNext] होना चाहिए।
  • यह देखते हुए कि "[सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] मैग्नेट कैसे काम करता है" मॉडल को टोकन आउटपुट [NotNext] करना चाहिए।

इस प्रशिक्षण प्रक्रिया के परिणामस्वरूप, बीईआरटी संदर्भ में शब्दों और वाक्यों के अव्यक्त स्थान को सीखता है। पूर्व-प्रशिक्षण के बाद, बीईआरटी एनएलपी कार्यों (भाषा अनुमान, पाठ वर्गीकरण) और अनुक्रम-से-अनुक्रम आधारित विशिष्ट कार्यों पर अपने प्रदर्शन को अनुकूलित करने के लिए छोटे डेटासेट पर कम संसाधनों के साथ भाषा निर्माण कार्य (प्रश्न-उत्तर, संवादी प्रतिक्रिया पीढ़ी) ठीक-ट्यूनिंग (मशीन लर्निंग) हो सकता है।[1][6] फाइन-ट्यूनिंग की तुलना में प्री-ट्रेनिंग चरण अत्यधिक अधिक कम्प्यूटेशनल जटिल है।

प्रदर्शन

जब बीईआरटी प्रकाशित हुआ, तो इसने कई प्राकृतिक भाषा समझ कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया:[1]

  • जीएलयूई (सामान्य भाषा समझ मूल्यांकन) कार्य सेट (9 कार्यों से मिलकर)
  • स्क्वाड (स्टैनफोर्ड प्रश्न उत्तर डेटासेट[7]) v1.1 और v2.0
  • एसडब्लूएजी (प्रतिकूल पीढ़ियों के साथ स्थितियां[8])

विश्लेषण

इन प्राकृतिक भाषा समझ कार्यों पर बीईआरटी स्टेट ऑफ द आर्ट के अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।[9][10] वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों,[11][12] प्रोबिंग क्लासिफायर के माध्यम से आंतरिक सदिश अभ्यावेदन के विश्लेषण,[13][14] और आर्किटेक्चर भार द्वारा दर्शाए गए संबंधों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे के संबंधों की जांच पर ध्यान केंद्रित किया है।[9][10] बीईआरटी मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी उत्तरदायी ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित बीईआरटी, प्रशिक्षण के समय बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को प्रयुक्त करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं (मैं आज ठीक अनुभव कर रहा हूं, उसके सुनहरे बाल हैं)। बीईआरटी बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है।

चूँकि यह व्यय पर आता है: एनकोडर-ओनली आर्किटेक्चर में डिकोडर की कमी के कारण, बीईआरटी को संकेत नहीं दिया जा सकता है और पाठ उत्पन्न नहीं किया जा सकता है, जबकि द्विदिश मॉडल सामान्य रूप से दाईं ओर के बिना प्रभावी ढंग से काम नहीं करते हैं, इस प्रकार संकेत देना जटिल है, यहां तक कि लघु पाठ निर्माण के लिए परिष्कृत कम्प्यूटेशनल रूप से बहुमूल्य विधियों की आवश्यकता होती है।[15]

गहरे सीखने वाले तंत्रिका तंत्र के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, बीईआरटी को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। बीईआरटी तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है। विशिष्ट कार्यों जैसे कि विचार वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर विचार वर्गीकरण कार्य है, तो वित्तीय पाठ के विचार के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन प्रचलित किया गया था।[16]


इतिहास

बीईआरटी मूल रूप से गूगल शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, ​​केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित अनुक्रम शिक्षा,[17] जनरेटिव प्री-ट्रेनिंग, एल्मो,[18] और यूएलएमएफआईटी सम्मिलित है।[19] पिछले मॉडलों के विपरीत, बीईआरटी गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल साधारण पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां बीईआरटी किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए सदिश में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही word2vec सदिश प्रतिनिधित्व होगा, वह कंपनी चला रहा है और वह मैराथन दौड़ रहा है, बीईआरटी प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा।

25 अक्टूबर, 2019 को, गूगल ने घोषणा की, कि उन्होंने यूएस के अन्दर अंग्रेजी भाषा गूगल खोज के लिए बीईआरटी मॉडल प्रयुक्त करना प्रारंभ कर दिया है।[20] 9 दिसंबर, 2019 को, यह बताया गया कि बीईआरटी को 70 से अधिक भाषाओं के लिए गूगल खोज द्वारा अपनाया गया था।[21] अक्टूबर 2020 में, लगभग हर अंग्रेजी-आधारित क्वेरी को बीईआरटी मॉडल द्वारा संसाधित किया गया था।[22]


मान्यता

एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एनएएसीएल) के नॉर्थ अमेरिकन चैप्टर के 2019 वार्षिक सम्मेलन में बीईआरटी का वर्णन करने वाले शोध पत्र ने सर्वश्रेष्ठ लॉन्ग पेपर अवार्ड जीता था।[23]


संदर्भ

  1. 1.0 1.1 1.2 1.3 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
  2. "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (in English). Retrieved 2019-11-27.
  3. Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403.
  4. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books". pp. 19–27. arXiv:1506.06724 [cs.CV].
  5. "Summary of the models — transformers 3.4.0 documentation". huggingface.co. Retrieved 2023-02-16.
  6. Horev, Rani (2018). "BERT Explained: State of the art language model for NLP". Towards Data Science. Retrieved 27 September 2021.
  7. Rajpurkar, Pranav; Zhang, Jian; Lopyrev, Konstantin; Liang, Percy (2016-10-10). "SQuAD: 100,000+ Questions for Machine Comprehension of Text". arXiv:1606.05250 [cs.CL].
  8. Zellers, Rowan; Bisk, Yonatan; Schwartz, Roy; Choi, Yejin (2018-08-15). "SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference". arXiv:1808.05326 [cs.CL].
  9. 9.0 9.1 Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (in English). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.
  10. 10.0 10.1 Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.
  11. Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). "Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context". Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 284–294. arXiv:1805.04623. doi:10.18653/v1/p18-1027. S2CID 21700944.
  12. Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). "रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है". Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195–1205. arXiv:1803.11138. doi:10.18653/v1/n18-1108. S2CID 4460159.
  13. Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). "Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240–248. arXiv:1808.08079. doi:10.18653/v1/w18-5426. S2CID 52090220.
  14. Zhang, Kelly; Bowman, Samuel (2018). "Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359–361. doi:10.18653/v1/w18-5448.
  15. Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). "द्विदिश भाषा मॉडल भी कम-शॉट सीखने वाले होते हैं". Arxiv. S2CID 252595927.
  16. "बर्ट". GitHub. Retrieved 28 March 2023.
  17. Dai, Andrew; Le, Quoc (4 November 2015). "अर्ध-पर्यवेक्षित अनुक्रम सीखना". arXiv:1511.01432 [cs.LG].
  18. Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 February 2018). "गहन संदर्भयुक्त शब्द निरूपण". arXiv:1802.05365v2 [cs.CL].
  19. Howard, Jeremy; Ruder, Sebastian (18 January 2018). "टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग". arXiv:1801.06146v5 [cs.CL].
  20. Nayak, Pandu (25 October 2019). "खोजों को पहले से बेहतर समझना". Google Blog. Retrieved 10 December 2019.
  21. Montti, Roger (10 December 2019). "Google का BERT दुनिया भर में रोल आउट". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.
  22. "Google: BERT now used on almost every English query". Search Engine Land. 2020-10-15. Retrieved 2020-11-24.
  23. "बेस्ट पेपर अवार्ड्स". NAACL. 2019. Retrieved Mar 28, 2020.


अग्रिम पठन

  • Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].


बाहरी संबंध