बीईआरटी (भाषा मॉडल)
Transformers (BERT) से द्विदिश एनकोडर प्रतिनिधित्व 2018 में Google के शोधकर्ताओं द्वारा पेश किए गए नकाबपोश-भाषा मॉडल का एक परिवार है।[1][2] 2020 के एक साहित्य सर्वेक्षण ने निष्कर्ष निकाला कि एक वर्ष से कुछ अधिक समय में, BERT मॉडल का विश्लेषण और सुधार करने वाले 150 से अधिक शोध प्रकाशनों की गिनती करते हुए प्राकृतिक भाषा प्रसंस्करण (NLP) प्रयोगों में एक सर्वव्यापी आधार रेखा बन गया है।[3] BERT मूल रूप से अंग्रेजी भाषा में दो मॉडल आकारों में लागू किया गया था:[1](1) बर्टBASE: 12 एनकोडर 12 द्विदिश स्व-ध्यान प्रमुखों के साथ कुल 110 मिलियन पैरामीटर, और (2) BERTLARGE: कुल 340 मिलियन पैरामीटर वाले 16 द्विदिश स्व-ध्यान शीर्ष वाले 24 एनकोडर। दोनों मॉडलों को टोरंटो बुककॉर्पस पर पूर्व-प्रशिक्षित किया गया था[4] (800M शब्द) और अंग्रेजी विकिपीडिया (2,500M शब्द)।
वास्तु
BERT ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) आर्किटेक्चर पर आधारित है। विशेष रूप से, बीईआरटी ट्रांसफार्मर एन्कोडर परतों से बना है।
BERT प्रत्येक अंग्रेजी शब्द को पूर्णांक कोड में बदलने के लिए WordPiece का उपयोग करता है। इसकी शब्दावली का आकार 30,000 है। इसकी शब्दावली में दिखाई न देने वाला कोई भी टोकन अज्ञात के लिए [UNK] से बदल दिया जाता है।
BERT को दो कार्यों पर एक साथ पूर्व-प्रशिक्षित किया गया था:[5] भाषा मॉडलिंग: भविष्यवाणी के लिए 15% टोकन का चयन किया गया था, और प्रशिक्षण का उद्देश्य चयनित टोकन को उसके संदर्भ में भविष्यवाणी करना था। चयनित टोकन है
- एक [मास्क] टोकन के साथ 80% प्रायिकता के साथ प्रतिस्थापित किया गया,
- एक यादृच्छिक शब्द टोकन के साथ प्रायिकता 10% के साथ प्रतिस्थापित किया गया,
- प्रायिकता 10% से प्रतिस्थापित नहीं किया गया।
उदाहरण के लिए, मेरा कुत्ता प्यारा है वाक्य में भविष्यवाणी के लिए 4-वां टोकन चुना जा सकता है। मॉडल में इनपुट टेक्स्ट होगा
- मेरा कुत्ता [MASK] है जिसकी प्रायिकता 80% है,
- मेरा कुत्ता 10% प्रायिकता से खुश है,
- मेरा कुत्ता 10% प्रायिकता के साथ प्यारा है।
इनपुट पाठ को संसाधित करने के बाद, मॉडल का चौथा आउटपुट वेक्टर एक अलग तंत्रिका नेटवर्क को पास किया जाता है, जो इसकी 30,000-बड़ी शब्दावली पर संभाव्यता वितरण का उत्पादन करता है।
अगले वाक्य की भविष्यवाणी: पाठ के दो स्पैन दिए गए हैं, मॉडल भविष्यवाणी करता है कि क्या ये दो स्पैन क्रमिक रूप से प्रशिक्षण कॉर्पस में दिखाई देते हैं, या तो [IsNext] या [NotNext] का उत्पादन करते हैं। पहला स्पैन एक विशेष टोकन [CLS] (वर्गीकरण के लिए) से शुरू होता है। दो स्पैन एक विशेष टोकन [एसईपी] (अलग के लिए) द्वारा अलग किए गए हैं। दो स्पैन को संसाधित करने के बाद, 1-st आउटपुट वेक्टर ([CLS] के लिए वेक्टर कोडिंग) बाइनरी वर्गीकरण के लिए [IsNext] और [NotNext] में एक अलग न्यूरल नेटवर्क को पास किया जाता है।
- उदाहरण के लिए, [सीएलएस] दिया गया मेरा कुत्ता प्यारा है [एसईपी] वह मॉडल खेलना पसंद करता है, आउटपुट टोकन [IsNext] होना चाहिए।
- दिए गए [सीएलएस] मेरा कुत्ता प्यारा है [एसईपी] मैग्नेट कैसे काम करता है मॉडल को टोकन आउटपुट करना चाहिए [नहीं अगला]।
इस प्रशिक्षण प्रक्रिया के परिणामस्वरूप, BERT संदर्भ में शब्दों और वाक्यों के अव्यक्त स्थान को सीखता है। पूर्व-प्रशिक्षण के बाद, बीईआरटी एनएलपी कार्यों (भाषा अनुमान, पाठ वर्गीकरण) और अनुक्रम-से-अनुक्रम आधारित विशिष्ट कार्यों पर अपने प्रदर्शन को अनुकूलित करने के लिए छोटे डेटासेट पर कम संसाधनों के साथ ठीक-ट्यूनिंग (मशीन लर्निंग) हो सकता है। भाषा निर्माण कार्य (प्रश्न-उत्तर, संवादी प्रतिक्रिया पीढ़ी)।[1][6] फाइन-ट्यूनिंग की तुलना में प्री-ट्रेनिंग चरण काफी अधिक कम्प्यूटेशनल जटिलता है।
प्रदर्शन
जब BERT प्रकाशित हुआ, तो इसने प्राकृतिक-भाषा समझने के कई कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया:[1]
- गोंद (सामान्य भाषा समझ मूल्यांकन) कार्य सेट (9 कार्यों से मिलकर)
- SQuAD (स्टैनफोर्ड प्रश्न उत्तर डेटासेट[7]) v1.1 और v2.0
- SWAG (प्रतिकूल पीढ़ियों के साथ स्थितियां[8])
विश्लेषण
BERT के स्टेट ऑफ द आर्ट | इन नेचुरल-लैंग्वेज बोध कार्यों पर अत्याधुनिक प्रदर्शन के कारणों को अभी तक अच्छी तरह से समझा नहीं जा सका है।[9][10] वर्तमान शोध ने सावधानी से चुने गए इनपुट अनुक्रमों के परिणामस्वरूप बीईआरटी के आउटपुट के पीछे संबंधों की जांच पर ध्यान केंद्रित किया है,[11][12] प्रोबिंग क्लासिफायर के माध्यम से आंतरिक वेक्टर स्पेस मॉडल का विश्लेषण,[13][14] और ट्रांसफॉर्मर (मशीन लर्निंग मॉडल) # आर्किटेक्चर वेट द्वारा दर्शाए गए रिश्ते।[9][10]BERT मॉडल के उच्च प्रदर्शन को इस तथ्य के लिए भी जिम्मेदार ठहराया जा सकता है कि यह द्विदिश रूप से प्रशिक्षित है। इसका मतलब यह है कि ट्रांसफॉर्मर मॉडल आर्किटेक्चर पर आधारित BERT, प्रशिक्षण के दौरान बाएँ और दाएँ पक्ष से पाठ से जानकारी सीखने के लिए अपने आत्म-ध्यान तंत्र को लागू करता है, और परिणामस्वरूप संदर्भ की गहरी समझ प्राप्त करता है। उदाहरण के लिए, ठीक शब्द के संदर्भ के आधार पर दो अलग-अलग अर्थ हो सकते हैं ('आज मुझे अच्छा लग रहा है', 'उसके पास' ठीक 'सुनहरे बाल' हैं)। BERT बाएँ और दाएँ पक्ष से लक्ष्य शब्द के आसपास के शब्दों को ठीक मानता है।
हालांकि यह एक लागत पर आता है: एक डिकोडर की कमी वाले एनकोडर-ओनली आर्किटेक्चर के कारण, बीईआरटी इंजीनियरिंग को बढ़ावा नहीं दे सकता है और प्राकृतिक भाषा पीढ़ी नहीं कर सकता है, जबकि द्विदिश मॉडल सामान्य रूप से सही पक्ष के बिना प्रभावी ढंग से काम नहीं करते हैं,[clarification needed] इस प्रकार परिष्कृत कम्प्यूटेशनल रूप से महंगी तकनीकों की आवश्यकता वाले छोटे पाठ निर्माण के साथ, संकेत देना मुश्किल है।[15] गहरे सीखने वाले तंत्रिका नेटवर्क के विपरीत, जिसके लिए बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, BERT को पहले से ही प्रशिक्षित किया गया है, जिसका अर्थ है कि इसने शब्दों और वाक्यों के प्रतिनिधित्व के साथ-साथ अंतर्निहित शब्दार्थ संबंधों को सीखा है जिससे वे जुड़े हुए हैं। BERT तब फाइन-ट्यूनिंग (मशीन लर्निंग) हो सकता है | विशिष्ट कार्यों जैसे कि भावना वर्गीकरण के लिए छोटे डेटासेट पर फाइन-ट्यून किया जाता है। पूर्व-प्रशिक्षित मॉडल का उपयोग दिए गए डेटासेट की सामग्री के अनुसार किया जाता है, लेकिन कार्य का लक्ष्य भी होता है। उदाहरण के लिए, यदि कार्य वित्तीय डेटा पर भावना वर्गीकरण कार्य है, तो वित्तीय पाठ की भावना के विश्लेषण के लिए पूर्व-प्रशिक्षित मॉडल को चुना जाना चाहिए। गिटहब पर मूल पूर्व-प्रशिक्षित मॉडल का वजन जारी किया गया था।[16]
इतिहास
BERT मूल रूप से Google शोधकर्ताओं जैकब डिवालिन, मिंग-वेई चांग, केंटन ली और क्रिस्टीना टुटानोवा द्वारा प्रकाशित किया गया था। डिजाइन की उत्पत्ति पूर्व-प्रशिक्षण प्रासंगिक प्रतिनिधित्व से हुई है, जिसमें अर्ध-पर्यवेक्षित शिक्षा | अर्ध-पर्यवेक्षित अनुक्रम शिक्षा शामिल है,[17] जनरेटिव प्री-ट्रेनिंग, एल्मो,[18] और यूएलएमएफआईटी।[19] पिछले मॉडलों के विपरीत, बीईआरटी एक गहरा द्विदिश, अप्रशिक्षित शिक्षण भाषा प्रतिनिधित्व है, जो केवल एक सादे पाठ कोष का उपयोग करके पूर्व-प्रशिक्षित है। संदर्भ-मुक्त मॉडल जैसे कि word2vec या GloVe (मशीन लर्निंग) शब्दावली में प्रत्येक शब्द के लिए एक शब्द एम्बेडिंग प्रतिनिधित्व उत्पन्न करते हैं, जहां BERT किसी दिए गए शब्द की प्रत्येक घटना के संदर्भ को ध्यान में रखता है। उदाहरण के लिए, जबकि रनिंग के लिए वेक्टर में वाक्यों में इसकी दोनों घटनाओं के लिए एक ही शब्द2vec वेक्टर प्रतिनिधित्व होगा वह एक कंपनी चला रहा है और वह एक मैराथन दौड़ रहा है, BERT एक प्रासंगिक एम्बेडिंग प्रदान करेगा जो वाक्य के अनुसार अलग होगा।
25 अक्टूबर, 2019 को, Google ने घोषणा की कि उन्होंने यूएस के भीतर अंग्रेजी भाषा Google खोज के लिए BERT मॉडल लागू करना शुरू कर दिया है।[20] 9 दिसंबर, 2019 को, यह बताया गया कि BERT को 70 से अधिक भाषाओं के लिए Google खोज द्वारा अपनाया गया था।[21] अक्टूबर 2020 में, लगभग हर एक अंग्रेजी-आधारित क्वेरी को BERT मॉडल द्वारा संसाधित किया गया था।[22]
मान्यता
एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (NAACL) के नॉर्थ अमेरिकन चैप्टर के 2019 वार्षिक सम्मेलन में BERT का वर्णन करने वाले शोध पत्र ने सर्वश्रेष्ठ लॉन्ग पेपर अवार्ड जीता।[23]
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
- ↑ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (in English). Retrieved 2019-11-27.
- ↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403.
- ↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books". pp. 19–27. arXiv:1506.06724 [cs.CV].
- ↑ "Summary of the models — transformers 3.4.0 documentation". huggingface.co. Retrieved 2023-02-16.
- ↑ Horev, Rani (2018). "BERT Explained: State of the art language model for NLP". Towards Data Science. Retrieved 27 September 2021.
- ↑ Rajpurkar, Pranav; Zhang, Jian; Lopyrev, Konstantin; Liang, Percy (2016-10-10). "SQuAD: 100,000+ Questions for Machine Comprehension of Text". arXiv:1606.05250 [cs.CL].
- ↑ Zellers, Rowan; Bisk, Yonatan; Schwartz, Roy; Choi, Yejin (2018-08-15). "SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference". arXiv:1808.05326 [cs.CL].
- ↑ 9.0 9.1 Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (in English). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.
- ↑ 10.0 10.1 Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.
- ↑ Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). "Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context". Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 284–294. arXiv:1805.04623. doi:10.18653/v1/p18-1027. S2CID 21700944.
- ↑ Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). "रंगहीन हरा आवर्तक नेटवर्क पदानुक्रमित रूप से सपना देखता है". Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195–1205. arXiv:1803.11138. doi:10.18653/v1/n18-1108. S2CID 4460159.
- ↑ Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). "Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240–248. arXiv:1808.08079. doi:10.18653/v1/w18-5426. S2CID 52090220.
- ↑ Zhang, Kelly; Bowman, Samuel (2018). "Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359–361. doi:10.18653/v1/w18-5448.
- ↑ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). "द्विदिश भाषा मॉडल भी कम-शॉट सीखने वाले होते हैं". Arxiv. S2CID 252595927.
- ↑ "बर्ट". GitHub. Retrieved 28 March 2023.
- ↑ Dai, Andrew; Le, Quoc (4 November 2015). "अर्ध-पर्यवेक्षित अनुक्रम सीखना". arXiv:1511.01432 [cs.LG].
- ↑ Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 February 2018). "गहन संदर्भयुक्त शब्द निरूपण". arXiv:1802.05365v2 [cs.CL].
- ↑ Howard, Jeremy; Ruder, Sebastian (18 January 2018). "टेक्स्ट क्लासिफिकेशन के लिए यूनिवर्सल लैंग्वेज मॉडल फाइन-ट्यूनिंग". arXiv:1801.06146v5 [cs.CL].
- ↑ Nayak, Pandu (25 October 2019). "खोजों को पहले से बेहतर समझना". Google Blog. Retrieved 10 December 2019.
- ↑ Montti, Roger (10 December 2019). "Google का BERT दुनिया भर में रोल आउट". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.
- ↑ "Google: BERT now used on almost every English query". Search Engine Land. 2020-10-15. Retrieved 2020-11-24.
- ↑ "बेस्ट पेपर अवार्ड्स". NAACL. 2019. Retrieved Mar 28, 2020.
अग्रिम पठन
- Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].