संगणकीय भाषाविज्ञान: Difference between revisions

From Vigyanwiki
No edit summary
 
(6 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Short description|Since 2020s, near-synonym of natural language processing}}
{{About|
{{About|
वैज्ञानिक क्षेत्र|
वैज्ञानिक क्षेत्र|
Line 6: Line 5:
{{Linguistics|Subfields2}}
{{Linguistics|Subfields2}}


'''अभिकलनात्मक भाषाविज्ञान''' 2020 के बाद से या तो [[प्राकृतिक भाषा प्रसंस्करण]] या [[भाषा प्रौद्योगिकी]] का लगभग पर्याय बन गया है, जिसमें बड़े भाषा मॉडल जैसे गहन शिक्षण दृष्टिकोण सम्मिलित हैं, जिन्होंने इस क्षेत्र में पहले उपयोग किए गए अधिकांश विशिष्ट दृष्टिकोणों को प्रतिस्थापित कर दिया है।
'''कम्प्यूटेशनल भाषाविज्ञान''' 2020 के दशक से [[प्राकृतिक भाषा प्रसंस्करण]] या [[भाषा प्रौद्योगिकी]] का लगभग पर्याय बन गया है, जिसमें बड़े भाषा मॉडल जैसे गहन शिक्षण दृष्टिकोण सम्मिलित हैं, जिन्होंने इस क्षेत्र में पहले उपयोग किए गए अधिकांश विशिष्ट दृष्टिकोणों को प्रतिस्थापित कर दिया है।


==इतिहास==
==इतिहास==
कुल मिलाकर आर्टिफिशियल इंटेलिजेंस (एआई) में और विशेष रूप से मशीन अनुवाद में नियम-आधारित दृष्टिकोणों की असफलता के बाद, डेविड हेज़<ref>{{cite web|url=http://nlp.shef.ac.uk/iccl/committee.html#deceased|title=मृत सदस्य|website=ICCL members|access-date=15 November 2017|ref=ICCLmembers|archive-date=17 May 2017|archive-url=https://web.archive.org/web/20170517235543/http://nlp.shef.ac.uk/iccl/committee.html#deceased|url-status=dead}}</ref> ने इस शब्द को प्रवर्तित किया जिससे क्षेत्र को एआई से भिन्न किया जा सके, और उन्होंने 1970 और 1980 में [[कम्प्यूटेशनल भाषाविज्ञान एसोसिएशन|अभिकलनात्मक भाषाविज्ञान एसोसिएशन]] (एसीएल) और [[कम्प्यूटेशनल भाषाविज्ञान पर अंतर्राष्ट्रीय समिति|अभिकलनात्मक भाषाविज्ञान पर अंतर्राष्ट्रीय समिति]] (आईसीसीएल) की संस्थापन की।
सामान्यतः आर्टिफिशियल इंटेलिजेंस (एआई ) और विशेष रूप से मशीनी अनुवाद में नियम-आधारित दृष्टिकोण की विफलता के बाद, डेविड हेज़ ने इस क्षेत्र को एआई से अलग करने के लिए इस शब्द को गढ़ा और [[कम्प्यूटेशनल भाषाविज्ञान एसोसिएशन|एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स]] (एसीएल) और दोनों की सह-स्थापना की। 1970 और 1980 के दशक में [[कम्प्यूटेशनल भाषाविज्ञान पर अंतर्राष्ट्रीय समिति]] (आईसीसीएल) की संस्थापन की।<ref>{{cite web|url=http://nlp.shef.ac.uk/iccl/committee.html#deceased|title=मृत सदस्य|website=ICCL members|access-date=15 November 2017|ref=ICCLmembers|archive-date=17 May 2017|archive-url=https://web.archive.org/web/20170517235543/http://nlp.shef.ac.uk/iccl/committee.html#deceased|url-status=dead}}</ref>


==उत्पत्ति==
==उत्पत्ति==
1950 के दशक में संयुक्त राज्य अमेरिका में विदेशी भाषाओं, विशेष रूप से रूसी वैज्ञानिक पत्रिकाओं के पाठों को स्वचालित रूप से अंग्रेजी में अनुवाद करने के लिए कंप्यूटर का उपयोग करने के प्रयासों के बाद से यह क्षेत्र कृत्रिम बुद्धिमत्ता के साथ ओवरलैप हो गया।<ref>John Hutchins: [http://www.hutchinsweb.me.uk/MTS-1999.pdf Retrospect and prospect in computer-based translation.] Proceedings of MT Summit VII, 1999, pp. 30–44.</ref> चूँकि नियम-आधारित दृष्टिकोण मनुष्यों की तुलना में [[अंकगणित|अंकगणितीय]] गणनाओं को बहुत तेज़ और अधिक सटीक बनाने में सक्षम थे, उस समय ऐसा माना गया था कि यह केवल थोड़ी सी देर में ही हो सकता है जब वे भाषा को प्रोसेस करना प्रारंभ कर सकेंगे। <ref>Arnold B. Barach: [https://www.flickr.com/photos/bostworld/2152048032/in/set-72157603898383698/ Translating Machine] 1975: And the Changes To Come.</ref>
1950 के दशक में संयुक्त राज्य अमेरिका में विदेशी भाषाओं, विशेष रूप से रूसी वैज्ञानिक पत्रिकाओं के पाठों को स्वचालित रूप से अंग्रेजी में अनुवाद करने के लिए कंप्यूटर का उपयोग करने के प्रयासों के बाद से यह क्षेत्र कृत्रिम बुद्धिमत्ता के साथ ओवरलैप हो गया।<ref>John Hutchins: [http://www.hutchinsweb.me.uk/MTS-1999.pdf Retrospect and prospect in computer-based translation.] Proceedings of MT Summit VII, 1999, pp. 30–44.</ref> चूंकि नियम-आधारित दृष्टिकोण मनुष्यों की तुलना में अंकगणितीय (व्यवस्थित) गणनाओं को बहुत तेज़ और अधिक सटीक बनाने में सक्षम थे, इसलिए यह सोचा गया कि यह भाषा को संसाधित करने से पहले केवल कुछ ही समय की बात थी। <ref>Arnold B. Barach: [https://www.flickr.com/photos/bostworld/2152048032/in/set-72157603898383698/ Translating Machine] 1975: And the Changes To Come.</ref>


उस समय ऐसा लगता था कि पहले दोनों भाषाओं की व्याकरण, समास विशेषक या शब्द रूपों की व्याकरण और वाक्य संरचना को सीखना आवश्यक है, जिससे आप उन दोनों के बीच अनुवाद कर सकें। वाक्यविन्यास को समझने के लिए, किसी को शब्दार्थ और शब्दकोष या 'शब्दावली' को भी समझना होगा, और यहां तक ​​कि भाषा के उपयोग की व्यावहारिकता को भी समझना होगा। भाषाओं के बीच अनुवाद के प्रयास के रूप में जो प्रारंभ हुआ वह प्राकृतिक भाषा प्रसंस्करण के बहुत व्यापक क्षेत्र में विकसित हुआ।<ref>[http://www-nlpir.nist.gov/MINDS/FINAL/NLP.web.pdf Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel]</ref>
उस समय ऐसा लगता था कि पहले दोनों भाषाओं की व्याकरण, समास विशेषक या शब्द रूपों की व्याकरण और वाक्य संरचना को सीखना आवश्यक है, जिससे आप उन दोनों के बीच अनुवाद कर सकें। वाक्यविन्यास को समझने के लिए, किसी को शब्दार्थ और शब्दकोष या 'शब्दावली' को भी समझना होगा, और यहां तक ​​कि भाषा के उपयोग की व्यावहारिकता को भी समझना होगा। भाषाओं के बीच अनुवाद के प्रयास के रूप में जो प्रारंभ हुआ वह प्राकृतिक भाषा प्रसंस्करण के बहुत व्यापक क्षेत्र में विकसित हुआ।<ref>[http://www-nlpir.nist.gov/MINDS/FINAL/NLP.web.pdf Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel]</ref>
Line 18: Line 17:




==प्रतिरूपण [[भाषा अधिग्रहण]]==
==मॉडलिंग भाषा अधिग्रहण ==


भाषा अधिगम के दौरान, बच्चों को बड़े हिस्से में केवल सकारात्मक प्रमाणिका के अभियांत्रिकीकरण में रुचि होती है,<ref>Bowerman, M. (1988). [http://pubman.mpdl.mpg.de/pubman/item/escidoc:468143:4/component/escidoc:532427/bowerman_1988_The-No.pdf The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals].</ref> अर्थात सही रूप क्या होता है केवल वही प्रमाण दिया जाता है, और गलत क्या होता है उसके लिए कोई प्रमाण नहीं दिया जाता है।,<ref name="autogenerated1971">Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.</ref> उस समय के प्रारूपों के लिए यह एक सीमा थी क्योंकि अब उपलब्ध गहन शिक्षण प्रारूप1980 के दशक के अंत में उपलब्ध नहीं थे।<ref name="powers1989">Powers, D.M.W. & Turk, C.C.R. (1989). ''Machine Learning of Natural Language''. Springer-Verlag. {{ISBN|978-0-387-19557-5}}.</ref>
तथ्य यह है कि भाषा अधिग्रहण के समय, बच्चों को बड़े पैमाने पर केवल सकारात्मक साक्ष्य से अवगत कराया जाता है, <ref>Bowerman, M. (1988). [http://pubman.mpdl.mpg.de/pubman/item/escidoc:468143:4/component/escidoc:532427/bowerman_1988_The-No.pdf The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals].</ref> जिसका अर्थ है कि जो सही रूप है उसके लिए केवल साक्ष्य प्रदान किया जाता है, और जो सही नहीं है उसके लिए कोई प्रमाण नहीं दिया जाता है, यह एक सीमा थी। उस समय के मॉडल के लिए यह एक सीमा थी क्योंकि अब उपलब्ध गहन शिक्षण मॉडल 1980 के दशक के अंत में उपलब्ध नहीं थे<ref name="autogenerated1971">Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.</ref><ref name="powers1989">Powers, D.M.W. & Turk, C.C.R. (1989). ''Machine Learning of Natural Language''. Springer-Verlag. {{ISBN|978-0-387-19557-5}}.</ref>


प्रदर्शित हुआ है कि भाषाएँ सामान्य प्रविष्टि के संयम विकसित होने के साथ-साथ बच्चे की मेमोरी में सुधार और दीर्घकालिक ध्यानक्षमता की दर से सीखी जा सकती है,<ref name="autogenerated1993">{{cite journal|title= Learning and development in neural networks: The importance of starting small|journal= Cognition|volume= 48|issue= 1|pages= 71–99|doi= 10.1016/0010-0277(93)90058-4|pmid= 8403835|year= 1993|last1= Elman|first1= Jeffrey L.|s2cid= 2105042}}</ref>  जिससे मानव शिशु और बच्चों में भाषा अधिगम की लंबी अवधि का कारण स्पष्ट होता है।<ref name="autogenerated1993" />
यह दिखाया गया है कि भाषाओं को सरल इनपुट के संयोजन से सीखा जा सकता है, क्योंकि बच्चे में बेहतर स्मृति और लंबी ध्यान अवधि विकसित होती है, जिसने मानव शिशुओं और बच्चों में भाषा अधिग्रहण की लंबी अवधि को समझाया।<ref name="autogenerated1993">{{cite journal|title= Learning and development in neural networks: The importance of starting small|journal= Cognition|volume= 48|issue= 1|pages= 71–99|doi= 10.1016/0010-0277(93)90058-4|pmid= 8403835|year= 1993|last1= Elman|first1= Jeffrey L.|s2cid= 2105042}}</ref>


भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है।<ref>{{cite journal | last1 = Salvi | first1 = G. | last2 = Montesano | first2 = L. | last3 = Bernardino | first3 = A. | last4 = Santos-Victor | first4 = J. | year = 2012 | title = Language bootstrapping: learning word meanings from the perception-action association | journal = IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics | volume = 42 | issue = 3| pages = 660–71 | doi = 10.1109/TSMCB.2011.2172420 | pmid = 22106152 | arxiv = 1711.09714 | s2cid = 977486 }}</ref> बच्चों की तरह सीखने की सक्षमता के साथ, मॉडल्स का निर्माण उपलब्धि मॉडल पर आधारित किया गया था, जिसमें क्रियाओं, प्रतिदृश्यों, और प्रभावों के बीच मैपिंग बनाए गए थे और उन्हें बोली गई शब्दों से जोड़ा गया था। महत्वपूर्ण बात यह थी कि ये रोबोट बिना व्याकरणिक संरचना की आवश्यकता के कार्यकारी शब्द-से-अर्थ मैपिंग्स प्राप्त कर सकते थे।<ref>{{cite journal|author1=Gong, T.|author2=Shuai, L.|author3=Tamariz, M.|author4=Jäger, G.|name-list-style=amp|year=2012|title=Studying Language Change Using Price Equation and Pólya-urn Dynamics|editor=E. Scalas|journal=PLOS ONE|volume=7|issue=3|page=e33171|doi=10.1371/journal.pone.0033171|pmid=22427981|pmc=3299756|bibcode=2012PLoSO...733171G|doi-access=free}}</ref>
भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है।<ref name=":0">{{cite journal | last1 = Salvi | first1 = G. | last2 = Montesano | first2 = L. | last3 = Bernardino | first3 = A. | last4 = Santos-Victor | first4 = J. | year = 2012 | title = Language bootstrapping: learning word meanings from the perception-action association | journal = IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics | volume = 42 | issue = 3| pages = 660–71 | doi = 10.1109/TSMCB.2011.2172420 | pmid = 22106152 | arxiv = 1711.09714 | s2cid = 977486 }}</ref> बच्चों की तरह सीखने की सक्षमता के साथ, मॉडल्स का निर्माण उपलब्धि मॉडल पर आधारित किया गया था, जिसमें क्रियाओं, प्रतिदृश्यों, और प्रभावों के बीच मैपिंग बनाए गए थे और उन्हें बोली गई शब्दों से जोड़ा गया था। महत्वपूर्ण बात यह थी कि ये रोबोट बिना व्याकरणिक संरचना की आवश्यकता के कार्यकारी शब्द-से-अर्थ मैपिंग्स प्राप्त कर सकते थे।<ref>{{cite journal|author1=Gong, T.|author2=Shuai, L.|author3=Tamariz, M.|author4=Jäger, G.|name-list-style=amp|year=2012|title=Studying Language Change Using Price Equation and Pólya-urn Dynamics|editor=E. Scalas|journal=PLOS ONE|volume=7|issue=3|page=e33171|doi=10.1371/journal.pone.0033171|pmid=22427981|pmc=3299756|bibcode=2012PLoSO...733171G|doi-access=free}}</ref>


मूल्य समीकरण और पॉलिया अर्ण गतिकी का उपयोग करके, शोधकर्ताओं ने एक प्रणाली बनाई है जो न केवल भाषात्मक विकास की भविष्यवाणी करती है बल्कि आधुनिक-दिन की भाषाओं के जैविक इतिहास में भी परिप्रेक्ष्य प्रदान करती है।
भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है। <ref name=":0" /> बच्चों को यथासंभव सीखने में सक्षम बनाने के लिए, एक किफायती मॉडल के आधार पर मॉडल बनाए गए जिसमें कार्यों, धारणाओं और प्रभावों के बीच मानचित्रण बनाया गया और बोले गए शब्दों से जोड़ा गया। महत्वपूर्ण रूप से, ये रोबोट व्याकरणिक संरचना की आवश्यकता के बिना कार्यशील शब्द-से-अर्थ मैपिंग प्राप्त करने में सक्षम थे।
 
मूल्य समीकरण और पॉलिया अर्ण गतिकी का उपयोग करके, शोधकर्ताओं ने एक प्रणाली बनाई है जो न केवल भविष्य में भाषाई विकास की पूर्वानुमान करती है, बल्कि मॉडर्न-डे भाषाओं के पूर्वानुमान में भी दर्शाने में सहायक होती है।
==एनोटेट निगम==
==एनोटेट निगम==


[[अंग्रेजी भाषा]] का सूक्ष्मता से अध्ययन करने के लिए एक टिप्पणीत पाठ संग्रह की आवश्यकता थी। पेन [[ट्रीबैंक]]<ref>{{cite journal|author1=Marcus, M.|author2=Marcinkiewicz, M.|name-list-style=amp|year=1993|url=https://www.aclweb.org/anthology/J/J93/J93-2004.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://www.aclweb.org/anthology/J/J93/J93-2004.pdf |archive-date=2022-10-09 |url-status=live|title=Building a large annotated corpus of English: The Penn Treebank|journal=Computational Linguistics|volume=19|issue=2|pages=313–330}}</ref>उनमें से एक सबसे अधिक प्रयुक्त संग्रह था। इसमें आईबीएम कंप्यूटर मैनुअल्स, लिखित टेलीफोन बातचीतें, और अन्य पाठ सम्मिलित थे, जिनमें कुल मिलाकर अमेरिकन अंग्रेज़ी के लगभग 4.5 मिलियन शब्द थे, जिन्हें भाषा के हिस्से की टैगिंग और वाक्यांश व्याकरण का उपयोग करके चिह्नित किया गया था।
अंग्रेजी भाषा का सावधानीपूर्वक अध्ययन करने में सक्षम होने के लिए, एक एनोटेटेड टेक्स्ट कॉर्पस की बहुत आवश्यकता थी। पेन ट्रीबैंक[ सबसे अधिक प्रयोग किए जाने वाले निगमों में से एक था। इसमें आईबीएम कंप्यूटर मैनुअल, लिखित टेलीफोन वार्तालाप और अन्य पाठ सम्मिलित थे, जिसमें अमेरिकी अंग्रेजी के 4.5 मिलियन से अधिक शब्द सम्मिलित थे, जिन्हें पार्ट-ऑफ-स्पीच टैगिंग और सिंटैक्टिक ब्रैकेटिंग दोनों का उपयोग करके एनोटेट किया गया था।


अभिकलनात्मक विधियों का उपयोग करते हुए, जापानी वाक्य कॉर्पोरा का विश्लेषण किया गया और वाक्य की लंबाई के संबंध में [[लॉग-सामान्यता]] का एक पैटर्न पाया गया।<ref name="autogenerated3">{{cite journal|author1=Furuhashi, S.|author2=Hayakawa, Y. |name-list-style=amp|year=2012|title=जापानी वाक्य लंबाई के वितरण की असामान्यता|journal=Journal of the Physical Society of Japan|volume=81|issue=3|page=034004|doi=10.1143/JPSJ.81.034004|bibcode=2012JPSJ...81c4004F }}</ref>
कम्प्यूटेशनल विधियों का उपयोग करते हुए, जापानी वाक्य कॉर्पोरा का विश्लेषण किया गया और वाक्य की लंबाई के संबंध में लॉग-सामान्यता का एक पैटर्न पाया गया<ref name="autogenerated3">{{cite journal|author1=Furuhashi, S.|author2=Hayakawa, Y. |name-list-style=amp|year=2012|title=जापानी वाक्य लंबाई के वितरण की असामान्यता|journal=Journal of the Physical Society of Japan|volume=81|issue=3|page=034004|doi=10.1143/JPSJ.81.034004|bibcode=2012JPSJ...81c4004F }}</ref>






==चॉम्स्की के सिद्धांत==
==चॉम्स्की के सिद्धांत==
चॉम्स्की के सामान्य रूप के सिद्धांत के बिना "सामान्यीकृत संस्करण" सीखे बिना और "अटक जाने" के साथ कैसे एक शिशु एक "गैर-सामान्य व्याकरण" को सीखता है, इसे समझने के लिए प्रयास किए गए हैं।<ref name="autogenerated1971"/>
यह पता लगाने का प्रयास किया गया है कि एक शिशु "अतिसामान्यीकृत संस्करण" सीखे बिना और "अटकाए हुए" चॉम्स्की के सामान्य रूप में सिद्धांतित "गैर-सामान्य व्याकरण" कैसे सीखता है।<ref name="autogenerated1971"/>
 
==यह भी देखें==
==यह भी देखें==
{{Portal|Philosophy}}
{{Portal|Philosophy}}
Line 43: Line 45:
* [[कोलोस्ट्रक्शनल विश्लेषण]]
* [[कोलोस्ट्रक्शनल विश्लेषण]]
* [[ कम्प्यूटेशनल शब्दावली ]]
* [[ कम्प्यूटेशनल शब्दावली ]]
* कम्प्यूटेशनल भाषाविज्ञान (पत्रिका)|कम्प्यूटेशनल भाषाविज्ञान (पत्रिका)
* कम्प्यूटेशनल भाषाविज्ञान (पत्रिका)
* [[भाषा अधिग्रहण के कम्प्यूटेशनल मॉडल]]
* [[भाषा अधिग्रहण के कम्प्यूटेशनल मॉडल]]
* [[कम्प्यूटेशनल शब्दार्थ]]
* [[कम्प्यूटेशनल शब्दार्थ]]
Line 97: Line 99:
{{Authority control}}
{{Authority control}}


{{DEFAULTSORT:Computational Linguistics}}[[Category: कम्प्यूटेशनल भाषाविज्ञान| कम्प्यूटेशनल भाषाविज्ञान]] [[Category: औपचारिक विज्ञान]] [[Category: संज्ञात्मक विज्ञान]] [[Category: अध्ययन के कम्प्यूटेशनल क्षेत्र]]
{{DEFAULTSORT:Computational Linguistics}}
 
 


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Computational Linguistics]]
[[Category:Created On 24/07/2023]]
[[Category:Collapse templates|Computational Linguistics]]
[[Category:Commons category link is the pagename|Computational Linguistics]]
[[Category:Created On 24/07/2023|Computational Linguistics]]
[[Category:Lua-based templates|Computational Linguistics]]
[[Category:Machine Translated Page|Computational Linguistics]]
[[Category:Multi-column templates|Computational Linguistics]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Computational Linguistics]]
[[Category:Pages using div col with small parameter|Computational Linguistics]]
[[Category:Pages with empty portal template|Computational Linguistics]]
[[Category:Pages with script errors|Computational Linguistics]]
[[Category:Portal templates with redlinked portals|Computational Linguistics]]
[[Category:Short description with empty Wikidata description|Computational Linguistics]]
[[Category:Sidebars with styles needing conversion|Computational Linguistics]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Translated in Hindi|Computational Linguistics]]
[[Category:Templates Vigyan Ready|Computational Linguistics]]
[[Category:Templates generating microformats|Computational Linguistics]]
[[Category:Templates that add a tracking category|Computational Linguistics]]
[[Category:Templates that are not mobile friendly|Computational Linguistics]]
[[Category:Templates that generate short descriptions|Computational Linguistics]]
[[Category:Templates using TemplateData|Computational Linguistics]]
[[Category:Templates using under-protected Lua modules|Computational Linguistics]]
[[Category:Webarchive template wayback links|Computational Linguistics]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:Wikipedia metatemplates|Computational Linguistics]]
[[Category:अध्ययन के कम्प्यूटेशनल क्षेत्र|Computational Linguistics]]
[[Category:औपचारिक विज्ञान|Computational Linguistics]]
[[Category:कम्प्यूटेशनल भाषाविज्ञान| कम्प्यूटेशनल भाषाविज्ञान]]
[[Category:संज्ञात्मक विज्ञान|Computational Linguistics]]

Latest revision as of 15:45, 3 November 2023

कम्प्यूटेशनल भाषाविज्ञान 2020 के दशक से प्राकृतिक भाषा प्रसंस्करण या भाषा प्रौद्योगिकी का लगभग पर्याय बन गया है, जिसमें बड़े भाषा मॉडल जैसे गहन शिक्षण दृष्टिकोण सम्मिलित हैं, जिन्होंने इस क्षेत्र में पहले उपयोग किए गए अधिकांश विशिष्ट दृष्टिकोणों को प्रतिस्थापित कर दिया है।

इतिहास

सामान्यतः आर्टिफिशियल इंटेलिजेंस (एआई ) और विशेष रूप से मशीनी अनुवाद में नियम-आधारित दृष्टिकोण की विफलता के बाद, डेविड हेज़ ने इस क्षेत्र को एआई से अलग करने के लिए इस शब्द को गढ़ा और एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एसीएल) और दोनों की सह-स्थापना की। 1970 और 1980 के दशक में कम्प्यूटेशनल भाषाविज्ञान पर अंतर्राष्ट्रीय समिति (आईसीसीएल) की संस्थापन की।[1]

उत्पत्ति

1950 के दशक में संयुक्त राज्य अमेरिका में विदेशी भाषाओं, विशेष रूप से रूसी वैज्ञानिक पत्रिकाओं के पाठों को स्वचालित रूप से अंग्रेजी में अनुवाद करने के लिए कंप्यूटर का उपयोग करने के प्रयासों के बाद से यह क्षेत्र कृत्रिम बुद्धिमत्ता के साथ ओवरलैप हो गया।[2] चूंकि नियम-आधारित दृष्टिकोण मनुष्यों की तुलना में अंकगणितीय (व्यवस्थित) गणनाओं को बहुत तेज़ और अधिक सटीक बनाने में सक्षम थे, इसलिए यह सोचा गया कि यह भाषा को संसाधित करने से पहले केवल कुछ ही समय की बात थी। [3]

उस समय ऐसा लगता था कि पहले दोनों भाषाओं की व्याकरण, समास विशेषक या शब्द रूपों की व्याकरण और वाक्य संरचना को सीखना आवश्यक है, जिससे आप उन दोनों के बीच अनुवाद कर सकें। वाक्यविन्यास को समझने के लिए, किसी को शब्दार्थ और शब्दकोष या 'शब्दावली' को भी समझना होगा, और यहां तक ​​कि भाषा के उपयोग की व्यावहारिकता को भी समझना होगा। भाषाओं के बीच अनुवाद के प्रयास के रूप में जो प्रारंभ हुआ वह प्राकृतिक भाषा प्रसंस्करण के बहुत व्यापक क्षेत्र में विकसित हुआ।[4]


मॉडलिंग भाषा अधिग्रहण

तथ्य यह है कि भाषा अधिग्रहण के समय, बच्चों को बड़े पैमाने पर केवल सकारात्मक साक्ष्य से अवगत कराया जाता है, [5] जिसका अर्थ है कि जो सही रूप है उसके लिए केवल साक्ष्य प्रदान किया जाता है, और जो सही नहीं है उसके लिए कोई प्रमाण नहीं दिया जाता है, यह एक सीमा थी। उस समय के मॉडल के लिए यह एक सीमा थी क्योंकि अब उपलब्ध गहन शिक्षण मॉडल 1980 के दशक के अंत में उपलब्ध नहीं थे[6][7]

यह दिखाया गया है कि भाषाओं को सरल इनपुट के संयोजन से सीखा जा सकता है, क्योंकि बच्चे में बेहतर स्मृति और लंबी ध्यान अवधि विकसित होती है, जिसने मानव शिशुओं और बच्चों में भाषा अधिग्रहण की लंबी अवधि को समझाया।[8]

भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है।[9] बच्चों की तरह सीखने की सक्षमता के साथ, मॉडल्स का निर्माण उपलब्धि मॉडल पर आधारित किया गया था, जिसमें क्रियाओं, प्रतिदृश्यों, और प्रभावों के बीच मैपिंग बनाए गए थे और उन्हें बोली गई शब्दों से जोड़ा गया था। महत्वपूर्ण बात यह थी कि ये रोबोट बिना व्याकरणिक संरचना की आवश्यकता के कार्यकारी शब्द-से-अर्थ मैपिंग्स प्राप्त कर सकते थे।[10]

भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है। [9] बच्चों को यथासंभव सीखने में सक्षम बनाने के लिए, एक किफायती मॉडल के आधार पर मॉडल बनाए गए जिसमें कार्यों, धारणाओं और प्रभावों के बीच मानचित्रण बनाया गया और बोले गए शब्दों से जोड़ा गया। महत्वपूर्ण रूप से, ये रोबोट व्याकरणिक संरचना की आवश्यकता के बिना कार्यशील शब्द-से-अर्थ मैपिंग प्राप्त करने में सक्षम थे।

मूल्य समीकरण और पॉलिया अर्ण गतिकी का उपयोग करके, शोधकर्ताओं ने एक प्रणाली बनाई है जो न केवल भविष्य में भाषाई विकास की पूर्वानुमान करती है, बल्कि मॉडर्न-डे भाषाओं के पूर्वानुमान में भी दर्शाने में सहायक होती है।

एनोटेट निगम

अंग्रेजी भाषा का सावधानीपूर्वक अध्ययन करने में सक्षम होने के लिए, एक एनोटेटेड टेक्स्ट कॉर्पस की बहुत आवश्यकता थी। पेन ट्रीबैंक[ सबसे अधिक प्रयोग किए जाने वाले निगमों में से एक था। इसमें आईबीएम कंप्यूटर मैनुअल, लिखित टेलीफोन वार्तालाप और अन्य पाठ सम्मिलित थे, जिसमें अमेरिकी अंग्रेजी के 4.5 मिलियन से अधिक शब्द सम्मिलित थे, जिन्हें पार्ट-ऑफ-स्पीच टैगिंग और सिंटैक्टिक ब्रैकेटिंग दोनों का उपयोग करके एनोटेट किया गया था।

कम्प्यूटेशनल विधियों का उपयोग करते हुए, जापानी वाक्य कॉर्पोरा का विश्लेषण किया गया और वाक्य की लंबाई के संबंध में लॉग-सामान्यता का एक पैटर्न पाया गया[11]


चॉम्स्की के सिद्धांत

यह पता लगाने का प्रयास किया गया है कि एक शिशु "अतिसामान्यीकृत संस्करण" सीखे बिना और "अटकाए हुए" चॉम्स्की के सामान्य रूप में सिद्धांतित "गैर-सामान्य व्याकरण" कैसे सीखता है।[6]

यह भी देखें

संदर्भ

  1. "मृत सदस्य". ICCL members. Archived from the original on 17 May 2017. Retrieved 15 November 2017.
  2. John Hutchins: Retrospect and prospect in computer-based translation. Proceedings of MT Summit VII, 1999, pp. 30–44.
  3. Arnold B. Barach: Translating Machine 1975: And the Changes To Come.
  4. Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
  5. Bowerman, M. (1988). The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals.
  6. 6.0 6.1 Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.
  7. Powers, D.M.W. & Turk, C.C.R. (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
  8. Elman, Jeffrey L. (1993). "Learning and development in neural networks: The importance of starting small". Cognition. 48 (1): 71–99. doi:10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
  9. 9.0 9.1 Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Language bootstrapping: learning word meanings from the perception-action association". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. 42 (3): 660–71. arXiv:1711.09714. doi:10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
  10. Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ed.). "Studying Language Change Using Price Equation and Pólya-urn Dynamics". PLOS ONE. 7 (3): e33171. Bibcode:2012PLoSO...733171G. doi:10.1371/journal.pone.0033171. PMC 3299756. PMID 22427981.
  11. Furuhashi, S. & Hayakawa, Y. (2012). "जापानी वाक्य लंबाई के वितरण की असामान्यता". Journal of the Physical Society of Japan. 81 (3): 034004. Bibcode:2012JPSJ...81c4004F. doi:10.1143/JPSJ.81.034004.


अग्रिम पठन


बाहरी संबंध