संगणकीय भाषाविज्ञान

कम्प्यूटेशनल भाषाविज्ञान 2020 के दशक से प्राकृतिक भाषा प्रसंस्करण या भाषा प्रौद्योगिकी का लगभग पर्याय बन गया है, जिसमें बड़े भाषा मॉडल जैसे गहन शिक्षण दृष्टिकोण सम्मिलित हैं, जिन्होंने इस क्षेत्र में पहले उपयोग किए गए अधिकांश विशिष्ट दृष्टिकोणों को प्रतिस्थापित कर दिया है।

इतिहास

सामान्यतः आर्टिफिशियल इंटेलिजेंस (एआई ) और विशेष रूप से मशीनी अनुवाद में नियम-आधारित दृष्टिकोण की विफलता के बाद, डेविड हेज़ ने इस क्षेत्र को एआई से अलग करने के लिए इस शब्द को गढ़ा और एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एसीएल) और दोनों की सह-स्थापना की। 1970 और 1980 के दशक में कम्प्यूटेशनल भाषाविज्ञान पर अंतर्राष्ट्रीय समिति (आईसीसीएल) की संस्थापन की।^[1]

उत्पत्ति

1950 के दशक में संयुक्त राज्य अमेरिका में विदेशी भाषाओं, विशेष रूप से रूसी वैज्ञानिक पत्रिकाओं के पाठों को स्वचालित रूप से अंग्रेजी में अनुवाद करने के लिए कंप्यूटर का उपयोग करने के प्रयासों के बाद से यह क्षेत्र कृत्रिम बुद्धिमत्ता के साथ ओवरलैप हो गया।^[2] चूंकि नियम-आधारित दृष्टिकोण मनुष्यों की तुलना में अंकगणितीय (व्यवस्थित) गणनाओं को बहुत तेज़ और अधिक सटीक बनाने में सक्षम थे, इसलिए यह सोचा गया कि यह भाषा को संसाधित करने से पहले केवल कुछ ही समय की बात थी। ^[3]

उस समय ऐसा लगता था कि पहले दोनों भाषाओं की व्याकरण, समास विशेषक या शब्द रूपों की व्याकरण और वाक्य संरचना को सीखना आवश्यक है, जिससे आप उन दोनों के बीच अनुवाद कर सकें। वाक्यविन्यास को समझने के लिए, किसी को शब्दार्थ और शब्दकोष या 'शब्दावली' को भी समझना होगा, और यहां तक कि भाषा के उपयोग की व्यावहारिकता को भी समझना होगा। भाषाओं के बीच अनुवाद के प्रयास के रूप में जो प्रारंभ हुआ वह प्राकृतिक भाषा प्रसंस्करण के बहुत व्यापक क्षेत्र में विकसित हुआ।^[4]

मॉडलिंग भाषा अधिग्रहण

तथ्य यह है कि भाषा अधिग्रहण के समय, बच्चों को बड़े पैमाने पर केवल सकारात्मक साक्ष्य से अवगत कराया जाता है, ^[5] जिसका अर्थ है कि जो सही रूप है उसके लिए केवल साक्ष्य प्रदान किया जाता है, और जो सही नहीं है उसके लिए कोई प्रमाण नहीं दिया जाता है, यह एक सीमा थी। उस समय के मॉडल के लिए यह एक सीमा थी क्योंकि अब उपलब्ध गहन शिक्षण मॉडल 1980 के दशक के अंत में उपलब्ध नहीं थे^[6]^[7]

यह दिखाया गया है कि भाषाओं को सरल इनपुट के संयोजन से सीखा जा सकता है, क्योंकि बच्चे में बेहतर स्मृति और लंबी ध्यान अवधि विकसित होती है, जिसने मानव शिशुओं और बच्चों में भाषा अधिग्रहण की लंबी अवधि को समझाया।^[8]

भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है।^[9] बच्चों की तरह सीखने की सक्षमता के साथ, मॉडल्स का निर्माण उपलब्धि मॉडल पर आधारित किया गया था, जिसमें क्रियाओं, प्रतिदृश्यों, और प्रभावों के बीच मैपिंग बनाए गए थे और उन्हें बोली गई शब्दों से जोड़ा गया था। महत्वपूर्ण बात यह थी कि ये रोबोट बिना व्याकरणिक संरचना की आवश्यकता के कार्यकारी शब्द-से-अर्थ मैपिंग्स प्राप्त कर सकते थे।^[10]

भाषाई सिद्धांतों का परीक्षण करने के लिए रोबोट का उपयोग किया गया है। ^[9] बच्चों को यथासंभव सीखने में सक्षम बनाने के लिए, एक किफायती मॉडल के आधार पर मॉडल बनाए गए जिसमें कार्यों, धारणाओं और प्रभावों के बीच मानचित्रण बनाया गया और बोले गए शब्दों से जोड़ा गया। महत्वपूर्ण रूप से, ये रोबोट व्याकरणिक संरचना की आवश्यकता के बिना कार्यशील शब्द-से-अर्थ मैपिंग प्राप्त करने में सक्षम थे।

मूल्य समीकरण और पॉलिया अर्ण गतिकी का उपयोग करके, शोधकर्ताओं ने एक प्रणाली बनाई है जो न केवल भविष्य में भाषाई विकास की पूर्वानुमान करती है, बल्कि मॉडर्न-डे भाषाओं के पूर्वानुमान में भी दर्शाने में सहायक होती है।

एनोटेट निगम

अंग्रेजी भाषा का सावधानीपूर्वक अध्ययन करने में सक्षम होने के लिए, एक एनोटेटेड टेक्स्ट कॉर्पस की बहुत आवश्यकता थी। पेन ट्रीबैंक[ सबसे अधिक प्रयोग किए जाने वाले निगमों में से एक था। इसमें आईबीएम कंप्यूटर मैनुअल, लिखित टेलीफोन वार्तालाप और अन्य पाठ सम्मिलित थे, जिसमें अमेरिकी अंग्रेजी के 4.5 मिलियन से अधिक शब्द सम्मिलित थे, जिन्हें पार्ट-ऑफ-स्पीच टैगिंग और सिंटैक्टिक ब्रैकेटिंग दोनों का उपयोग करके एनोटेट किया गया था।

कम्प्यूटेशनल विधियों का उपयोग करते हुए, जापानी वाक्य कॉर्पोरा का विश्लेषण किया गया और वाक्य की लंबाई के संबंध में लॉग-सामान्यता का एक पैटर्न पाया गया^[11]

चॉम्स्की के सिद्धांत

यह पता लगाने का प्रयास किया गया है कि एक शिशु "अतिसामान्यीकृत संस्करण" सीखे बिना और "अटकाए हुए" चॉम्स्की के सामान्य रूप में सिद्धांतित "गैर-सामान्य व्याकरण" कैसे सीखता है।^[6]

यह भी देखें

संदर्भ

↑ "मृत सदस्य". ICCL members. Archived from the original on 17 May 2017. Retrieved 15 November 2017.
↑ John Hutchins: Retrospect and prospect in computer-based translation. Proceedings of MT Summit VII, 1999, pp. 30–44.
↑ Arnold B. Barach: Translating Machine 1975: And the Changes To Come.
↑ Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
↑ Bowerman, M. (1988). The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals.
↑ ^6.0 ^6.1 Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.
↑ Powers, D.M.W. & Turk, C.C.R. (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
↑ Elman, Jeffrey L. (1993). "Learning and development in neural networks: The importance of starting small". Cognition. 48 (1): 71–99. doi:10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
↑ ^9.0 ^9.1 Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Language bootstrapping: learning word meanings from the perception-action association". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. 42 (3): 660–71. arXiv:1711.09714. doi:10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
↑ Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ed.). "Studying Language Change Using Price Equation and Pólya-urn Dynamics". PLOS ONE. 7 (3): e33171. Bibcode:2012PLoSO...733171G. doi:10.1371/journal.pone.0033171. PMC 3299756. PMID 22427981.
↑ Furuhashi, S. & Hayakawa, Y. (2012). "जापानी वाक्य लंबाई के वितरण की असामान्यता". Journal of the Physical Society of Japan. 81 (3): 034004. Bibcode:2012JPSJ...81c4004F. doi:10.1143/JPSJ.81.034004.

अग्रिम पठन

Bates, M (1995). "Models of natural language understanding". Proceedings of the National Academy of Sciences of the United States of America. 92 (22): 9977–9982. Bibcode:1995PNAS...92.9977B. doi:10.1073/pnas.92.22.9977. PMC 40721. PMID 7479812.
Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
Mohamed Zakaria KURDI (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
Mohamed Zakaria KURDI (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.

बाहरी संबंध

[1] "मृत सदस्य". ICCL members. Archived from the original on 17 May 2017. Retrieved 15 November 2017.

[2] John Hutchins: Retrospect and prospect in computer-based translation. Proceedings of MT Summit VII, 1999, pp. 30–44.

[3] Arnold B. Barach: Translating Machine 1975: And the Changes To Come.

[4] Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel

[5] Bowerman, M. (1988). The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals.

[autogenerated1971-6] 6.0 ^6.1 Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.

[powers1989-7] Powers, D.M.W. & Turk, C.C.R. (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.

[autogenerated1993-8] Elman, Jeffrey L. (1993). "Learning and development in neural networks: The importance of starting small". Cognition. 48 (1): 71–99. doi:10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.

[:0-9] 9.0 ^9.1 Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Language bootstrapping: learning word meanings from the perception-action association". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. 42 (3): 660–71. arXiv:1711.09714. doi:10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.

[10] Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ed.). "Studying Language Change Using Price Equation and Pólya-urn Dynamics". PLOS ONE. 7 (3): e33171. Bibcode:2012PLoSO...733171G. doi:10.1371/journal.pone.0033171. PMC 3299756. PMID 22427981.

[autogenerated3-11] Furuhashi, S. & Hayakawa, Y. (2012). "जापानी वाक्य लंबाई के वितरण की असामान्यता". Journal of the Physical Society of Japan. 81 (3): 034004. Bibcode:2012JPSJ...81c4004F. doi:10.1143/JPSJ.81.034004.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

v t e कंप्यूटर विज्ञान
Note: This template roughly follows the 2012 ACM Computing Classification System.
हार्डवेयर	मुद्रित सर्किट बोर्ड परिधीय एकीकृत परिपथ बड़े पैमाने पर एकीकरण चिप पर सिस्टम (एसओसी) ऊर्जा की खपत (ग्रीन कंप्यूटिंग) इलेक्ट्रॉनिक डिजाइन स्वचालन हार्डवेयर एक्सिलरेशन
कंप्यूटर सिस्टम संगठन	कंप्यूटर आर्किटेक्चर अंतः स्थापित प्रणाली रीयल-टाइम कंप्यूटिंग निर्भरता
नेटवर्क	नेटवर्क आर्किटेक्चर नेटवर्क प्रोटोकॉल नेटवर्क घटक नेटवर्क अनुसूचक नेटवर्क प्रदर्शन मूल्यांकन नेटवर्क सेवा
सॉफ्टवेयर संगठन	दुभाषिया मध्यस्थ आभासी मशीन ऑपरेटिंग सिस्टम सॉफ्टवेयर गुणवत्ता
सॉफ्टवेयर नोटेशन और टूल्स	प्रोग्रामिंग प्रतिमान प्रोग्रामिंग भाषा संकलक डोमेन-विशिष्ट भाषा मॉडलिंग भाषा सॉफ्टवेयर फ्रेमवर्क समन्वित विकास पर्यावरण सॉफ्टवेयर विन्यास प्रबंधन सॉफ्टवेयर लाइब्रेरी सॉफ्टवेयर रिपोजिटरी
सॉफ्टवेयर डेवलपमेंट	नियंत्रण चर सॉफ्टवेयर विकास प्रक्रिया आवश्यकताओं के विश्लेषण सॉफ्टवेर डिज़ाइन सॉफ्टवेयर निर्माण सॉफ्टवेयर परिनियोजन सॉफ्टवेयर इंजीनियरिंग सॉफ्टवेयर की रखरखाव प्रोग्रामिंग टीम ओपन-सोर्स मॉडल
गणना का सिद्धांत	गणना का मॉडल औपचारिक भाषा ऑटोमेटा सिद्धांत कम्प्यूटेबिलिटी सिद्धांत कम्प्यूटेशनल जटिलता सिद्धांत तर्क शब्दार्थ
कलन विधि	एल्गोरिदम डिजाइन एल्गोरिदम का विश्लेषण एल्गोरिदमिक दक्षता यादृच्छिक एल्गोरिदम कम्प्यूटेशनल ज्यामिति
कंप्यूटिंग का गणित	गणित पृथक करें संभावना सांख्यिकी गणितीय सॉफ्टवेयर सूचना सिद्धांत गणितीय विश्लेषण संख्यात्मक विश्लेषण सैद्धांतिक कंप्यूटर विज्ञान
सूचना प्रणाली	डेटाबेस प्रबंधन प्रणाली सूचना भंडारण प्रणाली उद्यम सूचना प्रणाली सामाजिक सूचना प्रणाली भौगोलिक सूचना प्रणाली निर्णय समर्थन प्रणाली प्रक्रिया नियंत्रण प्रणाली मल्टीमीडिया सूचना प्रणाली डेटा माइनिंग डिजिटल लाइब्रेरी कंप्यूटिंग प्लेटफॉर्म डिजिटल विपणन वर्ल्ड वाइड वेब सूचना की पुनर्प्राप्ति
सुरक्षा	क्रिप्टोग्राफी औपचारिक तरीके सुरक्षा सेवाएं अतिक्रमण संसूचन प्रणाली हार्डवेयर सुरक्षा नेटवर्क सुरक्षा सूचना सुरक्षा आवेदन सुरक्षा
मानव-कंप्यूटर संपर्क	पारस्परिक प्रभाव वाली डिज़ाइन सामाजिक कंप्यूटिंग सर्वव्यापक कंप्यूटिंग विज़ुअलाइज़ेशन एक्सेसिबिलिटी
Concurrency	समवर्ती कंप्यूटिंग समानांतर कंप्यूटिंग वितरित अभिकलन मल्टीथ्रेडिंग मल्टीप्रोसेसिंग
कृत्रिम बुद्धि	प्राकृतिक भाषा प्रसंस्करण ज्ञान प्रतिनिधित्व और तर्क कंप्यूटर दृष्टी स्वचालित योजना और समय-निर्धारण खोज पद्धति नियंत्रण विधि कृत्रिम बुद्धि का दर्शन डिस्ट्रिब्यूटेड आर्टिफिशियल इंटेलिजेंस
मशीन लर्निंग	पर्यवेक्षित अध्ययन अनपर्यवेक्षित लर्निंग सुदृढीकरण सीखना बहु-कार्य सीखने क्रॉस-सत्यापन
ग्राफिक्स	एनिमेशन रेंडरिंग छवि हेरफेर ग्राफ़िक्स प्रोसेसिंग युनिट मिश्रित वास्तविकता आभासी वास्तविकता छवि संपीड़न सॉलिड मॉडलिंग
एप्लाइड कंप्यूटिंग	ई-कॉमर्स उपक्रम सॉफ्टवेयर कम्प्यूटेशनल गणित कम्प्यूटेशनल भौतिकी कम्प्यूटेशनल केमिस्ट्री कम्प्यूटेशनल बायोलॉजी कम्प्यूटेशनल सामाजिक विज्ञान कम्प्यूटेशनल इंजीनियरिंग कम्प्यूटेशनल हेल्थकेयर डिजिटल कला इलेक्ट्रॉनिक प्रकाशन सायबर युद्ध इलेक्ट्रॉनिक वोटिंग वीडियो गेम वर्ड प्रोसेसिंग संचालन अनुसंधान शैक्षिक प्रौद्योगिकी दस्तावेज़ प्रबंधन
Category Outline WikiProject Commons

Anonymous

Search

संगणकीय भाषाविज्ञान

Namespaces

More

Page actions

Contents

इतिहास

उत्पत्ति

मॉडलिंग भाषा अधिग्रहण

एनोटेट निगम

चॉम्स्की के सिद्धांत

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

संगणकीय भाषाविज्ञान

इतिहास

उत्पत्ति

मॉडलिंग भाषा अधिग्रहण

एनोटेट निगम

चॉम्स्की के सिद्धांत

यह भी देखें

संदर्भ

अग्रिम पठन

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories