प्राकृतिक भाषा प्रसंस्करण: Difference between revisions
No edit summary |
No edit summary |
||
(6 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{Short description|Field of linguistics and computer science}} | {{Short description|Field of linguistics and computer science}} | ||
{{About|कंप्यूटर द्वारा किया जाने वाला प्राकृतिक भाषा प्रसंस्करण|मानव मस्तिष्क द्वारा किया गया प्राकृतिक भाषा प्रसंस्करण|मस्तिष्क में भाषा प्रसंस्करण}} | {{About|कंप्यूटर द्वारा किया जाने वाला प्राकृतिक भाषा प्रसंस्करण|मानव मस्तिष्क द्वारा किया गया प्राकृतिक भाषा प्रसंस्करण|मस्तिष्क में भाषा प्रसंस्करण}} | ||
[[File:Automated online assistant.png|thumb| 200px |एक वेब पेज पर [[ग्राहक सेवा]] प्रदान करने वाला | [[File:Automated online assistant.png|thumb| 200px |एक वेब पेज पर [[ग्राहक सेवा]] प्रदान करने वाला [[स्वचालित ऑनलाइन सहायक]], ऐसे अनुप्रयोग का उदाहरण जहां प्राकृतिक भाषा प्रसंस्करण प्रमुख घटक है<ref name=Kongthon>{{cite conference |doi = 10.1145/1643823.1643908|chapter = Implementing an online help desk system based on conversational agent |first1= Alisa |last1=Kongthon|first2= Chatchawal|last2= Sangkeettrakarn|first3= Sarawoot|last3= Kongyoung |first4= Choochart |last4 = Haruechaiyasak|title = इमर्जेंट डिजिटल इको ''सिस्टम्स'' के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09|publisher = ACM |date = October 27–30, 2009 |page = 450 |conference = MEDES '09: The International Conference on Management of Emergent Digital EcoSystems|location = France |isbn = 9781605588292 }}</ref>]][[प्राकृतिक भाषा]] प्रसंस्करण (एनएलपी) भाषाविज्ञान, [[कंप्यूटर विज्ञान|संगणक विज्ञान]] और कृत्रिम बुद्धि का उपक्षेत्र है जो संगणक और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा आंकड़ों को संसाधित करने और विश्लेषण करने के लिए संगणक को कैसे प्रोग्राम किया जाए। लक्ष्य संगणक है जो कागजो की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की विशिष्टताओं को सम्मलित किया गया है। प्रौद्योगिकी तब कागजो में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही कागजो को स्वयं वर्गीकृत और व्यवस्थित कर सकती है। | ||
प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः | प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः [[वाक् पहचान]], प्राकृतिक-भाषा समझ और [[प्राकृतिक भाषा पीढ़ी]]| प्राकृतिक-भाषा पीढ़ी सम्मलित होती है। | ||
== इतिहास == | == इतिहास == | ||
{{See|प्राकृतिक भाषा प्रसंस्करण का इतिहास}} | {{See|प्राकृतिक भाषा प्रसंस्करण का इतिहास}} | ||
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, [[एलन ट्यूरिंग]] ने [[कंप्यूटिंग मशीनरी और इंटेलिजेंस|संगणन | प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, [[एलन ट्यूरिंग]] ने [[कंप्यूटिंग मशीनरी और इंटेलिजेंस|संगणन तंत्र और बुद्धिमत्ता]] नामक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब [[ट्यूरिंग टेस्ट|ट्यूरिंग परीक्षा]] कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में कार्य सम्मलित है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित है। | ||
=== प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत) === | === प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत) === | ||
प्रतीकात्मक एनएलपी का आधार [[जॉन सियरल]] के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, | प्रतीकात्मक एनएलपी का आधार [[जॉन सियरल]] के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), संगणक प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले आंकड़ों के नियम। | ||
* 1950 का दशक: 1954 में [[जॉर्जटाउन-आईबीएम प्रयोग]] में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से [[स्वचालित अनुवाद]] सम्मलित था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद समस्या का समाधान हो जाएगा।<ref>{{cite web|author=Hutchins, J.|year=2005|url=http://www.hutchinsweb.me.uk/Nutshell-2005.pdf|title=संक्षेप में मशीनी अनुवाद का इतिहास}}{{स्व-प्रकाशित स्रोत|date=December 2013}}</ref> चूंकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में [[ALPAC|एलपीसी]] के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए निधिकरण नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली [[सांख्यिकीय मशीन अनुवाद]] प्रणाली विकसित की गई थी। | |||
* 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, [[SHRDLU|एसएचआरडीएलयू]] , प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और एलिजा, [[रोजरियन मनोचिकित्सा]] का अनुकरण, जो 1964 और 1966 के बीच [[जोसेफ व्हीटबाउम]] द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, [[एलिजा]] ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता प्रतिसाद है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? . | |||
* 1970 का दशक: 1970 के दशक के समय, कई प्रोग्रामरों ने वैचारिक [[सत्तामीमांसा (सूचना विज्ञान)]] लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को संगणक-समझने योग्य आंकड़ों में संरचित किया। उदाहरण हैं मार्गी (स्कैंक, 1975), सैम (कुलिंगफोर्ड, 1978), पाम (विलेंस्की, 1978), टेलस्पिन (मीहान, 1976), सन्देह (लहनर्ट, 1977), पॉलिटिक्स (कार्बोनेल, 1979), और षड्यंत्र इकाइयाँ (लहनर्ट 1981) ). इस समय के समय, पहला [[chatterbots|चैटरबॉट्स]] लिखा गया (जैसे, [[बचाव]])। | |||
* 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के ध्यान केन्द्रित क्षेत्रों में नियम-आधारित पदनिरूपक पर शोध सम्मलित था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास [[उत्पादक व्याकरण]] के संगणनात्मक संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)<ref>{{citation|last=Koskenniemi|first=Kimmo|title=Two-level morphology: A general computational model of word-form recognition and production|url=http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf|year=1983|publisher=Department of General Linguistics, [[University of Helsinki]]|author-link=Kimmo Koskenniemi}}</ref>), शब्दार्थ (जैसे, लेस्क कलन विधि), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर<ref>Joshi, A. K., & Weinstein, S. (1981, August). [https://www.ijcai.org/Proceedings/81-1/Papers/071.pdf Control of Inference: Role of Some Aspects of Discourse Structure-Centering]. In ''IJCAI'' (pp. 385-387).</ref>) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, [[आलंकारिक संरचना सिद्धांत]] में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, [[रैक्टर]] और [[जबरवाकी]] के साथ चैटरबॉट्स का विकास। महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।<ref>{{Cite journal|last1=Guida|first1=G.|last2=Mauri|first2=G.|date=July 1986|title=प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण|journal=Proceedings of the IEEE|volume=74|issue=7|pages=1026–1035|doi=10.1109/PROC.1986.13580|s2cid=30688575|issn=1558-2256}}</ref> | |||
=== सांख्यिकीय एनएलपी (1990-2010) === | === सांख्यिकीय एनएलपी (1990-2010) === | ||
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए [[मशीन लर्निंग|मशीन शिक्षण]] कलन विधि की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में | 1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए [[मशीन लर्निंग|मशीन शिक्षण]] कलन विधि की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में क्रांति आई। यह संगणनात्मक शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के [[नोम चौमस्की]] सिद्धांतों (जैसे [[परिवर्तनकारी व्याकरण]]) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर [[कॉर्पस भाषाविज्ञान]] को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।<ref>Chomskyan linguistics encourages the investigation of "[[corner case]]s" that stress the limits of its theoretical models (comparable to [[pathological (mathematics)|pathological]] phenomena in mathematics), typically created using [[thought experiment]]s, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in [[corpus linguistics]]. The creation and use of such [[text corpus|corpora]] of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "[[poverty of the stimulus]]" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.</ref> *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये प्रणाली उपस्थित बहुभाषी [[पाठ कोष]] का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप [[कनाडा की संसद]] और [[यूरोपीय संघ]] द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप , सीमित मात्रा में आंकड़ों से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है। | ||
*2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अज्ञात) भाषा आंकड़ों की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण कलन विधि पर ध्यान केंद्रित कर रहा है। ऐसे कलन विधि उस आंकड़ों से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से सटीक नहीं किया गया है या सटीक और गैर-सटीक आंकड़ों के संयोजन का उपयोग कर रहा है। सामान्यतः, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और सामान्यतः निवेश आंकड़ों की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। चूंकि, बड़ी मात्रा में गैर-सटीक आंकड़ों उपलब्ध है (अन्य बातों के अतिरिक्त , [[वर्ल्ड वाइड वेब]] की संपूर्ण सामग्री सहित), जो अधिकांशतः | *2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अज्ञात) भाषा आंकड़ों की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण कलन विधि पर ध्यान केंद्रित कर रहा है। ऐसे कलन विधि उस आंकड़ों से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से सटीक नहीं किया गया है या सटीक और गैर-सटीक आंकड़ों के संयोजन का उपयोग कर रहा है। सामान्यतः, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और सामान्यतः निवेश आंकड़ों की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। चूंकि, बड़ी मात्रा में गैर-सटीक आंकड़ों उपलब्ध है (अन्य बातों के अतिरिक्त , [[वर्ल्ड वाइड वेब]] की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए कलन विधि में कम समय की जटिलता हो व्यावहारिक बनो। | ||
=== तंत्रिका एनएलपी (वर्तमान) === | === तंत्रिका एनएलपी (वर्तमान) === | ||
2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी<ref name="goldberg:nnlp17">{{cite journal |last=Goldberg |first=Yoav |year=2016 |arxiv=1807.10854 |title=प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर|journal=Journal of Artificial Intelligence Research |volume=57 |pages=345–420 |doi=10.1613/jair.4992 |s2cid=8273530 }}</ref><ref name="goodfellow:book16">{{cite book |first1=Ian |last1=Goodfellow |first2=Yoshua |last2=Bengio |first3=Aaron |last3=Courville |url=http://www.deeplearningbook.org/ |title=ध्यान लगा के पढ़ना या सीखना|publisher=MIT Press |year=2016 }}</ref> [[भाषा मॉडलिंग]] जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं<ref name="jozefowicz:lm16">{{cite book |first1=Rafal |last1=Jozefowicz |first2=Oriol |last2=Vinyals |first3=Mike |last3=Schuster |first4=Noam |last4=Shazeer |first5=Yonghui |last5=Wu |year=2016 |arxiv=1602.02410 |title=भाषा मॉडलिंग की सीमाओं की खोज|bibcode=2016arXiv160202410J }}</ref> और विश्लेषण।<ref name="choe:emnlp16">{{cite journal |first1=Do Kook |last1=Choe |first2=Eugene |last2=Charniak |journal=Emnlp 2016 |url=https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |title=भाषा मॉडलिंग के रूप में पार्सिंग|access-date=2018-10-22 |archive-date=2018-10-23 |archive-url=https://web.archive.org/web/20181023034804/https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |url-status=dead }}</ref><ref name="vinyals:nips15">{{cite journal |last1=Vinyals |first1=Oriol |last2=Kaiser |first2=Lukasz |display-authors=1 |journal=Nips2015 |title=एक विदेशी भाषा के रूप में व्याकरण|year=2014 |arxiv=1412.7449 |bibcode=2014arXiv1412.7449V |url=https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf }}</ref> स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी [[इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड|इलेक्ट्रॉनिक स्वास्थ्य अभिलेख]] में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।<ref>{{Cite journal|last1=Turchin|first1=Alexander|last2=Florez Builes|first2=Luisa F.|date=2021-03-19|title=मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा|journal=Journal of Diabetes Science and Technology|volume=15|issue=3|language=en|pages=553–560|doi=10.1177/19322968211000831|pmid=33736486|pmc=8120048|issn=1932-2968}}</ref> | 2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी<ref name="goldberg:nnlp17">{{cite journal |last=Goldberg |first=Yoav |year=2016 |arxiv=1807.10854 |title=प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर|journal=Journal of Artificial Intelligence Research |volume=57 |pages=345–420 |doi=10.1613/jair.4992 |s2cid=8273530 }}</ref><ref name="goodfellow:book16">{{cite book |first1=Ian |last1=Goodfellow |first2=Yoshua |last2=Bengio |first3=Aaron |last3=Courville |url=http://www.deeplearningbook.org/ |title=ध्यान लगा के पढ़ना या सीखना|publisher=MIT Press |year=2016 }}</ref> [[भाषा मॉडलिंग]] जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं<ref name="jozefowicz:lm16">{{cite book |first1=Rafal |last1=Jozefowicz |first2=Oriol |last2=Vinyals |first3=Mike |last3=Schuster |first4=Noam |last4=Shazeer |first5=Yonghui |last5=Wu |year=2016 |arxiv=1602.02410 |title=भाषा मॉडलिंग की सीमाओं की खोज|bibcode=2016arXiv160202410J }}</ref> और विश्लेषण।<ref name="choe:emnlp16">{{cite journal |first1=Do Kook |last1=Choe |first2=Eugene |last2=Charniak |journal=Emnlp 2016 |url=https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |title=भाषा मॉडलिंग के रूप में पार्सिंग|access-date=2018-10-22 |archive-date=2018-10-23 |archive-url=https://web.archive.org/web/20181023034804/https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257 |url-status=dead }}</ref><ref name="vinyals:nips15">{{cite journal |last1=Vinyals |first1=Oriol |last2=Kaiser |first2=Lukasz |display-authors=1 |journal=Nips2015 |title=एक विदेशी भाषा के रूप में व्याकरण|year=2014 |arxiv=1412.7449 |bibcode=2014arXiv1412.7449V |url=https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf }}</ref> स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी [[इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड|इलेक्ट्रॉनिक स्वास्थ्य अभिलेख]] में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।<ref>{{Cite journal|last1=Turchin|first1=Alexander|last2=Florez Builes|first2=Luisa F.|date=2021-03-19|title=मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा|journal=Journal of Diabetes Science and Technology|volume=15|issue=3|language=en|pages=553–560|doi=10.1177/19322968211000831|pmid=33736486|pmc=8120048|issn=1932-2968}}</ref> | ||
== विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क == | |||
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से अभिकल्पना किया गया था, अर्थात, नियमों के सेट की हाथ से कोडिंग, शब्दकोश लुकअप के साथ मिलकर:<ref name=winograd:shrdlu71>{{cite thesis |last=Winograd |first=Terry |year=1971 |title=प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं|url=http://hci.stanford.edu/winograd/shrdlu/ }}</ref><ref name=schank77>{{cite book |first1=Roger C. |last1=Schank |first2=Robert P. |last2=Abelson |year=1977 |title=लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच|location=Hillsdale |publisher=Erlbaum |isbn=0-470-99033-3 }}</ref> जैसे कि व्याकरण लिखकर या [[उत्पन्न]] के लिए अनुमानी नियम बनाकर। | |||
== विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क | |||
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से अभिकल्पना किया गया था, अर्थात, नियमों के | |||
मशीन-लर्निंग कलन विधि पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई लाभ हैं: | मशीन-लर्निंग कलन विधि पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई लाभ हैं: | ||
* मशीन लर्निंग के | * मशीन लर्निंग के समय उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे सामान्य स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए। | ||
* स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान कलन विधि का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित निवेश (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत निवेश (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। सामान्यतः, ऐसे निवेश को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक सामान्यतः, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है। | * स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान कलन विधि का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित निवेश (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत निवेश (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। सामान्यतः, ऐसे निवेश को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक सामान्यतः, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है। | ||
* स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक निवेश आंकड़ों की आपूर्ति करके अधिक सटीक बनाया जा सकता है। चूंकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की | * स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक निवेश आंकड़ों की आपूर्ति करके अधिक सटीक बनाया जा सकता है। चूंकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग प्रणाली में निवेश करने के लिए अधिक आंकड़ों बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, सामान्यतः एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना। | ||
एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः | एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं: | ||
* जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे [[एपर्टियम]] प्रणाली द्वारा प्रदान की गई, | * जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे [[एपर्टियम]] प्रणाली द्वारा प्रदान की गई, | ||
* एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या | * एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या | ||
Line 40: | Line 36: | ||
=== सांख्यिकीय विधि === | === सांख्यिकीय विधि === | ||
तथाकथित सांख्यिकीय क्रांति के बाद से<ref name="johnson:eacl:ilcl09">[http://www.aclweb.org/anthology/W09-0103 Mark Johnson. How the statistical revolution changes (computational) linguistics.] Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.</ref><ref name="resnik:langlog11">[http://languagelog.ldc.upenn.edu/nll/?p=2946 Philip Resnik. Four revolutions.] Language Log, February 5, 2011.</ref> 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ | तथाकथित सांख्यिकीय क्रांति के बाद से<ref name="johnson:eacl:ilcl09">[http://www.aclweb.org/anthology/W09-0103 Mark Johnson. How the statistical revolution changes (computational) linguistics.] Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.</ref><ref name="resnik:langlog11">[http://languagelog.ldc.upenn.edu/nll/?p=2946 Philip Resnik. Four revolutions.] Language Log, February 5, 2011.</ref> 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ कागजो का सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है। | ||
मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का | मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने [[सांख्यिकीय मॉडल]] पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान [[शब्द एम्बेडिंग|शब्द अंत: स्थापन)]] ,<ref>{{Cite web|title=एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना|url=https://wabyking.github.io/talks/mila-talk.pdf}}</ref> और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण<ref>{{cite arXiv|last1=Trabelsi|first1=Chiheb|last2=Bilaniuk|first2=Olexa|last3=Zhang|first3=Ying|last4=Serdyuk|first4=Dmitriy|last5=Subramanian|first5=Sandeep|last6=Santos|first6=João Felipe|last7=Mehri|first7=Soroush|last8=Rostamzadeh|first8=Negar|last9=Bengio|first9=Yoshua|last10=Pal|first10=Christopher J.|date=2018-02-25|title=डीप कॉम्प्लेक्स नेटवर्क|class=cs.NE|eprint=1705.09792}}</ref>). इस तरह के मॉडलों का लाभ यह है कि वे केवल के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं। | ||
सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग कलन विधि में से कुछ, जैसे कि [[निर्णय वृक्ष]], उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, [[भाषण टैगिंग का हिस्सा|भाषण अंकन का | सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग कलन विधि में से कुछ, जैसे कि [[निर्णय वृक्ष]], उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, [[भाषण टैगिंग का हिस्सा|भाषण अंकन का भाग]]| भाषण का भाग अंकन ने प्राकृतिक भाषा प्रसंस्करण के लिए [[छिपे हुए मार्कोव मॉडल]] का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। निवेश आंकड़ों बनाने वाली सुविधाएँ। [[कैश भाषा मॉडल]] जिस पर अब कई स्पीच रिकग्निशन प्रणाली भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित निवेश दिए जाने पर ऐसे मॉडल सामान्यतः अधिक मजबूत होते हैं, विशेष रूप से निवेश जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के आंकड़ों के लिए बहुत सामान्य है), और कई उप-कार्यों वाली बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं। | ||
तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। चूंकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है। | तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। चूंकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है। | ||
Line 50: | Line 46: | ||
=== तंत्रिका नेटवर्क === | === तंत्रिका नेटवर्क === | ||
{{Further|कृत्रिम तंत्रिका नेटवर्क}} | {{Further|कृत्रिम तंत्रिका नेटवर्क}} | ||
सांख्यिकीय विधियों की | सांख्यिकीय विधियों की बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,<ref>{{Cite web |last=Socher |first=Richard |title=एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग|url=https://www.socher.org/index.php/Main/DeepLearningForNLP-ACL2012Tutorial |access-date=2020-08-17 |website=www.socher.org}} This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]</ref> इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए [[तंत्रिका नेटवर्क]] में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के शब्दार्थ गुणों को पकड़ने के लिए शब्द अंत: स्थापन का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए ,भाषण का भाग अंकन और निर्भरता पदनिरूपक)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी प्रणाली को कैसे अभिकल्पना किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, [[तंत्रिका मशीन अनुवाद]] (एनएमटी) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे [[Seq2seq|श्रेणी से श्रेणी]] या अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता सांख्यिकीय मशीन अनुवाद (एसएमटी) को कम करते हैं। | ||
== सामान्य एनएलपी कार्य == | == सामान्य एनएलपी कार्य == | ||
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः | निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है। | ||
चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। | चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। मोटा विभाजन नीचे दिया गया है। | ||
=== पाठ या भाषण संसाधन === | === पाठ या भाषण संसाधन === | ||
; [[ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्नाइजेशन]] (ओसीआर) | ; [[ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्नाइजेशन]] (ओसीआर) | ||
: मुद्रित पाठ का प्रतिनिधित्व करने वाली | : मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ का निर्धारण करें। | ||
; भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में [[एआई-पूर्ण]] (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से | ; भाषण मान्यता: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में [[एआई-पूर्ण]] (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से है। [[प्राकृतिक भाषण]] में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार [[भाषण विभाजन]] वाक् पहचान का आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ दूसरे में मिल जाती हैं, जिसे [[कॉर्टिक्यूलेशन]] कहा जाता है, इसलिए [[एनालॉग संकेत|अनुरूप संकेत]] को असतत वर्णों में बदलना बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में दूसरे के समान है। | ||
; भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का | ; भाषण विभाजन: किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का उपकार्य और सामान्यतः इसके साथ समूहीकृत। | ||
; [[[[लिखे हुए को बोलने में बदलना]]]] | ; [[[[लिखे हुए को बोलने में बदलना|लिखे हुए को बोलने में परिवर्तित करना]]]] | ||
: एक पाठ दिया, उन इकाइयों को रूपांतरित करें और | : एक पाठ दिया, उन इकाइयों को रूपांतरित करें और मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए भाषण के लिए पाठ का उपयोग किया जा सकता है।<ref>{{Citation|last1=Yi|first1=Chucai|title=Assistive Text Reading from Complex Background for Blind Persons|date=2012|work=Camera-Based Document Analysis and Recognition|pages=15–28|publisher=Springer Berlin Heidelberg|language=en|citeseerx=10.1.1.668.869|doi=10.1007/978-3-642-29364-1_2|isbn=9783642293634|last2=Tian|first2=Yingli}}</ref> | ||
; [[शब्द विभाजन]] (प्रतीकीकरण शाब्दिक विश्लेषण)) | ; [[शब्द विभाजन]] (प्रतीकीकरण शाब्दिक विश्लेषण)) | ||
: निरंतर पाठ के | : निरंतर पाठ के भाग को अलग-अलग शब्दों में अलग करें। [[अंग्रेजी भाषा]] जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। चूंकि, [[चीनी भाषा]], [[जापानी भाषा]] और [[थाई भाषा]] जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की [[शब्दावली]] और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों खनन में [[शब्दों का थैला]] (धनुष) निर्माण जैसे स्थितियों में भी किया जाता है। | ||
=== रूपात्मक विश्लेषण === | === रूपात्मक विश्लेषण === | ||
; [[लेमैटाइजेशन]]: केवल विभक्तिपूर्ण अंत को हटाने का कार्य और | ; [[लेमैटाइजेशन]]: केवल विभक्तिपूर्ण अंत को हटाने का कार्य और शब्द के बेस शब्दकोश रूप को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन और तकनीक है। लेकिन इस संबंध में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए शब्दकोश का उपयोग करता है।<ref>{{Cite web|date=2020-12-06|title=प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय|url=https://www.gyansetu.in/what-is-natural-language-processing/|access-date=2021-01-09|website=GyanSetu!|language=en-US}}</ref> | ||
; आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग [[morpheme|मॉर्फेम]] में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से [[विभक्ति आकृति विज्ञान]], और इस प्रकार यह अधिकांशतः | ; आकृति विज्ञान (भाषाविज्ञान): अलग-अलग शब्दों को अलग-अलग [[morpheme|मॉर्फेम]] में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से [[विभक्ति आकृति विज्ञान]], और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और शब्द के सभी संभावित रूपों (जैसे, खोलना, खोलता, खोला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। [[तुर्की भाषा]] या मैतेई भाषा जैसी भाषाओं में,<ref>{{cite journal |last1=Kishorjit |first1=N. |last2=Vidya |first2=Raj RK. |last3=Nirmal |first3=Y. |last4=Sivaji |first4=B. |year=2012 |url=http://aclweb.org/anthology//W/W12/W12-5008.pdf |title=मणिपुरी रूपिम पहचान|journal=Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP) |pages=95–108 |location=COLING 2012, Mumbai, December 2012 }}</ref> उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं। | ||
; [[पार्ट-ऑफ-स्पीच टैगिंग| भाषण का | ; [[पार्ट-ऑफ-स्पीच टैगिंग| भाषण का भाग अंकन]]: एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का भाग (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक [[संज्ञा]] (मेज पर किताब) या [[क्रिया]] (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या [[विशेषण]] हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग भागों में से कोई भी हो सकता है। | ||
; प्रघातन | ; प्रघातन | ||
Line 81: | Line 77: | ||
: एक औपचारिक [[व्याकरण]] उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो। | : एक औपचारिक [[व्याकरण]] उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो। | ||
; [[वाक्य भंग]] (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है) | ; [[वाक्य भंग]] (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है) | ||
: पाठ का | : पाठ का भाग दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः [[पूर्ण विराम]] या अन्य [[विराम चिह्न]]ों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं। | ||
; [[पदच्छेद]]: किसी दिए गए वाक्य के [[पार्स पेड़|पदनिरूपक वृक्ष]] (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण [[अस्पष्ट]] है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, | ; [[पदच्छेद]]: किसी दिए गए वाक्य के [[पार्स पेड़|पदनिरूपक वृक्ष]] (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण [[अस्पष्ट]] है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, विशिष्ट वाक्य के लिए हजारों संभावित पदनिरूपक हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पदनिरूपक के दो प्राथमिक प्रकार हैं: निर्भरता पदनिरूपक और निर्वाचन क्षेत्र पदनिरूपक। निर्भरता पदनिरूपक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पदनिरूपक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पदनिरूपक [[पार्स पेड़|वृक्ष]] बनाने पर केंद्रित है ([[स्टोकेस्टिक व्याकरण]] भी देखें)। | ||
=== [[शाब्दिक शब्दार्थ]] (संदर्भ में अलग-अलग शब्दों का) === | === [[शाब्दिक शब्दार्थ]] (संदर्भ में अलग-अलग शब्दों का) === | ||
; शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है? | ; शाब्दिक शब्दार्थ: संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है? | ||
; वितरण संबंधी शब्दार्थ: हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं? | ; वितरण संबंधी शब्दार्थ: हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं? | ||
; नामांकित इकाई पहचान (एनईआर): पाठ की | ; नामांकित इकाई पहचान (एनईआर): पाठ की धारा दी गई है, यह निर्धारित करें कि पाठ मैप में कौन से वस्तु उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि [[पूंजीकरण]] अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी [[नामित इकाई]] के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी स्थितियों में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या [[अरबी भाषा]]) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, [[जर्मन भाषा]] सभी संज्ञाओं को बड़े अक्षरों में करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को बड़े अक्षरों में नहीं करती हैं जो विशेषण के रूप में काम करते हैं। | ||
; भावना विश्लेषण ([[मल्टीमॉडल भावना विश्लेषण]] भी देखें) | ; भावना विश्लेषण ([[मल्टीमॉडल भावना विश्लेषण]] भी देखें) | ||
: विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः | : विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः कागजो के सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है। | ||
; [[शब्दावली निष्कर्षण]] | ; [[शब्दावली निष्कर्षण]] | ||
: शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है। | : शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है। | ||
; | ; [[Word-sense disambiguation|शब्द-भाव भेद]] (डब्ल्यूएसडी): कई शब्दों के से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें सामान्यतः शब्दों और संबंधित शब्द इंद्रियों की सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे [[WordNet|शब्द नेट]] से। | ||
; निकाय जोड़: कई शब्द—सामान्यतः | ; निकाय जोड़: कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, स्थान, कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है। | ||
=== संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ) === | === संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ) === | ||
; [[संबंध निष्कर्षण]]: पाठ का | ; [[संबंध निष्कर्षण]]: पाठ का भाग दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)। | ||
; [[सिमेंटिक पार्सिंग|शब्दार्थ पदनिरूपक]]: पाठ का | ; [[सिमेंटिक पार्सिंग|शब्दार्थ पदनिरूपक]]: पाठ का टुकड़ा (सामान्यतः वाक्य) दिया जाता है, या तो ग्राफ के रूप में (उदाहरण के लिए, [[सार अर्थ प्रतिनिधित्व]] में) या तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, [[प्रवचन प्रतिनिधित्व सिद्धांत]] में) इसके शब्दार्थ का औपचारिक प्रतिनिधित्व करता है। इस चुनौती में सामान्यतः शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित हैं (उदाहरण के लिए, [[सिमेंटिक रोल लेबलिंग|शब्दार्थ रोल लेबलिंग]], शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित करने के लिए बढ़ाया जा सकता है; नीचे प्राकृतिक भाषा समझ देखें ). | ||
; शब्दार्थ रोल लेबलिंग (नीचे अंतर्निहित शब्दार्थ रोल लेबलिंग भी देखें) | ; शब्दार्थ रोल लेबलिंग (नीचे अंतर्निहित शब्दार्थ रोल लेबलिंग भी देखें) | ||
: एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर चौखटा तत्वों ([[शब्दार्थ भूमिकाएँ]]) को पहचानें और वर्गीकृत करें। | : एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर चौखटा तत्वों ([[शब्दार्थ भूमिकाएँ]]) को पहचानें और वर्गीकृत करें। | ||
=== [[प्रवचन]] (व्यक्तिगत वाक्यों से परे शब्दार्थ) === | === [[प्रवचन]] (व्यक्तिगत वाक्यों से परे शब्दार्थ) === | ||
; सह-संदर्भ: एक वाक्य या पाठ का बड़ा | ; सह-संदर्भ: एक वाक्य या पाठ का बड़ा भाग दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को [[संदर्भ]]ित करते हैं। [[अनाफोरा संकल्प]] इस कार्य का विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें [[संदर्भ अभिव्यक्ति]] सम्मलित है। उदाहरण के लिए, वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (अतिरिक्त किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)। | ||
; भाषण विश्लेषण: इस रूब्रिक में कई संबंधित कार्य सम्मलित | ; भाषण विश्लेषण: इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। कार्य प्रवचन विश्लेषण है, अर्थात, जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। अन्य संभावित कार्य भाषण क्रियाओं को पाठ के भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)। | ||
; अंतर्निहित शब्दार्थ भूमिका लेबलिंग | ; अंतर्निहित शब्दार्थ भूमिका लेबलिंग | ||
: एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट शब्दार्थ भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर शब्दार्थ रोल लेबलिंग देखें)। फिर, शब्दार्थ भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। | : एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट शब्दार्थ भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर शब्दार्थ रोल लेबलिंग देखें)। फिर, शब्दार्थ भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , [[प्रो-ड्रॉप भाषा]]ओं के लिए सह-संदर्भ संकल्प का विस्तार। | ||
; [[पाठ्य आकर्षण]]: दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या | ; [[पाठ्य आकर्षण]]: दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।<ref name="rte:11">PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/</ref> | ||
; [[विषय विभाजन]] और मान्यता | ; [[विषय विभाजन]] और मान्यता | ||
: पाठ का | : पाठ का भाग दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें। | ||
; [[तर्क खनन]] | ; [[तर्क खनन]] | ||
:तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।<ref>{{Cite journal|last1=Lippi|first1=Marco|last2=Torroni|first2=Paolo|date=2016-04-20|title=आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स|url=https://dl.acm.org/doi/10.1145/2850417|journal=ACM Transactions on Internet Technology|language=en|volume=16|issue=2|pages=1–25|doi=10.1145/2850417|hdl=11585/523460|s2cid=9561587|issn=1533-5399}}</ref> इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, [[तर्क योजना]] और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित | :तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।<ref>{{Cite journal|last1=Lippi|first1=Marco|last2=Torroni|first2=Paolo|date=2016-04-20|title=आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स|url=https://dl.acm.org/doi/10.1145/2850417|journal=ACM Transactions on Internet Technology|language=en|volume=16|issue=2|pages=1–25|doi=10.1145/2850417|hdl=11585/523460|s2cid=9561587|issn=1533-5399}}</ref> इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, [[तर्क योजना]] और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।<ref>{{Cite web|title=तर्क खनन - IJCAI2016 ट्यूटोरियल|url=https://www.i3s.unice.fr/~villata/tutorialIJCAI2016.html|access-date=2021-03-09|website=www.i3s.unice.fr}}</ref><ref>{{Cite web|title=कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन|url=http://acl2016tutorial.arg.tech/|access-date=2021-03-09|language=en-GB}}</ref> | ||
=== उच्च स्तरीय एनएलपी अनुप्रयोग === | === उच्च स्तरीय एनएलपी अनुप्रयोग === | ||
; [[स्वचालित सारांश]] (पाठ संक्षेप): पाठ के | ; [[स्वचालित सारांश]] (पाठ संक्षेप): पाठ के भाग का पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख। | ||
; पुस्तक पीढ़ी | ; पुस्तक पीढ़ी | ||
: एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में | : एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।<ref>{{Cite web|title=उबउउवबेब :: राक्टर|url=http://www.ubu.com/historical/racter/index.html|access-date=2020-08-17|website=www.ubu.com}}</ref> तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, [[1 सड़क]], उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) [[भाषा मॉडल]] हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।<ref>{{Cite book|last=Writer|first=Beta|date=2019|title=लिथियम आयन बैटरी|language=en-gb|doi=10.1007/978-3-030-16800-1|isbn=978-3-030-16799-8|s2cid=155818532}}</ref> रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है। | ||
; [[संवाद प्रणाली]] | ; [[संवाद प्रणाली]] | ||
:संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है। | :संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है। | ||
; | ; कागज़ एआई | ||
: एक | : एक कागज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न कागज़ प्रकारों से आवश्यक विशिष्ट आंकड़ों निकालने के लिए संगणक को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित कागज़ एआई गैर-तकनीकी टीमों को कागज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और लेखाकार तक त्वरित रूप से पहुंचने में सक्षम बनाता है।<ref>{{Cite web|title=Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube|url=https://www.youtube.com/watch?v=7dtl650D0y0| archive-url=https://ghostarchive.org/varchive/youtube/20211030/7dtl650D0y0| archive-date=2021-10-30|access-date=2021-01-11|website=www.youtube.com}}{{cbignore}}</ref> | ||
; व्याकरण संबंधी त्रुटि सुधार | ; व्याकरण संबंधी त्रुटि सुधार | ||
:व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की | :व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।<ref>{{Cite web|last=Administration|title=भाषा प्रौद्योगिकी केंद्र (सीएलटी)|url=https://www.mq.edu.au/research/research-centres-groups-and-facilities/innovative-technologies/centres/centre-for-language-technology-clt|access-date=2021-01-11|website=Macquarie University|language=en-au}}</ref><ref>{{Cite web|title=साझा कार्य: व्याकरण संबंधी त्रुटि सुधार|url=https://www.comp.nus.edu.sg/~nlp/conll13st.html|access-date=2021-01-11|website=www.comp.nus.edu.sg}}</ref><ref>{{Cite web|title=साझा कार्य: व्याकरण संबंधी त्रुटि सुधार|url=https://www.comp.nus.edu.sg/~nlp/conll14st.html|access-date=2021-01-11|website=www.comp.nus.edu.sg}}</ref> जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और [[GPT-2]] जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग। | ||
; मशीन अनुवाद | ; मशीन अनुवाद | ||
:स्वचालित रूप से पाठ का | :स्वचालित रूप से पाठ का मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से है, और समस्याओं के वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना। | ||
; <nowiki>प्राकृतिक भाषा उत्पादन (एनएलजी):</nowiki> | ; <nowiki>प्राकृतिक भाषा उत्पादन (एनएलजी):</nowiki> | ||
: [[संगणक]] आंकड़ोंबेस या शब्दार्थ इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें। | : [[संगणक]] आंकड़ोंबेस या शब्दार्थ इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें। | ||
; प्राकृतिक भाषा की समझ | ; प्राकृतिक भाषा की समझ (एनएलयू): पाठ के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। बंद दुनिया धारणा (सीडब्ल्यूए) बनाम खुली दुनिया धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .<ref>{{cite journal|last1=Duan|first1=Yucong|last2=Cruz|first2=Christophe|year=2011|title=अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना|url=http://www.ijimt.org/abstract/100-E00187.htm|journal=International Journal of Innovation, Management and Technology|volume=2|issue=1|pages=37–42|archive-url=https://web.archive.org/web/20111009135952/http://www.ijimt.org/abstract/100-E00187.htm|archive-date=2011-10-09}}</ref> | ||
; [[प्रश्न उत्तर]]: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का | ; [[प्रश्न उत्तर]]: मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)। | ||
; [[टेक्स्ट-टू-इमेज जेनरेशन|पाठ से छवि तक पीढ़ी]]: एक [[टेक्स्ट-टू-इमेज जेनरेशन|छवि]] के विवरण को देखते हुए, | ; [[टेक्स्ट-टू-इमेज जेनरेशन|पाठ से छवि तक पीढ़ी]]: एक [[टेक्स्ट-टू-इमेज जेनरेशन|छवि]] के विवरण को देखते हुए, ऐसी [[टेक्स्ट-टू-इमेज जेनरेशन|छवि]] उत्पन्न करें जो विवरण से मेल खाती हो।<ref>{{Cite web |last=Robertson |first=Adi |date=2022-04-06 |title=OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है|url=https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing |access-date=2022-06-07 |website=The Verge |language=en}}</ref> | ||
; पाठ से दृश्य तक पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का | ; पाठ से दृश्य तक पीढ़ी: एक दृश्य के विवरण को देखते हुए, दृश्य का [[मॉडल की गिनती]] उत्पन्न करें।<ref>{{Cite web |title=स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप|url=https://nlp.stanford.edu/projects/text2scene.shtml |access-date=2022-06-07 |website=nlp.stanford.edu}}</ref><ref>{{Cite journal |last1=Coyne |first1=Bob |last2=Sproat |first2=Richard |date=2001-08-01 |title=WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली|url=https://doi.org/10.1145/383259.383316 |journal=Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques |series=SIGGRAPH '01 |location=New York, NY, USA |publisher=Association for Computing Machinery |pages=487–496 |doi=10.1145/383259.383316 |isbn=978-1-58113-374-5|s2cid=3842372 }}</ref> | ||
; पाठ-से-वीडियो: एक वीडियो के विवरण को देखते हुए, | ; पाठ-से-वीडियो: एक वीडियो के विवरण को देखते हुए, वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।<ref>{{Cite web |date=2022-11-02 |title=Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है|url=https://venturebeat.com/ai/google-announces-ai-advances-in-text-to-video-language-translation-more/ |access-date=2022-11-09 |website=VentureBeat |language=en-US}}</ref><ref>{{Cite web |last=Vincent |first=James |date=2022-09-29 |title=मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है|url=https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e |access-date=2022-11-09 |website=The Verge |language=en-US}}</ref> | ||
== सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ == | == सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ == | ||
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, कोनल साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:<ref>{{Cite web|title=पिछले साझा कार्य {{!}} CoNLL|url=https://www.conll.org/previous-tasks|access-date=2021-01-11|website=www.conll.org}}</ref> | क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, कोनल साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:<ref>{{Cite web|title=पिछले साझा कार्य {{!}} CoNLL|url=https://www.conll.org/previous-tasks|access-date=2021-01-11|website=www.conll.org}}</ref> | ||
Line 145: | Line 137: | ||
=== [[अनुभूति]] और एनएलपी === | === [[अनुभूति]] और एनएलपी === | ||
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित | अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से का प्रतिनिधित्व करता है (ऊपर कोनल साझा कार्यों के बीच रुझान देखें)। | ||
अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।<ref>{{Cite web|title=अनुभूति|url=https://www.lexico.com/definition/cognition|archive-url=https://web.archive.org/web/20200715113427/https://www.lexico.com/definition/cognition|url-status=dead|archive-date=July 15, 2020|website=Lexico|publisher=[[Oxford University Press]] and [[Dictionary.com]]|access-date=6 May 2020}}</ref> संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।<ref>{{cite web|quote=संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।|url = http://www.aft.org/newspubs/periodicals/ae/summer2002/willingham.cfm |title= संज्ञानात्मक वैज्ञानिक से पूछें|website = American Federation of Teachers|date = 8 August 2014 }}</ref> [[संज्ञानात्मक भाषाविज्ञान]] भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।<ref>{{Cite book|title=संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका|last=Robinson|first=Peter|publisher=Routledge|year=2008|isbn=978-0-805-85352-0|pages=3–8}}</ref> विशेष रूप से | अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।<ref>{{Cite web|title=अनुभूति|url=https://www.lexico.com/definition/cognition|archive-url=https://web.archive.org/web/20200715113427/https://www.lexico.com/definition/cognition|url-status=dead|archive-date=July 15, 2020|website=Lexico|publisher=[[Oxford University Press]] and [[Dictionary.com]]|access-date=6 May 2020}}</ref> संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।<ref>{{cite web|quote=संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।|url = http://www.aft.org/newspubs/periodicals/ae/summer2002/willingham.cfm |title= संज्ञानात्मक वैज्ञानिक से पूछें|website = American Federation of Teachers|date = 8 August 2014 }}</ref> [[संज्ञानात्मक भाषाविज्ञान]] भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।<ref>{{Cite book|title=संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका|last=Robinson|first=Peter|publisher=Routledge|year=2008|isbn=978-0-805-85352-0|pages=3–8}}</ref> विशेष रूप से प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के समय, संगणनात्मक भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा। | ||
एक उदाहरण के रूप में, [[जॉर्ज लैकॉफ]] संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कलन विधि | एक उदाहरण के रूप में, [[जॉर्ज लैकॉफ]] संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कलन विधि बनाने के लिए पद्धति प्रदान करता है,<ref>{{Cite book|title=मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत|last= Lakoff |first= George |publisher= New York Basic Books|year=1999|isbn=978-0-465-05674-3|pages=569–583}}</ref> दो परिभाषित पहलुओं के साथ: | ||
# एक विचार की समझ के रूप में Lakoff | # एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए [[वैचारिक रूपक]] के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का विचार प्रदान करता है।<ref>{{Cite book|title=सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत|last= Strauss |first= Claudia |publisher= Cambridge University Press|year=1999|isbn=978-0-521-59541-4|pages=156–164}}</ref> उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब तुलना में उपयोग किया जाता है (वह बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना व्यक्ति और संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी। | ||
# किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, | # किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, संभाव्य संदर्भ-मुक्त व्याकरण (पीडीएफजी) के माध्यम से। ऐसे कलन विधि के लिए गणितीय समीकरण में प्रस्तुत किया गया है {{cite patent |country=US |number=9269353|status=patent}}: | ||
::<math> {RMM(token_N)} | ::<math> {RMM(token_N)} | ||
= | = | ||
Line 161: | Line 153: | ||
</math> | </math> | ||
::जहां पर, | ::जहां पर, | ||
:::' | :::'आरएमएम', अर्थ का सापेक्ष माप है | ||
:::' | :::'टोकन', पाठ, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है | ||
:::' | :::'एन', विश्लेषण किए जा रहे टोकन की संख्या है | ||
:::' | :::'पीएमएम', निगम पर आधारित अर्थ का संभावित उपाय है | ||
:::' | :::'डी', 'एन-1' टोकन के अनुक्रम के साथ टोकन का स्थान है | ||
:::' | :::'पीएफ', भाषा के लिए विशिष्ट संभाव्यता समारोह है | ||
संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का | संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का भाग हैं, लेकिन 1990 के दशक के समय सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,<ref>{{Cite web|title=यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)|url=https://universalconceptualcognitiveannotation.github.io/|access-date=2021-01-11|website=यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)|language=en-US}}</ref> कार्यात्मक व्याकरण,<ref>Rodríguez, F. C., & Mairal-Usón, R. (2016). [https://www.redalyc.org/pdf/1345/134549291020.pdf Building an RRG computational grammar]. ''Onomazein'', (34), 86-117.</ref> निर्माण व्याकरण,<ref>{{Cite web|title=द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली|url=https://www.fcg-net.org/|access-date=2021-01-11|language=en-US}}</ref> संगणनात्मक मनोविज्ञान और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, [[अधिनियम-आर]]), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)<ref>{{Cite web|title=एसीएल सदस्य पोर्टल {{!}} संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल|url=https://www.aclweb.org/portal/|access-date=2021-01-11|website=www.aclweb.org}}</ref> [[कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन|संगणनात्मक भाषाविज्ञान के लिए एसोसिएशन]])। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को [[व्याख्यात्मक कृत्रिम बुद्धि]]मत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार ।<ref>{{Cite web|title=टुकड़े और नियम|url=https://www.w3.org/Data/demos/chunks/chunks.html|access-date=2021-01-11|website=www.w3.org|language=en}}</ref> इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल [[मल्टीमॉडल इंटरेक्शन|मल्टीमॉडल अवरोध]] एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।<ref>{{Cite journal|doi=10.1162/tacl_a_00177|title=वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ|year=2014|last1=Socher|first1=Richard|last2=Karpathy|first2=Andrej|last3=Le|first3=Quoc V.|last4=Manning|first4=Christopher D.|last5=Ng|first5=Andrew Y.|journal=Transactions of the Association for Computational Linguistics|volume=2|pages=207–218|s2cid=2317858|doi-access=free}}</ref> | ||
Line 205: | Line 197: | ||
* [[ट्रूकेसिंग]] | * [[ट्रूकेसिंग]] | ||
* प्रश्न उत्तर | * प्रश्न उत्तर | ||
* [[ | * [[वर्ड2वेक]] | ||
{{Div col end}} | {{Div col end}} | ||
Line 214: | Line 206: | ||
== अग्रिम पठन == | == अग्रिम पठन == | ||
{{Refbegin}} | {{Refbegin}} | ||
* {{Cite journal |last1=Bates |first1=M|year=1995|title=Models of natural language understanding|journal=Proceedings of the National Academy of Sciences of the United States of America|volume=92|issue=22|pages=9977–9982|doi=10.1073/pnas.92.22.9977|pmid=7479812|pmc=40721|bibcode=1995PNAS...92.9977B|doi-access=free}} | * {{Cite journal |last1=Bates |first1=M|year=1995|title=Models of natural language understanding|journal=Proceedings of the National Academy of Sciences of the United States of America|volume=92|issue=22|pages=9977–9982|doi=10.1073/pnas.92.22.9977|pmid=7479812|pmc=40721|bibcode=1995PNAS...92.9977B|doi-access=free}} | ||
Line 226: | Line 217: | ||
{{Refend}} | {{Refend}} | ||
==बाहरी संबंध== | ==बाहरी संबंध== | ||
* {{Commonscatinline}} | * {{Commonscatinline}} | ||
{{Natural Language Processing}} | {{Natural Language Processing}} | ||
{{DEFAULTSORT:Natural Language Processing}} | |||
{{DEFAULTSORT:Natural Language Processing}} | |||
[[Category: Machine Translated Page]] | [[Category:Articles with hatnote templates targeting a nonexistent page|Natural Language Processing]] | ||
[[Category: | [[Category:CS1 British English-language sources (en-gb)]] | ||
[[Category:CS1 English-language sources (en)]] | |||
[[Category:CS1 maint]] | |||
[[Category:Collapse templates|Natural Language Processing]] | |||
[[Category:Lua-based templates|Natural Language Processing]] | |||
[[Category:Machine Translated Page|Natural Language Processing]] | |||
[[Category:Multi-column templates|Natural Language Processing]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists|Natural Language Processing]] | |||
[[Category:Pages using div col with small parameter|Natural Language Processing]] | |||
[[Category:Pages with script errors|Natural Language Processing]] | |||
[[Category:Short description with empty Wikidata description|Natural Language Processing]] | |||
[[Category:Sidebars with styles needing conversion|Natural Language Processing]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready|Natural Language Processing]] | |||
[[Category:Templates generating microformats|Natural Language Processing]] | |||
[[Category:Templates that add a tracking category|Natural Language Processing]] | |||
[[Category:Templates that are not mobile friendly|Natural Language Processing]] | |||
[[Category:Templates that generate short descriptions|Natural Language Processing]] | |||
[[Category:Templates using TemplateData|Natural Language Processing]] | |||
[[Category:Templates using under-protected Lua modules|Natural Language Processing]] | |||
[[Category:Wikipedia fully protected templates|Div col]] | |||
[[Category:Wikipedia metatemplates|Natural Language Processing]] |
Latest revision as of 19:01, 31 January 2023
प्राकृतिक भाषा प्रसंस्करण (एनएलपी) भाषाविज्ञान, संगणक विज्ञान और कृत्रिम बुद्धि का उपक्षेत्र है जो संगणक और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा आंकड़ों को संसाधित करने और विश्लेषण करने के लिए संगणक को कैसे प्रोग्राम किया जाए। लक्ष्य संगणक है जो कागजो की सामग्री को समझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की विशिष्टताओं को सम्मलित किया गया है। प्रौद्योगिकी तब कागजो में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही कागजो को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।
प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः वाक् पहचान, प्राकृतिक-भाषा समझ और प्राकृतिक भाषा पीढ़ी| प्राकृतिक-भाषा पीढ़ी सम्मलित होती है।
इतिहास
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने संगणन तंत्र और बुद्धिमत्ता नामक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब ट्यूरिंग परीक्षा कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में कार्य सम्मलित है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित है।
प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत)
प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), संगणक प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले आंकड़ों के नियम।
- 1950 का दशक: 1954 में जॉर्जटाउन-आईबीएम प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद सम्मलित था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद समस्या का समाधान हो जाएगा।[2] चूंकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में एलपीसी के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए निधिकरण नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
- 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, एसएचआरडीएलयू , प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और एलिजा, रोजरियन मनोचिकित्सा का अनुकरण, जो 1964 और 1966 के बीच जोसेफ व्हीटबाउम द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, एलिजा ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता प्रतिसाद है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? .
- 1970 का दशक: 1970 के दशक के समय, कई प्रोग्रामरों ने वैचारिक सत्तामीमांसा (सूचना विज्ञान) लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को संगणक-समझने योग्य आंकड़ों में संरचित किया। उदाहरण हैं मार्गी (स्कैंक, 1975), सैम (कुलिंगफोर्ड, 1978), पाम (विलेंस्की, 1978), टेलस्पिन (मीहान, 1976), सन्देह (लहनर्ट, 1977), पॉलिटिक्स (कार्बोनेल, 1979), और षड्यंत्र इकाइयाँ (लहनर्ट 1981) ). इस समय के समय, पहला चैटरबॉट्स लिखा गया (जैसे, बचाव)।
- 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के ध्यान केन्द्रित क्षेत्रों में नियम-आधारित पदनिरूपक पर शोध सम्मलित था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास उत्पादक व्याकरण के संगणनात्मक संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)[3]), शब्दार्थ (जैसे, लेस्क कलन विधि), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर[4]) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, आलंकारिक संरचना सिद्धांत में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, रैक्टर और जबरवाकी के साथ चैटरबॉट्स का विकास। महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।[5]
सांख्यिकीय एनएलपी (1990-2010)
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए मशीन शिक्षण कलन विधि की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में क्रांति आई। यह संगणनात्मक शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के नोम चौमस्की सिद्धांतों (जैसे परिवर्तनकारी व्याकरण) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर कॉर्पस भाषाविज्ञान को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।[6] *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये प्रणाली उपस्थित बहुभाषी पाठ कोष का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप कनाडा की संसद और यूरोपीय संघ द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप , सीमित मात्रा में आंकड़ों से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।
- 2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अज्ञात) भाषा आंकड़ों की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण कलन विधि पर ध्यान केंद्रित कर रहा है। ऐसे कलन विधि उस आंकड़ों से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से सटीक नहीं किया गया है या सटीक और गैर-सटीक आंकड़ों के संयोजन का उपयोग कर रहा है। सामान्यतः, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और सामान्यतः निवेश आंकड़ों की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। चूंकि, बड़ी मात्रा में गैर-सटीक आंकड़ों उपलब्ध है (अन्य बातों के अतिरिक्त , वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए कलन विधि में कम समय की जटिलता हो व्यावहारिक बनो।
तंत्रिका एनएलपी (वर्तमान)
2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी[7][8] भाषा मॉडलिंग जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं[9] और विश्लेषण।[10][11] स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी इलेक्ट्रॉनिक स्वास्थ्य अभिलेख में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।[12]
विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से अभिकल्पना किया गया था, अर्थात, नियमों के सेट की हाथ से कोडिंग, शब्दकोश लुकअप के साथ मिलकर:[13][14] जैसे कि व्याकरण लिखकर या उत्पन्न के लिए अनुमानी नियम बनाकर।
मशीन-लर्निंग कलन विधि पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई लाभ हैं:
- मशीन लर्निंग के समय उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे सामान्य स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
- स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान कलन विधि का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित निवेश (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत निवेश (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। सामान्यतः, ऐसे निवेश को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक सामान्यतः, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
- स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक निवेश आंकड़ों की आपूर्ति करके अधिक सटीक बनाया जा सकता है। चूंकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग प्रणाली में निवेश करने के लिए अधिक आंकड़ों बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, सामान्यतः एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।
एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं:
- जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण आंकड़ों की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे एपर्टियम प्रणाली द्वारा प्रदान की गई,
- एनएलपी पाइपलाइनों में प्रीसंसाधन के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल विश्लेषण), या
- एनएलपी पाइपलाइनों के निर्गम को पोस्ट संसाधन और बदलने के लिए, उदाहरण के लिए, वाक्यगत पदनिरूपक से ज्ञान निकालने के लिए।
सांख्यिकीय विधि
तथाकथित सांख्यिकीय क्रांति के बाद से[15][16] 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े पाठ कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ कागजो का सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।
मशीन-सीख कलन विधि के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये कलन विधि निवेश के रूप में सुविधाओं का बड़ा सेट लेते हैं जो निवेश आंकड़ों से उत्पन्न होते हैं। चूंकि, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो प्रत्येक निवेश फीचर (जटिल-मूल्यवान शब्द अंत: स्थापन) ,[17] और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण[18]). इस तरह के मॉडलों का लाभ यह है कि वे केवल के अतिरिक्त कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।
सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग कलन विधि में से कुछ, जैसे कि निर्णय वृक्ष, उपस्थित हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, भाषण अंकन का भाग| भाषण का भाग अंकन ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। निवेश आंकड़ों बनाने वाली सुविधाएँ। कैश भाषा मॉडल जिस पर अब कई स्पीच रिकग्निशन प्रणाली भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित निवेश दिए जाने पर ऐसे मॉडल सामान्यतः अधिक मजबूत होते हैं, विशेष रूप से निवेश जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के आंकड़ों के लिए बहुत सामान्य है), और कई उप-कार्यों वाली बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।
तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। चूंकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।
तंत्रिका नेटवर्क
सांख्यिकीय विधियों की बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,[19] इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के शब्दार्थ गुणों को पकड़ने के लिए शब्द अंत: स्थापन का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए ,भाषण का भाग अंकन और निर्भरता पदनिरूपक)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी प्रणाली को कैसे अभिकल्पना किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, तंत्रिका मशीन अनुवाद (एनएमटी) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे श्रेणी से श्रेणी या अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता सांख्यिकीय मशीन अनुवाद (एसएमटी) को कम करते हैं।
सामान्य एनएलपी कार्य
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।
चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। मोटा विभाजन नीचे दिया गया है।
पाठ या भाषण संसाधन
- ऑप्टिकल कैरेक्टर रिकग्नाइजेशन (ओसीआर)
- मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
- भाषण मान्यता
- किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह पाठ टू भाषण के विपरीत है और बोलचाल की भाषा में एआई-पूर्ण (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से है। प्राकृतिक भाषण में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार भाषण विभाजन वाक् पहचान का आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ दूसरे में मिल जाती हैं, जिसे कॉर्टिक्यूलेशन कहा जाता है, इसलिए अनुरूप संकेत को असतत वर्णों में बदलना बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को निवेश की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में दूसरे के समान है।
- भाषण विभाजन
- किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का उपकार्य और सामान्यतः इसके साथ समूहीकृत।
- [[लिखे हुए को बोलने में परिवर्तित करना]]
- एक पाठ दिया, उन इकाइयों को रूपांतरित करें और मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए भाषण के लिए पाठ का उपयोग किया जा सकता है।[20]
- शब्द विभाजन (प्रतीकीकरण शाब्दिक विश्लेषण))
- निरंतर पाठ के भाग को अलग-अलग शब्दों में अलग करें। अंग्रेजी भाषा जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। चूंकि, चीनी भाषा, जापानी भाषा और थाई भाषा जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की शब्दावली और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग आंकड़ों खनन में शब्दों का थैला (धनुष) निर्माण जैसे स्थितियों में भी किया जाता है।
रूपात्मक विश्लेषण
- लेमैटाइजेशन
- केवल विभक्तिपूर्ण अंत को हटाने का कार्य और शब्द के बेस शब्दकोश रूप को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन और तकनीक है। लेकिन इस संबंध में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए शब्दकोश का उपयोग करता है।[21]
- आकृति विज्ञान (भाषाविज्ञान)
- अलग-अलग शब्दों को अलग-अलग मॉर्फेम में विभाजित करें और मॉर्फेम के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकृति विज्ञान, और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और शब्द के सभी संभावित रूपों (जैसे, खोलना, खोलता, खोला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। तुर्की भाषा या मैतेई भाषा जैसी भाषाओं में,[22] उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
- भाषण का भाग अंकन
- एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का भाग (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक संज्ञा (मेज पर किताब) या क्रिया (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या विशेषण हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग भागों में से कोई भी हो सकता है।
- प्रघातन
- विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बन्धा हुआ , समापन, बंद, निकट आदि के लिए "बंद" मूल होगा)। प्रघातन लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।
वाक्यात्मक विश्लेषण
- व्याकरण प्रेरण[23]
- एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
- वाक्य भंग (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
- पाठ का भाग दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः पूर्ण विराम या अन्य विराम चिह्नों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
- पदच्छेद
- किसी दिए गए वाक्य के पदनिरूपक वृक्ष (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण अस्पष्ट है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, विशिष्ट वाक्य के लिए हजारों संभावित पदनिरूपक हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पदनिरूपक के दो प्राथमिक प्रकार हैं: निर्भरता पदनिरूपक और निर्वाचन क्षेत्र पदनिरूपक। निर्भरता पदनिरूपक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पदनिरूपक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पदनिरूपक वृक्ष बनाने पर केंद्रित है (स्टोकेस्टिक व्याकरण भी देखें)।
शाब्दिक शब्दार्थ (संदर्भ में अलग-अलग शब्दों का)
- शाब्दिक शब्दार्थ
- संदर्भ में अलग-अलग शब्दों का संगणनात्मक अर्थ क्या है?
- वितरण संबंधी शब्दार्थ
- हम आंकड़ों से शब्दार्थ निरूपण कैसे सीख सकते हैं?
- नामांकित इकाई पहचान (एनईआर)
- पाठ की धारा दी गई है, यह निर्धारित करें कि पाठ मैप में कौन से वस्तु उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी स्थितियों में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या अरबी भाषा) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन भाषा सभी संज्ञाओं को बड़े अक्षरों में करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को बड़े अक्षरों में नहीं करती हैं जो विशेषण के रूप में काम करते हैं।
- भावना विश्लेषण (मल्टीमॉडल भावना विश्लेषण भी देखें)
- विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः कागजो के सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।
- शब्दावली निष्कर्षण
- शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
- शब्द-भाव भेद (डब्ल्यूएसडी)
- कई शब्दों के से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें सामान्यतः शब्दों और संबंधित शब्द इंद्रियों की सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे शब्द नेट से।
- निकाय जोड़
- कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, स्थान, कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।
संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ)
- संबंध निष्कर्षण
- पाठ का भाग दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
- शब्दार्थ पदनिरूपक
- पाठ का टुकड़ा (सामान्यतः वाक्य) दिया जाता है, या तो ग्राफ के रूप में (उदाहरण के लिए, सार अर्थ प्रतिनिधित्व में) या तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, प्रवचन प्रतिनिधित्व सिद्धांत में) इसके शब्दार्थ का औपचारिक प्रतिनिधित्व करता है। इस चुनौती में सामान्यतः शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित हैं (उदाहरण के लिए, शब्दार्थ रोल लेबलिंग, शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित करने के लिए बढ़ाया जा सकता है; नीचे प्राकृतिक भाषा समझ देखें ).
- शब्दार्थ रोल लेबलिंग (नीचे अंतर्निहित शब्दार्थ रोल लेबलिंग भी देखें)
- एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर चौखटा तत्वों (शब्दार्थ भूमिकाएँ) को पहचानें और वर्गीकृत करें।
प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)
- सह-संदर्भ
- एक वाक्य या पाठ का बड़ा भाग दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें संदर्भ अभिव्यक्ति सम्मलित है। उदाहरण के लिए, वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (अतिरिक्त किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
- भाषण विश्लेषण
- इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। कार्य प्रवचन विश्लेषण है, अर्थात, जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। अन्य संभावित कार्य भाषण क्रियाओं को पाठ के भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।
- अंतर्निहित शब्दार्थ भूमिका लेबलिंग
- एक वाक्य दिया गया है, शब्दार्थ विधेय (जैसे, वर्बल फ्रेम अर्थविज्ञान (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट शब्दार्थ भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर शब्दार्थ रोल लेबलिंग देखें)। फिर, शब्दार्थ भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , प्रो-ड्रॉप भाषाओं के लिए सह-संदर्भ संकल्प का विस्तार।
- पाठ्य आकर्षण
- दो पाठ अंश दिए गए हैं, यह निर्धारित करें कि क्या सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।[24]
- विषय विभाजन और मान्यता
- पाठ का भाग दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
- तर्क खनन
- तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।[25] इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।[26][27]
उच्च स्तरीय एनएलपी अनुप्रयोग
- स्वचालित सारांश (पाठ संक्षेप)
- पाठ के भाग का पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
- पुस्तक पीढ़ी
- एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।[28] तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, 1 सड़क, उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।[29] रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।
- संवाद प्रणाली
- संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है।
- कागज़ एआई
- एक कागज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न कागज़ प्रकारों से आवश्यक विशिष्ट आंकड़ों निकालने के लिए संगणक को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित कागज़ एआई गैर-तकनीकी टीमों को कागज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और लेखाकार तक त्वरित रूप से पहुंचने में सक्षम बनाता है।[30]
- व्याकरण संबंधी त्रुटि सुधार
- व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।[31][32][33] जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
- मशीन अनुवाद
- स्वचालित रूप से पाठ का मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से है, और समस्याओं के वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।
- प्राकृतिक भाषा उत्पादन (एनएलजी):
- संगणक आंकड़ोंबेस या शब्दार्थ इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
- प्राकृतिक भाषा की समझ (एनएलयू)
- पाठ के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। बंद दुनिया धारणा (सीडब्ल्यूए) बनाम खुली दुनिया धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .[34]
- प्रश्न उत्तर
- मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
- पाठ से छवि तक पीढ़ी
- एक छवि के विवरण को देखते हुए, ऐसी छवि उत्पन्न करें जो विवरण से मेल खाती हो।[35]
- पाठ से दृश्य तक पीढ़ी
- एक दृश्य के विवरण को देखते हुए, दृश्य का मॉडल की गिनती उत्पन्न करें।[36][37]
- पाठ-से-वीडियो
- एक वीडियो के विवरण को देखते हुए, वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।[38][39]
सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, कोनल साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:[40]
- प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पदनिरूपक, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 सह-संदर्भ, 2015-16: डिस्कोर्स पदनिरूपक, 2019: शब्दार्थ पदनिरूपक)।
- बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
- प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड प्रणाली के लिए नियम-आधारित पर्यवेक्षित)
अनुभूति और एनएलपी
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से का प्रतिनिधित्व करता है (ऊपर कोनल साझा कार्यों के बीच रुझान देखें)।
अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।[41] संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।[42] संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।[43] विशेष रूप से प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के समय, संगणनात्मक भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।
एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कलन विधि बनाने के लिए पद्धति प्रदान करता है,[44] दो परिभाषित पहलुओं के साथ:
- एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए वैचारिक रूपक के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का विचार प्रदान करता है।[45] उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब तुलना में उपयोग किया जाता है (वह बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना व्यक्ति और संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
- किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, संभाव्य संदर्भ-मुक्त व्याकरण (पीडीएफजी) के माध्यम से। ऐसे कलन विधि के लिए गणितीय समीकरण में प्रस्तुत किया गया है US patent 9269353:
- जहां पर,
- 'आरएमएम', अर्थ का सापेक्ष माप है
- 'टोकन', पाठ, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
- 'एन', विश्लेषण किए जा रहे टोकन की संख्या है
- 'पीएमएम', निगम पर आधारित अर्थ का संभावित उपाय है
- 'डी', 'एन-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
- 'पीएफ', भाषा के लिए विशिष्ट संभाव्यता समारोह है
संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का भाग हैं, लेकिन 1990 के दशक के समय सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,[46] कार्यात्मक व्याकरण,[47] निर्माण व्याकरण,[48] संगणनात्मक मनोविज्ञान और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, अधिनियम-आर), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)[49] संगणनात्मक भाषाविज्ञान के लिए एसोसिएशन)। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मक कृत्रिम बुद्धिमत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार ।[50] इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल अवरोध एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।[51]
यह भी देखें
- 1 सड़क
- स्वचालित निबंध स्कोरिंग
- बायोमेडिकल टेक्स्ट माइनिंग
- कंपाउंड टर्म प्रोसेसिंग
- अभिकलनात्मक भाषाविज्ञान
- कंप्यूटर की सहायता से समीक्षा
- नियंत्रित प्राकृतिक भाषा
- ध्यान लगा के पढ़ना या सीखना
- गहन भाषाई प्रसंस्करण
- वितरण शब्दार्थ
- विदेशी भाषा पठन सहायता
- विदेशी भाषा लेखन सहायता
- सूचना निष्कर्षण
- सूचना की पुनर्प्राप्ति
- भाषा और संचार प्रौद्योगिकी
- भाषा प्रौद्योगिकी
- अव्यक्त सिमेंटिक इंडेक्सिंग
- मूल भाषा की पहचान
- प्राकृतिक-भाषा प्रोग्रामिंग
- प्राकृतिक-भाषा की समझ
- प्राकृतिक भाषा यूजर इंटरफेस|नेचुरल-लैंग्वेज सर्च
- प्राकृतिक भाषा प्रसंस्करण की रूपरेखा
- क्वेरी विस्तार
- क्वेरी समझ
- संशोधन (भाषा विज्ञान)
- भाषण प्रसंस्करण
- बोली जाने वाली संवाद प्रणाली
- टेक्स्ट-प्रूफिंग
- पाठ सरलीकरण
- ट्रांसफार्मर (मशीन लर्निंग मॉडल)
- ट्रूकेसिंग
- प्रश्न उत्तर
- वर्ड2वेक
संदर्भ
- ↑ Kongthon, Alisa; Sangkeettrakarn, Chatchawal; Kongyoung, Sarawoot; Haruechaiyasak, Choochart (October 27–30, 2009). "Implementing an online help desk system based on conversational agent". इमर्जेंट डिजिटल इको सिस्टम्स के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09. MEDES '09: The International Conference on Management of Emergent Digital EcoSystems. France: ACM. p. 450. doi:10.1145/1643823.1643908. ISBN 9781605588292.
- ↑ Hutchins, J. (2005). "संक्षेप में मशीनी अनुवाद का इतिहास" (PDF).Template:स्व-प्रकाशित स्रोत
- ↑ Koskenniemi, Kimmo (1983), Two-level morphology: A general computational model of word-form recognition and production (PDF), Department of General Linguistics, University of Helsinki
- ↑ Joshi, A. K., & Weinstein, S. (1981, August). Control of Inference: Role of Some Aspects of Discourse Structure-Centering. In IJCAI (pp. 385-387).
- ↑ Guida, G.; Mauri, G. (July 1986). "प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण". Proceedings of the IEEE. 74 (7): 1026–1035. doi:10.1109/PROC.1986.13580. ISSN 1558-2256. S2CID 30688575.
- ↑ Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics. The creation and use of such corpora of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "poverty of the stimulus" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.
- ↑ Goldberg, Yoav (2016). "प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर". Journal of Artificial Intelligence Research. 57: 345–420. arXiv:1807.10854. doi:10.1613/jair.4992. S2CID 8273530.
- ↑ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press.
- ↑ Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). भाषा मॉडलिंग की सीमाओं की खोज. arXiv:1602.02410. Bibcode:2016arXiv160202410J.
- ↑ Choe, Do Kook; Charniak, Eugene. "भाषा मॉडलिंग के रूप में पार्सिंग". Emnlp 2016. Archived from the original on 2018-10-23. Retrieved 2018-10-22.
- ↑ Vinyals, Oriol; et al. (2014). "एक विदेशी भाषा के रूप में व्याकरण" (PDF). Nips2015. arXiv:1412.7449. Bibcode:2014arXiv1412.7449V.
- ↑ Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा". Journal of Diabetes Science and Technology (in English). 15 (3): 553–560. doi:10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486.
- ↑ Winograd, Terry (1971). प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं (Thesis).
- ↑ Schank, Roger C.; Abelson, Robert P. (1977). लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच. Hillsdale: Erlbaum. ISBN 0-470-99033-3.
- ↑ Mark Johnson. How the statistical revolution changes (computational) linguistics. Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.
- ↑ Philip Resnik. Four revolutions. Language Log, February 5, 2011.
- ↑ "एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना" (PDF).
- ↑ Trabelsi, Chiheb; Bilaniuk, Olexa; Zhang, Ying; Serdyuk, Dmitriy; Subramanian, Sandeep; Santos, João Felipe; Mehri, Soroush; Rostamzadeh, Negar; Bengio, Yoshua; Pal, Christopher J. (2018-02-25). "डीप कॉम्प्लेक्स नेटवर्क". arXiv:1705.09792 [cs.NE].
- ↑ Socher, Richard. "एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग". www.socher.org. Retrieved 2020-08-17. This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]
- ↑ Yi, Chucai; Tian, Yingli (2012), "Assistive Text Reading from Complex Background for Blind Persons", Camera-Based Document Analysis and Recognition (in English), Springer Berlin Heidelberg, pp. 15–28, CiteSeerX 10.1.1.668.869, doi:10.1007/978-3-642-29364-1_2, ISBN 9783642293634
- ↑ "प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय". GyanSetu! (in English). 2020-12-06. Retrieved 2021-01-09.
- ↑ Kishorjit, N.; Vidya, Raj RK.; Nirmal, Y.; Sivaji, B. (2012). "मणिपुरी रूपिम पहचान" (PDF). Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP). COLING 2012, Mumbai, December 2012: 95–108.
{{cite journal}}
: CS1 maint: location (link) - ↑ Klein, Dan; Manning, Christopher D. (2002). "एक घटक-संदर्भ मॉडल का उपयोग करके प्राकृतिक भाषा व्याकरण प्रेरण" (PDF). Advances in Neural Information Processing Systems.
- ↑ PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/
- ↑ Lippi, Marco; Torroni, Paolo (2016-04-20). "आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स". ACM Transactions on Internet Technology (in English). 16 (2): 1–25. doi:10.1145/2850417. hdl:11585/523460. ISSN 1533-5399. S2CID 9561587.
- ↑ "तर्क खनन - IJCAI2016 ट्यूटोरियल". www.i3s.unice.fr. Retrieved 2021-03-09.
- ↑ "कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन" (in British English). Retrieved 2021-03-09.
- ↑ "उबउउवबेब :: राक्टर". www.ubu.com. Retrieved 2020-08-17.
- ↑ Writer, Beta (2019). लिथियम आयन बैटरी (in British English). doi:10.1007/978-3-030-16800-1. ISBN 978-3-030-16799-8. S2CID 155818532.
- ↑ "Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube". www.youtube.com. Archived from the original on 2021-10-30. Retrieved 2021-01-11.
- ↑ Administration. "भाषा प्रौद्योगिकी केंद्र (सीएलटी)". Macquarie University (in English). Retrieved 2021-01-11.
- ↑ "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
- ↑ "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
- ↑ Duan, Yucong; Cruz, Christophe (2011). "अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना". International Journal of Innovation, Management and Technology. 2 (1): 37–42. Archived from the original on 2011-10-09.
- ↑ Robertson, Adi (2022-04-06). "OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है". The Verge (in English). Retrieved 2022-06-07.
- ↑ "स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप". nlp.stanford.edu. Retrieved 2022-06-07.
- ↑ Coyne, Bob; Sproat, Richard (2001-08-01). "WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली". Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. SIGGRAPH '01. New York, NY, USA: Association for Computing Machinery: 487–496. doi:10.1145/383259.383316. ISBN 978-1-58113-374-5. S2CID 3842372.
- ↑ "Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है". VentureBeat (in English). 2022-11-02. Retrieved 2022-11-09.
- ↑ Vincent, James (2022-09-29). "मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है". The Verge (in English). Retrieved 2022-11-09.
- ↑ "पिछले साझा कार्य | CoNLL". www.conll.org. Retrieved 2021-01-11.
- ↑ "अनुभूति". Lexico. Oxford University Press and Dictionary.com. Archived from the original on July 15, 2020. Retrieved 6 May 2020.
- ↑ "संज्ञानात्मक वैज्ञानिक से पूछें". American Federation of Teachers. 8 August 2014.
संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।
- ↑ Robinson, Peter (2008). संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका. Routledge. pp. 3–8. ISBN 978-0-805-85352-0.
- ↑ Lakoff, George (1999). मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
- ↑ Strauss, Claudia (1999). सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत. Cambridge University Press. pp. 156–164. ISBN 978-0-521-59541-4.
- ↑ "यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)". यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए) (in English). Retrieved 2021-01-11.
- ↑ Rodríguez, F. C., & Mairal-Usón, R. (2016). Building an RRG computational grammar. Onomazein, (34), 86-117.
- ↑ "द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली" (in English). Retrieved 2021-01-11.
- ↑ "एसीएल सदस्य पोर्टल | संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल". www.aclweb.org. Retrieved 2021-01-11.
- ↑ "टुकड़े और नियम". www.w3.org (in English). Retrieved 2021-01-11.
- ↑ Socher, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; Ng, Andrew Y. (2014). "वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ". Transactions of the Association for Computational Linguistics. 2: 207–218. doi:10.1162/tacl_a_00177. S2CID 2317858.
अग्रिम पठन
- Bates, M (1995). "Models of natural language understanding". Proceedings of the National Academy of Sciences of the United States of America. 92 (22): 9977–9982. Bibcode:1995PNAS...92.9977B. doi:10.1073/pnas.92.22.9977. PMC 40721. PMID 7479812.
- Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
- Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
- Mohamed Zakaria Kurdi (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
- Mohamed Zakaria Kurdi (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.
- Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
- Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
- David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
बाहरी संबंध
- Media related to प्राकृतिक भाषा प्रसंस्करण at Wikimedia Commons