प्राकृतिक भाषा प्रसंस्करण
प्राकृतिक भाषा प्रसंस्करण (एनएलपी) भाषाविज्ञान, संगणक विज्ञान और कृत्रिम बुद्धि का एक उपक्षेत्र है जो संगणक और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित करने और विश्लेषण करने के लिए संगणक को कैसे प्रोग्राम किया जाए। लक्ष्य एक संगणक है जो दस्तावेजों की सामग्री को समयदिझने में सक्षम है, जिसमें उनके भीतर भाषा के संदर्भ (भाषा उपयोग) की बारीकियों को सम्मलित किया गया है। प्रौद्योगिकी तब दस्तावेजों में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही दस्तावेजों को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।
प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अधिकांशतः वाक् पहचान, प्राकृतिक-भाषा समझ और प्राकृतिक भाषा पीढ़ी|प्राकृतिक-भाषा पीढ़ी सम्मलित होती है।
इतिहास
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने संगणन मशीनरी और इंटेलिजेंस नामक एक लेख प्रकाशित किया था, जिसे प्रस्तावित किया गया था जिसे अब ट्यूरिंग टेस्ट कहा जाता है, जो कि बुद्धि की कसौटी के रूप में है, चूंकि उस समय इसे कृत्रिम बुद्धिमत्ता से अलग समस्या के रूप में व्यक्त नहीं किया गया था। प्रस्तावित परीक्षण में एक कार्य सम्मलित है जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा का निर्माण सम्मलित है।
प्रतीकात्मक एनएलपी (1950 - 1990 के दशक की शुरुआत)
प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है: नियमों के संग्रह को देखते हुए (उदाहरण के लिए, एक चीनी वाक्यांशपुस्तिका, प्रश्नों और मिलान वाले उत्तरों के साथ), संगणक प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) को लागू करके उनका अनुकरण करता है। इसका सामना करने वाले डेटा के नियम।
- 1950 का दशक: 1954 में जॉर्जटाउन-आईबीएम प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद सम्मलित था। लेखकों ने दावा किया कि तीन या पाँच वर्षों के भीतर, मशीनी अनुवाद एक समस्या का समाधान हो जाएगा।[2] हालाँकि, वास्तविक प्रगति बहुत धीमी थी, और 1966 में एलपीसी के बाद, जिसमें पाया गया कि दस साल का लंबा शोध उम्मीदों को पूरा करने में विफल रहा, मशीन अनुवाद के लिए फंडिंग नाटकीय रूप से कम हो गई। 1980 के दशक के अंत तक मशीन अनुवाद में थोड़ा और शोध किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
- 1960 का दशक: 1960 के दशक में विकसित कुछ विशेष रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ थीं, एसएचआरडीएलयू , एक प्राकृतिक भाषा प्रणाली जो प्रतिबंधित शब्दसंग्रह के साथ प्रतिबंधित ब्लॉक दुनिया में काम कर रही थी, और एलिजा, एक रोजरियन मनोचिकित्सा का अनुकरण, जो 1964 और 1966 के बीच जोसेफ व्हीटबाउम द्वारा लिखा गया था। मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं, एलिजा ने कभी-कभी आश्चर्यजनक रूप से मानव-जैसी बातचीत प्रदान की। जब रोगी बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिजा एक सामान्य प्रतिक्रिया प्रदान कर सकता है, उदाहरण के लिए, मेरे सिर में दर्द होता मीहान है, आप ऐसा क्यों कहते हैं कि आपका सिर दर्द करता है? .
- 1970 का दशक: 1970 के दशक के दौरान, कई प्रोग्रामरों ने वैचारिक सत्तामीमांसा (सूचना विज्ञान) लिखना शुरू किया, जिसने वास्तविक दुनिया की जानकारी को संगणक-समझने योग्य डेटा में संरचित किया। उदाहरण हैं मार्गी (स्कैंक, 1975), सैम (कुलिंगफोर्ड, 1978), पाम (विलेंस्की, 1978), टेलस्पिन (Meehan, 1976), सन्देह (लहनर्ट, 1977), पॉलिटिक्स (कार्बोनेल, 1979), और षड्यंत्र इकाइयाँ (लहनर्ट 1981) ). इस समय के दौरान, पहला चैटरबॉट्स लिखा गया (जैसे, बचाव)।
- 1980 का दशक: 1980 और 1990 के दशक की शुरुआत एनएलपी में प्रतीकात्मक तरीकों के उत्कर्ष का प्रतीक है। उस समय के फोकस क्षेत्रों में नियम-आधारित पार्सिंग पर शोध सम्मलित था (उदाहरण के लिए, हेड-संचालित वाक्यांश संरचना व्याकरण का विकास उत्पादक व्याकरण के कम्प्यूटेशनल संचालन के रूप में), आकृति विज्ञान (जैसे, दो-स्तरीय आकृति विज्ञान)[3]), शब्दार्थ (जैसे, लेस्क एल्गोरिथम), संदर्भ (जैसे, केंद्र सिद्धांत के भीतर[4]) और प्राकृतिक भाषा की समझ के अन्य क्षेत्र (उदाहरण के लिए, आलंकारिक संरचना सिद्धांत में)। अनुसंधान की अन्य पंक्तियाँ जारी रहीं, उदाहरण के लिए, रैक्टर और जबरवाकी के साथ चैटरबॉट्स का विकास। एक महत्वपूर्ण विकास (जो अंततः 1990 के दशक में सांख्यिकीय मोड़ का कारण बना) इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व था।[5]
सांख्यिकीय एनएलपी (1990-2010)
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हाथ से लिखे नियमों के जटिल सेटों पर आधारित थीं। चूंकि, 1980 के दशक के अंत में, भाषा प्रसंस्करण के लिए मशीन लर्निंग एल्गोरिदम की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति आई। यह कम्प्यूटेशनल शक्ति में लगातार वृद्धि (मूर का नियम देखें) और भाषाविज्ञान के नोम चौमस्की सिद्धांतों (जैसे परिवर्तनकारी व्याकरण) के प्रभुत्व के क्रमिक कम होने के कारण था, जिनके सैद्धांतिक आधार ने मशीन-सीखने के आधार पर कॉर्पस भाषाविज्ञान को हतोत्साहित किया। भाषा प्रसंस्करण के लिए दृष्टिकोण।[6] *1990 का दशक: विशेष रूप से आईबीएम रिसर्च में काम करने के कारण, एनएलपी में सांख्यिकीय विधियों पर उल्लेखनीय प्रारंभिक सफलताओं में से कई मशीनी अनुवाद के क्षेत्र में हुईं। ये प्रणाली उपस्थित ा बहुभाषी पाठ कोष का लाभ उठाने में सक्षम थे जो सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए कॉल करने वाले कानूनों के परिणामस्वरूप कनाडा की संसद और यूरोपीय संघ द्वारा तैयार किए गए थे। चूंकि, अधिकांश अन्य प्रणालियां इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित कॉर्पोरा पर निर्भर थीं, जो इन प्रणालियों की सफलता में एक प्रमुख सीमा थी (और अधिकांशतः बनी हुई है)। परिणाम स्वरुप , सीमित मात्रा में डेटा से अधिक प्रभावी ढंग से सीखने के तरीकों में काफी शोध किया गया है।
- 2000 का दशक: वेब के विकास के साथ, 1990 के दशक के मध्य से अपरिष्कृत (अनएनोटेटेड) भाषा डेटा की बढ़ती मात्रा उपलब्ध हो गई है। अनुसंधान इस प्रकार तेजी से अप्रशिक्षित शिक्षण और अर्ध-पर्यवेक्षित शिक्षण एल्गोरिदम पर ध्यान केंद्रित कर रहा है। ऐसे एल्गोरिदम उस डेटा से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से एनोटेट नहीं किया गया है या एनोटेटेड और गैर-एनोटेटेड डेटा के संयोजन का उपयोग कर रहा है। आम तौर पर, यह कार्य पर्यवेक्षित शिक्षण से कहीं अधिक कठिन होता है, और आम तौर पर इनपुट डेटा की दी गई मात्रा के लिए कम सटीक परिणाम उत्पन्न करता है। हालाँकि, बड़ी मात्रा में गैर-एनोटेट डेटा उपलब्ध है (अन्य बातों के अतिरिक्त , वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित), जो अधिकांशतः निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए एल्गोरिथ्म में कम समय की जटिलता हो व्यावहारिक बनो।
तंत्रिका एनएलपी (वर्तमान)
2010 के दशक में, प्राकृतिक भाषा प्रसंस्करण में प्रतिनिधित्व शिक्षण और गहन शिक्षण-शैली मशीन सीखने के विधि व्यापक हो गए। यह लोकप्रियता आंशिक रूप से ऐसी तकनीकों को दिखाने वाले परिणामों की हड़बड़ाहट के कारण थी[7][8] भाषा मॉडलिंग जैसे कई प्राकृतिक भाषा कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं[9] और विश्लेषण।[10][11] स्वास्थ्य सेवा में यह तेजी से महत्वपूर्ण कृत्रिम बुद्धिमत्ता है, जहां एनएलपी इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड में नोट्स और पाठ का विश्लेषण करने में मदद करता है जो अन्यथा देखभाल में सुधार की मांग करते समय अध्ययन के लिए दुर्गम होगा।[12]
विधि: नियम, सांख्यिकी, तंत्रिका नेटवर्क
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से डिजाइन किया गया था, अर्थात, नियमों के एक सेट की हाथ से कोडिंग, एक शब्दकोश लुकअप के साथ मिलकर:[13][14] जैसे कि व्याकरण लिखकर या उत्पन्न के लिए अनुमानी नियम बनाकर।
मशीन लर्निंग|मशीन-लर्निंग एल्गोरिद्म पर आधारित हालिया प्रणाली के हाथ से बनाए गए नियमों की तुलना में कई फायदे हैं:
- मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे आम स्थितियों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
- स्वत: सीखने की प्रक्रिया सांख्यिकीय अनुमान एल्गोरिदम का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित इनपुट (जैसे शब्दों या संरचनाओं को पहले नहीं देखा गया है) और गलत इनपुट (जैसे गलत शब्दों या शब्दों को गलती से छोड़े गए) के लिए मजबूत हैं। आम तौर पर, ऐसे इनपुट को हस्तलिखित नियमों के साथ शान से संभालना, या अधिक आम तौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाला है।
- स्वचालित रूप से नियमों को सीखने पर आधारित प्रणाली को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा होती है, जिसके आगे प्रणालियाँ अधिक से अधिक अप्रबंधनीय हो जाती हैं। चूंकि, मशीन-लर्निंग प्रणाली में इनपुट करने के लिए अधिक डेटा बनाने के लिए बस काम किए गए मानव-घंटे की संख्या में समान वृद्धि की आवश्यकता होती है, आम तौर पर एनोटेशन प्रक्रिया की जटिलता में महत्वपूर्ण वृद्धि के बिना।
एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के फिर भी, प्रतीकात्मक विधि अभी भी (2020) सामान्यतः उपयोग किए जाते हैं:
- जब मशीन सीखने के तरीकों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण डेटा की मात्रा अपर्याप्त हो, उदाहरण के लिए, कम संसाधन वाली भाषाओं के मशीनी अनुवाद के लिए जैसे एपर्टियम प्रणाली द्वारा प्रदान की गई,
- एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदाहरण के लिए, टोकनाइजेशन (लेक्सिकल एनालिसिस), या
- एनएलपी पाइपलाइनों के आउटपुट को पोस्टप्रोसेसिंग और बदलने के लिए, उदाहरण के लिए, सिंटैक्टिक पार्स से ज्ञान निकालने के लिए।
सांख्यिकीय विधि
तथाकथित सांख्यिकीय क्रांति के बाद से[15][16] 1980 के दशक के अंत और 1990 के दशक के मध्य में, अधिकांश प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन लर्निंग पर बहुत अधिक निर्भर थे। मशीन-लर्निंग प्रतिमान विशिष्ट वास्तविक दुनिया के उदाहरणों के बड़े टेक्स्ट कॉर्पस (कॉर्पस का बहुवचन रूप, संभवतः मानव या संगणक एनोटेशन के साथ दस्तावेजों का एक सेट है) के विश्लेषण के माध्यम से ऐसे नियमों को स्वचालित रूप से सीखने के लिए सांख्यिकीय अनुमान का उपयोग करने के लिए कहता है।
मशीन-लर्निंग एल्गोरिदम के कई अलग-अलग वर्गों को प्राकृतिक-भाषा-प्रसंस्करण कार्यों पर लागू किया गया है। ये एल्गोरिदम इनपुट के रूप में सुविधाओं का एक बड़ा सेट लेते हैं जो इनपुट डेटा से उत्पन्न होते हैं। चूंकि, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो प्रत्येक इनपुट फीचर (जटिल-मूल्यवान शब्द एम्बेडिंग,[17] और सामान्य रूप से तंत्रिका नेटवर्क भी प्रस्तावित किए गए हैं, उदाहरण के लिए भाषण[18]). इस तरह के मॉडलों का लाभ यह है कि वे केवल एक के बजाय कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में सम्मलित किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।
सबसे पहले उपयोग किए जाने वाले मशीन लर्निंग एल्गोरिदम में से कुछ, जैसे कि निर्णय वृक्ष, उपस्थित ा हाथ से लिखे नियमों के समान सख्त यदि-फिर नियमों का उत्पादन करते हैं। चूंकि, भाषण टैगिंग का हिस्सा|पार्ट-ऑफ-स्पीच टैगिंग ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल का उपयोग शुरू किया, और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है, जो वास्तविक-मूल्यवान वजन को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। इनपुट डेटा बनाने वाली सुविधाएँ। कैश भाषा मॉडल जिस पर अब कई स्पीच रिकग्निशन प्रणाली भरोसा करते हैं, ऐसे सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित इनपुट दिए जाने पर ऐसे मॉडल आम तौर पर अधिक मजबूत होते हैं, विशेष रूप से इनपुट जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के डेटा के लिए बहुत सामान्य है), और कई उप-कार्यों वाली एक बड़ी प्रणाली में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।
तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय तरीकों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा बदल दिया गया है। हालाँकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।
तंत्रिका नेटवर्क
सांख्यिकीय विधियों की एक बड़ी कमी यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। 2015 से,[19] इस प्रकार क्षेत्र ने बड़े पैमाने पर सांख्यिकीय विधियों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है। लोकप्रिय तकनीकों में शब्दों के सिमेंटिक गुणों को पकड़ने के लिए शब्द एम्बेडिंग का उपयोग सम्मलित है, और अलग-अलग मध्यवर्ती कार्यों की पाइपलाइन पर भरोसा करने के बजाय उच्च-स्तरीय कार्य (जैसे, प्रश्न उत्तर) के अंत-से-अंत सीखने में वृद्धि (उदाहरण के लिए, पार्ट-ऑफ-स्पीच टैगिंग और डिपेंडेंसी पार्सिंग)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी प्रणाली को कैसे डिजाइन किया गया है, इस तरह के गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोणों को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग एक नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, तंत्रिका मशीन अनुवाद (एनएमटी) शब्द इस तथ्य पर जोर देता है कि मशीनी अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे Seq2seq|अनुक्रम-से-अनुक्रम परिवर्तनों को सीखते हैं, जो शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता को कम करते हैं। सांख्यिकीय मशीन अनुवाद (एसएमटी) में।
सामान्य एनएलपी कार्य
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोधित कार्यों में से कुछ की सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य सामान्यतः उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।
चूंकि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से आपस में जुड़े हुए हैं, सुविधा के लिए उन्हें श्रेणियों में उप-विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।
टेक्स्ट और स्पीच प्रोसेसिंग
- ऑप्टिकल कैरेक्टर मान्यता (ओसीआर)
- मुद्रित पाठ का प्रतिनिधित्व करने वाली एक छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
- भाषण मान्यता
- किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के शाब्दिक प्रतिनिधित्व का निर्धारण करें। यह टेक्स्ट टू स्पीच के विपरीत है और बोलचाल की भाषा में एआई-पूर्ण (ऊपर देखें) कहलाने वाली अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में लगातार शब्दों के बीच शायद ही कोई विराम होता है, और इस प्रकार भाषण विभाजन वाक् पहचान का एक आवश्यक उप-कार्य है (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में मिल जाती हैं, जिसे कॉर्टिक्यूलेशन कहा जाता है, इसलिए एनालॉग संकेत को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अतिरिक्त , यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को इनपुट की व्यापक विविधता को पहचानने में सक्षम होना चाहिए क्योंकि यह पाठ्य समकक्ष के संदर्भ में एक दूसरे के समान है।
- भाषण विभाजन
- किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, इसे शब्दों में अलग करें। वाक् पहचान का एक उपकार्य और सामान्यतः इसके साथ समूहीकृत।
- [[लिखे हुए को बोलने में बदलना]]
- एक पाठ दिया, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। नेत्रहीनों की सहायता के लिए टेक्स्ट-टू-स्पीच का उपयोग किया जा सकता है।[20]
- शब्द विभाजन (प्रतीकीकरण (शाब्दिक विश्लेषण))
- निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। अंग्रेजी भाषा जैसी भाषा के लिए, यह काफी तुच्छ है, क्योंकि शब्दों को सामान्यतः रिक्त स्थान से अलग किया जाता है। हालाँकि, चीनी भाषा, जापानी भाषा और थाई भाषा जैसी कुछ लिखित भाषाएँ इस तरह से शब्द सीमाओं को चिह्नित नहीं करती हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है, जिसमें भाषा में शब्दों की शब्दावली और आकृति विज्ञान (भाषाविज्ञान) के ज्ञान की आवश्यकता होती है। कभी-कभी इस प्रक्रिया का उपयोग डेटा माइनिंग में शब्दों का थैला (BOW) निर्माण जैसे स्थितियों में भी किया जाता है।
रूपात्मक विश्लेषण
- लेमैटाइजेशन
- केवल इन्फ्लेक्शनल एंडिंग्स को हटाने का कार्य और एक शब्द के बेस डिक्शनरी फॉर्म को वापस करने के लिए जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए लेमैटाइजेशन एक और तकनीक है। लेकिन इस मामले में, परिवर्तन वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है।[21]
- आकृति विज्ञान (भाषाविज्ञान)
- अलग-अलग शब्दों को अलग-अलग morphemes में विभाजित करें और morphemes के वर्ग की पहचान करें। इस कार्य की कठिनाई विचार की जा रही भाषा की आकृति विज्ञान (भाषाविज्ञान) (अर्थात , शब्दों की संरचना) की जटिलता पर बहुत निर्भर करती है। अंग्रेजी भाषा में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकृति विज्ञान, और इस प्रकार यह अधिकांशतः इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों (जैसे, खुला, खुला, खुला, खोलना) को अलग-अलग शब्दों के रूप में मॉडल करना संभव है। तुर्की भाषा या मैतेई भाषा जैसी भाषाओं में,[22] एक उच्च समूहन वाली भारतीय भाषा, चूंकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
- पार्ट-ऑफ-स्पीच टैगिंग
- एक वाक्य दिया गया है, प्रत्येक शब्द के लिए भाषण का हिस्सा (पीओएस) निर्धारित करें। कई शब्द, विशेष रूप से सामान्य शब्द, भाषण के कई भागों के रूप में काम कर सकते हैं। उदाहरण के लिए, पुस्तक एक संज्ञा (मेज पर किताब) या क्रिया (एक उड़ान बुक करने के लिए) हो सकती है; सेट संज्ञा, क्रिया या विशेषण हो सकता है; और बाहर भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।
- स्टेमिंग
- विभक्ति (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया (जैसे, बंद, बंद, बंद, बंद, पास आदि के लिए जड़ होगी)। स्टेमिंग लेम्मटाइजेशन के समान परिणाम देता है, लेकिन नियमों के आधार पर ऐसा करता है, शब्दकोष नहीं।
वाक्यात्मक विश्लेषण
- व्याकरण प्रेरण[23]
- एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के वाक्य-विन्यास का वर्णन करता हो।
- वाक्य भंग (वाक्य सीमा असंबद्धता के रूप में भी जाना जाता है)
- टेक्स्ट का एक हिस्सा दिया गया है, वाक्य की सीमाएं खोजें। वाक्य सीमाओं को अधिकांशतः पूर्ण विराम या अन्य विराम चिह्नों द्वारा चिह्नित किया जाता है, लेकिन ये समान वर्ण अन्य उद्देश्यों (जैसे, संक्षिप्त रूप को चिह्नित करना) की सेवा कर सकते हैं।
- पदच्छेद
- किसी दिए गए वाक्य के पार्स पेड़ (व्याकरणिक विश्लेषण) का निर्धारण करें। प्राकृतिक भाषाओं के लिए व्याकरण अस्पष्ट है और विशिष्ट वाक्यों के कई संभावित विश्लेषण हैं: शायद आश्चर्यजनक रूप से, एक विशिष्ट वाक्य के लिए हजारों संभावित पार्स हो सकते हैं (जिनमें से अधिकांश मानव के लिए पूरी तरह से निरर्थक प्रतीत होंगे)। पार्सिंग के दो प्राथमिक प्रकार हैं: निर्भरता पार्सिंग और निर्वाचन क्षेत्र पार्सिंग। निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) का उपयोग करके पार्स ट्री बनाने पर केंद्रित है (स्टोकेस्टिक व्याकरण भी देखें)।
शाब्दिक शब्दार्थ (संदर्भ में अलग-अलग शब्दों का)
- शाब्दिक शब्दार्थ
- संदर्भ में अलग-अलग शब्दों का कम्प्यूटेशनल अर्थ क्या है?
- वितरण संबंधी शब्दार्थ
- हम डेटा से शब्दार्थ निरूपण कैसे सीख सकते हैं?
- नामांकित इकाई पहचान (एनईआर)
- पाठ की एक धारा दी गई है, यह निर्धारित करें कि टेक्स्ट मैप में कौन से आइटम उचित नामों के लिए हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। चूंकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है, और किसी भी मामले में, अधिकांशतः गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित संस्थाओं में अधिकांशतः कई शब्द होते हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होते हैं। इसके अतिरिक्त , गैर-पश्चिमी लिपियों (जैसे चीनी भाषा या अरबी भाषा) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक कि पूंजीकरण वाली भाषाएं नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन भाषा सभी संज्ञाओं को कैपिटलाइज़ करती है, भले ही वे नाम हों, और फ्रेंच भाषा और स्पैनिश भाषा उन नामों को कैपिटलाइज़ नहीं करती हैं जो विशेषण के रूप में काम करते हैं।
- भावना विश्लेषण (मल्टीमॉडल भावना विश्लेषण भी देखें)
- विशिष्ट वस्तुओं के बारे में ध्रुवीयता निर्धारित करने के लिए अधिकांशतः ऑनलाइन समीक्षाओं का उपयोग करते हुए, सामान्यतः दस्तावेजों के एक सेट से व्यक्तिपरक जानकारी निकालें। यह विशेष रूप से मार्केटिंग के लिए सोशल मीडिया में जनमत के रुझानों की पहचान करने के लिए उपयोगी है।
- शब्दावली निष्कर्षण
- शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कॉर्पस से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
- Word-sense disambiguation (WSD)
- कई शब्दों के एक से अधिक अर्थ होते हैं (भाषा विज्ञान); हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक अर्थपूर्ण हो। इस समस्या के लिए, हमें आम तौर पर शब्दों और संबंधित शब्द इंद्रियों की एक सूची दी जाती है, उदा। किसी शब्दकोश या किसी ऑनलाइन संसाधन जैसे WordNet से।
- निकाय लिंकिंग
- कई शब्द—सामान्यतः उचित नाम—नामांकित निकाय को संदर्भित करते हैं; यहां हमें इकाई (एक प्रसिद्ध व्यक्ति, एक स्थान, एक कंपनी, आदि) का चयन करना है जिसे संदर्भ में संदर्भित किया गया है।
संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों का शब्दार्थ)
- संबंध निष्कर्षण
- पाठ का एक हिस्सा दिया गया है, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए कौन किससे विवाहित है)।
- सिमेंटिक पार्सिंग
- पाठ का एक टुकड़ा (सामान्यतः एक वाक्य) दिया जाता है, या तो एक ग्राफ के रूप में (उदाहरण के लिए, सार अर्थ प्रतिनिधित्व में) या एक तार्किक औपचारिकता के अनुसार (उदाहरण के लिए, प्रवचन प्रतिनिधित्व सिद्धांत में) इसके शब्दार्थ का एक औपचारिक प्रतिनिधित्व करता है। इस चुनौती में आम तौर पर शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू सम्मलित हैं (उदाहरण के लिए, सिमेंटिक रोल लेबलिंग, शब्द-भावना की व्याख्या) और पूर्ण व्याख्यान विश्लेषण (उदाहरण के लिए, भाषण विश्लेषण, सह-संदर्भ) को सम्मलित करने के लिए बढ़ाया जा सकता है; नीचे #Natural भाषा समझ देखें ).
- सिमेंटिक रोल लेबलिंग (नीचे अंतर्निहित सिमेंटिक रोल लेबलिंग भी देखें)
- एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) को पहचानें और स्पष्ट करें, फिर फ्रेम एलिमेंट्स (शब्दार्थ भूमिकाएँ) को पहचानें और वर्गीकृत करें।
प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)
- कोरेफरेंस
- एक वाक्य या पाठ का बड़ा हिस्सा दिया गया है, यह निर्धारित करें कि कौन से शब्द (उल्लेख) समान वस्तुओं (इकाइयों) को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का एक विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है, जिनका वे उल्लेख करते हैं। सहसंदर्भ संकल्प के अधिक सामान्य कार्य में तथाकथित ब्रिजिंग संबंधों की पहचान करना भी सम्मलित है जिसमें संदर्भ अभिव्यक्ति सम्मलित है। उदाहरण के लिए, एक वाक्य में जैसे कि उसने जॉन के घर में प्रवेश द्वार के माध्यम से प्रवेश किया, सामने का दरवाजा एक संदर्भ अभिव्यक्ति है और पहचाने जाने वाले पुल संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के घर का सामने का दरवाजा है (बजाय किसी अन्य संरचना का जिसे भी संदर्भित किया जा सकता है)।
- भाषण विश्लेषण
- इस रूब्रिक में कई संबंधित कार्य सम्मलित हैं। एक कार्य प्रवचन विश्लेषण है, अर्थात, एक जुड़े पाठ की प्रवचन संरचना की पहचान करना, अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, विपरीत)। एक अन्य संभावित कार्य भाषण क्रियाओं को पाठ के एक भाग में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, अभिकथन, आदि)।
- Implicit semantic role labelling
- एक वाक्य दिया गया है, सिमेंटिक प्रेडीकेट्स (जैसे, वर्बल फ्रेम सिमेंटिक्स (भाषाविज्ञान)) और वर्तमान वाक्य में उनकी स्पष्ट सिमेंटिक भूमिकाओं को पहचानें और स्पष्ट करें (ऊपर #सिमेंटिक रोल लेबलिंग देखें)। फिर, सिमेंटिक भूमिकाओं की पहचान करें जो वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं की गई हैं, उन्हें उन तर्कों में वर्गीकृत करें जो पाठ में कहीं और स्पष्ट रूप से महसूस किए गए हैं और जो निर्दिष्ट नहीं हैं, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक पासी से संबंधित कार्य शून्य अनाफोरा संकल्प है, अर्थात , प्रो-ड्रॉप भाषाओं के लिए कोरेफेरेंस संकल्प का विस्तार।
- पाठ्य आकर्षण
- दो टेक्स्ट अंश दिए गए हैं, यह निर्धारित करें कि क्या एक सच होने के कारण दूसरे पर जोर पड़ता है, दूसरे की अस्वीकृति पर जोर देता है, या दूसरे को सही या गलत होने की अनुमति देता है।[24]
- विषय विभाजन और मान्यता
- पाठ का एक हिस्सा दिया गया है, इसे खंडों में विभाजित करें जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
- तर्क खनन
- तर्क खनन का लक्ष्य संगणक प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से स्वचालित निष्कर्षण और तार्किक संरचनाओं की पहचान है।[25] इस तरह के तर्कसंगत संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद सम्मलित हैं।[26][27]
उच्च स्तरीय एनएलपी अनुप्रयोग
- स्वचालित सारांश (पाठ संक्षेप)
- पाठ के एक हिस्से का एक पठनीय सारांश तैयार करें। अधिकांशतः किसी ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
- पुस्तक पीढ़ी
- एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा पीढ़ी और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में एक नियम-आधारित प्रणाली द्वारा बनाई गई थी (रैक्टर, द पुलिसमैन की दाढ़ी आधी है)।[28] एक तंत्रिका नेटवर्क द्वारा पहला प्रकाशित काम 2018 में प्रकाशित हुआ था, 1 सड़क, एक उपन्यास के रूप में विपणन किया गया, जिसमें साठ लाख शब्द सम्मलित हैं। ये दोनों प्रणालियाँ मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं। पहली मशीन-जनित विज्ञान पुस्तक 2019 (बीटा राइटर, लिथियम-आयन बैटरी, स्प्रिंगर, चाम) में प्रकाशित हुई थी।[29] रैक्टर और 1 द रोड के विपरीत, यह तथ्यात्मक ज्ञान पर आधारित है और पाठ सारांश पर आधारित है।
- संवाद प्रणाली
- संगणक प्रणाली का उद्देश्य मानव के साथ बातचीत करना है।
- दस्तावेज़ एआई
- एक दस्तावेज एआई प्लेटफॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है, जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के पूर्व अनुभव के बिना विभिन्न दस्तावेज़ प्रकारों से आवश्यक विशिष्ट डेटा निकालने के लिए संगणक को जल्दी से प्रशिक्षित करने में सक्षम बनाता है। एनएलपी-संचालित दस्तावेज़ एआई गैर-तकनीकी टीमों को दस्तावेज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और एकाउंटेंट तक त्वरित रूप से पहुंचने में सक्षम बनाता है।[30]
- Grammatical error correction
- व्याकरणिक त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई सम्मलित है (फोनोलॉजी / ऑर्थोग्राफी, आकृति विज्ञान, वाक्यविन्यास, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह सैकड़ों लाखों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग या अधिग्रहण करते हैं। इस प्रकार यह 2011 से कई साझा कार्यों के अधीन रहा है।[31][32][33] जहाँ तक वर्तनी, आकृति विज्ञान, वाक्य-विन्यास और शब्दार्थ के कुछ पहलुओं का संबंध है, और GPT-2 जैसे शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण, इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न क्षेत्रों में इसका विपणन किया जा रहा है। वाणिज्यिक अनुप्रयोग।
- मशीन अनुवाद
- स्वचालित रूप से पाठ का एक मानव भाषा से दूसरी भाषा में अनुवाद करें। यह सबसे कठिन समस्याओं में से एक है, और समस्याओं के एक वर्ग का सदस्य है जिसे आम बोलचाल की भाषा में एआई-पूर्ण कहा जाता है, अर्थात इसके लिए मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ठीक से हल करना।
- नेचुरल लैंग्वेज जेनरेशन|नेचुरल-लैंग्वेज जेनरेशन (NLG):
- संगणक डेटाबेस या सिमेंटिक इंटेंट्स से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
- नेचुरल-लैंग्वेज अंडरस्टैंडिंग (एनएलयू)
- टेक्स्ट के टुकड़ों को अधिक औपचारिक प्रस्तुतियों में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो संगणक प्रोग्राम के लिए हेरफेर करना आसान है। प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से अभिप्रेत शब्दार्थ की पहचान सम्मलित है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो सामान्यतः प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण प्रभावी है लेकिन अनुभवजन्य समाधान हैं। क्लोज्ड-वर्ल्ड धारणा (सीडब्ल्यूए) बनाम ओपन-वर्ल्ड धारणा, या व्यक्तिपरक हां/नहीं बनाम उद्देश्य सत्य/गलत जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा शब्दार्थों का एक स्पष्ट औपचारिकता शब्दार्थ औपचारिकता के आधार के निर्माण के लिए अपेक्षित है .[34]
- प्रश्न उत्तर
- मानव-भाषा के प्रश्न को देखते हुए, इसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे कि कनाडा की राजधानी क्या है?), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे जीवन का अर्थ क्या है?)।
- टेक्स्ट-टू-इमेज जेनरेशन
- एक इमेज के विवरण को देखते हुए, एक ऐसी इमेज जेनरेट करें जो विवरण से मेल खाती हो।[35]
- टेक्स्ट-टू-सीन पीढ़ी
- एक दृश्य के विवरण को देखते हुए, दृश्य का एक मॉडल की गिनती उत्पन्न करें।[36][37]
- टेक्स्ट-टू-वीडियो
- एक वीडियो के विवरण को देखते हुए, एक वीडियो उत्पन्न करें जो विवरण से मेल खाता हो।[38][39]
सामान्य प्रवृत्तियाँ और (संभावित) भविष्य की दिशाएँ
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी की भविष्य की दिशाओं का अनुमान लगाना संभव है। 2020 तक, CoNLL साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं:[40]
- प्राकृतिक भाषा के तेजी से अमूर्त, संज्ञानात्मक पहलुओं पर रुचि (1999-2001: उथली पार्सिंग, 2002-03: नामित इकाई पहचान, 2006-09/2017-18: निर्भरता वाक्य रचना, 2004-05/2008-09 शब्दार्थ भूमिका लेबलिंग, 2011 -12 कोरेफरेंस, 2015-16: डिस्कोर्स पार्सिंग, 2019: सिमेंटिक पार्सिंग)।
- बहुभाषिकता में बढ़ती रुचि, और, संभावित रूप से, मल्टीमॉडलिटी (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, 2007 से हंगेरियन, इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
- प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड प्रणाली के लिए नियम-आधारित पर्यवेक्षित)
अनुभूति और एनएलपी
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू सम्मलित होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलना, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकासात्मक प्रक्षेपवक्रों में से एक का प्रतिनिधित्व करता है (ऊपर CoNLL साझा कार्यों के बीच रुझान देखें)।
अनुभूति विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया को संदर्भित करती है।[41] संज्ञानात्मक विज्ञान मन और इसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है।[42] संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और शोध को जोड़ती है।[43] विशेष रूप से #प्रतीकात्मक एनएलपी (1950 - 1990 के दशक) के युग के दौरान, कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।
एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ-साथ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एल्गोरिदम बनाने के लिए एक पद्धति प्रदान करता है,[44] दो परिभाषित पहलुओं के साथ:
- एक विचार की समझ के रूप में Lakoff द्वारा समझाए गए वैचारिक रूपक के सिद्धांत को दूसरे के संदर्भ में लागू करें जो लेखक के इरादे का एक विचार प्रदान करता है।[45] उदाहरण के लिए, अंग्रेजी के शब्द बिग पर विचार करें। जब एक तुलना में उपयोग किया जाता है (वह एक बड़ा पेड़ है), तो लेखक का आशय यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष भौतिक रूप से बड़ा है। जब लाक्षणिक रूप से उपयोग किया जाता है (कल एक बड़ा दिन है), लेखक का इरादा महत्व को दर्शाता है। अन्य उपयोगों के पीछे की मंशा, जैसे कि वह एक बड़ी व्यक्ति है, अतिरिक्त जानकारी के बिना एक व्यक्ति और एक संज्ञानात्मक एनएलपी एल्गोरिथ्म के लिए समान रूप से कुछ अस्पष्ट रहेगी।
- किसी शब्द, वाक्यांश, वाक्य या पाठ के टुकड़े के विश्लेषण के पहले और बाद में प्रस्तुत की गई जानकारी के आधार पर अर्थ के सापेक्ष उपाय असाइन करें, उदाहरण के लिए, एक संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) के माध्यम से। ऐसे एल्गोरिदम के लिए गणितीय समीकरण में प्रस्तुत किया गया है US patent 9269353:
- कहाँ पे,
- 'RMM', अर्थ का सापेक्ष माप है
- 'token', टेक्स्ट, वाक्य, वाक्यांश या शब्द का कोई ब्लॉक है
- 'एन', विश्लेषण किए जा रहे टोकन की संख्या है
- 'पीएमएम', एक निगम पर आधारित अर्थ का संभावित उपाय है
- 'd', 'N-1' टोकन के अनुक्रम के साथ टोकन का स्थान है
- 'पीएफ', एक भाषा के लिए विशिष्ट संभाव्यता समारोह है
संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का हिस्सा हैं, लेकिन 1990 के दशक के दौरान सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, विभिन्न रूपरेखाओं के संदर्भ में तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण का पालन किया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण,[46] कार्यात्मक व्याकरण,[47] निर्माण व्याकरण,[48] कम्प्यूटेशनल साइकोलिंग्विस्टिक्स और संज्ञानात्मक तंत्रिका विज्ञान (उदाहरण के लिए, अधिनियम-आर), चूंकि, मुख्यधारा के एनएलपी में सीमित वृद्धि के साथ (जैसा कि प्रमुख सम्मेलनों में उपस्थिति से मापा जाता है)[49] कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन)। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मक कृत्रिम बुद्धिमत्ता प्राप्त करने के दृष्टिकोण के रूप में पुनर्जीवित किया गया है, उदाहरण के लिए, संज्ञानात्मक एआई की धारणा के अनुसार ।[50] इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल इंटरेक्शन एनएलपी (चूंकि शायद ही कभी स्पष्ट किए गए) के लिए अंतर्निहित हैं।[51]
यह भी देखें
- 1 सड़क
- स्वचालित निबंध स्कोरिंग
- बायोमेडिकल टेक्स्ट माइनिंग
- कंपाउंड टर्म प्रोसेसिंग
- अभिकलनात्मक भाषाविज्ञान
- कंप्यूटर की सहायता से समीक्षा
- नियंत्रित प्राकृतिक भाषा
- ध्यान लगा के पढ़ना या सीखना
- गहन भाषाई प्रसंस्करण
- वितरण शब्दार्थ
- विदेशी भाषा पठन सहायता
- विदेशी भाषा लेखन सहायता
- सूचना निष्कर्षण
- सूचना की पुनर्प्राप्ति
- भाषा और संचार प्रौद्योगिकी
- भाषा प्रौद्योगिकी
- अव्यक्त सिमेंटिक इंडेक्सिंग
- मूल भाषा की पहचान
- प्राकृतिक-भाषा प्रोग्रामिंग
- प्राकृतिक-भाषा की समझ
- प्राकृतिक भाषा यूजर इंटरफेस|नेचुरल-लैंग्वेज सर्च
- प्राकृतिक भाषा प्रसंस्करण की रूपरेखा
- क्वेरी विस्तार
- क्वेरी समझ
- संशोधन (भाषा विज्ञान)
- भाषण प्रसंस्करण
- बोली जाने वाली संवाद प्रणाली
- टेक्स्ट-प्रूफिंग
- पाठ सरलीकरण
- ट्रांसफार्मर (मशीन लर्निंग मॉडल)
- ट्रूकेसिंग
- प्रश्न उत्तर
- Word2vec
संदर्भ
- ↑ Kongthon, Alisa; Sangkeettrakarn, Chatchawal; Kongyoung, Sarawoot; Haruechaiyasak, Choochart (October 27–30, 2009). "Implementing an online help desk system based on conversational agent". इमर्जेंट डिजिटल इको सिस्टम्स के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही - मेडेस '09. MEDES '09: The International Conference on Management of Emergent Digital EcoSystems. France: ACM. p. 450. doi:10.1145/1643823.1643908. ISBN 9781605588292.
- ↑ Hutchins, J. (2005). "संक्षेप में मशीनी अनुवाद का इतिहास" (PDF).Template:स्व-प्रकाशित स्रोत
- ↑ Koskenniemi, Kimmo (1983), Two-level morphology: A general computational model of word-form recognition and production (PDF), Department of General Linguistics, University of Helsinki
- ↑ Joshi, A. K., & Weinstein, S. (1981, August). Control of Inference: Role of Some Aspects of Discourse Structure-Centering. In IJCAI (pp. 385-387).
- ↑ Guida, G.; Mauri, G. (July 1986). "प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण". Proceedings of the IEEE. 74 (7): 1026–1035. doi:10.1109/PROC.1986.13580. ISSN 1558-2256. S2CID 30688575.
- ↑ Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics. The creation and use of such corpora of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "poverty of the stimulus" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.
- ↑ Goldberg, Yoav (2016). "प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर". Journal of Artificial Intelligence Research. 57: 345–420. arXiv:1807.10854. doi:10.1613/jair.4992. S2CID 8273530.
- ↑ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). ध्यान लगा के पढ़ना या सीखना. MIT Press.
- ↑ Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). भाषा मॉडलिंग की सीमाओं की खोज. arXiv:1602.02410. Bibcode:2016arXiv160202410J.
- ↑ Choe, Do Kook; Charniak, Eugene. "भाषा मॉडलिंग के रूप में पार्सिंग". Emnlp 2016. Archived from the original on 2018-10-23. Retrieved 2018-10-22.
- ↑ Vinyals, Oriol; et al. (2014). "एक विदेशी भाषा के रूप में व्याकरण" (PDF). Nips2015. arXiv:1412.7449. Bibcode:2014arXiv1412.7449V.
- ↑ Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग: एक व्यवस्थित समीक्षा". Journal of Diabetes Science and Technology (in English). 15 (3): 553–560. doi:10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486.
- ↑ Winograd, Terry (1971). प्राकृतिक भाषा को समझने के लिए एक कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं (Thesis).
- ↑ Schank, Roger C.; Abelson, Robert P. (1977). लिपियाँ, योजनाएँ, लक्ष्य और समझ: मानव ज्ञान संरचनाओं में एक जाँच. Hillsdale: Erlbaum. ISBN 0-470-99033-3.
- ↑ Mark Johnson. How the statistical revolution changes (computational) linguistics. Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics.
- ↑ Philip Resnik. Four revolutions. Language Log, February 5, 2011.
- ↑ "एनएलपी में जटिल-मूल्यवान प्रतिनिधित्व की जांच करना" (PDF).
- ↑ Trabelsi, Chiheb; Bilaniuk, Olexa; Zhang, Ying; Serdyuk, Dmitriy; Subramanian, Sandeep; Santos, João Felipe; Mehri, Soroush; Rostamzadeh, Negar; Bengio, Yoshua; Pal, Christopher J. (2018-02-25). "डीप कॉम्प्लेक्स नेटवर्क". arXiv:1705.09792 [cs.NE].
- ↑ Socher, Richard. "एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग". www.socher.org. Retrieved 2020-08-17. This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]
- ↑ Yi, Chucai; Tian, Yingli (2012), "Assistive Text Reading from Complex Background for Blind Persons", Camera-Based Document Analysis and Recognition (in English), Springer Berlin Heidelberg, pp. 15–28, CiteSeerX 10.1.1.668.869, doi:10.1007/978-3-642-29364-1_2, ISBN 9783642293634
- ↑ "प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय". GyanSetu! (in English). 2020-12-06. Retrieved 2021-01-09.
- ↑ Kishorjit, N.; Vidya, Raj RK.; Nirmal, Y.; Sivaji, B. (2012). "मणिपुरी रूपिम पहचान" (PDF). Proceedings of the 3rd Workshop on South and Southeast Asian Natural Language Processing (SANLP). COLING 2012, Mumbai, December 2012: 95–108.
{{cite journal}}
: CS1 maint: location (link) - ↑ Klein, Dan; Manning, Christopher D. (2002). "एक घटक-संदर्भ मॉडल का उपयोग करके प्राकृतिक भाषा व्याकरण प्रेरण" (PDF). Advances in Neural Information Processing Systems.
- ↑ PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov//2011/RTE/
- ↑ Lippi, Marco; Torroni, Paolo (2016-04-20). "आर्ग्यूमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स". ACM Transactions on Internet Technology (in English). 16 (2): 1–25. doi:10.1145/2850417. hdl:11585/523460. ISSN 1533-5399. S2CID 9561587.
- ↑ "तर्क खनन - IJCAI2016 ट्यूटोरियल". www.i3s.unice.fr. Retrieved 2021-03-09.
- ↑ "कम्प्यूटेशनल तर्क के लिए एनएलपी दृष्टिकोण - एसीएल 2016, बर्लिन" (in British English). Retrieved 2021-03-09.
- ↑ "उबउउवबेब :: राक्टर". www.ubu.com. Retrieved 2020-08-17.
- ↑ Writer, Beta (2019). लिथियम आयन बैटरी (in British English). doi:10.1007/978-3-030-16800-1. ISBN 978-3-030-16799-8. S2CID 155818532.
- ↑ "Google क्लाउड पर एआई को समझने वाला दस्तावेज़ (क्लाउड नेक्स्ट '19) - YouTube". www.youtube.com. Archived from the original on 2021-10-30. Retrieved 2021-01-11.
- ↑ Administration. "भाषा प्रौद्योगिकी केंद्र (सीएलटी)". Macquarie University (in English). Retrieved 2021-01-11.
- ↑ "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
- ↑ "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार". www.comp.nus.edu.sg. Retrieved 2021-01-11.
- ↑ Duan, Yucong; Cruz, Christophe (2011). "अस्तित्व से अवधारणा के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक रूप देना". International Journal of Innovation, Management and Technology. 2 (1): 37–42. Archived from the original on 2011-10-09.
- ↑ Robertson, Adi (2022-04-06). "OpenAI का DALL-E AI छवि जनरेटर अब चित्रों को भी संपादित कर सकता है". The Verge (in English). Retrieved 2022-06-07.
- ↑ "स्टैनफोर्ड नेचुरल लैंग्वेज प्रोसेसिंग ग्रुप". nlp.stanford.edu. Retrieved 2022-06-07.
- ↑ Coyne, Bob; Sproat, Richard (2001-08-01). "WordsEye: एक स्वचालित टेक्स्ट-टू-सीन रूपांतरण प्रणाली". Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. SIGGRAPH '01. New York, NY, USA: Association for Computing Machinery: 487–496. doi:10.1145/383259.383316. ISBN 978-1-58113-374-5. S2CID 3842372.
- ↑ "Google टेक्स्ट-टू-वीडियो, भाषा अनुवाद, और अधिक में AI अग्रिमों की घोषणा करता है". VentureBeat (in English). 2022-11-02. Retrieved 2022-11-09.
- ↑ Vincent, James (2022-09-29). "मेटा का नया टेक्स्ट-टू-वीडियो AI जनरेटर वीडियो के लिए DALL-E जैसा है". The Verge (in English). Retrieved 2022-11-09.
- ↑ "पिछले साझा कार्य | CoNLL". www.conll.org. Retrieved 2021-01-11.
- ↑ "अनुभूति". Lexico. Oxford University Press and Dictionary.com. Archived from the original on July 15, 2020. Retrieved 6 May 2020.
- ↑ "संज्ञानात्मक वैज्ञानिक से पूछें". American Federation of Teachers. 8 August 2014.
संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझने की कोशिश करता है।
- ↑ Robinson, Peter (2008). संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका. Routledge. pp. 3–8. ISBN 978-0-805-85352-0.
- ↑ Lakoff, George (1999). मांस में दर्शन: सन्निहित मन और पश्चिमी दर्शन के लिए इसकी चुनौती; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
- ↑ Strauss, Claudia (1999). सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत. Cambridge University Press. pp. 156–164. ISBN 978-0-521-59541-4.
- ↑ "यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए)". यूनिवर्सल वैचारिक संज्ञानात्मक व्याख्या (यूसीसीए) (in English). Retrieved 2021-01-11.
- ↑ Rodríguez, F. C., & Mairal-Usón, R. (2016). Building an RRG computational grammar. Onomazein, (34), 86-117.
- ↑ "द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए पूरी तरह से परिचालन प्रसंस्करण प्रणाली" (in English). Retrieved 2021-01-11.
- ↑ "एसीएल सदस्य पोर्टल | संगणनात्मक भाषाविज्ञान संघ सदस्य पोर्टल". www.aclweb.org. Retrieved 2021-01-11.
- ↑ "टुकड़े और नियम". www.w3.org (in English). Retrieved 2021-01-11.
- ↑ Socher, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; Ng, Andrew Y. (2014). "वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए आधारभूत संरचनागत शब्दार्थ". Transactions of the Association for Computational Linguistics. 2: 207–218. doi:10.1162/tacl_a_00177. S2CID 2317858.
अग्रिम पठन
- Bates, M (1995). "Models of natural language understanding". Proceedings of the National Academy of Sciences of the United States of America. 92 (22): 9977–9982. Bibcode:1995PNAS...92.9977B. doi:10.1073/pnas.92.22.9977. PMC 40721. PMID 7479812.
- Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
- Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
- Mohamed Zakaria Kurdi (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
- Mohamed Zakaria Kurdi (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.
- Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
- Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
- David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
इस पेज में लापता आंतरिक लिंक की सूची
- भाषा विज्ञान
- कृत्रिम होशियारी
- संदर्भ (भाषा का प्रयोग)
- प्राकृतिक भाषा की समझ
- चीनी कमरा
- सिर-संचालित वाक्यांश संरचना व्याकरण
- दुनिया को ब्लॉक करता है
- लेस्क एल्गोरिथ्म
- अनियंत्रित शिक्षा
- मशीन अनुवाद
- पर्यवेक्षित अध्ययन
- अर्ध-पर्यवेक्षित शिक्षा
- समय जटिलता
- ध्यान लगा के पढ़ना या सीखना
- प्रतिनिधित्व सीखना
- स्वास्थ्य सेवा में कृत्रिम बुद्धिमत्ता
- ज्ञान निष्कर्षण
- टोकनकरण (शाब्दिक विश्लेषण)
- सांख्यिकीय निष्कर्ष
- वास्तविक मूल्यवान
- संभाव्य
- आकृति विज्ञान (भाषा विज्ञान)
- मुझे आईटी ईआई भाषा
- शब्द भेद
- भागों का जुड़ना
- वाक्य सीमा विवाद
- संक्षेपाक्षर
- औपचारिक व्याकरण
- संभाव्य संदर्भ मुक्त व्याकरण
- नामित इकाई मान्यता
- स्पेनिश भाषा
- अर्थ (भाषाविज्ञान)
- भावनाओं का विश्लेषण
- इकाई लिंकिंग
- फ्रान्सीसी भाषा
- वितरणात्मक शब्दार्थ
- फ़्रेम शब्दार्थ (भाषाविज्ञान)
- वे देखभाल करते हैं
- भाषण अधिनियम
- भाषण का विश्लेषण
- एआई दस्तावेज़
- बंद दुनिया धारणा
- खुली दुनिया की धारणा
- पहले क्रम का तर्क
- संज्ञात्मक विज्ञान
- संशोधन (भाषाविज्ञान)
बाहरी संबंध
- Media related to प्राकृतिक भाषा प्रसंस्करण at Wikimedia Commons