पाठसंग्रह: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(7 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Short description|Structured collection of texts}}
भाषाविज्ञान में, कोष या पाठ कोष एक [[भाषा संसाधन]] है जिसमें पाठ का एक बड़ा और संरचित समुच्चय होता है जिसे आजकल सामान्यतः विद्युतकीय रूप से संग्रहीत और संसाधित किया जाता है। [[कॉर्पस भाषाविज्ञान|कोष भाषाविज्ञान]] में, इनका उपयोग सांख्यिकीय विश्लेषण और [[सांख्यिकीय परिकल्पना परीक्षण]], घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।
भाषाविज्ञान में, कोष या पाठ कोष एक [[भाषा संसाधन]] है जिसमें पाठ का एक बड़ा और संरचित समुच्चय होता है जिसे आजकल सामान्यतः विद्युतकीय रूप से संग्रहीत और संसाधित किया जाता है। [[कॉर्पस भाषाविज्ञान|कोष भाषाविज्ञान]] में, इनका उपयोग सांख्यिकीय विश्लेषण और [[सांख्यिकीय परिकल्पना परीक्षण]], घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।


Line 8: Line 7:
किसी कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।
किसी कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।


भाषाई अनुसंधान करने के लिए कोषों को अधिक उपयोगी बनाने के लिए, उन्हें प्रायः [[ टिप्पणी |टिप्पणी]] के रूप में जानी जाने वाली प्रक्रिया के अधीन किया जाता है। कोष को एनोटेट करने का एक उदाहरण [[भाषण का भाग टैगिंग]] या पीओएस-टैगिंग है, जिसमें प्रत्येक शब्द के भाषण के भाग (क्रिया, संज्ञा, विशेषण, आदि) के बारे में जानकारी टैग के रूप में कोष में जोड़ी जाती है। एक अन्य उदाहरण प्रत्येक शब्द के [[लेम्मा (आकृति विज्ञान)]] (आधार) रूप को इंगित कर रहा है। जब कोष की भाषा इसका उपयोग करने वाले शोधकर्ताओं की कामकाजी भाषा नहीं होती है, तो एनोटेशन को द्विभाषी बनाने के लिए [[इंटरलीनियर चमक]] का उपयोग किया जाता है।
भाषाई अनुसंधान के लिए कोष को और उपयोगी बनाने हेतु उन्हें सामान्यतः एक प्रक्रिया के तहत [[अभिटिप्पण]] के रूप में विधिवत आवश्यक जानकारी से निविष्ट किया जाता है। [[शब्द भेद अंकन]], या ''पिओएस-अंकन'', एक ऐसा उदाहरण है जिसमें प्रत्येक शब्द के शब्दभेद (क्रिया, संज्ञा, विशेषण आदि) के बारे में जानकारी को ''अंकन'' के रूप में कोष में निविष्ट किया जाता है। एक और उदाहरण, प्रत्येक शब्द के [[शब्दरूप]] की संकेतिका है। जब कोष की भाषा शोधकर्ताओं की कार्य भाषा नहीं होती है, तो [[इंटरलिनियर ग्लॉस]] का उपयोग किया जाता है जिससे अभिटिप्पण द्विभाषी हो सके।
 
कुछ कोषों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कोष पूर्ण रूप से [[पार्स्ड]] हो सकते हैं। ऐसे कोषों को सामान्यतः [[ट्रीबैंक]] कहा जाता है। कोष के पूरे संग्रह को पूर्ण और सतत रूप से अभिटिप्पणित करने की सुनिश्चितता की कठिनाई के कारण, ये कोष सामान्यतः छोटे होते हैं, जिनमें लगभग दस से तीस लाख शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें [[शब्द संरचना]], अर्थ और व्यावहारिकता के लिए अभिटिप्पणी सम्मिलित हैं।
 
 
 
 
 
 
 
 
 
 
 


कुछ निगमों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कॉर्पोरा पूरी तरह से [[ पदच्छेद ]] हो सकते हैं। ऐसे निगमों को सामान्यतः [[ट्रीबैंक]] या ट्रीबैंक कहा जाता है। यह सुनिश्चित करने में कठिनाई कि संपूर्ण कोष पूरी तरह से और लगातार एनोटेट किया गया है, इसका मतलब है कि ये कॉर्पोरा सामान्यतः छोटे होते हैं, जिनमें लगभग एक से तीन मिलियन शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें [[आकृति विज्ञान (भाषाविज्ञान)]], शब्दार्थ और व्यावहारिकता के लिए एनोटेशन शामिल हैं।


== अनुप्रयोग ==
== अनुप्रयोग ==


कॉर्पोरा कोष भाषाविज्ञान में मुख्य ज्ञान आधार हैं। आवेदन के अन्य उल्लेखनीय क्षेत्रों में शामिल हैं:
कोष भाषाविज्ञान में मुख्य ज्ञान स्रोत हैं। अनुप्रयोगों के अन्य उल्लेखनीय क्षेत्रों में सम्मिलित हैं:


* [[भाषा प्रौद्योगिकी]], [[प्राकृतिक भाषा प्रसंस्करण]], कम्प्यूटेशनल भाषा विज्ञान
* [[भाषा प्रौद्योगिकी]], [[प्राकृतिक भाषा प्रसंस्करण]], संगणनीय भाषा विज्ञान
** विभिन्न प्रकार के कॉर्पोरा का विश्लेषण और प्रसंस्करण कम्प्यूटेशनल भाषाविज्ञान, भाषण मान्यता और [[मशीन अनुवाद]] में भी बहुत काम का विषय है, जहां उन्हें प्रायः भाषण टैगिंग और अन्य उद्देश्यों के लिए छिपे [[छिपा हुआ मार्कोव मॉडल]] बनाने के लिए उपयोग किया जाता है। इनसे प्राप्त कॉर्पोरा और आवृत्ति सूचियाँ [[भाषा शिक्षण]] के लिए उपयोगी होती हैं। कॉर्पोरा को एक प्रकार की [[विदेशी भाषा लेखन सहायता]] के रूप में माना जा सकता है क्योंकि कॉर्पोरा में प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के तरीके को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।<ref name="Yoon">Yoon, H., & Hirvela, A. (2004). [https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1073.2322&rep=rep1&type=pdf ESL Student Attitudes toward Corpus Use in L2 Writing]. ''Journal of Second Language Writing, 13''(4), 257–283. Retrieved 21 March 2012.</ref>
** विभिन्न प्रकार के कोषों का विश्लेषण और प्रसंस्करण संगणनीय भाषाविज्ञान, भाषण मान्यता और [[मशीन अनुवाद|यंत्र अनुवाद]] में भी बहुत काम का विषय है, जहां उन्हें प्रायः भाषण अंकन और अन्य उद्देश्यों के लिए [[छिपा हुआ मार्कोव मॉडल|छिपा हुआ मार्कोव प्रारूप]] निर्मित करने के लिए उपयोग किया जाता है। इनसे प्राप्त कोष और आवृत्ति सूचियाँ [[भाषा शिक्षण]] के लिए उपयोगी होती हैं। कोषों को एक प्रकार की [[विदेशी भाषा लेखन सहायता]] के रूप में माना जा सकता है क्योंकि इनमें प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के विधियों को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।<ref name="Yoon">Yoon, H., & Hirvela, A. (2004). [https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1073.2322&rep=rep1&type=pdf ESL Student Attitudes toward Corpus Use in L2 Writing]. ''Journal of Second Language Writing, 13''(4), 257–283. Retrieved 21 March 2012.</ref>
* मशीन अनुवाद
* यंत्र अनुवाद
** बहुभाषी कॉर्पोरा जिन्हें विशेष रूप से साथ-साथ तुलना के लिए स्वरूपित किया गया है, संरेखित समानांतर कॉर्पोरा कहलाते हैं। समानांतर कॉर्पोरा के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ शामिल हैं। अनुवाद कोष में, एक भाषा के पाठ दूसरी भाषा के पाठ का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही सामग्री को कवर करते हैं, लेकिन वे एक दूसरे के अनुवाद नहीं होते हैं।<ref>{{cite journal | last1 = Wołk | first1 = K. | last2 = Marasek | first2 = K. | title = समानांतर टेक्स्ट कॉर्पोरा तैयार करने के लिए एक वाक्य अर्थ आधारित संरेखण विधि| journal = Advances in Intelligent Systems and Computing | date = 7 April 2014 | publisher = Springer | volume = 275 | pages = 107–114 | doi = 10.1007/978-3-319-05951-8_11 | arxiv = 1509.09090 | issn = 2194-5357 | isbn = 978-3-319-05950-1| s2cid = 15361632 }}</ref> समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार का पाठ संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए मशीनी अनुवाद एल्गोरिदम को प्रायः पहली भाषा के कोष और दूसरी भाषा के कोष वाले समानांतर टुकड़ों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कोष का तत्व-दर-तत्व अनुवाद है।<ref>{{cite conference |last1=Wolk |first1=Krzysztof |last2=Marasek |first2=Krzysztof |editor1-last=Král |editor1-first=Pavel |editor2-last=Matousek |editor2-first=Václav |arxiv=1509.08639 |contribution=Tuned and GPU-accelerated parallel data mining from comparable corpora |doi=10.1007/978-3-319-24033-6_4 |pages=32–40 |publisher=Springer |series=Lecture Notes in Computer Science |title=Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings |volume=9302 |year=2015}}</ref>
** एक-साथ तुलना के लिए विशेष रूप से स्वरूपित किए गए बहुभाषी कोष को "अनुयोजित समानांतर कोष" कहा जाता है।समानांतर कोष के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ सम्मिलित हैं। अनुवाद कोष में, एक भाषा के लेख दूसरी भाषा के लेख का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही शब्दरूप को संयोजित करते हैं, परंतु वे एक दूसरे के अनुवाद नहीं होते हैं।<ref>{{cite journal | last1 = Wołk | first1 = K. | last2 = Marasek | first2 = K. | title = समानांतर टेक्स्ट कॉर्पोरा तैयार करने के लिए एक वाक्य अर्थ आधारित संरेखण विधि| journal = Advances in Intelligent Systems and Computing | date = 7 April 2014 | publisher = Springer | volume = 275 | pages = 107–114 | doi = 10.1007/978-3-319-05951-8_11 | arxiv = 1509.09090 | issn = 2194-5357 | isbn = 978-3-319-05950-1| s2cid = 15361632 }}</ref> समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार के लेख संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए यांत्रिक अनुवाद विधिकलन को प्रायः पहली भाषा के कोष और दूसरी भाषा के कोष वाले समानांतर भागों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कोष का तत्व-दर-तत्व अनुवाद है।<ref>{{cite conference |last1=Wolk |first1=Krzysztof |last2=Marasek |first2=Krzysztof |editor1-last=Král |editor1-first=Pavel |editor2-last=Matousek |editor2-first=Václav |arxiv=1509.08639 |contribution=Tuned and GPU-accelerated parallel data mining from comparable corpora |doi=10.1007/978-3-319-24033-6_4 |pages=32–40 |publisher=Springer |series=Lecture Notes in Computer Science |title=Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings |volume=9302 |year=2015}}</ref>
*[[भाषाशास्त्र]]
*[[भाषाशास्त्र]]
** पाठ कॉर्पोरा का उपयोग ऐतिहासिक दस्तावेजों के अध्ययन में भी किया जाता है, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों में, या [[बाइबिल छात्रवृत्ति]] में। कुछ पुरातात्विक निगम इतनी छोटी अवधि के हो सकते हैं कि वे समय का एक स्नैपशॉट प्रदान करते हैं। समय के सबसे छोटे कॉर्पोरा में से एक 15-30 साल का [[अमर्ना पत्र]] ग्रंथ (1350 ईसा पूर्व) हो सकता है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से गुजर सकता है।
** पाठ कोषों का उपयोग ऐतिहासिक दस्तावेजों, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों के अध्ययन में भी किया जाता है। कुछ पुरातात्विक कोष इतनी छोटी अवधि के हो सकते हैं कि वे अतिशीघ्र अर्थ प्रदान करते हैं। समय के अनुसार सबसे छोटे कोषों में से एक 15-30 साल का [[अमर्ना पत्र]] ग्रंथ (1350 ईसा पूर्व) है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से अभिगमित हो सकता है।


== कुछ उल्लेखनीय पाठ निगम ==
== कुछ उल्लेखनीय पाठ निगम ==
{{Main article|List of text corpora}}
{{Main article|पाठ कोषों की सूची}}


== यह भी देखें ==
== यह भी देखें ==
Line 60: Line 71:




[[Category: Machine Translated Page]]
 
[[Category:Created On 10/07/2023]]-->
-->
 
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Template documentation pages|Short description/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Webarchive template wayback links]]

Latest revision as of 13:03, 31 October 2023

भाषाविज्ञान में, कोष या पाठ कोष एक भाषा संसाधन है जिसमें पाठ का एक बड़ा और संरचित समुच्चय होता है जिसे आजकल सामान्यतः विद्युतकीय रूप से संग्रहीत और संसाधित किया जाता है। कोष भाषाविज्ञान में, इनका उपयोग सांख्यिकीय विश्लेषण और सांख्यिकीय परिकल्पना परीक्षण, घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।

खोज इंजन में, कोष उन दस्तावेज़ों का संग्रह है जिन्हें खोजा जा रहा है।

संक्षिप्त विवरण

किसी कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।

भाषाई अनुसंधान के लिए कोष को और उपयोगी बनाने हेतु उन्हें सामान्यतः एक प्रक्रिया के तहत अभिटिप्पण के रूप में विधिवत आवश्यक जानकारी से निविष्ट किया जाता है। शब्द भेद अंकन, या पिओएस-अंकन, एक ऐसा उदाहरण है जिसमें प्रत्येक शब्द के शब्दभेद (क्रिया, संज्ञा, विशेषण आदि) के बारे में जानकारी को अंकन के रूप में कोष में निविष्ट किया जाता है। एक और उदाहरण, प्रत्येक शब्द के शब्दरूप की संकेतिका है। जब कोष की भाषा शोधकर्ताओं की कार्य भाषा नहीं होती है, तो इंटरलिनियर ग्लॉस का उपयोग किया जाता है जिससे अभिटिप्पण द्विभाषी हो सके।

कुछ कोषों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कोष पूर्ण रूप से पार्स्ड हो सकते हैं। ऐसे कोषों को सामान्यतः ट्रीबैंक कहा जाता है। कोष के पूरे संग्रह को पूर्ण और सतत रूप से अभिटिप्पणित करने की सुनिश्चितता की कठिनाई के कारण, ये कोष सामान्यतः छोटे होते हैं, जिनमें लगभग दस से तीस लाख शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें शब्द संरचना, अर्थ और व्यावहारिकता के लिए अभिटिप्पणी सम्मिलित हैं।







अनुप्रयोग

कोष भाषाविज्ञान में मुख्य ज्ञान स्रोत हैं। अनुप्रयोगों के अन्य उल्लेखनीय क्षेत्रों में सम्मिलित हैं:

  • भाषा प्रौद्योगिकी, प्राकृतिक भाषा प्रसंस्करण, संगणनीय भाषा विज्ञान
    • विभिन्न प्रकार के कोषों का विश्लेषण और प्रसंस्करण संगणनीय भाषाविज्ञान, भाषण मान्यता और यंत्र अनुवाद में भी बहुत काम का विषय है, जहां उन्हें प्रायः भाषण अंकन और अन्य उद्देश्यों के लिए छिपा हुआ मार्कोव प्रारूप निर्मित करने के लिए उपयोग किया जाता है। इनसे प्राप्त कोष और आवृत्ति सूचियाँ भाषा शिक्षण के लिए उपयोगी होती हैं। कोषों को एक प्रकार की विदेशी भाषा लेखन सहायता के रूप में माना जा सकता है क्योंकि इनमें प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के विधियों को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।[1]
  • यंत्र अनुवाद
    • एक-साथ तुलना के लिए विशेष रूप से स्वरूपित किए गए बहुभाषी कोष को "अनुयोजित समानांतर कोष" कहा जाता है।समानांतर कोष के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ सम्मिलित हैं। अनुवाद कोष में, एक भाषा के लेख दूसरी भाषा के लेख का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही शब्दरूप को संयोजित करते हैं, परंतु वे एक दूसरे के अनुवाद नहीं होते हैं।[2] समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार के लेख संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए यांत्रिक अनुवाद विधिकलन को प्रायः पहली भाषा के कोष और दूसरी भाषा के कोष वाले समानांतर भागों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कोष का तत्व-दर-तत्व अनुवाद है।[3]
  • भाषाशास्त्र
    • पाठ कोषों का उपयोग ऐतिहासिक दस्तावेजों, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों के अध्ययन में भी किया जाता है। कुछ पुरातात्विक कोष इतनी छोटी अवधि के हो सकते हैं कि वे अतिशीघ्र अर्थ प्रदान करते हैं। समय के अनुसार सबसे छोटे कोषों में से एक 15-30 साल का अमर्ना पत्र ग्रंथ (1350 ईसा पूर्व) है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से अभिगमित हो सकता है।

कुछ उल्लेखनीय पाठ निगम

यह भी देखें

संदर्भ

  1. Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.
  2. Wołk, K.; Marasek, K. (7 April 2014). "समानांतर टेक्स्ट कॉर्पोरा तैयार करने के लिए एक वाक्य अर्थ आधारित संरेखण विधि". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
  3. Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned and GPU-accelerated parallel data mining from comparable corpora". In Král, Pavel; Matousek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings. Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.


बाहरी संबंध