पाठसंग्रह
भाषाविज्ञान में, कोष या पाठ कोष एक भाषा संसाधन है जिसमें पाठ का एक बड़ा और संरचित समुच्चय होता है जिसे आजकल सामान्यतः विद्युतकीय रूप से संग्रहीत और संसाधित किया जाता है। कोष भाषाविज्ञान में, इनका उपयोग सांख्यिकीय विश्लेषण और सांख्यिकीय परिकल्पना परीक्षण, घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।
खोज इंजन में, कोष उन दस्तावेज़ों का संग्रह है जिन्हें खोजा जा रहा है।
संक्षिप्त विवरण
किसी कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।
भाषाई अनुसंधान के लिए कोष को और उपयोगी बनाने हेतु उन्हें सामान्यतः एक प्रक्रिया के तहत अभिटिप्पण के रूप में विधिवत आवश्यक जानकारी से निविष्ट किया जाता है। शब्द भेद अंकन, या पिओएस-अंकन, एक ऐसा उदाहरण है जिसमें प्रत्येक शब्द के शब्दभेद (क्रिया, संज्ञा, विशेषण आदि) के बारे में जानकारी को अंकन के रूप में कोष में निविष्ट किया जाता है। एक और उदाहरण, प्रत्येक शब्द के शब्दरूप की संकेतिका है। जब कोष की भाषा शोधकर्ताओं की कार्य भाषा नहीं होती है, तो इंटरलिनियर ग्लॉस का उपयोग किया जाता है जिससे अभिटिप्पण द्विभाषी हो सके।
कुछ कोषों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कोष पूर्ण रूप से पार्स्ड हो सकते हैं। ऐसे कोषों को सामान्यतः ट्रीबैंक कहा जाता है। कोष के पूरे संग्रह को पूर्ण और सतत रूप से अभिटिप्पणित करने की सुनिश्चितता की कठिनाई के कारण, ये कोष सामान्यतः छोटे होते हैं, जिनमें लगभग दस से तीस लाख शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें शब्द संरचना, अर्थ और व्यावहारिकता के लिए अभिटिप्पणी सम्मिलित हैं।
अनुप्रयोग
कोष भाषाविज्ञान में मुख्य ज्ञान स्रोत हैं। अनुप्रयोगों के अन्य उल्लेखनीय क्षेत्रों में सम्मिलित हैं:
- भाषा प्रौद्योगिकी, प्राकृतिक भाषा प्रसंस्करण, संगणनीय भाषा विज्ञान
- विभिन्न प्रकार के कोषों का विश्लेषण और प्रसंस्करण संगणनीय भाषाविज्ञान, भाषण मान्यता और यंत्र अनुवाद में भी बहुत काम का विषय है, जहां उन्हें प्रायः भाषण अंकन और अन्य उद्देश्यों के लिए छिपा हुआ मार्कोव प्रारूप निर्मित करने के लिए उपयोग किया जाता है। इनसे प्राप्त कोष और आवृत्ति सूचियाँ भाषा शिक्षण के लिए उपयोगी होती हैं। कोषों को एक प्रकार की विदेशी भाषा लेखन सहायता के रूप में माना जा सकता है क्योंकि इनमें प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के विधियों को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।[1]
- यंत्र अनुवाद
- एक-साथ तुलना के लिए विशेष रूप से स्वरूपित किए गए बहुभाषी कोष को "अनुयोजित समानांतर कोष" कहा जाता है।समानांतर कोष के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ सम्मिलित हैं। अनुवाद कोष में, एक भाषा के लेख दूसरी भाषा के लेख का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही शब्दरूप को संयोजित करते हैं, परंतु वे एक दूसरे के अनुवाद नहीं होते हैं।[2] समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार के लेख संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए यांत्रिक अनुवाद विधिकलन को प्रायः पहली भाषा के कोष और दूसरी भाषा के कोष वाले समानांतर भागों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कोष का तत्व-दर-तत्व अनुवाद है।[3]
- भाषाशास्त्र
- पाठ कोषों का उपयोग ऐतिहासिक दस्तावेजों, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों के अध्ययन में भी किया जाता है। कुछ पुरातात्विक कोष इतनी छोटी अवधि के हो सकते हैं कि वे अतिशीघ्र अर्थ प्रदान करते हैं। समय के अनुसार सबसे छोटे कोषों में से एक 15-30 साल का अमर्ना पत्र ग्रंथ (1350 ईसा पूर्व) है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से अभिगमित हो सकता है।
कुछ उल्लेखनीय पाठ निगम
यह भी देखें
- कॉनकॉर्डेंस (प्रकाशन)
- कोष भाषाविज्ञान
- वितरण-संबंधपरक डेटाबेस
- भाषाई डेटा कंसोर्टियम
- प्राकृतिक भाषा प्रसंस्करण
- प्राकृतिक भाषा टूलकिट
- समानांतर पाठ संरेखण
- खोज इंजन: वे वेब कोष तक पहुंचते हैं।
- वाक् कोष
- अनुवाद स्मृति
- ट्रीबैंक
- ज़िपफ का नियम
संदर्भ
- ↑ Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.
- ↑ Wołk, K.; Marasek, K. (7 April 2014). "समानांतर टेक्स्ट कॉर्पोरा तैयार करने के लिए एक वाक्य अर्थ आधारित संरेखण विधि". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ↑ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned and GPU-accelerated parallel data mining from comparable corpora". In Král, Pavel; Matousek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings. Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.
बाहरी संबंध
- ACL SIGLEX Resource Links: Text Corpora Archived 2013-08-13 at the Wayback Machine
- Developing Linguistic Corpora: a Guide to Good Practice
- Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
- Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
- Sketch Engine: Open corpora with free access
- TS Corpus – A Turkish Corpus freely available for academic research.
- Turkish National Corpus – A general-purpose corpus for contemporary Turkish
- Corpus of Political Speeches, Free access to political speeches by American and Chinese politicians, developed by Hong Kong Baptist University Library
- Russian National Corpus