पाठसंग्रह: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Structured collection of texts}} {{Use dmy dates|date=July 2022}} भाषाविज्ञान में, एक कॉर्पस (बहुवच...")
 
No edit summary
Line 1: Line 1:
{{Short description|Structured collection of texts}}
{{Short description|Structured collection of texts}}
{{Use dmy dates|date=July 2022}}
भाषाविज्ञान में, कोष या पाठ कोष एक [[भाषा संसाधन]] है जिसमें पाठ का एक बड़ा और संरचित समुच्चय होता है जिसे आजकल सामान्यतः विद्युतकीय रूप से संग्रहीत और संसाधित किया जाता है। [[कॉर्पस भाषाविज्ञान|कोष भाषाविज्ञान]] में, इनका उपयोग सांख्यिकीय विश्लेषण और [[सांख्यिकीय परिकल्पना परीक्षण]], घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।


भाषाविज्ञान में, एक कॉर्पस (बहुवचन ''कॉर्पोरा'') या टेक्स्ट कॉर्पस एक [[भाषा संसाधन]] है जिसमें टेक्स्ट का एक बड़ा और संरचित सेट होता है (आजकल आमतौर पर इलेक्ट्रॉनिक रूप से संग्रहीत और संसाधित होता है)। [[कॉर्पस भाषाविज्ञान]] में, उनका उपयोग सांख्यिकीय विश्लेषण और [[सांख्यिकीय परिकल्पना परीक्षण]], घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।
[[खोज इंजन (कंप्यूटिंग)|खोज इंजन]] में, कोष उन दस्तावेज़ों का संग्रह है जिन्हें खोजा जा रहा है।


[[खोज इंजन (कंप्यूटिंग)]] में, कॉर्पस उन दस्तावेज़ों का संग्रह है जिन्हें खोजा जा रहा है।
== संक्षिप्त विवरण ==


== सिंहावलोकन ==
किसी कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।


एक कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।
भाषाई अनुसंधान करने के लिए कोषों को अधिक उपयोगी बनाने के लिए, उन्हें प्रायः [[ टिप्पणी |टिप्पणी]] के रूप में जानी जाने वाली प्रक्रिया के अधीन किया जाता है। कोष को एनोटेट करने का एक उदाहरण [[भाषण का भाग टैगिंग]] या पीओएस-टैगिंग है, जिसमें प्रत्येक शब्द के भाषण के भाग (क्रिया, संज्ञा, विशेषण, आदि) के बारे में जानकारी टैग के रूप में कोष में जोड़ी जाती है। एक अन्य उदाहरण प्रत्येक शब्द के [[लेम्मा (आकृति विज्ञान)]] (आधार) रूप को इंगित कर रहा है। जब कोष की भाषा इसका उपयोग करने वाले शोधकर्ताओं की कामकाजी भाषा नहीं होती है, तो एनोटेशन को द्विभाषी बनाने के लिए [[इंटरलीनियर चमक]] का उपयोग किया जाता है।


भाषाई अनुसंधान करने के लिए कॉर्पोरा को अधिक उपयोगी बनाने के लिए, उन्हें अक्सर [[ टिप्पणी ]] के रूप में जानी जाने वाली प्रक्रिया के अधीन किया जाता है। कॉर्पस को एनोटेट करने का एक उदाहरण [[भाषण का भाग टैगिंग]] या पीओएस-टैगिंग है, जिसमें प्रत्येक शब्द के भाषण के भाग (क्रिया, संज्ञा, विशेषण, आदि) के बारे में जानकारी टैग के रूप में कॉर्पस में जोड़ी जाती है। एक अन्य उदाहरण प्रत्येक शब्द के [[लेम्मा (आकृति विज्ञान)]] (आधार) रूप को इंगित कर रहा है। जब कॉर्पस की भाषा इसका उपयोग करने वाले शोधकर्ताओं की कामकाजी भाषा नहीं होती है, तो एनोटेशन को द्विभाषी बनाने के लिए [[इंटरलीनियर चमक]] का उपयोग किया जाता है।
कुछ निगमों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कॉर्पोरा पूरी तरह से [[ पदच्छेद ]] हो सकते हैं। ऐसे निगमों को सामान्यतः [[ट्रीबैंक]] या ट्रीबैंक कहा जाता है। यह सुनिश्चित करने में कठिनाई कि संपूर्ण कोष पूरी तरह से और लगातार एनोटेट किया गया है, इसका मतलब है कि ये कॉर्पोरा सामान्यतः छोटे होते हैं, जिनमें लगभग एक से तीन मिलियन शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें [[आकृति विज्ञान (भाषाविज्ञान)]], शब्दार्थ और व्यावहारिकता के लिए एनोटेशन शामिल हैं।
 
कुछ निगमों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कॉर्पोरा पूरी तरह से [[ पदच्छेद ]] हो सकते हैं। ऐसे निगमों को आमतौर पर [[ट्रीबैंक]] या ट्रीबैंक कहा जाता है। यह सुनिश्चित करने में कठिनाई कि संपूर्ण कॉर्पस पूरी तरह से और लगातार एनोटेट किया गया है, इसका मतलब है कि ये कॉर्पोरा आमतौर पर छोटे होते हैं, जिनमें लगभग एक से तीन मिलियन शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें [[आकृति विज्ञान (भाषाविज्ञान)]], शब्दार्थ और व्यावहारिकता के लिए एनोटेशन शामिल हैं।


== अनुप्रयोग ==
== अनुप्रयोग ==


कॉर्पोरा कॉर्पस भाषाविज्ञान में मुख्य ज्ञान आधार हैं। आवेदन के अन्य उल्लेखनीय क्षेत्रों में शामिल हैं:
कॉर्पोरा कोष भाषाविज्ञान में मुख्य ज्ञान आधार हैं। आवेदन के अन्य उल्लेखनीय क्षेत्रों में शामिल हैं:


* [[भाषा प्रौद्योगिकी]], [[प्राकृतिक भाषा प्रसंस्करण]], कम्प्यूटेशनल भाषा विज्ञान
* [[भाषा प्रौद्योगिकी]], [[प्राकृतिक भाषा प्रसंस्करण]], कम्प्यूटेशनल भाषा विज्ञान
** विभिन्न प्रकार के कॉर्पोरा का विश्लेषण और प्रसंस्करण कम्प्यूटेशनल भाषाविज्ञान, भाषण मान्यता और [[मशीन अनुवाद]] में भी बहुत काम का विषय है, जहां उन्हें अक्सर भाषण टैगिंग और अन्य उद्देश्यों के लिए छिपे [[छिपा हुआ मार्कोव मॉडल]] बनाने के लिए उपयोग किया जाता है। इनसे प्राप्त कॉर्पोरा और आवृत्ति सूचियाँ [[भाषा शिक्षण]] के लिए उपयोगी होती हैं। कॉर्पोरा को एक प्रकार की [[विदेशी भाषा लेखन सहायता]] के रूप में माना जा सकता है क्योंकि कॉर्पोरा में प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के तरीके को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।<ref name="Yoon">Yoon, H., & Hirvela, A. (2004). [https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1073.2322&rep=rep1&type=pdf ESL Student Attitudes toward Corpus Use in L2 Writing]. ''Journal of Second Language Writing, 13''(4), 257–283. Retrieved 21 March 2012.</ref>
** विभिन्न प्रकार के कॉर्पोरा का विश्लेषण और प्रसंस्करण कम्प्यूटेशनल भाषाविज्ञान, भाषण मान्यता और [[मशीन अनुवाद]] में भी बहुत काम का विषय है, जहां उन्हें प्रायः भाषण टैगिंग और अन्य उद्देश्यों के लिए छिपे [[छिपा हुआ मार्कोव मॉडल]] बनाने के लिए उपयोग किया जाता है। इनसे प्राप्त कॉर्पोरा और आवृत्ति सूचियाँ [[भाषा शिक्षण]] के लिए उपयोगी होती हैं। कॉर्पोरा को एक प्रकार की [[विदेशी भाषा लेखन सहायता]] के रूप में माना जा सकता है क्योंकि कॉर्पोरा में प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के तरीके को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।<ref name="Yoon">Yoon, H., & Hirvela, A. (2004). [https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1073.2322&rep=rep1&type=pdf ESL Student Attitudes toward Corpus Use in L2 Writing]. ''Journal of Second Language Writing, 13''(4), 257–283. Retrieved 21 March 2012.</ref>
* मशीन अनुवाद
* मशीन अनुवाद
** बहुभाषी कॉर्पोरा जिन्हें विशेष रूप से साथ-साथ तुलना के लिए स्वरूपित किया गया है, संरेखित समानांतर कॉर्पोरा कहलाते हैं। समानांतर कॉर्पोरा के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ शामिल हैं। अनुवाद कोष में, एक भाषा के पाठ दूसरी भाषा के पाठ का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही सामग्री को कवर करते हैं, लेकिन वे एक दूसरे के अनुवाद नहीं होते हैं।<ref>{{cite journal | last1 = Wołk | first1 = K. | last2 = Marasek | first2 = K. | title = समानांतर टेक्स्ट कॉर्पोरा तैयार करने के लिए एक वाक्य अर्थ आधारित संरेखण विधि| journal = Advances in Intelligent Systems and Computing | date = 7 April 2014 | publisher = Springer | volume = 275 | pages = 107–114 | doi = 10.1007/978-3-319-05951-8_11 | arxiv = 1509.09090 | issn = 2194-5357 | isbn = 978-3-319-05950-1| s2cid = 15361632 }}</ref> समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार का पाठ संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए मशीनी अनुवाद एल्गोरिदम को अक्सर पहली भाषा के कॉर्पस और दूसरी भाषा के कॉर्पस वाले समानांतर टुकड़ों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कॉर्पस का तत्व-दर-तत्व अनुवाद है।<ref>{{cite conference |last1=Wolk |first1=Krzysztof |last2=Marasek |first2=Krzysztof |editor1-last=Král |editor1-first=Pavel |editor2-last=Matousek |editor2-first=Václav |arxiv=1509.08639 |contribution=Tuned and GPU-accelerated parallel data mining from comparable corpora |doi=10.1007/978-3-319-24033-6_4 |pages=32–40 |publisher=Springer |series=Lecture Notes in Computer Science |title=Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings |volume=9302 |year=2015}}</ref>
** बहुभाषी कॉर्पोरा जिन्हें विशेष रूप से साथ-साथ तुलना के लिए स्वरूपित किया गया है, संरेखित समानांतर कॉर्पोरा कहलाते हैं। समानांतर कॉर्पोरा के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ शामिल हैं। अनुवाद कोष में, एक भाषा के पाठ दूसरी भाषा के पाठ का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही सामग्री को कवर करते हैं, लेकिन वे एक दूसरे के अनुवाद नहीं होते हैं।<ref>{{cite journal | last1 = Wołk | first1 = K. | last2 = Marasek | first2 = K. | title = समानांतर टेक्स्ट कॉर्पोरा तैयार करने के लिए एक वाक्य अर्थ आधारित संरेखण विधि| journal = Advances in Intelligent Systems and Computing | date = 7 April 2014 | publisher = Springer | volume = 275 | pages = 107–114 | doi = 10.1007/978-3-319-05951-8_11 | arxiv = 1509.09090 | issn = 2194-5357 | isbn = 978-3-319-05950-1| s2cid = 15361632 }}</ref> समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार का पाठ संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए मशीनी अनुवाद एल्गोरिदम को प्रायः पहली भाषा के कोष और दूसरी भाषा के कोष वाले समानांतर टुकड़ों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कोष का तत्व-दर-तत्व अनुवाद है।<ref>{{cite conference |last1=Wolk |first1=Krzysztof |last2=Marasek |first2=Krzysztof |editor1-last=Král |editor1-first=Pavel |editor2-last=Matousek |editor2-first=Václav |arxiv=1509.08639 |contribution=Tuned and GPU-accelerated parallel data mining from comparable corpora |doi=10.1007/978-3-319-24033-6_4 |pages=32–40 |publisher=Springer |series=Lecture Notes in Computer Science |title=Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings |volume=9302 |year=2015}}</ref>
*[[भाषाशास्त्र]]
*[[भाषाशास्त्र]]
** टेक्स्ट कॉर्पोरा का उपयोग ऐतिहासिक दस्तावेजों के अध्ययन में भी किया जाता है, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों में, या [[बाइबिल छात्रवृत्ति]] में। कुछ पुरातात्विक निगम इतनी छोटी अवधि के हो सकते हैं कि वे समय का एक स्नैपशॉट प्रदान करते हैं। समय के सबसे छोटे कॉर्पोरा में से एक 15-30 साल का [[अमर्ना पत्र]] ग्रंथ (1350 ईसा पूर्व) हो सकता है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से गुजर सकता है।
** पाठ कॉर्पोरा का उपयोग ऐतिहासिक दस्तावेजों के अध्ययन में भी किया जाता है, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों में, या [[बाइबिल छात्रवृत्ति]] में। कुछ पुरातात्विक निगम इतनी छोटी अवधि के हो सकते हैं कि वे समय का एक स्नैपशॉट प्रदान करते हैं। समय के सबसे छोटे कॉर्पोरा में से एक 15-30 साल का [[अमर्ना पत्र]] ग्रंथ (1350 ईसा पूर्व) हो सकता है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से गुजर सकता है।


== कुछ उल्लेखनीय पाठ निगम ==
== कुछ उल्लेखनीय पाठ निगम ==
Line 31: Line 29:


* [[कॉनकॉर्डेंस (प्रकाशन)]]
* [[कॉनकॉर्डेंस (प्रकाशन)]]
* कॉर्पस भाषाविज्ञान
* कोष भाषाविज्ञान
* वितरण-संबंधपरक डेटाबेस
* वितरण-संबंधपरक डेटाबेस
* [[भाषाई डेटा कंसोर्टियम]]
* [[भाषाई डेटा कंसोर्टियम]]
Line 37: Line 35:
* [[प्राकृतिक भाषा टूलकिट]]
* [[प्राकृतिक भाषा टूलकिट]]
* [[समानांतर पाठ संरेखण]]
* [[समानांतर पाठ संरेखण]]
* [[खोज इंजन]]: वे वेब कॉर्पस तक पहुंचते हैं।
* [[खोज इंजन]]: वे वेब कोष तक पहुंचते हैं।
* वाक् कोष
* वाक् कोष
* [[अनुवाद स्मृति]]
* [[अनुवाद स्मृति]]
Line 58: Line 56:
* [https://digital.lib.hkbu.edu.hk/corpus/index.php Corpus of Political Speeches], Free access to political speeches by American and Chinese politicians, developed by Hong Kong Baptist University Library
* [https://digital.lib.hkbu.edu.hk/corpus/index.php Corpus of Political Speeches], Free access to political speeches by American and Chinese politicians, developed by Hong Kong Baptist University Library
* [https://ruscorpora.ru/en/ Russian National Corpus]
* [https://ruscorpora.ru/en/ Russian National Corpus]
<!--  
<!--  


Line 64: Line 61:


[[Category: Machine Translated Page]]
[[Category: Machine Translated Page]]
[[Category:Created On 10/07/2023]]
[[Category:Created On 10/07/2023]]-->

Revision as of 01:42, 17 July 2023

भाषाविज्ञान में, कोष या पाठ कोष एक भाषा संसाधन है जिसमें पाठ का एक बड़ा और संरचित समुच्चय होता है जिसे आजकल सामान्यतः विद्युतकीय रूप से संग्रहीत और संसाधित किया जाता है। कोष भाषाविज्ञान में, इनका उपयोग सांख्यिकीय विश्लेषण और सांख्यिकीय परिकल्पना परीक्षण, घटनाओं की जांच करने या किसी विशिष्ट भाषा क्षेत्र के भीतर भाषाई नियमों को मान्य करने के लिए किया जाता है।

खोज इंजन में, कोष उन दस्तावेज़ों का संग्रह है जिन्हें खोजा जा रहा है।

संक्षिप्त विवरण

किसी कोष में एक ही भाषा में पाठ (एकभाषी कोष) या कई भाषाओं में पाठ डेटा (बहुभाषी कोष) हो सकता है।

भाषाई अनुसंधान करने के लिए कोषों को अधिक उपयोगी बनाने के लिए, उन्हें प्रायः टिप्पणी के रूप में जानी जाने वाली प्रक्रिया के अधीन किया जाता है। कोष को एनोटेट करने का एक उदाहरण भाषण का भाग टैगिंग या पीओएस-टैगिंग है, जिसमें प्रत्येक शब्द के भाषण के भाग (क्रिया, संज्ञा, विशेषण, आदि) के बारे में जानकारी टैग के रूप में कोष में जोड़ी जाती है। एक अन्य उदाहरण प्रत्येक शब्द के लेम्मा (आकृति विज्ञान) (आधार) रूप को इंगित कर रहा है। जब कोष की भाषा इसका उपयोग करने वाले शोधकर्ताओं की कामकाजी भाषा नहीं होती है, तो एनोटेशन को द्विभाषी बनाने के लिए इंटरलीनियर चमक का उपयोग किया जाता है।

कुछ निगमों में विश्लेषण के और अधिक संरचित स्तर लागू होते हैं। विशेष रूप से, छोटे कॉर्पोरा पूरी तरह से पदच्छेद हो सकते हैं। ऐसे निगमों को सामान्यतः ट्रीबैंक या ट्रीबैंक कहा जाता है। यह सुनिश्चित करने में कठिनाई कि संपूर्ण कोष पूरी तरह से और लगातार एनोटेट किया गया है, इसका मतलब है कि ये कॉर्पोरा सामान्यतः छोटे होते हैं, जिनमें लगभग एक से तीन मिलियन शब्द होते हैं। भाषाई संरचित विश्लेषण के अन्य स्तर संभव हैं, जिनमें आकृति विज्ञान (भाषाविज्ञान), शब्दार्थ और व्यावहारिकता के लिए एनोटेशन शामिल हैं।

अनुप्रयोग

कॉर्पोरा कोष भाषाविज्ञान में मुख्य ज्ञान आधार हैं। आवेदन के अन्य उल्लेखनीय क्षेत्रों में शामिल हैं:

  • भाषा प्रौद्योगिकी, प्राकृतिक भाषा प्रसंस्करण, कम्प्यूटेशनल भाषा विज्ञान
    • विभिन्न प्रकार के कॉर्पोरा का विश्लेषण और प्रसंस्करण कम्प्यूटेशनल भाषाविज्ञान, भाषण मान्यता और मशीन अनुवाद में भी बहुत काम का विषय है, जहां उन्हें प्रायः भाषण टैगिंग और अन्य उद्देश्यों के लिए छिपे छिपा हुआ मार्कोव मॉडल बनाने के लिए उपयोग किया जाता है। इनसे प्राप्त कॉर्पोरा और आवृत्ति सूचियाँ भाषा शिक्षण के लिए उपयोगी होती हैं। कॉर्पोरा को एक प्रकार की विदेशी भाषा लेखन सहायता के रूप में माना जा सकता है क्योंकि कॉर्पोरा में प्रामाणिक पाठों के संपर्क के माध्यम से गैर-देशी भाषा उपयोगकर्ताओं द्वारा प्राप्त प्रासंगिक व्याकरणिक ज्ञान शिक्षार्थियों को लक्ष्य भाषा में वाक्य निर्माण के तरीके को समझने की अनुमति देता है, जिससे प्रभावी लेखन संभव हो पाता है।[1]
  • मशीन अनुवाद
    • बहुभाषी कॉर्पोरा जिन्हें विशेष रूप से साथ-साथ तुलना के लिए स्वरूपित किया गया है, संरेखित समानांतर कॉर्पोरा कहलाते हैं। समानांतर कॉर्पोरा के दो मुख्य प्रकार हैं जिनमें दो भाषाओं में पाठ शामिल हैं। अनुवाद कोष में, एक भाषा के पाठ दूसरी भाषा के पाठ का अनुवाद होते हैं। एक तुलनीय कोष में, पाठ एक ही प्रकार के होते हैं और एक ही सामग्री को कवर करते हैं, लेकिन वे एक दूसरे के अनुवाद नहीं होते हैं।[2] समानांतर पाठ का उपयोग करने के लिए, समतुल्य पाठ खंडों (वाक्यांशों या वाक्यों) की पहचान करने वाले किसी प्रकार का पाठ संरेखण विश्लेषण के लिए एक पूर्व शर्त है। दो भाषाओं के बीच अनुवाद करने के लिए मशीनी अनुवाद एल्गोरिदम को प्रायः पहली भाषा के कोष और दूसरी भाषा के कोष वाले समानांतर टुकड़ों का उपयोग करके प्रशिक्षित किया जाता है, जो पहली भाषा के कोष का तत्व-दर-तत्व अनुवाद है।[3]
  • भाषाशास्त्र
    • पाठ कॉर्पोरा का उपयोग ऐतिहासिक दस्तावेजों के अध्ययन में भी किया जाता है, उदाहरण के लिए प्राचीन लिपियों को समझने के प्रयासों में, या बाइबिल छात्रवृत्ति में। कुछ पुरातात्विक निगम इतनी छोटी अवधि के हो सकते हैं कि वे समय का एक स्नैपशॉट प्रदान करते हैं। समय के सबसे छोटे कॉर्पोरा में से एक 15-30 साल का अमर्ना पत्र ग्रंथ (1350 ईसा पूर्व) हो सकता है। एक प्राचीन शहर का कोष, (उदाहरण के लिए तुर्की के कुल्तेपे ग्रंथ), उनके खोज स्थल की तारीखों द्वारा निर्धारित, कोष की एक श्रृंखला से गुजर सकता है।

कुछ उल्लेखनीय पाठ निगम

यह भी देखें

संदर्भ

  1. Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.
  2. Wołk, K.; Marasek, K. (7 April 2014). "समानांतर टेक्स्ट कॉर्पोरा तैयार करने के लिए एक वाक्य अर्थ आधारित संरेखण विधि". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
  3. Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned and GPU-accelerated parallel data mining from comparable corpora". In Král, Pavel; Matousek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings. Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.


बाहरी संबंध