टेक्स्ट प्रोसेसिंग: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Creating or manipulating electronic text}} {{About|Computer processing|mental processing|Reading comprehension|language processing by computers|Natural lan...")
 
No edit summary
Line 9: Line 9:
* खोजें और बदलें
* खोजें और बदलें
* प्रारूप
* प्रारूप
* या की सामग्री की एक संसाधित रिपोर्ट तैयार करें
* या की सामग्री की संसाधित रिपोर्ट तैयार करें
* किसी फ़ाइल या टेक्स्ट फ़ाइल की रिपोर्ट को फ़िल्टर करें।
* किसी फ़ाइल या टेक्स्ट फ़ाइल की रिपोर्ट को फ़िल्टर करें।
[[ नियमित अभिव्यक्ति ]] की टेक्स्ट प्रोसेसिंग एक वर्चुअल एडिटिंग मशीन है, जिसमें एक आदिम प्रोग्रामिंग भाषा होती है जिसमें रजिस्टरों (पहचानकर्ता) का नाम होता है, और टेक्स्ट में वर्णों के अनुक्रम में पदों का नाम दिया जाता है। इनका उपयोग करके, टेक्स्ट प्रोसेसर, उदाहरण के लिए, टेक्स्ट के एक क्षेत्र को चिह्नित कर सकता है और फिर उसे स्थानांतरित कर सकता है। ''[[ यूनिक्स उपयोगिता ]]'' का टेक्स्ट प्रोसेसिंग एक [[फ़िल्टर प्रोग्राम]], या ''फ़िल्टर'' है। इन दो तंत्रों में टेक्स्ट प्रोसेसिंग शामिल है।
[[ नियमित अभिव्यक्ति | नियमित अभिव्यक्ति]] की टेक्स्ट प्रोसेसिंग वर्चुअल एडिटिंग मशीन है, जिसमें आदिम प्रोग्रामिंग भाषा होती है जिसमें रजिस्टरों (पहचानकर्ता) का नाम होता है, और टेक्स्ट में वर्णों के अनुक्रम में पदों का नाम दिया जाता है। इनका उपयोग करके, टेक्स्ट प्रोसेसर, उदाहरण के लिए, टेक्स्ट के क्षेत्र को चिह्नित कर सकता है और फिर उसे स्थानांतरित कर सकता है। ''[[ यूनिक्स उपयोगिता |यूनिक्स उपयोगिता]]'' का टेक्स्ट प्रोसेसिंग [[फ़िल्टर प्रोग्राम]], या ''फ़िल्टर'' है। इन दो तंत्रों में टेक्स्ट प्रोसेसिंग शामिल है।


==परिभाषा==
==परिभाषा==
चूंकि [[एएनएसआई एस्केप कोड]] जैसे मानकीकृत मार्कअप आम तौर पर संपादक के लिए अदृश्य होते हैं, उनमें क्षणभंगुर गुणों का एक सेट शामिल होता है जो कभी-कभी [[ शब्द संसाधन ]] से अप्रभेद्य हो जाते हैं। लेकिन वर्ड प्रोसेसिंग से निश्चित अंतर यह है कि टेक्स्ट प्रोसेसिंग उचित है:
चूंकि [[एएनएसआई एस्केप कोड]] जैसे मानकीकृत मार्कअप आम तौर पर संपादक के लिए अदृश्य होते हैं, उनमें क्षणभंगुर गुणों का सेट शामिल होता है जो कभी-कभी [[ शब्द संसाधन |शब्द संसाधन]] से अप्रभेद्य हो जाते हैं। लेकिन वर्ड प्रोसेसिंग से निश्चित अंतर यह है कि टेक्स्ट प्रोसेसिंग उचित है:
* टेक्स्ट प्रोसेसिंग उपयोगिताओं का प्रतिनिधित्व करता है, न कि केवल टेक्स्ट संपादन अनुप्रयोगों का।
* टेक्स्ट प्रोसेसिंग उपयोगिताओं का प्रतिनिधित्व करता है, न कि केवल टेक्स्ट संपादन अनुप्रयोगों का।
* किसी संपादन को शुरू करने के लिए माउस के तरीके (उदाहरण के लिए खींचें और छोड़ें, काटें और चिपकाएँ) के विपरीत, यह कीबोर्ड का तरीका है।
* किसी संपादन को शुरू करने के लिए माउस के तरीके (उदाहरण के लिए खींचें और छोड़ें, काटें और चिपकाएँ) के विपरीत, यह कीबोर्ड का तरीका है।
Line 20: Line 20:
* अप्रत्यक्ष रूप से [[अनुप्रयोग परत]] के बजाय [[प्रेजेंटेशन लेयर]] पर सीधे काम करता है।
* अप्रत्यक्ष रूप से [[अनुप्रयोग परत]] के बजाय [[प्रेजेंटेशन लेयर]] पर सीधे काम करता है।
* कच्चे डेटा पर काम करता है जो मानकीकृत होता है और किसी मालिकाना तरीकों की ओर रुझान करने के बजाय अधिक खुले तौर पर काम करता है।
* कच्चे डेटा पर काम करता है जो मानकीकृत होता है और किसी मालिकाना तरीकों की ओर रुझान करने के बजाय अधिक खुले तौर पर काम करता है।
इस तरह फ़ॉन्ट और रंग जैसे मार्कअप वास्तव में एक विशिष्ट कारक नहीं हैं, क्योंकि फ़ॉन्ट और रंग को प्रभावित करने वाले वर्ण अनुक्रम केवल ''पृष्ठभूमि टेक्स्ट प्रोसेसिंग'' मोड द्वारा स्वचालित रूप से डाले गए मानक वर्ण हैं, जो अनुरूप पाठ संपादकों द्वारा पारदर्शी रूप से काम करने के लिए बनाए जाते हैं। , फिर भी वह मोड प्रभावी नहीं होने पर ''टेक्स्ट प्रोसेसिंग कमांड'' के रूप में दृश्यमान हो जाता है। इसलिए पाठ प्रसंस्करण को मानक, फिर भी अदृश्य वर्णों के बजाय दृश्य वर्णों (या ग्रैफेम्स) के आसपास मूल रूप से (लेकिन पूरी तरह से नहीं) परिभाषित किया गया है।
इस तरह फ़ॉन्ट और रंग जैसे मार्कअप वास्तव में विशिष्ट कारक नहीं हैं, क्योंकि फ़ॉन्ट और रंग को प्रभावित करने वाले वर्ण अनुक्रम केवल ''पृष्ठभूमि टेक्स्ट प्रोसेसिंग'' मोड द्वारा स्वचालित रूप से डाले गए मानक वर्ण हैं, जो अनुरूप पाठ संपादकों द्वारा पारदर्शी रूप से काम करने के लिए बनाए जाते हैं। , फिर भी वह मोड प्रभावी नहीं होने पर ''टेक्स्ट प्रोसेसिंग कमांड'' के रूप में दृश्यमान हो जाता है। इसलिए पाठ प्रसंस्करण को मानक, फिर भी अदृश्य वर्णों के बजाय दृश्य वर्णों (या ग्रैफेम्स) के आसपास मूल रूप से (लेकिन पूरी तरह से नहीं) परिभाषित किया गया है।


==इतिहास==
==इतिहास==
कंप्यूटर टेक्स्ट प्रोसेसिंग का विकास क्लेन द्वारा एक नियमित भाषा को औपचारिक रूप देने के साथ ही शुरू हुआ। इस तरह की [[नियमित अभिव्यक्ति]]याँ तब एक मिनी-प्रोग्राम बन सकती हैं, जो एक संकलन प्रक्रिया के साथ पूर्ण होती है, किसी भी संपादन को करने के लिए उपलब्ध होती है, एक बार उस भाषा का विस्तार हो जाता है। इसी तरह, फिल्टर को विशेष [[कमांड (कंप्यूटिंग)]] विकसित करके बढ़ाया जाता है।
कंप्यूटर टेक्स्ट प्रोसेसिंग का विकास क्लेन द्वारा नियमित भाषा को औपचारिक रूप देने के साथ ही शुरू हुआ। इस तरह की [[नियमित अभिव्यक्ति]]याँ तब मिनी-प्रोग्राम बन सकती हैं, जो संकलन प्रक्रिया के साथ पूर्ण होती है, किसी भी संपादन को करने के लिए उपलब्ध होती है, एक बार उस भाषा का विस्तार हो जाता है। इसी तरह, फिल्टर को विशेष [[कमांड (कंप्यूटिंग)]] विकसित करके बढ़ाया जाता है।


==बुनियादी अवधारणाएँ==
==बुनियादी अवधारणाएँ==
एक संपादक अनिवार्य रूप से एक इनपुट स्ट्रीम को आमंत्रित करता है और इसे टेक्स्ट प्रोसेसिंग वातावरण में निर्देशित करता है, जो या तो एक [[कमांड शेल]] या [[ पाठ संपादक ]] होता है। परिणामी आउटपुट आगे की टेक्स्ट प्रोसेसिंग पर लागू होता है, जिसका अंतिम परिणाम एक अधिक परिष्कृत और संरचित कंप्यूटर प्रोग्राम द्वारा एक बार लागू एल्गोरिदम के एकल अनुप्रयोग के बराबर होता है।
एक संपादक अनिवार्य रूप से इनपुट स्ट्रीम को आमंत्रित करता है और इसे टेक्स्ट प्रोसेसिंग वातावरण में निर्देशित करता है, जो या तो [[कमांड शेल]] या [[ पाठ संपादक |पाठ संपादक]] होता है। परिणामी आउटपुट आगे की टेक्स्ट प्रोसेसिंग पर लागू होता है, जिसका अंतिम परिणाम अधिक परिष्कृत और संरचित कंप्यूटर प्रोग्राम द्वारा एक बार लागू एल्गोरिदम के एकल अनुप्रयोग के बराबर होता है।


टेक्स्ट प्रोसेसिंग, एल्गोरिदम के विपरीत, सरल मैक्रोज़ का मैन्युअल रूप से प्रशासित अनुक्रम है जो पैटर्न-एक्शन अभिव्यक्ति और फ़िल्टरिंग तंत्र हैं। किसी भी मामले में प्रोग्रामर का इरादा पाठ प्रसंस्करण के कार्य में पाठ्य वर्णों के दिए गए सेट पर अप्रत्यक्ष रूप से प्रभावित होता है। पाठ प्रसंस्करण चरण के परिणाम कभी-कभी केवल आशाजनक होते हैं, और प्रयास किया गया तंत्र अक्सर दृश्य प्रतिक्रिया के माध्यम से कई ड्राफ्ट के अधीन होता है, जब तक कि नियमित अभिव्यक्ति या मार्कअप भाषा विवरण, या उपयोगिता विकल्पों में पूरी तरह से महारत हासिल नहीं हो जाती।
टेक्स्ट प्रोसेसिंग, एल्गोरिदम के विपरीत, सरल मैक्रोज़ का मैन्युअल रूप से प्रशासित अनुक्रम है जो पैटर्न-एक्शन अभिव्यक्ति और फ़िल्टरिंग तंत्र हैं। किसी भी मामले में प्रोग्रामर का इरादा पाठ प्रसंस्करण के कार्य में पाठ्य वर्णों के दिए गए सेट पर अप्रत्यक्ष रूप से प्रभावित होता है। पाठ प्रसंस्करण चरण के परिणाम कभी-कभी केवल आशाजनक होते हैं, और प्रयास किया गया तंत्र अक्सर दृश्य प्रतिक्रिया के माध्यम से कई ड्राफ्ट के अधीन होता है, जब तक कि नियमित अभिव्यक्ति या मार्कअप भाषा विवरण, या उपयोगिता विकल्पों में पूरी तरह से महारत हासिल नहीं हो जाती।
Line 32: Line 32:
टेक्स्ट प्रोसेसिंग का संबंध ज्यादातर कंप्यूटिंग के उच्चतम स्तर पर टेक्स्ट कैरेक्टर तैयार करने से है, जहां इसकी गतिविधियां कंप्यूटिंग के व्यावहारिक उपयोग-सूचना के मैन्युअल ट्रांसमिशन से ठीक नीचे हैं।
टेक्स्ट प्रोसेसिंग का संबंध ज्यादातर कंप्यूटिंग के उच्चतम स्तर पर टेक्स्ट कैरेक्टर तैयार करने से है, जहां इसकी गतिविधियां कंप्यूटिंग के व्यावहारिक उपयोग-सूचना के मैन्युअल ट्रांसमिशन से ठीक नीचे हैं।


अंततः सभी कंप्यूटिंग टेक्स्ट प्रोसेसिंग है, एक असेंबलर के स्व-संकलित पाठ्य वर्णों से, ग्राफिकल डेटा के एक ब्लॉब को संभालने के लिए उत्पन्न स्वचालित प्रोग्रामिंग भाषा के माध्यम से, और अंत में नियमित अभिव्यक्तियों के मेटाकैरेक्टर्स तक जो मौजूदा टेक्स्ट दस्तावेज़ों को तैयार करते हैं।
अंततः सभी कंप्यूटिंग टेक्स्ट प्रोसेसिंग है, असेंबलर के स्व-संकलित पाठ्य वर्णों से, ग्राफिकल डेटा के ब्लॉब को संभालने के लिए उत्पन्न स्वचालित प्रोग्रामिंग भाषा के माध्यम से, और अंत में नियमित अभिव्यक्तियों के मेटाकैरेक्टर्स तक जो मौजूदा टेक्स्ट दस्तावेज़ों को तैयार करते हैं।


टेक्स्ट प्रोसेसिंग का अपना स्वचालन है।
टेक्स्ट प्रोसेसिंग का अपना स्वचालन है।
Line 44: Line 44:


==बाहरी संबंध==
==बाहरी संबंध==
* [http://tocs.ulb.tu-darmstadt.de/10663223.pdf  The subject matter of the book] ''Automatic Text Processing'' by [[Gerard Salton]]
* [http://tocs.ulb.tu-darmstadt.de/10663223.pdf  The subject matter of the book] ''Automatic Text Processing'' by [[Gerard Salton]]
* [http://www.sosciso.de/en/software/datenanalyse/qualitativ/text-processing/  Database with Text Processing Tools] (2013-10-23)
* [http://www.sosciso.de/en/software/datenanalyse/qualitativ/text-processing/  Database with Text Processing Tools] (2013-10-23)
* [http://courses.washington.edu/socw580/contentsoftware.shtml Content analysis software ] Software for Content Analysis.
* [http://courses.washington.edu/socw580/contentsoftware.shtml Content analysis software] Software for Content Analysis.
* [http://www.text-filter.com/text-tools-online.htm  Text Tools Online] Online Text processing tools.
* [http://www.text-filter.com/text-tools-online.htm  Text Tools Online] Online Text processing tools.


{{Natural language processing}}
{{Natural language processing}}
{{Authority control}}[[Category: मूलपाठ]] [[Category: यूनिक्स पाठ प्रसंस्करण उपयोगिताएँ]]  
[[Category: मूलपाठ]] [[Category: यूनिक्स पाठ प्रसंस्करण उपयोगिताएँ]]  





Revision as of 18:31, 1 October 2023

P.Oxy.6.993 text transcribed.svg

कंप्यूटिंग में, टेक्स्ट प्रोसेसिंग शब्द इलेक्ट्रॉनिक टेक्स्ट के निर्माण या हेरफेर को स्वचालित करने के सिद्धांत और अभ्यास को संदर्भित करता है।

पाठ आमतौर पर अभ्यास में संलग्न व्यक्ति के कीबोर्ड पर निर्दिष्ट सभी अल्फ़ान्यूमेरिक वर्णों को संदर्भित करता है, लेकिन सामान्य तौर पर पाठ का अर्थ लक्ष्य पाठ के मानक अक्षरों को सांकेतिक अक्षरों में बदलना के ठीक ऊपर अमूर्त परत है। प्रसंस्करण शब्द स्वचालित (या यंत्रीकृत) प्रसंस्करण को संदर्भित करता है, जो मैन्युअल रूप से किए गए समान हेरफेर के विपरीत है।

टेक्स्ट प्रोसेसिंग में कंप्यूटर कमांड शामिल होते हैं जो उदाहरण के लिए सामग्री, सामग्री परिवर्तन और कर्सर आंदोलन को लागू करते हैं

  • खोजें और बदलें
  • प्रारूप
  • या की सामग्री की संसाधित रिपोर्ट तैयार करें
  • किसी फ़ाइल या टेक्स्ट फ़ाइल की रिपोर्ट को फ़िल्टर करें।

नियमित अभिव्यक्ति की टेक्स्ट प्रोसेसिंग वर्चुअल एडिटिंग मशीन है, जिसमें आदिम प्रोग्रामिंग भाषा होती है जिसमें रजिस्टरों (पहचानकर्ता) का नाम होता है, और टेक्स्ट में वर्णों के अनुक्रम में पदों का नाम दिया जाता है। इनका उपयोग करके, टेक्स्ट प्रोसेसर, उदाहरण के लिए, टेक्स्ट के क्षेत्र को चिह्नित कर सकता है और फिर उसे स्थानांतरित कर सकता है। यूनिक्स उपयोगिता का टेक्स्ट प्रोसेसिंग फ़िल्टर प्रोग्राम, या फ़िल्टर है। इन दो तंत्रों में टेक्स्ट प्रोसेसिंग शामिल है।

परिभाषा

चूंकि एएनएसआई एस्केप कोड जैसे मानकीकृत मार्कअप आम तौर पर संपादक के लिए अदृश्य होते हैं, उनमें क्षणभंगुर गुणों का सेट शामिल होता है जो कभी-कभी शब्द संसाधन से अप्रभेद्य हो जाते हैं। लेकिन वर्ड प्रोसेसिंग से निश्चित अंतर यह है कि टेक्स्ट प्रोसेसिंग उचित है:

  • टेक्स्ट प्रोसेसिंग उपयोगिताओं का प्रतिनिधित्व करता है, न कि केवल टेक्स्ट संपादन अनुप्रयोगों का।
  • किसी संपादन को शुरू करने के लिए माउस के तरीके (उदाहरण के लिए खींचें और छोड़ें, काटें और चिपकाएँ) के विपरीत, यह कीबोर्ड का तरीका है।
  • दृष्टिकोण में यादृच्छिक पहुंच के बजाय अनुक्रमिक पहुंच है।
  • अप्रत्यक्ष रूप से अनुप्रयोग परत के बजाय प्रेजेंटेशन लेयर पर सीधे काम करता है।
  • कच्चे डेटा पर काम करता है जो मानकीकृत होता है और किसी मालिकाना तरीकों की ओर रुझान करने के बजाय अधिक खुले तौर पर काम करता है।

इस तरह फ़ॉन्ट और रंग जैसे मार्कअप वास्तव में विशिष्ट कारक नहीं हैं, क्योंकि फ़ॉन्ट और रंग को प्रभावित करने वाले वर्ण अनुक्रम केवल पृष्ठभूमि टेक्स्ट प्रोसेसिंग मोड द्वारा स्वचालित रूप से डाले गए मानक वर्ण हैं, जो अनुरूप पाठ संपादकों द्वारा पारदर्शी रूप से काम करने के लिए बनाए जाते हैं। , फिर भी वह मोड प्रभावी नहीं होने पर टेक्स्ट प्रोसेसिंग कमांड के रूप में दृश्यमान हो जाता है। इसलिए पाठ प्रसंस्करण को मानक, फिर भी अदृश्य वर्णों के बजाय दृश्य वर्णों (या ग्रैफेम्स) के आसपास मूल रूप से (लेकिन पूरी तरह से नहीं) परिभाषित किया गया है।

इतिहास

कंप्यूटर टेक्स्ट प्रोसेसिंग का विकास क्लेन द्वारा नियमित भाषा को औपचारिक रूप देने के साथ ही शुरू हुआ। इस तरह की नियमित अभिव्यक्तियाँ तब मिनी-प्रोग्राम बन सकती हैं, जो संकलन प्रक्रिया के साथ पूर्ण होती है, किसी भी संपादन को करने के लिए उपलब्ध होती है, एक बार उस भाषा का विस्तार हो जाता है। इसी तरह, फिल्टर को विशेष कमांड (कंप्यूटिंग) विकसित करके बढ़ाया जाता है।

बुनियादी अवधारणाएँ

एक संपादक अनिवार्य रूप से इनपुट स्ट्रीम को आमंत्रित करता है और इसे टेक्स्ट प्रोसेसिंग वातावरण में निर्देशित करता है, जो या तो कमांड शेल या पाठ संपादक होता है। परिणामी आउटपुट आगे की टेक्स्ट प्रोसेसिंग पर लागू होता है, जिसका अंतिम परिणाम अधिक परिष्कृत और संरचित कंप्यूटर प्रोग्राम द्वारा एक बार लागू एल्गोरिदम के एकल अनुप्रयोग के बराबर होता है।

टेक्स्ट प्रोसेसिंग, एल्गोरिदम के विपरीत, सरल मैक्रोज़ का मैन्युअल रूप से प्रशासित अनुक्रम है जो पैटर्न-एक्शन अभिव्यक्ति और फ़िल्टरिंग तंत्र हैं। किसी भी मामले में प्रोग्रामर का इरादा पाठ प्रसंस्करण के कार्य में पाठ्य वर्णों के दिए गए सेट पर अप्रत्यक्ष रूप से प्रभावित होता है। पाठ प्रसंस्करण चरण के परिणाम कभी-कभी केवल आशाजनक होते हैं, और प्रयास किया गया तंत्र अक्सर दृश्य प्रतिक्रिया के माध्यम से कई ड्राफ्ट के अधीन होता है, जब तक कि नियमित अभिव्यक्ति या मार्कअप भाषा विवरण, या उपयोगिता विकल्पों में पूरी तरह से महारत हासिल नहीं हो जाती।

टेक्स्ट प्रोसेसिंग का संबंध ज्यादातर कंप्यूटिंग के उच्चतम स्तर पर टेक्स्ट कैरेक्टर तैयार करने से है, जहां इसकी गतिविधियां कंप्यूटिंग के व्यावहारिक उपयोग-सूचना के मैन्युअल ट्रांसमिशन से ठीक नीचे हैं।

अंततः सभी कंप्यूटिंग टेक्स्ट प्रोसेसिंग है, असेंबलर के स्व-संकलित पाठ्य वर्णों से, ग्राफिकल डेटा के ब्लॉब को संभालने के लिए उत्पन्न स्वचालित प्रोग्रामिंग भाषा के माध्यम से, और अंत में नियमित अभिव्यक्तियों के मेटाकैरेक्टर्स तक जो मौजूदा टेक्स्ट दस्तावेज़ों को तैयार करते हैं।

टेक्स्ट प्रोसेसिंग का अपना स्वचालन है।

अक्षर

पाठ्य वर्ण मानकीकृत वर्ण सेटों में आते हैं जिनमें न्यूलाइन वर्ण जैसे नियंत्रण वर्ण भी होते हैं, जो पाठ को व्यवस्थित करते हैं। अन्य प्रकार के नियंत्रण वर्ण ट्रांसमिशन की व्यवस्था करते हैं, वर्ण सेट को परिभाषित करते हैं, और अन्य हाउसकीपिंग कार्य करते हैं।

यह भी देखें

बाहरी संबंध