टेक्स्ट फ़ाइल: Difference between revisions
No edit summary |
|||
Line 45: | Line 45: | ||
== डेटा संग्रहण == | == डेटा संग्रहण == | ||
[[Image:CsvDelimited001.svg|thumb|right|200px|अल्पविराम से अलग किए गए मान-स्वरूपित टेक्स्ट फाइल का एक शैलीगत प्रतिष्ठित चित्रण।]]उनकी सरलता के कारण, टेक्स्ट फाइल | [[Image:CsvDelimited001.svg|thumb|right|200px|अल्पविराम से अलग किए गए मान-स्वरूपित टेक्स्ट फाइल का एक शैलीगत प्रतिष्ठित चित्रण।]]उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के [[कंप्यूटर डेटा भंडारण]] के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी [[वर्ड (कंप्यूटर आर्किटेक्चर)|शब्द (कंप्यूटर आर्किटेक्चर)]] में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में डेटा करप्शन होता है, तो अधिकांशतः इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। टेक्स्ट फाइल का एक नुकसान यह है कि उनके पास सामान्य तौर पर कम [[एंट्रॉपी (सूचना सिद्धांत)]] होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा स्टोरेज करती है। | ||
व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल | व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त [[मेटा डेटा]] (इसके वर्ण समूह के ज्ञान के अतिरिक्त) की आवश्यकता नहीं हो सकती है। टेक्स्ट फाइल में कोई डेटा नहीं हो सकता है, जो कि [[शून्य-बाइट फ़ाइल]] का कथन है। | ||
== एनकोडिंग == | == एनकोडिंग == |
Revision as of 01:06, 23 February 2023
This article needs additional citations for verification. (December 2015) (Learn how and when to remove this template message) |
Filename extension |
.txt |
---|---|
Internet media type |
text/plain |
Type code | TEXT |
Uniform Type Identifier (UTI) | public.plain-text |
UTI conformation | public.text |
Type of format | Document file format, Generic container format |
टेक्स्ट फाइल (कभी-कभी वर्तनी टेक्स्ट फाइल; पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे इलेक्ट्रॉनिक पाठ की पंक्ति (टेक्स्ट फाइल) के अनुक्रम के रूप में संरचित किया जाता है। रेखा (टेक्स्ट फाइल) कंप्यूटर फ़ाइल प्रणाली के भीतर आधार सामग्री भंडारण उपस्थित है। सीपी/एम और एमएस-डॉस जैसे ऑपरेटिंग सिस्टम ( क्रिया संचालन प्रणाली) में, जहां क्रिया संचालन प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। फ़ाइल मार्कर, टेक्स्ट फाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में होता है। माइक्रोसॉफ़्ट विंडोज़ और यूनिक्स जैसे प्रणाली आधुनिक क्रिया संचालन प्रणाली पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ(एन्ड-ऑफ़-फाइल) कैरेक्टर नहीं होता है, क्योंकि उन क्रिया संचालन प्रणाली पर फाइल प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश टेक्स्ट फाइल में नई पंक्ति होती है| एंड-ऑफ़-लाइन सीमांकक होना आवश्यक है, जो क्रिया संचालन प्रणाली के आधार पर कुछ अलग तरीकों से किया जाता है। रिकॉर्ड-उन्मुख फ़ाइल प्रणाली के साथ क्रिया संचालन प्रणाली है | रिकॉर्ड-ओरिएंटेड फाइल प्रणाली नए रेखा सीमांकक का उपयोग नहीं कर सकते हैं और मुख्य रूप प्लेन टेक्स्ट फाइलों को फिक्स्ड या परिवर्तनीय लम्बाई अभिलेख (वेरिएबल लेंथ रिकॉर्ड) के रूप में अलग-अलग रेखाओं के साथ इकठ्ठा करेंगे।
टेक्स्ट फाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि प्लेन फाइल सामग्री के प्रकार को संदर्भित करता है।
विवरण के सामान्य स्तर पर, दो प्रकार की कंप्यूटर फ़ाइलें होती हैं: टेक्स्ट फाइल और बाइनरी फ़ाइल।[1]
डेटा संग्रहण
उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के कंप्यूटर डेटा भंडारण के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी शब्द (कंप्यूटर आर्किटेक्चर) में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में डेटा करप्शन होता है, तो अधिकांशतः इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। टेक्स्ट फाइल का एक नुकसान यह है कि उनके पास सामान्य तौर पर कम एंट्रॉपी (सूचना सिद्धांत) होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा स्टोरेज करती है।
व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त मेटा डेटा (इसके वर्ण समूह के ज्ञान के अतिरिक्त) की आवश्यकता नहीं हो सकती है। टेक्स्ट फाइल में कोई डेटा नहीं हो सकता है, जो कि शून्य-बाइट फ़ाइल का कथन है।
एनकोडिंग
एएससीआईआई अंग्रेजी-भाषा टेक्स्ट फाइल ों के लिए वर्ण सेट का सबसे आम संगत उपसमुच्चय है, और आमतौर पर कई स्थितियों में डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी शामिल है, लेकिन ब्रिटिश पाउन्ड चिन्ह, यूरो चिह्न, या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, एक समृद्ध वर्ण सेट का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे पढ़ने वाले कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है। UTF-8 से पहले, यह पारंपरिक रूप से यूरोपीय भाषाओं के लिए एकल-बाइट एनकोडिंग (जैसे ISO-8859-1 से ISO-8859-16) और एशियाई भाषाओं के लिए विस्तृत वर्ण एनकोडिंग था।
क्योंकि एन्कोडिंग में आवश्यक रूप से वर्णों का केवल एक सीमित प्रदर्शन होता है, अक्सर बहुत छोटा होता है, कई केवल मानव भाषाओं के सीमित उपसमुच्चय में पाठ का प्रतिनिधित्व करने के लिए उपयोग योग्य होते हैं। यूनिकोड सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए एक सामान्य मानक बनाने का एक प्रयास है, और अधिकांश ज्ञात वर्ण सेट बहुत बड़े यूनिकोड वर्ण सेट के सबसेट हैं। यद्यपि यूनिकोड के लिए कई वर्ण एनकोडिंग उपलब्ध हैं, सबसे आम UTF-8 है, जिसका ASCII के साथ पश्च-संगत होने का लाभ है; अर्थात्, प्रत्येक ASCII टेक्स्ट फाइल समान अर्थ वाली UTF-8 टेक्स्ट फाइल भी है। UTF-8 का यह भी फायदा है कि UTF-8#फॉलबैक और ऑटो-डिटेक्शन | यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, UTF-8 सक्षम सॉफ़्टवेयर का एक सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, UTF-8 को पहले आज़माना है और जब यह निश्चित रूप से UTF-8 नहीं है, तो लोकेल आश्रित लीगेसी एन्कोडिंग पर वापस आना है।
प्रारूप
अधिकांश क्रिया संचालन प्रणाली पर नाम टेक्स्ट फ़ाइल फ़ाइल प्रारूप को संदर्भित करती है जो केवल सादा पाठ सामग्री को बहुत कम स्वरूपण के साथ अनुमति देती है (उदाहरण के लिए, कोई 'जोर (टाइपोग्राफी)' या इटैलिक प्रकार प्रकार नहीं)। ऐसी फाइलों को पाठ टर्मिनलों या साधारण पाठ संपादक्स में देखा और संपादित किया जा सकता है। टेक्स्ट फाइल ों में आमतौर पर MIME प्रकार होता है text/plain
, आमतौर पर एक एन्कोडिंग इंगित करने वाली अतिरिक्त जानकारी के साथ।
माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइल ें
MS-DOS और Microsoft Windows एक सामान्य टेक्स्ट फाइल स्वरूप का उपयोग करते हैं, पाठ की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: कैरिज रिटर्न (CR) और रेखा भरण (LF)। पाठ की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना आम बात है, और कई पाठ संपादक (नोटपैड (विंडोज़) सहित) स्वचालित रूप से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं।
Microsoft Windows क्रिया संचालन प्रणाली पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय (फ़ाइल नाम एक्सटेंशन) है .txt
. हालाँकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड आमतौर पर टेक्स्ट फाइल ों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस प्रोग्रामिंग भाषा को दर्शाता है जिसमें स्रोत लिखा गया है।
अधिकांश Microsoft Windows टेक्स्ट फाइल ें ANSI , OEM , यूनिकोड या UTF-8 एन्कोडिंग का उपयोग करती हैं। Microsoft Windows शब्दावली जिसे ANSI एनकोडिंग कहती है, वह आमतौर पर सिंगल-बाइट ISO/IEC 8859 एनकोडिंग होती है (अर्थात Microsoft नोटपैड मेनू में ANSI वास्तव में प्रणाली कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर सेट की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट प्रणाली लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे डॉस कोड पेज के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले प्रणाली में उपयोग के लिए परिभाषित किया गया था। वे आम तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण शामिल करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में यूटीएफ-16 -16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें आमतौर पर बाइट ऑर्डर मार्क (बीओएम) से शुरू होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। हालांकि UTF-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई Microsoft Windows प्रोग्राम (यानी नोटपैड) BOM के साथ UTF-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं,[2] UTF-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए।[3]
यूनिक्स टेक्स्ट फाइल ें
यूनिक्स की तरह के क्रिया संचालन प्रणाली पर टेक्स्ट फाइल फॉर्मेट का ठीक-ठीक वर्णन किया गया है: POSIX एक टेक्स्ट फाइल को एक फाइल के रूप में परिभाषित करता है जिसमें शून्य या अधिक लाइनों में व्यवस्थित वर्ण होते हैं,[4] जहाँ रेखाएँ शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ एक समाप्ति न्यूलाइन वर्ण के अनुक्रम हैं,[5] सामान्य रूप से एल.एफ.
इसके अतिरिक्त, POSIX a को परिभाषित करता हैprintable fileएक टेक्स्ट फाइल के रूप में जिसके पात्र क्षेत्रीय नियमों के अनुसार प्रिंट करने योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण शामिल नहीं हैं, जो प्रिंट करने योग्य नहीं हैं।[6]
Apple Macintosh टेक्स्ट फाइल ें
MacOS के आगमन से पहले, क्लासिक Mac OS प्रणाली ने फ़ाइल की सामग्री (डेटा फोर्क) को एक टेक्स्ट फ़ाइल माना जब इसके संसाधन फोर्क ने संकेत दिया कि फ़ाइल का प्रकार TEXT था।[7] क्लासिक मैक ओएस टेक्स्ट फाइल ों की पंक्तियों को कैरिज रिटर्न वर्णों के साथ समाप्त किया गया है।[8] यूनिक्स जैसी प्रणाली होने के कारण, macOS टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है।[8]MacOS में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला वर्दी प्रकार पहचानकर्ता (UTI) public.plain-text है; अतिरिक्त, अधिक विशिष्ट यूटीआई हैं: utf-8-एन्कोडेड टेक्स्ट के लिए public.utf8-plain-text, utf-16-एन्कोडेड टेक्स्ट के लिए public.utf16-external-plain-text और public.utf16-plain-text और com.apple क्लासिक मैक ओएस टेक्स्ट फाइल ों के लिए .traditional-mac-plain-text।[7]
प्रतिपादन
पाठ संपादक द्वारा खोले जाने पर, मानव-पठनीय सामग्री उपयोगकर्ता को प्रस्तुत की जाती है। इसमें अक्सर फ़ाइल का सादा पाठ होता है जो उपयोगकर्ता को दिखाई देता है। आवेदन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित शाब्दिक निर्देशों के रूप में, या दृश्य बचने वाले पात्रों के रूप में प्रस्तुत किए जा सकते हैं जिन्हें सादे पाठ के रूप में संपादित किया जा सकता है। यद्यपि टेक्स्ट फाइल में सादा पाठ हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष रूप से अंत-फ़ाइल वर्ण) एक विशेष विधि द्वारा सादे पाठ को अनदेखा कर सकते हैं।
यह भी देखें
- एएससीआईआई
- EBCDIC
- फ़ाइल नाम एक्सटेंशन
- फ़ाइल स्वरूपों की सूची
- नई पंक्ति
- वाक्य - विन्यास पर प्रकाश डालना
- पाठ संपादक
- यूनिकोड
नोट्स और संदर्भ
- ↑ Lewis, John (2006). Computer Science Illuminated. Jones and Bartlett. ISBN 0-7637-4149-3.
- ↑ "Using Byte Order Marks". Internationalization for Windows Applications. Microsoft. Retrieved 2022-04-21.
- ↑ Freytag, Asmus (2015-12-18). "FAQ – UTF-8, UTF-16, UTF-32 & BOM". The Unicode Consortium. Retrieved 2016-05-30.
Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.
- ↑ "3.403 Text File". IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Retrieved 2019-03-01.
- ↑ "3.206 Line". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
- ↑ "3.284 Printable File". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
- ↑ 7.0 7.1 "System-Declared Uniform Type Identifiers". Guides and Sample Code. Apple Inc. 2009-11-17. Retrieved 2016-09-12.
- ↑ 8.0 8.1 "Designing Scripts for Cross-Platform Deployment". Mac Developer Library. Apple Inc. 2014-03-10. Retrieved 2016-09-12.