टेक्स्ट फ़ाइल: Difference between revisions
No edit summary |
No edit summary |
||
Line 29: | Line 29: | ||
| url = | | url = | ||
}} | }} | ||
टेक्स्ट फाइल (कभी-कभी वर्तनी टेक्स्ट फाइल; पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे [[इलेक्ट्रॉनिक पाठ]] की पंक्ति (टेक्स्ट फाइल) के अनुक्रम के रूप में संरचित किया जाता है। [[रेखा (पाठ फ़ाइल)|रेखा (टेक्स्ट फाइल)]] [[कंप्यूटर फ़ाइल सिस्टम|कंप्यूटर फ़ाइल प्रणाली]] के भीतर [[आधार सामग्री भंडारण]] उपस्थित है। सीपी/एम और [[एमएस-डॉस]] जैसे ऑपरेटिंग '''सिस्टम ( क्रिया''' संचालन प्रणाली) में, जहां क्रिया संचालन प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। फ़ाइल मार्कर, टेक्स्ट फाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में होता है। [[माइक्रोसॉफ़्ट विंडोज़]] और यूनिक्स जैसे प्रणाली आधुनिक क्रिया संचालन प्रणाली पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ(एन्ड-ऑफ़-फाइल) कैरेक्टर नहीं होता है, क्योंकि उन क्रिया | टेक्स्ट फाइल (कभी-कभी वर्तनी टेक्स्ट फाइल; पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे [[इलेक्ट्रॉनिक पाठ]] की पंक्ति (टेक्स्ट फाइल) के अनुक्रम के रूप में संरचित किया जाता है। [[रेखा (पाठ फ़ाइल)|रेखा (टेक्स्ट फाइल)]] [[कंप्यूटर फ़ाइल सिस्टम|कंप्यूटर फ़ाइल प्रणाली]] के भीतर [[आधार सामग्री भंडारण]] उपस्थित है। सीपी/एम और [[एमएस-डॉस]] जैसे ऑपरेटिंग '''सिस्टम ( क्रिया''' संचालन प्रणाली) में, जहां क्रिया संचालन प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। फ़ाइल मार्कर, टेक्स्ट फाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में होता है। [[माइक्रोसॉफ़्ट विंडोज़]] और यूनिक्स जैसे प्रणाली आधुनिक क्रिया संचालन प्रणाली पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ(एन्ड-ऑफ़-फाइल) कैरेक्टर नहीं होता है, क्योंकि उन क्रिया संचालन प्रणाली पर फाइल प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश टेक्स्ट फाइल में [[नई पंक्ति|नई पंक्ति होती है]]| एंड-ऑफ़-लाइन [[परिसीमक|सीमांकक]] होना आवश्यक है, जो क्रिया संचालन प्रणाली के आधार पर कुछ अलग तरीकों से किया जाता है। [[रिकॉर्ड-उन्मुख फ़ाइल सिस्टम|रिकॉर्ड-उन्मुख फ़ाइल प्रणाली]] के साथ क्रिया संचालन प्रणाली हैl रिकॉर्ड-ओरिएंटेड फाइल प्रणाली नए रेखा [[परिसीमक|सीमांकक]] का उपयोग नहीं कर सकते हैं और मुख्य रूप [[सादे पाठ|प्लेन टेक्स्ट]] फाइलों को फिक्स्ड या परिवर्तनीय लम्बाई अभिलेख (वेरिएबल लेंथ रिकॉर्ड) के रूप में अलग-अलग रेखाओं के साथ इकठ्ठा करेंगे। | ||
टेक्स्ट फाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि प्लेन फाइल सामग्री के प्रकार को संदर्भित करता है। | टेक्स्ट फाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि प्लेन फाइल सामग्री के प्रकार को संदर्भित करता है। | ||
Line 42: | Line 42: | ||
}}</ref> | }}</ref> | ||
== डेटा संग्रहण == | == डेटा संग्रहण == | ||
[[Image:CsvDelimited001.svg|thumb|right|200px|अल्पविराम से अलग किए गए मान-स्वरूपित टेक्स्ट फाइल का एक शैलीगत प्रतिष्ठित चित्रण।]]उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के [[कंप्यूटर डेटा भंडारण]] के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी [[वर्ड (कंप्यूटर आर्किटेक्चर)|शब्द (कंप्यूटर आर्किटेक्चर)]] में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में | [[Image:CsvDelimited001.svg|thumb|right|200px|अल्पविराम से अलग किए गए मान-स्वरूपित टेक्स्ट फाइल का एक शैलीगत प्रतिष्ठित चित्रण।]]उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के [[कंप्यूटर डेटा भंडारण]] के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी [[वर्ड (कंप्यूटर आर्किटेक्चर)|शब्द (कंप्यूटर आर्किटेक्चर)]] में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में डेटा करप्शन होता है, तो अधिकांशतः इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। टेक्स्ट फाइल का एक नुकसान यह है कि उनके पास सामान्य तौर पर कम [[एंट्रॉपी (सूचना सिद्धांत)]] होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा स्टोरेज करती है। | ||
व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त [[मेटा डेटा]] (इसके वर्ण समूह | व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त [[मेटा डेटा]] (इसके वर्ण समूह के ज्ञान के अतिरिक्त) की आवश्यकता नहीं हो सकती है। टेक्स्ट फाइल में कोई डेटा नहीं हो सकता है, जो कि [[शून्य-बाइट फ़ाइल]] का कथन है। | ||
== एनकोडिंग == | == एनकोडिंग == | ||
Line 57: | Line 57: | ||
=== माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइल === | === माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइल === | ||
एमएस-डीओएस और मइक्रोसॉफ़्ट विंडोज सामान्य टेक्स्ट फाइल स्वरूप का उपयोग करते हैं, टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: [[कैरिज रिटर्न]] (सीआर) और [[रेखा भरण]] (एलएफ) है। टेक्स्ट की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना सामान्य बात है, और कई | एमएस-डीओएस और मइक्रोसॉफ़्ट विंडोज सामान्य टेक्स्ट फाइल स्वरूप का उपयोग करते हैं, टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: [[कैरिज रिटर्न]] (सीआर) और [[रेखा भरण]] (एलएफ) है। टेक्स्ट की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना सामान्य बात है, और कई टेक्स्ट संपादक ([[नोटपैड (विंडोज़)]] सहित) स्वचालित प्रकार से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं। | ||
मइक्रोसॉफ़्ट विंडोज क्रिया संचालन प्रणाली पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय ([[फ़ाइल नाम एक्सटेंशन]]) है .<code>टीएक्सटी</code>. चूंकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड | मइक्रोसॉफ़्ट विंडोज क्रिया संचालन प्रणाली पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय ([[फ़ाइल नाम एक्सटेंशन]]) है .<code>टीएक्सटी</code>. चूंकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड सामान्य तौर पर टेक्स्ट फाइलों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस [[प्रोग्रामिंग भाषा]] को दर्शाता है जिसमें स्रोत लिखा गया है। | ||
अधिकांश मइक्रोसॉफ़्ट विंडोज टेक्स्ट फाइल एएनएसआइ, ओइएम, यूनिकोड या यूएफटी-8 एन्कोडिंग का उपयोग करती हैं। मइक्रोसॉफ़्ट विंडोज शब्दावली जिसे एएनएसआइ एनकोडिंग कहते है, वह सामान्य तौर पर सिंगल-बाइट आइएसओ /आइइसी 8859 एनकोडिंग होती है (अर्थात माइक्रोसॉफ्ट नोटपैड मेनू में एएनएसआइ वास्तव में प्रणाली कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर समूह की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट प्रणाली लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे [[डॉस कोड पेज]] के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले प्रणाली में उपयोग के लिए परिभाषित किया गया था। वे सामान्य तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण सम्मिलित करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में [[यूटीएफ-16]]-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें सामान्य तौर पर [[बाइट ऑर्डर मार्क]] (बीओएम) से प्रारम्भ होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। चूंकि यूएफटी-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, | अधिकांश मइक्रोसॉफ़्ट विंडोज टेक्स्ट फाइल एएनएसआइ, ओइएम, यूनिकोड या यूएफटी-8 एन्कोडिंग का उपयोग करती हैं। मइक्रोसॉफ़्ट विंडोज शब्दावली जिसे एएनएसआइ एनकोडिंग कहते है, वह सामान्य तौर पर सिंगल-बाइट आइएसओ /आइइसी 8859 एनकोडिंग होती है (अर्थात माइक्रोसॉफ्ट नोटपैड मेनू में एएनएसआइ वास्तव में प्रणाली कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर समूह की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट प्रणाली लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे [[डॉस कोड पेज]] के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले प्रणाली में उपयोग के लिए परिभाषित किया गया था। वे सामान्य तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण सम्मिलित करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में [[यूटीएफ-16]]-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें सामान्य तौर पर [[बाइट ऑर्डर मार्क]] (बीओएम) से प्रारम्भ होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। चूंकि यूएफटी-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई मइक्रोसॉफ़्ट विंडोज प्रोग्राम (अर्थात नोटपैड) बीओएम के साथ यूएफटी-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं,<ref>{{cite web |url=https://docs.microsoft.com/en-gb/windows/win32/intl/using-byte-order-marks| title=Using Byte Order Marks |work=Internationalization for Windows Applications |publisher=[[Microsoft]] |access-date=2022-04-21}}</ref> यूएफटी-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए करते हैं।<ref>{{cite web |url=https://www.unicode.org/faq/utf_bom.html#BOM |title=FAQ – UTF-8, UTF-16, UTF-32 & BOM |first=Asmus |last=Freytag |publisher=The Unicode Consortium |date=2015-12-18 |access-date=2016-05-30 |quote=Yes, UTF-8 can contain a BOM. However, it makes ''no'' difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used ''transparently'' in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.}}</ref> | ||
=== यूनिक्स टेक्स्ट फाइल === | === यूनिक्स टेक्स्ट फाइल === | ||
Revision as of 16:41, 23 February 2023
Filename extension |
.txt |
---|---|
Internet media type |
टेक्स्ट/प्लेन |
Uniform Type Identifier (UTI) | पब्लिक.प्लेन-टेक्स्ट |
UTI conformation | पब्लिक.टेक्स्ट |
Type of format | डॉक्यूमेंट फाइल फॉर्मेट , जेनेरिक कंटेनर फॉर्मेट |
टेक्स्ट फाइल (कभी-कभी वर्तनी टेक्स्ट फाइल; पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे इलेक्ट्रॉनिक पाठ की पंक्ति (टेक्स्ट फाइल) के अनुक्रम के रूप में संरचित किया जाता है। रेखा (टेक्स्ट फाइल) कंप्यूटर फ़ाइल प्रणाली के भीतर आधार सामग्री भंडारण उपस्थित है। सीपी/एम और एमएस-डॉस जैसे ऑपरेटिंग सिस्टम ( क्रिया संचालन प्रणाली) में, जहां क्रिया संचालन प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। फ़ाइल मार्कर, टेक्स्ट फाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में होता है। माइक्रोसॉफ़्ट विंडोज़ और यूनिक्स जैसे प्रणाली आधुनिक क्रिया संचालन प्रणाली पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ(एन्ड-ऑफ़-फाइल) कैरेक्टर नहीं होता है, क्योंकि उन क्रिया संचालन प्रणाली पर फाइल प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश टेक्स्ट फाइल में नई पंक्ति होती है| एंड-ऑफ़-लाइन सीमांकक होना आवश्यक है, जो क्रिया संचालन प्रणाली के आधार पर कुछ अलग तरीकों से किया जाता है। रिकॉर्ड-उन्मुख फ़ाइल प्रणाली के साथ क्रिया संचालन प्रणाली हैl रिकॉर्ड-ओरिएंटेड फाइल प्रणाली नए रेखा सीमांकक का उपयोग नहीं कर सकते हैं और मुख्य रूप प्लेन टेक्स्ट फाइलों को फिक्स्ड या परिवर्तनीय लम्बाई अभिलेख (वेरिएबल लेंथ रिकॉर्ड) के रूप में अलग-अलग रेखाओं के साथ इकठ्ठा करेंगे।
टेक्स्ट फाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि प्लेन फाइल सामग्री के प्रकार को संदर्भित करता है।
विवरण के सामान्य स्तर पर, दो प्रकार की कंप्यूटर फ़ाइलें होती हैं: टेक्स्ट फाइल और बाइनरी फ़ाइल है।[1]
डेटा संग्रहण
उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के कंप्यूटर डेटा भंडारण के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी शब्द (कंप्यूटर आर्किटेक्चर) में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में डेटा करप्शन होता है, तो अधिकांशतः इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। टेक्स्ट फाइल का एक नुकसान यह है कि उनके पास सामान्य तौर पर कम एंट्रॉपी (सूचना सिद्धांत) होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा स्टोरेज करती है।
व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त मेटा डेटा (इसके वर्ण समूह के ज्ञान के अतिरिक्त) की आवश्यकता नहीं हो सकती है। टेक्स्ट फाइल में कोई डेटा नहीं हो सकता है, जो कि शून्य-बाइट फ़ाइल का कथन है।
एनकोडिंग
एएससीआईआई अंग्रेजी-भाषा टेक्स्ट फाइल के लिए वर्ण समूह का सबसे सामान्य संगत उपसमुच्चय है, और सामान्य तौर पर कई स्थितियों में डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी सम्मिलित है, परन्तु ब्रिटिश पाउन्ड चिन्ह, यूरो चिह्न, या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, समृद्ध वर्ण समूह का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे पढ़ने वाले कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है। यूटीएफ-8 से पहले, यह पारंपरिक प्रकार से यूरोपीय भाषाओं के लिए एकल-बाइट एनकोडिंग (जैसे आईएसओ-8859-1 से आईएसओ-8859-16) और एशियाई भाषाओं के लिए विस्तृत वर्ण एनकोडिंग था।
क्योंकि एन्कोडिंग में आवश्यक प्रकार से वर्णों का सीमित प्रदर्शन होता है, अधिकांशतः बहुत छोटा होता है, एक मात्र मानव भाषाओं के सीमित उपसमुच्चय में पाठ का प्रतिनिधित्व करने के लिए उपयोग योग्य होते हैं। यूनिकोड सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए सामान्य मानक बनाने का प्रयास है, और अधिकांश ज्ञात वर्ण समूह बहुत बड़े यूनिकोड वर्ण समूह के उपसमुच्चय हैं। यद्यपि यूनिकोड के लिए कई वर्ण एनकोडिंग उपलब्ध हैं, सबसे सामान्य यूएफटी-8 है, जिसका एएससीआइआइ के साथ पश्च-संगत होने का लाभ है; अर्थात्, प्रत्येक एएससीआइआइ टेक्स्ट फाइल समान अर्थ वाली यूएफटी-8 टेक्स्ट फाइल भी है। यूएफटी-8 का यह भी लाभ है कि यूएफटी-8 फॉलबैक और ऑटो-डिटेक्शन होता हैl यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, यूएफटी-8 सक्षम सॉफ़्टवेयर का सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, यूएफटी-8 को पहले परखना है और जब यह निश्चित प्रकार से यूएफटी-8 नहीं है, तो लोकेल आश्रित लीगेसी एन्कोडिंग पर वापस आना है।
प्रारूप
अधिकांश क्रिया संचालन प्रणाली पर नाम टेक्स्ट फ़ाइल फ़ाइल प्रारूप को संदर्भित करती है जो केवल प्लेन फाइल सामग्री को बहुत कम स्वरूपण के साथ अनुमति देती है (उदाहरण के लिए, कोई 'जोर (टाइपोग्राफी)' या इटैलिक प्रकार नहीं)। ऐसी फाइलों को टेक्स्ट टर्मिनलों या साधारण टेक्स्ट एडिटर में देखा और संपादित किया जा सकता है। टेक्स्ट फाइल में सामान्य तौर पर एमआइएमइ प्रकार होता है टेक्स्/फाइल, सामान्य तौर पर एन्कोडिंग इंगित करने वाली अतिरिक्त जानकारी के साथ होता है।
माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइल
एमएस-डीओएस और मइक्रोसॉफ़्ट विंडोज सामान्य टेक्स्ट फाइल स्वरूप का उपयोग करते हैं, टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: कैरिज रिटर्न (सीआर) और रेखा भरण (एलएफ) है। टेक्स्ट की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना सामान्य बात है, और कई टेक्स्ट संपादक (नोटपैड (विंडोज़) सहित) स्वचालित प्रकार से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं।
मइक्रोसॉफ़्ट विंडोज क्रिया संचालन प्रणाली पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय (फ़ाइल नाम एक्सटेंशन) है .टीएक्सटी
. चूंकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड सामान्य तौर पर टेक्स्ट फाइलों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस प्रोग्रामिंग भाषा को दर्शाता है जिसमें स्रोत लिखा गया है।
अधिकांश मइक्रोसॉफ़्ट विंडोज टेक्स्ट फाइल एएनएसआइ, ओइएम, यूनिकोड या यूएफटी-8 एन्कोडिंग का उपयोग करती हैं। मइक्रोसॉफ़्ट विंडोज शब्दावली जिसे एएनएसआइ एनकोडिंग कहते है, वह सामान्य तौर पर सिंगल-बाइट आइएसओ /आइइसी 8859 एनकोडिंग होती है (अर्थात माइक्रोसॉफ्ट नोटपैड मेनू में एएनएसआइ वास्तव में प्रणाली कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर समूह की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट प्रणाली लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे डॉस कोड पेज के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले प्रणाली में उपयोग के लिए परिभाषित किया गया था। वे सामान्य तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण सम्मिलित करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में यूटीएफ-16-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें सामान्य तौर पर बाइट ऑर्डर मार्क (बीओएम) से प्रारम्भ होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। चूंकि यूएफटी-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई मइक्रोसॉफ़्ट विंडोज प्रोग्राम (अर्थात नोटपैड) बीओएम के साथ यूएफटी-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं,[2] यूएफटी-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए करते हैं।[3]
यूनिक्स टेक्स्ट फाइल
यूनिक्स की तरह के क्रिया संचालन प्रणाली पर टेक्स्ट फाइल फॉर्मेट का ठीक-ठीक वर्णन किया गया है: पीओएसआइएक्स टेक्स्ट फाइल को एक फाइल के रूप में परिभाषित करता है जिसमें शून्य या अत्यधिक रेखाओं में व्यवस्थित वर्ण होते हैं,[4] जहाँ रेखाएँ शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ समाप्ति न्यूलाइन वर्ण के अनुक्रम हैं,[5] सामान्य प्रकार से एल.एफ हैं.
इसके अतिरिक्त, पीओएसआइएक्स को परिभाषित करता है प्रिंटेबल फाइल एक टेक्स्ट फाइल के रूप में जिसके कैरेक्टर प्रादेशिक नियमों के अनुसार प्रिंट करने योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण सम्मिलित नहीं हैं, जो प्रिंट करने योग्य नहीं हैं।[6]
Apple Macintosh टेक्स्ट फाइल
एमएसीओएस के आने से पूर्व, क्लासिक एमएसीओएस प्रणाली ने फ़ाइल की सामग्री (डेटा फोर्क) को टेक्स्ट फ़ाइल माना जब इसके संसाधन फोर्क ने संकेत दिया कि फ़ाइल का प्रकार टेक्स्ट था।[7] क्लासिक मैक ओएस टेक्स्ट फाइलों की पंक्तियों को कैरिज रिटर्न वर्णों के साथ समाप्त किया गया है।[8]
यूनिक्स जैसी प्रणाली होने के कारण, एमएसीओएस टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है।[8] एमएसीओएस में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला वर्दी प्रकार पहचानकर्ता (यूटीआइ) पब्लिक प्लेन-टेक्स्ट है; इसके अतिरिक्त, अत्यधिक विशिष्ट यूटीआई हैं: यूएफटी-8-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी8-प्लेन-टेक्स्ट , यूएफटी-16-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी16- एक्सटर्नल-प्लेन-टेक्स्ट और पब्लिक.यूएफटी16-प्लेन-टेक्स्ट और कॉम.एप्पल क्लासिक मैक ओएस टेक्स्ट फाइल के लिए .ट्रेडीसिनल-मैक-प्लेन-टेक्स्ट है।[7]
प्रतिपादन
टेक्स्ट संपादक द्वारा खोले जाने पर, मानव-पठनीय सामग्री उपयोगकर्ता को प्रस्तुत की जाती है। इसमें अधिकांशतः फ़ाइल का प्लेन फाइल होता है जो उपयोगकर्ता को दिखाई देता है। आवेदन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित शाब्दिक निर्देशों के रूप में, या दृश्य बचने वाले कैरेक्टर के रूप में प्रस्तुत किए जा सकते हैं जिन्हें प्लेन टेक्स्ट के रूप में संपादित किया जा सकता है। यद्यपि टेक्स्ट फाइल में प्लेन फाइल हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष प्रकार से अंत-फ़ाइल वर्ण) विशेष विधि द्वारा प्लेन टेक्स्ट को अनदेखा कर सकते हैं।
यह भी देखें
- एएससीआईआई
- इबीसीडीआइसी
- फ़ाइल नाम एक्सटेंशन
- फ़ाइल स्वरूपों की सूची
- नई पंक्ति
- वाक्य-विन्यास पर प्रकाश डालना
- पाठ संपादक
- यूनिकोड
नोट्स और संदर्भ
- ↑ Lewis, John (2006). Computer Science Illuminated. Jones and Bartlett. ISBN 0-7637-4149-3.
- ↑ "Using Byte Order Marks". Internationalization for Windows Applications. Microsoft. Retrieved 2022-04-21.
- ↑ Freytag, Asmus (2015-12-18). "FAQ – UTF-8, UTF-16, UTF-32 & BOM". The Unicode Consortium. Retrieved 2016-05-30.
Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.
- ↑ "3.403 Text File". IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Retrieved 2019-03-01.
- ↑ "3.206 Line". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
- ↑ "3.284 Printable File". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
- ↑ 7.0 7.1 "System-Declared Uniform Type Identifiers". Guides and Sample Code. Apple Inc. 2009-11-17. Retrieved 2016-09-12.
- ↑ 8.0 8.1 "Designing Scripts for Cross-Platform Deployment". Mac Developer Library. Apple Inc. 2014-03-10. Retrieved 2016-09-12.