टेक्स्ट फ़ाइल: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Computer file containing plain text}} {{more citations needed|date=December 2015}} {{Infobox file format | name = Text file | icon = Text-txt.svg | iconcap...")
 
No edit summary
 
(21 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{short description|Computer file containing plain text}}
{{short description|Computer file containing plain text}}
{{more citations needed|date=December 2015}}
'''टेक्स्ट फाइल''' (कभी-कभी वर्तनी टेक्स्ट फाइल; पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे [[इलेक्ट्रॉनिक पाठ]] की पंक्ति (टेक्स्ट फाइल) के अनुक्रम के रूप में संरचित किया जाता है। [[रेखा (पाठ फ़ाइल)|रेखा (टेक्स्ट फाइल)]] [[कंप्यूटर फ़ाइल सिस्टम|कंप्यूटर फ़ाइल प्रणाली]] के भीतर [[आधार सामग्री भंडारण]] उपस्थित है। सीपी/एम और [[एमएस-डॉस]] जैसे ऑपरेटिंग सिस्टम (क्रिया संचालन प्रणाली) में, जहां क्रिया संचालन प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। फ़ाइल मार्कर, टेक्स्ट फाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में होता है। [[माइक्रोसॉफ़्ट विंडोज़]] और यूनिक्स जैसे प्रणाली आधुनिक क्रिया संचालन प्रणाली पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ(एन्ड-ऑफ़-फाइल) कैरेक्टर नहीं होता है, क्योंकि उन क्रिया संचालन प्रणाली पर फाइल प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश टेक्स्ट फाइल में [[नई पंक्ति|नई पंक्ति होती है]]<nowiki/>l एंड-ऑफ़-लाइन [[परिसीमक|सीमांकक]] होना आवश्यक है, जो क्रिया संचालन प्रणाली के आधार पर कुछ अलग तरीकों से किया जाता है। [[रिकॉर्ड-उन्मुख फ़ाइल सिस्टम|रिकॉर्ड-उन्मुख फ़ाइल प्रणाली]] के साथ क्रिया संचालन प्रणाली हैl रिकॉर्ड-ओरिएंटेड फाइल प्रणाली नए रेखा [[परिसीमक|सीमांकक]] का उपयोग नहीं कर सकते हैं और मुख्य रूप [[सादे पाठ|प्लेन टेक्स्ट]] फाइलों को फिक्स्ड या परिवर्तनीय लम्बाई अभिलेख (वेरिएबल लेंथ रिकॉर्ड) के रूप में अलग-अलग रेखाओं के साथ इकठ्ठा करेंगे।
{{Infobox file format
| name = Text file
| icon = Text-txt.svg
| iconcaption =
| icon_size =
| screenshot =
| screenshot_size =
| caption =
|_noextcode =
| extension = .txt
|_nomimecode =
| mime = text/plain
| type code = TEXT
| uniform_type = public.plain-text
| conforms_to = public.text
| magic =
| developer =
| released =                <!-- {{start date and age|YYYY|mm|dd|df=yes/no}} -->
| latest_release_version =
| latest_release_date =    <!-- {{start date and age|YYYY|mm|dd|df=yes/no}} -->
| genre = [[Document file format]], [[Digital container format|Generic container format]]
| container_for =
| contained_by =
| extended_from =
| extended_to =
| standard =                <!-- or: | standards = -->
| free =
| url =
}}
एक पाठ फ़ाइल (कभी-कभी वर्तनी पाठ फ़ाइल; एक पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे [[इलेक्ट्रॉनिक पाठ]] की पंक्ति (पाठ फ़ाइल) के अनुक्रम के रूप में संरचित किया जाता है। [[रेखा (पाठ फ़ाइल)]] [[कंप्यूटर फ़ाइल सिस्टम]] के भीतर [[आधार सामग्री भंडारण]] मौजूद है। सीपी/एम और [[एमएस-डॉस]] जैसे ऑपरेटिंग सिस्टम में, जहां ऑपरेटिंग सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। -फ़ाइल मार्कर, पाठ फ़ाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में। [[माइक्रोसॉफ़्ट विंडोज़]] और यूनिक्स जैसे सिस्टम जैसे आधुनिक ऑपरेटिंग सिस्टम पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ कैरेक्टर नहीं होता है, क्योंकि उन ऑपरेटिंग सिस्टम पर फाइल सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश पाठ फ़ाइलों में [[नई पंक्ति]] | एंड-ऑफ़-लाइन [[परिसीमक]] होना आवश्यक है, जो ऑपरेटिंग सिस्टम के आधार पर कुछ अलग तरीकों से किया जाता है। [[रिकॉर्ड-उन्मुख फ़ाइल सिस्टम]] सिस्टम के साथ कुछ ऑपरेटिंग सिस्टम | रिकॉर्ड-ओरिएंटेड फाइल सिस्टम नए लाइन डिलिमिटर्स का उपयोग नहीं कर सकते हैं और मुख्य रूप [[सादे पाठ]] फाइलों को फिक्स्ड या वेरिएबल लेंथ रिकॉर्ड के रूप में अलग-अलग लाइनों के साथ स्टोर करेंगे।


  पाठ फ़ाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि सादा पाठ सामग्री के प्रकार को संदर्भित करता है।
  टेक्स्ट फाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि प्लेन फाइल सामग्री के प्रकार को संदर्भित करता है।


विवरण के एक सामान्य स्तर पर, दो प्रकार की कंप्यूटर फ़ाइलें होती हैं: पाठ फ़ाइलें और [[बाइनरी फ़ाइल]]ें।<ref name="Lewis000">{{cite book
विवरण के सामान्य स्तर पर, दो प्रकार की कंप्यूटर फ़ाइलें होती हैं: टेक्स्ट फाइल और [[बाइनरी फ़ाइल|बाइनरी फ़ाइल है]]<ref name="Lewis000">{{cite book
| title    = Computer Science Illuminated
| title    = Computer Science Illuminated
| first    = John
| first    = John
Line 42: Line 12:
| isbn        = 0-7637-4149-3
| isbn        = 0-7637-4149-3
}}</ref>
}}</ref>
== डेटा संग्रहण ==
== डेटा संग्रहण ==
[[Image:CsvDelimited001.svg|thumb|right|200px|अल्पविराम से अलग किए गए मान-स्वरूपित पाठ फ़ाइल का एक शैलीगत प्रतिष्ठित चित्रण।]]उनकी सरलता के कारण, पाठ फ़ाइलों का उपयोग आमतौर पर सूचना के [[कंप्यूटर डेटा भंडारण]] के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे [[endianness]], पैडिंग बाइट्स, या किसी [[वर्ड (कंप्यूटर आर्किटेक्चर)]] में बाइट्स की संख्या में अंतर। इसके अलावा, जब किसी पाठ फ़ाइल में डेटा भ्रष्टाचार होता है, तो अक्सर इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। पाठ फ़ाइलों का एक नुकसान यह है कि उनके पास आमतौर पर कम [[एंट्रॉपी (सूचना सिद्धांत)]] होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा भंडारण करती है।
[[Image:CsvDelimited001.svg|thumb|right|200px|अल्पविराम से अलग किए गए मान-स्वरूपित टेक्स्ट फाइल      का एक शैलीगत प्रतिष्ठित चित्रण।]]उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के [[कंप्यूटर डेटा भंडारण]] के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी [[वर्ड (कंप्यूटर आर्किटेक्चर)|शब्द (कंप्यूटर आर्किटेक्चर)]] में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में डेटा करप्शन होता है, तो अधिकांशतः इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। टेक्स्ट फाइल का एक नुकसान यह है कि उनके पास सामान्य तौर पर कम [[एंट्रॉपी (सूचना सिद्धांत)]] होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा स्टोरेज करती है।


व्याख्या में पाठक की सहायता के लिए एक साधारण पाठ फ़ाइल को अतिरिक्त [[मेटा डेटा]] (इसके वर्ण सेट के ज्ञान के अलावा) की आवश्यकता नहीं हो सकती है। एक पाठ फ़ाइल में कोई डेटा नहीं हो सकता है, जो कि [[शून्य-बाइट फ़ाइल]] का मामला है।
व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त [[मेटा डेटा]] (इसके वर्ण समूह के ज्ञान के अतिरिक्त) की आवश्यकता नहीं हो सकती है। टेक्स्ट फाइल में कोई डेटा नहीं हो सकता है, जो कि [[शून्य-बाइट फ़ाइल]] का कथन है।


== एनकोडिंग ==
== एनकोडिंग ==


[[एएससीआईआई]] अंग्रेजी-भाषा पाठ फ़ाइलों के लिए वर्ण सेट का सबसे आम संगत उपसमुच्चय है, और आमतौर पर कई स्थितियों में डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी शामिल है, लेकिन ब्रिटिश [[पाउन्ड चिन्ह]], [[यूरो चिह्न]], या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, एक समृद्ध वर्ण सेट का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे पढ़ने वाले कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है। [[UTF-8]] से पहले, यह पारंपरिक रूप से यूरोपीय भाषाओं के लिए एकल-बाइट एनकोडिंग (जैसे [[ISO-8859-1]] से [[ISO-8859-16]]) और एशियाई भाषाओं के लिए विस्तृत वर्ण एनकोडिंग था।
[[एएससीआईआई]] अंग्रेजी-भाषा टेक्स्ट फाइल के लिए वर्ण समूह का सबसे सामान्य संगत उपसमुच्चय है, और सामान्य तौर  पर कई स्थितियों में डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी सम्मिलित है, परन्तु ब्रिटिश [[पाउन्ड चिन्ह]], [[यूरो चिह्न]], या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, समृद्ध वर्ण समूह का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे पढ़ने वाले कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है। [[UTF-8|यूटीएफ-8]] से पहले, यह पारंपरिक प्रकार से यूरोपीय भाषाओं के लिए एकल-बाइट एनकोडिंग (जैसे आईएसओ[[ISO-8859-1|-8859-1]] से आईएसओ[[ISO-8859-16|-8859-16]]) और एशियाई भाषाओं के लिए विस्तृत वर्ण एनकोडिंग था।


क्योंकि एन्कोडिंग में आवश्यक रूप से वर्णों का केवल एक सीमित प्रदर्शन होता है, अक्सर बहुत छोटा होता है, कई केवल मानव भाषाओं के सीमित उपसमुच्चय में पाठ का प्रतिनिधित्व करने के लिए उपयोग योग्य होते हैं। [[यूनिकोड]] सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए एक सामान्य मानक बनाने का एक प्रयास है, और अधिकांश ज्ञात वर्ण सेट बहुत बड़े यूनिकोड वर्ण सेट के सबसेट हैं। यद्यपि यूनिकोड के लिए कई वर्ण एनकोडिंग उपलब्ध हैं, सबसे आम UTF-8 है, जिसका ASCII के साथ पश्च-संगत होने का लाभ है; अर्थात्, प्रत्येक ASCII पाठ फ़ाइल समान अर्थ वाली UTF-8 पाठ फ़ाइल भी है। UTF-8 का यह भी फायदा है कि UTF-8#फॉलबैक और ऑटो-डिटेक्शन | यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, UTF-8 सक्षम सॉफ़्टवेयर का एक सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, UTF-8 को पहले आज़माना है और जब यह निश्चित रूप से UTF-8 नहीं है, तो लोकेल आश्रित लीगेसी एन्कोडिंग पर वापस आना है।
क्योंकि एन्कोडिंग में आवश्यक प्रकार से वर्णों का सीमित प्रदर्शन होता है, अधिकांशतः बहुत छोटा होता है, एक मात्र मानव भाषाओं के सीमित उपसमुच्चय में पाठ का प्रतिनिधित्व करने के लिए उपयोग योग्य होते हैं। [[यूनिकोड]] सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए सामान्य मानक बनाने का प्रयास है, और अधिकांश ज्ञात वर्ण समूह बहुत बड़े यूनिकोड वर्ण समूह के उपसमुच्चय हैं। यद्यपि यूनिकोड के लिए कई वर्ण एनकोडिंग उपलब्ध हैं, सबसे सामान्य यूएफटी-8 है, जिसका एएससीआइआइ के साथ पश्च-संगत होने का लाभ है; अर्थात्, प्रत्येक एएससीआइआइ टेक्स्ट फाइल समान अर्थ वाली यूएफटी-8 टेक्स्ट फाइल भी है। यूएफटी-8 का यह भी लाभ है कि यूएफटी-8 फॉलबैक और ऑटो-डिटेक्शन होता हैl यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, यूएफटी-8 सक्षम सॉफ़्टवेयर का सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, यूएफटी-8 को पहले परखना है और जब यह निश्चित प्रकार से यूएफटी-8 नहीं है, तो लोकेल आश्रित लीगेसी एन्कोडिंग पर वापस आना है।


== प्रारूप ==
== प्रारूप ==


अधिकांश ऑपरेटिंग सिस्टम पर नाम टेक्स्ट फ़ाइल फ़ाइल प्रारूप को संदर्भित करती है जो केवल सादा पाठ सामग्री को बहुत कम स्वरूपण के साथ अनुमति देती है (उदाहरण के लिए, कोई '[[जोर (टाइपोग्राफी)]]' या [[इटैलिक प्रकार]] प्रकार नहीं)। ऐसी फाइलों को [[पाठ टर्मिनल]]ों या साधारण [[पाठ संपादक]]्स में देखा और संपादित किया जा सकता है। पाठ फ़ाइलों में आमतौर पर [[MIME]] प्रकार होता है <code>text/plain</code>, आमतौर पर एक एन्कोडिंग इंगित करने वाली अतिरिक्त जानकारी के साथ।
अधिकांश क्रिया संचालन प्रणाली पर नाम टेक्स्ट फ़ाइल फ़ाइल प्रारूप को संदर्भित करती है जो केवल प्लेन फाइल सामग्री को बहुत कम स्वरूपण के साथ अनुमति देती है (उदाहरण के लिए, कोई '[[जोर (टाइपोग्राफी)]]' या [[इटैलिक प्रकार]] नहीं)। ऐसी फाइलों को [[पाठ टर्मिनल|टेक्स्ट टर्मिनलों]] या साधारण टेक्स्ट एडिटर में देखा और संपादित किया जा सकता है। टेक्स्ट फाइल में सामान्य तौर पर एमआइएमइ प्रकार होता है टेक्स्/फाइल, सामान्य तौर पर एन्कोडिंग इंगित करने वाली अतिरिक्त जानकारी के साथ होता है।
 
=== माइक्रोसॉफ्ट विंडोज पाठ फ़ाइलें ===
<!-- This Anchor tag serves to provide a permanent target for incoming section links. Please do not remove it, nor modify it, except to add another appropriate anchor. If you modify the section title, please anchor the old title. It is always best to anchor an old section header that has been changed so that links to it won't be broken. See [[Template:Anchor]] for details. This template is {{subst:Anchor comment}} -->
MS-DOS और Microsoft Windows एक सामान्य पाठ फ़ाइल स्वरूप का उपयोग करते हैं, पाठ की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: [[कैरिज रिटर्न]] (CR) और [[रेखा भरण]] (LF)। पाठ की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना आम बात है, और कई पाठ संपादक ([[नोटपैड (विंडोज़)]] सहित) स्वचालित रूप से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं।
 
Microsoft Windows ऑपरेटिंग सिस्टम पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय ([[फ़ाइल नाम एक्सटेंशन]]) है <code>.txt</code>. हालाँकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड आमतौर पर पाठ फ़ाइलों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस [[प्रोग्रामिंग भाषा]] को दर्शाता है जिसमें स्रोत लिखा गया है।
 
अधिकांश Microsoft Windows पाठ फ़ाइलें ANSI , OEM , यूनिकोड या UTF-8 एन्कोडिंग का उपयोग करती हैं। Microsoft Windows शब्दावली जिसे ANSI एनकोडिंग कहती है, वह आमतौर पर सिंगल-बाइट ISO/IEC 8859 एनकोडिंग होती है (अर्थात Microsoft नोटपैड मेनू में ANSI वास्तव में सिस्टम कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर सेट की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट सिस्टम लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे [[डॉस कोड पेज]] के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले सिस्टम में उपयोग के लिए परिभाषित किया गया था। वे आम तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण शामिल करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में [[यूटीएफ-16]] -16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें आमतौर पर [[बाइट ऑर्डर मार्क]] (बीओएम) से शुरू होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। हालांकि UTF-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई Microsoft Windows प्रोग्राम (यानी नोटपैड) BOM के साथ UTF-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं,<ref>{{cite web |url=https://docs.microsoft.com/en-gb/windows/win32/intl/using-byte-order-marks| title=Using Byte Order Marks |work=Internationalization for Windows Applications |publisher=[[Microsoft]] |access-date=2022-04-21}}</ref> UTF-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए।<ref>{{cite web |url=https://www.unicode.org/faq/utf_bom.html#BOM |title=FAQ – UTF-8, UTF-16, UTF-32 & BOM |first=Asmus |last=Freytag |publisher=The Unicode Consortium |date=2015-12-18 |access-date=2016-05-30 |quote=Yes, UTF-8 can contain a BOM. However, it makes ''no'' difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used ''transparently'' in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.}}</ref>
 
 
=== यूनिक्स पाठ फ़ाइलें ===


यूनिक्स की तरह के ऑपरेटिंग सिस्टम पर टेक्स्ट फाइल फॉर्मेट का ठीक-ठीक वर्णन किया गया है: [[POSIX]] एक टेक्स्ट फाइल को एक फाइल के रूप में परिभाषित करता है जिसमें शून्य या अधिक लाइनों में व्यवस्थित वर्ण होते हैं,<ref>{{cite web |url=http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_403 |title=3.403 Text File |work=[[POSIX|IEEE Std 1003.1, 2017 Edition]] |publisher=[[IEEE Computer Society]] |access-date=2019-03-01}}</ref> जहाँ रेखाएँ शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ एक समाप्ति न्यूलाइन वर्ण के अनुक्रम हैं,<ref>{{cite web |url=http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_206 |title=3.206 Line |work=[[POSIX|IEEE Std 1003.1, 2013 Edition]] |publisher=[[IEEE Computer Society]] |access-date=2015-12-15}}</ref> सामान्य रूप से एल.एफ.
=== माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइल   ===
एमएस-डीओएस और मइक्रोसॉफ़्ट विंडोज सामान्य टेक्स्ट फाइल स्वरूप का उपयोग करते हैं, टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: [[कैरिज रिटर्न]] (सीआर) और [[रेखा भरण]] (एलएफ) है। टेक्स्ट की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना सामान्य बात है, और कई टेक्स्ट संपादक ([[नोटपैड (विंडोज़)]] सहित) स्वचालित प्रकार से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं।


इसके अतिरिक्त, POSIX a को परिभाषित करता है{{vanchor|printable file}}एक पाठ फ़ाइल के रूप में जिसके पात्र क्षेत्रीय नियमों के अनुसार प्रिंट करने योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण शामिल नहीं हैं, जो प्रिंट करने योग्य नहीं हैं।<ref>{{cite web |url=http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_284 |title=3.284 Printable File |work=[[POSIX|IEEE Std 1003.1, 2013 Edition]] |publisher=[[IEEE Computer Society]] |access-date=2015-12-15}}</ref>
मइक्रोसॉफ़्ट विंडोज क्रिया संचालन प्रणाली पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय ([[फ़ाइल नाम एक्सटेंशन]]) है .<code>टीएक्सटी</code>. चूंकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड सामान्य तौर पर टेक्स्ट फाइलों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस [[प्रोग्रामिंग भाषा]] को दर्शाता है जिसमें स्रोत लिखा गया है।


अधिकांश मइक्रोसॉफ़्ट विंडोज टेक्स्ट फाइल एएनएसआइ, ओइएम, यूनिकोड या यूएफटी-8 एन्कोडिंग का उपयोग करती हैं। मइक्रोसॉफ़्ट विंडोज शब्दावली जिसे एएनएसआइ एनकोडिंग कहते है, वह सामान्य तौर पर सिंगल-बाइट आइएसओ /आइइसी 8859 एनकोडिंग होती है (अर्थात माइक्रोसॉफ्ट नोटपैड मेनू में एएनएसआइ वास्तव में प्रणाली कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर समूह की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट प्रणाली  लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे [[डॉस कोड पेज]] के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले प्रणाली में उपयोग के लिए परिभाषित किया गया था। वे सामान्य तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण सम्मिलित  करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में [[यूटीएफ-16]]-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें सामान्य तौर पर  [[बाइट ऑर्डर मार्क]] (बीओएम) से प्रारम्भ होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। चूंकि यूएफटी-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई मइक्रोसॉफ़्ट विंडोज प्रोग्राम (अर्थात नोटपैड) बीओएम के साथ यूएफटी-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं,<ref>{{cite web |url=https://docs.microsoft.com/en-gb/windows/win32/intl/using-byte-order-marks| title=Using Byte Order Marks |work=Internationalization for Windows Applications |publisher=[[Microsoft]] |access-date=2022-04-21}}</ref> यूएफटी-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए  करते हैं।<ref>{{cite web |url=https://www.unicode.org/faq/utf_bom.html#BOM |title=FAQ – UTF-8, UTF-16, UTF-32 & BOM |first=Asmus |last=Freytag |publisher=The Unicode Consortium |date=2015-12-18 |access-date=2016-05-30 |quote=Yes, UTF-8 can contain a BOM. However, it makes ''no'' difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used ''transparently'' in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.}}</ref>
=== यूनिक्स टेक्स्ट फाइल    ===


=== Apple Macintosh पाठ फ़ाइलें ===
यूनिक्स की तरह के क्रिया संचालन प्रणाली पर टेक्स्ट फाइल फॉर्मेट का ठीक-ठीक वर्णन किया गया है: पीओएसआइएक्स टेक्स्ट फाइल को एक फाइल के रूप में परिभाषित करता है जिसमें शून्य या अत्यधिक रेखाओं में व्यवस्थित वर्ण होते हैं,<ref>{{cite web |url=http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_403 |title=3.403 Text File |work=[[POSIX|IEEE Std 1003.1, 2017 Edition]] |publisher=[[IEEE Computer Society]] |access-date=2019-03-01}}</ref> जहाँ रेखाएँ शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ समाप्ति न्यूलाइन वर्ण के अनुक्रम हैं,<ref>{{cite web |url=http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_206 |title=3.206 Line |work=[[POSIX|IEEE Std 1003.1, 2013 Edition]] |publisher=[[IEEE Computer Society]] |access-date=2015-12-15}}</ref> सामान्य प्रकार से एल.एफ हैं.


MacOS के आगमन से पहले, क्लासिक Mac OS सिस्टम ने फ़ाइल की सामग्री (डेटा फोर्क) को एक टेक्स्ट फ़ाइल माना जब इसके संसाधन फोर्क ने संकेत दिया कि फ़ाइल का प्रकार TEXT था।<ref name="mac-uti">{{cite web |url=https://developer.apple.com/library/prerelease/content/documentation/Miscellaneous/Reference/UTIRef/Articles/System-DeclaredUniformTypeIdentifiers.html |title=System-Declared Uniform Type Identifiers |work=Guides and Sample Code |publisher=[[Apple Inc.]] |date=2009-11-17 |access-date=2016-09-12}}</ref> क्लासिक मैक ओएस पाठ फ़ाइलों की पंक्तियों को कैरिज रिटर्न वर्णों के साथ समाप्त किया गया है।<ref name="mac-line-endings">{{cite web |url=https://developer.apple.com/library/mac/documentation/OpenSource/Conceptual/ShellScripting/PortingScriptstoMacOSX/PortingScriptstoMacOSX.html |title=Designing Scripts for Cross-Platform Deployment |work=Mac Developer Library |publisher=[[Apple Inc.]] |date=2014-03-10 |access-date=2016-09-12}}</ref>
इसके अतिरिक्त, पीओएसआइएक्स को परिभाषित करता है प्रिंटेबल फाइल एक टेक्स्ट फाइल के रूप में जिसके कैरेक्टर प्रादेशिक नियमों के अनुसार प्रिंट करने योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण सम्मिलित नहीं हैं, जो प्रिंट करने योग्य नहीं हैं।<ref>{{cite web |url=http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_284 |title=3.284 Printable File |work=[[POSIX|IEEE Std 1003.1, 2013 Edition]] |publisher=[[IEEE Computer Society]] |access-date=2015-12-15}}</ref>
यूनिक्स जैसी प्रणाली होने के कारण, macOS टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है।<ref name="mac-line-endings"/>MacOS में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला [[वर्दी प्रकार पहचानकर्ता]] (UTI) public.plain-text है; अतिरिक्त, अधिक विशिष्ट यूटीआई हैं: utf-8-एन्कोडेड टेक्स्ट के लिए public.utf8-plain-text, utf-16-एन्कोडेड टेक्स्ट के लिए public.utf16-external-plain-text और public.utf16-plain-text और com.apple क्लासिक मैक ओएस पाठ फ़ाइलों के लिए .traditional-mac-plain-text।<ref name="mac-uti" />
=== एप्पल मैकिंटोश टेक्स्ट फाइल    ===


एमएसीओएस के आने से पूर्व, क्लासिक एमएसीओएस प्रणाली ने फ़ाइल की सामग्री (डेटा फोर्क) को टेक्स्ट फ़ाइल माना जब इसके संसाधन फोर्क ने संकेत दिया कि फ़ाइल का प्रकार टेक्स्ट था।<ref name="mac-uti">{{cite web |url=https://developer.apple.com/library/prerelease/content/documentation/Miscellaneous/Reference/UTIRef/Articles/System-DeclaredUniformTypeIdentifiers.html |title=System-Declared Uniform Type Identifiers |work=Guides and Sample Code |publisher=[[Apple Inc.]] |date=2009-11-17 |access-date=2016-09-12}}</ref> क्लासिक मैक ओएस टेक्स्ट फाइलों की पंक्तियों को कैरिज रिटर्न वर्णों के साथ समाप्त किया गया है।<ref name="mac-line-endings">{{cite web |url=https://developer.apple.com/library/mac/documentation/OpenSource/Conceptual/ShellScripting/PortingScriptstoMacOSX/PortingScriptstoMacOSX.html |title=Designing Scripts for Cross-Platform Deployment |work=Mac Developer Library |publisher=[[Apple Inc.]] |date=2014-03-10 |access-date=2016-09-12}}</ref>


यूनिक्स जैसी प्रणाली होने के कारण, एमएसीओएस टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है।<ref name="mac-line-endings" /> एमएसीओएस में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला [[वर्दी प्रकार पहचानकर्ता]] (यूटीआइ) पब्लिक प्लेन-टेक्स्ट है; इसके अतिरिक्त, अत्यधिक विशिष्ट यूटीआई हैं: यूएफटी-8-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी8-प्लेन-टेक्स्ट, यूएफटी-16-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी16- एक्सटर्नल-प्लेन-टेक्स्ट और पब्लिक.यूएफटी16-प्लेन-टेक्स्ट और कॉम.एप्पल क्लासिक मैक ओएस टेक्स्ट फाइल के लिए .ट्रेडीसिनल-मैक-प्लेन-टेक्स्ट है।<ref name="mac-uti" />
== प्रतिपादन ==
== प्रतिपादन ==


पाठ संपादक द्वारा खोले जाने पर, मानव-पठनीय सामग्री उपयोगकर्ता को प्रस्तुत की जाती है। इसमें अक्सर फ़ाइल का सादा पाठ होता है जो उपयोगकर्ता को दिखाई देता है। आवेदन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित शाब्दिक निर्देशों के रूप में, या दृश्य बचने वाले पात्रों के रूप में प्रस्तुत किए जा सकते हैं जिन्हें सादे पाठ के रूप में संपादित किया जा सकता है। यद्यपि पाठ फ़ाइल में सादा पाठ हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष रूप से अंत-फ़ाइल वर्ण) एक विशेष विधि द्वारा सादे पाठ को अनदेखा कर सकते हैं।
टेक्स्ट संपादक द्वारा खोले जाने पर, मानव-पठनीय सामग्री उपयोगकर्ता को प्रस्तुत की जाती है। इसमें अधिकांशतः फ़ाइल का प्लेन फाइल होता है जो उपयोगकर्ता को दिखाई देता है। आवेदन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित शाब्दिक निर्देशों के रूप में, या दृश्य बचने वाले कैरेक्टर के रूप में प्रस्तुत किए जा सकते हैं जिन्हें प्लेन टेक्स्ट के रूप में संपादित किया जा सकता है। यद्यपि टेक्स्ट फाइल में प्लेन फाइल हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष प्रकार से अंत-फ़ाइल वर्ण) विशेष विधि द्वारा प्लेन टेक्स्ट को अनदेखा कर सकते हैं।


== यह भी देखें ==
== यह भी देखें ==
* एएससीआईआई
* एएससीआईआई
* [[EBCDIC]]
* इबीसीडीआइसी
* फ़ाइल नाम एक्सटेंशन
* फ़ाइल नाम एक्सटेंशन
* [[फ़ाइल स्वरूपों की सूची]]
* [[फ़ाइल स्वरूपों की सूची]]
* नई पंक्ति
* नई पंक्ति
* [[वाक्य - विन्यास पर प्रकाश डालना]]
* [[वाक्य - विन्यास पर प्रकाश डालना|वाक्य-विन्यास पर प्रकाश डालना]]
* पाठ संपादक
* पाठ संपादक
* यूनिकोड
* यूनिकोड
Line 97: Line 59:
== नोट्स और संदर्भ ==
== नोट्स और संदर्भ ==
{{reflist}}
{{reflist}}
== बाहरी संबंध ==
== बाहरी संबंध ==
* [http://c2.com/cgi/wiki?PowerOfPlainText C2: the Power of Plain Text]
* [http://c2.com/cgi/wiki?PowerOfPlainText C2: the Power of Plain Text]


{{Computer files}}
[[Category: पाठ फ़ाइल स्वरूप|*]] [[Category: कंप्यूटर डेटा]]
[[Category: Machine Translated Page]]
[[Category:Created On 17/02/2023]]
[[Category:Created On 17/02/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:कंप्यूटर डेटा]]
[[Category:पाठ फ़ाइल स्वरूप|*]]

Latest revision as of 17:01, 29 August 2023

टेक्स्ट फाइल (कभी-कभी वर्तनी टेक्स्ट फाइल; पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कंप्यूटर फ़ाइल है जिसे इलेक्ट्रॉनिक पाठ की पंक्ति (टेक्स्ट फाइल) के अनुक्रम के रूप में संरचित किया जाता है। रेखा (टेक्स्ट फाइल) कंप्यूटर फ़ाइल प्रणाली के भीतर आधार सामग्री भंडारण उपस्थित है। सीपी/एम और एमएस-डॉस जैसे ऑपरेटिंग सिस्टम (क्रिया संचालन प्रणाली) में, जहां क्रिया संचालन प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या एक से अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ के रूप में जाना जाता है। फ़ाइल मार्कर, टेक्स्ट फाइल में अंतिम पंक्ति के बाद पैडिंग के रूप में होता है। माइक्रोसॉफ़्ट विंडोज़ और यूनिक्स जैसे प्रणाली आधुनिक क्रिया संचालन प्रणाली पर, टेक्स्ट फाइलों में कोई विशेष ईओएफ(एन्ड-ऑफ़-फाइल) कैरेक्टर नहीं होता है, क्योंकि उन क्रिया संचालन प्रणाली पर फाइल प्रणाली बाइट्स में फ़ाइल आकार का ट्रैक रखता है। अधिकांश टेक्स्ट फाइल में नई पंक्ति होती हैl एंड-ऑफ़-लाइन सीमांकक होना आवश्यक है, जो क्रिया संचालन प्रणाली के आधार पर कुछ अलग तरीकों से किया जाता है। रिकॉर्ड-उन्मुख फ़ाइल प्रणाली के साथ क्रिया संचालन प्रणाली हैl रिकॉर्ड-ओरिएंटेड फाइल प्रणाली नए रेखा सीमांकक का उपयोग नहीं कर सकते हैं और मुख्य रूप प्लेन टेक्स्ट फाइलों को फिक्स्ड या परिवर्तनीय लम्बाई अभिलेख (वेरिएबल लेंथ रिकॉर्ड) के रूप में अलग-अलग रेखाओं के साथ इकठ्ठा करेंगे।

टेक्स्ट फाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि प्लेन फाइल सामग्री के प्रकार को संदर्भित करता है।

विवरण के सामान्य स्तर पर, दो प्रकार की कंप्यूटर फ़ाइलें होती हैं: टेक्स्ट फाइल और बाइनरी फ़ाइल है[1]

डेटा संग्रहण

अल्पविराम से अलग किए गए मान-स्वरूपित टेक्स्ट फाइल का एक शैलीगत प्रतिष्ठित चित्रण।

उनकी सरलता के कारण, टेक्स्ट फाइल का उपयोग सामान्य तौर पर सूचना के कंप्यूटर डेटा भंडारण के लिए किया जाता है। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे एंडियननेस, पैडिंग बाइट्स, या किसी शब्द (कंप्यूटर आर्किटेक्चर) में बाइट्स की संख्या में अंतर होना है। इसके अतिरिक्त, जब किसी टेक्स्ट फाइल में डेटा करप्शन होता है, तो अधिकांशतः इसे पुनर्प्राप्त करना और शेष सामग्री को संसाधित करना जारी रखना आसान होता है। टेक्स्ट फाइल का एक नुकसान यह है कि उनके पास सामान्य तौर पर कम एंट्रॉपी (सूचना सिद्धांत) होता है, जिसका अर्थ है कि जानकारी सख्ती से जरूरी से ज्यादा स्टोरेज करती है।

व्याख्या में पाठक की सहायता के लिए एक साधारण टेक्स्ट फाइल को अतिरिक्त मेटा डेटा (इसके वर्ण समूह के ज्ञान के अतिरिक्त) की आवश्यकता नहीं हो सकती है। टेक्स्ट फाइल में कोई डेटा नहीं हो सकता है, जो कि शून्य-बाइट फ़ाइल का कथन है।

एनकोडिंग

एएससीआईआई अंग्रेजी-भाषा टेक्स्ट फाइल के लिए वर्ण समूह का सबसे सामान्य संगत उपसमुच्चय है, और सामान्य तौर पर कई स्थितियों में डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी सम्मिलित है, परन्तु ब्रिटिश पाउन्ड चिन्ह, यूरो चिह्न, या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, समृद्ध वर्ण समूह का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे पढ़ने वाले कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है। यूटीएफ-8 से पहले, यह पारंपरिक प्रकार से यूरोपीय भाषाओं के लिए एकल-बाइट एनकोडिंग (जैसे आईएसओ-8859-1 से आईएसओ-8859-16) और एशियाई भाषाओं के लिए विस्तृत वर्ण एनकोडिंग था।

क्योंकि एन्कोडिंग में आवश्यक प्रकार से वर्णों का सीमित प्रदर्शन होता है, अधिकांशतः बहुत छोटा होता है, एक मात्र मानव भाषाओं के सीमित उपसमुच्चय में पाठ का प्रतिनिधित्व करने के लिए उपयोग योग्य होते हैं। यूनिकोड सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए सामान्य मानक बनाने का प्रयास है, और अधिकांश ज्ञात वर्ण समूह बहुत बड़े यूनिकोड वर्ण समूह के उपसमुच्चय हैं। यद्यपि यूनिकोड के लिए कई वर्ण एनकोडिंग उपलब्ध हैं, सबसे सामान्य यूएफटी-8 है, जिसका एएससीआइआइ के साथ पश्च-संगत होने का लाभ है; अर्थात्, प्रत्येक एएससीआइआइ टेक्स्ट फाइल समान अर्थ वाली यूएफटी-8 टेक्स्ट फाइल भी है। यूएफटी-8 का यह भी लाभ है कि यूएफटी-8 फॉलबैक और ऑटो-डिटेक्शन होता हैl यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, यूएफटी-8 सक्षम सॉफ़्टवेयर का सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, यूएफटी-8 को पहले परखना है और जब यह निश्चित प्रकार से यूएफटी-8 नहीं है, तो लोकेल आश्रित लीगेसी एन्कोडिंग पर वापस आना है।

प्रारूप

अधिकांश क्रिया संचालन प्रणाली पर नाम टेक्स्ट फ़ाइल फ़ाइल प्रारूप को संदर्भित करती है जो केवल प्लेन फाइल सामग्री को बहुत कम स्वरूपण के साथ अनुमति देती है (उदाहरण के लिए, कोई 'जोर (टाइपोग्राफी)' या इटैलिक प्रकार नहीं)। ऐसी फाइलों को टेक्स्ट टर्मिनलों या साधारण टेक्स्ट एडिटर में देखा और संपादित किया जा सकता है। टेक्स्ट फाइल में सामान्य तौर पर एमआइएमइ प्रकार होता है टेक्स्/फाइल, सामान्य तौर पर एन्कोडिंग इंगित करने वाली अतिरिक्त जानकारी के साथ होता है।

माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइल

एमएस-डीओएस और मइक्रोसॉफ़्ट विंडोज सामान्य टेक्स्ट फाइल स्वरूप का उपयोग करते हैं, टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: कैरिज रिटर्न (सीआर) और रेखा भरण (एलएफ) है। टेक्स्ट की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त नहीं करना सामान्य बात है, और कई टेक्स्ट संपादक (नोटपैड (विंडोज़) सहित) स्वचालित प्रकार से अंतिम पंक्ति पर सम्मिलित नहीं होते हैं।

मइक्रोसॉफ़्ट विंडोज क्रिया संचालन प्रणाली पर, फ़ाइल को टेक्स्ट फ़ाइल माना जाता है यदि फ़ाइल के नाम का प्रत्यय (फ़ाइल नाम एक्सटेंशन) है .टीएक्सटी. चूंकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड सामान्य तौर पर टेक्स्ट फाइलों में रखा जाता है जिसमें फ़ाइल नाम प्रत्यय होता है जो उस प्रोग्रामिंग भाषा को दर्शाता है जिसमें स्रोत लिखा गया है।

अधिकांश मइक्रोसॉफ़्ट विंडोज टेक्स्ट फाइल एएनएसआइ, ओइएम, यूनिकोड या यूएफटी-8 एन्कोडिंग का उपयोग करती हैं। मइक्रोसॉफ़्ट विंडोज शब्दावली जिसे एएनएसआइ एनकोडिंग कहते है, वह सामान्य तौर पर सिंगल-बाइट आइएसओ /आइइसी 8859 एनकोडिंग होती है (अर्थात माइक्रोसॉफ्ट नोटपैड मेनू में एएनएसआइ वास्तव में प्रणाली कोड पेज है, गैर-यूनिकोड, लीगेसी एन्कोडिंग), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर समूह की आवश्यकता होती है। यूनिकोड में संक्रमण से पहले एएनएसआई एनकोडिंग परंपरागत रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट प्रणाली लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे डॉस कोड पेज के रूप में भी जाना जाता है, आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले प्रणाली में उपयोग के लिए परिभाषित किया गया था। वे सामान्य तौर पर डॉस अनुप्रयोगों में ग्राफिकल और लाइन-ड्राइंग वर्ण सम्मिलित करते हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में यूटीएफ-16-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फाइलें सामान्य तौर पर बाइट ऑर्डर मार्क (बीओएम) से प्रारम्भ होती हैं, जो फ़ाइल सामग्री की अंतहीनता को संप्रेषित करती हैं। चूंकि यूएफटी-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई मइक्रोसॉफ़्ट विंडोज प्रोग्राम (अर्थात नोटपैड) बीओएम के साथ यूएफटी-8-एन्कोडेड फ़ाइलों की सामग्री को आगे बढ़ाते हैं,[2] यूएफटी-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करने के लिए करते हैं।[3]

यूनिक्स टेक्स्ट फाइल

यूनिक्स की तरह के क्रिया संचालन प्रणाली पर टेक्स्ट फाइल फॉर्मेट का ठीक-ठीक वर्णन किया गया है: पीओएसआइएक्स टेक्स्ट फाइल को एक फाइल के रूप में परिभाषित करता है जिसमें शून्य या अत्यधिक रेखाओं में व्यवस्थित वर्ण होते हैं,[4] जहाँ रेखाएँ शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ समाप्ति न्यूलाइन वर्ण के अनुक्रम हैं,[5] सामान्य प्रकार से एल.एफ हैं.

इसके अतिरिक्त, पीओएसआइएक्स को परिभाषित करता है प्रिंटेबल फाइल एक टेक्स्ट फाइल के रूप में जिसके कैरेक्टर प्रादेशिक नियमों के अनुसार प्रिंट करने योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण सम्मिलित नहीं हैं, जो प्रिंट करने योग्य नहीं हैं।[6]

एप्पल मैकिंटोश टेक्स्ट फाइल

एमएसीओएस के आने से पूर्व, क्लासिक एमएसीओएस प्रणाली ने फ़ाइल की सामग्री (डेटा फोर्क) को टेक्स्ट फ़ाइल माना जब इसके संसाधन फोर्क ने संकेत दिया कि फ़ाइल का प्रकार टेक्स्ट था।[7] क्लासिक मैक ओएस टेक्स्ट फाइलों की पंक्तियों को कैरिज रिटर्न वर्णों के साथ समाप्त किया गया है।[8]

यूनिक्स जैसी प्रणाली होने के कारण, एमएसीओएस टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है।[8] एमएसीओएस में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला वर्दी प्रकार पहचानकर्ता (यूटीआइ) पब्लिक प्लेन-टेक्स्ट है; इसके अतिरिक्त, अत्यधिक विशिष्ट यूटीआई हैं: यूएफटी-8-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी8-प्लेन-टेक्स्ट, यूएफटी-16-एन्कोडेड टेक्स्ट के लिए पब्लिक.यूएफटी16- एक्सटर्नल-प्लेन-टेक्स्ट और पब्लिक.यूएफटी16-प्लेन-टेक्स्ट और कॉम.एप्पल क्लासिक मैक ओएस टेक्स्ट फाइल के लिए .ट्रेडीसिनल-मैक-प्लेन-टेक्स्ट है।[7]

प्रतिपादन

टेक्स्ट संपादक द्वारा खोले जाने पर, मानव-पठनीय सामग्री उपयोगकर्ता को प्रस्तुत की जाती है। इसमें अधिकांशतः फ़ाइल का प्लेन फाइल होता है जो उपयोगकर्ता को दिखाई देता है। आवेदन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित शाब्दिक निर्देशों के रूप में, या दृश्य बचने वाले कैरेक्टर के रूप में प्रस्तुत किए जा सकते हैं जिन्हें प्लेन टेक्स्ट के रूप में संपादित किया जा सकता है। यद्यपि टेक्स्ट फाइल में प्लेन फाइल हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष प्रकार से अंत-फ़ाइल वर्ण) विशेष विधि द्वारा प्लेन टेक्स्ट को अनदेखा कर सकते हैं।

यह भी देखें

नोट्स और संदर्भ

  1. Lewis, John (2006). Computer Science Illuminated. Jones and Bartlett. ISBN 0-7637-4149-3.
  2. "Using Byte Order Marks". Internationalization for Windows Applications. Microsoft. Retrieved 2022-04-21.
  3. Freytag, Asmus (2015-12-18). "FAQ – UTF-8, UTF-16, UTF-32 & BOM". The Unicode Consortium. Retrieved 2016-05-30. Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.
  4. "3.403 Text File". IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Retrieved 2019-03-01.
  5. "3.206 Line". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
  6. "3.284 Printable File". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
  7. 7.0 7.1 "System-Declared Uniform Type Identifiers". Guides and Sample Code. Apple Inc. 2009-11-17. Retrieved 2016-09-12.
  8. 8.0 8.1 "Designing Scripts for Cross-Platform Deployment". Mac Developer Library. Apple Inc. 2014-03-10. Retrieved 2016-09-12.

बाहरी संबंध