पनीकोड

पुनीकोड इंटरनेट होस्ट नाम के लिए उपयोग किए जाने वाले सीमित ASCII वर्ण उपसमूह के साथ यूनिकोड का प्रतिनिधित्व करते है। यूनिकोड अक्षरों वाले होस्ट नामों का उपयोग करते हुए, यूनिकोड अंकों और हाइफ़न से युक्त ASCII के एक उपसमूह में ट्रांसकोड किया जाता है, जिसे अक्षर-अंक-हाइफ़न (एलडीएच) उपसमूह कहा जाता है। उदाहरण के लिए, मुन्चेन को म्न्चेन-3ya के रूप में एन्कोडेड किया गया है और इस प्रकार म्यूनिख जर्मन भाषा का नाम है।

जबकि डोमेन की नामांकन प्रणाली (डीएनएस) प्रोद्योगिकीय रूप से डोमेन नाम लेबल में ऑक्टेट के स्वेच्छ अनुक्रम का समर्थन करता है और इस प्रकार डीएनएस मानक पारंपरिक रूप से होस्ट नामों के लिए उपयोग किए जाने वाले एएससीआईआई के एलडीएच उपसमुच्चय के उपयोग की सलाह देते हैं और डीएनएस डोमेन नामों के बीच स्ट्रिंग तुलना की स्थिति के प्रति संवेदनशील होता है। जिससे कि असंवेदनशील. पुनीकोड सिंटैक्स यूनिकोड वर्णों वाले स्ट्रिंग को एनकोड करने की एक विधि के रूप में होती है, जैसे कि डीएनएस द्वारा समर्थित एएससीआईआई के एलडीएच उपसमूह में अंतर्राष्ट्रीयकृत डोमेन नाम आईडीएनए के रूप में होता है। यह टिप्पणियों के लिए आईईटीएफ अनुरोध 3492 में निर्दिष्ट है।^[1]

एनकोडिंग प्रक्रिया

जैसा कि आरएफसी 3492 में कहा गया है, पुनीकोड बूटस्ट्रिंग नामक एक अधिक सामान्य एल्गोरिदम का एक उदाहरण है, जो 'बुनियादी' कोड बिंदुओं के एक छोटे सेट से बनी स्ट्रिंग्स को बड़े सेट से खींचे गए कोड बिंदुओं की किसी भी स्ट्रिंग को विशिष्ट रूप से प्रस्तुत करने की अनुमति देता है। यूनिकोड टेक्स्ट की विशेषताओं से मेल खाने के लिए पुनीकोड सामान्य बूटस्ट्रिंग एल्गोरिदम के लिए मापदंडों को परिभाषित करता है। यह खंड स्ट्रिंग बुचर (बुचर किताबों के लिए जर्मन भाषा है) के उदाहरण का उपयोग करके पुनीकोड एन्कोडिंग की प्रक्रिया को प्रदर्शित करता है, जिसे लेबल बेचर-केवीए में अनुवादित किया गया है।

ASCII वर्णों का पृथक्करण

सबसे पहले, स्ट्रिंग में सभी ASCII वर्णों को इनपुट से आउटपुट तक कॉपी किया जाता है, किसी भी अन्य वर्ण को छोड़ दिया जाता है। उदाहरण के लिए, bücher को bcher में कॉपी किया गया है। यदि कोई वर्ण कॉपी किया गया था, अर्थात यदि इनपुट में कम से कम एक ASCII वर्ण था, एक ASCII हाइफ़न को आउटपुट में जोड़ा जाता है (उदाहरण के लिए, बुचर → बचर-, लेकिन ü →)।

ध्यान दें कि हाइफ़न स्वयं ASCII वर्ण हैं। इस प्रकार, वे इनपुट में मौजूद हो सकते हैं और यदि हां, तो उन्हें आउटपुट में कॉपी किया जाएगा। इससे कोई अस्पष्टता नहीं होती: यदि आउटपुट में हाइफ़न होता है, तो जो जोड़ा जाता है वह हमेशा अंतिम होता है। यह ASCII वर्णों के अंत का प्रतीक है।

गैर-ASCII वर्णों को एन्कोड करना

इनपुट में प्रत्येक गैर-ASCII वर्ण के लिए, एनकोडर दो संख्याओं की गणना करता है:

i इनपुट स्ट्रिंग में गैर-ASCII वर्ण की शून्य-आधारित क्रमांकन | 0-अनुक्रमित स्थिति है (उदाहरण के लिए 0 का अर्थ है कि गैर-ASCII वर्ण इनपुट स्ट्रिंग का पहला वर्ण है)।
n, यूनिकोड में, गैर-ASCII वर्ण का संख्यात्मक कोड बिंदु है, शून्य से 127 (ASCII का अंत)।

एनकोडर फिर i*n की गणना करता है, और परिणामी संख्या को आधार-36 अंकों के अनुक्रम में एनकोड करता है। यह उन्हें ASCII में प्रस्तुत करता है, और परिणाम को आउटपुट स्ट्रिंग में जोड़ता है।

ASCII प्रतिपादन है: 0 → 'ए', ..., 25 → 'जेड', 26 → '0', ..., 35 → '9', संख्या के अंकों को endianness|लिटिल-एंडियन क्रम में व्यवस्थित किया गया है।

बेस-36 एन्कोडिंग प्रक्रिया अधिक जटिल है। यह Numeral_system#generalized_variable-length_integers|variable-length पूर्णांक आउटपुट करता है। इनमें यह गुण है कि प्रत्येक संख्या का सबसे महत्वपूर्ण अंक (उदाहरण के लिए संख्या 123 में अंक 1) बिना संदर्भ के पहचाना जा सकता है। इस प्रकार, कई संख्याओं के अंकों को संयोजित किया जा सकता है, उन्हें अलग करने की कोई आवश्यकता नहीं है, फिर भी मूल संख्याओं को पहचाना और निकाला जा सकता है।

अंतर्राष्ट्रीयकृत डोमेन नामों के लिए ACE उपसर्ग

गैर-अंतर्राष्ट्रीय डोमेन नामों में हाइफ़न को पुनीकोड डिकोडिंग को ट्रिगर करने से रोकने के लिए, स्ट्रिंग xn-- अंतर्राष्ट्रीयकृत डोमेन नामों में पुनीकोड अनुक्रमों से जुड़ा हुआ है। इसे ACE (ASCII संगत एन्कोडिंग) कहा जाता है।^[2] इस प्रकार डोमेन नाम bücher.tld को ASCII में xn--bcher-kva.tld के रूप में दर्शाया जाएगा।

डिकोडर

डिकोडर एक परिमित-राज्य मशीन है जिसमें दो राज्य चर i और n हैं।

i स्ट्रिंग में एक सूचकांक है, जो शून्य से (शुरुआत में संभावित सम्मिलन का प्रतिनिधित्व करता है) विस्तारित स्ट्रिंग की वर्तमान लंबाई (अंत में संभावित सम्मिलन का प्रतिनिधित्व करता है) तक होता है। मैं शून्य से शुरू करता हूँ.

n 128 (पहला गैर-ASCII कोड बिंदु) से शुरू होता है।

राज्य की प्रगति एक मोनोटोनिक फ़ंक्शन है। एक स्थिति परिवर्तन या तो i को बढ़ाता है या, यदि i अपने अधिकतम पर है, तो i को शून्य पर रीसेट करता है और n को बढ़ाता है। अगले राज्य परिवर्तन पर, हम वेतन वृद्धि फिर से शुरू करते हैं। प्रत्येक अवस्था में, n द्वारा दर्शाया गया कोड बिंदु या तो डाला जाता है या नहीं।

एन्कोडर द्वारा उत्पन्न संख्याएँ दर्शाती हैं कि प्रविष्टि करने से पहले कितनी संभावनाओं को छोड़ा जाना चाहिए।

स्ट्रिंग बैचर में एक अक्षर डालने के लिए छह संभावित स्थान हैं (पहले अक्षर से पहले और आखिरी के बाद सहित)। अंतिम ASCII कोड बिंदु (127 = 0x7F, ASCII का अंत) और ü (कोड बिंदु 252 = 0xFC, यूनिकोड का लैटिन-1_सप्लीमेंट_(यूनिकोड_ब्लॉक)|लैटिन-1 सप्लीमेंट देखें) के बीच 124 कोड बिंदु हैं। ü के लिए एक सम्मिलन स्थिति है जिसे छोड़ दिया जाना चाहिए (स्थिति शून्य: 'बी' से पहले)।

इस प्रकार, डिकोडर आवश्यक सम्मिलन तक पहुंचने से पहले कुल (6 × 124) + 1 = 745 संभावित सम्मिलन को छोड़ देगा। एक बार चरित्र डालने के बाद, अब दूसरा चरित्र डालने के लिए सात संभावित स्थान हैं।

कोड संख्याओं को ASCII अनुक्रमों के रूप में पुनः एन्कोड करना

पुनीकोड इन मानों को दर्शाने के लिए अंक प्रणाली#सामान्यीकृत चर-लंबाई पूर्णांक|सामान्यीकृत चर-लंबाई पूर्णांक का उपयोग करता है। उदाहरण के लिए, कोड संख्या 745 को दर्शाने के लिए kva का उपयोग इस प्रकार किया जाता है:

<ब्लॉककोट> एंडियननेस#विस्तृत विवरण|लिटिल-एंडियन ऑर्डरिंग के साथ एक संख्या प्रणाली का उपयोग किया जाता है जो अलग-अलग सीमांकक के बिना चर-लंबाई कोड की अनुमति देता है: थ्रेशोल्ड मान से कम अंक यह दर्शाता है कि यह सबसे महत्वपूर्ण अंक है, इसलिए संख्या का अंत होता है। दक्षता बढ़ाने के लिए थ्रेशोल्ड मान संख्या की स्थिति और पिछले सम्मिलन पर भी निर्भर करता है। तदनुसार अंकों का भार भिन्न-भिन्न होता है।

इस मामले में 36 प्रतीकों वाली एक संख्या प्रणाली का उपयोग किया जाता है, केस संवेदनशीलता के साथ | केस-असंवेदनशील 'ए' से 'जेड' दशमलव संख्या 0 से 25 के बराबर है, और '0' से '9' दशमलव संख्या 26 के बराबर है 35 के माध्यम से। इस प्रकार kva, दशमलव संख्या स्ट्रिंग 10 21 0 से मेल खाता है। </ब्लॉककोट>

प्रतीकों की इस स्ट्रिंग को डिकोड करने के लिए, थ्रेसहोल्ड के अनुक्रम की आवश्यकता होगी, इस मामले में यह (1, 1, 26, 26, ...) है।^[3] सबसे कम महत्वपूर्ण अंक का वजन (या स्थानीय मान) हमेशा 1 होता है: 'k' (=10) 1 के वजन के साथ 10 के बराबर होता है। इसके बाद, अगले अंक का वजन पहली सीमा पर निर्भर करता है: आम तौर पर, के लिए कोई भी n, (n+1)-वें अंक का वजन पिछले एक बार के वजन के बराबर होता है (36 - n-वें अंक की सीमा)। तो दूसरे प्रतीक का स्थानीय मान 36 है, जिसमें पिछली सीमा का मान घटा दिया गया है, इस मामले में, 35। इसलिए, पहले दो प्रतीकों 'k' (=10) और 'v' (=21) का योग 10 × 1 है। + 21 × 35। चूंकि दूसरा प्रतीक 1 के सीमा मान से कम नहीं है, इसलिए अभी और भी बहुत कुछ आना बाकी है। हालाँकि, चूँकि इस उदाहरण में तीसरा प्रतीक 'a' (=0) है, इसलिए हम इसके वजन की गणना को अनदेखा कर सकते हैं। इसलिए, kva दशमलव संख्या (10 × 1) + (21 × 35) = 745 का प्रतिनिधित्व करता है। प्रत्येक क्रमिक एन्कोडेड वर्ण के लिए थ्रेशोल्ड स्वयं एक एल्गोरिदम द्वारा निर्धारित किए जाते हैं, जिसमें उन्हें 1 और 26 के बीच शामिल किया जाता है।^[4] फिर केस का उपयोग स्ट्रिंग के मूल केस के बारे में जानकारी प्रदान करने के लिए किया जा सकता है।^[5] चूँकि विशेष वर्णों को एन्कोडिंग एल्गोरिदम द्वारा उनके कोड बिंदुओं के आधार पर क्रमबद्ध किया जाता है, बुचर में दूसरे विशेष वर्ण को सम्मिलित करने के लिए, पहली संभावना कोड bcher-kvaa के साथ büücher है, कोड bcher-kvab के साथ दूसरी büucher है, आदि। कोड के साथ bücherü के बाद bcher-kvae में ý के सम्मिलन का प्रतिनिधित्व करने वाले कोड आते हैं, ü के बाद यूनिकोड वर्ण, ýbücher से शुरू होकर कोड bcher-kvaf (übücher कोडित bcher-jvab से भिन्न), आदि।

एन्कोडिंग और डिकोडिंग एल्गोरिदम को सरल बनाने के लिए, कुछ एन्कोडेड मानों को अस्वीकार्य यूनिकोड मानों को एन्कोड करने से रोकने का कोई प्रयास नहीं किया गया है: हालाँकि, डिकोडिंग के दौरान इनकी जाँच की जानी चाहिए और इनका पता लगाया जाना चाहिए।

पुनीकोड को सभी स्क्रिप्ट्स पर काम करने के लिए डिज़ाइन किया गया है, और इसे संचालित करते समय स्ट्रिंग के भीतर वर्ण सेट श्रेणियों को अनुकूलित करने का प्रयास करके स्व-अनुकूलन किया जाता है। यह उस मामले के लिए अनुकूलित है जहां स्ट्रिंग शून्य या अधिक ASCII वर्णों से बनी है और इसके अतिरिक्त केवल एक अन्य स्क्रिप्ट सिस्टम के वर्ण हैं, लेकिन किसी भी मनमानी यूनिकोड स्ट्रिंग के साथ सामना करेंगे। ध्यान दें कि DNS उपयोग के लिए, डोमेन नाम स्ट्रिंग को नाम-तैयारी का उपयोग करके सामान्यीकृत किया गया है और (शीर्ष-स्तरीय डोमेन के लिए) पुनीकोड किए जाने से पहले आधिकारिक तौर पर पंजीकृत भाषा तालिका के विरुद्ध फ़िल्टर किया गया है, और DNS प्रोटोकॉल स्वीकार्य लंबाई पर सीमा निर्धारित करता है। आउटपुट पुनीकोड स्ट्रिंग।

उदाहरण

निम्न तालिका विभिन्न प्रकार के इनपुट के लिए पुनीकोड एन्कोडिंग के उदाहरण दिखाती है।^[6]

Input	Punycode of input	Description of input
		खाली स्ट्रिंग.
a	अक्षर, एक, लोअरकेस।
A	A-	केवल ASCII वर्ण, एक, अपरकेस।
3	3-	केवल ASCII वर्ण, एक, एक अंक।
-	--	केवल ASCII वर्ण, एक, एक हाइफ़न।
--	---	केवल ASCII वर्ण, दो हाइफ़न।
London	London-	केवल ASCII वर्ण, एक से अधिक, कोई हाइफ़न नहीं।
Lloyd-Atkinson	Lloyd-Atkinson-	केवल ASCII वर्ण, एक हाइफ़न।
This has spaces	This has spaces-	केवल ASCII वर्ण, रिक्त स्थान के साथ।
-> $1.00 <-	-> $1.00 <--	केवल ASCII वर्ण, मिश्रित प्रतीक।
а	80a	कोई ASCII वर्ण नहीं, एक A (सिरिलिक)।
ü	tda	कोई ASCII वर्ण नहीं, एक लैटिन-1 अनुपूरक Ü।
α	mxa	कोई ASCII वर्ण नहीं, एक अल्फा
例	fsq	कोई ASCII वर्ण नहीं, एक CJK वर्ण वर्ण।
😉	n28h	कोई ASCII वर्ण नहीं, एक इमोजी वर्ण।
αβγ	mxacd	कोई ASCII वर्ण नहीं, एक से अधिक वर्ण।
München	Mnchen-3ya	मिश्रित स्ट्रिंग, एक वर्ण के साथ जो ASCII वर्ण नहीं है।
Mnchen-3ya	Mnchen-3ya-	म्यूनचेन का डबल-एन्कोडेड पुनीकोड।
München-Ost	Mnchen-Ost-9db	मिश्रित स्ट्रिंग, एक वर्ण के साथ जो ASCII नहीं है, और एक हाइफ़न है।
Bahnhof München-Ost	Bahnhof Mnchen-Ost-u6b	मिश्रित स्ट्रिंग, एक स्थान, एक हाइफ़न और एक वर्ण के साथ जो ASCII नहीं है।
abæcdöef	abcdef-qua4k	मिश्रित स्ट्रिंग, दो गैर-ASCII वर्ण।
правда	80aafi6cg	रूसी भाषा, ASCII के बिना।
ยจฆฟคฏข	22cdfh1b8fsa	थाई भाषा, ASCII के बिना।
도메인	hq1bm8jm9l	कोरियाई भाषा, ASCII के बिना।
ドメイン名例	eckwd4c7cu47r2wf	जापानी भाषा, ASCII के बिना।
MajiでKoiする5秒前	MajiKoi5-783gue6qz075azm5e	ASCII के साथ जापानी।
「bücher」	bcher-kva8445foa	मिश्रित गैर-ASCII स्क्रिप्ट (लैटिन-1 अनुपूरक और CJK)।

यह भी देखें

संदर्भ

↑ RFC 3492, Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA), A. Costello, The Internet Society (March 2003)
↑ Internet Assigned Numbers Authority (2003-02-14). "आईडीएनए उपसर्ग के आईएएनए चयन का समापन". www.atm.tut.fi. Archived from the original on 2010-04-27. Retrieved 2017-09-22.
↑ This is true for the first encoded character (or, in terms of RFC 3492, the first "delta"): see RFC 3492, Sec. 6.
↑ RFC 3492, Secs. 3.4, 5.
↑ RFC 3492, App. A.
↑ The Punycode in this table was created using the builtin codec "punycode" of the Python programming language version 3.8 (s.encode("punycode")). See talk page.

बाहरी संबंध

IETF Punycode standard
ICU IDNA Demonstration An online demonstration of how ICU performs IDN operations
List of TLDs considered by the Mozilla developers to have an effective anti-spoofing policy for name registration
IDN and Punycode in IE7
Simple Punycode converter

[rfc3492-1] RFC 3492, Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA), A. Costello, The Internet Society (March 2003)

[2] Internet Assigned Numbers Authority (2003-02-14). "आईडीएनए उपसर्ग के आईएएनए चयन का समापन". www.atm.tut.fi. Archived from the original on 2010-04-27. Retrieved 2017-09-22.

[3] This is true for the first encoded character (or, in terms of RFC 3492, the first "delta"): see RFC 3492, Sec. 6.

[4] RFC 3492, Secs. 3.4, 5.

[5] RFC 3492, App. A.

[6] The Punycode in this table was created using the builtin codec "punycode" of the Python programming language version 3.8 (s.encode("punycode")). See talk page.

[1]

[2]

[3]

[4]

[5]

[6]

Anonymous

Search

पनीकोड

Namespaces

More

Page actions

Contents

एनकोडिंग प्रक्रिया

ASCII वर्णों का पृथक्करण

गैर-ASCII वर्णों को एन्कोड करना

अंतर्राष्ट्रीयकृत डोमेन नामों के लिए ACE उपसर्ग

डिकोडर

कोड संख्याओं को ASCII अनुक्रमों के रूप में पुनः एन्कोड करना

उदाहरण

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

पनीकोड

एनकोडिंग प्रक्रिया

ASCII वर्णों का पृथक्करण

गैर-ASCII वर्णों को एन्कोड करना

अंतर्राष्ट्रीयकृत डोमेन नामों के लिए ACE उपसर्ग

डिकोडर

कोड संख्याओं को ASCII अनुक्रमों के रूप में पुनः एन्कोड करना

उदाहरण

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Hidden categories