कैनॉनिकलाइज़ेशन: Difference between revisions

Latest revision as of 11:32, 12 August 2023

कंप्यूटर विज्ञान में, कैनोनिकलाइज़ेशन (कभी-कभी मानकीकरण या सामान्यीकरण (सांख्यिकी) आंकड़े को परिवर्तित करने की प्रक्रिया है जिसमें से एक अधिक संभावित प्रतिनिधित्व को मानक, सामान्य या कैनोनिकल फॉर्म में परिवर्तित किया जाता है। यह समतुल्यता के लिए भिन्न-भिन्न रेप्रेज़ेंटेशन्स की तुलना करने, भिन्न-भिन्न डेटा संरचनाओं की संख्या की गणना करने, बार-बार की गई गणनाओं को समाप्त करके विभिन्न एल्गोरिदम की दक्षता में सुधार करने या सार्थक सॉर्टिंग ऑर्डर लागू करना संभव बनाने के लिए किया जा सकता है।

उपयोग के मामले

फ़ाइल नाम

फाइल सिस्टम में फ़ाइलें अधिकांश स्थितियों में एकाधिक फ़ाइल नामों के माध्यम से एक्सेस की जा सकती हैं। उदाहरण के लिए यूनिक्स जैसी प्रणालियों में, string/./ को / से बदला जा सकता है। C मानक लाइब्रेरी में, function realpath() यह कार्य करता है। फ़ाइल नामों को कैनोनिकलाइज़ करने के लिए इस फ़ंक्शन द्वारा किए गए अन्य ऑपरेशनों में मूल निर्देशिकाओं को संदर्भित करने वाले /.. घटकों को संभालना, एकाधिक स्लैश के अनुक्रमों का सरलीकरण, अनुगामी स्लैश को हटाना और प्रतीकात्मक लिंक का समाधान सम्मिलित है।

कंप्यूटर सुरक्षा के लिए फ़ाइल नामों का कैनोनिकलाइज़ेशन महत्वपूर्ण है। उदाहरण के लिए, एक वेब सर्वर पर यह प्रतिबंध हो सकता है कि केवल cgi निर्देशिका C:\inetpub\wwwroot\cgi-bin के अंतर्गत फ़ाइलें निष्पादित की जा सकती हैं। यह नियम यह जांच कर लागू किया जाता है कि पथ C:\inetpub\wwwroot\cgi-bin\ से प्रारंभ होता है और उसके बाद ही इसे निष्पादित किया जाता है। जबकि फ़ाइल C:\inetpub\wwwroot\cgi-bin\..\..\..\Windows\System32\cmd.exe प्रारंभ में cgi निर्देशिका में प्रतीत होती है,यह cgi-bin के बाहर किसी फ़ाइल को निष्पादित करने के प्रयास में निर्देशिका पदानुक्रम का बैकअप लेने के लिए .. पथ विनिर्देशक का उपयोग करता है। cmd.exe को निष्पादित करने की अनुमति देना फ़ाइल नाम को सबसे सरल प्रतिनिधित्व, C:\Windows\System32\cmd.exe में कैनोनिकलाइज़ करने में विफलता के कारण होने वाली त्रुटि होगी, और इसे निर्देशिका ट्रैवर्सल वुल्नरेबिलिटी कहा जाता है। पथ को कैनोनिकलाइज़ करने के साथ, यह स्पष्ट है कि फ़ाइल को निष्पादित नहीं किया जाना चाहिए।

यूनिकोड

यूनिकोड में, कई उच्चारण अक्षरों को एक से अधिक विधियों से दर्शाया जा सकता है। उदाहरण के लिए, é को यूनिकोड में यूनिकोड वर्ण U+0065 (लैटिन छोटा अक्षर E) के रूप में और उसके बाद वर्ण U+0301 (तीव्र उच्चारण का संयोजन) के रूप में दर्शाया जा सकता है, किन्तु इसे पूर्वनिर्मित वर्ण U+00E9 (तीव्र उच्चारण के साथ लैटिन छोटा अक्षर E) के रूप में भी दर्शाया जा सकता है। तीव्र के साथ छोटा अक्षर ई)। यह स्ट्रिंग तुलना को और अधिक जटिल बना देता है, क्योंकि ऐसे ग्लिफ़ वाली स्ट्रिंग के हर संभावित प्रतिनिधित्व पर विचार किया जाना चाहिए। इससे निपटने के लिए, यूनिकोड कैनोनिकल तुल्यता की व्यवस्था प्रदान करता है। इस संदर्भ में, कैनोनिकलाइज़ेशन यूनिकोड सामान्यीकरण है।

यूनिकोड मानक में परिवर्तनीय-चौड़ाई एन्कोडिंग, विशेष रूप से यूटीएफ-8, कुछ स्थितियों में कैनोनिकलाइज़ेशन की अतिरिक्त आवश्यकता का कारण बन सकती है। अर्थात्, मानक के अनुसार, यूटीएफ-8 में किसी भी यूनिकोड वर्ण के लिए केवल एक वैध बाइट अनुक्रम है,^[1] किन्तु कुछ बाइट अनुक्रम अमान्य हैं यानी यूनिकोड वर्णों की किसी भी स्ट्रिंग को यूटीएफ-8 में एन्कोड करके प्राप्त नहीं किया जा सकता है। कुछ ख़राब डिकोडर कार्यान्वयन अमान्य बाइट अनुक्रमों को इनपुट के रूप में स्वीकार कर सकते हैं और ऐसे अनुक्रम के लिए आउटपुट के रूप में वैध यूनिकोड वर्ण उत्पन्न कर सकते हैं। यदि कोई ऐसे डिकोडर का उपयोग करता है, तो कुछ यूनिकोड वर्णों में प्रभावी रूप से से अधिक संगत बाइट अनुक्रम होते हैं: वैध और कुछ अमान्य। इससे पिछले अनुभाग में वर्णित जैसी सुरक्षा समस्याएं उत्पन्न हो सकती हैं। इसलिए, यदि कोई यूटीएफ-8 स्ट्रिंग्स पर कुछ फ़िल्टर (उदाहरण के लिए यूटीएफ-8 में लिखा गया रेगुलर एक्सप्रेशन) लागू करना चाहता है, जिसे बाद में डिकोडर को पास कर दिया जाएगा जो अमान्य बाइट अनुक्रमों की अनुमति देता है, तो उसे फ़िल्टर में पास करने से पहले स्ट्रिंग्स को कैनोनिकलाइज़ करना चाहिए। इस संदर्भ में, कैनोनिकलाइज़ेशन प्रत्येक स्ट्रिंग वर्ण को उसके एकल वैध बाइट अनुक्रम में अनुवाद करने की प्रक्रिया है। कैनोनिकलाइज़ेशन का विकल्प अमान्य बाइट अनुक्रम वाले किसी भी स्ट्रिंग को अस्वीकार करना है।

यूआरएल

कैनोनिकल यूआरएल डुप्लिकेट सामग्री के लिए सत्य के एकल स्रोत को परिभाषित करने के लिए यूआरएल है।

गूगल द्वारा उपयोग

कैनोनिकल यूआरएल उस पेज का यूआरएल है जिसे गूगल आपकी साइट पर डुप्लिकेट पेजों के सेट से सबसे अधिक प्रतिनिधि मानता है। उदाहरण के लिए, यदि आपके पास ही पृष्ठ के लिए यूआरएल (उदाहरण के लिए https://example.com/?dress=1234 और https://example.com/dresses/1234) हैं, गूगल किसी को कैनोनिकल के रूप में चुनता है। ध्यान दें कि पृष्ठों का बिल्कुल एक जैसा होना ज़रूरी नहीं है; सूची पृष्ठों को क्रमबद्ध करने या फ़िल्टर करने में साधारण परिवर्तन पृष्ठ को अद्वितीय (उदाहरण के लिए, मूल्य के आधार पर क्रमबद्ध करना या आइटम के रंग के आधार पर फ़िल्टर करना) नहीं बनाते हैं।

कैनोनिकल डुप्लिकेट से भिन्न डोमेन में हो सकता है।^[2]

इंटरनेट

कैनोनिकल यूआरएल की मदद से, खोज इंजन को पता चलता है कि क्वेरी परिणाम में कौन सा लिंक प्रदान किया जाना चाहिए।

कैनोनिकल लिंक तत्व का उपयोग कैनोनिकल यूआरएल को परिभाषित करने के लिए किया जा सकता है।

इंट्रानेट

इंट्रानेट में, जानकारी के लिए मैन्युअल खोज प्रमुख है। इस मामले में, कैनोनिकल यूआरएल को गैर-मशीन-पठनीय रूप में भी परिभाषित किया जा सकता है। उदाहरण के लिए दिशानिर्देश में.

विविध

कैनोनिकल यूआरएल सामान्यतः वे यूआरएल होते हैं जिनका उपयोग शेयर कार्रवाई के लिए किया जाता है।

चूंकि कैनोनिकल यूआरएल का उपयोग खोज इंजनों के खोज परिणाम में किया जाता है, वे अधिकांश स्थितियों में लैंडिंग पृष्ठ होते हैं।

खोज इंजन और एसईओ

वेब खोज और खोज इंजन अनुकूलन (एसईओ) में, यूआरएल विहितीकरण उस वेब सामग्री से संबंधित है जिसमें से अधिक संभावित यूआरएल हैं। ही वेब सामग्री के लिए एकाधिक यूआरएल रखने से खोज इंजनों के लिए समस्याएं उत्पन्न हो सकती हैं - विशेष रूप से यह निर्धारित करने में कि खोज परिणामों में कौन सा यूआरएल दिखाया जाना चाहिए।^[3] अधिकांश खोज इंजन संकेत के रूप में कैनोनिकल लिंक तत्व का समर्थन करते हैं कि किस यूआरएल को सही संस्करण माना जाना चाहिए। जैसा कि गूगल के जॉन म्यूएलर ने संकेत दिया है, किसी पृष्ठ में नोइंडेक्स तत्व जैसे अन्य निर्देश होने से खोज इंजन को कैनोनिकलाइज़ेशन को संभालने के विधि के बारे में परस्पर विरोधी संकेत मिल सकते हैं। ^[4]

उदाहरण:

ये सभी यूआरएल विकिपीडिया के मुखपृष्ठ की ओर इशारा करते हैं, किन्तु खोज इंजन उनमें से केवल को ही यूआरएल का कैनोनिकल रूप मानेगा।

एक्सएमएल

कैनोनिकल एक्सएमएल दस्तावेज़ परिभाषा के अनुसार एक्सएमएल दस्तावेज़ है जो एक्सएमएल कैनोनिकल रूप में है, जिसे कैनोनिकल एक्सएमएल विनिर्देश द्वारा परिभाषित किया गया है। संक्षेप में, कैनोनिकलाइज़ेशन टैग के अन्दर व्हाइटस्पेस को हटा देता है, विशेष वर्ण एन्कोडिंग का उपयोग करता है, नेमस्पेस संदर्भों को सॉर्ट करता है और अनावश्यक लोगों को हटा देता है, एक्सएमएल और डॉकटाइप घोषणाओं को हटा देता है, और सापेक्ष यूआरआई को पूर्ण यूआरआई में बदल देता है।

सरल उदाहरण एक्सएमएल के निम्नलिखित दो स्निपेट होंगे:

<node1 x='1' a="1" a="2">Data</node1 > <node2>Data</node2>
<node1 a="2" x="1">Data</node1> <node2>Data</node2>

पहले उदाहरण में पहले नोड के समापन टैग में अतिरिक्त स्थान हैं। दूसरा उदाहरण, जिसे कैनोनिकल किया गया है, इन रिक्त स्थानों को हटा दिया गया है। ध्यान दें कि W3C कैनोनिकलाइज़ेशन के तहत केवल टैग के अन्दर के रिक्त स्थान को हटाया जाता है, टैग के बीच के रिक्त स्थान को नहीं हटाया जाता है।

विहितीकरण परिवर्तनों का पूरा सारांश नीचे सूचीबद्ध है:

दस्तावेज़ यूटीएफ-8 में एन्कोड किया गया है
पार्सिंग से पहले, इनपुट पर लाइन ब्रेक को #xA पर सामान्यीकृत किया जाता है
विशेषता मानों को सामान्यीकृत किया जाता है, जैसे कि मान्य प्रोसेसर द्वारा
करेक्टर और पार्स किए गए इकाई संदर्भ बदल दिए गए हैं
सीडीएटीए अनुभागों को उनकी करेक्टर सामग्री से बदल दिया गया है
एक्सएमएल घोषणा और दस्तावेज़ प्रकार की घोषणा हटा दी गई है
खाली तत्वों को स्टार्ट-एंड टैग जोड़े में बदल दिया जाता है
दस्तावेज़ तत्व के बाहर और प्रारंभ और अंत टैग के अन्दर रिक्त स्थान को सामान्यीकृत किया गया है
वर्ण सामग्री में सभी रिक्त स्थान इनटेक्ट (लाइन फ़ीड सामान्यीकरण के समय हटाए गए वर्णों को छोड़कर) रखे गए हैं
विशेषता मान सीमांकक उद्धरण चिह्नों (दोहरे उद्धरण) पर सेट हैं
विशेषता मानों और करेक्टर सामग्री में विशेष वर्णों को करेक्टर संदर्भों द्वारा प्रतिस्थापित किया जाता है
प्रत्येक तत्व से अनावश्यक नामस्थान घोषणाएँ हटा दी जाती हैं
प्रत्येक तत्व में डिफ़ॉल्ट विशेषताएँ जोड़ी जाती हैं
का फिक्सअप xml:base विशेषताएँ निष्पादित की जाती हैं
लेक्सिकोग्राफ़िक क्रम प्रत्येक तत्व के नामस्थान घोषणाओं और विशेषताओं पर लगाया जाता है

कम्प्यूटेशनल भाषाविज्ञान

आकृति विज्ञान (भाषाविज्ञान) और शब्दावली में, लेम्मा (आकृति विज्ञान) शब्दों के समूह का कैनोनिकल रूप है। अंग्रेजी भाषा, उदाहरण के लिए, रन, रन, रन और रनिंग एक ही शब्द के रूप हैं, इसलिए हम उनमें से एक का चयन कर सकते हैं; सभी रूपों का प्रतिनिधित्व करने के लिए पूर्व चलाएँ। यूनीटेक्स जैसे लेक्सिकल डेटाबेस इस प्रकार के प्रतिनिधित्व का उपयोग करते हैं।

लेम्मटाइजेशन किसी शब्द को उसके कैनोनिकल रूप में परिवर्तित करने की प्रक्रिया है।

यह भी देखें

संदर्भ

↑ RFC 2279: UTF-8, a transformation format of ISO 10646
↑ "Consolidate Duplicate URLs with Canonicals | Google Search Central".
↑ Cutts, Matt (January 4, 2006). "SEO advice: url canonicalization". Matt Cutts: Gadgets, Google, and SEO. Retrieved 3 September 2013.
↑ "कैनोनिकलाइज़्ड यूआरएल नोइंडेक्स, नोफ़ॉलो है" (in English). Retrieved 2020-04-20.

बाहरी संबंध

[1] RFC 2279: UTF-8, a transformation format of ISO 10646

[2] "Consolidate Duplicate URLs with Canonicals | Google Search Central".

[cutts-3] Cutts, Matt (January 4, 2006). "SEO advice: url canonicalization". Matt Cutts: Gadgets, Google, and SEO. Retrieved 3 September 2013.

[4] "कैनोनिकलाइज़्ड यूआरएल नोइंडेक्स, नोफ़ॉलो है" (in English). Retrieved 2020-04-20.

[1]

[2]

[3]

[4]

@@ Line 1: / Line 1: @@
 {{Short description|Process for converting data into a "standard", "normal", or canonical form}}
-{{Distinguish|कैनोनिकल लिंक तत्व|कैनोनिज़शन}}
+[[कंप्यूटर विज्ञान]] में, '''कैनोनिकलाइज़ेशन''' (कभी-कभी '''मानकीकरण''' या [[सामान्यीकरण (सांख्यिकी)|'''सामान्यीकरण''' ('''सांख्यिकी''')]] [[आंकड़े]] को परिवर्तित करने की प्रक्रिया है जिसमें से एक अधिक संभावित प्रतिनिधित्व को मानक, सामान्य या [[कानूनी फॉर्म|कैनोनिकल फॉर्म]] में परिवर्तित किया जाता है। यह समतुल्यता के लिए भिन्न-भिन्न रेप्रेज़ेंटेशन्स की तुलना करने, भिन्न-भिन्न डेटा संरचनाओं की संख्या की गणना करने, बार-बार की गई गणनाओं को समाप्त करके विभिन्न [[कलन विधि|एल्गोरिदम]] की दक्षता में सुधार करने या सार्थक [[ छँटाई | सॉर्टिंग]] ऑर्डर लागू करना संभव बनाने के लिए किया जा सकता है।
-[[कंप्यूटर विज्ञान]] में, '''कैनोनिकलाइज़ेशन''' (कभी-कभी '''मानकीकरण''' या [[सामान्यीकरण (सांख्यिकी)|'''सामान्यीकरण''' ('''सांख्यिकी''')]]) [[आंकड़े]] को परिवर्तित करने की प्रक्रिया है जिसमें से एक अधिक संभावित प्रतिनिधित्व को मानक, सामान्य या [[कानूनी फॉर्म|कैनोनिकल फॉर्म]] में परिवर्तित किया जाता है। यह समतुल्यता के लिए अलग-अलग रेप्रेज़ेंटेशन्स की तुलना करने, अलग-अलग डेटा संरचनाओं की संख्या की गणना करने, बार-बार की गई गणनाओं को समाप्त करके विभिन्न [[कलन विधि|एल्गोरिदम]] की दक्षता में सुधार करने या सार्थक [[ छँटाई | सॉर्टिंग]] ऑर्डर लागू करना संभव बनाने के लिए किया जा सकता है।
 ==उपयोग के मामले==
@@ Line 35: / Line 33: @@
 कैनोनिकल लिंक तत्व का उपयोग कैनोनिकल यूआरएल को परिभाषित करने के लिए किया जा सकता है।
-==== [[इंट्रानेट]] ====
+==== इंट्रानेट ====
 इंट्रानेट में, जानकारी के लिए मैन्युअल खोज प्रमुख है। इस मामले में, कैनोनिकल यूआरएल को गैर-मशीन-पठनीय रूप में भी परिभाषित किया जा सकता है। उदाहरण के लिए [[दिशानिर्देश]] में.
@@ Line 41: / Line 39: @@
 ==== विविध ====
-कैनोनिकल यूआरएल आमतौर पर वे यूआरएल होते हैं जिनका उपयोग शेयर कार्रवाई के लिए किया जाता है।
+कैनोनिकल यूआरएल सामान्यतः वे यूआरएल होते हैं जिनका उपयोग शेयर कार्रवाई के लिए किया जाता है।
 चूंकि कैनोनिकल यूआरएल का उपयोग खोज इंजनों के खोज परिणाम में किया जाता है, वे अधिकांश स्थितियों में [[लैंडिंग पृष्ठ]] होते हैं।
 ===खोज इंजन और एसईओ===
-वेब खोज और खोज इंजन अनुकूलन (एसईओ) में, [[यूआरएल विहितीकरण]] उस वेब सामग्री से संबंधित है जिसमें से अधिक संभावित यूआरएल हैं। ही वेब सामग्री के लिए एकाधिक यूआरएल रखने से खोज इंजनों के लिए समस्याएं पैदा हो सकती हैं - विशेष रूप से यह निर्धारित करने में कि खोज परिणामों में कौन सा यूआरएल दिखाया जाना चाहिए।<ref name=cutts>{{cite web|last=Cutts|first=Matt|title=SEO advice: url canonicalization|url=http://www.mattcutts.com//blog/seo-advice-url-canonicalization/|work=Matt Cutts: Gadgets, Google, and SEO|accessdate=3 September 2013|date=January 4, 2006}}</ref> अधिकांश खोज इंजन संकेत के रूप में कैनोनिकल लिंक तत्व का समर्थन करते हैं कि किस यूआरएल को सही संस्करण माना जाना चाहिए। जैसा कि गूगल के जॉन म्यूएलर ने संकेत दिया है, किसी पृष्ठ में [[नोइंडेक्स]] तत्व जैसे अन्य निर्देश होने से खोज इंजन को कैनोनिकलाइज़ेशन को संभालने के तरीके के बारे में परस्पर विरोधी संकेत मिल सकते हैं। <ref>{{Cite web|url=http://www.thegooglecache.com/canonicalized-url-is-noindex-nofollow.html|title=कैनोनिकलाइज़्ड यूआरएल नोइंडेक्स, नोफ़ॉलो है|language=en-US|access-date=2020-04-20}}</ref>
+वेब खोज और खोज इंजन अनुकूलन (एसईओ) में, [[यूआरएल विहितीकरण]] उस वेब सामग्री से संबंधित है जिसमें से अधिक संभावित यूआरएल हैं। ही वेब सामग्री के लिए एकाधिक यूआरएल रखने से खोज इंजनों के लिए समस्याएं उत्पन्न हो सकती हैं - विशेष रूप से यह निर्धारित करने में कि खोज परिणामों में कौन सा यूआरएल दिखाया जाना चाहिए।<ref name=cutts>{{cite web|last=Cutts|first=Matt|title=SEO advice: url canonicalization|url=http://www.mattcutts.com//blog/seo-advice-url-canonicalization/|work=Matt Cutts: Gadgets, Google, and SEO|accessdate=3 September 2013|date=January 4, 2006}}</ref> अधिकांश खोज इंजन संकेत के रूप में कैनोनिकल लिंक तत्व का समर्थन करते हैं कि किस यूआरएल को सही संस्करण माना जाना चाहिए। जैसा कि गूगल के जॉन म्यूएलर ने संकेत दिया है, किसी पृष्ठ में [[नोइंडेक्स]] तत्व जैसे अन्य निर्देश होने से खोज इंजन को कैनोनिकलाइज़ेशन को संभालने के विधि के बारे में परस्पर विरोधी संकेत मिल सकते हैं। <ref>{{Cite web|url=http://www.thegooglecache.com/canonicalized-url-is-noindex-nofollow.html|title=कैनोनिकलाइज़्ड यूआरएल नोइंडेक्स, नोफ़ॉलो है|language=en-US|access-date=2020-04-20}}</ref>
 उदाहरण:
 * <code>http://wikipedia.com{{cbignore}}</code>
@@ Line 55: / Line 54: @@
 ===एक्सएमएल===
-कैनोनिकल XML दस्तावेज़ परिभाषा के अनुसार XML दस्तावेज़ है जो XML कैनोनिकल रूप में है, जिसे [http://www.w3.org/TR/xml-c14n11 कैनोनिकल XML विनिर्देश] द्वारा परिभाषित किया गया है। संक्षेप में, कैनोनिकलाइज़ेशन टैग के भीतर व्हाइटस्पेस को हटा देता है, विशेष वर्ण एन्कोडिंग का उपयोग करता है, नेमस्पेस संदर्भों को सॉर्ट करता है और अनावश्यक लोगों को हटा देता है, XML और DOCTYPE घोषणाओं को हटा देता है, और सापेक्ष यूआरआई को पूर्ण यूआरआई में बदल देता है।
+कैनोनिकल एक्सएमएल दस्तावेज़ परिभाषा के अनुसार एक्सएमएल दस्तावेज़ है जो एक्सएमएल कैनोनिकल रूप में है, जिसे [http://www.w3.org/TR/xml-c14n11 कैनोनिकल एक्सएमएल विनिर्देश] द्वारा परिभाषित किया गया है। संक्षेप में, कैनोनिकलाइज़ेशन टैग के अन्दर व्हाइटस्पेस को हटा देता है, विशेष वर्ण एन्कोडिंग का उपयोग करता है, नेमस्पेस संदर्भों को सॉर्ट करता है और अनावश्यक लोगों को हटा देता है, एक्सएमएल और डॉकटाइप घोषणाओं को हटा देता है, और सापेक्ष यूआरआई को पूर्ण यूआरआई में बदल देता है।
-सरल उदाहरण XML के निम्नलिखित दो स्निपेट होंगे:
+सरल उदाहरण एक्सएमएल के निम्नलिखित दो स्निपेट होंगे:
 # <code><node1 x='1' a="1" a="2">Data</node1&nbsp;&nbsp;&nbsp;&nbsp;>&nbsp;<node2>Data</node2></code>
 # <code><node1 a="2" x="1">Data</node1>&nbsp;<node2>Data</node2></code>
-पहले उदाहरण में पहले नोड के समापन टैग में अतिरिक्त स्थान हैं। दूसरा उदाहरण, जिसे कैनोनिकल किया गया है, इन रिक्त स्थानों को हटा दिया गया है। ध्यान दें कि W3C कैनोनिकलाइज़ेशन के तहत केवल टैग के भीतर के रिक्त स्थान को हटाया जाता है, टैग के बीच के रिक्त स्थान को नहीं।
+पहले उदाहरण में पहले नोड के समापन टैग में अतिरिक्त स्थान हैं। दूसरा उदाहरण, जिसे कैनोनिकल किया गया है, इन रिक्त स्थानों को हटा दिया गया है। ध्यान दें कि W3C कैनोनिकलाइज़ेशन के तहत केवल टैग के अन्दर के रिक्त स्थान को हटाया जाता है, टैग के बीच के रिक्त स्थान को नहीं हटाया जाता है।
 विहितीकरण परिवर्तनों का पूरा सारांश नीचे सूचीबद्ध है:
@@ Line 66: / Line 65: @@
 * पार्सिंग से पहले, इनपुट पर लाइन ब्रेक को #xA पर सामान्यीकृत किया जाता है
 * विशेषता मानों को सामान्यीकृत किया जाता है, जैसे कि मान्य प्रोसेसर द्वारा
-* चरित्र और पार्स किए गए इकाई संदर्भ बदल दिए गए हैं
+* करेक्टर और पार्स किए गए इकाई संदर्भ बदल दिए गए हैं
-* सीडीएटीए अनुभागों को उनकी चरित्र सामग्री से बदल दिया गया है
+* सीडीएटीए अनुभागों को उनकी करेक्टर सामग्री से बदल दिया गया है
-* XML घोषणा और दस्तावेज़ प्रकार की घोषणा हटा दी गई है
+* एक्सएमएल घोषणा और दस्तावेज़ प्रकार की घोषणा हटा दी गई है
 * खाली तत्वों को स्टार्ट-एंड टैग जोड़े में बदल दिया जाता है
-* दस्तावेज़ तत्व के बाहर और प्रारंभ और अंत टैग के भीतर रिक्त स्थान को सामान्यीकृत किया गया है
+* दस्तावेज़ तत्व के बाहर और प्रारंभ और अंत टैग के अन्दर रिक्त स्थान को सामान्यीकृत किया गया है
-* वर्ण सामग्री में सभी रिक्त स्थान बरकरार रखे गए हैं (लाइन फ़ीड सामान्यीकरण के दौरान हटाए गए वर्णों को छोड़कर)
+* वर्ण सामग्री में सभी रिक्त स्थान इनटेक्ट (लाइन फ़ीड सामान्यीकरण के समय हटाए गए वर्णों को छोड़कर) रखे गए हैं
 * विशेषता मान सीमांकक उद्धरण चिह्नों (दोहरे उद्धरण) पर सेट हैं
-* विशेषता मूल्यों और चरित्र सामग्री में विशेष वर्णों को चरित्र संदर्भों द्वारा प्रतिस्थापित किया जाता है
+* विशेषता मानों और करेक्टर सामग्री में विशेष वर्णों को करेक्टर संदर्भों द्वारा प्रतिस्थापित किया जाता है
 * प्रत्येक तत्व से अनावश्यक नामस्थान घोषणाएँ हटा दी जाती हैं
 * प्रत्येक तत्व में डिफ़ॉल्ट विशेषताएँ जोड़ी जाती हैं
@@ Line 80: / Line 79: @@
 === कम्प्यूटेशनल भाषाविज्ञान ===
-आकृति विज्ञान (भाषाविज्ञान) और [[शब्द]]ावली में, [[लेम्मा (आकृति विज्ञान)]] शब्दों के समूह का कैनोनिकल रूप है। उदाहरण के लिए, [[अंग्रेजी भाषा]] में, रन, रन, रन और रनिंग ही शब्द के रूप हैं, इसलिए हम उनमें से का चयन कर सकते हैं; पूर्व। सभी रूपों का प्रतिनिधित्व करने के लिए चलाएँ। [[लेक्सिकल डेटाबेस]] जैसे [http://www-igm.univ-mlv.fr/~unitex/index.php?page=7 Unitex] इस प्रकार के प्रतिनिधित्व का उपयोग करते हैं।
+आकृति विज्ञान (भाषाविज्ञान) और [[शब्द|शब्दावली]] में, [[लेम्मा (आकृति विज्ञान)]] शब्दों के समूह का कैनोनिकल रूप है। [[अंग्रेजी भाषा]], उदाहरण के लिए, रन, रन, रन और रनिंग एक ही शब्द के रूप हैं, इसलिए हम उनमें से एक का चयन कर सकते हैं; सभी रूपों का प्रतिनिधित्व करने के लिए पूर्व चलाएँ। [http://www-igm.univ-mlv.fr/~unitex/index.php?page=7 यूनीटेक्स] जैसे [[लेक्सिकल डेटाबेस]] इस प्रकार के प्रतिनिधित्व का उपयोग करते हैं।
 [[लेम्मटाइजेशन]] किसी शब्द को उसके कैनोनिकल रूप में परिवर्तित करने की प्रक्रिया है।
 == यह भी देखें ==
-* कानूनी फॉर्म
+* कैनोनिकल फॉर्म
 * [[ ग्राफ विमुद्रीकरण ]]
 * लेम्मटाइजेशन
@@ Line 98: / Line 97: @@
 * [http://www.w3.org/TR/xml-c14n.html Canonical XML Version 1.0, W3C Recommendation]
 * [http://www.owasp.org/index.php/Canonicalization,_locale_and_Unicode OWASP Security Reference for Canonicalization]
-[[Category: कंप्यूटिंग शब्दावली]]
-[[Category: Machine Translated Page]]
+[[Category:CS1 English-language sources (en)]]
 [[Category:Created On 26/07/2023]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Pages with script errors]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:कंप्यूटिंग शब्दावली]]

Anonymous

Search

कैनॉनिकलाइज़ेशन: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 11:32, 12 August 2023

Contents

उपयोग के मामले

फ़ाइल नाम

यूनिकोड

यूआरएल

गूगल द्वारा उपयोग

इंटरनेट

इंट्रानेट

विविध

खोज इंजन और एसईओ

एक्सएमएल

कम्प्यूटेशनल भाषाविज्ञान

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

कैनॉनिकलाइज़ेशन: Difference between revisions

Latest revision as of 11:32, 12 August 2023

उपयोग के मामले

फ़ाइल नाम

यूनिकोड

यूआरएल

गूगल द्वारा उपयोग

इंटरनेट

इंट्रानेट

विविध

खोज इंजन और एसईओ

एक्सएमएल

कम्प्यूटेशनल भाषाविज्ञान

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories