आंशिक मिलान द्वारा भविष्यवाणी: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(3 intermediate revisions by 3 users not shown)
Line 35: Line 35:
==कांटेक्स्ट==
==कांटेक्स्ट==
{{Reflist}}
{{Reflist}}
== बाहरी संबंध ==
== बाहरी संबंध ==
{{बाहरी संबंध|date=November 2015}}
* [http://mattmahoney.net/dc/text.html Suite of पीपीएम compressors with benchmarks]
* [http://mattmahoney.net/dc/text.html Suite of पीपीएम compressors with benchmarks]
* [http://www3.sympatico.ca/mt0000/bicom/bicom.html BICOM, a bijective पीपीएम compressor]
* [http://www3.sympatico.ca/mt0000/bicom/bicom.html BICOM, a bijective पीपीएम compressor]
Line 44: Line 41:
* {{in lang|ru}} [http://compression.ru/ds/ पीपीएमडी compressor] by Dmitri Shkarin
* {{in lang|ru}} [http://compression.ru/ds/ पीपीएमडी compressor] by Dmitri Shkarin
* [https://github.com/rene-puschinger/ppm PPM compression in C++] by René Puschinger
* [https://github.com/rene-puschinger/ppm PPM compression in C++] by René Puschinger
[[Category: दोषरहित संपीड़न एल्गोरिदम]]


[[Category: Machine Translated Page]]
[[Category:Articles with Russian-language sources (ru)]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 07/07/2023]]
[[Category:Created On 07/07/2023]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:दोषरहित संपीड़न एल्गोरिदम]]

Latest revision as of 13:11, 4 August 2023

आंशिक मिलान द्वारा पूर्वानुमान (पीपीएम) कांटेक्स्ट मॉडलिंग और पूर्वानुमान पर आधारित अनुकूली सांख्यिकी डेटा संपीड़न तकनीक है। पीपीएम मॉडल स्ट्रीम में अगले प्रतीक की पूर्वानुमान करने के लिए असम्पीडित प्रतीक स्ट्रीम में पिछले प्रतीकों के सेट का उपयोग करते हैं। पीपीएम एल्गोरिदम का उपयोग क्लस्टर विश्लेषण में पूर्वानुमानित समूहों में डेटा को क्लस्टर करने के लिए भी किया जा सकता है।

सिद्धांत

पूर्वानुमान सामान्यतः प्रतीक रैंकिंग तक सीमित कर दी जाती हैं. प्रत्येक प्रतीक (एक अक्षर, बिट या डेटा की कोई अन्य मात्रा) को संपीड़ित करने से पहले रैंक किया जाता है, और इस प्रकार रैंकिंग प्रणाली संबंधित कोडवर्ड (और इसलिए संपीड़न दर) निर्धारित करती है। इस प्रकार कई संपीड़न एल्गोरिदम में, रैंकिंग संभाव्यता द्रव्यमान फ़ंक्शन अनुमान के समान है। पिछले अक्षरों को देखते हुए (या कांटेक्स्ट दिया गया है), प्रत्येक प्रतीक को संभावना के साथ निर्दिष्ट किया गया है। उदाहरण के लिए, अंकगणित कोडिंग में प्रतीकों को उनकी संभावनाओं के आधार पर पिछले प्रतीकों के बाद प्रदर्शित होने के लिए क्रमबद्ध किया जाता है, और पूरे अनुक्रम को एकल अंश में संपीड़ित किया जाता है जिसकी गणना इन संभावनाओं के अनुसार की जाती है।

पिछले प्रतीकों की संख्या, n, पीपीएम मॉडल का क्रम निर्धारित करती है जिसे पीपीएम (n) के रूप में दर्शाया जाता है। इस प्रकार असीमित संस्करण जहां कांटेक्स्ट की कोई लंबाई सीमा नहीं है, वे भी उपस्थित हैं और उन्हें पीपीएम के रूप में दर्शाया गया है। यदि सभी n कांटेक्स्ट प्रतीकों के आधार पर कोई पूर्वानुमान नहीं की जा सकती है, जिससे n - 1 प्रतीकों के साथ पूर्वानुमान का प्रयास किया जाता है। यह प्रक्रिया तब तक दोहराई जाती है जब तक कि कोई मेल न मिल जाए या कांटेक्स्ट में कोई और प्रतीक नही रह जाती है। उस समय निश्चित पूर्वानुमान की जाती है।

पीपीएम मॉडल को अनुकूलित करने में अधिकांश कार्य उन इनपुट को संभालना है जो पहले से ही इनपुट स्ट्रीम में नहीं आए हैं। उन्हें संभालने का स्पष्ट विधि कभी न देखा गया प्रतीक बनाना है इस प्रकार जो भागने के क्रम को ट्रिगर करता है. किन्तु उस प्रतीक को क्या संभावना दी जानी चाहिए जो कभी देखा ही नहीं गया है? इसे शून्य-आवृत्ति समस्या कहा जाता है। संस्करण लाप्लास अनुमानक का उपयोग करता है, जो कभी न देखे गए प्रतीक को की निश्चित छद्म गणना प्रदान करता है। इस प्रकार पीपीएमडी नामक प्रकार प्रत्येक बार कभी न देखे गए प्रतीक का उपयोग करने पर कभी न देखे गए प्रतीक की छद्म संख्या को बढ़ा देता है। (दूसरे शब्दों में, पीपीएमडी अद्वितीय प्रतीकों की संख्या और देखे गए प्रतीकों की कुल संख्या के अनुपात के रूप में नए प्रतीक की संभावना का अनुमान लगाता है)।

कार्यान्वयन

पीपीएम संपीड़न कार्यान्वयन अन्य विवरणों में बहुत भिन्न होता है। इस प्रकार वास्तविक प्रतीक चयन सामान्यतः अंकगणितीय कोडिंग का उपयोग करके अंकित किया जाता है, चूँकि हफ़मैन एन्कोडिंग या यहां तक ​​कि कुछ प्रकार की शब्दकोश कोडर तकनीक का उपयोग करना भी संभव है। इस प्रकार अधिकांश पीपीएम एल्गोरिदम में उपयोग किए जाने वाले अंतर्निहित मॉडल को कई प्रतीकों की पूर्वानुमान करने के लिए भी बढ़ाया जा सकता है। इस प्रकार मार्कोव मॉडलिंग को बदलने या पूरक करने के लिए गैर-मार्कोव मॉडलिंग का उपयोग करना भी संभव है। प्रतीक का आकार सामान्यतः स्थिर होता है, सामान्यतः बाइट, जो किसी भी फ़ाइल प्रारूप के सामान्य प्रबंधन को सरल बनाता है।

एल्गोरिदम के इस वर्ग पर प्रकाशित शोध 1980 के दशक के मध्य में पाया जा सकता है। इस प्रकार 1990 के दशक की प्रारंभ तक सॉफ़्टवेयर कार्यान्वयन लोकप्रिय नहीं थे क्योंकि पीपीएम एल्गोरिदम को महत्वपूर्ण मात्रा में रैंडम एक्सेस मेमोरी की आवश्यकता होती है। वर्तमान के पीपीएम कार्यान्वयन प्राकृतिक भाषा टेक्स्ट के लिए सबसे अच्छा प्रदर्शन करने वाले दोषरहित संपीड़न कार्यक्रमों में से हैं।

पीपीएमडी दिमित्री शकारिन द्वारा पीपीएमआईआई का कार्यान्वयन है। इसका उपयोग डिफ़ॉल्ट रूप से आरएआर (फ़ाइल स्वरूप) में किया जाता है। इसका उपयोग 7-ज़िप द्वारा 7z फ़ाइल प्रारूप में कई संभावित संपीड़न विधियों में से के रूप में भी किया जाता है।

पीपीएम एल्गोरिदम को उत्तम बनाने के प्रयासों से डेटा संपीड़न एल्गोरिदम की पीएक्यू श्रृंखला का निर्माण हुआ था।

एक पीपीएम एल्गोरिथ्म, संपीड़न के लिए उपयोग किए जाने के अतिरिक्त, वैकल्पिक इनपुट विधि प्रोग्राम डैशर (सॉफ्टवेयर) में उपयोगकर्ता इनपुट की दक्षता बढ़ाने के लिए उपयोग किया जाता है।

यह भी देखें

स्रोत

कांटेक्स्ट

बाहरी संबंध