कैलगरी कॉर्पस
कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
विषय-सूची
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
माप(बाइट्स) | फ़ाइल का नाम | विवरण |
---|---|---|
111,261 | बीआईबी | एएससीआईआई टेक्स्ट in यूनिक्स "रेफेर" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ। |
768,771 | बुक1 | अनन्फोर्मेटेड एएससीआईआई टेक्स्ट – थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड. |
610,856 | बुक2 | एएससीआईआई टेक्स्ट in यूनिक्स "troff" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत. |
102,400 | जियो | आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ – सिस्मिक डाटा. |
377,109 | न्यूज़ | एएससीआईआई टेक्स्ट – विभिन्न विषयों पर यूज़नेट बैच फ़ाइल. |
21,504 | ओ.बी.जे1 | वैक्स निष्पादन योग्य प्रोग्राम – पीआरओजेपी का संकलन. |
246,814 | ओ.बी.जे2 | मैकिंटोश निष्पादन योग्य प्रोग्राम – बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस. |
53,161 | पेपर1 | यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग. |
82,199 | पेपर2 | यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा। |
513,216 | पीआईसी | 1728 x 2376 बिटमैप इमेज (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र। |
39,611 | पीआरओजीसी | सी में सोर्स कोड – यूनिक्स कंप्रेस v4.0. |
71,646 | प्रोजीएल | लिस्प में सोर्स कोड – सिस्टम सॉफ्ट्वेयर. |
49,379 | पीआरओजीपी | पास्कल में सोर्स कोड – पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम. |
93,695 | ट्रांस | एस्किसोई और नियंत्रण वर्ण – एक टर्मिनल सत्र की प्रतिलेख. |
अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]
बेंचमार्क
कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे वेटेड एवरेज कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4]
नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
कंप्रेसर | विकल्प | 14 अलग फ़ाइलों के रूप में | टार फ़ाइल के रूप में |
---|---|---|---|
अनकॉम्प्रेस्सेड | 3,141,622 | 3,152,896 | |
कंप्रेस | 1,272,772 | 1,319,521 | |
इन्फो-ज़िप 2.32 | -9 | 1,020,781 | 1,023,042 |
जीज़िप 1.3.5 | -9 | 1,017,624 | 1,022,810 |
बीज़िप2 1.0.3 | -9 | 828,347 | 860,097 |
7-ज़िप 9.12b | 848,687 | 824,573 | |
बीज़िप3 1.1.8 | 765,939 | 779,795 | |
पीपीएमडी Jr1 | -m256 -o16 | 740,737 | 754,243 |
पीपीमोंस्ट्र J | 675,485 | 669,497 | |
ज़ेडपीएक्यू v7.15 | -method 5 | 659,709 | 659,853 |
कम्प्रेशन आक्षेप
कैलगरी कॉर्पस कंप्रेशन और एसएचए-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है।
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.
माप(बाइट्स) | महीने/वर्ष | लेखक |
---|---|---|
759,881 | 09/1997 | मैल्कम टेलर |
692,154 | 08/2001 | मैक्सिम स्मिरनोव |
680,558 | 09/2001 | मैक्सिम स्मिरनोव |
653,720 | 11/2002 | सर्ज वोस्कोबॉयनिकोव |
645,667 | 01/2004 | मैट महोनी |
637,116 | 04/2004 | अलेक्जेंडर रतुश्न्याक |
608,980 | 12/2004 | अलेक्जेंडर रतुश्न्याक |
603,416 | 04/2005 | प्रेज़ेमिस्लाव स्किबिंस्की |
596,314 | 10/2005 | अलेक्जेंडर रतुश्न्याक |
593,620 | 12/2005 | अलेक्जेंडर रतुश्न्याक |
589,863 | 05/2006 | अलेक्जेंडर रतुश्न्याक |
580,170 | 07/2010 | अलेक्जेंडर रतुश्न्याक |
यह भी देखें
संदर्भ
- ↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
- ↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
- ↑ "यूसी लर्निंग सेंटर". 6 January 2023.
- ↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
- ↑ "The Compression/SHA-1 Challenge". mailcom.com.