कैलगरी कॉर्पस: Difference between revisions
m (added Category:Vigyan Ready using HotCat) |
m (8 revisions imported from alpha:कैलगरी_कॉर्पस) |
(No difference)
|
Latest revision as of 21:59, 18 December 2023
कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
विषय-सूची
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
माप(बाइट्स) | फ़ाइल का नाम | विवरण |
---|---|---|
111,261 | बीआईबी | एएससीआईआई टेक्स्ट in यूनिक्स "रेफेर" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ। |
768,771 | बुक1 | अनन्फोर्मेटेड एएससीआईआई टेक्स्ट – थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड. |
610,856 | बुक2 | एएससीआईआई टेक्स्ट in यूनिक्स "troff" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत. |
102,400 | जियो | आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ – सिस्मिक डाटा. |
377,109 | न्यूज़ | एएससीआईआई टेक्स्ट – विभिन्न विषयों पर यूज़नेट बैच फ़ाइल. |
21,504 | ओ.बी.जे1 | वैक्स निष्पादन योग्य प्रोग्राम – पीआरओजेपी का संकलन. |
246,814 | ओ.बी.जे2 | मैकिंटोश निष्पादन योग्य प्रोग्राम – बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस. |
53,161 | पेपर1 | यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग. |
82,199 | पेपर2 | यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा। |
513,216 | पीआईसी | 1728 x 2376 बिटमैप इमेज (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र। |
39,611 | पीआरओजीसी | सी में सोर्स कोड – यूनिक्स कंप्रेस v4.0. |
71,646 | प्रोजीएल | लिस्प में सोर्स कोड – सिस्टम सॉफ्ट्वेयर. |
49,379 | पीआरओजीपी | पास्कल में सोर्स कोड – पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम. |
93,695 | ट्रांस | एस्किसोई और नियंत्रण वर्ण – एक टर्मिनल सत्र की प्रतिलेख. |
अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]
बेंचमार्क
कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे वेटेड एवरेज कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4]
नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
कंप्रेसर | विकल्प | 14 अलग फ़ाइलों के रूप में | टार फ़ाइल के रूप में |
---|---|---|---|
अनकॉम्प्रेस्सेड | 3,141,622 | 3,152,896 | |
कंप्रेस | 1,272,772 | 1,319,521 | |
इन्फो-ज़िप 2.32 | -9 | 1,020,781 | 1,023,042 |
जीज़िप 1.3.5 | -9 | 1,017,624 | 1,022,810 |
बीज़िप2 1.0.3 | -9 | 828,347 | 860,097 |
7-ज़िप 9.12b | 848,687 | 824,573 | |
बीज़िप3 1.1.8 | 765,939 | 779,795 | |
पीपीएमडी Jr1 | -m256 -o16 | 740,737 | 754,243 |
पीपीमोंस्ट्र J | 675,485 | 669,497 | |
ज़ेडपीएक्यू v7.15 | -method 5 | 659,709 | 659,853 |
कम्प्रेशन आक्षेप
कैलगरी कॉर्पस कंप्रेशन और एसएचए-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा प्रारंभ की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है।
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.
माप(बाइट्स) | महीने/वर्ष | लेखक |
---|---|---|
759,881 | 09/1997 | मैल्कम टेलर |
692,154 | 08/2001 | मैक्सिम स्मिरनोव |
680,558 | 09/2001 | मैक्सिम स्मिरनोव |
653,720 | 11/2002 | सर्ज वोस्कोबॉयनिकोव |
645,667 | 01/2004 | मैट महोनी |
637,116 | 04/2004 | अलेक्जेंडर रतुश्न्याक |
608,980 | 12/2004 | अलेक्जेंडर रतुश्न्याक |
603,416 | 04/2005 | प्रेज़ेमिस्लाव स्किबिंस्की |
596,314 | 10/2005 | अलेक्जेंडर रतुश्न्याक |
593,620 | 12/2005 | अलेक्जेंडर रतुश्न्याक |
589,863 | 05/2006 | अलेक्जेंडर रतुश्न्याक |
580,170 | 07/2010 | अलेक्जेंडर रतुश्न्याक |
यह भी देखें
संदर्भ
- ↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
- ↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
- ↑ "यूसी लर्निंग सेंटर". 6 January 2023.
- ↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
- ↑ "The Compression/SHA-1 Challenge". mailcom.com.