कैलगरी कॉर्पस: Difference between revisions
No edit summary |
m (added Category:Vigyan Ready using HotCat) |
||
Line 126: | Line 126: | ||
[[Category: Machine Translated Page]] | [[Category: Machine Translated Page]] | ||
[[Category:Created On 07/12/2023]] | [[Category:Created On 07/12/2023]] | ||
[[Category:Vigyan Ready]] |
Revision as of 12:01, 18 December 2023
कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
विषय-सूची
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
माप(बाइट्स) | फ़ाइल का नाम | विवरण |
---|---|---|
111,261 | बीआईबी | एएससीआईआई टेक्स्ट in यूनिक्स "रेफेर" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ। |
768,771 | बुक1 | अनन्फोर्मेटेड एएससीआईआई टेक्स्ट – थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड. |
610,856 | बुक2 | एएससीआईआई टेक्स्ट in यूनिक्स "troff" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत. |
102,400 | जियो | आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ – सिस्मिक डाटा. |
377,109 | न्यूज़ | एएससीआईआई टेक्स्ट – विभिन्न विषयों पर यूज़नेट बैच फ़ाइल. |
21,504 | ओ.बी.जे1 | वैक्स निष्पादन योग्य प्रोग्राम – पीआरओजेपी का संकलन. |
246,814 | ओ.बी.जे2 | मैकिंटोश निष्पादन योग्य प्रोग्राम – बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस. |
53,161 | पेपर1 | यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग. |
82,199 | पेपर2 | यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा। |
513,216 | पीआईसी | 1728 x 2376 बिटमैप इमेज (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र। |
39,611 | पीआरओजीसी | सी में सोर्स कोड – यूनिक्स कंप्रेस v4.0. |
71,646 | प्रोजीएल | लिस्प में सोर्स कोड – सिस्टम सॉफ्ट्वेयर. |
49,379 | पीआरओजीपी | पास्कल में सोर्स कोड – पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम. |
93,695 | ट्रांस | एस्किसोई और नियंत्रण वर्ण – एक टर्मिनल सत्र की प्रतिलेख. |
अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]
बेंचमार्क
कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे वेटेड एवरेज कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4]
नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
कंप्रेसर | विकल्प | 14 अलग फ़ाइलों के रूप में | टार फ़ाइल के रूप में |
---|---|---|---|
अनकॉम्प्रेस्सेड | 3,141,622 | 3,152,896 | |
कंप्रेस | 1,272,772 | 1,319,521 | |
इन्फो-ज़िप 2.32 | -9 | 1,020,781 | 1,023,042 |
जीज़िप 1.3.5 | -9 | 1,017,624 | 1,022,810 |
बीज़िप2 1.0.3 | -9 | 828,347 | 860,097 |
7-ज़िप 9.12b | 848,687 | 824,573 | |
बीज़िप3 1.1.8 | 765,939 | 779,795 | |
पीपीएमडी Jr1 | -m256 -o16 | 740,737 | 754,243 |
पीपीमोंस्ट्र J | 675,485 | 669,497 | |
ज़ेडपीएक्यू v7.15 | -method 5 | 659,709 | 659,853 |
कम्प्रेशन आक्षेप
कैलगरी कॉर्पस कंप्रेशन और एसएचए-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा प्रारंभ की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है।
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.
माप(बाइट्स) | महीने/वर्ष | लेखक |
---|---|---|
759,881 | 09/1997 | मैल्कम टेलर |
692,154 | 08/2001 | मैक्सिम स्मिरनोव |
680,558 | 09/2001 | मैक्सिम स्मिरनोव |
653,720 | 11/2002 | सर्ज वोस्कोबॉयनिकोव |
645,667 | 01/2004 | मैट महोनी |
637,116 | 04/2004 | अलेक्जेंडर रतुश्न्याक |
608,980 | 12/2004 | अलेक्जेंडर रतुश्न्याक |
603,416 | 04/2005 | प्रेज़ेमिस्लाव स्किबिंस्की |
596,314 | 10/2005 | अलेक्जेंडर रतुश्न्याक |
593,620 | 12/2005 | अलेक्जेंडर रतुश्न्याक |
589,863 | 05/2006 | अलेक्जेंडर रतुश्न्याक |
580,170 | 07/2010 | अलेक्जेंडर रतुश्न्याक |
यह भी देखें
संदर्भ
- ↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
- ↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
- ↑ "यूसी लर्निंग सेंटर". 6 January 2023.
- ↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
- ↑ "The Compression/SHA-1 Challenge". mailcom.com.