कैलगरी कॉर्पस

कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,^[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।

विषय-सूची

इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।

माप(बाइट्स)	फ़ाइल का नाम	विवरण
111,261	BIB	ASCII text in UNIX "refer" format – 725 बिब्लिओग्रफिक संदर्भ।
768,771	BOOK1	unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd.
610,856	BOOK2	ASCII text in UNIX "troff" format – Witten: Principles of Computer Speech.
102,400	GEO	32 bit numbers in IBM floating point format – seismic data.
377,109	NEWS	ASCII text – USENET batch file on a variety of topics.
21,504	OBJ1	VAX executable program – compilation of PROGP.
246,814	OBJ2	Macintosh executable program – "Knowledge Support System" of B.R. Gaines.
53,161	PAPER1	UNIX "troff" format – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
82,199	PAPER2	UNIX "troff" format – Witten: Computer (in)security.
513,216	PIC	1728 x 2376 bitmap image (MSB first): text in French and line diagrams.
39,611	PROGC	Source code in C – UNIX compress v4.0.
71,646	PROGL	Source code in Lisp – system software.
49,379	PROGP	Source code in Pascal – program to evaluate PPM compression.
93,695	TRANS	ASCII and control characters – transcript of a terminal session.

एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।^[2]

बेंचमार्क

कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः इस्तेमाल किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे भारित औसत कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क^[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।

कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, कम्प्रेशन बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।^[4] नीचे दी गई तालिका कुछ लोकप्रिय कम्प्रेशन कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।

Compressor	Options	As 14 separate files	As a tar file
Uncompressed		3,141,622	3,152,896
compress		1,272,772	1,319,521
Info-ZIP 2.32	-9	1,020,781	1,023,042
gzip 1.3.5	-9	1,017,624	1,022,810
bzip2 1.0.3	-9	828,347	860,097
7-zip 9.12b		848,687	824,573
bzip3 1.1.8		765,939	779,795
ppmd Jr1	-m256 -o16	740,737	754,243
ppmonstr J		675,485	669,497
ZPAQ v7.15	-method 5	659,709	659,853

कम्प्रेशन चुनौती

कैलगरी कॉर्पस कंप्रेशन और SHA-1 क्रैक चैलेंज^[5] कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।

प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को खिड़कियाँ ़ या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है।

पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.

Size (bytes)	Month/year	Author
759,881	09/1997	Malcolm Taylor
692,154	08/2001	Maxim Smirnov
680,558	09/2001	Maxim Smirnov
653,720	11/2002	Serge Voskoboynikov
645,667	01/2004	Matt Mahoney
637,116	04/2004	Alexander Ratushnyak
608,980	12/2004	Alexander Ratushnyak
603,416	04/2005	Przemysław Skibiński
596,314	10/2005	Alexander Ratushnyak
593,620	12/2005	Alexander Ratushnyak
589,863	05/2006	Alexander Ratushnyak
580,170	07/2010	Alexander Ratushnyak

यह भी देखें

फ़ाइल अभिलेखकर्ताओं की तुलना

संदर्भ

↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
↑ "यूसी लर्निंग सेंटर". 6 January 2023.
↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
↑ "The Compression/SHA-1 Challenge". mailcom.com.

बाहरी संबंध

[1] Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.

[2] "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.

[3] "यूसी लर्निंग सेंटर". 6 January 2023.

[4] "डेटा संपीड़न समझाया गया". mattmahoney.net.

[5] "The Compression/SHA-1 Challenge". mailcom.com.

[1]

[2]

[3]

[4]

[5]

Anonymous

Search

कैलगरी कॉर्पस

Namespaces

More

Page actions

Contents

विषय-सूची

बेंचमार्क

कम्प्रेशन चुनौती

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

कैलगरी कॉर्पस

विषय-सूची

बेंचमार्क

कम्प्रेशन चुनौती

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories