कैलगरी कॉर्पस: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
कैलगरी कॉर्पस [[पाठ फ़ाइल]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग | कैलगरी कॉर्पस [[पाठ फ़ाइल|टेक्स्ट]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है। | ||
== | == विषय-सूची == | ||
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स। | इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स। | ||
Line 7: | Line 7: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! | ! माप(बाइट्स) !! फ़ाइल का नाम !! विवरण | ||
|- | |- | ||
| 111,261 || BIB || ASCII text in UNIX "[[refer (software)|refer]]" format – 725 | | 111,261 || BIB || ASCII text in UNIX "[[refer (software)|refer]]" format – 725 बिब्लिओग्रफिक संदर्भ। | ||
|- | |- | ||
| 768,771 || BOOK1 || unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd. | | 768,771 || BOOK1 || unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd. | ||
Line 40: | Line 40: | ||
== बेंचमार्क == | == बेंचमार्क == | ||
कैलगरी कॉर्पस 1990 के दशक में डेटा | कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः इस्तेमाल किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है। | ||
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण | कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, कम्प्रेशन बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref> | ||
नीचे दी गई तालिका कुछ लोकप्रिय | नीचे दी गई तालिका कुछ लोकप्रिय कम्प्रेशन कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें। | ||
{| class="wikitable" | {| class="wikitable" | ||
Line 70: | Line 70: | ||
|} | |} | ||
== | ==कम्प्रेशन चुनौती== | ||
कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है। | कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है। |
Revision as of 09:29, 13 December 2023
कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
विषय-सूची
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
माप(बाइट्स) | फ़ाइल का नाम | विवरण |
---|---|---|
111,261 | BIB | ASCII text in UNIX "refer" format – 725 बिब्लिओग्रफिक संदर्भ। |
768,771 | BOOK1 | unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd. |
610,856 | BOOK2 | ASCII text in UNIX "troff" format – Witten: Principles of Computer Speech. |
102,400 | GEO | 32 bit numbers in IBM floating point format – seismic data. |
377,109 | NEWS | ASCII text – USENET batch file on a variety of topics. |
21,504 | OBJ1 | VAX executable program – compilation of PROGP. |
246,814 | OBJ2 | Macintosh executable program – "Knowledge Support System" of B.R. Gaines. |
53,161 | PAPER1 | UNIX "troff" format – Witten, Neal, Cleary: Arithmetic Coding for Data Compression. |
82,199 | PAPER2 | UNIX "troff" format – Witten: Computer (in)security. |
513,216 | PIC | 1728 x 2376 bitmap image (MSB first): text in French and line diagrams. |
39,611 | PROGC | Source code in C – UNIX compress v4.0. |
71,646 | PROGL | Source code in Lisp – system software. |
49,379 | PROGP | Source code in Pascal – program to evaluate PPM compression. |
93,695 | TRANS | ASCII and control characters – transcript of a terminal session. |
एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]
बेंचमार्क
कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः इस्तेमाल किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे भारित औसत कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, कम्प्रेशन बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4] नीचे दी गई तालिका कुछ लोकप्रिय कम्प्रेशन कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
Compressor | Options | As 14 separate files | As a tar file |
---|---|---|---|
Uncompressed | 3,141,622 | 3,152,896 | |
compress | 1,272,772 | 1,319,521 | |
Info-ZIP 2.32 | -9 | 1,020,781 | 1,023,042 |
gzip 1.3.5 | -9 | 1,017,624 | 1,022,810 |
bzip2 1.0.3 | -9 | 828,347 | 860,097 |
7-zip 9.12b | 848,687 | 824,573 | |
bzip3 1.1.8 | 765,939 | 779,795 | |
ppmd Jr1 | -m256 -o16 | 740,737 | 754,243 |
ppmonstr J | 675,485 | 669,497 | |
ZPAQ v7.15 | -method 5 | 659,709 | 659,853 |
कम्प्रेशन चुनौती
कैलगरी कॉर्पस कंप्रेशन और SHA-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को खिड़कियाँ ़ या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है।
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.
Size (bytes) | Month/year | Author |
---|---|---|
759,881 | 09/1997 | Malcolm Taylor |
692,154 | 08/2001 | Maxim Smirnov |
680,558 | 09/2001 | Maxim Smirnov |
653,720 | 11/2002 | Serge Voskoboynikov |
645,667 | 01/2004 | Matt Mahoney |
637,116 | 04/2004 | Alexander Ratushnyak |
608,980 | 12/2004 | Alexander Ratushnyak |
603,416 | 04/2005 | Przemysław Skibiński |
596,314 | 10/2005 | Alexander Ratushnyak |
593,620 | 12/2005 | Alexander Ratushnyak |
589,863 | 05/2006 | Alexander Ratushnyak |
580,170 | 07/2010 | Alexander Ratushnyak |
यह भी देखें
संदर्भ
- ↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
- ↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
- ↑ "यूसी लर्निंग सेंटर". 6 January 2023.
- ↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
- ↑ "The Compression/SHA-1 Challenge". mailcom.com.