कैलगरी कॉर्पस: Difference between revisions
(Created page with "{{more citations needed|date=November 2012}} कैलगरी कॉर्पस पाठ फ़ाइल और बाइनरी डेटा फ़ाइलो...") |
No edit summary |
||
Line 1: | Line 1: | ||
कैलगरी कॉर्पस [[पाठ फ़ाइल]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग आमतौर पर डेटा संपीड़न एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका आमतौर पर उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित किया गया,<ref>{{cite book|author1=Ian H. Witten |author2=Alistair Moffat |author3=Timothy C. Bell |title=Managing Gigabytes: Compressing and Indexing Documents and Images|year=1999|publisher=Morgan Kaufmann|page=92|isbn=9781558605701 |url=https://books.google.com/books?id=2F74jyPl48EC&q=%22calgary+corpus%22+%22canterbury+corpus%22&pg=PA92}}</ref> कैलगरी कॉर्पस कितना प्रतिनिधिक था, इस बारे में चिंताओं के आधार पर,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> लेकिन कैलगरी कॉर्पस अभी भी तुलना के लिए मौजूद है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है। | कैलगरी कॉर्पस [[पाठ फ़ाइल]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग आमतौर पर डेटा संपीड़न एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका आमतौर पर उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित किया गया,<ref>{{cite book|author1=Ian H. Witten |author2=Alistair Moffat |author3=Timothy C. Bell |title=Managing Gigabytes: Compressing and Indexing Documents and Images|year=1999|publisher=Morgan Kaufmann|page=92|isbn=9781558605701 |url=https://books.google.com/books?id=2F74jyPl48EC&q=%22calgary+corpus%22+%22canterbury+corpus%22&pg=PA92}}</ref> कैलगरी कॉर्पस कितना प्रतिनिधिक था, इस बारे में चिंताओं के आधार पर,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> लेकिन कैलगरी कॉर्पस अभी भी तुलना के लिए मौजूद है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है। | ||
Line 39: | Line 38: | ||
|} | |} | ||
एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।<ref>{{cite web |title=कैंटरबरी कॉर्पस|url=https://corpus.canterbury.ac.nz/descriptions/#calgary |website=corpus.canterbury.ac.nz}}</ref> | एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।<ref>{{cite web |title=कैंटरबरी कॉर्पस|url=https://corpus.canterbury.ac.nz/descriptions/#calgary |website=corpus.canterbury.ac.nz}}</ref> | ||
== बेंचमार्क == | == बेंचमार्क == | ||
Line 72: | Line 69: | ||
| [[ZPAQ]] v7.15 || -method 5 || 659,709 || 659,853 | | [[ZPAQ]] v7.15 || -method 5 || 659,709 || 659,853 | ||
|} | |} | ||
==संपीड़न चुनौती== | ==संपीड़न चुनौती== | ||
Line 78: | Line 74: | ||
कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है। | कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है। | ||
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को [[ खिड़कियाँ ]]़ या [[लिनक्स]] के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है। | प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को [[ खिड़कियाँ |खिड़कियाँ]] ़ या [[लिनक्स]] के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है। | ||
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को [[अलेक्जेंडर रतुश्न्याक]] द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है. | पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को [[अलेक्जेंडर रतुश्न्याक]] द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है. | ||
Line 110: | Line 106: | ||
| 580,170 || 07/2010 || Alexander Ratushnyak | | 580,170 || 07/2010 || Alexander Ratushnyak | ||
|} | |} | ||
== यह भी देखें == | == यह भी देखें == | ||
Line 117: | Line 112: | ||
==संदर्भ== | ==संदर्भ== | ||
{{reflist}} | {{reflist}} | ||
== बाहरी संबंध == | == बाहरी संबंध == | ||
Line 125: | Line 119: | ||
* [https://web.archive.org/web/20090704082714/http://www.data-compression.info/Corpora/CalgaryCorpus/index.htm Information on the Calgary Corpus] | * [https://web.archive.org/web/20090704082714/http://www.data-compression.info/Corpora/CalgaryCorpus/index.htm Information on the Calgary Corpus] | ||
* [http://mailcom.com/challenge/ The Calgary corpus Compression and SHA-1 crack Challenge] | * [http://mailcom.com/challenge/ The Calgary corpus Compression and SHA-1 crack Challenge] | ||
[[Category: आधार - सामग्री संकोचन]] [[Category: परीक्षण चीज़ें]] | [[Category: आधार - सामग्री संकोचन]] [[Category: परीक्षण चीज़ें]] | ||
Revision as of 09:05, 13 December 2023
कैलगरी कॉर्पस पाठ फ़ाइल और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग आमतौर पर डेटा संपीड़न एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका आमतौर पर उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित किया गया,[1] कैलगरी कॉर्पस कितना प्रतिनिधिक था, इस बारे में चिंताओं के आधार पर,[2] लेकिन कैलगरी कॉर्पस अभी भी तुलना के लिए मौजूद है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
सामग्री
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
Size (bytes) | File name | Description |
---|---|---|
111,261 | BIB | ASCII text in UNIX "refer" format – 725 bibliographic references. |
768,771 | BOOK1 | unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd. |
610,856 | BOOK2 | ASCII text in UNIX "troff" format – Witten: Principles of Computer Speech. |
102,400 | GEO | 32 bit numbers in IBM floating point format – seismic data. |
377,109 | NEWS | ASCII text – USENET batch file on a variety of topics. |
21,504 | OBJ1 | VAX executable program – compilation of PROGP. |
246,814 | OBJ2 | Macintosh executable program – "Knowledge Support System" of B.R. Gaines. |
53,161 | PAPER1 | UNIX "troff" format – Witten, Neal, Cleary: Arithmetic Coding for Data Compression. |
82,199 | PAPER2 | UNIX "troff" format – Witten: Computer (in)security. |
513,216 | PIC | 1728 x 2376 bitmap image (MSB first): text in French and line diagrams. |
39,611 | PROGC | Source code in C – UNIX compress v4.0. |
71,646 | PROGL | Source code in Lisp – system software. |
49,379 | PROGP | Source code in Pascal – program to evaluate PPM compression. |
93,695 | TRANS | ASCII and control characters – transcript of a terminal session. |
एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[3]
बेंचमार्क
कैलगरी कॉर्पस 1990 के दशक में डेटा संपीड़न के लिए आमतौर पर इस्तेमाल किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम आमतौर पर प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे भारित औसत कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा संपीड़न अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क[4] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण संपीड़न से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, संपीड़न बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[5] नीचे दी गई तालिका कुछ लोकप्रिय संपीड़न कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम संपीड़न का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
Compressor | Options | As 14 separate files | As a tar file |
---|---|---|---|
Uncompressed | 3,141,622 | 3,152,896 | |
compress | 1,272,772 | 1,319,521 | |
Info-ZIP 2.32 | -9 | 1,020,781 | 1,023,042 |
gzip 1.3.5 | -9 | 1,017,624 | 1,022,810 |
bzip2 1.0.3 | -9 | 828,347 | 860,097 |
7-zip 9.12b | 848,687 | 824,573 | |
bzip3 1.1.8 | 765,939 | 779,795 | |
ppmd Jr1 | -m256 -o16 | 740,737 | 754,243 |
ppmonstr J | 675,485 | 669,497 | |
ZPAQ v7.15 | -method 5 | 659,709 | 659,853 |
संपीड़न चुनौती
कैलगरी कॉर्पस कंप्रेशन और SHA-1 क्रैक चैलेंज[6] कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को खिड़कियाँ ़ या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है।
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.
Size (bytes) | Month/year | Author |
---|---|---|
759,881 | 09/1997 | Malcolm Taylor |
692,154 | 08/2001 | Maxim Smirnov |
680,558 | 09/2001 | Maxim Smirnov |
653,720 | 11/2002 | Serge Voskoboynikov |
645,667 | 01/2004 | Matt Mahoney |
637,116 | 04/2004 | Alexander Ratushnyak |
608,980 | 12/2004 | Alexander Ratushnyak |
603,416 | 04/2005 | Przemysław Skibiński |
596,314 | 10/2005 | Alexander Ratushnyak |
593,620 | 12/2005 | Alexander Ratushnyak |
589,863 | 05/2006 | Alexander Ratushnyak |
580,170 | 07/2010 | Alexander Ratushnyak |
यह भी देखें
संदर्भ
- ↑ Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999). Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann. p. 92. ISBN 9781558605701.
- ↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
- ↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
- ↑ "यूसी लर्निंग सेंटर". 6 January 2023.
- ↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
- ↑ "The Compression/SHA-1 Challenge". mailcom.com.