कैलगरी कॉर्पस: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
कैलगरी कॉर्पस [[पाठ फ़ाइल]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग आमतौर पर डेटा संपीड़न एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका आमतौर पर उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित किया गया,<ref>{{cite book|author1=Ian H. Witten |author2=Alistair Moffat |author3=Timothy C. Bell |title=Managing Gigabytes: Compressing and Indexing Documents and Images|year=1999|publisher=Morgan Kaufmann|page=92|isbn=9781558605701 |url=https://books.google.com/books?id=2F74jyPl48EC&q=%22calgary+corpus%22+%22canterbury+corpus%22&pg=PA92}}</ref> कैलगरी कॉर्पस कितना प्रतिनिधिक था, इस बारे में चिंताओं के आधार पर,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> लेकिन कैलगरी कॉर्पस अभी भी तुलना के लिए मौजूद है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
कैलगरी कॉर्पस [[पाठ फ़ाइल|टेक्स्ट]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।


== सामग्री ==
== विषय-सूची ==


इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
Line 7: Line 7:
{| class="wikitable"
{| class="wikitable"
|-
|-
! Size (bytes) !! File name !! Description
! माप(बाइट्स) !! फ़ाइल का नाम !! विवरण
|-
|-
|    111,261 || BIB    || ASCII text in UNIX "[[refer (software)|refer]]" format – 725 bibliographic references.
|    111,261 || BIB    || ASCII text in UNIX "[[refer (software)|refer]]" format – 725 बिब्लिओग्रफिक संदर्भ।
|-
|-
|    768,771 || BOOK1  || unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd.
|    768,771 || BOOK1  || unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd.
Line 40: Line 40:
== बेंचमार्क ==
== बेंचमार्क ==


कैलगरी कॉर्पस 1990 के दशक में डेटा संपीड़न के लिए आमतौर पर इस्तेमाल किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम आमतौर पर प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा संपीड़न अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः इस्तेमाल किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।


कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण संपीड़न से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, संपीड़न बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref>
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, कम्प्रेशन बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref>
नीचे दी गई तालिका कुछ लोकप्रिय संपीड़न कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम संपीड़न का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
नीचे दी गई तालिका कुछ लोकप्रिय कम्प्रेशन कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।


{| class="wikitable"
{| class="wikitable"
Line 70: Line 70:
|}
|}


==संपीड़न चुनौती==
==कम्प्रेशन चुनौती==


कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।

Revision as of 09:29, 13 December 2023

कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।

विषय-सूची

इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।

माप(बाइट्स) फ़ाइल का नाम विवरण
111,261 BIB ASCII text in UNIX "refer" format – 725 बिब्लिओग्रफिक संदर्भ।
768,771 BOOK1 unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd.
610,856 BOOK2 ASCII text in UNIX "troff" format – Witten: Principles of Computer Speech.
102,400 GEO 32 bit numbers in IBM floating point format – seismic data.
377,109 NEWS ASCII text – USENET batch file on a variety of topics.
21,504 OBJ1 VAX executable program – compilation of PROGP.
246,814 OBJ2 Macintosh executable program – "Knowledge Support System" of B.R. Gaines.
53,161 PAPER1 UNIX "troff" format – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
82,199 PAPER2 UNIX "troff" format – Witten: Computer (in)security.
513,216 PIC 1728 x 2376 bitmap image (MSB first): text in French and line diagrams.
39,611 PROGC Source code in C – UNIX compress v4.0.
71,646 PROGL Source code in Lisp – system software.
49,379 PROGP Source code in Pascal – program to evaluate PPM compression.
93,695 TRANS ASCII and control characters – transcript of a terminal session.

एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]

बेंचमार्क

कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः इस्तेमाल किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे भारित औसत कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।

कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, कम्प्रेशन बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4] नीचे दी गई तालिका कुछ लोकप्रिय कम्प्रेशन कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।

Compressor Options As 14 separate files As a tar file
Uncompressed 3,141,622 3,152,896
compress 1,272,772 1,319,521
Info-ZIP 2.32 -9 1,020,781 1,023,042
gzip 1.3.5 -9 1,017,624 1,022,810
bzip2 1.0.3 -9 828,347 860,097
7-zip 9.12b 848,687 824,573
bzip3 1.1.8 765,939 779,795
ppmd Jr1 -m256 -o16 740,737 754,243
ppmonstr J 675,485 669,497
ZPAQ v7.15 -method 5 659,709 659,853

कम्प्रेशन चुनौती

कैलगरी कॉर्पस कंप्रेशन और SHA-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।

प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को खिड़कियाँ ़ या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है।

पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.

Size (bytes) Month/year Author
759,881 09/1997 Malcolm Taylor
692,154 08/2001 Maxim Smirnov
680,558 09/2001 Maxim Smirnov
653,720 11/2002 Serge Voskoboynikov
645,667 01/2004 Matt Mahoney
637,116 04/2004 Alexander Ratushnyak
608,980 12/2004 Alexander Ratushnyak
603,416 04/2005 Przemysław Skibiński
596,314 10/2005 Alexander Ratushnyak
593,620 12/2005 Alexander Ratushnyak
589,863 05/2006 Alexander Ratushnyak
580,170 07/2010 Alexander Ratushnyak

यह भी देखें

संदर्भ

  1. Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
  2. "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
  3. "यूसी लर्निंग सेंटर". 6 January 2023.
  4. "डेटा संपीड़न समझाया गया". mattmahoney.net.
  5. "The Compression/SHA-1 Challenge". mailcom.com.

बाहरी संबंध