कैलगरी कॉर्पस: Difference between revisions

Revision as of 09:29, 13 December 2023

कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,^[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।

विषय-सूची

इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।

माप(बाइट्स)	फ़ाइल का नाम	विवरण
111,261	BIB	ASCII text in UNIX "refer" format – 725 बिब्लिओग्रफिक संदर्भ।
768,771	BOOK1	unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd.
610,856	BOOK2	ASCII text in UNIX "troff" format – Witten: Principles of Computer Speech.
102,400	GEO	32 bit numbers in IBM floating point format – seismic data.
377,109	NEWS	ASCII text – USENET batch file on a variety of topics.
21,504	OBJ1	VAX executable program – compilation of PROGP.
246,814	OBJ2	Macintosh executable program – "Knowledge Support System" of B.R. Gaines.
53,161	PAPER1	UNIX "troff" format – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
82,199	PAPER2	UNIX "troff" format – Witten: Computer (in)security.
513,216	PIC	1728 x 2376 bitmap image (MSB first): text in French and line diagrams.
39,611	PROGC	Source code in C – UNIX compress v4.0.
71,646	PROGL	Source code in Lisp – system software.
49,379	PROGP	Source code in Pascal – program to evaluate PPM compression.
93,695	TRANS	ASCII and control characters – transcript of a terminal session.

एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।^[2]

बेंचमार्क

कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः इस्तेमाल किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे भारित औसत कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क^[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।

कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, कम्प्रेशन बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।^[4] नीचे दी गई तालिका कुछ लोकप्रिय कम्प्रेशन कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।

Compressor	Options	As 14 separate files	As a tar file
Uncompressed		3,141,622	3,152,896
compress		1,272,772	1,319,521
Info-ZIP 2.32	-9	1,020,781	1,023,042
gzip 1.3.5	-9	1,017,624	1,022,810
bzip2 1.0.3	-9	828,347	860,097
7-zip 9.12b		848,687	824,573
bzip3 1.1.8		765,939	779,795
ppmd Jr1	-m256 -o16	740,737	754,243
ppmonstr J		675,485	669,497
ZPAQ v7.15	-method 5	659,709	659,853

कम्प्रेशन चुनौती

कैलगरी कॉर्पस कंप्रेशन और SHA-1 क्रैक चैलेंज^[5] कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।

प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को खिड़कियाँ ़ या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है।

पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.

Size (bytes)	Month/year	Author
759,881	09/1997	Malcolm Taylor
692,154	08/2001	Maxim Smirnov
680,558	09/2001	Maxim Smirnov
653,720	11/2002	Serge Voskoboynikov
645,667	01/2004	Matt Mahoney
637,116	04/2004	Alexander Ratushnyak
608,980	12/2004	Alexander Ratushnyak
603,416	04/2005	Przemysław Skibiński
596,314	10/2005	Alexander Ratushnyak
593,620	12/2005	Alexander Ratushnyak
589,863	05/2006	Alexander Ratushnyak
580,170	07/2010	Alexander Ratushnyak

यह भी देखें

फ़ाइल अभिलेखकर्ताओं की तुलना

संदर्भ

↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
↑ "यूसी लर्निंग सेंटर". 6 January 2023.
↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
↑ "The Compression/SHA-1 Challenge". mailcom.com.

बाहरी संबंध

[1] Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.

[2] "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.

[3] "यूसी लर्निंग सेंटर". 6 January 2023.

[4] "डेटा संपीड़न समझाया गया". mattmahoney.net.

[5] "The Compression/SHA-1 Challenge". mailcom.com.

[1]

[2]

[3]

[4]

[5]

@@ Line 1: / Line 1: @@
-कैलगरी कॉर्पस [[पाठ फ़ाइल]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग आमतौर पर डेटा संपीड़न एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका आमतौर पर उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित किया गया,<ref>{{cite book|author1=Ian H. Witten |author2=Alistair Moffat |author3=Timothy C. Bell |title=Managing Gigabytes: Compressing and Indexing Documents and Images|year=1999|publisher=Morgan Kaufmann|page=92|isbn=9781558605701 |url=https://books.google.com/books?id=2F74jyPl48EC&q=%22calgary+corpus%22+%22canterbury+corpus%22&pg=PA92}}</ref> कैलगरी कॉर्पस कितना प्रतिनिधिक था, इस बारे में चिंताओं के आधार पर,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> लेकिन कैलगरी कॉर्पस अभी भी तुलना के लिए मौजूद है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
+कैलगरी कॉर्पस [[पाठ फ़ाइल|टेक्स्ट]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
-== सामग्री ==
+== विषय-सूची ==
 इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
@@ Line 7: / Line 7: @@
 {| class="wikitable"
 |-
-! Size (bytes) !! File name !! Description
+! माप(बाइट्स) !! फ़ाइल का नाम !! विवरण
 |-
-|    111,261 || BIB    || ASCII text in UNIX "[[refer (software)|refer]]" format – 725 bibliographic references.
+|    111,261 || BIB    || ASCII text in UNIX "[[refer (software)|refer]]" format – 725 बिब्लिओग्रफिक संदर्भ।
 |-
 |    768,771 || BOOK1  || unformatted ASCII text – Thomas Hardy: Far from the Madding Crowd.
@@ Line 40: / Line 40: @@
 == बेंचमार्क ==
-कैलगरी कॉर्पस 1990 के दशक में डेटा संपीड़न के लिए आमतौर पर इस्तेमाल किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम आमतौर पर प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा संपीड़न अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
+कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः इस्तेमाल किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
-कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण संपीड़न से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, संपीड़न बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref>
+कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, कम्प्रेशन बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref>
-नीचे दी गई तालिका कुछ लोकप्रिय संपीड़न कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम संपीड़न का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
+नीचे दी गई तालिका कुछ लोकप्रिय कम्प्रेशन कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
 {| class="wikitable"
@@ Line 70: / Line 70: @@
 |}
-==संपीड़न चुनौती==
+==कम्प्रेशन चुनौती==
 कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।

Anonymous

Search

कैलगरी कॉर्पस: Difference between revisions

Namespaces

More

Page actions

Revision as of 09:29, 13 December 2023

Contents

विषय-सूची

बेंचमार्क

कम्प्रेशन चुनौती

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

कैलगरी कॉर्पस: Difference between revisions

Revision as of 09:29, 13 December 2023

विषय-सूची

बेंचमार्क

कम्प्रेशन चुनौती

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories