कैलगरी कॉर्पस: Difference between revisions
No edit summary |
m (8 revisions imported from alpha:कैलगरी_कॉर्पस) |
||
(6 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
कैलगरी कॉर्पस [[पाठ फ़ाइल]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग | '''कैलगरी कॉर्पस''' [[पाठ फ़ाइल|टेक्स्ट]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है। | ||
== | == विषय-सूची == | ||
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स। | इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स। | ||
Line 7: | Line 7: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! | ! माप(बाइट्स) !! फ़ाइल का नाम !! विवरण | ||
|- | |- | ||
| 111,261 || | | 111,261 || बीआईबी || एएससीआईआई टेक्स्ट in यूनिक्स "[[refer (software)|रेफेर]]" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ। | ||
|- | |- | ||
| 768,771 || | | 768,771 || बुक1 || अनन्फोर्मेटेड एएससीआईआई टेक्स्ट – थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड. | ||
|- | |- | ||
| 610,856 || | | 610,856 || बुक2 || एएससीआईआई टेक्स्ट in यूनिक्स "[[troff]]" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत. | ||
|- | |- | ||
| 102,400 || | | 102,400 || जियो || आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ – सिस्मिक डाटा. | ||
|- | |- | ||
| 377,109 || | | 377,109 || न्यूज़ || एएससीआईआई टेक्स्ट – विभिन्न विषयों पर [[USENET|यूज़नेट]] बैच फ़ाइल. | ||
|- | |- | ||
| 21,504 || | | 21,504 || ओ.बी.जे1 || वैक्स निष्पादन योग्य प्रोग्राम – पीआरओजेपी का संकलन. | ||
|- | |- | ||
| 246,814 || | | 246,814 || ओ.बी.जे2 || मैकिंटोश निष्पादन योग्य प्रोग्राम – बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस. | ||
|- | |- | ||
| 53,161 || | | 53,161 || पेपर1 || यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग. | ||
|- | |- | ||
| 82,199 || | | 82,199 || पेपर2 || यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा। | ||
|- | |- | ||
| 513,216 || | | 513,216 || पीआईसी || 1728 x 2376 [[bitmap image|बिटमैप इमेज]] (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र। | ||
|- | |- | ||
| 39,611 || | | 39,611 || पीआरओजीसी || सी में सोर्स कोड – यूनिक्स [[compress|कंप्रेस]] v4.0. | ||
|- | |- | ||
| 71,646 || | | 71,646 || प्रोजीएल || लिस्प में सोर्स कोड – सिस्टम सॉफ्ट्वेयर. | ||
|- | |- | ||
| 49,379 || | | 49,379 || पीआरओजीपी || पास्कल में सोर्स कोड – पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम. | ||
|- | |- | ||
| 93,695 || | | 93,695 || ट्रांस || एस्किसोई और नियंत्रण वर्ण – एक टर्मिनल सत्र की प्रतिलेख. | ||
|} | |} | ||
अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।<ref>{{cite web |title=कैंटरबरी कॉर्पस|url=https://corpus.canterbury.ac.nz/descriptions/#calgary |website=corpus.canterbury.ac.nz}}</ref> | |||
== बेंचमार्क == | == बेंचमार्क == | ||
कैलगरी कॉर्पस 1990 के दशक में डेटा | कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत|वेटेड एवरेज]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है। | ||
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण | कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref> | ||
नीचे दी गई | |||
नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें। | |||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! | ! कंप्रेसर !! विकल्प !! 14 अलग फ़ाइलों के रूप में !! टार फ़ाइल के रूप में | ||
|- | |- | ||
| | | अनकॉम्प्रेस्सेड || || 3,141,622 || 3,152,896 | ||
|- | |- | ||
| [[compress]] || || 1,272,772 || 1,319,521 | | [[compress|कंप्रेस]]|| || 1,272,772 || 1,319,521 | ||
|- | |- | ||
| [[Info-ZIP]] 2.32 || -9 || 1,020,781 || 1,023,042 | | [[Info-ZIP|इन्फो-ज़िप]] 2.32 || -9 || 1,020,781 || 1,023,042 | ||
|- | |- | ||
| [[gzip]] 1.3.5 || -9 | | [[gzip|जीज़िप]] 1.3.5 || -9 || 1,017,624 || 1,022,810 | ||
|- | |- | ||
| [[bzip2]] 1.0.3 || -9 | | [[bzip2|बीज़िप2]] 1.0.3 || -9 || 828,347 || 860,097 | ||
|- | |- | ||
| [[7-zip]] 9.12b || || 848,687 || 824,573 | | [[7-zip|7-ज़िप]] 9.12b || || 848,687 || 824,573 | ||
|- | |- | ||
| | | बीज़िप3 1.1.8 || || 765,939 || 779,795 | ||
|- | |- | ||
| [http://compression.ru/ds/ | | [http://compression.ru/ds/ पीपीएमडी] Jr1 || -m256 -o16 || 740,737 || 754,243 | ||
|- | |- | ||
| [http://compression.ru/ds/ | | [http://compression.ru/ds/ पीपीमोंस्ट्र] J || || 675,485 || 669,497 | ||
|- | |- | ||
| [[ZPAQ]] v7.15 || -method 5 || 659,709 || 659,853 | | [[ZPAQ|ज़ेडपीएक्यू]] v7.15 || -method 5 || 659,709 || 659,853 | ||
|} | |} | ||
== | ==कम्प्रेशन आक्षेप== | ||
कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल | कैलगरी कॉर्पस कंप्रेशन और [[SHA-1|एसएचए-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा प्रारंभ की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है। | ||
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में | प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या [[लिनक्स]] के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है। | ||
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। | पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को [[अलेक्जेंडर रतुश्न्याक]] द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है. | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! | ! माप(बाइट्स) !! महीने/वर्ष !! लेखक | ||
|- | |- | ||
| 759,881 || 09/1997 || | | 759,881 || 09/1997 || मैल्कम टेलर | ||
|- | |- | ||
| 692,154 || 08/2001 || | | 692,154 || 08/2001 || मैक्सिम स्मिरनोव | ||
|- | |- | ||
| 680,558 || 09/2001 || | | 680,558 || 09/2001 || मैक्सिम स्मिरनोव | ||
|- | |- | ||
| 653,720 || 11/2002 || | | 653,720 || 11/2002 || सर्ज वोस्कोबॉयनिकोव | ||
|- | |- | ||
| 645,667 || 01/2004 || | | 645,667 || 01/2004 || मैट महोनी | ||
|- | |- | ||
| 637,116 || 04/2004 || | | 637,116 || 04/2004 || अलेक्जेंडर रतुश्न्याक | ||
|- | |- | ||
| 608,980 || 12/2004 || | | 608,980 || 12/2004 || अलेक्जेंडर रतुश्न्याक | ||
|- | |- | ||
| 603,416 || 04/2005 || | | 603,416 || 04/2005 || प्रेज़ेमिस्लाव स्किबिंस्की | ||
|- | |- | ||
| 596,314 || 10/2005 || | | 596,314 || 10/2005 || अलेक्जेंडर रतुश्न्याक | ||
|- | |- | ||
| 593,620 || 12/2005 || | | 593,620 || 12/2005 || अलेक्जेंडर रतुश्न्याक | ||
|- | |- | ||
| 589,863 || 05/2006 || | | 589,863 || 05/2006 || अलेक्जेंडर रतुश्न्याक | ||
|- | |- | ||
| 580,170 || 07/2010 || | | 580,170 || 07/2010 || अलेक्जेंडर रतुश्न्याक | ||
|} | |} | ||
== यह भी देखें == | == यह भी देखें == | ||
* [[फ़ाइल अभिलेखकर्ताओं की तुलना]] | * [[फ़ाइल अभिलेखकर्ताओं की तुलना|फ़ाइल संग्रहकर्ता की तुलना]] | ||
==संदर्भ== | ==संदर्भ== | ||
Line 118: | Line 119: | ||
* [https://web.archive.org/web/20061211204850/http://pharos.cpsc.ucalgary.ca/Dienst/UI/2.0/Describe/ncstrl.ucalgary_cs/1988-327-39 Bell, Witten, and Cleary, 1988] | * [https://web.archive.org/web/20061211204850/http://pharos.cpsc.ucalgary.ca/Dienst/UI/2.0/Describe/ncstrl.ucalgary_cs/1988-327-39 Bell, Witten, and Cleary, 1988] | ||
* [https://web.archive.org/web/20090704082714/http://www.data-compression.info/Corpora/CalgaryCorpus/index.htm Information on the Calgary Corpus] | * [https://web.archive.org/web/20090704082714/http://www.data-compression.info/Corpora/CalgaryCorpus/index.htm Information on the Calgary Corpus] | ||
* [http://mailcom.com/challenge/ The Calgary corpus Compression and | * [http://mailcom.com/challenge/ The Calgary corpus Compression and एसएचए-1 crack Challenge] | ||
[[Category: आधार - सामग्री संकोचन]] [[Category: परीक्षण चीज़ें]] | [[Category: आधार - सामग्री संकोचन]] [[Category: परीक्षण चीज़ें]] | ||
Line 125: | Line 126: | ||
[[Category: Machine Translated Page]] | [[Category: Machine Translated Page]] | ||
[[Category:Created On 07/12/2023]] | [[Category:Created On 07/12/2023]] | ||
[[Category:Vigyan Ready]] |
Latest revision as of 21:59, 18 December 2023
कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
विषय-सूची
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
माप(बाइट्स) | फ़ाइल का नाम | विवरण |
---|---|---|
111,261 | बीआईबी | एएससीआईआई टेक्स्ट in यूनिक्स "रेफेर" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ। |
768,771 | बुक1 | अनन्फोर्मेटेड एएससीआईआई टेक्स्ट – थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड. |
610,856 | बुक2 | एएससीआईआई टेक्स्ट in यूनिक्स "troff" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत. |
102,400 | जियो | आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ – सिस्मिक डाटा. |
377,109 | न्यूज़ | एएससीआईआई टेक्स्ट – विभिन्न विषयों पर यूज़नेट बैच फ़ाइल. |
21,504 | ओ.बी.जे1 | वैक्स निष्पादन योग्य प्रोग्राम – पीआरओजेपी का संकलन. |
246,814 | ओ.बी.जे2 | मैकिंटोश निष्पादन योग्य प्रोग्राम – बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस. |
53,161 | पेपर1 | यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग. |
82,199 | पेपर2 | यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा। |
513,216 | पीआईसी | 1728 x 2376 बिटमैप इमेज (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र। |
39,611 | पीआरओजीसी | सी में सोर्स कोड – यूनिक्स कंप्रेस v4.0. |
71,646 | प्रोजीएल | लिस्प में सोर्स कोड – सिस्टम सॉफ्ट्वेयर. |
49,379 | पीआरओजीपी | पास्कल में सोर्स कोड – पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम. |
93,695 | ट्रांस | एस्किसोई और नियंत्रण वर्ण – एक टर्मिनल सत्र की प्रतिलेख. |
अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]
बेंचमार्क
कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे वेटेड एवरेज कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4]
नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
कंप्रेसर | विकल्प | 14 अलग फ़ाइलों के रूप में | टार फ़ाइल के रूप में |
---|---|---|---|
अनकॉम्प्रेस्सेड | 3,141,622 | 3,152,896 | |
कंप्रेस | 1,272,772 | 1,319,521 | |
इन्फो-ज़िप 2.32 | -9 | 1,020,781 | 1,023,042 |
जीज़िप 1.3.5 | -9 | 1,017,624 | 1,022,810 |
बीज़िप2 1.0.3 | -9 | 828,347 | 860,097 |
7-ज़िप 9.12b | 848,687 | 824,573 | |
बीज़िप3 1.1.8 | 765,939 | 779,795 | |
पीपीएमडी Jr1 | -m256 -o16 | 740,737 | 754,243 |
पीपीमोंस्ट्र J | 675,485 | 669,497 | |
ज़ेडपीएक्यू v7.15 | -method 5 | 659,709 | 659,853 |
कम्प्रेशन आक्षेप
कैलगरी कॉर्पस कंप्रेशन और एसएचए-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा प्रारंभ की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है।
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.
माप(बाइट्स) | महीने/वर्ष | लेखक |
---|---|---|
759,881 | 09/1997 | मैल्कम टेलर |
692,154 | 08/2001 | मैक्सिम स्मिरनोव |
680,558 | 09/2001 | मैक्सिम स्मिरनोव |
653,720 | 11/2002 | सर्ज वोस्कोबॉयनिकोव |
645,667 | 01/2004 | मैट महोनी |
637,116 | 04/2004 | अलेक्जेंडर रतुश्न्याक |
608,980 | 12/2004 | अलेक्जेंडर रतुश्न्याक |
603,416 | 04/2005 | प्रेज़ेमिस्लाव स्किबिंस्की |
596,314 | 10/2005 | अलेक्जेंडर रतुश्न्याक |
593,620 | 12/2005 | अलेक्जेंडर रतुश्न्याक |
589,863 | 05/2006 | अलेक्जेंडर रतुश्न्याक |
580,170 | 07/2010 | अलेक्जेंडर रतुश्न्याक |
यह भी देखें
संदर्भ
- ↑ Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
- ↑ "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
- ↑ "यूसी लर्निंग सेंटर". 6 January 2023.
- ↑ "डेटा संपीड़न समझाया गया". mattmahoney.net.
- ↑ "The Compression/SHA-1 Challenge". mailcom.com.