कैलगरी कॉर्पस: Difference between revisions

From Vigyanwiki
(Created page with "{{more citations needed|date=November 2012}} कैलगरी कॉर्पस पाठ फ़ाइल और बाइनरी डेटा फ़ाइलो...")
 
m (8 revisions imported from alpha:कैलगरी_कॉर्पस)
 
(7 intermediate revisions by 2 users not shown)
Line 1: Line 1:
{{more citations needed|date=November 2012}}
'''कैलगरी कॉर्पस''' [[पाठ फ़ाइल|टेक्स्ट]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।
कैलगरी कॉर्पस [[पाठ फ़ाइल]] और [[बाइनरी डेटा]] फ़ाइलों का एक संग्रह है, जिसका उपयोग आमतौर पर डेटा संपीड़न एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में [[कैलगरी विश्वविद्यालय]] के [[इयान विटेन]], टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका आमतौर पर उपयोग किया जाता था। 1997 में इसे [[कैंटरबरी कॉर्पस]] द्वारा प्रतिस्थापित किया गया,<ref>{{cite book|author1=Ian H. Witten |author2=Alistair Moffat |author3=Timothy C. Bell |title=Managing Gigabytes: Compressing and Indexing Documents and Images|year=1999|publisher=Morgan Kaufmann|page=92|isbn=9781558605701 |url=https://books.google.com/books?id=2F74jyPl48EC&q=%22calgary+corpus%22+%22canterbury+corpus%22&pg=PA92}}</ref> कैलगरी कॉर्पस कितना प्रतिनिधिक था, इस बारे में चिंताओं के आधार पर,<ref>{{cite book | last = Salomon | first = David | title = Data Compression: The Complete Reference | year = 2007 | publisher = Springer | isbn = 9781846286032 | page = 12 | url = https://books.google.com/books?id=ujnQogzx_2EC&q=%22calgary+corpus%22+%22canterbury+corpus+started%22&pg=PA12 | edition = Fourth}}</ref> लेकिन कैलगरी कॉर्पस अभी भी तुलना के लिए मौजूद है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।


== सामग्री ==
== विषय-सूची ==


इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।
Line 8: Line 7:
{| class="wikitable"
{| class="wikitable"
|-
|-
! Size (bytes) !! File name !! Description
! माप(बाइट्स) !! फ़ाइल का नाम !! विवरण
|-
|-
|    111,261 || BIB   || ASCII text in UNIX "[[refer (software)|refer]]" format – 725 bibliographic references.
|    111,261 || बीआईबी   || एएससीआईआई टेक्स्ट in यूनिक्स "[[refer (software)|रेफेर]]" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ।
|-
|-
|    768,771 || BOOK1 || unformatted ASCII text Thomas Hardy: Far from the Madding Crowd.
|    768,771 || बुक1 || अनन्फोर्मेटेड एएससीआईआई टेक्स्ट थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड.
|-
|-
|    610,856 || BOOK2 || ASCII text in UNIX "[[troff]]" format – Witten: Principles of Computer Speech.
|    610,856 || बुक2 || एएससीआईआई टेक्स्ट in यूनिक्स "[[troff]]" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत.
|-
|-
|    102,400 || GEO   || 32 bit numbers in IBM floating point format seismic data.
|    102,400 || जियो   || आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ सिस्मिक डाटा.
|-
|-
|    377,109 || NEWS   || ASCII text – [[USENET]] batch file on a variety of topics.
|    377,109 || न्यूज़   || एएससीआईआई टेक्स्ट विभिन्न विषयों पर [[USENET|यूज़नेट]] बैच फ़ाइल.
|-
|-
|    21,504 || OBJ1   || [[VAX]] executable program compilation of PROGP.
|    21,504 || ओ.बी.जे1   || वैक्स निष्पादन योग्य प्रोग्राम पीआरओजेपी का संकलन.
|-
|-
|    246,814 || OBJ2   || [[Compact Macintosh|Macintosh]] executable program – "Knowledge Support System" of B.R. Gaines.
|    246,814 || ओ.बी.जे2   || मैकिंटोश निष्पादन योग्य प्रोग्राम बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस.
|-
|-
|    53,161 || PAPER1 || UNIX "troff" format – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
|    53,161 || पेपर1 || यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग.
|-
|-
|    82,199 || PAPER2 || UNIX "troff" format – Witten: Computer (in)security.
|    82,199 || पेपर2 || यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा।
|-
|-
|    513,216 || PIC   || 1728 x 2376 [[bitmap image]] (MSB first): text in French and line diagrams.
|    513,216 || पीआईसी   || 1728 x 2376 [[bitmap image|बिटमैप इमेज]] (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र।
|-
|-
|    39,611 || PROGC || Source code in C UNIX [[compress]] v4.0.
|    39,611 || पीआरओजीसी || सी में सोर्स कोड यूनिक्स [[compress|कंप्रेस]] v4.0.
|-
|-
|    71,646 || PROGL || Source code in Lisp system software.
|    71,646 || प्रोजीएल || लिस्प में सोर्स कोड सिस्टम सॉफ्ट्वेयर.
|-
|-
|    49,379 || PROGP || Source code in Pascal program to evaluate PPM compression.
|    49,379 || पीआरओजीपी || पास्कल में सोर्स कोड पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम.
|-
|-
|    93,695 || TRANS || ASCII and control characters transcript of a terminal session.
|    93,695 || ट्रांस || एस्किसोई और नियंत्रण वर्ण एक टर्मिनल सत्र की प्रतिलेख.
|}
|}
एक कम सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल संस्करण भी है जिसमें UNIX ट्रॉफ़ प्रारूप, PAPER3 से PAPER6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें शामिल हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।<ref>{{cite web |title=कैंटरबरी कॉर्पस|url=https://corpus.canterbury.ac.nz/descriptions/#calgary |website=corpus.canterbury.ac.nz}}</ref>
अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।<ref>{{cite web |title=कैंटरबरी कॉर्पस|url=https://corpus.canterbury.ac.nz/descriptions/#calgary |website=corpus.canterbury.ac.nz}}</ref>
 
== बेंचमार्क ==


== बेंचमार्क ==
कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत|वेटेड एवरेज]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।


कैलगरी कॉर्पस 1990 के दशक में डेटा संपीड़न के लिए आमतौर पर इस्तेमाल किया जाने वाला [[बेंचमार्क (कंप्यूटिंग)]] था। परिणाम आमतौर पर प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। हाल ही में, सभी फ़ाइलों के संपीड़ित आकार को जोड़ना आम बात हो गई है। इसे [[भारित औसत]] कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा संपीड़न अनुपात को भारित करने के बराबर है। यूसीएलसी बेंचमार्क<ref>{{cite web | url=http://uclc.info/calgary_corpus_compression_test.htm | title=यूसी लर्निंग सेंटर| date=6 January 2023 }}</ref> जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।
कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref>


कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण संपीड़न से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य मामलों में, संपीड़न बदतर है क्योंकि कंप्रेसर गैर-समान आँकड़ों को खराब तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।<ref>{{Cite web|url=http://mattmahoney.net/dc/dce.html#Section_214|title=डेटा संपीड़न समझाया गया|website=mattmahoney.net}}</ref>
नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।
नीचे दी गई तालिका कुछ लोकप्रिय संपीड़न कार्यक्रमों के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के संपीड़ित आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम संपीड़न का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।


{| class="wikitable"
{| class="wikitable"
|-
|-
! Compressor !! Options !! As 14 separate files !! As a tar file
! कंप्रेसर !! विकल्प !! 14 अलग फ़ाइलों के रूप में !! टार फ़ाइल के रूप में
|-
|-
| Uncompressed || || 3,141,622 || 3,152,896
| अनकॉम्प्रेस्सेड || || 3,141,622 || 3,152,896
|-
|-
| [[compress]] || || 1,272,772 || 1,319,521
| [[compress|कंप्रेस]]|| || 1,272,772 || 1,319,521
|-
|-
| [[Info-ZIP]] 2.32 || -9 || 1,020,781 || 1,023,042
| [[Info-ZIP|इन्फो-ज़िप]] 2.32 || -9               || 1,020,781 || 1,023,042
|-
|-
| [[gzip]] 1.3.5 || -9 || 1,017,624 || 1,022,810
| [[gzip|जीज़िप]] 1.3.5 || -9               || 1,017,624 || 1,022,810
|-
|-
| [[bzip2]] 1.0.3 || -9 || 828,347 || 860,097
| [[bzip2|बीज़िप2]] 1.0.3 || -9               || 828,347 || 860,097
|-
|-
| [[7-zip]] 9.12b || || 848,687 || 824,573
| [[7-zip|7-ज़िप]] 9.12b || || 848,687 || 824,573
|-
|-
| bzip3 1.1.8 || || 765,939 || 779,795
| बीज़िप3 1.1.8 || || 765,939               || 779,795
|-
|-
| [http://compression.ru/ds/ ppmd] Jr1 || -m256 -o16 || 740,737 || 754,243
| [http://compression.ru/ds/ पीपीएमडी] Jr1 || -m256 -o16 || 740,737               || 754,243              
|-
|-
| [http://compression.ru/ds/ ppmonstr] J || || 675,485 || 669,497
| [http://compression.ru/ds/ पीपीमोंस्ट्र] J || || 675,485 || 669,497
|-
|-
| [[ZPAQ]] v7.15 || -method 5 || 659,709 || 659,853
| [[ZPAQ|ज़ेडपीएक्यू]] v7.15 || -method 5 || 659,709 || 659,853
|}
|}


==कम्प्रेशन आक्षेप==


==संपीड़न चुनौती==
कैलगरी कॉर्पस कंप्रेशन और [[SHA-1|एसएचए-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा प्रारंभ की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।
 
कैलगरी कॉर्पस कंप्रेशन और [[SHA-1]] क्रैक चैलेंज<ref>{{Cite web|url=http://mailcom.com/challenge/|title=The Compression/SHA-1 Challenge|website=mailcom.com}}</ref> कैलगरी कॉर्पस के 14 फ़ाइल संस्करण को संपीड़ित करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा शुरू की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।


प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में संपीड़ित डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और स्मृति सीमा, संग्रह प्रारूप और डीकंप्रेसन भाषाओं में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को [[ खिड़कियाँ ]]़ या [[लिनक्स]] के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के भीतर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक SHA-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह हिस्सा पूरा नहीं हुआ है।
प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या [[लिनक्स]] के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है।


पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। सबसे हालिया प्रविष्टि 2 जुलाई, 2010 को [[अलेक्जेंडर रतुश्न्याक]] द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक संपीड़ित फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और PPMd संस्करण के रूप में 7700 बाइट्स तक संपीड़ित शामिल है। मैं संग्रहित करता हूं, साथ ही संपीड़ित फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.
पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को [[अलेक्जेंडर रतुश्न्याक]] द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.


{| class="wikitable"
{| class="wikitable"
|-
|-
! Size (bytes) !! Month/year !! Author
! माप(बाइट्स) !! महीने/वर्ष !! लेखक
|-
|-
| 759,881 || 09/1997 || Malcolm Taylor
| 759,881 || 09/1997 || मैल्कम टेलर
|-
|-
| 692,154 || 08/2001 || Maxim Smirnov
| 692,154 || 08/2001 || मैक्सिम स्मिरनोव
|-
|-
| 680,558 || 09/2001 || Maxim Smirnov
| 680,558 || 09/2001 || मैक्सिम स्मिरनोव
|-
|-
| 653,720 || 11/2002 || Serge Voskoboynikov
| 653,720 || 11/2002 || सर्ज वोस्कोबॉयनिकोव
|-
|-
| 645,667 || 01/2004 || Matt Mahoney
| 645,667 || 01/2004 || मैट महोनी
|-
|-
| 637,116 || 04/2004 || Alexander Ratushnyak
| 637,116 || 04/2004 || अलेक्जेंडर रतुश्न्याक
|-
|-
| 608,980 || 12/2004 || Alexander Ratushnyak
| 608,980 || 12/2004 || अलेक्जेंडर रतुश्न्याक
|-
|-
| 603,416 || 04/2005 || Przemysław Skibiński
| 603,416 || 04/2005 || प्रेज़ेमिस्लाव स्किबिंस्की
|-
|-
| 596,314 || 10/2005 || Alexander Ratushnyak
| 596,314 || 10/2005 || अलेक्जेंडर रतुश्न्याक
|-
|-
| 593,620 || 12/2005 || Alexander Ratushnyak
| 593,620 || 12/2005 || अलेक्जेंडर रतुश्न्याक
|-
|-
| 589,863 || 05/2006 || Alexander Ratushnyak
| 589,863 || 05/2006 || अलेक्जेंडर रतुश्न्याक
|-
|-
| 580,170 || 07/2010 || Alexander Ratushnyak
| 580,170 || 07/2010 || अलेक्जेंडर रतुश्न्याक
|}
|}


== यह भी देखें ==
== यह भी देखें ==
* [[फ़ाइल अभिलेखकर्ताओं की तुलना]]
* [[फ़ाइल अभिलेखकर्ताओं की तुलना|फ़ाइल संग्रहकर्ता की तुलना]]


==संदर्भ==
==संदर्भ==
{{reflist}}
{{reflist}}


== बाहरी संबंध ==
== बाहरी संबंध ==
Line 124: Line 119:
* [https://web.archive.org/web/20061211204850/http://pharos.cpsc.ucalgary.ca/Dienst/UI/2.0/Describe/ncstrl.ucalgary_cs/1988-327-39 Bell, Witten, and Cleary, 1988]
* [https://web.archive.org/web/20061211204850/http://pharos.cpsc.ucalgary.ca/Dienst/UI/2.0/Describe/ncstrl.ucalgary_cs/1988-327-39 Bell, Witten, and Cleary, 1988]
* [https://web.archive.org/web/20090704082714/http://www.data-compression.info/Corpora/CalgaryCorpus/index.htm Information on the Calgary Corpus]
* [https://web.archive.org/web/20090704082714/http://www.data-compression.info/Corpora/CalgaryCorpus/index.htm Information on the Calgary Corpus]
* [http://mailcom.com/challenge/ The Calgary corpus Compression and SHA-1 crack Challenge]
* [http://mailcom.com/challenge/ The Calgary corpus Compression and एसएचए-1 crack Challenge]
 
{{Standard test item}}
 
{{Compression Methods}}
[[Category: आधार - सामग्री संकोचन]] [[Category: परीक्षण चीज़ें]]  
[[Category: आधार - सामग्री संकोचन]] [[Category: परीक्षण चीज़ें]]  


Line 135: Line 126:
[[Category: Machine Translated Page]]
[[Category: Machine Translated Page]]
[[Category:Created On 07/12/2023]]
[[Category:Created On 07/12/2023]]
[[Category:Vigyan Ready]]

Latest revision as of 21:59, 18 December 2023

कैलगरी कॉर्पस टेक्स्ट और बाइनरी डेटा फ़ाइलों का एक संग्रह है, जिसका उपयोग सामान्यतः डेटा कम्प्रेशन एल्गोरिदम की तुलना करने के लिए किया जाता है। इसे 1987 में कैलगरी विश्वविद्यालय के इयान विटेन, टिम बेल और जॉन क्लीरी द्वारा बनाया गया था और 1990 के दशक में इसका सामान्यतः उपयोग किया जाता था। 1997 में इसे कैंटरबरी कॉर्पस द्वारा प्रतिस्थापित कर दिया गया था, जो इस चिंता पर आधारित था कि कैलगरी कॉर्पस कितना प्रतिनिधि था,[1] किन्तु कैलगरी कॉर्पस अभी भी तुलना के लिए उपस्तिथ है और अभी भी अपने मूल उद्देश्य के लिए उपयोगी है।

विषय-सूची

इसके सबसे अधिक उपयोग किए जाने वाले रूप में, कॉर्पस में कुल 14 फ़ाइलें होती हैं, जिनकी कुल संख्या इस प्रकार है: 3,141,622 बाइट्स।

माप(बाइट्स) फ़ाइल का नाम विवरण
111,261 बीआईबी एएससीआईआई टेक्स्ट in यूनिक्स "रेफेर" फॉर्मेट – 725 बिब्लिओग्रफिक संदर्भ।
768,771 बुक1 अनन्फोर्मेटेड एएससीआईआई टेक्स्ट – थॉमस हार्डी: फार फ्रॉम द मैडिंग क्राउड.
610,856 बुक2 एएससीआईआई टेक्स्ट in यूनिक्स "troff" फॉर्मेट–विटेन: कंप्यूटर स्पीच के सिद्धांत.
102,400 जियो आईबीएम फ़्लोटिंग पॉइंट प्रारूप में 32 बिट संख्याएँ – सिस्मिक डाटा.
377,109 न्यूज़ एएससीआईआई टेक्स्ट – विभिन्न विषयों पर यूज़नेट बैच फ़ाइल.
21,504 ओ.बी.जे1 वैक्स निष्पादन योग्य प्रोग्राम – पीआरओजेपी का संकलन.
246,814 ओ.बी.जे2 मैकिंटोश निष्पादन योग्य प्रोग्राम – बी.आर. का "नॉलेज सपोर्ट सिस्टम" गेंस.
53,161 पेपर1 यूनिक्स "troff" format – विटेन, नील, क्लीरी: डेटा कम्प्रेशन के लिए अंकगणितीय कोडिंग.
82,199 पेपर2 यूनिक्स "troff" format – विटेन: कंप्यूटर (इन)सुरक्षा।
513,216 पीआईसी 1728 x 2376 बिटमैप इमेज (सबसे पहले एमएसबी): फ़्रेंच में टेक्स्ट और रेखा चित्र।
39,611 पीआरओजीसी सी में सोर्स कोड – यूनिक्स कंप्रेस v4.0.
71,646 प्रोजीएल लिस्प में सोर्स कोड – सिस्टम सॉफ्ट्वेयर.
49,379 पीआरओजीपी पास्कल में सोर्स कोड – पीपीएम कंप्रेसन का मूल्यांकन करने के लिए प्रोग्राम.
93,695 ट्रांस एस्किसोई और नियंत्रण वर्ण – एक टर्मिनल सत्र की प्रतिलेख.

अपेक्षाकृत सामान्यतः उपयोग किया जाने वाला 18 फ़ाइल वर्जन भी है जिसमें यूनिक्स ट्रॉफ़ प्रारूप, पेपर3 से पेपर6 में 4 अतिरिक्त टेक्स्ट फ़ाइलें सम्मिलित हैं। कैंटरबरी कॉर्पस वेबसाइट के अनुरक्षकों का कहना है कि वे मूल्यांकन में कुछ नहीं जोड़ते हैं।[2]

बेंचमार्क

कैलगरी कॉर्पस 1990 के दशक में डेटा कम्प्रेशन के लिए सामान्यतः उपयोग किया जाने वाला बेंचमार्क (कंप्यूटिंग) था। परिणाम सामान्यतः प्रत्येक फ़ाइल के लिए बिट्स प्रति बाइट (बीपीबी) में सूचीबद्ध किए गए थे और फिर औसत द्वारा संक्षेपित किए गए थे। वर्तमान में, सभी फ़ाइलों के कंप्रेस्ड आकार को जोड़ना आम बात हो गई है। इसे वेटेड एवरेज कहा जाता है क्योंकि यह मूल फ़ाइल आकारों द्वारा कम्प्रेशन अनुपात को वेटेड करने के बराबर है। यूसीएलसी बेंचमार्क[3] जोहान डी बॉक द्वारा इस पद्धति का उपयोग किया जाता है।

कुछ डेटा कंप्रेसर के लिए टेक्स्ट फ़ाइलों के बीच पारस्परिक जानकारी के कारण कम्प्रेशन से पहले एक असम्पीडित संग्रह (जैसे टार (फ़ाइल प्रारूप) फ़ाइल) में इनपुट को संयोजित करके कॉर्पस को छोटा करना संभव है। अन्य स्थितियों में, कम्प्रेशन व्यर्थ है क्योंकि कंप्रेसर गैर-समान आँकड़ों को अल्प तरीके से संभालता है। इस पद्धति का उपयोग मैट महोनी द्वारा ऑनलाइन पुस्तक डेटा कम्प्रेशन एक्सप्लेन्ड में एक बेंचमार्क में किया गया था।[4]

नीचे दी गई टेबल कुछ लोकप्रिय कम्प्रेशन प्रोग्राम के लिए दोनों विधियों का उपयोग करके 14 फ़ाइल कैलगरी कॉर्पस के कंप्रेस्ड आकार दिखाती है। विकल्प, जब उपयोग किया जाता है, तो सर्वोत्तम कम्प्रेशन का चयन करें। अधिक संपूर्ण सूची के लिए, उपरोक्त बेंचमार्क देखें।

कंप्रेसर विकल्प 14 अलग फ़ाइलों के रूप में टार फ़ाइल के रूप में
अनकॉम्प्रेस्सेड 3,141,622 3,152,896
कंप्रेस 1,272,772 1,319,521
इन्फो-ज़िप 2.32 -9 1,020,781 1,023,042
जीज़िप 1.3.5 -9 1,017,624 1,022,810
बीज़िप2 1.0.3 -9 828,347 860,097
7-ज़िप 9.12b 848,687 824,573
बीज़िप3 1.1.8 765,939 779,795
पीपीएमडी Jr1 -m256 -o16 740,737 754,243
पीपीमोंस्ट्र J 675,485 669,497
ज़ेडपीएक्यू v7.15 -method 5 659,709 659,853

कम्प्रेशन आक्षेप

कैलगरी कॉर्पस कंप्रेशन और एसएचए-1 क्रैक चैलेंज[5] कैलगरी कॉर्पस के 14 फ़ाइल वर्जन को कंप्रेस्ड करने के लिए 21 मई 1996 को लियोनिद ए. ब्रोखिस द्वारा प्रारंभ की गई एक प्रतियोगिता है। प्रतियोगिता में एक छोटा नकद पुरस्कार दिया जाता है जो समय के साथ बदलता रहता है। वर्तमान में पुरस्कार पिछले परिणाम की तुलना में प्रति 111 बाइट सुधार पर 1 अमेरिकी डॉलर है।

प्रतियोगिता के नियमों के अनुसार, एक प्रविष्टि में कंप्रेस्ड डेटा और डीकंप्रेसन प्रोग्राम दोनों को कई मानक संग्रह प्रारूपों में से एक में पैक किया जाना चाहिए। समय और मेमोरी सीमा, संग्रह प्रारूप और डीकंप्रेसन लैंग्वेजो में समय के साथ छूट दी गई है। वर्तमान में प्रोग्राम को विंडोज या लिनक्स के तहत 2000 एमआईपीएस मशीन पर 24 घंटे के अंदर चलना चाहिए और 800 एमबी से कम मेमोरी का उपयोग करना चाहिए। बाद में एक एसएचए-1 चुनौती जोड़ी गई। यह डीकंप्रेसन प्रोग्राम को कैलगरी कॉर्पस से भिन्न फ़ाइलों को आउटपुट करने की अनुमति देता है, जब तक कि वे मूल फ़ाइलों के समान मानों पर हैश होते हैं। अब तक, चुनौती का वह भाग पूरा नहीं हुआ है।

पहली प्रविष्टि सितंबर, 1997 में आरके और विनआरके के लेखक मैल्कम टेलर द्वारा 759,881 बाइट्स प्राप्त हुई थी। वर्तमान प्रविष्टि 2 जुलाई, 2010 को अलेक्जेंडर रतुश्न्याक द्वारा 580,170 बाइट्स की थी। प्रविष्टि में 572,465 बाइट्स आकार की एक कंप्रेस्ड फ़ाइल और C++ में लिखा गया एक डीकंप्रेसन प्रोग्राम और पी.पी.एम.डी वर्जन के रूप में 7700 बाइट्स तक कंप्रेस्ड सम्मिलित है। मैं संग्रहित करता हूं, साथ ही कंप्रेस्ड फ़ाइल नाम और आकार के लिए 5 बाइट्स भी। इतिहास इस प्रकार है.

माप(बाइट्स) महीने/वर्ष लेखक
759,881 09/1997 मैल्कम टेलर
692,154 08/2001 मैक्सिम स्मिरनोव
680,558 09/2001 मैक्सिम स्मिरनोव
653,720 11/2002 सर्ज वोस्कोबॉयनिकोव
645,667 01/2004 मैट महोनी
637,116 04/2004 अलेक्जेंडर रतुश्न्याक
608,980 12/2004 अलेक्जेंडर रतुश्न्याक
603,416 04/2005 प्रेज़ेमिस्लाव स्किबिंस्की
596,314 10/2005 अलेक्जेंडर रतुश्न्याक
593,620 12/2005 अलेक्जेंडर रतुश्न्याक
589,863 05/2006 अलेक्जेंडर रतुश्न्याक
580,170 07/2010 अलेक्जेंडर रतुश्न्याक

यह भी देखें

संदर्भ

  1. Salomon, David (2007). Data Compression: The Complete Reference (Fourth ed.). Springer. p. 12. ISBN 9781846286032.
  2. "कैंटरबरी कॉर्पस". corpus.canterbury.ac.nz.
  3. "यूसी लर्निंग सेंटर". 6 January 2023.
  4. "डेटा संपीड़न समझाया गया". mattmahoney.net.
  5. "The Compression/SHA-1 Challenge". mailcom.com.

बाहरी संबंध