संक्षिप्त डेटा संरचना: Difference between revisions

From Vigyanwiki
(Created page with "कंप्यूटर विज्ञान में, एक संक्षिप्त डेटा संरचना एक डेटा संरचना ह...")
 
No edit summary
 
(4 intermediate revisions by 3 users not shown)
Line 1: Line 1:
[[कंप्यूटर विज्ञान]] में, एक संक्षिप्त [[डेटा संरचना]] एक डेटा संरचना है जो अंतरिक्ष की मात्रा का उपयोग करती है जो [[सूचना-सैद्धांतिक]] निचली सीमा के करीब है, लेकिन (अन्य संपीड़ित अभ्यावेदन के विपरीत) अभी भी कुशल क्वेरी संचालन की अनुमति देता है। अवधारणा मूल रूप से जैकबसन द्वारा पेश की गई थी<ref name="jacobson1988succinct"/>[[बिट वेक्टर]], (लेबल रहित) [[पेड़ (डेटा संरचना)]], और [[प्लेनर ग्राफ]] को एन्कोड करने के लिए। सामान्य दोषरहित डेटा कम्प्रेशन एल्गोरिदम के विपरीत, संक्षिप्त डेटा संरचनाएँ पहले उन्हें विघटित किए बिना, उन्हें इन-प्लेस उपयोग करने की क्षमता बनाए रखती हैं। एक संबंधित धारणा एक [[संकुचित डेटा संरचना]] की है, जिसमें डेटा संरचना का आकार प्रतिनिधित्व किए जा रहे विशेष डेटा पर निर्भर करता है।
[[कंप्यूटर विज्ञान]] में, संक्षिप्त [[डेटा संरचना]] वह डेटा संरचना है जो अन्तराल की मात्रा का उपयोग करती है, जो [[सूचना-सैद्धांतिक]] निचली सीमा के निकट है, लेकिन (अन्य संपीड़ित अभ्यावेदन के विपरीत) अभी भी प्रभावशाली क्वेरी संचालन की अनुमति देता है। अवधारणा मूल रूप से जैकबसन द्वारा पेश की गई थी<ref name="jacobson1988succinct"/>[[बिट वेक्टर]], (लेबल रहित) [[पेड़ (डेटा संरचना)|ट्री (डेटा संरचना)]], और [[प्लेनर ग्राफ]] को एन्कोड करने के लिए सामान्य दोषरहित डेटा कम्प्रेशन एल्गोरिदम के विपरीत, संक्षिप्त डेटा संरचनाएँ पहले उन्हें विघटित किए बिना, उन्हें इन-प्लेस उपयोग करने की क्षमता बनाए रखती हैं। एक संबंधित धारणा एक [[संकुचित डेटा संरचना]] की है, जिसमें डेटा संरचना का आकार प्रतिनिधित्व किए जा रहे विशेष डेटा पर निर्भर करता है।


लगता है कि <math>Z</math> कुछ डेटा को स्टोर करने के लिए आवश्यक बिट्स की सूचना-सैद्धांतिक इष्टतम संख्या है। इस डेटा का एक प्रतिनिधित्व कहा जाता है:
माना कि <math>Z</math> कुछ डेटा को स्टोर करने के लिए आवश्यक बिट्स की सूचना-सैद्धांतिक इष्टतम संख्या है। इस डेटा का एक प्रतिनिधित्व कहा जाता है:


* निहित डेटा संरचना यदि यह लेता है <math>Z + O(1)</math> अंतरिक्ष के टुकड़े,
* निहित डेटा संरचना यदि यह लेता है <math>Z + O(1)</math> अन्तराल के बिट्स,
* यदि लगे तो संक्षिप्त करें <math>Z + o(Z)</math> अंतरिक्ष के टुकड़े, और
* यदि लगे तो संक्षिप्त करें <math>Z + o(Z)</math> अन्तराल के बिट्स, और
* कॉम्पैक्ट अगर यह लेता है <math>O(Z)</math> अंतरिक्ष के टुकड़े।
* कॉम्पैक्ट अगर यह लेता है <math>O(Z)</math> अन्तराल के बिट्स।


उदाहरण के लिए, एक डेटा संरचना जो उपयोग करती है <math>2Z</math> भंडारण के बिट्स कॉम्पैक्ट हैं, <math>Z + \sqrt{Z}</math> बिट संक्षिप्त है, <math>Z + \lg Z</math> बिट भी संक्षिप्त है, और <math>Z + 3</math> बिट्स निहित है।
उदाहरण के लिए, एक डेटा संरचना जो उपयोग करती है <math>2Z</math> भंडारण के बिट्स कॉम्पैक्ट हैं, <math>Z + \sqrt{Z}</math> बिट संक्षिप्त है, <math>Z + \lg Z</math> बिट भी संक्षिप्त है, और <math>Z + 3</math> बिट्स निहित है।


इस प्रकार अंतर्निहित संरचनाएं आमतौर पर इनपुट डेटा के कुछ क्रमपरिवर्तन का उपयोग करके जानकारी संग्रहीत करने के लिए कम हो जाती हैं; इसका सबसे प्रसिद्ध उदाहरण हीप (डेटा संरचना) है।
इस प्रकार अंतर्निहित संरचनाएं सामान्यतः इनपुट डेटा के कुछ क्रमपरिवर्तन का उपयोग करके जानकारी संग्रहीत करने के लिए कम हो जाती हैं; इसका सबसे प्रसिद्ध उदाहरण हीप (डेटा संरचना) है।


== संक्षिप्त शब्दकोश ==
== संक्षिप्त शब्दकोश ==
सक्सेस इंडेक्सेबल डिक्शनरी, जिसे रैंक/सिलेक्ट डिक्शनरी भी कहा जाता है, [[बाइनरी पेड़]] सहित कई सक्सेसफुल रिप्रेजेंटेशन तकनीकों का आधार बनता है, <math>k</math>-एरी ट्री और [[मल्टीसेट]],<ref name="raman2002succinct"/>साथ ही प्रत्यय पेड़ और [[प्रत्यय सरणी]]<ref name="sadakane2006squeezing"/>मूल समस्या एक सबसेट को स्टोर करना है <math>S</math> एक ब्रह्मांड का <math>U =
सक्सेस इंडेक्सेबल डिक्शनरी, जिसे रैंक/सिलेक्ट डिक्शनरी भी कहा जाता है, [[बाइनरी पेड़|बाइनरी ट्री]] सहित कई सक्सेसफुल रिप्रेजेंटेशन तकनीकों का आधार बनता है, <math>k</math>-एरी ट्री और [[मल्टीसेट]],<ref name="raman2002succinct"/>साथ ही प्रत्यय ट्री और [[प्रत्यय सरणी]]<ref name="sadakane2006squeezing"/>मूल समस्या एक सबसेट को स्टोर करना है <math>S</math> एक अंतराल का <math>U =
[0 \dots n) = \{0, 1, \dots, n - 1\}</math>, आमतौर पर एक बिट सरणी के रूप में दर्शाया जाता है <math>B[0 \dots n)</math> कहाँ <math>B[i] = 1</math> आईएफएफ <math>i \in S.</math> एक इंडेक्सेबल डिक्शनरी डिक्शनरी (क्वेरी, और डायनामिक केस में इंसर्शन/डिलीशन) के साथ-साथ निम्नलिखित ऑपरेशंस पर सामान्य तरीकों का समर्थन करता है:
[0 \dots n) = \{0, 1, \dots, n - 1\}</math>, सामान्यतः एक बिट सरणी के रूप में दर्शाया जाता है <math>B[0 \dots n)</math> कहाँ <math>B[i] = 1</math> आईएफएफ <math>i \in S.</math> एक इंडेक्सेबल डिक्शनरी (क्वेरी, और डायनामिक केस में इंसर्शन/डिलीशन) के साथ-साथ निम्नलिखित ऑपरेशंस पर सामान्य तरीकों का समर्थन करता है:


*<math>\mathbf{rank}_q(x) = |\{ k \in [0 \dots x] : B[k] = q \}|</math>
*<math>\mathbf{rank}_q(x) = |\{ k \in [0 \dots x] : B[k] = q \}|</math>
Line 19: Line 19:
के लिए <math>q \in \{0, 1\}</math>.
के लिए <math>q \in \{0, 1\}</math>.


दूसरे शब्दों में, <math>\mathbf{rank}_q(x)</math> के बराबर तत्वों की संख्या देता है <math>q</math> स्थिति तक <math>x</math> जबकि <math>\mathbf{select}_q(x)</math> की स्थिति लौटाता है <math> x</math>-वीं घटना <math> q </math>.
दूसरे शब्दों में, <math>\mathbf{rank}_q(x)</math> के बराबर तत्वों की संख्या देता है <math>q</math> स्थिति तक <math>x</math> जबकि <math>\mathbf{select}_q(x)</math> की स्थिति लौटाता है <math> x</math>-वीं घटना <math> q </math> है।


एक साधारण प्रतिनिधित्व है<ref name="jacobson1989space"/>जो उपयोग करता है <math>n + o(n)</math> भंडारण स्थान के बिट्स (मूल बिट सरणी और a <math>o(n)</math> सहायक संरचना) और रैंक का समर्थन करता है और निरंतर समय में चयन करता है। यह [[रेंज न्यूनतम क्वेरी]]|रेंज-मिनिमम क्वेरीज; सीमित आकार की उप-समस्या पर रुकने से पहले निरंतर संख्या में पुनरावर्तन होते हैं। बिट सरणी <math>B</math> आकार के बड़े ब्लॉकों में बांटा गया है <math>l = \lg^2 n</math> बिट्स और आकार के छोटे ब्लॉक <math>s = \lg n / 2</math> बिट्स। प्रत्येक बड़े ब्लॉक के लिए, उसके पहले बिट का रैंक एक अलग तालिका में संग्रहीत किया जाता है <math>R_l[0 \dots n/l)</math>; प्रत्येक ऐसी प्रविष्टि लेता है <math>\lg n</math> कुल के लिए बिट्स <math>(n/l) \lg n = n / \lg n</math> भंडारण के टुकड़े। एक बड़े ब्लॉक के भीतर, दूसरी निर्देशिका <math>R_s[0 \dots l/s)</math> प्रत्येक के रैंक को स्टोर करता है <math>l/s = 2 \lg n</math> इसमें छोटे ब्लॉक होते हैं। यहाँ अंतर यह है कि इसकी केवल आवश्यकता है <math>\lg l = \lg \lg^2 n = 2 \lg \lg n</math> प्रत्येक प्रविष्टि के लिए बिट्स, क्योंकि बड़े ब्लॉक वाले पहले बिट के रैंक से केवल अंतर को संग्रहीत करने की आवश्यकता होती है। इस प्रकार, यह तालिका कुल लेती है <math>(n/s) \lg l = 4 n \lg \lg n / \lg n</math> बिट्स। एक लुकअप टेबल <math>R_p</math> तब उपयोग किया जा सकता है जो हर संभव रैंक क्वेरी के उत्तर को लंबाई के एक बिट स्ट्रिंग पर संग्रहीत करता है <math>s</math> के लिए <math>i \in [0, s)</math>; इस आवश्यकता है <math>2^s s \lg s = O(\sqrt{n} \lg n \lg \lg n)</math> भंडारण स्थान के टुकड़े। इस प्रकार, चूंकि इनमें से प्रत्येक सहायक तालिका लेती है <math>o(n)</math> अंतरिक्ष, यह डेटा संरचना रैंक प्रश्नों का समर्थन करती है <math>O(1)</math> समय और <math>n + o(n)</math> अंतरिक्ष के टुकड़े।
एक साधारण प्रतिनिधित्व है<ref name="jacobson1989space"/>जो उपयोग करता है <math>n + o(n)</math> भंडारण स्थान के बिट्स (मूल बिट सरणी और a <math>o(n)</math> सहायक संरचना) और रैंक का समर्थन करता है और निरंतर समय में चयन करता है। यह [[रेंज न्यूनतम क्वेरी]] रेंज-मिनिमम क्वेरीज; सीमित आकार की उप-समस्या पर रुकने से पहले निरंतर संख्या में पुनरावर्तन होते हैं। बिट सरणी <math>B</math> आकार के बड़े ब्लॉकों में बांटा गया है <math>l = \lg^2 n</math> बिट्स और आकार के छोटे ब्लॉक <math>s = \lg n / 2</math> बिट्स प्रत्येक बड़े ब्लॉक के लिए, उसके पहले बिट का रैंक एक अलग तालिका में संग्रहीत किया जाता है <math>R_l[0 \dots n/l)</math>; प्रत्येक ऐसी प्रविष्टि लेता है <math>\lg n</math> कुल के लिए बिट्स <math>(n/l) \lg n = n / \lg n</math> भंडारण के बिट्स एक बड़े ब्लॉक के भीतर, दूसरी निर्देशिका <math>R_s[0 \dots l/s)</math> प्रत्येक के रैंक को स्टोर करता है <math>l/s = 2 \lg n</math> इसमें छोटे ब्लॉक होते हैं। यहाँ अंतर यह है कि इसकी केवल आवश्यकता है <math>\lg l = \lg \lg^2 n = 2 \lg \lg n</math> प्रत्येक प्रविष्टि के लिए बिट्स, क्योंकि बड़े ब्लॉक वाले पहले बिट के रैंक से केवल अंतर को संग्रहीत करने की आवश्यकता होती है। इस प्रकार, यह तालिका कुल <math>(n/s) \lg l = 4 n \lg \lg n / \lg n</math> बिट्स लेती है। एक लुकअप टेबल <math>R_p</math> तब उपयोग किया जा सकता है जो हर संभव रैंक क्वेरी के उत्तर को लंबाई के एक बिट स्ट्रिंग पर संग्रहीत करता है <math>s</math> के लिए <math>i \in [0, s)</math>; इस आवश्यकता है <math>2^s s \lg s = O(\sqrt{n} \lg n \lg \lg n)</math> भंडारण स्थान के बिट्स इस प्रकार, चूंकि इनमें से प्रत्येक सहायक तालिका लेती है <math>o(n)</math> अन्तराल, यह डेटा संरचना रैंक प्रश्नों का समर्थन करती है <math>O(1)</math> समय और <math>n + o(n)</math> अन्तराल के बिट्स एक स्थिर समय एल्गोरिथम गणना करता है,


एक प्रश्न का उत्तर देने के लिए <math>\mathbf{rank}_1(x)</math> निरंतर समय में, एक स्थिर समय एल्गोरिथम गणना करता है:
एक प्रश्न का उत्तर देने के लिए <math>\mathbf{rank}_1(x)</math> निरंतर समय में, एक स्थिर समय एल्गोरिथम गणना करता है:
Line 30: Line 30:




=== एंट्रॉपी-संपीड़ित शब्दकोश === <math>n + o(n)</math> h> अंतरिक्ष दृष्टिकोण को ध्यान में रखते हुए सुधार किया जा सकता है <math>\textstyle \binom{n}{m}</math> अलग <math>m</math>-उपसमुच्चय <math>[n)</math> (या लंबाई के बाइनरी तार <math>n</math> साथ बिल्कुल <math>m</math> 1), और इस प्रकार <math>\textstyle \mathcal{B}(m,n) = \lceil \lg \binom{n}{m} \rceil</math> एक सूचना सिद्धांत है जो स्टोर करने के लिए आवश्यक बिट्स की संख्या पर कम है <math>B</math>. एक संक्षिप्त (स्थैतिक) शब्दकोश है जो इस सीमा को प्राप्त करता है, अर्थात् उपयोग करना <math>\mathcal{B}(m,n) + o(\mathcal{B}(m,n))</math> अंतरिक्ष।<ref name="brodnik1999membership" />इस संरचना को रैंक का समर्थन करने और प्रश्नों का चयन करने और लेने के लिए बढ़ाया जा सकता है <math>\mathcal{B}(m,n) + O(m + n \lg \lg n / \lg n)</math> अंतरिक्ष।<ref name="raman2002succinct" />इस संरचना में सही रैंक प्रश्न हालांकि सेट में निहित तत्वों तक सीमित हैं, जो न्यूनतम पूर्ण हैशिंग फ़ंक्शन के काम करने के अनुरूप है। डिक्शनरी के स्टोरेज स्पेस को कम करके इस बाउंड को स्पेस/टाइम ट्रेडऑफ़ में कम किया जा सकता है <math>\mathcal{B}(m,n) + O(n t^t / \lg^t n + n^{3/4})</math> पूछताछ के साथ <math>O(t)</math> समय।<ref name="patrascu2008succincter" />
== एंट्रॉपी-संपीड़ित शब्दकोश ==
<math>n + o(n)</math> h> अन्तराल दृष्टिकोण को ध्यान में रखते हुए सुधार किया जा सकता है <math>\textstyle \binom{n}{m}</math> अलग <math>m</math>-उपसमुच्चय <math>[n)</math> (या लंबाई के बाइनरी तार <math>n</math> साथ बिल्कुल <math>m</math> 1), और इस प्रकार <math>\textstyle \mathcal{B}(m,n) = \lceil \lg \binom{n}{m} \rceil</math> एक सूचना सिद्धांत है जो स्टोर करने के लिए आवश्यक बिट्स की संख्या पर कम है <math>B</math>. एक संक्षिप्त (स्थैतिक) शब्दकोश है जो इस सीमा को प्राप्त करता है, अर्थात् उपयोग करना <math>\mathcal{B}(m,n) + o(\mathcal{B}(m,n))</math> अन्तराल।<ref name="brodnik1999membership" />इस संरचना को रैंक का समर्थन करने और प्रश्नों का चयन करने और लेने के लिए बढ़ाया जा सकता है <math>\mathcal{B}(m,n) + O(m + n \lg \lg n / \lg n)</math> अन्तराल।<ref name="raman2002succinct" />इस संरचना में सही रैंक प्रश्न हालांकि सेट में निहित तत्वों तक सीमित हैं, जो न्यूनतम पूर्ण हैशिंग फ़ंक्शन के काम करने के अनुरूप है। डिक्शनरी के स्टोरेज स्पेस को कम करके इस बाउंड को स्पेस/टाइम ट्रेडऑफ़ में कम किया जा सकता है, डेटा संरचना किसी कंप्यूटर सिस्टम में डेटा को स्टोर तथा व्यवस्थित करने का एक तरीका होता है। जिससे कि हम डेटा का आसानी से इस्तेमाल कर सकें, अर्थात डेटा को इस प्रकार स्टोर तथा व्यवस्थित किया जाता है कि उसको बाद में किसी भी समय आसानी से एक्सेस किया जा सकें।<ref name="patrascu2008succincter" />




Line 36: Line 37:
एक [[अशक्त-समाप्त स्ट्रिंग]] ([[सी स्ट्रिंग]]) Z + 1 स्थान लेती है, और इस प्रकार निहित है। मनमाना लंबाई ([[पास्कल स्ट्रिंग]]) के साथ एक स्ट्रिंग Z + लॉग (Z) स्थान लेती है, और इस प्रकार संक्षिप्त होती है। यदि अधिकतम लंबाई है - जो व्यवहार में मामला है, चूंकि 2<sup>32</sup> = 4 GiB डेटा एक बहुत लंबी स्ट्रिंग है, और 2<sup>64</sup> = 16 EiB डेटा व्यवहार में किसी भी स्ट्रिंग से बड़ा है - फिर लंबाई के साथ एक स्ट्रिंग भी निहित है, Z + k स्पेस लेते हुए, जहाँ k अधिकतम लंबाई का प्रतिनिधित्व करने के लिए डेटा की संख्या है (जैसे, 64 बिट्स)।
एक [[अशक्त-समाप्त स्ट्रिंग]] ([[सी स्ट्रिंग]]) Z + 1 स्थान लेती है, और इस प्रकार निहित है। मनमाना लंबाई ([[पास्कल स्ट्रिंग]]) के साथ एक स्ट्रिंग Z + लॉग (Z) स्थान लेती है, और इस प्रकार संक्षिप्त होती है। यदि अधिकतम लंबाई है - जो व्यवहार में मामला है, चूंकि 2<sup>32</sup> = 4 GiB डेटा एक बहुत लंबी स्ट्रिंग है, और 2<sup>64</sup> = 16 EiB डेटा व्यवहार में किसी भी स्ट्रिंग से बड़ा है - फिर लंबाई के साथ एक स्ट्रिंग भी निहित है, Z + k स्पेस लेते हुए, जहाँ k अधिकतम लंबाई का प्रतिनिधित्व करने के लिए डेटा की संख्या है (जैसे, 64 बिट्स)।


जब चर-लंबाई वाली वस्तुओं (जैसे तार) के अनुक्रम को एन्कोड करने की आवश्यकता होती है, तो विभिन्न संभावनाएँ होती हैं। एक सीधा तरीका प्रत्येक रिकॉर्ड में एक लंबाई और एक आइटम को स्टोर करना है - फिर इन्हें एक के बाद एक रखा जा सकता है। यह कुशल अगले की अनुमति देता है, लेकिन kth आइटम नहीं ढूंढता है। एक विकल्प यह है कि वस्तुओं को एक सीमांकक के साथ क्रम में रखा जाए (उदाहरण के लिए, अशक्त-समाप्त स्ट्रिंग)यह एक लंबाई के बजाय एक सीमांकक का उपयोग करता है, और काफी धीमा है, क्योंकि पूरे अनुक्रम को सीमांकक के लिए स्कैन किया जाना चाहिए। ये दोनों अंतरिक्ष-कुशल हैं। एक वैकल्पिक दृष्टिकोण आउट-ऑफ़-बैंड अलगाव है: वस्तुओं को बिना किसी सीमांकक के एक के बाद एक रखा जा सकता है। आइटम सीमाओं को इस क्रम में लंबाई, या बेहतर, ऑफ़सेट के अनुक्रम के रूप में संग्रहीत किया जा सकता है। वैकल्पिक रूप से, एक अलग बाइनरी स्ट्रिंग जिसमें आइटम शुरू होने वाले स्थान पर 1s होता है, और 0s हर जगह इसके साथ एन्कोड किया जाता है। इस स्ट्रिंग को देखते हुए, <math>select</math> फ़ंक्शन जल्दी से यह निर्धारित कर सकता है कि प्रत्येक आइटम कहाँ से शुरू होता है, इसकी अनुक्रमणिका दी गई है।<ref>{{cite web|url=http://cmph.sourceforge.net/papers/esa09.pdf |title=हैश, विस्थापित और संपीड़ित करें|last=Belazzougui|first=Djamal}}</ref> यह कॉम्पैक्ट है लेकिन संक्षिप्त नहीं है, क्योंकि यह 2Z स्थान लेता है, जो O(Z) है।
जब चर-लंबाई वाली वस्तुओं (जैसे तार) के अनुक्रम को एन्कोड करने की आवश्यकता होती है, तो विभिन्न संभावनाएँ होती हैं। एक सीधा तरीका प्रत्येक रिकॉर्ड में एक लंबाई और एक आइटम को स्टोर करना है - फिर इन्हें एक के बाद एक रखा जा सकता है। यह प्रभावशाली अगले की अनुमति देता है, लेकिन kth आइटम नहीं ढूंढता है। एक विकल्प यह है कि वस्तुओं को एक सीमांकक के साथ क्रम में रखा जाए (उदाहरण के लिए, अशक्त-समाप्त स्ट्रिंग) यह एक लंबाई के बजाय एक सीमांकक का उपयोग करता है, और काफी धीमा है, क्योंकि पूरे अनुक्रम को सीमांकक के लिए स्कैन किया जाना चाहिए। ये दोनों अन्तराल-प्रभावशाली हैं। एक वैकल्पिक दृष्टिकोण आउट-ऑफ़-बैंड अलगाव है: वस्तुओं को बिना किसी सीमांकक के एक के बाद एक रखा जा सकता है। आइटम सीमाओं को इस क्रम में लंबाई, या बेहतर, ऑफ़सेट के अनुक्रम के रूप में संग्रहीत किया जा सकता है। वैकल्पिक रूप से, एक अलग बाइनरी स्ट्रिंग जिसमें आइटम शुरू होने वाले स्थान पर 1s होता है, और 0s हर जगह इसके साथ एन्कोड किया जाता है। इस स्ट्रिंग को देखते हुए, <math>select</math> फ़ंक्शन जल्दी से यह निर्धारित कर सकता है कि प्रत्येक आइटम कहाँ से शुरू होता है, इसकी अनुक्रमणिका दी गई है।<ref>{{cite web|url=http://cmph.sourceforge.net/papers/esa09.pdf |title=हैश, विस्थापित और संपीड़ित करें|last=Belazzougui|first=Djamal}}</ref> यह कॉम्पैक्ट है लेकिन संक्षिप्त नहीं है, क्योंकि यह 2Z स्थान लेता है, जो O(Z) है।


एक अन्य उदाहरण एक [[बाइनरी ट्री]] का प्रतिनिधित्व है: एक मनमाना बाइनरी ट्री ऑन <math>n</math> नोड्स में प्रदर्शित किया जा सकता है <math>2n + o(n)</math> बिट्स किसी भी नोड पर विभिन्न प्रकार के संचालन का समर्थन करते हुए, जिसमें इसके माता-पिता, इसके बाएं और दाएं बच्चे को ढूंढना और इसके सबट्री के आकार को वापस करना शामिल है, प्रत्येक निरंतर समय में। विभिन्न बाइनरी पेड़ों की संख्या <math>n</math> नोड्स है <math>{\tbinom{2n}{n}}</math><math>/(n+1)</math>. बड़े के लिए <math>n</math>, इस बारे में है <math>4^n</math>; इस प्रकार हमें कम से कम चाहिए <math>\log_2(4^n)=2n</math> इसे एनकोड करने के लिए बिट्स। एक संक्षिप्त बाइनरी ट्री इसलिए केवल कब्जा करेगा <math>2</math> बिट्स प्रति नोड।
एक अन्य उदाहरण एक [[बाइनरी ट्री]] का प्रतिनिधित्व है: एक मनमाना बाइनरी ट्री ऑन <math>n</math> नोड्स में प्रदर्शित किया जा सकता है <math>2n + o(n)</math> बिट्स किसी भी नोड पर विभिन्न प्रकार के संचालन का समर्थन करते हुए, जिसमें इसके माता-पिता, इसके बाएं और दाएं बच्चे को ढूंढना और इसके सबट्री के आकार को वापस करना शामिल है, प्रत्येक निरंतर समय में। विभिन्न बाइनरी ट्रीों की संख्या <math>n</math> नोड्स है <math>{\tbinom{2n}{n}}</math><math>/(n+1)</math>. बड़े के लिए <math>n</math>, इस बारे में है <math>4^n</math>; इस प्रकार हमें कम से कम चाहिए <math>\log_2(4^n)=2n</math> इसे एनकोड करने के लिए बिट्स। एक संक्षिप्त बाइनरी ट्री इसलिए केवल कब्जा करेगा <math>2</math> बिट्स प्रति नोड।


== यह भी देखें ==
== यह भी देखें ==
* [[मिनिमल परफेक्ट हैश फंक्शन]]
* [[मिनिमल परफेक्ट हैश फंक्शन]]
* जीरो-नॉलेज_प्रूफ#जीरो-नॉलेज प्रूफ प्रोटोकॉल| ज्ञान के संक्षिप्त गैर-संवादात्मक तर्क
* जीरो-नॉलेज_प्रूफ जीरो-नॉलेज प्रूफ प्रोटोकॉल ज्ञान के संक्षिप्त गैर-संवादात्मक तर्क


==संदर्भ==
==संदर्भ==
Line 169: Line 170:
</references>
</references>


{{DEFAULTSORT:Succinct Data Structure}}[[Category: संक्षिप्त डेटा संरचना | संक्षिप्त डेटा संरचना ]]
{{DEFAULTSORT:Succinct Data Structure}}


 
[[Category:Created On 24/02/2023|Succinct Data Structure]]
 
[[Category:Machine Translated Page|Succinct Data Structure]]
[[Category: Machine Translated Page]]
[[Category:Pages with reference errors|Succinct Data Structure]]
[[Category:Created On 24/02/2023]]
[[Category:Templates Vigyan Ready|Succinct Data Structure]]
[[Category:संक्षिप्त डेटा संरचना| संक्षिप्त डेटा संरचना ]]

Latest revision as of 18:12, 3 March 2023

कंप्यूटर विज्ञान में, संक्षिप्त डेटा संरचना वह डेटा संरचना है जो अन्तराल की मात्रा का उपयोग करती है, जो सूचना-सैद्धांतिक निचली सीमा के निकट है, लेकिन (अन्य संपीड़ित अभ्यावेदन के विपरीत) अभी भी प्रभावशाली क्वेरी संचालन की अनुमति देता है। अवधारणा मूल रूप से जैकबसन द्वारा पेश की गई थी[1]बिट वेक्टर, (लेबल रहित) ट्री (डेटा संरचना), और प्लेनर ग्राफ को एन्कोड करने के लिए सामान्य दोषरहित डेटा कम्प्रेशन एल्गोरिदम के विपरीत, संक्षिप्त डेटा संरचनाएँ पहले उन्हें विघटित किए बिना, उन्हें इन-प्लेस उपयोग करने की क्षमता बनाए रखती हैं। एक संबंधित धारणा एक संकुचित डेटा संरचना की है, जिसमें डेटा संरचना का आकार प्रतिनिधित्व किए जा रहे विशेष डेटा पर निर्भर करता है।

माना कि कुछ डेटा को स्टोर करने के लिए आवश्यक बिट्स की सूचना-सैद्धांतिक इष्टतम संख्या है। इस डेटा का एक प्रतिनिधित्व कहा जाता है:

  • निहित डेटा संरचना यदि यह लेता है अन्तराल के बिट्स,
  • यदि लगे तो संक्षिप्त करें अन्तराल के बिट्स, और
  • कॉम्पैक्ट अगर यह लेता है अन्तराल के बिट्स।

उदाहरण के लिए, एक डेटा संरचना जो उपयोग करती है भंडारण के बिट्स कॉम्पैक्ट हैं, बिट संक्षिप्त है, बिट भी संक्षिप्त है, और बिट्स निहित है।

इस प्रकार अंतर्निहित संरचनाएं सामान्यतः इनपुट डेटा के कुछ क्रमपरिवर्तन का उपयोग करके जानकारी संग्रहीत करने के लिए कम हो जाती हैं; इसका सबसे प्रसिद्ध उदाहरण हीप (डेटा संरचना) है।

संक्षिप्त शब्दकोश

सक्सेस इंडेक्सेबल डिक्शनरी, जिसे रैंक/सिलेक्ट डिक्शनरी भी कहा जाता है, बाइनरी ट्री सहित कई सक्सेसफुल रिप्रेजेंटेशन तकनीकों का आधार बनता है, -एरी ट्री और मल्टीसेट,[2]साथ ही प्रत्यय ट्री और प्रत्यय सरणी[3]मूल समस्या एक सबसेट को स्टोर करना है एक अंतराल का , सामान्यतः एक बिट सरणी के रूप में दर्शाया जाता है कहाँ आईएफएफ एक इंडेक्सेबल डिक्शनरी (क्वेरी, और डायनामिक केस में इंसर्शन/डिलीशन) के साथ-साथ निम्नलिखित ऑपरेशंस पर सामान्य तरीकों का समर्थन करता है:

के लिए .

दूसरे शब्दों में, के बराबर तत्वों की संख्या देता है स्थिति तक जबकि की स्थिति लौटाता है -वीं घटना है।

एक साधारण प्रतिनिधित्व है[4]जो उपयोग करता है भंडारण स्थान के बिट्स (मूल बिट सरणी और a सहायक संरचना) और रैंक का समर्थन करता है और निरंतर समय में चयन करता है। यह रेंज न्यूनतम क्वेरी रेंज-मिनिमम क्वेरीज; सीमित आकार की उप-समस्या पर रुकने से पहले निरंतर संख्या में पुनरावर्तन होते हैं। बिट सरणी आकार के बड़े ब्लॉकों में बांटा गया है बिट्स और आकार के छोटे ब्लॉक बिट्स प्रत्येक बड़े ब्लॉक के लिए, उसके पहले बिट का रैंक एक अलग तालिका में संग्रहीत किया जाता है ; प्रत्येक ऐसी प्रविष्टि लेता है कुल के लिए बिट्स भंडारण के बिट्स एक बड़े ब्लॉक के भीतर, दूसरी निर्देशिका प्रत्येक के रैंक को स्टोर करता है इसमें छोटे ब्लॉक होते हैं। यहाँ अंतर यह है कि इसकी केवल आवश्यकता है प्रत्येक प्रविष्टि के लिए बिट्स, क्योंकि बड़े ब्लॉक वाले पहले बिट के रैंक से केवल अंतर को संग्रहीत करने की आवश्यकता होती है। इस प्रकार, यह तालिका कुल बिट्स लेती है। एक लुकअप टेबल तब उपयोग किया जा सकता है जो हर संभव रैंक क्वेरी के उत्तर को लंबाई के एक बिट स्ट्रिंग पर संग्रहीत करता है के लिए ; इस आवश्यकता है भंडारण स्थान के बिट्स इस प्रकार, चूंकि इनमें से प्रत्येक सहायक तालिका लेती है अन्तराल, यह डेटा संरचना रैंक प्रश्नों का समर्थन करती है समय और अन्तराल के बिट्स एक स्थिर समय एल्गोरिथम गणना करता है,

एक प्रश्न का उत्तर देने के लिए निरंतर समय में, एक स्थिर समय एल्गोरिथम गणना करता है:

व्यवहार में, लुकअप तालिका बिटवाइज़ ऑपरेशंस और छोटी तालिकाओं द्वारा प्रतिस्थापित किया जा सकता है जिनका उपयोग छोटे ब्लॉकों में सेट बिट्स की संख्या का पता लगाने के लिए किया जा सकता है। यह अक्सर फायदेमंद होता है, क्योंकि संक्षिप्त डेटा संरचनाएं बड़े डेटा सेट में अपना उपयोग ढूंढती हैं, इस मामले में कैश की कमी बहुत अधिक हो जाती है और लुकअप टेबल को करीबी सीपीयू कैश से बेदखल करने की संभावना अधिक हो जाती है।[5]रैंक के लिए उपयोग की जाने वाली समान सहायक संरचना पर बाइनरी खोज करके चुनिंदा प्रश्नों का आसानी से समर्थन किया जा सकता है; हालाँकि, यह लेता है सबसे खराब स्थिति में समय। एक अधिक जटिल संरचना का उपयोग करना निरंतर समय में चयन का समर्थन करने के लिए अतिरिक्त संग्रहण के बिट्स का उपयोग किया जा सकता है।[6]व्यवहार में, इनमें से कई समाधानों में छिपे हुए स्थिरांक हैं संकेतन जो किसी भी स्पर्शोन्मुख लाभ के स्पष्ट होने से पहले हावी हो जाता है; व्यापक शब्द संचालन और शब्द-संरेखित ब्लॉक का उपयोग करने वाले कार्यान्वयन अक्सर अभ्यास में बेहतर प्रदर्शन करते हैं।[7]


एंट्रॉपी-संपीड़ित शब्दकोश

h> अन्तराल दृष्टिकोण को ध्यान में रखते हुए सुधार किया जा सकता है अलग -उपसमुच्चय (या लंबाई के बाइनरी तार साथ बिल्कुल 1), और इस प्रकार एक सूचना सिद्धांत है जो स्टोर करने के लिए आवश्यक बिट्स की संख्या पर कम है . एक संक्षिप्त (स्थैतिक) शब्दकोश है जो इस सीमा को प्राप्त करता है, अर्थात् उपयोग करना अन्तराल।[8]इस संरचना को रैंक का समर्थन करने और प्रश्नों का चयन करने और लेने के लिए बढ़ाया जा सकता है अन्तराल।[2]इस संरचना में सही रैंक प्रश्न हालांकि सेट में निहित तत्वों तक सीमित हैं, जो न्यूनतम पूर्ण हैशिंग फ़ंक्शन के काम करने के अनुरूप है। डिक्शनरी के स्टोरेज स्पेस को कम करके इस बाउंड को स्पेस/टाइम ट्रेडऑफ़ में कम किया जा सकता है, डेटा संरचना किसी कंप्यूटर सिस्टम में डेटा को स्टोर तथा व्यवस्थित करने का एक तरीका होता है। जिससे कि हम डेटा का आसानी से इस्तेमाल कर सकें, अर्थात डेटा को इस प्रकार स्टोर तथा व्यवस्थित किया जाता है कि उसको बाद में किसी भी समय आसानी से एक्सेस किया जा सकें।[9]


उदाहरण

एक अशक्त-समाप्त स्ट्रिंग (सी स्ट्रिंग) Z + 1 स्थान लेती है, और इस प्रकार निहित है। मनमाना लंबाई (पास्कल स्ट्रिंग) के साथ एक स्ट्रिंग Z + लॉग (Z) स्थान लेती है, और इस प्रकार संक्षिप्त होती है। यदि अधिकतम लंबाई है - जो व्यवहार में मामला है, चूंकि 232 = 4 GiB डेटा एक बहुत लंबी स्ट्रिंग है, और 264 = 16 EiB डेटा व्यवहार में किसी भी स्ट्रिंग से बड़ा है - फिर लंबाई के साथ एक स्ट्रिंग भी निहित है, Z + k स्पेस लेते हुए, जहाँ k अधिकतम लंबाई का प्रतिनिधित्व करने के लिए डेटा की संख्या है (जैसे, 64 बिट्स)।

जब चर-लंबाई वाली वस्तुओं (जैसे तार) के अनुक्रम को एन्कोड करने की आवश्यकता होती है, तो विभिन्न संभावनाएँ होती हैं। एक सीधा तरीका प्रत्येक रिकॉर्ड में एक लंबाई और एक आइटम को स्टोर करना है - फिर इन्हें एक के बाद एक रखा जा सकता है। यह प्रभावशाली अगले की अनुमति देता है, लेकिन kth आइटम नहीं ढूंढता है। एक विकल्प यह है कि वस्तुओं को एक सीमांकक के साथ क्रम में रखा जाए (उदाहरण के लिए, अशक्त-समाप्त स्ट्रिंग) यह एक लंबाई के बजाय एक सीमांकक का उपयोग करता है, और काफी धीमा है, क्योंकि पूरे अनुक्रम को सीमांकक के लिए स्कैन किया जाना चाहिए। ये दोनों अन्तराल-प्रभावशाली हैं। एक वैकल्पिक दृष्टिकोण आउट-ऑफ़-बैंड अलगाव है: वस्तुओं को बिना किसी सीमांकक के एक के बाद एक रखा जा सकता है। आइटम सीमाओं को इस क्रम में लंबाई, या बेहतर, ऑफ़सेट के अनुक्रम के रूप में संग्रहीत किया जा सकता है। वैकल्पिक रूप से, एक अलग बाइनरी स्ट्रिंग जिसमें आइटम शुरू होने वाले स्थान पर 1s होता है, और 0s हर जगह इसके साथ एन्कोड किया जाता है। इस स्ट्रिंग को देखते हुए, फ़ंक्शन जल्दी से यह निर्धारित कर सकता है कि प्रत्येक आइटम कहाँ से शुरू होता है, इसकी अनुक्रमणिका दी गई है।[10] यह कॉम्पैक्ट है लेकिन संक्षिप्त नहीं है, क्योंकि यह 2Z स्थान लेता है, जो O(Z) है।

एक अन्य उदाहरण एक बाइनरी ट्री का प्रतिनिधित्व है: एक मनमाना बाइनरी ट्री ऑन नोड्स में प्रदर्शित किया जा सकता है बिट्स किसी भी नोड पर विभिन्न प्रकार के संचालन का समर्थन करते हुए, जिसमें इसके माता-पिता, इसके बाएं और दाएं बच्चे को ढूंढना और इसके सबट्री के आकार को वापस करना शामिल है, प्रत्येक निरंतर समय में। विभिन्न बाइनरी ट्रीों की संख्या नोड्स है . बड़े के लिए , इस बारे में है ; इस प्रकार हमें कम से कम चाहिए इसे एनकोड करने के लिए बिट्स। एक संक्षिप्त बाइनरी ट्री इसलिए केवल कब्जा करेगा बिट्स प्रति नोड।

यह भी देखें

संदर्भ

  1. Jacobson, G. J (1988). Succinct static data structures (Ph.D. thesis). Pittsburgh, PA: Carnegie Mellon University.
  2. 2.0 2.1 Raman, R.; V. Raman; S. S Rao (2002). "Succinct indexable dictionaries with applications to encoding k-ary trees and multisets". Proceedings of the thirteenth annual ACM-SIAM symposium on Discrete algorithms. pp. 233–242. arXiv:0705.0552. CiteSeerX 10.1.1.246.3123. doi:10.1145/1290672.1290680. ISBN 0-89871-513-X.
  3. Sadakane, K.; R. Grossi (2006). "Squeezing succinct data structures into entropy bounds" (PDF). Proceedings of the seventeenth annual ACM-SIAM symposium on Discrete algorithm. pp. 1230–1239. ISBN 0-89871-605-5. Archived from the original (PDF) on 2011-09-29.
  4. Jacobson, G. (1 November 1989). Space-efficient static trees and graphs (PDF). 30th IEEE Symposium on Foundations of Computer Science. doi:10.1109/SFCS.1989.63533. Archived from the original (PDF) on 2016-03-12.
  5. González, R.; S. Grabowski; V. Mäkinen; G. Navarro (2005). "Practical implementation of rank and select queries" (PDF). Poster Proceedings Volume of 4th Workshop on Efficient and Experimental Algorithms (WEA). pp. 27–38.
  6. Clark, David (1996). Compact pat trees (PDF) (Ph.D. thesis). University of Waterloo.
  7. Vigna, S. (2008). Broadword implementation of rank/select queries (PDF). pp. 154–168. CiteSeerX 10.1.1.649.8950. doi:10.1007/978-3-540-68552-4_12. ISBN 978-3-540-68548-7. {{cite book}}: |journal= ignored (help)
  8. Brodnik, A.; J. I Munro (1999). "Membership in constant time and almost-minimum space" (PDF). SIAM J. Comput. 28 (5): 1627–1640. CiteSeerX 10.1.1.530.9223. doi:10.1137/S0097539795294165.
  9. Pătraşcu, M. (2008). "Succincter" (PDF). Foundations of Computer Science, 2008. FOCS'08. IEEE 49th Annual IEEE Symposium on. pp. 305–313.
  10. Belazzougui, Djamal. "हैश, विस्थापित और संपीड़ित करें" (PDF).