डबल हैशिंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
'''डबल हैशिंग''' एक [[कंप्यूटर प्रोग्रामिंग]] तकनीक है जिसका उपयोग कोलिजन होने पर ऑफसेट के रूप में कुंजी के द्वितीयक हैश का उपयोग करके, हैश कोलिजन को हल करने के लिए [[हैश तालिका]]ओं में विवर्त पते के साथ संयोजन में किया जाता है। [[ खुला संबोधन |विवर्त संबोधन]] के साथ डबल हैशिंग एक टेबल पर एक मौलिक डेटा संरचना <math>T</math> है .
'''डबल हैशिंग''' एक [[कंप्यूटर प्रोग्रामिंग]] तकनीक है जिसका उपयोग कोलिजन होने पर ऑफसेट के रूप में कुंजी के डबल हैश का उपयोग करके, हैश कोलिजन को हल करने के लिए [[हैश तालिका]]ओं में ओपेन एड्रेसिंग के साथ संयोजन में किया जाता है। [[ खुला संबोधन |ओपेन एड्रेसिंग]] के साथ डबल हैशिंग एक टेबल पर एक मौलिक डेटा संरचना <math>T</math> है .


डबल हैशिंग तकनीक तालिका में एक सूचकांक के रूप में एक हैश मान का उपयोग करती है और तब तक बार-बार एक अंतराल को आगे बढ़ाती है जब तक कि वांछित मान स्थित न हो जाए, एक रिक्त स्थान न पहुंच जाए, या पूरी तालिका खोज न ली जाए; किंतु यह अंतराल एक दूसरे, स्वतंत्र [[हैश फंकशन]] द्वारा निर्धारित किया जाता है। [[रैखिक जांच]] और [[द्विघात जांच]] के वैकल्पिक कोलिजन-रिज़ॉल्यूशन विधियों के विपरीत, अंतराल डेटा पर निर्भर करता है, जिससे एक ही स्थान पर मैपिंग मानों में अलग-अलग बकेट अनुक्रम होंता है ; जिसमे यह बार-बार होने वाले कोलिजनों और क्लस्टरिंग के प्रभावों को कम करता है।
डबल हैशिंग तकनीक टेबल में एक सूचकांक के रूप में एक हैश मान का उपयोग करती है और तब तक बार-बार एक अंतराल को आगे बढ़ाती है जब तक कि डिसायर्ड मान स्थित न हो जाए, एक रिक्त स्थान न पहुंच जाए, या पूरी टेबल खोज न ली जाए; किंतु यह अंतराल एक दूसरे, इंडीपेनडेंट  [[हैश फंकशन]] द्वारा निर्धारित किया जाता है। [[रैखिक जांच|लीनियर प्रोबिंग]] और [[द्विघात जांच|क्ववार्डेटिक]] [[रैखिक जांच|प्रोबिंग]]  के वैकल्पिक कोलिजन-रिज़ॉल्यूशन विधियों के विपरीत, अंतराल डेटा पर निर्भर करता है, जिससे एक ही स्थान पर मैपिंग मानों में अलग-अलग बकेट अनुक्रम होंता है ; जिसमे यह बार-बार होने वाले कोलिजनों और क्लस्टरिंग के प्रभावों को कम करता है।


दो यादृच्छिक, समान और स्वतंत्र हैश फ़ंक्शंस <math>h_1</math> और <math>h_2</math>, को देखते हुए, <math>|T|</math> की हैश तालिका में मान <math>k</math> के लिए बकेट अनुक्रम में <math>i</math> स्थान बकेट है: <math>h(i,k)=(h_1(k) + i \cdot h_2(k))\bmod|T|.</math> समान्यत:, <math>h_1</math> और <math>h_2</math> को सार्वभौमिक हैश फ़ंक्शंस के एक सेट से चुना जाता है; <math>\{0,|T|-1\}</math> की सीमा के लिए <math>h_1</math> का चयन किया जाता है और <math>\{1,|T|-1\}</math> की सीमा के लिए<math>h_2</math> का चयन किया जाता है। डबल हैशिंग एक यादृच्छिक वितरण का अनुमान लगाता है; अधिक स्पष्ट रूप से, जोड़ी-वार स्वतंत्र हैश फ़ंक्शन <math>(n/|T|)^2</math> की संभावना उत्पन्न करते हैं कि कुंजियों की कोई भी जोड़ी समान बकेट अनुक्रम का पालन करेगी।
दो यादृच्छिक, समान और स्वतंत्र हैश फ़ंक्शंस <math>h_1</math> और <math>h_2</math>, को देखते हुए, <math>|T|</math> की हैश टेबल में मान <math>k</math> के लिए बकेट अनुक्रम में <math>i</math> स्थान बकेट है: <math>h(i,k)=(h_1(k) + i \cdot h_2(k))\bmod|T|.</math> समान्यत:, <math>h_1</math> और <math>h_2</math> को सार्वभौमिक हैश फ़ंक्शंस के एक सेट से चुना जाता है; <math>\{0,|T|-1\}</math> की सीमा के लिए <math>h_1</math> का चयन किया जाता है और <math>\{1,|T|-1\}</math> की सीमा के लिए<math>h_2</math> का चयन किया जाता है। डबल हैशिंग एक यादृच्छिक वितरण का अनुमान लगाता है; अधिक स्पष्ट रूप से, जोड़ी-वार स्वतंत्र हैश फ़ंक्शन <math>(n/|T|)^2</math> की संभावना उत्पन्न करते हैं कि कुंजियों की कोई भी जोड़ी समान बकेट अनुक्रम का पालन करेगी।


== h<sub>2</sub>(k) का चयन==
== h<sub>2</sub>(k) का चयन==
Line 26: Line 26:
== विश्लेषण ==
== विश्लेषण ==


मान लीजिए कि <math>T</math> में संग्रहीत तत्वों की संख्या <math>n</math> है, तो <math>T</math> का लोड कारक <math>\alpha = n/|T|</math> है। अर्थात्, एक डबल हैशिंग तालिका <math>T</math> बनाने के लिए दो सार्वभौमिक हैश फ़ंक्शन <math>h_1</math> और <math>h_2</math> का चयन करके यादृच्छिक रूप से, समान रूप से और स्वतंत्र रूप से प्रारंभ करें। सभी तत्वों को<math>h_1</math> और <math>h_2</math>. का उपयोग करके डबल हैशिंग द्वारा <math>T</math> में रखा गया है। एक कुंजी <math>k</math> देते हुए, <math>(i+1)</math> हैश स्थान की गणना निम्न द्वारा की जाती है:
मान लीजिए कि <math>T</math> में संग्रहीत तत्वों की संख्या <math>n</math> है, तो <math>T</math> का लोड कारक <math>\alpha = n/|T|</math> है। अर्थात्, एक डबल हैशिंग टेबल <math>T</math> बनाने के लिए दो सार्वभौमिक हैश फ़ंक्शन <math>h_1</math> और <math>h_2</math> का चयन करके यादृच्छिक रूप से, समान रूप से और स्वतंत्र रूप से प्रारंभ करें। सभी तत्वों को<math>h_1</math> और <math>h_2</math>. का उपयोग करके डबल हैशिंग द्वारा <math>T</math> में रखा गया है। एक कुंजी <math>k</math> देते हुए, <math>(i+1)</math> हैश स्थान की गणना निम्न द्वारा की जाती है:


<math display=block> h(i,k) = ( h_1(k) + i \cdot h_2(k) ) \bmod |T|.</math>
<math display=block> h(i,k) = ( h_1(k) + i \cdot h_2(k) ) \bmod |T|.</math>
Line 45: Line 45:
}}.</ref> ने <math>T</math> में असफल खोज के लिए जांचों की अपेक्षित संख्या दिखाई, फिर भी इन आरंभिक रूप से चुने गए हैश फ़ंक्शंस का उपयोग करते हुए, इसकी परवाह किए बिना <math>\tfrac{1}{1-\alpha}</math> है इनपुट का वितरण. हैश फ़ंक्शंस की जोड़ी-वार स्वतंत्रता पर्याप्त है।
}}.</ref> ने <math>T</math> में असफल खोज के लिए जांचों की अपेक्षित संख्या दिखाई, फिर भी इन आरंभिक रूप से चुने गए हैश फ़ंक्शंस का उपयोग करते हुए, इसकी परवाह किए बिना <math>\tfrac{1}{1-\alpha}</math> है इनपुट का वितरण. हैश फ़ंक्शंस की जोड़ी-वार स्वतंत्रता पर्याप्त है।


ओपन एड्रेसिंग के अन्य सभी रूपों की तरह, डबल हैशिंग रैखिक हो जाती है क्योंकि हैश तालिका अधिकतम क्षमता तक पहुंचती है। सामान्य अनुमान टेबल लोडिंग को क्षमता के 75% तक सीमित करना है। अंततः अन्य सभी ओपन एड्रेसिंग योजनाओं की अनुरूप बड़े आकार में पुनः प्रयास करना आवश्यक होगा।
ओपन एड्रेसिंग के अन्य सभी रूपों की तरह, डबल हैशिंग रैखिक हो जाती है क्योंकि हैश टेबल अधिकतम क्षमता तक पहुंचती है। सामान्य अनुमान टेबल लोडिंग को क्षमता के 75% तक सीमित करना है। अंततः अन्य सभी ओपन एड्रेसिंग योजनाओं की अनुरूप बड़े आकार में पुनः प्रयास करना आवश्यक होगा।


== वेरिएंट ==
== वेरिएंट ==
Line 62: Line 62:


=== ट्रिपल हैशिंग ===
=== ट्रिपल हैशिंग ===
हैश फ़ंक्शन में एक द्विघात शब्द <math>i^2,</math><ref name="Kirsch08">{{cite journal
हैश फ़ंक्शन में एक क्ववार्डेटिक शब्द <math>i^2,</math><ref name="Kirsch08">{{cite journal
  |title=Less Hashing, Same Performance: Building a Better Bloom Filter
  |title=Less Hashing, Same Performance: Building a Better Bloom Filter
  |first1=Adam |last1=Kirsch  |first2=Michael |last2=Mitzenmacher |authorlink2=Michael Mitzenmacher
  |first1=Adam |last1=Kirsch  |first2=Michael |last2=Mitzenmacher |authorlink2=Michael Mitzenmacher

Revision as of 18:14, 20 July 2023

डबल हैशिंग एक कंप्यूटर प्रोग्रामिंग तकनीक है जिसका उपयोग कोलिजन होने पर ऑफसेट के रूप में कुंजी के डबल हैश का उपयोग करके, हैश कोलिजन को हल करने के लिए हैश तालिकाओं में ओपेन एड्रेसिंग के साथ संयोजन में किया जाता है। ओपेन एड्रेसिंग के साथ डबल हैशिंग एक टेबल पर एक मौलिक डेटा संरचना है .

डबल हैशिंग तकनीक टेबल में एक सूचकांक के रूप में एक हैश मान का उपयोग करती है और तब तक बार-बार एक अंतराल को आगे बढ़ाती है जब तक कि डिसायर्ड मान स्थित न हो जाए, एक रिक्त स्थान न पहुंच जाए, या पूरी टेबल खोज न ली जाए; किंतु यह अंतराल एक दूसरे, इंडीपेनडेंट हैश फंकशन द्वारा निर्धारित किया जाता है। लीनियर प्रोबिंग और क्ववार्डेटिक प्रोबिंग के वैकल्पिक कोलिजन-रिज़ॉल्यूशन विधियों के विपरीत, अंतराल डेटा पर निर्भर करता है, जिससे एक ही स्थान पर मैपिंग मानों में अलग-अलग बकेट अनुक्रम होंता है ; जिसमे यह बार-बार होने वाले कोलिजनों और क्लस्टरिंग के प्रभावों को कम करता है।

दो यादृच्छिक, समान और स्वतंत्र हैश फ़ंक्शंस और , को देखते हुए, की हैश टेबल में मान के लिए बकेट अनुक्रम में स्थान बकेट है: समान्यत:, और को सार्वभौमिक हैश फ़ंक्शंस के एक सेट से चुना जाता है; की सीमा के लिए का चयन किया जाता है और की सीमा के लिए का चयन किया जाता है। डबल हैशिंग एक यादृच्छिक वितरण का अनुमान लगाता है; अधिक स्पष्ट रूप से, जोड़ी-वार स्वतंत्र हैश फ़ंक्शन की संभावना उत्पन्न करते हैं कि कुंजियों की कोई भी जोड़ी समान बकेट अनुक्रम का पालन करेगी।

h2(k) का चयन

द्वितीयक हैश फ़ंक्शन कई विशेषताएं होनी चाहिए:

  • इससे कभी भी शून्य का सूचकांक प्राप्त नहीं होना चाहिए
  • इसे पूरी मेज पर घूमना चाहिए
  • यह गणना करने में बहुत तेज़ होना चाहिए
  • यह जोड़ी-वार से स्वतंत्र होना चाहिए।
  • की वितरण विशेषताएँ अप्रासंगिक हैं। यह एक यादृच्छिक-संख्या जनरेटर के समान है।
  • सभी |T| के लिए अपेक्षाकृत अभाज्य बनें हो।

वास्तव में:

  • यदि विभाजन हैशिंग का उपयोग दोनों कार्यों के लिए किया जाता है, तो भाजक को अभाज्य के रूप में चुना जाता है।
  • यदि टी 2 की शक्ति है, तो पहली और अंतिम आवश्यकताएं समान्यत: को सदैव एक विषम संख्या देकर संतुष्ट की जाती हैं। इसका दुष्परिणाम यह है कि एक व्यर्थ बिट के कारण कोलिजन की संभावना दोगुनी हो जाती है।[1]

विश्लेषण

मान लीजिए कि में संग्रहीत तत्वों की संख्या है, तो का लोड कारक है। अर्थात्, एक डबल हैशिंग टेबल बनाने के लिए दो सार्वभौमिक हैश फ़ंक्शन और का चयन करके यादृच्छिक रूप से, समान रूप से और स्वतंत्र रूप से प्रारंभ करें। सभी तत्वों को और . का उपयोग करके डबल हैशिंग द्वारा में रखा गया है। एक कुंजी देते हुए, हैश स्थान की गणना निम्न द्वारा की जाती है:

मान लें कि का लोड कारक है। ब्रैडफोर्ड और कटेहाकिस[2] ने में असफल खोज के लिए जांचों की अपेक्षित संख्या दिखाई, फिर भी इन आरंभिक रूप से चुने गए हैश फ़ंक्शंस का उपयोग करते हुए, इसकी परवाह किए बिना है इनपुट का वितरण. हैश फ़ंक्शंस की जोड़ी-वार स्वतंत्रता पर्याप्त है।

ओपन एड्रेसिंग के अन्य सभी रूपों की तरह, डबल हैशिंग रैखिक हो जाती है क्योंकि हैश टेबल अधिकतम क्षमता तक पहुंचती है। सामान्य अनुमान टेबल लोडिंग को क्षमता के 75% तक सीमित करना है। अंततः अन्य सभी ओपन एड्रेसिंग योजनाओं की अनुरूप बड़े आकार में पुनः प्रयास करना आवश्यक होगा।

वेरिएंट

पीटर डिलिंजर की पीएचडी थीसिस[3] बताते हैं कि डबल हैशिंग अवांछित समतुल्य हैश फ़ंक्शन उत्पन्न करता है जब हैश फ़ंक्शन को एक सेट के रूप में माना जाता है, जैसा कि ब्लूम फिल्टर में होता है: यदि और , तब और हैश के सेट समरूप हैं। इससे कोलिजन की संभावना अपेक्षा से दोगुनी हो जाती है .

इसके अतिरिक्त बड़ी संख्या में अधिकतर ओवरलैपिंग हैश सेट भी हैं; यदि और , तब , और अतिरिक्त हैश मानों की तुलना करना (सीमा का विस्तार करना)। ) कोई सहायता नहीं है.

ट्रिपल हैशिंग

हैश फ़ंक्शन में एक क्ववार्डेटिक शब्द [4] (एक त्रिकोणीय संख्या) या यहां तक ​​कि (ट्रिपल हैशिंग)[5] जोड़ने से हैश फ़ंक्शन में कुछ हद तक सुधार होता है[4] किंतु यह समस्या ठीक नहीं होती है; यदि :

और

तब


उन्नत डबल हैशिंग

एक घन शब्द [4] या (एक चतुष्फलकीय संख्या) जोड़ने से[1] समस्या हल हो जाती है, एक तकनीक जिसे एन्हांस्ड डबल हैशिंग के रूप में जाना जाता है। इसकी गणना फॉरवर्ड डिफरेंसिंग द्वारा कुशलतापूर्वक की जा सकती है:

struct key;	/// Opaque
/// Use other data types when needed. (Must be unsigned for guaranteed wrapping.)
extern unsigned int h1(struct key const *), h2(struct key const *);

/// Calculate k hash values from two underlying hash functions
/// h1() and h2() using enhanced double hashing.  On return,
///     hashes[i] = h1(x) + i*h2(x) + (i*i*i - i)/6.
/// Takes advantage of automatic wrapping (modular reduction)
/// of unsigned types in C.
void ext_dbl_hash(struct key const *x, unsigned int hashes[], unsigned int n)
{
	unsigned int a = h1(x), b = h2(x), i;

	for (i = 0; i < n; i++) { 
		hashes[i] = a;
		a += b;	// Add quadratic difference to get cubic
		b += i;	// Add linear difference to get quadratic
		       	// i++ adds constant difference to get linear
	}
}


कोलिजन की समस्या को सुधारने के अतिरिक्त, बढ़ी हुई डबल हैशिंग के गुणों पर डबल-हैशिंग के संख्यात्मक प्रतिबंधों को भी हटा देती है, जिससे संपत्ति के समान हैश फ़ंक्शन को के समान (किंतु फिर भी स्वतंत्र) होने की अनुमति मिलती है। जिससे इसका उपयोग किया गया है।[1]


यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 Dillinger, Peter C.; Manolios, Panagiotis (November 15–17, 2004). Bloom Filters in Probabilistic Verification (PDF). 5h International Conference on Formal Methods in Computer Aided Design (FMCAD 2004). Austin, Texas. CiteSeerX 10.1.1.119.628. doi:10.1007/978-3-540-30494-4_26.
  2. Bradford, Phillip G.; Katehakis, Michael N. (April 2007), "A Probabilistic Study on Combinatorial Expanders and Hashing" (PDF), SIAM Journal on Computing, 37 (1): 83–111, doi:10.1137/S009753970444630X, MR 2306284, archived from the original (PDF) on 2016-01-25.
  3. Dillinger, Peter C. (December 2010). Adaptive Approximate State Storage (PDF) (PhD thesis). Northeastern University. pp. 93–112.
  4. 4.0 4.1 4.2 Kirsch, Adam; Mitzenmacher, Michael (September 2008). "Less Hashing, Same Performance: Building a Better Bloom Filter" (PDF). Random Structures and Algorithms. 33 (2): 187–218. CiteSeerX 10.1.1.152.579. doi:10.1002/rsa.20208.
  5. Alternatively defined with the triangular number, as in Dillinger 2004.


बाहरी संबंध