गणना-विशिष्ट समस्या
कंप्यूटर विज्ञान में, गिनती-विशिष्ट समस्या[1] (अनुप्रयुक्त गणित में कार्डिनैलिटी अनुमान समस्या के रूप में भी जाना जाता है) दोहराए गए तत्वों के साथ डेटा स्ट्रीम में अलग-अलग तत्वों की संख्या खोजने की समस्या है। यह अनेक अनुप्रयोगों में एक सुविख्यात समस्या है। तत्व राउटर (कंप्यूटिंग) से गुजरने वाले पैकेट के आईपी पते, किसी वेब साइट पर अद्वितीय विज़िटर, बड़े डेटाबेस में तत्व, डीएनए अनुक्रम में रूपांकनों, या आरएफआईडी/सेंसर नेटवर्क के तत्वों का प्रतिनिधित्व कर सकते हैं।
औपचारिक परिभाषा
- उदाहरण: तत्वों की एक धारा दोहराव और एक पूर्णांक के साथ . होने देना अर्थात् भिन्न तत्वों की संख्या हो , और इन तत्वों को रहने दें .
- उद्देश्य: एक अनुमान खोजें का केवल उपयोग कर रहे हैं भंडारण इकाइयाँ, कहाँ .
कार्डिनैलिटी अनुमान समस्या के उदाहरण का एक उदाहरण स्ट्रीम है: . इस उदाहरण के लिए, .
अनुचित समाधान
समस्या का सरल समाधान इस प्रकार है:
एक काउंटर प्रारंभ करें, c, शून्य तक, . एक कुशल शब्दकोश डेटा संरचना प्रारंभ करें, D, जैसे हैश टेबल या सर्च ट्री जिसमें प्रविष्टि और सदस्यता शीघ्रता से की जा सकती है। For each element , एक सदस्यता क्वेरी जारी की जाती है। If is not a member of D ()
Add to D
बढ़ोतरी c एक - एक करके, अन्यथा () कुछ भी नहीं है।
Output .
जब तक अलग-अलग तत्वों की संख्या बहुत बड़ी न हो, D मुख्य मेमोरी में फिट हो जाता है और सटीक उत्तर प्राप्त किया जा सकता है। हालाँकि, यह दृष्टिकोण सीमित भंडारण के लिए या प्रत्येक तत्व के लिए की गई गणना के लिए स्केल नहीं करता है कम किया जाना चाहिए. ऐसे मामले में, कई स्ट्रीमिंग एल्गोरिदम प्रस्तावित किए गए हैं जो निश्चित संख्या में भंडारण इकाइयों का उपयोग करते हैं।
हाइपरलॉगलॉग एल्गोरिथम
स्ट्रीमिंग एल्गोरिदम
सीमित भंडारण बाधा को संभालने के लिए, स्ट्रीमिंग एल्गोरिदम तत्वों की विशिष्ट संख्या का गैर-सटीक अनुमान उत्पन्न करने के लिए यादृच्छिककरण का उपयोग करते हैं, . अत्याधुनिक अनुमानक प्रत्येक तत्व को कार्यान्वित करते हैं हैश फ़ंक्शन का उपयोग करके निम्न-आयामी डेटा स्केच में, . विभिन्न तकनीकों को उनके द्वारा संग्रहीत डेटा स्केच के अनुसार वर्गीकृत किया जा सकता है।
न्यूनतम/अधिकतम रेखाचित्र
न्यूनतम/अधिकतम रेखाचित्र[2][3] केवल न्यूनतम/अधिकतम हैश किए गए मान संग्रहीत करें। ज्ञात न्यूनतम/अधिकतम स्केच अनुमानकों के उदाहरण: चेसिंग एट अल।[4] अधिकतम रेखाचित्र प्रस्तुत करता है जो समस्या के लिए न्यूनतम-विचरण निष्पक्ष अनुमानक है। सतत अधिकतम रेखाचित्र अनुमानक[5] अधिकतम संभावना अनुमानक है. व्यवहार में पसंद का अनुमानक हाइपरलॉगलॉग एल्गोरिदम है।[6] ऐसे अनुमानकों के पीछे अंतर्ज्ञान यह है कि प्रत्येक स्केच में वांछित मात्रा के बारे में जानकारी होती है। उदाहरण के लिए, जब प्रत्येक तत्व एक समान यादृच्छिक चर के साथ जुड़ा हुआ है, , का अपेक्षित न्यूनतम मूल्य है . हैश फ़ंक्शन इसकी गारंटी देता है के सभी स्वरूपों के लिए समान है . इस प्रकार, डुप्लिकेट का अस्तित्व चरम क्रम के आँकड़ों के मूल्य को प्रभावित नहीं करता है।
न्यूनतम/अधिकतम रेखाचित्रों के अलावा अन्य अनुमान तकनीकें भी हैं। गिनती-विशिष्ट अनुमान पर पहला पेपर[7] फ़्लैजोलेट-मार्टिन एल्गोरिथम, एक बिट पैटर्न स्केच का वर्णन करता है। इस मामले में, तत्वों को एक बिट वेक्टर में हैश किया गया है और स्केच सभी हैश किए गए मानों का तार्किक OR रखता है। इस समस्या के लिए पहला स्पर्शोन्मुख स्थान- और समय-इष्टतम एल्गोरिथ्म डैनियल केन (गणितज्ञ) द्वारा दिया गया था | डैनियल एम. केन, स्पष्टीकरण नेल्सन और डेविड पी. वुड्रूफ़।[8]
नीचे-एम रेखाचित्र
बॉटम-एम रेखाचित्र [9] न्यूनतम रेखाचित्रों का एक सामान्यीकरण है, जो बनाए रखता है न्यूनतम मान, कहाँ . कॉस्मा एट अल देखें।[2]गिनती-विशिष्ट अनुमान एल्गोरिदम और मेटवॉली के सैद्धांतिक अवलोकन के लिए
[10]
तुलनात्मक सिमुलेशन परिणामों के साथ एक व्यावहारिक अवलोकन के लिए।
भारित गिनती-विशिष्ट समस्या
इसके भारित संस्करण में, प्रत्येक तत्व एक वजन के साथ जुड़ा हुआ है और लक्ष्य वजन के कुल योग का अनुमान लगाना है। औपचारिक रूप से,
- उदाहरण: भारित तत्वों की एक धारा दोहराव और एक पूर्णांक के साथ . होने देना अर्थात् भिन्न तत्वों की संख्या हो , और इन तत्वों को रहने दें . अंत में, चलो का वजन हो .
- उद्देश्य: एक अनुमान खोजें का केवल उपयोग कर रहे हैं भंडारण इकाइयाँ, कहाँ .
भारित समस्या के उदाहरण का एक उदाहरण है: . इस उदाहरण के लिए, , वजन हैं और .
एक एप्लिकेशन उदाहरण के रूप में, सर्वर द्वारा प्राप्त इंटरनेट प्रोटोकॉल पैकेट हो सकते हैं। प्रत्येक पैकेट किसी एक का है आईपी प्रवाह . भार प्रवाह द्वारा लगाया गया भार हो सकता है सर्वर पर. इस प्रकार, यह उन सभी पैकेटों के प्रवाह द्वारा सर्वर पर लगाए गए कुल भार को दर्शाता है संबंधित होना।
भारित गिनती-विशिष्ट समस्या का समाधान
भारित समस्या के लिए किसी भी चरम क्रम सांख्यिकी अनुमानक (न्यूनतम/अधिकतम रेखाचित्र) को भारित समस्या के लिए एक अनुमानक के रूप में सामान्यीकृत किया जा सकता है .[11] उदाहरण के लिए, कोहेन एट अल द्वारा प्रस्तावित भारित अनुमानक।[5]जब भारित समस्या को हल करने के लिए निरंतर अधिकतम रेखाचित्र अनुमानक को बढ़ाया जाता है तो प्राप्त किया जा सकता है। विशेष रूप से, हाइपरलॉगलॉग एल्गोरिदम[6]जटिल समस्या को हल करने के लिए इसे बढ़ाया जा सकता है। विस्तारित हाइपरलॉग एल्गोरिदम, भारित समस्या के लिए अन्य सभी ज्ञात एल्गोरिदम के बीच, सांख्यिकीय सटीकता और मेमोरी उपयोग के मामले में सबसे अच्छा प्रदर्शन प्रदान करता है।
यह भी देखें
- गिनती-मिनट स्केच
- स्ट्रीमिंग एल्गोरिदम
- अधिकतम संभाव्यता
- न्यूनतम-विचरण निष्पक्ष अनुमानक
संदर्भ
- ↑ Ullman, Jeff; Rajaraman, Anand; Leskovec, Jure. "खनन डेटा धाराएँ" (PDF).
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ 2.0 2.1 Cosma, Ioana A.; Clifford, Peter (2011). "संभाव्य गणना एल्गोरिदम का एक सांख्यिकीय विश्लेषण". Scandinavian Journal of Statistics. arXiv:0801.3552.
- ↑ Giroire, Frederic; Fusy, Eric (2007). 2007 Proceedings of the Fourth Workshop on Analytic Algorithmics and Combinatorics (ANALCO). pp. 223–231. CiteSeerX 10.1.1.214.270. doi:10.1137/1.9781611972979.9. ISBN 978-1-61197-297-9.
- ↑ Chassaing, Philippe; Gerin, Lucas (2006). "बड़े डेटा सेट की प्रमुखता का कुशल अनुमान". Proceedings of the 4th Colloquium on Mathematics and Computer Science. arXiv:math/0701347. Bibcode:2007math......1347C.
- ↑ 5.0 5.1 Cohen, Edith (1997). "ट्रांजिटिव क्लोजर और रीचैबिलिटी के अनुप्रयोगों के साथ आकार-आकलन ढांचा". J. Comput. Syst. Sci. 55 (3): 441–453. doi:10.1006/jcss.1997.1534.
- ↑ 6.0 6.1 Flajolet, Philippe; Fusy, Eric; Gandouet, Olivier; Meunier, Frederic (2007). "HyperLoglog: the analysis of a near-optimal cardinality estimation algorithm" (PDF). Analysis of Algorithms.
- ↑ Flajolet, Philippe; Martin, G. Nigel (1985). "डेटा बेस अनुप्रयोगों के लिए संभाव्य गणना एल्गोरिदम" (PDF). J. Comput. Syst. Sci. 31 (2): 182–209. doi:10.1016/0022-0000(85)90041-8.
- ↑ Kane, Daniel M.; Nelson, Jelani; Woodruff, David P. (2010). "विशिष्ट तत्व समस्या के लिए एक इष्टतम एल्गोरिदम". Proceedings of the 29th Annual ACM Symposium on Principles of Database Systems (PODS).
- ↑ Cohen, Edith; Kaplan, Haim (2008). "नीचे के रेखाचित्रों का उपयोग करके सख्त अनुमान" (PDF). PVLDB.
- ↑ Metwally, Ahmed; Agrawal, Divyakant; Abbadi, Amr El (2008), Why go logarithmic if we can go linear?: Towards effective distinct counting of search traffic, Proceedings of the 11th international conference on Extending Database Technology: Advances in Database Technology, pp. 618–629, CiteSeerX 10.1.1.377.4771
- ↑ Cohen, Reuven; Katzir, Liran; Yehezkel, Aviv (2014). "योग एकत्रीकरण के लिए कार्डिनैलिटी अनुमानकों को सामान्य बनाने के लिए एक एकीकृत योजना". Information Processing Letters. 115 (2): 336–342. doi:10.1016/j.ipl.2014.10.009.