काउंट स्केच: Difference between revisions
No edit summary |
No edit summary |
||
Line 6: | Line 6: | ||
मूसा चारिकर, केविन चेन और मार्टिन फ़राच-कोल्टन<ref>Charikar, Moses, Kevin Chen, and Martin Farach-Colton. "Finding frequent items in data streams." International Colloquium on Automata, Languages, and Programming. Springer, Berlin, Heidelberg, 2002.</ref> धाराओं की आवृत्ति क्षणों का अनुमान लगाने के लिए एलोन, मटियास और ज़ेजेडी द्वारा [[ एम्स स्केच ]] को गति देने के प्रयास में।<ref>Alon, Noga, Yossi Matias, and Mario Szegedy. "The space complexity of approximating the frequency moments." Journal of Computer and system sciences 58.1 (1999): 137-147.</ref> | मूसा चारिकर, केविन चेन और मार्टिन फ़राच-कोल्टन<ref>Charikar, Moses, Kevin Chen, and Martin Farach-Colton. "Finding frequent items in data streams." International Colloquium on Automata, Languages, and Programming. Springer, Berlin, Heidelberg, 2002.</ref> धाराओं की आवृत्ति क्षणों का अनुमान लगाने के लिए एलोन, मटियास और ज़ेजेडी द्वारा [[ एम्स स्केच ]] को गति देने के प्रयास में।<ref>Alon, Noga, Yossi Matias, and Mario Szegedy. "The space complexity of approximating the frequency moments." Journal of Computer and system sciences 58.1 (1999): 137-147.</ref> | ||
स्केच लगभग जॉन मूडी द्वारा [[फ़ीचर हैशिंग]] एल्गोरिथम के समान है,<ref>Moody, John. "Fast learning in multi-resolution hierarchies." Advances in neural information processing systems. 1989.</ref> लेकिन कम निर्भरता वाले हैश फ़ंक्शंस के उपयोग में भिन्न है, जो इसे और अधिक व्यावहारिक बनाता है। | स्केच लगभग जॉन मूडी द्वारा [[फ़ीचर हैशिंग]] एल्गोरिथम के समान है,<ref>Moody, John. "Fast learning in multi-resolution hierarchies." Advances in neural information processing systems. 1989.</ref> लेकिन कम निर्भरता वाले हैश फ़ंक्शंस के उपयोग में भिन्न है, जो इसे और अधिक व्यावहारिक बनाता है। | ||
अभी भी सफलता की | अभी भी सफलता की उच्च संभावना होने के लिए, माध्य चाल का उपयोग माध्य के बजाय एकाधिक गणना रेखाचित्रों को एकत्र करने के लिए किया जाता है। | ||
ये गुण [[तंत्रिका नेटवर्क]] में स्पष्ट कर्नेल विधियों, बिलिनियर [[पूल (कंप्यूटर विज्ञान)]] के उपयोग की अनुमति देते हैं और कई संख्यात्मक रैखिक बीजगणित एल्गोरिदम में आधारशिला हैं।<ref name="woodruff">Woodruff, David P. "Sketching as a Tool for Numerical Linear Algebra." Theoretical Computer Science 10.1-2 (2014): 1–157.</ref> | ये गुण [[तंत्रिका नेटवर्क]] में स्पष्ट कर्नेल विधियों, बिलिनियर [[पूल (कंप्यूटर विज्ञान)]] के उपयोग की अनुमति देते हैं और कई संख्यात्मक रैखिक बीजगणित एल्गोरिदम में आधारशिला हैं।<ref name="woodruff">Woodruff, David P. "Sketching as a Tool for Numerical Linear Algebra." Theoretical Computer Science 10.1-2 (2014): 1–157.</ref> | ||
'''<br />ये गुण [[तंत्रिका नेटवर्क]] में स्पष्ट कर्नेल विधियों, बिलिनियर [[पूल (कंप्यूटर विज्ञान)]] | '''<br />ये गुण [[तंत्रिका नेटवर्क]] में स्पष्ट कर्नेल विधियों, बिलिनियर [[पूल (कंप्यूटर विज्ञान)]]''' | ||
== गणितीय परिभाषा == | == गणितीय परिभाषा == | ||
Line 21: | Line 21: | ||
2. प्रत्येक वस्तु के लिए <math>q_i</math> स्ट्रीम में, जोड़ें <math>s_j(q_i)</math> तक <math>h_j(q_i)</math>वें बाल्टी <math>j</math>वें हैश। | 2. प्रत्येक वस्तु के लिए <math>q_i</math> स्ट्रीम में, जोड़ें <math>s_j(q_i)</math> तक <math>h_j(q_i)</math>वें बाल्टी <math>j</math>वें हैश। | ||
इस प्रक्रिया के अंत में, | इस प्रक्रिया के अंत में, है <math>wd</math> रकम <math>(C_{ij})</math> कहाँ | ||
:<math>C_{i,j} = \sum_{h_i(k)=j}s_i(k).</math> | :<math>C_{i,j} = \sum_{h_i(k)=j}s_i(k).</math> | ||
की संख्या का अनुमान लगाने के लिए <math>q</math>निम्नलिखित मान की गणना करता है: | की संख्या का अनुमान लगाने के लिए <math>q</math>निम्नलिखित मान की गणना करता है: | ||
Line 32: | Line 32: | ||
=== वेक्टर सूत्रीकरण === | === वेक्टर सूत्रीकरण === | ||
वैकल्पिक रूप से काउंट-स्केच को | वैकल्पिक रूप से काउंट-स्केच को गैर-रैखिक पुनर्निर्माण समारोह के साथ रेखीय मानचित्रण के रूप में देखा जा सकता है। | ||
होने देना <math>M^{(i\in[d])}\in\{-1,0,1\}^{w \times n}</math>, का | होने देना <math>M^{(i\in[d])}\in\{-1,0,1\}^{w \times n}</math>, का संग्रह हो <math>d=2t+1</math> मैट्रिक्स, द्वारा परिभाषित | ||
:<math>M^{(i)}_{h_i(j),j} = s_i(j)</math> | :<math>M^{(i)}_{h_i(j),j} = s_i(j)</math> | ||
के लिए <math>j\in[w]</math> और 0 हर जगह। | के लिए <math>j\in[w]</math> और 0 हर जगह। | ||
फिर | फिर वेक्टर <math>v\in\mathbb{R}^n</math> द्वारा रेखांकन किया गया है <math>C^{(i)} = M^{(i)} v \in \mathbb{R}^w</math>. | ||
पुनर्निर्माण करना <math>v</math> हम लेते हैं <math>v^*_j = \text{median}_i C^{(i)}_j s_i(j)</math>. | पुनर्निर्माण करना <math>v</math> हम लेते हैं <math>v^*_j = \text{median}_i C^{(i)}_j s_i(j)</math>. | ||
यह वही गारंटी देता है जैसा कि ऊपर कहा गया है, अगर हम लेते हैं <math>m_1=\|v\|_1</math> और <math>m_2=\|v\|_2</math>. | यह वही गारंटी देता है जैसा कि ऊपर कहा गया है, अगर हम लेते हैं <math>m_1=\|v\|_1</math> और <math>m_2=\|v\|_2</math>. | ||
Line 45: | Line 45: | ||
दो वैक्टरों के [[बाहरी उत्पाद]] का काउंट स्केच प्रोजेक्शन दो कंपोनेंट काउंट स्केच के [[कनवल्शन]] के बराबर है। | दो वैक्टरों के [[बाहरी उत्पाद]] का काउंट स्केच प्रोजेक्शन दो कंपोनेंट काउंट स्केच के [[कनवल्शन]] के बराबर है। | ||
काउंट स्केच | काउंट स्केच वेक्टर कनवल्शन की गणना करता है | ||
<math>C^{(1)}x \ast C^{(2)}x^T</math>, कहाँ <math>C^{(1)}</math> और <math>C^{(2)}</math> स्वतंत्र गणना स्केच मेट्रिसेस हैं। | <math>C^{(1)}x \ast C^{(2)}x^T</math>, कहाँ <math>C^{(1)}</math> और <math>C^{(2)}</math> स्वतंत्र गणना स्केच मेट्रिसेस हैं। | ||
Line 59: | Line 59: | ||
| conference = SIGKDD international conference on Knowledge discovery and data mining | | conference = SIGKDD international conference on Knowledge discovery and data mining | ||
|doi = 10.1145/2487575.2487591}} | |doi = 10.1145/2487575.2487591}} | ||
</ref> दिखाएँ कि यह बराबर है <math>C(x \otimes x^T)</math> - | </ref> दिखाएँ कि यह बराबर है <math>C(x \otimes x^T)</math> - गिनती रेखाचित्र <math>C</math> वैक्टर के बाहरी उत्पाद का, जहाँ <math> \otimes </math> [[क्रोनकर उत्पाद]] को दर्शाता है। | ||
तेजी से फूरियर रूपांतरण का उपयोग गिनती रेखाचित्रों के तेजी से कनवल्शन करने के लिए किया जा सकता है। | तेजी से फूरियर रूपांतरण का उपयोग गिनती रेखाचित्रों के तेजी से कनवल्शन करने के लिए किया जा सकता है। |
Revision as of 12:49, 17 May 2023
Part of a series on |
Machine learning and data mining |
---|
काउंट स्केच एक प्रकार की आयामीता में कमी है जो सांख्यिकी, यंत्र अधिगम और एल्गोरिदम में विशेष रूप से कुशल है।[1][2] द्वारा इसका आविष्कार किया गया था मूसा चारिकर, केविन चेन और मार्टिन फ़राच-कोल्टन[3] धाराओं की आवृत्ति क्षणों का अनुमान लगाने के लिए एलोन, मटियास और ज़ेजेडी द्वारा एम्स स्केच को गति देने के प्रयास में।[4] स्केच लगभग जॉन मूडी द्वारा फ़ीचर हैशिंग एल्गोरिथम के समान है,[5] लेकिन कम निर्भरता वाले हैश फ़ंक्शंस के उपयोग में भिन्न है, जो इसे और अधिक व्यावहारिक बनाता है। अभी भी सफलता की उच्च संभावना होने के लिए, माध्य चाल का उपयोग माध्य के बजाय एकाधिक गणना रेखाचित्रों को एकत्र करने के लिए किया जाता है।
ये गुण तंत्रिका नेटवर्क में स्पष्ट कर्नेल विधियों, बिलिनियर पूल (कंप्यूटर विज्ञान) के उपयोग की अनुमति देते हैं और कई संख्यात्मक रैखिक बीजगणित एल्गोरिदम में आधारशिला हैं।[6]
ये गुण तंत्रिका नेटवर्क में स्पष्ट कर्नेल विधियों, बिलिनियर पूल (कंप्यूटर विज्ञान)
गणितीय परिभाषा
1. स्थिरांक के लिए और (बाद में परिभाषित किया जाएगा) स्वतंत्र रूप से चुनें यादृच्छिक हैश फ़ंक्शन और ऐसा है कि और . यह आवश्यक है कि जिस हैश परिवार से और जोड़ीदार स्वतंत्र चुने जाते हैं।
2. प्रत्येक वस्तु के लिए स्ट्रीम में, जोड़ें तक वें बाल्टी वें हैश।
इस प्रक्रिया के अंत में, है रकम कहाँ
की संख्या का अनुमान लगाने के लिए निम्नलिखित मान की गणना करता है:
मूल्य कितनी बार निष्पक्ष अनुमान हैं प्रवाह में प्रकट हुआ है।
अनुमान भिन्नता है , कहाँ धारा की लंबाई है और है .[7] आगे, से अधिक कभी नहीं होने की गारंटी है सही मूल्य से दूर, संभावना के साथ .
वेक्टर सूत्रीकरण
वैकल्पिक रूप से काउंट-स्केच को गैर-रैखिक पुनर्निर्माण समारोह के साथ रेखीय मानचित्रण के रूप में देखा जा सकता है। होने देना , का संग्रह हो मैट्रिक्स, द्वारा परिभाषित
के लिए और 0 हर जगह।
फिर वेक्टर द्वारा रेखांकन किया गया है . पुनर्निर्माण करना हम लेते हैं . यह वही गारंटी देता है जैसा कि ऊपर कहा गया है, अगर हम लेते हैं और .
टेन्सर स्केच से संबंध
दो वैक्टरों के बाहरी उत्पाद का काउंट स्केच प्रोजेक्शन दो कंपोनेंट काउंट स्केच के कनवल्शन के बराबर है।
काउंट स्केच वेक्टर कनवल्शन की गणना करता है
, कहाँ और स्वतंत्र गणना स्केच मेट्रिसेस हैं।
फाम और पाघ[8] दिखाएँ कि यह बराबर है - गिनती रेखाचित्र वैक्टर के बाहरी उत्पाद का, जहाँ क्रोनकर उत्पाद को दर्शाता है।
तेजी से फूरियर रूपांतरण का उपयोग गिनती रेखाचित्रों के तेजी से कनवल्शन करने के लिए किया जा सकता है। खत्री-राव_उत्पाद#चेहरा-विभाजन_उत्पाद|चेहरा-विभाजन उत्पाद का उपयोग करके[9][10][11] ऐसी संरचनाओं की गणना सामान्य मेट्रिसेस की तुलना में बहुत तेजी से की जा सकती है।
यह भी देखें
- काउंट-मिन स्केच
- Tensorsketch
संदर्भ
- ↑ Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. "Multispectral Periocular Classification WithMultimodal Compact Multi-Linear Pooling" [1]. IEEE Access, Vol. 5. 2017.
- ↑ Ahle, Thomas; Knudsen, Jakob (2019-09-03). "लगभग इष्टतम टेंसर स्केच". ResearchGate. Retrieved 2020-07-11.
- ↑ Charikar, Moses, Kevin Chen, and Martin Farach-Colton. "Finding frequent items in data streams." International Colloquium on Automata, Languages, and Programming. Springer, Berlin, Heidelberg, 2002.
- ↑ Alon, Noga, Yossi Matias, and Mario Szegedy. "The space complexity of approximating the frequency moments." Journal of Computer and system sciences 58.1 (1999): 137-147.
- ↑ Moody, John. "Fast learning in multi-resolution hierarchies." Advances in neural information processing systems. 1989.
- ↑ Woodruff, David P. "Sketching as a Tool for Numerical Linear Algebra." Theoretical Computer Science 10.1-2 (2014): 1–157.
- ↑ Larsen, Kasper Green, Rasmus Pagh, and Jakub Tětek. "CountSketches, Feature Hashing and the Median of Three." International Conference on Machine Learning. PMLR, 2021.
- ↑ Ninh, Pham; Pagh, Rasmus (2013). Fast and scalable polynomial kernels via explicit feature maps. SIGKDD international conference on Knowledge discovery and data mining. Association for Computing Machinery. doi:10.1145/2487575.2487591.
- ↑ Slyusar, V. I. (1998). "रडार अनुप्रयोगों में मेट्रिसेस में अंतिम उत्पाद" (PDF). Radioelectronics and Communications Systems. 41 (3): 50–53.
- ↑ Slyusar, V. I. (1997-05-20). "फेस-स्प्लिटिंग मैट्रिक्स उत्पादों के आधार पर डिजिटल एंटीना सरणी का विश्लेषणात्मक मॉडल।" (PDF). Proc. ICATT-97, Kyiv: 108–109.
- ↑ Slyusar, V. I. (March 13, 1998). "मैट्रिसेस और उसके गुणों के फेस प्रोडक्ट्स का एक परिवार" (PDF). Cybernetics and Systems Analysis C/C of Kibernetika I Sistemnyi Analiz.- 1999. 35 (3): 379–384. doi:10.1007/BF02733426. S2CID 119661450.
अग्रिम पठन
- Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. "Multispectral Periocular Classification WithMultimodal Compact Multi-Linear Pooling" [1]. IEEE Access, Vol. 5. 2017.
- Ahle, Thomas; Knudsen, Jakob (2019-09-03). "Almost Optimal Tensor Sketch". ResearchGate. Retrieved 2020-07-11.