यादृच्छिक प्रक्षेपण
This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages)
(Learn how and when to remove this template message)
|
गणित और सांख्यिकी में, यादृच्छिक प्रक्षेपण एक ऐसी तकनीक है जिसका उपयोग यूक्लिडियन अंतरिक्ष में स्थित बिंदुओं के एक सेट के आयाम में कमी के लिए किया जाता है। अन्य विधियों की तुलना में यादृच्छिक प्रक्षेपण विधियों को उनकी शक्ति, सरलता और कम त्रुटि दर के लिए जाना जाता है[citation needed]. प्रायोगिक परिणामों के अनुसार, यादृच्छिक प्रक्षेपण दूरियों को अच्छी तरह से संरक्षित करता है, लेकिन अनुभवजन्य परिणाम विरल हैं।[1] उन्हें यादृच्छिक अनुक्रमण नाम के तहत कई प्राकृतिक भाषा कार्यों में लागू किया गया है।
आयामीता में कमी
आयाम में कमी, जैसा कि नाम से पता चलता है, सांख्यिकी और मशीन सीखने से विभिन्न गणितीय विधियों का उपयोग करके यादृच्छिक चर की संख्या को कम कर रहा है। बड़े डेटा सेट के प्रबंधन और हेरफेर की समस्या को कम करने के लिए अक्सर आयाम में कमी का उपयोग किया जाता है। आयामीता में कमी की तकनीक आम तौर पर कई गुना की आंतरिक आयामीता को निर्धारित करने के साथ-साथ इसके प्रमुख दिशाओं को निकालने में रैखिक परिवर्तनों का उपयोग करती है। इस उद्देश्य के लिए विभिन्न संबंधित तकनीकें हैं, जिनमें शामिल हैं: प्रमुख घटक विश्लेषण, रैखिक विभेदक विश्लेषण, विहित सहसंबंध विश्लेषण, असतत कोसाइन परिवर्तन, यादृच्छिक प्रक्षेपण, आदि।
यादृच्छिक प्रक्षेपण तेजी से प्रसंस्करण समय और छोटे मॉडल आकारों के लिए त्रुटि की नियंत्रित मात्रा का व्यापार करके डेटा के आयाम को कम करने का एक सरल और कम्प्यूटेशनल रूप से कुशल तरीका है। यादृच्छिक प्रोजेक्शन मैट्रिसेस के आयाम और वितरण को नियंत्रित किया जाता है ताकि डेटासेट के किसी भी दो नमूनों के बीच जोड़ीदार दूरी को लगभग संरक्षित किया जा सके।
विधि
यादृच्छिक प्रक्षेपण के पीछे मुख्य विचार जॉनसन-लिंडनस्ट्रॉस लेम्मा में दिया गया है,[2] जिसमें कहा गया है कि यदि सदिश स्थान में बिंदु पर्याप्त रूप से उच्च आयाम के हैं, तो उन्हें उपयुक्त निम्न-आयामी स्थान में इस तरह प्रक्षेपित किया जा सकता है जो बिंदुओं के बीच की दूरी को लगभग संरक्षित करता है।
यादृच्छिक प्रक्षेपण में, मूल डी-डायमेंशनल डेटा को एक के-डायमेंशनल (के << डी) सबस्पेस में एक यादृच्छिक का उपयोग करके प्रक्षेपित किया जाता है - आयामी मैट्रिक्स जिसके स्तंभों की इकाई लंबाई है।[citation needed] मैट्रिक्स नोटेशन का उपयोग करना: यदि एन डी-आयामी अवलोकनों का मूल सेट है, फिर निम्न k-आयामी उप-स्थान पर डेटा का प्रक्षेपण है। रैंडम प्रोजेक्शन कम्प्यूटेशनल रूप से सरल है: रैंडम मैट्रिक्स R बनाएं और प्रोजेक्ट करें ऑर्डर के K आयामों पर डेटा मैट्रिक्स X . यदि डेटा मैट्रिक्स X विरल है और प्रति स्तंभ लगभग c गैर-शून्य प्रविष्टियाँ हैं, तो इस ऑपरेशन की जटिलता क्रम की है .[3]
गाऊसी यादृच्छिक प्रक्षेपण
गाऊसी वितरण का उपयोग करके यादृच्छिक मैट्रिक्स आर उत्पन्न किया जा सकता है। पहली पंक्ति एक यादृच्छिक इकाई वेक्टर है जिसे समान रूप से चुना गया है . दूसरी पंक्ति अंतरिक्ष ऑर्थोगोनल से पहली पंक्ति तक एक यादृच्छिक इकाई वेक्टर है, तीसरी पंक्ति अंतरिक्ष ऑर्थोगोनल से पहली दो पंक्तियों तक एक यादृच्छिक इकाई वेक्टर है, और इसी तरह। इस प्रकार R को चुनने पर निम्नलिखित गुण संतुष्ट होते हैं:
- गोलाकार समरूपता: किसी भी ओर्थोगोनल मैट्रिक्स के लिए , RA और R का वितरण समान है।
- लम्बवत: R की पंक्तियाँ एक दूसरे के लम्बवत हैं।
- सामान्यता: R की पंक्तियाँ इकाई-लंबाई वाले वैक्टर हैं।
अधिक कम्प्यूटेशनल रूप से कुशल यादृच्छिक अनुमान
अचलोपता[4] ने दिखाया है कि गॉसियन वितरण को बहुत सरल वितरण द्वारा प्रतिस्थापित किया जा सकता है जैसे कि
यह डेटाबेस अनुप्रयोगों के लिए कुशल है क्योंकि पूर्णांक अंकगणितीय का उपयोग करके संगणना की जा सकती है। में अधिक संबंधित अध्ययन किया जाता है।[5] यह बाद में दिखाया गया कि स्पार्स जेएल ट्रांसफॉर्म पर काम में, वितरण को और भी विरल बनाते हुए पूर्णांक अंकगणित का उपयोग कैसे किया जाए, जिसमें प्रति स्तंभ बहुत कम गैर शून्य हैं।[6] यह फायदेमंद है क्योंकि एक विरल एम्बेडिंग मैट्रिक्स का मतलब डेटा को कम आयाम में और भी तेज़ी से प्रोजेक्ट करने में सक्षम होना है।
परिमाणीकरण के साथ यादृच्छिक प्रक्षेपण
रैंडम प्रोजेक्शन को 1-बिट (साइन रैंडम प्रोजेक्शन) या मल्टी-बिट्स के साथ परिमाणीकरण (विवेकीकरण) द्वारा आगे बढ़ाया जा सकता है। यह सिमहैश का निर्माण खंड है,[7] आरपी पेड़,[8] और अन्य स्मृति कुशल आकलन और सीखने के तरीके।[9][10]
बड़ा क्वासियोर्थोगोनल आधार (रैखिक बीजगणित)
जॉनसन-लिंडनस्ट्रॉस लेम्मा|जॉनसन-लिंडनस्ट्रॉस लेम्मा कहता है कि एक उच्च-आयामी अंतरिक्ष में वैक्टर के बड़े सेट को दूरी के अनुमानित संरक्षण के साथ बहुत कम (लेकिन अभी भी उच्च) आयाम n के स्थान में रैखिक रूप से मैप किया जा सकता है। इस आशय की व्याख्याओं में से एक एन-आयामी यूक्लिडियन अंतरिक्ष का घातीय रूप से उच्च क्वासियोर्थोगोनल आयाम है।[11] एन-आयामी यूक्लिडियन अंतरिक्ष में लगभग ओर्थोगोनालिटी वैक्टर (आंतरिक उत्पाद स्थान के छोटे मूल्य के साथ) के घातीय रूप से बड़े (आयाम एन में) सेट हैं। यह अवलोकन उच्च-आयामी डेटा के डाटाबेस इंडेक्स में उपयोगी है।[12] मशीन सीखने में यादृच्छिक सन्निकटन के तरीकों के लिए बड़े यादृच्छिक सेटों की क्वासियोर्थोगोनलिटी महत्वपूर्ण है। उच्च आयामों में, एक गोले पर (और कई अन्य वितरणों से) समवितरण से बेतरतीब ढंग से और स्वतंत्र रूप से चुने गए सदिशों की घातीय रूप से बड़ी संख्या एक के करीब संभावना के साथ लगभग ओर्थोगोनल हैं।[13] इसका तात्पर्य यह है कि यादृच्छिक और स्वतंत्र रूप से चुने गए वैक्टरों के रैखिक संयोजनों द्वारा इस तरह के उच्च-आयामी स्थान के एक तत्व का प्रतिनिधित्व करने के लिए, यदि हम रैखिक संयोजनों में परिबद्ध गुणांक का उपयोग करते हैं, तो अक्सर घातीय रूप से बड़ी लंबाई के नमूने उत्पन्न करना आवश्यक हो सकता है। दूसरी ओर, यदि मनमाने ढंग से बड़े मूल्यों वाले गुणांकों की अनुमति है, तो यादृच्छिक रूप से उत्पन्न तत्वों की संख्या जो सन्निकटन के लिए पर्याप्त हैं, डेटा स्थान के आयाम से भी कम है।
कार्यान्वयन
- RandPro - यादृच्छिक प्रक्षेपण के लिए एक आर पैकेज [14][15]
- [http://scikit-learn.org/stable/modules/random_projection.html sklearn.random_projection] - स्किकिट-लर्न पाइथन लाइब्रेरी से रैंडम प्रोजेक्शन के लिए एक मॉड्यूल
- वीका कार्यान्वयन [1]
यह भी देखें
- स्थानीयता-संवेदनशील हैशिंग
- रैंडम मैपिंग
- जॉनसन-लिंडनस्ट्रॉस लेम्मा
संदर्भ
- ↑ Ella, Bingham; Heikki, Mannila (2001). "Random projection in dimensionality reduction: Applications to image and text data". KDD-2001: Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery. pp. 245–250. CiteSeerX 10.1.1.24.5135. doi:10.1145/502512.502546.
- ↑ Johnson, William B.; Lindenstrauss, Joram (1984). "Extensions of Lipschitz mappings into a Hilbert space". Conference in Modern Analysis and Probability (New Haven, Conn., 1982). Contemporary Mathematics. Vol. 26. Providence, RI: American Mathematical Society. pp. 189–206. doi:10.1090/conm/026/737400. ISBN 9780821850305. MR 0737400. S2CID 117819162..
- ↑ Bingham, Ella; Mannila, Heikki (May 6, 2014). "Random projection in dimensionality reduction: Applications to image and text data" (PDF).
- ↑ Achlioptas, Dimitris (2001). "Database-friendly random projections". डेटाबेस सिस्टम के सिद्धांतों पर बीसवीं ACM SIGMOD-SIGACT-SIGART संगोष्ठी की कार्यवाही - PODS '01. pp. 274–281. CiteSeerX 10.1.1.28.6652. doi:10.1145/375551.375608. ISBN 978-1581133615. S2CID 2640788.
- ↑ Li, Ping; Hastie, Trevor; Church, Kenneth (2006). "Very sparse random projections". 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (1): 287–296. doi:10.1145/1150402.1150436. ISBN 1595933395. S2CID 7995734.
- ↑ Kane, Daniel M.; Nelson, Jelani (2014). "Sparser Johnson-Lindenstrauss Transforms". Journal of the ACM. 61 (1): 1–23. arXiv:1012.1577. doi:10.1145/2559902. MR 3167920. S2CID 7821848.
- ↑ Charikar, Moses (2002). "Similarity estimation techniques from rounding algorithms". 34-th Annual ACM Symposium on Theory of Computing. 1 (1): 380–388. doi:10.1145/509907.509965. ISBN 1581134959. S2CID 4229473.
- ↑ Freund, Yoav; Dasgupta, Sanjoy; Kabra, Mayank; Verma, Nakul (2007). "Learning the structure of manifolds using random projections". 20th International Conference on Neural Information Processing Systems. 1 (1): 473–480.
- ↑ Boufounos, Petros; Baraniuk, Richard (2008). "1-bit Compressive Sensing". 42nd Annual Conference on Information Sciences and Systems. 1 (1): 16–21. doi:10.1109/CISS.2008.4558487. S2CID 206563812.
- ↑ Li, Xiaoyun; Li, Ping (2019). "Generalization error analysis of quantized compressive learning". 33rd International Conference on Neural Information Processing Systems. 1: 15150–15160.
- ↑ Kainen, Paul C.; Kůrková, Věra (1993), "Quasiorthogonal dimension of Euclidean spaces", Applied Mathematics Letters, 6 (3): 7–10, doi:10.1016/0893-9659(93)90023-G, MR 1347278
- ↑ Hecht-Nielsen, R. (1994). "Context vectors: General-purpose approximate meaning representations self-organized from raw data". In Zurada, Jacek M.; Marks, Robert Jackson; Robinson, Charles J. (eds.). Computational Intelligence: Imitating Life. IEEE. pp. 43–56. ISBN 978-0-7803-1104-6.
- ↑ Gorban, Alexander N.; Tyukin, Ivan Y.; Prokhorov, Danil V.; Sofeikov, Konstantin I. (2016). "Approximation with Random Bases: Pro et Contra". Information Sciences. 364–365: 129–145. arXiv:1506.04631. doi:10.1016/j.ins.2015.09.021. S2CID 2239376.
- ↑ Ravindran, Siddharth (2020). "के-निकटतम पड़ोसी (के-एनएन) का उपयोग करके बड़े डेटा वर्गीकरण में आयाम में कमी के लिए डेटा-स्वतंत्र पुन: प्रयोज्य प्रक्षेपण (डीआईआरपी) तकनीक". National Academy Science Letters. 43: 13–21. doi:10.1007/s40009-018-0771-6. S2CID 91946077.
- ↑ Siddharth, R.; Aghila, G. (July 2020). "RandPro- आर में उच्च आयामी बहुभिन्नरूपी डेटा विश्लेषण के लिए यादृच्छिक प्रक्षेपण-आधारित सुविधा निष्कर्षण का एक व्यावहारिक कार्यान्वयन". SoftwareX. 12: 100629. Bibcode:2020SoftX..1200629S. doi:10.1016/j.softx.2020.100629.
अग्रिम पठन
- Fodor, Imola K (2002). A survey of dimension reduction techniques (Report). CiteSeerX 10.1.1.8.5098.
- Menon, Aditya Krishna (2007). Random projections and applications to dimensionality reduction (Thesis). CiteSeerX 10.1.1.164.640.
- Ramdas, Aditya. A Random Introduction To Random Projections (Report). CiteSeerX 10.1.1.377.2593.