यादृच्छिक प्रक्षेपण: Difference between revisions

Revision as of 10:15, 27 May 2023

गणित और सांख्यिकी में यादृच्छिक प्रक्षेपण एक ऐसी विधि है जिसका उपयोग यूक्लिडियन अंतरिक्ष में स्थित बिंदुओं के एक सेट के आयाम में कमी के लिए किया जाता है। अन्य विधियों की तुलना में यादृच्छिक प्रक्षेपण विधियों को उनकी शक्ति सरलता और कम त्रुटि दर के लिए जाना जाता है. प्रायोगिक परिणामों के अनुसार यादृच्छिक प्रक्षेपण दूरियों को अच्छी तरह से संरक्षित करता है किंतु अनुभवजन्य परिणाम विरल हैं।^[1] उन्हें यादृच्छिक अनुक्रमण नाम के तहत कई प्राकृतिक भाषा कार्यों में प्रयुक्त किया गया है।

आयामीता में कमी

आयाम में कमी जैसा कि नाम से पता चलता है सांख्यिकी और मशीन सीखने से विभिन्न गणितीय विधियों का उपयोग करके यादृच्छिक चर की संख्या को कम कर रहा है। बड़े डेटा सेट के प्रबंधन और हेरफेर की समस्या को कम करने के लिए अधिकांशतः आयाम में कमी का उपयोग किया जाता है। आयामीता में कमी की विधि सामान्यतः कई गुना की आंतरिक आयामीता को निर्धारित करने के साथ-साथ इसके प्रमुख दिशाओं को निकालने में रैखिक परिवर्तनों का उपयोग करती है। इस उद्देश्य के लिए विभिन्न संबंधित विधि हैं जिनमें सम्मिलित हैं: प्रमुख घटक विश्लेषण रैखिक विभेदक विश्लेषण विहित सहसंबंध विश्लेषण, असतत कोसाइन परिवर्तन, यादृच्छिक प्रक्षेपण आदि।

यादृच्छिक प्रक्षेपण तेजी से प्रसंस्करण समय और छोटे मॉडल आकारों के लिए त्रुटि की नियंत्रित मात्रा का व्यापार करके डेटा के आयाम को कम करने का एक सरल और कम्प्यूटेशनल रूप से कुशल विधि है। यादृच्छिक प्रोजेक्शन मैट्रिसेस के आयाम और वितरण को नियंत्रित किया जाता है जिससे डेटासेट के किसी भी दो नमूनों के बीच जोड़ीदार दूरी को लगभग संरक्षित किया जा सकता है ।

विधि

यादृच्छिक प्रक्षेपण के पीछे मुख्य विचार जॉनसन-लिंडनस्ट्रॉस लेम्मा में दिया गया है,^[2] जिसमें कहा गया है कि यदि सदिश स्थान में बिंदु पर्याप्त रूप से उच्च आयाम के हैं तो उन्हें उपयुक्त निम्न-आयामी स्थान में इस तरह प्रक्षेपित किया जा सकता है जो बिंदुओं के बीच की दूरी को लगभग संरक्षित करता है।

यादृच्छिक प्रक्षेपण में मूल डी-डायमेंशनल डेटा को एक के-डायमेंशनल (के << डी) सबस्पेस में एक यादृच्छिक का उपयोग करके प्रक्षेपित किया जाता है $k\times d$ - आयामी मैट्रिक्स जिसके स्तंभों की इकाई लंबाई है। मैट्रिक्स नोटेशन का उपयोग करना: यदि $X_{d\times N}$ एन डी-आयामी अवलोकनों का मूल सेट है, फिर $X_{k\times N}^{RP}=R_{k\times d}X_{d\times N}$ निम्न k-आयामी उप-स्थान पर डेटा का प्रक्षेपण है। रैंडम प्रोजेक्शन कम्प्यूटेशनल रूप से सरल है: रैंडम मैट्रिक्स R बनाएं और प्रोजेक्ट करें $d\times N$ ऑर्डर के K आयामों पर डेटा मैट्रिक्स X $O(dkN)$ . यदि डेटा मैट्रिक्स X विरल है और प्रति स्तंभ लगभग c गैर-शून्य प्रविष्टियाँ हैं, तो इस ऑपरेशन की जटिलता क्रम की है $O(ckN)$ .^[3]

गाऊसी यादृच्छिक प्रक्षेपण

गाऊसी वितरण का उपयोग करके यादृच्छिक मैट्रिक्स आर उत्पन्न किया जा सकता है। पहली पंक्ति एक यादृच्छिक इकाई वेक्टर है जिसे समान रूप से चुना गया है $S^{d-1}$ . दूसरी पंक्ति अंतरिक्ष ऑर्थोगोनल से पहली पंक्ति तक एक यादृच्छिक इकाई वेक्टर है, तीसरी पंक्ति अंतरिक्ष ऑर्थोगोनल से पहली दो पंक्तियों तक एक यादृच्छिक इकाई वेक्टर है, और इसी तरह। इस प्रकार R को चुनने पर निम्नलिखित गुण संतुष्ट होते हैं:

गोलाकार समरूपता: किसी भी ओर्थोगोनल मैट्रिक्स के लिए $A\in O(d)$ , RA और R का वितरण समान है।
लम्बवत: R की पंक्तियाँ एक दूसरे के लम्बवत हैं।
सामान्यता: R की पंक्तियाँ इकाई-लंबाई वाले वैक्टर हैं।

अधिक कम्प्यूटेशनल रूप से कुशल यादृच्छिक अनुमान

अचलोपता^[4] ने दिखाया है कि गॉसियन वितरण को बहुत सरल वितरण द्वारा प्रतिस्थापित किया जा सकता है जैसे कि

R_{i,j}={\sqrt {3}}\times {\begin{cases}+1&{\text{with probability }}{\frac {1}{6}}\\0&{\text{with probability }}{\frac {2}{3}}\\-1&{\text{with probability }}{\frac {1}{6}}\end{cases}}

यह डेटाबेस अनुप्रयोगों के लिए कुशल है क्योंकि पूर्णांक अंकगणितीय का उपयोग करके संगणना की जा सकती है। में अधिक संबंधित अध्ययन किया जाता है।^[5] यह बाद में दिखाया गया कि स्पार्स जेएल ट्रांसफॉर्म पर काम में, वितरण को और भी विरल बनाते हुए पूर्णांक अंकगणित का उपयोग कैसे किया जाए, जिसमें प्रति स्तंभ बहुत कम गैर शून्य हैं।^[6] यह फायदेमंद है क्योंकि एक विरल एम्बेडिंग मैट्रिक्स का मतलब डेटा को कम आयाम में और भी तेज़ी से प्रोजेक्ट करने में सक्षम होना है।

परिमाणीकरण के साथ यादृच्छिक प्रक्षेपण

रैंडम प्रोजेक्शन को 1-बिट (साइन रैंडम प्रोजेक्शन) या मल्टी-बिट्स के साथ परिमाणीकरण (विवेकीकरण) द्वारा आगे बढ़ाया जा सकता है। यह सिमहैश का निर्माण खंड है,^[7] आरपी पेड़,^[8] और अन्य स्मृति कुशल आकलन और सीखने के तरीके।^[9]^[10]

बड़ा क्वासियोर्थोगोनल आधार (रैखिक बीजगणित)

जॉनसन-लिंडनस्ट्रॉस लेम्मा|जॉनसन-लिंडनस्ट्रॉस लेम्मा कहता है कि एक उच्च-आयामी अंतरिक्ष में वैक्टर के बड़े सेट को दूरी के अनुमानित संरक्षण के साथ बहुत कम (किंतु अभी भी उच्च) आयाम n के स्थान में रैखिक रूप से मैप किया जा सकता है। इस आशय की व्याख्याओं में से एक एन-आयामी यूक्लिडियन अंतरिक्ष का घातीय रूप से उच्च क्वासियोर्थोगोनल आयाम है।^[11] एन-आयामी यूक्लिडियन अंतरिक्ष में लगभग ओर्थोगोनालिटी वैक्टर (आंतरिक उत्पाद स्थान के छोटे मूल्य के साथ) के घातीय रूप से बड़े (आयाम एन में) सेट हैं। यह अवलोकन उच्च-आयामी डेटा के डाटाबेस इंडेक्स में उपयोगी है।^[12] मशीन सीखने में यादृच्छिक सन्निकटन के तरीकों के लिए बड़े यादृच्छिक सेटों की क्वासियोर्थोगोनलिटी महत्वपूर्ण है। उच्च आयामों में, एक गोले पर (और कई अन्य वितरणों से) समवितरण से बेतरतीब ढंग से और स्वतंत्र रूप से चुने गए सदिशों की घातीय रूप से बड़ी संख्या एक के करीब संभावना के साथ लगभग ओर्थोगोनल हैं।^[13] इसका तात्पर्य यह है कि यादृच्छिक और स्वतंत्र रूप से चुने गए वैक्टरों के रैखिक संयोजनों द्वारा इस तरह के उच्च-आयामी स्थान के एक तत्व का प्रतिनिधित्व करने के लिए, यदि हम रैखिक संयोजनों में परिबद्ध गुणांक का उपयोग करते हैं, तो अधिकांशतः घातीय रूप से बड़ी लंबाई के नमूने उत्पन्न करना आवश्यक हो सकता है। दूसरी ओर, यदि मनमाने ढंग से बड़े मूल्यों वाले गुणांकों की अनुमति है, तो यादृच्छिक रूप से उत्पन्न तत्वों की संख्या जो सन्निकटन के लिए पर्याप्त हैं, डेटा स्थान के आयाम से भी कम है।

कार्यान्वयन

RandPro - यादृच्छिक प्रक्षेपण के लिए एक आर पैकेज ^[14]^[15]
[http://scikit-learn.org/stable/modules/random_projection.html sklearn.random_projection] - स्किकिट-लर्न पाइथन लाइब्रेरी से रैंडम प्रोजेक्शन के लिए एक मॉड्यूल
वीका कार्यान्वयन [1]

यह भी देखें

स्थानीयता-संवेदनशील हैशिंग
रैंडम मैपिंग
जॉनसन-लिंडनस्ट्रॉस लेम्मा

संदर्भ

↑ Ella, Bingham; Heikki, Mannila (2001). "Random projection in dimensionality reduction: Applications to image and text data". KDD-2001: Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery. pp. 245–250. CiteSeerX 10.1.1.24.5135. doi:10.1145/502512.502546.
↑ Johnson, William B.; Lindenstrauss, Joram (1984). "Extensions of Lipschitz mappings into a Hilbert space". Conference in Modern Analysis and Probability (New Haven, Conn., 1982). Contemporary Mathematics. Vol. 26. Providence, RI: American Mathematical Society. pp. 189–206. doi:10.1090/conm/026/737400. ISBN 9780821850305. MR 0737400. S2CID 117819162..
↑ Bingham, Ella; Mannila, Heikki (May 6, 2014). "Random projection in dimensionality reduction: Applications to image and text data" (PDF).
↑ Achlioptas, Dimitris (2001). "Database-friendly random projections". डेटाबेस सिस्टम के सिद्धांतों पर बीसवीं ACM SIGMOD-SIGACT-SIGART संगोष्ठी की कार्यवाही - PODS '01. pp. 274–281. CiteSeerX 10.1.1.28.6652. doi:10.1145/375551.375608. ISBN 978-1581133615. S2CID 2640788.
↑ Li, Ping; Hastie, Trevor; Church, Kenneth (2006). "Very sparse random projections". 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (1): 287–296. doi:10.1145/1150402.1150436. ISBN 1595933395. S2CID 7995734.
↑ Kane, Daniel M.; Nelson, Jelani (2014). "Sparser Johnson-Lindenstrauss Transforms". Journal of the ACM. 61 (1): 1–23. arXiv:1012.1577. doi:10.1145/2559902. MR 3167920. S2CID 7821848.
↑ Charikar, Moses (2002). "Similarity estimation techniques from rounding algorithms". 34-th Annual ACM Symposium on Theory of Computing. 1 (1): 380–388. doi:10.1145/509907.509965. ISBN 1581134959. S2CID 4229473.
↑ Freund, Yoav; Dasgupta, Sanjoy; Kabra, Mayank; Verma, Nakul (2007). "Learning the structure of manifolds using random projections". 20th International Conference on Neural Information Processing Systems. 1 (1): 473–480.
↑ Boufounos, Petros; Baraniuk, Richard (2008). "1-bit Compressive Sensing". 42nd Annual Conference on Information Sciences and Systems. 1 (1): 16–21. doi:10.1109/CISS.2008.4558487. S2CID 206563812.
↑ Li, Xiaoyun; Li, Ping (2019). "Generalization error analysis of quantized compressive learning". 33rd International Conference on Neural Information Processing Systems. 1: 15150–15160.
↑ Kainen, Paul C.; Kůrková, Věra (1993), "Quasiorthogonal dimension of Euclidean spaces", Applied Mathematics Letters, 6 (3): 7–10, doi:10.1016/0893-9659(93)90023-G, MR 1347278
↑ Hecht-Nielsen, R. (1994). "Context vectors: General-purpose approximate meaning representations self-organized from raw data". In Zurada, Jacek M.; Marks, Robert Jackson; Robinson, Charles J. (eds.). Computational Intelligence: Imitating Life. IEEE. pp. 43–56. ISBN 978-0-7803-1104-6.
↑ Gorban, Alexander N.; Tyukin, Ivan Y.; Prokhorov, Danil V.; Sofeikov, Konstantin I. (2016). "Approximation with Random Bases: Pro et Contra". Information Sciences. 364–365: 129–145. arXiv:1506.04631. doi:10.1016/j.ins.2015.09.021. S2CID 2239376.
↑ Ravindran, Siddharth (2020). "के-निकटतम पड़ोसी (के-एनएन) का उपयोग करके बड़े डेटा वर्गीकरण में आयाम में कमी के लिए डेटा-स्वतंत्र पुन: प्रयोज्य प्रक्षेपण (डीआईआरपी) तकनीक". National Academy Science Letters. 43: 13–21. doi:10.1007/s40009-018-0771-6. S2CID 91946077.
↑ Siddharth, R.; Aghila, G. (July 2020). "RandPro- आर में उच्च आयामी बहुभिन्नरूपी डेटा विश्लेषण के लिए यादृच्छिक प्रक्षेपण-आधारित सुविधा निष्कर्षण का एक व्यावहारिक कार्यान्वयन". SoftwareX. 12: 100629. Bibcode:2020SoftX..1200629S. doi:10.1016/j.softx.2020.100629.

अग्रिम पठन

Fodor, Imola K (2002). A survey of dimension reduction techniques (Report). CiteSeerX 10.1.1.8.5098.
Menon, Aditya Krishna (2007). Random projections and applications to dimensionality reduction (Thesis). CiteSeerX 10.1.1.164.640.
Ramdas, Aditya. A Random Introduction To Random Projections (Report). CiteSeerX 10.1.1.377.2593.

[1] Ella, Bingham; Heikki, Mannila (2001). "Random projection in dimensionality reduction: Applications to image and text data". KDD-2001: Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery. pp. 245–250. CiteSeerX 10.1.1.24.5135. doi:10.1145/502512.502546.

[2] Johnson, William B.; Lindenstrauss, Joram (1984). "Extensions of Lipschitz mappings into a Hilbert space". Conference in Modern Analysis and Probability (New Haven, Conn., 1982). Contemporary Mathematics. Vol. 26. Providence, RI: American Mathematical Society. pp. 189–206. doi:10.1090/conm/026/737400. ISBN 9780821850305. MR 0737400. S2CID 117819162..

[3] Bingham, Ella; Mannila, Heikki (May 6, 2014). "Random projection in dimensionality reduction: Applications to image and text data" (PDF).

[4] Achlioptas, Dimitris (2001). "Database-friendly random projections". डेटाबेस सिस्टम के सिद्धांतों पर बीसवीं ACM SIGMOD-SIGACT-SIGART संगोष्ठी की कार्यवाही - PODS '01. pp. 274–281. CiteSeerX 10.1.1.28.6652. doi:10.1145/375551.375608. ISBN 978-1581133615. S2CID 2640788.

[5] Li, Ping; Hastie, Trevor; Church, Kenneth (2006). "Very sparse random projections". 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (1): 287–296. doi:10.1145/1150402.1150436. ISBN 1595933395. S2CID 7995734.

[6] Kane, Daniel M.; Nelson, Jelani (2014). "Sparser Johnson-Lindenstrauss Transforms". Journal of the ACM. 61 (1): 1–23. arXiv:1012.1577. doi:10.1145/2559902. MR 3167920. S2CID 7821848.

[7] Charikar, Moses (2002). "Similarity estimation techniques from rounding algorithms". 34-th Annual ACM Symposium on Theory of Computing. 1 (1): 380–388. doi:10.1145/509907.509965. ISBN 1581134959. S2CID 4229473.

[8] Freund, Yoav; Dasgupta, Sanjoy; Kabra, Mayank; Verma, Nakul (2007). "Learning the structure of manifolds using random projections". 20th International Conference on Neural Information Processing Systems. 1 (1): 473–480.

[9] Boufounos, Petros; Baraniuk, Richard (2008). "1-bit Compressive Sensing". 42nd Annual Conference on Information Sciences and Systems. 1 (1): 16–21. doi:10.1109/CISS.2008.4558487. S2CID 206563812.

[10] Li, Xiaoyun; Li, Ping (2019). "Generalization error analysis of quantized compressive learning". 33rd International Conference on Neural Information Processing Systems. 1: 15150–15160.

[11] Kainen, Paul C.; Kůrková, Věra (1993), "Quasiorthogonal dimension of Euclidean spaces", Applied Mathematics Letters, 6 (3): 7–10, doi:10.1016/0893-9659(93)90023-G, MR 1347278

[12] Hecht-Nielsen, R. (1994). "Context vectors: General-purpose approximate meaning representations self-organized from raw data". In Zurada, Jacek M.; Marks, Robert Jackson; Robinson, Charles J. (eds.). Computational Intelligence: Imitating Life. IEEE. pp. 43–56. ISBN 978-0-7803-1104-6.

[GorbanTyukin2016-13] Gorban, Alexander N.; Tyukin, Ivan Y.; Prokhorov, Danil V.; Sofeikov, Konstantin I. (2016). "Approximation with Random Bases: Pro et Contra". Information Sciences. 364–365: 129–145. arXiv:1506.04631. doi:10.1016/j.ins.2015.09.021. S2CID 2239376.

[14] Ravindran, Siddharth (2020). "के-निकटतम पड़ोसी (के-एनएन) का उपयोग करके बड़े डेटा वर्गीकरण में आयाम में कमी के लिए डेटा-स्वतंत्र पुन: प्रयोज्य प्रक्षेपण (डीआईआरपी) तकनीक". National Academy Science Letters. 43: 13–21. doi:10.1007/s40009-018-0771-6. S2CID 91946077.

[15] Siddharth, R.; Aghila, G. (July 2020). "RandPro- आर में उच्च आयामी बहुभिन्नरूपी डेटा विश्लेषण के लिए यादृच्छिक प्रक्षेपण-आधारित सुविधा निष्कर्षण का एक व्यावहारिक कार्यान्वयन". SoftwareX. 12: 100629. Bibcode:2020SoftX..1200629S. doi:10.1016/j.softx.2020.100629.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

@@ Line 1: / Line 1: @@
-गणित और सांख्यिकी में, यादृच्छिक प्रक्षेपण एक ऐसी तकनीक है जिसका उपयोग [[यूक्लिडियन अंतरिक्ष]] में स्थित बिंदुओं के एक सेट के आयाम में कमी के लिए किया जाता है। अन्य विधियों की तुलना में यादृच्छिक प्रक्षेपण विधियों को उनकी शक्ति, सरलता और कम त्रुटि दर के लिए जाना जाता है. प्रायोगिक परिणामों के अनुसार, यादृच्छिक प्रक्षेपण दूरियों को अच्छी तरह से संरक्षित करता है, लेकिन अनुभवजन्य परिणाम विरल हैं।<ref>{{cite conference
+गणित और सांख्यिकी में यादृच्छिक प्रक्षेपण एक ऐसी विधि है जिसका उपयोग [[यूक्लिडियन अंतरिक्ष]] में स्थित बिंदुओं के एक सेट के आयाम में कमी के लिए किया जाता है। अन्य विधियों की तुलना में यादृच्छिक प्रक्षेपण विधियों को उनकी शक्ति सरलता और कम त्रुटि दर के लिए जाना जाता है. प्रायोगिक परिणामों के अनुसार यादृच्छिक प्रक्षेपण दूरियों को अच्छी तरह से संरक्षित करता है किंतु अनुभवजन्य परिणाम विरल हैं।<ref>{{cite conference
   | first1 = Bingham | last1 = Ella
   | first2 = Mannila | last2 = Heikki
@@ Line 7: / Line 7: @@
   | publisher = Association for Computing Machinery | date = 2001 | location = New York
   | doi = 10.1145/502512.502546 | citeseerx = 10.1.1.24.5135
-  }}</ref> उन्हें [[ यादृच्छिक अनुक्रमण |यादृच्छिक अनुक्रमण]] नाम के तहत कई प्राकृतिक भाषा कार्यों में लागू किया गया है।
+  }}</ref> उन्हें [[ यादृच्छिक अनुक्रमण |यादृच्छिक अनुक्रमण]] नाम के तहत कई प्राकृतिक भाषा कार्यों में प्रयुक्त किया गया है।
 == आयामीता में कमी ==
 {{main|आयामीता में कमी}}
-आयाम में कमी, जैसा कि नाम से पता चलता है, सांख्यिकी और मशीन सीखने से विभिन्न गणितीय विधियों का उपयोग करके यादृच्छिक चर की संख्या को कम कर रहा है। बड़े डेटा सेट के प्रबंधन और हेरफेर की समस्या को कम करने के लिए अक्सर आयाम में कमी का उपयोग किया जाता है। आयामीता में कमी की तकनीक आम तौर पर कई गुना की आंतरिक आयामीता को निर्धारित करने के साथ-साथ इसके प्रमुख दिशाओं को निकालने में रैखिक परिवर्तनों का उपयोग करती है। इस उद्देश्य के लिए विभिन्न संबंधित तकनीकें हैं, जिनमें शामिल हैं: प्रमुख घटक विश्लेषण, [[रैखिक विभेदक विश्लेषण]], [[विहित सहसंबंध विश्लेषण]], [[असतत कोसाइन परिवर्तन]], यादृच्छिक प्रक्षेपण, आदि।
+आयाम में कमी जैसा कि नाम से पता चलता है सांख्यिकी और मशीन सीखने से विभिन्न गणितीय विधियों का उपयोग करके यादृच्छिक चर की संख्या को कम कर रहा है। बड़े डेटा सेट के प्रबंधन और हेरफेर की समस्या को कम करने के लिए अधिकांशतः आयाम में कमी का उपयोग किया जाता है। आयामीता में कमी की विधि सामान्यतः कई गुना की आंतरिक आयामीता को निर्धारित करने के साथ-साथ इसके प्रमुख दिशाओं को निकालने में रैखिक परिवर्तनों का उपयोग करती है। इस उद्देश्य के लिए विभिन्न संबंधित विधि हैं जिनमें सम्मिलित हैं: प्रमुख घटक विश्लेषण [[रैखिक विभेदक विश्लेषण]] [[विहित सहसंबंध विश्लेषण]], [[असतत कोसाइन परिवर्तन]], यादृच्छिक प्रक्षेपण आदि।
-यादृच्छिक प्रक्षेपण तेजी से प्रसंस्करण समय और छोटे मॉडल आकारों के लिए त्रुटि की नियंत्रित मात्रा का व्यापार करके डेटा के आयाम को कम करने का एक सरल और कम्प्यूटेशनल रूप से कुशल तरीका है। यादृच्छिक प्रोजेक्शन मैट्रिसेस के आयाम और वितरण को नियंत्रित किया जाता है ताकि डेटासेट के किसी भी दो नमूनों के बीच जोड़ीदार दूरी को लगभग संरक्षित किया जा सके।
+यादृच्छिक प्रक्षेपण तेजी से प्रसंस्करण समय और छोटे मॉडल आकारों के लिए त्रुटि की नियंत्रित मात्रा का व्यापार करके डेटा के आयाम को कम करने का एक सरल और कम्प्यूटेशनल रूप से कुशल विधि है। यादृच्छिक प्रोजेक्शन मैट्रिसेस के आयाम और वितरण को नियंत्रित किया जाता है जिससे डेटासेट के किसी भी दो नमूनों के बीच जोड़ीदार दूरी को लगभग संरक्षित किया जा सकता है ।
 == विधि ==
-यादृच्छिक प्रक्षेपण के पीछे मुख्य विचार [[ जॉनसन-लिंडनस्ट्रॉस लेम्मा |जॉनसन-लिंडनस्ट्रॉस लेम्मा]] में दिया गया है,<ref>{{cite book
+'''यादृच्छिक प्रक्षेपण के पीछे मुख्य विचा'''र [[ जॉनसन-लिंडनस्ट्रॉस लेम्मा |जॉनसन-लिंडनस्ट्रॉस लेम्मा]] में दिया गया है,<ref>{{cite book
   | last1 = Johnson
   | first1 = William B.
@@ Line 39: / Line 39: @@
   | url = https://archive.org/details/conferenceinmode0000conf/page/189
   }}.
-</ref> जिसमें कहा गया है कि यदि सदिश स्थान में बिंदु पर्याप्त रूप से उच्च आयाम के हैं, तो उन्हें उपयुक्त निम्न-आयामी स्थान में इस तरह प्रक्षेपित किया जा सकता है जो बिंदुओं के बीच की दूरी को लगभग संरक्षित करता है।
+</ref> जिसमें कहा गया है कि यदि सदिश स्थान में बिंदु पर्याप्त रूप से उच्च आयाम के हैं तो उन्हें उपयुक्त निम्न-आयामी स्थान में इस तरह प्रक्षेपित किया जा सकता है जो बिंदुओं के बीच की दूरी को लगभग संरक्षित करता है।
-यादृच्छिक प्रक्षेपण में, मूल डी-डायमेंशनल डेटा को एक के-डायमेंशनल (के << डी) सबस्पेस में एक यादृच्छिक का उपयोग करके प्रक्षेपित किया जाता है <math>k \times d </math> - आयामी मैट्रिक्स जिसके स्तंभों की इकाई लंबाई है। मैट्रिक्स नोटेशन का उपयोग करना: यदि <math>X_{d \times N}</math> एन डी-आयामी अवलोकनों का मूल सेट है, फिर <math>X_{k \times N}^{RP}=R_{k \times d}X_{d \times N}</math> निम्न k-आयामी उप-स्थान पर डेटा का प्रक्षेपण है। रैंडम प्रोजेक्शन कम्प्यूटेशनल रूप से सरल है: रैंडम मैट्रिक्स R बनाएं और प्रोजेक्ट करें <math>d \times N</math> ऑर्डर के K आयामों पर डेटा मैट्रिक्स X <math>O(dkN)</math>. यदि डेटा मैट्रिक्स X विरल है और प्रति स्तंभ लगभग c गैर-शून्य प्रविष्टियाँ हैं, तो इस ऑपरेशन की जटिलता क्रम की है <math>O(ckN)</math>.<ref>{{Cite web|url =http://www.ime.unicamp.br/~wanderson/Artigos/randon_projection_kdd.pdf |title =Random projection in dimensionality reduction: Applications to image and text data |date = May 6, 2014|website = | last1 = Bingham | first1 = Ella | last2 = Mannila | first2 = Heikki  }}</ref>
+यादृच्छिक प्रक्षेपण में मूल डी-डायमेंशनल डेटा को एक के-डायमेंशनल (के << डी) सबस्पेस में एक यादृच्छिक का उपयोग करके प्रक्षेपित किया जाता है <math>k \times d </math> - आयामी मैट्रिक्स जिसके स्तंभों की इकाई लंबाई है। मैट्रिक्स नोटेशन का उपयोग करना: यदि <math>X_{d \times N}</math> एन डी-आयामी अवलोकनों का मूल सेट है, फिर <math>X_{k \times N}^{RP}=R_{k \times d}X_{d \times N}</math> निम्न k-आयामी उप-स्थान पर डेटा का प्रक्षेपण है। रैंडम प्रोजेक्शन कम्प्यूटेशनल रूप से सरल है: रैंडम मैट्रिक्स R बनाएं और प्रोजेक्ट करें <math>d \times N</math> ऑर्डर के K आयामों पर डेटा मैट्रिक्स X <math>O(dkN)</math>. यदि डेटा मैट्रिक्स X विरल है और प्रति स्तंभ लगभग c गैर-शून्य प्रविष्टियाँ हैं, तो इस ऑपरेशन की जटिलता क्रम की है <math>O(ckN)</math>.<ref>{{Cite web|url =http://www.ime.unicamp.br/~wanderson/Artigos/randon_projection_kdd.pdf |title =Random projection in dimensionality reduction: Applications to image and text data |date = May 6, 2014|website = | last1 = Bingham | first1 = Ella | last2 = Mannila | first2 = Heikki  }}</ref>
@@ Line 113: / Line 113: @@
 == बड़ा क्वासियोर्थोगोनल [[आधार (रैखिक बीजगणित)]] ==
-जॉनसन-लिंडनस्ट्रॉस लेम्मा|जॉनसन-लिंडनस्ट्रॉस लेम्मा कहता है कि एक उच्च-आयामी अंतरिक्ष में वैक्टर के बड़े सेट को दूरी के अनुमानित संरक्षण के साथ बहुत कम (लेकिन अभी भी उच्च) आयाम n के स्थान में रैखिक रूप से मैप किया जा सकता है। इस आशय की व्याख्याओं में से एक एन-आयामी यूक्लिडियन अंतरिक्ष का घातीय रूप से उच्च क्वासियोर्थोगोनल आयाम है।<ref>{{citation
+जॉनसन-लिंडनस्ट्रॉस लेम्मा|जॉनसन-लिंडनस्ट्रॉस लेम्मा कहता है कि एक उच्च-आयामी अंतरिक्ष में वैक्टर के बड़े सेट को दूरी के अनुमानित संरक्षण के साथ बहुत कम (किंतु अभी भी उच्च) आयाम n के स्थान में रैखिक रूप से मैप किया जा सकता है। इस आशय की व्याख्याओं में से एक एन-आयामी यूक्लिडियन अंतरिक्ष का घातीय रूप से उच्च क्वासियोर्थोगोनल आयाम है।<ref>{{citation
   | last1 = Kainen | first1 = Paul C. | author1-link = Paul Chester Kainen
   | last2 = Kůrková | first2 = Věra | author2-link = Věra Kůrková
@@ Line 134: / Line 134: @@
   | volume = 364-365
   | year = 2016
-  | arxiv = 1506.04631| s2cid = 2239376 }}</ref> इसका तात्पर्य यह है कि यादृच्छिक और स्वतंत्र रूप से चुने गए वैक्टरों के रैखिक संयोजनों द्वारा इस तरह के उच्च-आयामी स्थान के एक तत्व का प्रतिनिधित्व करने के लिए, यदि हम रैखिक संयोजनों में परिबद्ध गुणांक का उपयोग करते हैं, तो अक्सर घातीय रूप से बड़ी लंबाई के नमूने उत्पन्न करना आवश्यक हो सकता है। दूसरी ओर, यदि मनमाने ढंग से बड़े मूल्यों वाले गुणांकों की अनुमति है, तो यादृच्छिक रूप से उत्पन्न तत्वों की संख्या जो सन्निकटन के लिए पर्याप्त हैं, डेटा स्थान के आयाम से भी कम है।
+  | arxiv = 1506.04631| s2cid = 2239376 }}</ref> इसका तात्पर्य यह है कि यादृच्छिक और स्वतंत्र रूप से चुने गए वैक्टरों के रैखिक संयोजनों द्वारा इस तरह के उच्च-आयामी स्थान के एक तत्व का प्रतिनिधित्व करने के लिए, यदि हम रैखिक संयोजनों में परिबद्ध गुणांक का उपयोग करते हैं, तो अधिकांशतः घातीय रूप से बड़ी लंबाई के नमूने उत्पन्न करना आवश्यक हो सकता है। दूसरी ओर, यदि मनमाने ढंग से बड़े मूल्यों वाले गुणांकों की अनुमति है, तो यादृच्छिक रूप से उत्पन्न तत्वों की संख्या जो सन्निकटन के लिए पर्याप्त हैं, डेटा स्थान के आयाम से भी कम है।
 == कार्यान्वयन ==

Anonymous

Search

यादृच्छिक प्रक्षेपण: Difference between revisions

Namespaces

More

Page actions

Revision as of 10:15, 27 May 2023

Contents

आयामीता में कमी

विधि

गाऊसी यादृच्छिक प्रक्षेपण

अधिक कम्प्यूटेशनल रूप से कुशल यादृच्छिक अनुमान

परिमाणीकरण के साथ यादृच्छिक प्रक्षेपण

बड़ा क्वासियोर्थोगोनल आधार (रैखिक बीजगणित)

कार्यान्वयन

यह भी देखें

संदर्भ

अग्रिम पठन

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

यादृच्छिक प्रक्षेपण: Difference between revisions

Revision as of 10:15, 27 May 2023

आयामीता में कमी

विधि

गाऊसी यादृच्छिक प्रक्षेपण

अधिक कम्प्यूटेशनल रूप से कुशल यादृच्छिक अनुमान

परिमाणीकरण के साथ यादृच्छिक प्रक्षेपण

बड़ा क्वासियोर्थोगोनल आधार (रैखिक बीजगणित)

कार्यान्वयन

यह भी देखें

संदर्भ

अग्रिम पठन

Navigation

Wiki tools

Page tools

Other projects

Categories