आयामीता में कमी: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 2: Line 2:
{{For|भौतिकी में आयामी कमी|आयामी कमी}}
{{For|भौतिकी में आयामी कमी|आयामी कमी}}


'''आयामीता में कमी''', या आयाम में कमी, एक उच्च-आयामी स्थान से निम्न-आयामी स्थान में डेटा का परिवर्तन है ताकि निम्न-आयामी प्रतिनिधित्व मूल डेटा के कुछ सार्थक गुणों को बनाए रखे, आदर्श रूप से इसके [[आंतरिक आयाम]] के निकट उच्च-आयामी स्थानों में कार्य करना कई कारणों से अवांछनीय हो सकता है; आयामीता के अभिशाप के परिणामस्वरूप कच्चे डेटा प्रायः विरल होते हैं, और डेटा का विश्लेषण सामान्यतः कम्प्यूटेशनल रूप से अट्रैक्टिव (नियंत्रित करने या निपटने में कठिन) होता है। आयाम में कमी उन क्षेत्रों में आम है जो बड़ी संख्या में अवलोकन और/या बड़ी संख्या में चर, जैसे सिग्नल प्रोसेसिंग, भाषण मान्यता, [[बायोइनफॉरमैटिक्स|न्यूरोइन्फॉर्मेटिक्स]] और जैव सूचना विज्ञान से निपटते हैं।<ref name="dr_review">{{cite journal |last1=van der Maaten |first1=Laurens |last2=Postma |first2=Eric |last3=van den Herik |first3=Jaap |date=October 26, 2009 |title=आयाम में कमी: एक तुलनात्मक समीक्षा|url=https://members.loria.fr/moberger/Enseignement/AVR/Exposes/TR_Dimensiereductie.pdf |journal=J Mach Learn Res |volume=10 |pages=66–71}}</ref>
'''आयामीता में कमी''', या '''आयाम में कमी''', एक उच्च-आयामी समष्टि से निम्न-आयामी समष्टि में आंकड़ा का परिवर्तन है ताकि निम्न-आयामी प्रतिनिधित्व मूल आंकड़ा के कुछ सार्थक गुणों को बनाए रखे, आदर्श रूप से इसके [[आंतरिक आयाम]] के निकट उच्च-आयामी समष्टि में कार्य करना कई कारणों से अवांछनीय हो सकता है आयामीता के अभिशाप के परिणामस्वरूप आंकड़ा प्रायः विरल होते हैं और आंकड़ा का विश्लेषण सामान्यतः कम्प्यूटेशनल रूप से अशिष्ट (नियंत्रित करने या वर्णन में कठिन) होता है। आयाम में कमी उन क्षेत्रों में सामान्य है जो बड़ी संख्या में अवलोकन और बड़ी संख्या में चर, जैसे संकेत प्रसंस्करण, भाषण मान्यता, [[बायोइनफॉरमैटिक्स|न्यूरोइन्फॉर्मेटिक्स]] और जैव सूचना विज्ञान से निपटते हैं।<ref name="dr_review">{{cite journal |last1=van der Maaten |first1=Laurens |last2=Postma |first2=Eric |last3=van den Herik |first3=Jaap |date=October 26, 2009 |title=आयाम में कमी: एक तुलनात्मक समीक्षा|url=https://members.loria.fr/moberger/Enseignement/AVR/Exposes/TR_Dimensiereductie.pdf |journal=J Mach Learn Res |volume=10 |pages=66–71}}</ref>


तरीकों को सामान्यतः रैखिक और गैर-रैखिक दृष्टिकोणों में विभाजित किया जाता है।<ref name="dr_review"/> दृष्टिकोण को सुविधा चयन और सुविधा निष्कर्षण में भी विभाजित किया जा सकता है।<ref>{{cite book |last1=Pudil |first1=P. |last2=Novovičová |first2=J. |editor1-first=Huan |editor1-last=Liu |editor2-first=Hiroshi |editor2-last=Motoda |doi=10.1007/978-1-4615-5725-8_7 |chapter=Novel Methods for Feature Subset Selection with Respect to Problem Knowledge |title=फ़ीचर निष्कर्षण, निर्माण और चयन|pages=101 |year=1998 |isbn=978-1-4613-7622-4}}</ref> शोर में कमी, [[डेटा विज़ुअलाइज़ेशन]], क्लस्टर विश्लेषण या अन्य विश्लेषणों को सुविधाजनक बनाने के लिए एक मध्यवर्ती कदम के रूप में आयाम में कमी का उपयोग किया जा सकता है।
तरीकों को सामान्यतः रैखिक और गैर-रैखिक दृष्टिकोणों में विभाजित किया जाता है।<ref name="dr_review"/> दृष्टिकोण को सुविधा चयन और सुविधा निष्कर्षण में भी विभाजित किया जा सकता है।<ref>{{cite book |last1=Pudil |first1=P. |last2=Novovičová |first2=J. |editor1-first=Huan |editor1-last=Liu |editor2-first=Hiroshi |editor2-last=Motoda |doi=10.1007/978-1-4615-5725-8_7 |chapter=Novel Methods for Feature Subset Selection with Respect to Problem Knowledge |title=फ़ीचर निष्कर्षण, निर्माण और चयन|pages=101 |year=1998 |isbn=978-1-4613-7622-4}}</ref> ध्वनि में कमी, [[डेटा विज़ुअलाइज़ेशन|आंकड़ा विज़ुअलाइज़ेशन]], समूह विश्लेषण या अन्य विश्लेषणों को सुविधाजनक बनाने के लिए एक मध्यवर्ती फेज़ के रूप में आयाम में कमी का उपयोग किया जा सकता है।


== आकृति चयन ==
== आकृति चयन ==
{{Main|आकृति चयन}}{{See also|संयुक्त अनुकूलन}}
{{Main|आकृति चयन}}{{See also|संयुक्त अनुकूलन}}


आकृति चयन दृष्टिकोण इनपुट वेरिएबल्स (जिन्हें फ़ीचर्स या विशेषताएँ भी कहा जाता है) का एक सबसेट खोजने का प्रयास करते हैं। तीन रणनीतियाँ हैं: फ़िल्टर रणनीति (जैसे सूचना लाभ), आवरण रणनीति (जैसे सटीकता द्वारा निर्देशित खोज), और एम्बेडेड रणनीति (भविष्यवाणी त्रुटियों के आधार पर मॉडल का निर्माण करते समय चयनित सुविधाएँ जोड़ी या हटा दी जाती हैं)।
आकृति चयन दृष्टिकोण इनपुट चर (जिन्हें आकृति या विशेषताएँ भी कहा जाता है) का एक उप समुच्चय खोजने का प्रयास करते हैं। तीन योजनाए हैं: आकृति योजना (जैसे सूचना लाभ), आवरण योजना (जैसे शुद्धता द्वारा निर्देशित खोज), और एम्बेडेड योजना (पूर्वानुमान त्रुटियों के आधार पर मॉडल का निर्माण करते समय चयनित सुविधाएँ जोड़ी या हटा दी जाती हैं)।


[[डेटा विश्लेषण]] जैसे [[प्रतिगमन विश्लेषण]] या [[सांख्यिकीय वर्गीकरण]] मूल स्थान की तुलना में कम स्थान में अधिक सटीक रूप से किया जा सकता है।<ref>{{cite journal
[[डेटा विश्लेषण|आंकड़ा विश्लेषण]] जैसे [[प्रतिगमन विश्लेषण]] या [[सांख्यिकीय वर्गीकरण]] मूल समष्टि की तुलना में कम समष्टि में अधिक सटीक रूप से किया जा सकता है।<ref>{{cite journal
  |first=Antonio |last=Rico-Sulayes
  |first=Antonio |last=Rico-Sulayes
  |url=https://rielac.cujae.edu.cu/index.php/rieac/article/view/478
  |url=https://rielac.cujae.edu.cu/index.php/rieac/article/view/478
Line 18: Line 18:
  |volume=38 |number=3 |pages=26–35 |year=2017
  |volume=38 |number=3 |pages=26–35 |year=2017
}}</ref>
}}</ref>
== फीचर प्रोजेक्शन ==
== फीचर प्रक्षेपण ==
{{Main|विशेषता निष्कर्षण}}
{{Main|विशेषता निष्कर्षण}}


फ़ीचर प्रोजेक्शन (जिसे फ़ीचर एक्सट्रैक्शन भी कहा जाता है) डेटा को उच्च-आयामी स्थान से कम आयामों वाले स्थान में बदल देता है। प्रमुख घटक विश्लेषण (पीसीए) के रूप में डेटा परिवर्तन रैखिक हो सकता है लेकिन कई गैर-रैखिक आयामी कमी तकनीकें भी सम्मिलित हैं।<ref>Samet, H. (2006) ''Foundations of Multidimensional and Metric Data Structures''. Morgan Kaufmann. {{ISBN|0-12-369446-9}}</ref><ref>C. Ding, X. He, H. Zha, H.D. Simon, [https://escholarship.org/uc/item/8pv153t1 Adaptive Dimension Reduction for Clustering High Dimensional Data], Proceedings of International Conference on Data Mining, 2002</ref> बहुआयामी डेटा के लिए, [[टेंसर प्रतिनिधित्व]] का उपयोग मल्टीलाइनियर सबस्पेस लर्निंग के माध्यम से डायमेंशनलिटी रिडक्शन में किया जा सकता है।<ref name="MSLsurvey">{{cite journal
आकृति प्रक्षेपण (जिसे आकृति एक्सट्रैक्शन भी कहा जाता है) आंकड़ा को उच्च-आयामी समष्टि से कम आयामों वाले समष्टि में बदल देता है। प्रमुख घटक विश्लेषण (पीसीए) के रूप में आंकड़ा परिवर्तन रैखिक हो सकता है लेकिन कई गैर-रैखिक आयामी कमी तकनीकें भी सम्मिलित हैं।<ref>Samet, H. (2006) ''Foundations of Multidimensional and Metric Data Structures''. Morgan Kaufmann. {{ISBN|0-12-369446-9}}</ref><ref>C. Ding, X. He, H. Zha, H.D. Simon, [https://escholarship.org/uc/item/8pv153t1 Adaptive Dimension Reduction for Clustering High Dimensional Data], Proceedings of International Conference on Data Mining, 2002</ref> बहुआयामी आंकड़ा के लिए, [[टेंसर प्रतिनिधित्व]] का उपयोग बहु-रैखिक उप समष्टि लर्निंग के माध्यम से आयामीता में कमी में किया जा सकता है।<ref name="MSLsurvey">{{cite journal
  |first1=Haiping |last1=Lu
  |first1=Haiping |last1=Lu
  |first2=K.N. |last2=Plataniotis
  |first2=K.N. |last2=Plataniotis
Line 38: Line 38:
{{Main|प्रमुख अवयव विश्लेषण}}
{{Main|प्रमुख अवयव विश्लेषण}}


आयामीता में कमी के लिए मुख्य रेखीय तकनीक, प्रमुख घटक विश्लेषण, निम्न-आयामी स्थान के लिए डेटा का एक रेखीय मानचित्रण इस तरह से करता है कि निम्न-आयामी प्रतिनिधित्व में डेटा का विचरण अधिकतम हो जाता है। व्यवहार में, डेटा का [[सहप्रसरण]] (और कभी-कभी [[सहसंबंध और निर्भरता]]) [[मैट्रिक्स (गणित)|आव्यूह (गणित)]]) आव्यूह का निर्माण किया जाता है और इस आव्यूह पर आइगेन सदिशों की गणना की जाती है। सबसे बड़े eigenvalues ​​​​(प्रमुख घटक) के अनुरूप आइगेन सदिश का उपयोग अब मूल डेटा के भिन्नता के एक बड़े अंश के पुनर्निर्माण के लिए किया जा सकता है। इसके अलावा, पहले कुछ आइगेन सदिश को प्रायः प्रणाली के बड़े पैमाने के भौतिक व्यवहार के संदर्भ में व्याख्या किया जा सकता है, क्योंकि वे प्रायः प्रणाली की ऊर्जा के विशाल बहुमत का योगदान करते हैं, खासकर कम-आयामी प्रणाली में। फिर भी, यह मामला-दर-मामला आधार पर सिद्ध होना चाहिए क्योंकि सभी प्रणालियाँ इस व्यवहार को प्रदर्शित नहीं करती हैं। मूल स्थान (अंकों की संख्या के आयाम के साथ) को घटा दिया गया है (डेटा हानि के साथ, लेकिन उम्मीद है कि सबसे महत्वपूर्ण विचरण को बनाए रखना) कुछ आइगेन सदिशों द्वारा फैलाया गया स्थान है।{{Citation needed|date=September 2017}}
आयामीता में कमी के लिए मुख्य रेखीय तकनीक, प्रमुख घटक विश्लेषण, निम्न-आयामी समष्टि के लिए आंकड़ा का एक रेखीय मानचित्रण इस तरह से करता है कि निम्न-आयामी प्रतिनिधित्व में आंकड़ा का विचरण अधिकतम हो जाता है। व्यवहार में, आंकड़ा का [[सहप्रसरण]] (और कभी-कभी [[सहसंबंध और निर्भरता]]) [[मैट्रिक्स (गणित)|आव्यूह (गणित)]]) आव्यूह का निर्माण किया जाता है और इस आव्यूह पर आइगेन सदिशों की गणना की जाती है। सबसे बड़े eigenvalues ​​​​(प्रमुख घटक) के अनुरूप आइगेन सदिश का उपयोग अब मूल आंकड़ा के भिन्नता के एक बड़े अंश के पुनर्निर्माण के लिए किया जा सकता है। इसके अलावा, पहले कुछ आइगेन सदिश को प्रायः प्रणाली के बड़े पैमाने के भौतिक व्यवहार के संदर्भ में व्याख्या किया जा सकता है, क्योंकि वे प्रायः प्रणाली की ऊर्जा के विशाल बहुमत का योगदान करते हैं, खासकर कम-आयामी प्रणाली में। फिर भी, यह मामला-दर-मामला आधार पर सिद्ध होना चाहिए क्योंकि सभी प्रणालियाँ इस व्यवहार को प्रदर्शित नहीं करती हैं। मूल समष्टि (अंकों की संख्या के आयाम के साथ) को घटा दिया गया है (आंकड़ा हानि के साथ, लेकिन उम्मीद है कि सबसे महत्वपूर्ण विचरण को बनाए रखना) कुछ आइगेन सदिशों द्वारा फैलाया गया समष्टि है।{{Citation needed|date=September 2017}}


===गैर-ऋणात्मक आव्यूह गुणनखंडन (एनएमएफ)===
===गैर-ऋणात्मक आव्यूह गुणनखंडन (एनएमएफ)===
Line 66: Line 66:
  |pages=556–562
  |pages=556–562
  |publisher=[[MIT Press]]
  |publisher=[[MIT Press]]
}}</ref> जैसे कि खगोल विज्ञान।।<ref name="blantonRoweis07">{{cite journal |arxiv=astro-ph/0606170 |last1=Blanton |first1=Michael R. |title=के-सुधार और पराबैंगनी, ऑप्टिकल और निकट अवरक्त में परिवर्तन|journal=The Astronomical Journal |volume=133 |issue=2 |pages=734–754 |last2=Roweis |first2=Sam |year=2007 |doi=10.1086/510127 |bibcode=2007AJ....133..734B |s2cid=18561804}}</ref><ref name="ren18">{{cite journal |arxiv=1712.10317 |last1=Ren |first1=Bin |title=Non-negative Matrix Factorization: Robust Extraction of Extended Structures |journal=The Astrophysical Journal |volume=852 |issue=2 |pages=104 |last2=Pueyo |first2=Laurent |last3=Zhu |first3=Guangtun B. |last4=Duchêne |first4=Gaspard |year=2018 |doi=10.3847/1538-4357/aaa1f2 |bibcode=2018ApJ...852..104R |s2cid=3966513}}</ref> एनएमएफ ली एंड सेउंग द्वारा गुणक अद्यतन नियम के बाद से अच्छी तरह से जाना जाता है<ref name="lee-seung"/> जिसे लगातार विकसित किया गया है: अनिश्चितताओं का समावेश, <ref name="blantonRoweis07"/> लापता डेटा और समानांतर संगणना का विचार<ref name="zhu16">{{cite arXiv |last=Zhu |first=Guangtun B. |date=2016-12-19 |title=गैर-ऋणात्मक मैट्रिक्स गुणनखंडन (NMF) विषमलैंगिक अनिश्चितताओं और लापता डेटा के साथ|eprint=1612.06037 |class=astro-ph.IM}}</ref> अनुक्रमिक निर्माण <ref name="zhu16"/> जो आगे बढ़ता है एनएमएफ की स्थिरता और रैखिकता<ref name="ren18"/> के साथ-साथ डिजिटल इमेज प्रोसेसिंग में लापता डेटा को संभालने सहित अन्य अपडेट।<ref name="ren20">{{cite journal |arxiv=2001.00563 |last1=Ren |first1=Bin |title=हाई कंट्रास्ट इमेजिंग में सिग्नल सेपरेशन के लिए डेटा इम्प्यूटेशन का उपयोग करना|journal=The Astrophysical Journal |volume=892 |issue=2 |pages=74 |last2=Pueyo |first2=Laurent |last3=Chen |first3=Christine |last4=Choquet |first4=Elodie |last5=Debes |first5=John H. |last6=Duechene |first6=Gaspard |last7=Menard |first7=Francois |last8=Perrin |first8=Marshall D. |year=2020 |doi=10.3847/1538-4357/ab7024
}}</ref> जैसे कि खगोल विज्ञान।।<ref name="blantonRoweis07">{{cite journal |arxiv=astro-ph/0606170 |last1=Blanton |first1=Michael R. |title=के-सुधार और पराबैंगनी, ऑप्टिकल और निकट अवरक्त में परिवर्तन|journal=The Astronomical Journal |volume=133 |issue=2 |pages=734–754 |last2=Roweis |first2=Sam |year=2007 |doi=10.1086/510127 |bibcode=2007AJ....133..734B |s2cid=18561804}}</ref><ref name="ren18">{{cite journal |arxiv=1712.10317 |last1=Ren |first1=Bin |title=Non-negative Matrix Factorization: Robust Extraction of Extended Structures |journal=The Astrophysical Journal |volume=852 |issue=2 |pages=104 |last2=Pueyo |first2=Laurent |last3=Zhu |first3=Guangtun B. |last4=Duchêne |first4=Gaspard |year=2018 |doi=10.3847/1538-4357/aaa1f2 |bibcode=2018ApJ...852..104R |s2cid=3966513}}</ref> एनएमएफ ली एंड सेउंग द्वारा गुणक अद्यतन नियम के बाद से अच्छी तरह से जाना जाता है<ref name="lee-seung"/> जिसे लगातार विकसित किया गया है: अनिश्चितताओं का समावेश, <ref name="blantonRoweis07"/> लापता आंकड़ा और समानांतर संगणना का विचार<ref name="zhu16">{{cite arXiv |last=Zhu |first=Guangtun B. |date=2016-12-19 |title=गैर-ऋणात्मक मैट्रिक्स गुणनखंडन (NMF) विषमलैंगिक अनिश्चितताओं और लापता डेटा के साथ|eprint=1612.06037 |class=astro-ph.IM}}</ref> अनुक्रमिक निर्माण <ref name="zhu16"/> जो आगे बढ़ता है एनएमएफ की स्थिरता और रैखिकता<ref name="ren18"/> के साथ-साथ डिजिटल इमेज प्रोसेसिंग में लापता आंकड़ा को संभालने सहित अन्य अपडेट।<ref name="ren20">{{cite journal |arxiv=2001.00563 |last1=Ren |first1=Bin |title=हाई कंट्रास्ट इमेजिंग में सिग्नल सेपरेशन के लिए डेटा इम्प्यूटेशन का उपयोग करना|journal=The Astrophysical Journal |volume=892 |issue=2 |pages=74 |last2=Pueyo |first2=Laurent |last3=Chen |first3=Christine |last4=Choquet |first4=Elodie |last5=Debes |first5=John H. |last6=Duechene |first6=Gaspard |last7=Menard |first7=Francois |last8=Perrin |first8=Marshall D. |year=2020 |doi=10.3847/1538-4357/ab7024
  |bibcode=2020ApJ...892...74R |s2cid=209531731}}</ref>
  |bibcode=2020ApJ...892...74R |s2cid=209531731}}</ref>


Line 72: Line 72:
=== कर्नेल पीसीए ===
=== कर्नेल पीसीए ===
{{Main|कर्नेल प्रमुख घटक विश्लेषण}}
{{Main|कर्नेल प्रमुख घटक विश्लेषण}}
प्रिंसिपल कंपोनेंट एनालिसिस को [[ कर्नेल चाल |कर्नेल चाल]] के माध्यम से नॉनलाइन तरीके से नियोजित किया जा सकता है। परिणामी तकनीक नॉनलाइनियर मैपिंग बनाने में सक्षम है जो डेटा में भिन्नता को अधिकतम करती है। परिणामी तकनीक को [[ कर्नेल प्रमुख घटक विश्लेषण |कर्नेल प्रमुख घटक विश्लेषण]] कहा जाता है।
प्रिंसिपल कंपोनेंट एनालिसिस को [[ कर्नेल चाल |कर्नेल चाल]] के माध्यम से नॉनलाइन तरीके से नियोजित किया जा सकता है। परिणामी तकनीक नॉनलाइनियर मैपिंग बनाने में सक्षम है जो आंकड़ा में भिन्नता को अधिकतम करती है। परिणामी तकनीक को [[ कर्नेल प्रमुख घटक विश्लेषण |कर्नेल प्रमुख घटक विश्लेषण]] कहा जाता है।


=== ग्राफ आधारित कर्नेल पीसीए ===
=== ग्राफ आधारित कर्नेल पीसीए ===
अन्य प्रमुख गैर-रैखिक तकनीकों में कई गुना सीखने की तकनीकें सम्मिलित हैं जैसे कि [[आइसोमैप]], [[स्थानीय रूप से रैखिक एम्बेडिंग]] (एलएलई),<ref>{{cite journal |last1=Roweis |first1=S. T. |last2=Saul |first2=L. K. |title=स्थानीय रूप से रैखिक एम्बेडिंग द्वारा गैर-रैखिक आयाम में कमी|doi=10.1126/science.290.5500.2323 |journal=Science |volume=290 |issue=5500 |pages=2323–2326 |year=2000 |pmid=11125150 |bibcode=2000Sci...290.2323R |citeseerx=10.1.1.111.3313|s2cid=5987139 }}</ref> हेसियन एलएलई, लाप्लासियन ईजेनमैप्स, और स्पर्शरेखा अंतरिक्ष विश्लेषण पर आधारित तरीके।<ref>{{cite journal |last1=Zhang |first1=Zhenyue |last2=Zha |first2=Hongyuan |date=2004 |title=टेंगेंट स्पेस एलाइनमेंट के माध्यम से प्रिंसिपल मैनिफोल्ड्स और नॉनलाइनियर डायमेंशनलिटी रिडक्शन|journal=SIAM Journal on Scientific Computing |volume=26 |issue=1 |pages=313–338 |doi=10.1137/s1064827502419154|bibcode=2004SJSC...26..313Z }}</ref> ये तकनीकें लागत फलन का उपयोग करके एक निम्न-आयामी डेटा प्रतिनिधित्व का निर्माण करती हैं जो डेटा के स्थानीय गुणों को बनाए रखता है, और कर्नेल पीसीए के लिए ग्राफ-आधारित कर्नेल को परिभाषित करने के रूप में देखा जा सकता है।
अन्य प्रमुख गैर-रैखिक तकनीकों में कई गुना सीखने की तकनीकें सम्मिलित हैं जैसे कि [[आइसोमैप]], [[स्थानीय रूप से रैखिक एम्बेडिंग|समष्टिीय रूप से रैखिक एम्बेडिंग]] (एलएलई),<ref>{{cite journal |last1=Roweis |first1=S. T. |last2=Saul |first2=L. K. |title=स्थानीय रूप से रैखिक एम्बेडिंग द्वारा गैर-रैखिक आयाम में कमी|doi=10.1126/science.290.5500.2323 |journal=Science |volume=290 |issue=5500 |pages=2323–2326 |year=2000 |pmid=11125150 |bibcode=2000Sci...290.2323R |citeseerx=10.1.1.111.3313|s2cid=5987139 }}</ref> हेसियन एलएलई, लाप्लासियन ईजेनमैप्स, और स्पर्शरेखा अंतरिक्ष विश्लेषण पर आधारित तरीके।<ref>{{cite journal |last1=Zhang |first1=Zhenyue |last2=Zha |first2=Hongyuan |date=2004 |title=टेंगेंट स्पेस एलाइनमेंट के माध्यम से प्रिंसिपल मैनिफोल्ड्स और नॉनलाइनियर डायमेंशनलिटी रिडक्शन|journal=SIAM Journal on Scientific Computing |volume=26 |issue=1 |pages=313–338 |doi=10.1137/s1064827502419154|bibcode=2004SJSC...26..313Z }}</ref> ये तकनीकें लागत फलन का उपयोग करके एक निम्न-आयामी आंकड़ा प्रतिनिधित्व का निर्माण करती हैं जो आंकड़ा के समष्टिीय गुणों को बनाए रखता है, और कर्नेल पीसीए के लिए ग्राफ-आधारित कर्नेल को परिभाषित करने के रूप में देखा जा सकता है।


अभी हाल ही में, तकनीकों का प्रस्ताव किया गया है कि, एक निश्चित कर्नेल को परिभाषित करने के बजाय, अर्ध-निश्चित प्रोग्रामिंग का उपयोग करके कर्नेल को सीखने का प्रयास करें। ऐसी तकनीक का सबसे प्रमुख उदाहरण [[अधिकतम भिन्नता प्रकट करना]] (एमवीयू) है। एमवीयू का केंद्रीय विचार निकटतम पड़ोसियों (आंतरिक उत्पाद स्थान में) के बीच सभी जोड़ीदार दूरी को सटीक रूप से संरक्षित करना है, जबकि उन बिंदुओं के बीच की दूरी को अधिकतम करना जो निकटतम पड़ोसी नहीं हैं।
अभी हाल ही में, तकनीकों का प्रस्ताव किया गया है कि, एक निश्चित कर्नेल को परिभाषित करने के बजाय, अर्ध-निश्चित प्रोग्रामिंग का उपयोग करके कर्नेल को सीखने का प्रयास करें। ऐसी तकनीक का सबसे प्रमुख उदाहरण [[अधिकतम भिन्नता प्रकट करना]] (एमवीयू) है। एमवीयू का केंद्रीय विचार निकटतम पड़ोसियों (आंतरिक उत्पाद समष्टि में) के बीच सभी जोड़ीदार दूरी को सटीक रूप से संरक्षित करना है, जबकि उन बिंदुओं के बीच की दूरी को अधिकतम करना जो निकटतम पड़ोसी नहीं हैं।


पड़ोस के संरक्षण के लिए एक वैकल्पिक दृष्टिकोण एक लागत समारोह के न्यूनीकरण के माध्यम से है जो इनपुट और आउटपुट रिक्त स्थान में दूरी के बीच अंतर को मापता है। ऐसी तकनीकों के महत्वपूर्ण उदाहरणों में सम्मिलित हैं: शास्त्रीय [[बहुआयामी स्केलिंग]], जो पीसीए के समान है; आइसोमैप, जो डेटा स्पेस में जियोडेसिक दूरियों का उपयोग करता है; [[प्रसार मानचित्र]], जो डेटा स्थान में प्रसार दूरी का उपयोग करते हैं; टी-वितरित स्टोचैस्टिक पड़ोसी एम्बेडिंग (टी-एसएनई), जो बिंदुओं के जोड़े पर वितरण के बीच विचलन को कम करता है; और वक्रीय घटक विश्लेषण।
पड़ोस के संरक्षण के लिए एक वैकल्पिक दृष्टिकोण एक लागत समारोह के न्यूनीकरण के माध्यम से है जो इनपुट और आउटपुट रिक्त समष्टि में दूरी के बीच अंतर को मापता है। ऐसी तकनीकों के महत्वपूर्ण उदाहरणों में सम्मिलित हैं: शास्त्रीय [[बहुआयामी स्केलिंग]], जो पीसीए के समान है; आइसोमैप, जो आंकड़ा स्पेस में जियोडेसिक दूरियों का उपयोग करता है; [[प्रसार मानचित्र]], जो आंकड़ा समष्टि में प्रसार दूरी का उपयोग करते हैं; टी-वितरित स्टोचैस्टिक पड़ोसी एम्बेडिंग (टी-एसएनई), जो बिंदुओं के जोड़े पर वितरण के बीच विचलन को कम करता है; और वक्रीय घटक विश्लेषण।


गैर-रैखिक आयामीता में कमी के लिए एक अलग दृष्टिकोण [[autoencoder|स्वतः कूटलेखन]] के उपयोग के माध्यम से है, एक विशेष प्रकार के [[फीडफॉरवर्ड न्यूरल नेटवर्क]] के साथ एक बोतल-गर्दन छिपी हुई परत।<ref>Hongbing Hu, Stephen A. Zahorian, (2010) [http://ws2.binghamton.edu/zahorian/pdf/Hu2010Dimensionality.pdf "Dimensionality Reduction Methods for HMM Phonetic Recognition"], ICASSP 2010, Dallas, TX</ref> गहरे एनकोडर का प्रशिक्षण सामान्यतः एक लालची परत-वार पूर्व-प्रशिक्षण (उदाहरण के लिए, [[प्रतिबंधित बोल्ट्जमैन मशीन]]ों के ढेर का उपयोग करके) का उपयोग करके किया जाता है, जिसके बाद [[backpropagation]] पर आधारित एक फ़ाइनट्यूनिंग चरण होता है।
गैर-रैखिक आयामीता में कमी के लिए एक अलग दृष्टिकोण [[autoencoder|स्वतः कूटलेखन]] के उपयोग के माध्यम से है, एक विशेष प्रकार के [[फीडफॉरवर्ड न्यूरल नेटवर्क]] के साथ एक बोतल-गर्दन छिपी हुई परत।<ref>Hongbing Hu, Stephen A. Zahorian, (2010) [http://ws2.binghamton.edu/zahorian/pdf/Hu2010Dimensionality.pdf "Dimensionality Reduction Methods for HMM Phonetic Recognition"], ICASSP 2010, Dallas, TX</ref> गहरे एनकोडर का प्रशिक्षण सामान्यतः एक लालची परत-वार पूर्व-प्रशिक्षण (उदाहरण के लिए, [[प्रतिबंधित बोल्ट्जमैन मशीन]]ों के ढेर का उपयोग करके) का उपयोग करके किया जाता है, जिसके बाद [[backpropagation]] पर आधारित एक फ़ाइनट्यूनिंग चरण होता है।
[[File:LDA Projection Illustration 01.gif|thumb|2डी बिंदुओं के एक सेट के लिए परिणामी एलडीए प्रक्षेपण का एक दृश्य चित्रण।]]
[[File:LDA Projection Illustration 01.gif|thumb|2डी बिंदुओं के एक समुच्चय के लिए परिणामी एलडीए प्रक्षेपण का एक दृश्य चित्रण।]]


=== रैखिक विभेदक विश्लेषण (एलडीए) ===
=== रैखिक विभेदक विश्लेषण (एलडीए) ===
Line 99: Line 99:
=== टी-एसएनई ===
=== टी-एसएनई ===
{{Main|टी-वितरित प्रसंभाव्य समीप अंत:स्थापन}}
{{Main|टी-वितरित प्रसंभाव्य समीप अंत:स्थापन}}
टी-डिस्ट्रीब्यूटेड स्टोकेस्टिक नेबर एंबेडिंग (टी-एसएनई) एक नॉनलाइनियर डाइमेंशनलिटी रिडक्शन तकनीक है जो उच्च-आयामी डेटासेट के विज़ुअलाइज़ेशन के लिए उपयोगी है। क्लस्टरिंग या बाहरी पहचान जैसे विश्लेषण में उपयोग के लिए इसकी अनुशंसा नहीं की जाती है क्योंकि यह आवश्यक रूप से घनत्व या दूरी को अच्छी तरह से संरक्षित नहीं करता है।<ref>{{cite journal |last1=Schubert |first1=Erich |last2=Gertz |first2=Michael |date=2017 |editor-last=Beecks |editor-first=Christian |editor2-last=Borutta |editor2-first=Felix |editor3-last=Kröger |editor3-first=Peer |editor4-last=Seidl |editor4-first=Thomas |title=विज़ुअलाइज़ेशन और आउटलाइयर डिटेक्शन के लिए इंट्रिंसिक टी-स्टोचैस्टिक नेबर एंबेडिंग|url=https://link.springer.com/chapter/10.1007/978-3-319-68474-1_13 |journal=Similarity Search and Applications |series=Lecture Notes in Computer Science |volume=10609 |language=en |location=Cham |publisher=Springer International Publishing |pages=188–203 |doi=10.1007/978-3-319-68474-1_13 |isbn=978-3-319-68474-1}}</ref>
टी-डिस्ट्रीब्यूटेड स्टोकेस्टिक नेबर एंबेडिंग (टी-एसएनई) एक नॉनलाइनियर डाइमेंशनलिटी रिडक्शन तकनीक है जो उच्च-आयामी आंकड़ा समुच्चय के विज़ुअलाइज़ेशन के लिए उपयोगी है। क्लस्टरिंग या बाहरी पहचान जैसे विश्लेषण में उपयोग के लिए इसकी अनुशंसा नहीं की जाती है क्योंकि यह आवश्यक रूप से घनत्व या दूरी को अच्छी तरह से संरक्षित नहीं करता है।<ref>{{cite journal |last1=Schubert |first1=Erich |last2=Gertz |first2=Michael |date=2017 |editor-last=Beecks |editor-first=Christian |editor2-last=Borutta |editor2-first=Felix |editor3-last=Kröger |editor3-first=Peer |editor4-last=Seidl |editor4-first=Thomas |title=विज़ुअलाइज़ेशन और आउटलाइयर डिटेक्शन के लिए इंट्रिंसिक टी-स्टोचैस्टिक नेबर एंबेडिंग|url=https://link.springer.com/chapter/10.1007/978-3-319-68474-1_13 |journal=Similarity Search and Applications |series=Lecture Notes in Computer Science |volume=10609 |language=en |location=Cham |publisher=Springer International Publishing |pages=188–203 |doi=10.1007/978-3-319-68474-1_13 |isbn=978-3-319-68474-1}}</ref>
=== यूपी ===
=== यूपी ===
{{Main|यूनिफार्म कई गुना सन्निकटन और प्रक्षेपण}}
{{Main|यूनिफार्म कई गुना सन्निकटन और प्रक्षेपण}}


यूनिफ़ॉर्म मैनिफोल्ड सन्निकटन और प्रोजेक्शन (यूएमएपी) एक नॉनलाइनियर डायमेंशनलिटी रिडक्शन तकनीक है। दृष्टिगत रूप से, यह t-SNE के समान है, लेकिन यह मानता है कि डेटा समान रूप से स्थानीय रूप से जुड़े रीमैनियन मैनिफोल्ड पर वितरित किया जाता है और यह कि रीमैनियन आव्यूह स्थानीय रूप से स्थिर या लगभग स्थानीय रूप से स्थिर है।
यूनिफ़ॉर्म मैनिफोल्ड सन्निकटन और प्रोजेक्शन (यूएमएपी) एक नॉनलाइनियर आयामीता में कमी तकनीक है। दृष्टिगत रूप से, यह t-SNE के समान है, लेकिन यह मानता है कि आंकड़ा समान रूप से समष्टिीय रूप से जुड़े रीमैनियन मैनिफोल्ड पर वितरित किया जाता है और यह कि रीमैनियन आव्यूह समष्टिीय रूप से स्थिर या लगभग समष्टिीय रूप से स्थिर है।


== आयाम में कमी ==
== आयाम में कमी ==
उच्च-आयामी डेटासेट के लिए (अर्थात 10 से अधिक आयामों की संख्या के साथ), आयाम कमी सामान्यतः आयाम के अभिशाप के प्रभावों से बचने के लिए के-निकटतम पड़ोसी एल्गोरिदम (के-एनएन) प्रयुक्त करने से पहले की जाती है।<ref>Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.31.1422 "When is "nearest neighbor" meaningful?"]. ''Database Theory—ICDT99'', 217–235</ref>
उच्च-आयामी आंकड़ा समुच्चय के लिए (अर्थात 10 से अधिक आयामों की संख्या के साथ), आयाम कमी सामान्यतः आयाम के अभिशाप के प्रभावों से बचने के लिए के-निकटतम एल्गोरिदम (के-एनएन) प्रयुक्त करने से पहले की जाती है।<ref>Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.31.1422 "When is "nearest neighbor" meaningful?"]. ''Database Theory—ICDT99'', 217–235</ref>


प्रमुख घटक विश्लेषण (पीसीए), रैखिक विवेचक विश्लेषण (एलडीए), [[विहित सहसंबंध विश्लेषण]] (सीसीए), या गैर-ऋणात्मक आव्यूह कारककरण (एनएमएफ) तकनीकों का उपयोग करके सुविधा निष्कर्षण और आयाम में कमी को एक चरण में जोड़ा जा सकता है। कम-आयाम वाले स्थान में सुविधा ([[ यंत्र अधिगम | यंत्र अधिगम]] ) पर K-NN द्वारा क्लस्टरिंग करके। मशीन लर्निंग में इस प्रक्रिया को निम्न-आयामी [[एम्बेडिंग]] भी कहा जाता है।<ref>{{cite book |last1=Shaw |first1=B. |last2=Jebara |first2=T. |doi=10.1145/1553374.1553494 |chapter=Structure preserving embedding |title=Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 |pages=1 |year=2009 |isbn=9781605585161 |chapter-url=http://www.cs.columbia.edu/~jebara/papers/spe-icml09.pdf |citeseerx=10.1.1.161.451 |s2cid=8522279}}</ref>
प्रमुख घटक विश्लेषण (पीसीए), रैखिक विवेचक विश्लेषण (एलडीए), [[विहित सहसंबंध विश्लेषण]] (सीसीए) या गैर-ऋणात्मक आव्यूह एकीकरण (एनएमएफ) तकनीकों का उपयोग करके सुविधा निष्कर्षण और आयाम में कमी को एक चरण में सम्बद्ध किया जा सकता है। कम-आयाम वाले समष्टि में सुविधा ([[ यंत्र अधिगम | यंत्र अधिगम]] ) पर के-एनएन द्वारा क्लस्टरिंग करके। मशीन लर्निंग में इस प्रक्रिया को निम्न-आयामी [[एम्बेडिंग]] भी कहा जाता है।<ref>{{cite book |last1=Shaw |first1=B. |last2=Jebara |first2=T. |doi=10.1145/1553374.1553494 |chapter=Structure preserving embedding |title=Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 |pages=1 |year=2009 |isbn=9781605585161 |chapter-url=http://www.cs.columbia.edu/~jebara/papers/spe-icml09.pdf |citeseerx=10.1.1.161.451 |s2cid=8522279}}</ref>


बहुत उच्च-आयामी डेटासेट के लिए (उदाहरण के लिए लाइव वीडियो स्ट्रीम, डीएनए डेटा या उच्च-आयामी [[समय श्रृंखला]] पर समानता खोज करते समय) इलाके-संवेदनशील हैशिंग, [[यादृच्छिक प्रक्षेपण]] का उपयोग करके एक तेज़ अनुमानित के-एनएन खोज चला रहा है,<ref>{{cite book |last1=Bingham |first1=E. |last2=Mannila |first2=H. |doi=10.1145/502512.502546 |chapter=Random projection in dimensionality reduction |title=Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01 |pages=245 |year=2001 |isbn=978-1581133912 |s2cid=1854295}}</ref> रेखाचित्र,<ref>Shasha, D High (2004) ''Performance Discovery in Time Series'' Berlin: Springer. {{ISBN|0-387-00857-8}}</ref> या बहुत बड़े डेटा बेस टूलबॉक्स पर अंतर्राष्ट्रीय सम्मेलन से अन्य उच्च-आयामी समानता खोज तकनीकें एकमात्र व्यवहार्य विकल्प हो सकती हैं।
बहुत उच्च-आयामी आंकड़ा समुच्चय के लिए (उदाहरण के लिए लाइव वीडियो स्ट्रीम, डीएनए आंकड़ा या उच्च-आयामी [[समय श्रृंखला]] पर समानता खोज करते समय) इलाके-संवेदनशील हैशिंग, [[यादृच्छिक प्रक्षेपण]] का उपयोग करके एक तेज़ अनुमानित के-एनएन खोज चला रहा है,<ref>{{cite book |last1=Bingham |first1=E. |last2=Mannila |first2=H. |doi=10.1145/502512.502546 |chapter=Random projection in dimensionality reduction |title=Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01 |pages=245 |year=2001 |isbn=978-1581133912 |s2cid=1854295}}</ref> रेखाचित्र,<ref>Shasha, D High (2004) ''Performance Discovery in Time Series'' Berlin: Springer. {{ISBN|0-387-00857-8}}</ref> या बहुत बड़े आंकड़ा बेस टूलबॉक्स पर अंतर्राष्ट्रीय सम्मेलन से अन्य उच्च-आयामी समानता खोज तकनीकें एकमात्र व्यवहार्य विकल्प हो सकती हैं।


== अनुप्रयोग ==
== अनुप्रयोग ==
एक आयामी कमी तकनीक जो कभी-कभी [[तंत्रिका विज्ञान]] में प्रयोग की जाती है वह अधिकतम सूचनात्मक आयाम है,{{citation needed|date=June 2017}} जो किसी डेटासेट का निम्न-आयामी प्रतिनिधित्व पाता है जैसे कि मूल डेटा के बारे में जितना संभव हो उतना पारस्परिक जानकारी संरक्षित है।
आयामी कमी तकनीक जो कभी-कभी [[तंत्रिका विज्ञान]] में प्रयोग की जाती है वह अधिकतम सूचनात्मक आयाम है,{{citation needed|date=June 2017}} जो किसी आंकड़ा समुच्चय का निम्न-आयामी प्रतिनिधित्व है जैसे कि मूल आंकड़ा के विषय में जितना संभव हो उतना पारस्परिक जानकारी संरक्षित है।


== यह भी देखें ==
== यह भी देखें ==

Revision as of 21:55, 29 March 2023

आयामीता में कमी, या आयाम में कमी, एक उच्च-आयामी समष्टि से निम्न-आयामी समष्टि में आंकड़ा का परिवर्तन है ताकि निम्न-आयामी प्रतिनिधित्व मूल आंकड़ा के कुछ सार्थक गुणों को बनाए रखे, आदर्श रूप से इसके आंतरिक आयाम के निकट उच्च-आयामी समष्टि में कार्य करना कई कारणों से अवांछनीय हो सकता है आयामीता के अभिशाप के परिणामस्वरूप आंकड़ा प्रायः विरल होते हैं और आंकड़ा का विश्लेषण सामान्यतः कम्प्यूटेशनल रूप से अशिष्ट (नियंत्रित करने या वर्णन में कठिन) होता है। आयाम में कमी उन क्षेत्रों में सामान्य है जो बड़ी संख्या में अवलोकन और बड़ी संख्या में चर, जैसे संकेत प्रसंस्करण, भाषण मान्यता, न्यूरोइन्फॉर्मेटिक्स और जैव सूचना विज्ञान से निपटते हैं।[1]

तरीकों को सामान्यतः रैखिक और गैर-रैखिक दृष्टिकोणों में विभाजित किया जाता है।[1] दृष्टिकोण को सुविधा चयन और सुविधा निष्कर्षण में भी विभाजित किया जा सकता है।[2] ध्वनि में कमी, आंकड़ा विज़ुअलाइज़ेशन, समूह विश्लेषण या अन्य विश्लेषणों को सुविधाजनक बनाने के लिए एक मध्यवर्ती फेज़ के रूप में आयाम में कमी का उपयोग किया जा सकता है।

आकृति चयन

आकृति चयन दृष्टिकोण इनपुट चर (जिन्हें आकृति या विशेषताएँ भी कहा जाता है) का एक उप समुच्चय खोजने का प्रयास करते हैं। तीन योजनाए हैं: आकृति योजना (जैसे सूचना लाभ), आवरण योजना (जैसे शुद्धता द्वारा निर्देशित खोज), और एम्बेडेड योजना (पूर्वानुमान त्रुटियों के आधार पर मॉडल का निर्माण करते समय चयनित सुविधाएँ जोड़ी या हटा दी जाती हैं)।

आंकड़ा विश्लेषण जैसे प्रतिगमन विश्लेषण या सांख्यिकीय वर्गीकरण मूल समष्टि की तुलना में कम समष्टि में अधिक सटीक रूप से किया जा सकता है।[3]

फीचर प्रक्षेपण

आकृति प्रक्षेपण (जिसे आकृति एक्सट्रैक्शन भी कहा जाता है) आंकड़ा को उच्च-आयामी समष्टि से कम आयामों वाले समष्टि में बदल देता है। प्रमुख घटक विश्लेषण (पीसीए) के रूप में आंकड़ा परिवर्तन रैखिक हो सकता है लेकिन कई गैर-रैखिक आयामी कमी तकनीकें भी सम्मिलित हैं।[4][5] बहुआयामी आंकड़ा के लिए, टेंसर प्रतिनिधित्व का उपयोग बहु-रैखिक उप समष्टि लर्निंग के माध्यम से आयामीता में कमी में किया जा सकता है।[6]

A scatterplot showing two groups points. समूहों के माध्यम से एक धुरी चलती है। वे एक हिस्टोग्राम में परिवर्तित होते हैं जो दिखाते हैं कि पीसीए प्रोजेक्शन में प्रत्येक बिंदु कहाँ आता है। थंब

प्रमुख घटक विश्लेषण (पीसीए)

आयामीता में कमी के लिए मुख्य रेखीय तकनीक, प्रमुख घटक विश्लेषण, निम्न-आयामी समष्टि के लिए आंकड़ा का एक रेखीय मानचित्रण इस तरह से करता है कि निम्न-आयामी प्रतिनिधित्व में आंकड़ा का विचरण अधिकतम हो जाता है। व्यवहार में, आंकड़ा का सहप्रसरण (और कभी-कभी सहसंबंध और निर्भरता) आव्यूह (गणित)) आव्यूह का निर्माण किया जाता है और इस आव्यूह पर आइगेन सदिशों की गणना की जाती है। सबसे बड़े eigenvalues ​​​​(प्रमुख घटक) के अनुरूप आइगेन सदिश का उपयोग अब मूल आंकड़ा के भिन्नता के एक बड़े अंश के पुनर्निर्माण के लिए किया जा सकता है। इसके अलावा, पहले कुछ आइगेन सदिश को प्रायः प्रणाली के बड़े पैमाने के भौतिक व्यवहार के संदर्भ में व्याख्या किया जा सकता है, क्योंकि वे प्रायः प्रणाली की ऊर्जा के विशाल बहुमत का योगदान करते हैं, खासकर कम-आयामी प्रणाली में। फिर भी, यह मामला-दर-मामला आधार पर सिद्ध होना चाहिए क्योंकि सभी प्रणालियाँ इस व्यवहार को प्रदर्शित नहीं करती हैं। मूल समष्टि (अंकों की संख्या के आयाम के साथ) को घटा दिया गया है (आंकड़ा हानि के साथ, लेकिन उम्मीद है कि सबसे महत्वपूर्ण विचरण को बनाए रखना) कुछ आइगेन सदिशों द्वारा फैलाया गया समष्टि है।[citation needed]

गैर-ऋणात्मक आव्यूह गुणनखंडन (एनएमएफ)

एनएमएफ दो गैर-ऋणात्मक आव्यूह के उत्पाद के लिए एक गैर-ऋणात्मक आव्यूह को विघटित करता है, जो उन क्षेत्रों में एक आशाजनक उपकरण रहा है जहां केवल गैर-ऋणात्मक संकेत सम्मिलित हैं,[7][8] जैसे कि खगोल विज्ञान।।[9][10] एनएमएफ ली एंड सेउंग द्वारा गुणक अद्यतन नियम के बाद से अच्छी तरह से जाना जाता है[7] जिसे लगातार विकसित किया गया है: अनिश्चितताओं का समावेश, [9] लापता आंकड़ा और समानांतर संगणना का विचार[11] अनुक्रमिक निर्माण [11] जो आगे बढ़ता है एनएमएफ की स्थिरता और रैखिकता[10] के साथ-साथ डिजिटल इमेज प्रोसेसिंग में लापता आंकड़ा को संभालने सहित अन्य अपडेट।[12]

निर्माण के दौरान एक स्थिर घटक आधार, और एक रेखीय मॉडलिंग प्रक्रिया के साथ, अनुक्रमिक एनएमएफ [11] खगोल विज्ञान में परिस्थिति-तारकीय संरचनाओं की प्रत्यक्ष इमेजिंग में प्रवाह को संरक्षित करने में सक्षम है[10] एक्सोप्लैनेट्स का पता लगाने के तरीकों में से एक के रूप में, विशेष रूप से प्रत्यक्ष के लिए परिस्थितिजन्य डिस्क की इमेजिंग। पीसीए की तुलना में, एनएमएफ मेट्रिसेस के माध्य को नहीं हटाता है, जो गैर-भौतिक गैर-ऋणात्मक प्रवाह की ओर जाता है; इसलिए एनएमएफ पीसीए की तुलना में अधिक जानकारी संरक्षित करने में सक्षम है जैसा कि रेन एट अल द्वारा प्रदर्शित किया गया है।[10]

कर्नेल पीसीए

प्रिंसिपल कंपोनेंट एनालिसिस को कर्नेल चाल के माध्यम से नॉनलाइन तरीके से नियोजित किया जा सकता है। परिणामी तकनीक नॉनलाइनियर मैपिंग बनाने में सक्षम है जो आंकड़ा में भिन्नता को अधिकतम करती है। परिणामी तकनीक को कर्नेल प्रमुख घटक विश्लेषण कहा जाता है।

ग्राफ आधारित कर्नेल पीसीए

अन्य प्रमुख गैर-रैखिक तकनीकों में कई गुना सीखने की तकनीकें सम्मिलित हैं जैसे कि आइसोमैप, समष्टिीय रूप से रैखिक एम्बेडिंग (एलएलई),[13] हेसियन एलएलई, लाप्लासियन ईजेनमैप्स, और स्पर्शरेखा अंतरिक्ष विश्लेषण पर आधारित तरीके।[14] ये तकनीकें लागत फलन का उपयोग करके एक निम्न-आयामी आंकड़ा प्रतिनिधित्व का निर्माण करती हैं जो आंकड़ा के समष्टिीय गुणों को बनाए रखता है, और कर्नेल पीसीए के लिए ग्राफ-आधारित कर्नेल को परिभाषित करने के रूप में देखा जा सकता है।

अभी हाल ही में, तकनीकों का प्रस्ताव किया गया है कि, एक निश्चित कर्नेल को परिभाषित करने के बजाय, अर्ध-निश्चित प्रोग्रामिंग का उपयोग करके कर्नेल को सीखने का प्रयास करें। ऐसी तकनीक का सबसे प्रमुख उदाहरण अधिकतम भिन्नता प्रकट करना (एमवीयू) है। एमवीयू का केंद्रीय विचार निकटतम पड़ोसियों (आंतरिक उत्पाद समष्टि में) के बीच सभी जोड़ीदार दूरी को सटीक रूप से संरक्षित करना है, जबकि उन बिंदुओं के बीच की दूरी को अधिकतम करना जो निकटतम पड़ोसी नहीं हैं।

पड़ोस के संरक्षण के लिए एक वैकल्पिक दृष्टिकोण एक लागत समारोह के न्यूनीकरण के माध्यम से है जो इनपुट और आउटपुट रिक्त समष्टि में दूरी के बीच अंतर को मापता है। ऐसी तकनीकों के महत्वपूर्ण उदाहरणों में सम्मिलित हैं: शास्त्रीय बहुआयामी स्केलिंग, जो पीसीए के समान है; आइसोमैप, जो आंकड़ा स्पेस में जियोडेसिक दूरियों का उपयोग करता है; प्रसार मानचित्र, जो आंकड़ा समष्टि में प्रसार दूरी का उपयोग करते हैं; टी-वितरित स्टोचैस्टिक पड़ोसी एम्बेडिंग (टी-एसएनई), जो बिंदुओं के जोड़े पर वितरण के बीच विचलन को कम करता है; और वक्रीय घटक विश्लेषण।

गैर-रैखिक आयामीता में कमी के लिए एक अलग दृष्टिकोण स्वतः कूटलेखन के उपयोग के माध्यम से है, एक विशेष प्रकार के फीडफॉरवर्ड न्यूरल नेटवर्क के साथ एक बोतल-गर्दन छिपी हुई परत।[15] गहरे एनकोडर का प्रशिक्षण सामान्यतः एक लालची परत-वार पूर्व-प्रशिक्षण (उदाहरण के लिए, प्रतिबंधित बोल्ट्जमैन मशीनों के ढेर का उपयोग करके) का उपयोग करके किया जाता है, जिसके बाद backpropagation पर आधारित एक फ़ाइनट्यूनिंग चरण होता है।

2डी बिंदुओं के एक समुच्चय के लिए परिणामी एलडीए प्रक्षेपण का एक दृश्य चित्रण।

रैखिक विभेदक विश्लेषण (एलडीए)

रैखिक विभेदक विश्लेषण (एलडीए) फिशर के रैखिक विभेदक का एक सामान्यीकरण है, जो सांख्यिकी, पैटर्न रिकग्निशन और मशीन लर्निंग में इस्तेमाल की जाने वाली एक विधि है, जो दो या दो से अधिक वर्गों की वस्तुओं या घटनाओं को चिह्नित या अलग करती है।

सामान्यीकृत विभेदक विश्लेषण (जीडीए)

जीडीए कर्नेल फलन ऑपरेटर का उपयोग करके गैर-रेखीय विभेदक विश्लेषण से संबंधित है। अंतर्निहित सिद्धांत समर्थन वेक्टर यंत्र (एसवीएम) के करीब है, जहां तक ​​जीडीए पद्धति इनपुट सदिश को उच्च-आयामी फीचर स्पेस में मैपिंग प्रदान करती है।[16][17] एलडीए के समान, जीडीए का उद्देश्य निम्न-आयामी अंतरिक्ष में सुविधाओं के लिए प्रक्षेपण को कक्षा के भीतर के बिखराव के बीच के अनुपात को अधिकतम करके खोजना है।

स्वतः कूटलेखन

स्वतः कूटलेखन का उपयोग गैर-रैखिक आयाम कमी कार्यों और कोडिंग को एक उलटा फलन के साथ कोडिंग से मूल प्रतिनिधित्व तक सीखने के लिए किया जा सकता है।

टी-एसएनई

टी-डिस्ट्रीब्यूटेड स्टोकेस्टिक नेबर एंबेडिंग (टी-एसएनई) एक नॉनलाइनियर डाइमेंशनलिटी रिडक्शन तकनीक है जो उच्च-आयामी आंकड़ा समुच्चय के विज़ुअलाइज़ेशन के लिए उपयोगी है। क्लस्टरिंग या बाहरी पहचान जैसे विश्लेषण में उपयोग के लिए इसकी अनुशंसा नहीं की जाती है क्योंकि यह आवश्यक रूप से घनत्व या दूरी को अच्छी तरह से संरक्षित नहीं करता है।[18]

यूपी

यूनिफ़ॉर्म मैनिफोल्ड सन्निकटन और प्रोजेक्शन (यूएमएपी) एक नॉनलाइनियर आयामीता में कमी तकनीक है। दृष्टिगत रूप से, यह t-SNE के समान है, लेकिन यह मानता है कि आंकड़ा समान रूप से समष्टिीय रूप से जुड़े रीमैनियन मैनिफोल्ड पर वितरित किया जाता है और यह कि रीमैनियन आव्यूह समष्टिीय रूप से स्थिर या लगभग समष्टिीय रूप से स्थिर है।

आयाम में कमी

उच्च-आयामी आंकड़ा समुच्चय के लिए (अर्थात 10 से अधिक आयामों की संख्या के साथ), आयाम कमी सामान्यतः आयाम के अभिशाप के प्रभावों से बचने के लिए के-निकटतम एल्गोरिदम (के-एनएन) प्रयुक्त करने से पहले की जाती है।[19]

प्रमुख घटक विश्लेषण (पीसीए), रैखिक विवेचक विश्लेषण (एलडीए), विहित सहसंबंध विश्लेषण (सीसीए) या गैर-ऋणात्मक आव्यूह एकीकरण (एनएमएफ) तकनीकों का उपयोग करके सुविधा निष्कर्षण और आयाम में कमी को एक चरण में सम्बद्ध किया जा सकता है। कम-आयाम वाले समष्टि में सुविधा ( यंत्र अधिगम ) पर के-एनएन द्वारा क्लस्टरिंग करके। मशीन लर्निंग में इस प्रक्रिया को निम्न-आयामी एम्बेडिंग भी कहा जाता है।[20]

बहुत उच्च-आयामी आंकड़ा समुच्चय के लिए (उदाहरण के लिए लाइव वीडियो स्ट्रीम, डीएनए आंकड़ा या उच्च-आयामी समय श्रृंखला पर समानता खोज करते समय) इलाके-संवेदनशील हैशिंग, यादृच्छिक प्रक्षेपण का उपयोग करके एक तेज़ अनुमानित के-एनएन खोज चला रहा है,[21] रेखाचित्र,[22] या बहुत बड़े आंकड़ा बेस टूलबॉक्स पर अंतर्राष्ट्रीय सम्मेलन से अन्य उच्च-आयामी समानता खोज तकनीकें एकमात्र व्यवहार्य विकल्प हो सकती हैं।

अनुप्रयोग

आयामी कमी तकनीक जो कभी-कभी तंत्रिका विज्ञान में प्रयोग की जाती है वह अधिकतम सूचनात्मक आयाम है,[citation needed] जो किसी आंकड़ा समुच्चय का निम्न-आयामी प्रतिनिधित्व है जैसे कि मूल आंकड़ा के विषय में जितना संभव हो उतना पारस्परिक जानकारी संरक्षित है।

यह भी देखें

टिप्पणियाँ

  1. 1.0 1.1 van der Maaten, Laurens; Postma, Eric; van den Herik, Jaap (October 26, 2009). "आयाम में कमी: एक तुलनात्मक समीक्षा" (PDF). J Mach Learn Res. 10: 66–71.
  2. Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". In Liu, Huan; Motoda, Hiroshi (eds.). फ़ीचर निष्कर्षण, निर्माण और चयन. p. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
  3. Rico-Sulayes, Antonio (2017). "Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35. ISSN 1815-5928.
  4. Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
  5. C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  6. Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. Bibcode:2011PatRe..44.1540L. doi:10.1016/j.patcog.2011.01.004.
  7. 7.0 7.1 Daniel D. Lee & H. Sebastian Seung (1999). "Learning the parts of objects by non-negative matrix factorization". Nature. 401 (6755): 788–791. Bibcode:1999Natur.401..788L. doi:10.1038/44565. PMID 10548103. S2CID 4428232.
  8. Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. pp. 556–562.
  9. 9.0 9.1 Blanton, Michael R.; Roweis, Sam (2007). "के-सुधार और पराबैंगनी, ऑप्टिकल और निकट अवरक्त में परिवर्तन". The Astronomical Journal. 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127. S2CID 18561804.
  10. 10.0 10.1 10.2 10.3 Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Non-negative Matrix Factorization: Robust Extraction of Extended Structures". The Astrophysical Journal. 852 (2): 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2. S2CID 3966513.
  11. 11.0 11.1 11.2 Zhu, Guangtun B. (2016-12-19). "गैर-ऋणात्मक मैट्रिक्स गुणनखंडन (NMF) विषमलैंगिक अनिश्चितताओं और लापता डेटा के साथ". arXiv:1612.06037 [astro-ph.IM].
  12. Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H.; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "हाई कंट्रास्ट इमेजिंग में सिग्नल सेपरेशन के लिए डेटा इम्प्यूटेशन का उपयोग करना". The Astrophysical Journal. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024. S2CID 209531731.
  13. Roweis, S. T.; Saul, L. K. (2000). "स्थानीय रूप से रैखिक एम्बेडिंग द्वारा गैर-रैखिक आयाम में कमी". Science. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313. doi:10.1126/science.290.5500.2323. PMID 11125150. S2CID 5987139.
  14. Zhang, Zhenyue; Zha, Hongyuan (2004). "टेंगेंट स्पेस एलाइनमेंट के माध्यम से प्रिंसिपल मैनिफोल्ड्स और नॉनलाइनियर डायमेंशनलिटी रिडक्शन". SIAM Journal on Scientific Computing. 26 (1): 313–338. Bibcode:2004SJSC...26..313Z. doi:10.1137/s1064827502419154.
  15. Hongbing Hu, Stephen A. Zahorian, (2010) "Dimensionality Reduction Methods for HMM Phonetic Recognition", ICASSP 2010, Dallas, TX
  16. Baudat, G.; Anouar, F. (2000). "कर्नेल दृष्टिकोण का उपयोग करके सामान्यीकृत विभेदक विश्लेषण". Neural Computation. 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760. doi:10.1162/089976600300014980. PMID 11032039. S2CID 7036341.
  17. Haghighat, Mohammad; Zonouz, Saman; Abdel-Mottaleb, Mohamed (2015). "CloudID: Trustworthy cloud-based and cross-enterprise biometric identification". Expert Systems with Applications. 42 (21): 7905–7916. doi:10.1016/j.eswa.2015.06.025.
  18. Schubert, Erich; Gertz, Michael (2017). Beecks, Christian; Borutta, Felix; Kröger, Peer; Seidl, Thomas (eds.). "विज़ुअलाइज़ेशन और आउटलाइयर डिटेक्शन के लिए इंट्रिंसिक टी-स्टोचैस्टिक नेबर एंबेडिंग". Similarity Search and Applications. Lecture Notes in Computer Science (in English). Cham: Springer International Publishing. 10609: 188–203. doi:10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1.
  19. Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "When is "nearest neighbor" meaningful?". Database Theory—ICDT99, 217–235
  20. Shaw, B.; Jebara, T. (2009). "Structure preserving embedding" (PDF). Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09. p. 1. CiteSeerX 10.1.1.161.451. doi:10.1145/1553374.1553494. ISBN 9781605585161. S2CID 8522279.
  21. Bingham, E.; Mannila, H. (2001). "Random projection in dimensionality reduction". Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. p. 245. doi:10.1145/502512.502546. ISBN 978-1581133912. S2CID 1854295.
  22. Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN 0-387-00857-8


संदर्भ


बाहरी संबंध