उच्च-आयामी डेटा को क्लस्टर करना: Difference between revisions

From Vigyanwiki
(Created page with "उच्च-आयामी डेटा को क्लस्टर करना कुछ दर्जन से लेकर कई हजारों आयामो...")
 
No edit summary
 
(11 intermediate revisions by 3 users not shown)
Line 1: Line 1:
उच्च-[[आयाम]]ी डेटा को क्लस्टर करना कुछ दर्जन से लेकर कई हजारों आयामों वाले डेटा का [[क्लस्टर विश्लेषण]] है। डेटा के ऐसे उच्च-आयामी स्थान अक्सर चिकित्सा जैसे क्षेत्रों में सामने आते हैं, जहां [[डीएनए माइक्रोएरे]] तकनीक एक साथ कई माप उत्पन्न कर सकती है, और पाठ दस्तावेजों की क्लस्टरिंग, जहां, यदि शब्द-आवृत्ति वेक्टर का उपयोग किया जाता है, तो आयामों की संख्या हीप्स के नियम के बराबर होती है।
'''उच्च-[[आयाम]]ी आंकड़ों''' '''को स्तवक करना''' कुछ दर्जन से लेकर कई हजारों आयामों वाले आंकड़ों का [[क्लस्टर विश्लेषण|स्तवक विश्लेषण]] है। आंकड़ों के ऐसे उच्च-आयामी स्थान प्रायः चिकित्सा जैसे क्षेत्रों में सामने आते हैं, जहां [[डीएनए माइक्रोएरे]] तकनीक एक साथ अधिक माप उत्पन्न कर सकती है, और अवतरण प्रपत्र को स्तवक जहां, यदि शब्द-आवृत्ति सदिश का उपयोग किया जाता है, तो आयामों की संख्या हीप्स के नियम के समान होती है।


==समस्याएँ==
==समस्याएँ==
उच्च-आयामी डेटा में क्लस्टरिंग के लिए चार समस्याओं को दूर करने की आवश्यकता है:<ref name="survey">{{Cite journal | doi = 10.1145/1497577.1497578| title = उच्च-आयामी डेटा को क्लस्टर करना| journal = ACM Transactions on Knowledge Discovery from Data| volume = 3| pages = 1–58| year = 2009| last1 = Kriegel | first1 = H. P.  | author-link = Hans-Peter Kriegel| last2 = Kröger | first2 = P. | last3 = Zimek | first3 = A. | s2cid = 17363900}}</ref>
उच्च-आयामी आंकड़ों में स्तवक के लिए चार समस्याओं को दूर करने की आवश्यकता है: <ref name="survey">{{Cite journal | doi = 10.1145/1497577.1497578| title = उच्च-आयामी डेटा को क्लस्टर करना| journal = ACM Transactions on Knowledge Discovery from Data| volume = 3| pages = 1–58| year = 2009| last1 = Kriegel | first1 = H. P.  | author-link = Hans-Peter Kriegel| last2 = Kröger | first2 = P. | last3 = Zimek | first3 = A. | s2cid = 17363900}}</ref>
* एकाधिक आयामों के बारे में सोचना कठिन है, कल्पना करना असंभव है, और, प्रत्येक आयाम के साथ संभावित मूल्यों की संख्या में तेजी से वृद्धि के कारण, सभी उप-स्थानों की पूरी गणना बढ़ती आयामीता के साथ कठिन हो जाती है। इस समस्या को आयामीता के अभिशाप के रूप में जाना जाता है।
* एकाधिक आयामों के बारे में सोचना कठिन है, कल्पना करना असंभव है, और, प्रत्येक आयाम के साथ संभावित मूल्यों की संख्या में तीव्रता से वृद्धि के कारण, सभी उप-स्थानों की पूरी गणना बढ़ती आयामीता के साथ कठिन हो जाती है। इस समस्या को आयामीता के अभिशाप के रूप में जाना जाता है।
* जैसे-जैसे आयामों की संख्या बढ़ती है, दूरी की अवधारणा कम सटीक होती जाती है, क्योंकि किसी दिए गए डेटासेट में किन्हीं दो बिंदुओं के बीच की दूरी अभिसरण होती है। विशेष रूप से निकटतम और सबसे दूर बिंदु का भेदभाव निरर्थक हो जाता है:
* जैसे-जैसे आयामों की संख्या बढ़ती है, दूरी की अवधारणा कम सटीक होती जाती है, क्योंकि किसी दिए गए आंकड़े समुच्चय में किन्हीं दो बिंदुओं के बीच की दूरी अभिसरण होती है। विशेष रूप से निकटतम और अत्यधिक दूर बिंदु का भेदभाव निरर्थक हो जाता है:
::<math>\lim_{d \to \infty} \frac{dist_\max - dist_\min}{dist_\min} = 0</math>
::<math>\lim_{d \to \infty} \frac{dist_\max - dist_\min}{dist_\min} = 0</math>
* क्लस्टर का उद्देश्य उन वस्तुओं को समूहित करना है जो संबंधित हैं, उनकी विशेषता के मूल्यों के अवलोकन के आधार पर। हालाँकि, बड़ी संख्या में विशेषताओं को देखते हुए कुछ विशेषताएँ आमतौर पर किसी दिए गए क्लस्टर के लिए सार्थक नहीं होंगी। उदाहरण के लिए, नवजात शिशु की जांच में नमूनों का एक समूह उन नवजात शिशुओं की पहचान कर सकता है जिनके रक्त मूल्य समान हैं, जिससे किसी बीमारी के लिए कुछ रक्त मूल्यों की प्रासंगिकता के बारे में जानकारी मिल सकती है। लेकिन अलग-अलग बीमारियों के लिए, अलग-अलग रक्त मान एक समूह बना सकते हैं, और अन्य मान असंबंधित हो सकते हैं। इसे स्थानीय सुविधा प्रासंगिकता समस्या के रूप में जाना जाता है: अलग-अलग उप-स्थानों में अलग-अलग क्लस्टर पाए जा सकते हैं, इसलिए विशेषताओं का वैश्विक फ़िल्टरिंग पर्याप्त नहीं है।
* एक स्तवक का उद्देश्य संबंधित वस्तुओं को उनकी विशेषता के मूल्यों के अवलोकन के आधार पर समूहीकृत करना है। हालाँकि, बड़ी संख्या में विशेषताओं को देखते हुए कुछ विशेषताएँ सामान्यतः किसी दिए गए स्तवक के लिए सार्थक नहीं होंगी। उदाहरण के लिए, नवजात शिशु की जांच में प्रतिरूप का एक समूह उन नवजात शिशुओं की पहचान कर सकता है जिनके रक्त मूल्य समान हैं, जिससे किसी बीमारी के लिए कुछ रक्त मूल्यों की प्रासंगिकता के बारे में जानकारी प्राप्त हो सकती है। लेकिन भिन्न-भिन्न बीमारियों के लिए, भिन्न-भिन्न रक्त मान एक समूह बना सकते हैं, और अन्य मान असंबंधित हो सकते हैं। इसे स्थानीय सुविधा प्रासंगिकता समस्या के रूप में जाना जाता है: भिन्न-भिन्न उप-स्थानों में भिन्न-भिन्न स्तवक पाए जा सकते हैं, इसलिए विशेषताओं का वैश्विक निस्पंदन पर्याप्त नहीं है।
* बड़ी संख्या में विशेषताओं को देखते हुए, यह संभव है कि कुछ विशेषताएँ [[सहसंबद्ध]] हों। इसलिए, क्लस्टर मनमाने ढंग से उन्मुख एफ़िन उप-स्थानों में मौजूद हो सकते हैं।
* बड़ी संख्या में विशेषताओं को देखते हुए, यह संभव है कि कुछ विशेषताएँ [[सहसंबद्ध]] हों। इसलिए, स्तवक स्वेच्छाचारी रूप से उन्मुख सजातीय उपसमष्‍टि में उपस्थित हो सकते हैं।


हाल के शोध से संकेत मिलता है कि भेदभाव की समस्या तभी उत्पन्न होती है जब अप्रासंगिक आयामों की संख्या अधिक होती है, और साझा-निकटतम-पड़ोसी दृष्टिकोण परिणामों में सुधार कर सकते हैं।<ref>{{Cite conference | last1 = Houle | first1 = M. E. | last2 = Kriegel | first2 = H. P. | author-link2=Hans-Peter Kriegel | last3 = Kröger | first3 = P.| last4 = Schubert | first4 = E. | last5 = Zimek | first5 = A.| title = Can Shared-Neighbor Distances Defeat the Curse of Dimensionality? | doi = 10.1007/978-3-642-13818-8_34 | conference = Scientific and Statistical Database Management | series = Lecture Notes in Computer Science | volume = 6187 | pages = 482 | year = 2010 | isbn = 978-3-642-13817-1 | url = http://www.dbs.ifi.lmu.de/~zimek/publications/SSDBM2010/SNN-SSDBM2010-preprint.pdf}}</ref>
हाल के शोध से संकेत मिलता है कि भेदभाव की समस्या तभी उत्पन्न होती है जब अप्रासंगिक आयामों की संख्या अधिक होती है, और साझा-निकटतम-समीप दृष्टिकोण परिणामों में सुधार कर सकते हैं। <ref>{{Cite conference | last1 = Houle | first1 = M. E. | last2 = Kriegel | first2 = H. P. | author-link2=Hans-Peter Kriegel | last3 = Kröger | first3 = P.| last4 = Schubert | first4 = E. | last5 = Zimek | first5 = A.| title = Can Shared-Neighbor Distances Defeat the Curse of Dimensionality? | doi = 10.1007/978-3-642-13818-8_34 | conference = Scientific and Statistical Database Management | series = Lecture Notes in Computer Science | volume = 6187 | pages = 482 | year = 2010 | isbn = 978-3-642-13817-1 | url = http://www.dbs.ifi.lmu.de/~zimek/publications/SSDBM2010/SNN-SSDBM2010-preprint.pdf}}</ref>




==दृष्टिकोण==
==दृष्टिकोण==
अक्ष-समानांतर या मनमाने ढंग से उन्मुख एफ़िन उप-स्थानों में क्लस्टरिंग के प्रति दृष्टिकोण इस बात में भिन्न होते हैं कि वे समग्र लक्ष्य की व्याख्या कैसे करते हैं, जो उच्च आयामीता वाले डेटा में क्लस्टर ढूंढ रहा है।<ref name="survey" />एक समग्र रूप से भिन्न दृष्टिकोण डेटा मैट्रिक्स में [[ नमूना ]] के आधार पर समूहों को ढूंढना है, जिसे अक्सर [[बाइक्लस्टरिंग]] कहा जाता है, जो जैव सूचना विज्ञान में अक्सर उपयोग की जाने वाली तकनीक है।
अक्ष-समानांतर या स्वेच्छाचारी रूप से उन्मुख सजातीय उपसमष्‍टि में स्तवक के प्रति दृष्टिकोण इस बात में भिन्न होते हैं कि वे समग्र लक्ष्य की व्याख्या कैसे करते हैं, जो उच्च आयामीता वाले आंकड़ों में स्तवक ढूंढ रहा है। <ref name="survey" /> आंकड़े आव्यूह में प्रतिरूप के आधार पर समूहों को ढूंढना एक समग्र रूप से भिन्न दृष्टिकोण है, जिसे प्रायः [[बाइक्लस्टरिंग|बाइस्तवक]] कहा जाता है, जो जैव सूचना विज्ञान में प्रायः उपयोग की जाने वाली तकनीक है।


===सबस्पेस क्लस्टरिंग===
===उपसमष्‍टि स्तवक===
[[Image:SubspaceClustering.png|frame|right|सबस्पेस क्लस्टर के साथ उदाहरण 2डी स्पेस]]निकटवर्ती छवि केवल दो-आयामी स्थान दिखाती है जहां कई समूहों की पहचान की जा सकती है। एक-आयामी उप-स्थानों में, क्लस्टर <math>c_a</math> (उपस्थान में <math>\{x\}</math>) और <math>c_b</math>, <math>c_c</math>, <math>c_d</math> (उपस्थान में <math>\{y\}</math>) पाया जा सकता है। <math>c_c</math> इसे द्वि-आयामी (उप-)स्थान में क्लस्टर नहीं माना जा सकता, क्योंकि यह बहुत कम वितरित है <math>x</math> एक्सिस। दो आयामों में, दो क्लस्टर <math>c_{ab}</math> और <math>c_{ad}</math> पहचाना जा सकता है.
[[Image:SubspaceClustering.png|frame|right|उदाहरण उपसमष्‍टि स्तवक के साथ 2डी स्थल]]निकटवर्ती छवि केवल द्वि-आयामी स्थान दिखाती है जहां कई समूहों की पहचान की जा सकती है। एक-आयामी उप-स्थानों में, स्तवक <math>c_a</math> (उपस्थान में <math>\{x\}</math>) और <math>c_b</math>, <math>c_c</math>, <math>c_d</math> (उपस्थान में <math>\{y\}</math>) पाया जा सकता है। <math>c_c</math> इसे द्वि-आयामी (उप-स्थान) में स्तवक नहीं माना जा सकता, क्योंकि यह <math>x</math> एक्सिस से बहुत कम वितरित है। दो आयामों में, दो स्तवक <math>c_{ab}</math> और <math>c_{ad}</math> पहचाना जा सकता है। उप-स्थान क्लस्टरिंग की समस्या इस तथ्य से दी गई है कि d आयामों वाले किसी स्थान के '''<math>2^d</math>''' विभिन्न उप-स्थान हैं। यदि उप-स्थान अक्ष-समानांतर नहीं हैं, तो अनंत संख्या में उप-स्थान संभव हैं। इसलिए, उपसमष्‍टि स्तवक कलन विधि निम्न परिणाम उत्पन्न करने के जोखिम पर,संगणनात्मक रूप से व्यवहार्य बने रहने के लिए कुछ प्रकार के अनुमान का उपयोग करते हैं। उदाहरण के लिए, अधोगामी -संवरण विशेषता (सीएफ. [[एसोसिएशन नियम सीखना|संघ नियम सीखना]]) का उपयोग केवल निचले-आयामी उप-स्थानों को मिलाकर उच्च-आयामी उप-स्थान बनाने के लिए किया जा सकता है, क्योंकि किसी भी उप-स्थान टी में एक स्तवक होता है, जिसके परिणामस्वरूप उस स्तवक को सम्मिलित करने के लिए एक पूर्ण स्थान एस भी होगा (यानी एस ⊆ टी), अधिकांश पारंपरिक कलन विधि जैसे कि क्लिक, सबक्लू द्वारा अपनाया गया दृष्टिकोण। '''<ref>{{Cite journal | last1 = Agrawal | first1 = R. | last2 = Gehrke | first2 = J. | last3 = Gunopulos | first3 = D. | last4 = Raghavan | first4 = P. | title = उच्च आयामी डेटा की स्वचालित उप-स्थान क्लस्टरिंग| doi = 10.1007/s10618-005-1396-1 | journal = Data Mining and Knowledge Discovery | volume = 11 | pages = 5–33 | year = 2005 | citeseerx = 10.1.1.131.5152 | s2cid = 9289572 }}</ref>'''<ref>{{Cite conference| doi = 10.1137/1.9781611972740.23| title = उच्च-आयामी डेटा के लिए घनत्व-कनेक्टेड सबस्पेस क्लस्टरिंग| conference = Proceedings of the 2004 SIAM International Conference on Data Mining| pages = [https://archive.org/details/proceedingsoffou0000siam/page/246 246]| year = 2004| last1 = Kailing| first1 = K.| last2 = Kriegel| first2 = H. P.| author-link2 = Hans-Peter Kriegel| last3 = Kröger| first3 = P.| isbn = 978-0-89871-568-2| url-access = registration| url = https://archive.org/details/proceedingsoffou0000siam/page/246| doi-access = free}}</ref> प्रत्येक आयाम के लिए प्रासंगिकता की विभिन्न उपाधि का उपयोग करके एक उप-स्थान को परिभाषित करना भी संभव है,आईएमडब्ल्यूके-मीन्स, ईबीके-मोड्स और सीबीके-मोड्स द्वारा अपनाया गया एक दृष्टिकोण।


सबस्पेस क्लस्टरिंग की समस्या इस तथ्य से दी गई है कि वहाँ हैं <math>2^d</math> किसी स्थान के विभिन्न उपस्थानों के साथ <math>d</math> आयाम. यदि उप-स्थान अक्ष-समानांतर नहीं हैं, तो अनंत संख्या में उप-स्थान संभव हैं। इसलिए, सबस्पेस क्लस्टरिंग एल्गोरिदम निम्न परिणाम उत्पन्न करने के जोखिम पर, कम्प्यूटेशनल रूप से व्यवहार्य बने रहने के लिए कुछ प्रकार के अनुमान का उपयोग करते हैं। उदाहरण के लिए, डाउनवर्ड-क्लोजर प्रॉपर्टी (सीएफ. [[एसोसिएशन नियम सीखना]]) का उपयोग केवल निचले-आयामी उप-स्थानों को मिलाकर उच्च-आयामी उप-स्थान बनाने के लिए किया जा सकता है, क्योंकि किसी भी उप-स्थान टी में एक क्लस्टर होता है, जिसके परिणामस्वरूप उस क्लस्टर को शामिल करने के लिए एक पूर्ण स्थान एस भी होगा (यानी एस ⊆ टी), अधिकांश पारंपरिक एल्गोरिदम जैसे कि CLIQUE द्वारा अपनाया गया दृष्टिकोण,<ref>{{Cite journal | last1 = Agrawal | first1 = R. | last2 = Gehrke | first2 = J. | last3 = Gunopulos | first3 = D. | last4 = Raghavan | first4 = P. | title = उच्च आयामी डेटा की स्वचालित उप-स्थान क्लस्टरिंग| doi = 10.1007/s10618-005-1396-1 | journal = Data Mining and Knowledge Discovery | volume = 11 | pages = 5–33 | year = 2005 | citeseerx = 10.1.1.131.5152 | s2cid = 9289572 }}</ref> [[सबक्लू]].<ref>{{Cite conference| doi = 10.1137/1.9781611972740.23| title = उच्च-आयामी डेटा के लिए घनत्व-कनेक्टेड सबस्पेस क्लस्टरिंग| conference = Proceedings of the 2004 SIAM International Conference on Data Mining| pages = [https://archive.org/details/proceedingsoffou0000siam/page/246 246]| year = 2004| last1 = Kailing| first1 = K.| last2 = Kriegel| first2 = H. P.| author-link2 = Hans-Peter Kriegel| last3 = Kröger| first3 = P.| isbn = 978-0-89871-568-2| url-access = registration| url = https://archive.org/details/proceedingsoffou0000siam/page/246| doi-access = free}}</ref> प्रत्येक आयाम के लिए प्रासंगिकता की विभिन्न डिग्री का उपयोग करके एक उप-स्थान को परिभाषित करना भी संभव है, आईएमडब्ल्यूके-मीन्स द्वारा अपनाया गया एक दृष्टिकोण,<ref>{{Cite journal | doi = 10.1016/j.patcog.2011.08.012| title = मिन्कोव्स्की मीट्रिक, के-मीन्स क्लस्टरिंग में फ़ीचर वेटिंग और विसंगतिपूर्ण क्लस्टर आरंभीकरण| journal = Pattern Recognition| volume = 45| issue = 3| pages = 1061| year = 2012| last1 = De Amorim | first1 = R.C. | last2 = Mirkin | first2 = B. | bibcode = 2012PatRe..45.1061C}}</ref> ईबीके-मोड<ref>{{Cite book|last1=Carbonera|first1=Joel Luis|last2=Abel|first2=Mara|title=2014 IEEE 26th International Conference on Tools with Artificial Intelligence |chapter=An Entropy-Based Subspace Clustering Algorithm for Categorical Data |date=November 2014|pages=272–277 |publisher=IEEE|doi=10.1109/ictai.2014.48|isbn=9781479965724|s2cid=7208538 }}</ref> और सीबीके-मोड।<ref>{{Cite book|last1=Carbonera|first1=Joel Luis|last2=Abel|first2=Mara|date=2015|title=CBK-Modes: A Correlation-based Algorithm for Categorical Data Clustering|journal=Proceedings of the 17th International Conference on Enterprise Information Systems|publisher=SCITEPRESS - Science and Technology Publications|doi=10.5220/0005367106030608|isbn=9789897580963}}</ref>




===प्रोजेक्टेड क्लस्टरिंग===
अनुमानित क्लस्टरिंग प्रत्येक बिंदु को एक अद्वितीय क्लस्टर को निर्दिष्ट करने का प्रयास करती है, लेकिन क्लस्टर विभिन्न उप-स्थानों में मौजूद हो सकते हैं। सामान्य दृष्टिकोण नियमित क्लस्टर विश्लेषण के साथ एक विशेष दूरी फ़ंक्शन का उपयोग करना है।


उदाहरण के लिए, PreDeCon एल्गोरिदम जांचता है कि कौन सी विशेषताएँ प्रत्येक बिंदु के लिए क्लस्टरिंग का समर्थन करती हैं, और दूरी फ़ंक्शन को समायोजित करती हैं जैसे कि कम विचरण वाले आयाम दूरी फ़ंक्शन में प्रवर्धित होते हैं।<ref>{{Cite conference | doi = 10.1109/ICDM.2004.10087| title = स्थानीय उप-स्थान प्राथमिकताओं के साथ घनत्व कनेक्टेड क्लस्टरिंग| conference = Fourth IEEE International Conference on Data Mining (ICDM'04)| pages = 27| year = 2004| last1 = Böhm | first1 = C.| last2 = Kailing | first2 = K.| last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| last4 = Kröger | first4 = P.| isbn = 0-7695-2142-8| url = http://www.dbs.informatik.uni-muenchen.de/Publikationen/Papers/icdm04-predecon.pdf}}</ref> उपरोक्त चित्र में, क्लस्टर <math>c_c</math> एक दूरी फ़ंक्शन के साथ [[DBSCAN]] का उपयोग करते हुए पाया जा सकता है जो इस पर कम जोर देता है <math>x</math>-अक्ष और इस प्रकार कम अंतर को बढ़ा देता है <math>y</math>-अक्ष बिंदुओं को एक क्लस्टर में समूहित करने के लिए पर्याप्त रूप से पर्याप्त है।
===प्रस्तावित स्तवक ===
अनुमानित स्तवक प्रत्येक बिंदु को एक अद्वितीय स्तवक को निर्दिष्ट करने का प्रयास करती है, लेकिन स्तवक विभिन्न उप-स्थानों में उपस्थित हो सकते हैं। सामान्य दृष्टिकोण नियमित स्तवक विश्लेषण के साथ एक विशेष कार्य दूरी का उपयोग करना है।


[[PROCLUS]] [[k-medoid]] क्लस्टरिंग के साथ एक समान दृष्टिकोण का उपयोग करता है।<ref>{{Cite journal | doi = 10.1145/304181.304188| title = अनुमानित क्लस्टरिंग के लिए तेज़ एल्गोरिदम| journal = ACM SIGMOD Record| volume = 28| issue = 2| pages = 61| year = 1999| last1 = Aggarwal | first1 = C. C. | last2 = Wolf | first2 = J. L. | last3 = Yu | first3 = P. S. | last4 = Procopiuc | first4 = C. | last5 = Park | first5 = J. S. | citeseerx = 10.1.1.681.7363}}</ref> प्रारंभिक मेडोइड्स का अनुमान लगाया जाता है, और प्रत्येक मेडॉइड के लिए कम विचरण वाले गुणों द्वारा फैला हुआ उप-स्थान निर्धारित किया जाता है। दूरी निर्धारित करने में केवल उस मेडॉइड के उपस्थान पर विचार करते हुए, निकटतम मेडॉइड को अंक दिए जाते हैं। इसके बाद एल्गोरिथम नियमित [[ मेडोइड्स के आसपास विभाजन ]] एल्गोरिथम के रूप में आगे बढ़ता है।
उदाहरण के लिए, प्रीडेकॉन कलन विधि जांचता है कि कौन सी विशेषताएँ प्रत्येक बिंदु के लिए स्तवक का समर्थन करती हैं, और कार्य दूरी को समायोजित करती हैं जैसे कि कम विचरण वाले आयाम कार्य दूरी में प्रवर्धित होते हैं। <ref>{{Cite conference | doi = 10.1109/ICDM.2004.10087| title = स्थानीय उप-स्थान प्राथमिकताओं के साथ घनत्व कनेक्टेड क्लस्टरिंग| conference = Fourth IEEE International Conference on Data Mining (ICDM'04)| pages = 27| year = 2004| last1 = Böhm | first1 = C.| last2 = Kailing | first2 = K.| last3 = Kriegel | first3 = H. -P. | author-link3 = Hans-Peter Kriegel| last4 = Kröger | first4 = P.| isbn = 0-7695-2142-8| url = http://www.dbs.informatik.uni-muenchen.de/Publikationen/Papers/icdm04-predecon.pdf}}</ref> उपरोक्त चित्र में, क्लस्टर <math>c_c</math>को एक दूरी फ़ंक्शन के साथ डीबीएससीएएन का उपयोग करते हुए पाया जा सकता है जो x-अक्ष पर कम जोर देता है और इस प्रकार y-अक्ष में कम अंतर को इतना बढ़ा देता है कि बिंदुओं को एक क्लस्टर में समूहित किया जा सके।


यदि दूरी फ़ंक्शन का वजन अलग-अलग होता है, लेकिन कभी भी 0 के साथ नहीं होता है (और इसलिए अप्रासंगिक विशेषताओं को कभी नहीं छोड़ता है), एल्गोरिदम को सॉफ्ट-प्रोजेक्टेड क्लस्टरिंग एल्गोरिदम कहा जाता है।
'''[[PROCLUS|प्रोक्लस]] [[k-medoid|के-]]'''[[k-medoid|मेडोइड]] स्तवक के साथ एक समान दृष्टिकोण का उपयोग करता है। <ref>{{Cite journal | doi = 10.1145/304181.304188| title = अनुमानित क्लस्टरिंग के लिए तेज़ एल्गोरिदम| journal = ACM SIGMOD Record| volume = 28| issue = 2| pages = 61| year = 1999| last1 = Aggarwal | first1 = C. C. | last2 = Wolf | first2 = J. L. | last3 = Yu | first3 = P. S. | last4 = Procopiuc | first4 = C. | last5 = Park | first5 = J. S. | citeseerx = 10.1.1.681.7363}}</ref> प्रारंभिक मेडोइड्स का अनुमान लगाया जाता है, और प्रत्येक मेडॉइड के लिए कम विचरण वाले गुणों द्वारा फैला हुआ उप-स्थान निर्धारित किया जाता है। दूरी निर्धारित करने में केवल उस मेडॉइड के उपस्थान पर विचार करते हुए, निकटतम मेडॉइड को अंक दिए जाते हैं। इसके बाद कलन विधि नियमित [[ मेडोइड्स के आसपास विभाजन | मेडोइड्स के आसपास]] विभाजन कलन विधि के रूप में आगे बढ़ता है।


=== प्रक्षेपण-आधारित क्लस्टरिंग ===
यदि कार्य दूरी का वजन भिन्न-भिन्न होता है, लेकिन कभी भी 0 के साथ नहीं होता है (और इसलिए अप्रासंगिक विशेषताओं को कभी नहीं छोड़ता है), तो कलन विधि को मृदु-प्रस्तावित स्तवक कलन विधि कहा जाता है।                    
प्रक्षेपण-आधारित क्लस्टरिंग दो-आयामी अंतरिक्ष में उच्च-आयामी डेटा के गैर-रेखीय प्रक्षेपण पर आधारित है।<ref name=":0">Thrun, M. C., & Ultsch, A. : Using Projection based Clustering to Find Distance and Density based Clusters in High-Dimensional Data, J. Classif., pp. 1-33, [[doi:10.1007/s00357-020-09373-2|doi: 10.1007/s00357-020-09373-2]].</ref> विशिष्ट प्रक्षेपण-विधियाँ जैसे [[टी-वितरित स्टोकेस्टिक पड़ोसी एम्बेडिंग]] (टी-एसएनई),<ref>Van der Maaten, L., & Hinton, G.: Visualizing Data using t-SNE, ''Journal of Machine Learning Research, Vol. 9''(11), pp. 2579-2605. 2008.</ref> या पड़ोसी पुनर्प्राप्ति विज़ुअलाइज़र (NerV) <ref>Venna, J., Peltonen, J., Nybo, K., Aidos, H., & Kaski, S.: Information retrieval perspective to nonlinear dimensionality reduction for data visualization, ''The Journal of Machine Learning Research, Vol. 11'', pp. 451-490. 2010.</ref> डेटा को स्पष्ट रूप से दो आयामों में प्रोजेक्ट करने के लिए उपयोग किया जाता है, जिसमें दो से अधिक आयाम के उप-स्थानों की उपेक्षा की जाती है और उच्च-आयामी डेटा में केवल प्रासंगिक पड़ोस को संरक्षित किया जाता है। अगले चरण में, डेलाउने त्रिभुज<ref>Delaunay, B.: Sur la sphere vide, ''Izv. Akad. Nauk SSSR, Otdelenie Matematicheskii i Estestvennyka Nauk, Vol. 7''(793-800), pp. 1-2. 1934.</ref> अनुमानित बिंदुओं के बीच की गणना की जाती है, और दो अनुमानित बिंदुओं के बीच प्रत्येक शीर्ष को संबंधित उच्च-आयामी डेटा बिंदुओं के बीच उच्च-आयामी दूरी के साथ भारित किया जाता है। इसके बाद दिज्क्स्ट्रा के एल्गोरिदम का उपयोग करके प्रत्येक जोड़ी बिंदुओं के बीच सबसे छोटे पथ की गणना की जाती है।<ref>Dijkstra, E. W.: A note on two problems in connexion with graphs, ''Numerische mathematik, Vol. 1''(1), pp. 269-271. 1959.</ref> क्लस्टरिंग प्रक्रिया में सबसे छोटे रास्तों का उपयोग किया जाता है, जिसमें उच्च-आयामी डेटा में संरचना प्रकार के आधार पर दो विकल्प शामिल होते हैं।<ref name=":0" />यह बूलियन विकल्प उच्च-आयामी संरचनाओं के स्थलाकृतिक मानचित्र को देखकर तय किया जा सकता है।<ref>Thrun, M. C., & Ultsch, A.: Uncovering High-Dimensional Structures of Projections from Dimensionality Reduction Methods, MethodsX, Vol. 7, pp. 101093, [[doi:10.1016/j.mex.2020.101093|doi: 10.1016/j.mex.20200.101093,2020]].</ref> 34 तुलनीय क्लस्टरिंग विधियों की बेंचमार्किंग में, प्रक्षेपण-आधारित क्लस्टरिंग एकमात्र एल्गोरिदम था जो हमेशा डेटासेट की उच्च-आयामी दूरी या घनत्व-आधारित संरचना को खोजने में सक्षम था।<ref name=":0" />प्रोजेक्शन-आधारित क्लस्टरिंग सीआरएएन पर ओपन-सोर्स आर पैकेज प्रोजेक्शनबेस्डक्लस्टरिंग में पहुंच योग्य है।<ref>{{Cite web|last=|first=|date=|title=सीआरएएन - पैकेज प्रोजेक्शन आधारित क्लस्टरिंग|url=https://cran.r-project.org/web/packages/ProjectionBasedClustering/index.html|url-status=live|archive-url=https://web.archive.org/web/20180317152038/http://cran.r-project.org:80/web/packages/ProjectionBasedClustering/index.html |archive-date=2018-03-17 |access-date=|website=}}</ref>


=== प्रक्षेपण-आधारित स्तवक ===
प्रक्षेपण-आधारित स्तवक द्वि-आयामी अंतरिक्ष में उच्च-आयामी आंकड़ों के गैर-रेखीय प्रक्षेपण पर आधारित है। <ref name=":0">Thrun, M. C., & Ultsch, A. : Using Projection based Clustering to Find Distance and Density based Clusters in High-Dimensional Data, J. Classif., pp. 1-33, [[doi:10.1007/s00357-020-09373-2|doi: 10.1007/s00357-020-09373-2]].</ref> विशिष्ट प्रक्षेपण-विधियाँ जैसे [[टी-वितरित स्टोकेस्टिक पड़ोसी एम्बेडिंग|टी-वितरित प्रसंभाव्य निकटस्थ अंतःस्थापन]] (टी-एसएनई), <ref>Van der Maaten, L., & Hinton, G.: Visualizing Data using t-SNE, ''Journal of Machine Learning Research, Vol. 9''(11), pp. 2579-2605. 2008.</ref> या निकटस्थ पुनर्प्राप्ति दृश्यदर्शी (NerV) <ref>Venna, J., Peltonen, J., Nybo, K., Aidos, H., & Kaski, S.: Information retrieval perspective to nonlinear dimensionality reduction for data visualization, ''The Journal of Machine Learning Research, Vol. 11'', pp. 451-490. 2010.</ref> आंकड़ों को स्पष्ट रूप से दो आयामों में प्रस्तावित करने के लिए उपयोग किया जाता है, जिसमें दो से अधिक आयाम के उप-स्थानों की उपेक्षा की जाती है और उच्च-आयामी आंकड़ों में केवल प्रासंगिक निकटस्थ को संरक्षित किया जाता है। आगामी चरण में, डेलाउने त्रिभुज <ref>Delaunay, B.: Sur la sphere vide, ''Izv. Akad. Nauk SSSR, Otdelenie Matematicheskii i Estestvennyka Nauk, Vol. 7''(793-800), pp. 1-2. 1934.</ref> अनुमानित बिंदुओं के बीच की गणना की जाती है, और दो अनुमानित बिंदुओं के बीच प्रत्येक शीर्ष को संबंधित उच्च-आयामी आंकड़े बिंदुओं के बीच उच्च-आयामी दूरी के साथ भारित किया जाता है। इसके बाद दिज्क्स्ट्रा के कलन विधि का उपयोग करके प्रत्येक जोड़ी बिंदुओं के बीच सबसे छोटे पथ की गणना की जाती है। <ref>Dijkstra, E. W.: A note on two problems in connexion with graphs, ''Numerische mathematik, Vol. 1''(1), pp. 269-271. 1959.</ref> स्तवक प्रक्रिया में सबसे छोटे पथ का उपयोग किया जाता है, जिसमें उच्च-आयामी आंकड़ों में संरचना प्रकार के आधार पर दो विकल्प सम्मिलित होते हैं। <ref name=":0" /> यह बूलियन विकल्प उच्च-आयामी संरचनाओं के स्थलाकृतिक मानचित्र को देखकर तय किया जा सकता है। <ref>Thrun, M. C., & Ultsch, A.: Uncovering High-Dimensional Structures of Projections from Dimensionality Reduction Methods, MethodsX, Vol. 7, pp. 101093, [[doi:10.1016/j.mex.2020.101093|doi: 10.1016/j.mex.20200.101093,2020]].</ref> 34 तुलनीय स्तवक विधियों की बेंचमार्किंग में, प्रक्षेपण-आधारित स्तवक एकमात्र कलन विधि था जो हमेशा आंकड़े समुच्चय की उच्च-आयामी दूरी या घनत्व-आधारित संरचना को खोजने में सक्षम था। <ref name=":0" /> प्रक्षेप-आधारित स्तवक सीआरएएन पर खुला स्रोत आर संपुष्टि प्रक्षेप-आधारित स्तवक में पहुंच योग्य है। <ref>{{Cite web|last=|first=|date=|title=सीआरएएन - पैकेज प्रोजेक्शन आधारित क्लस्टरिंग|url=https://cran.r-project.org/web/packages/ProjectionBasedClustering/index.html|url-status=live|archive-url=https://web.archive.org/web/20180317152038/http://cran.r-project.org:80/web/packages/ProjectionBasedClustering/index.html |archive-date=2018-03-17 |access-date=|website=}}</ref>


===हाइब्रिड दृष्टिकोण===
सभी एल्गोरिदम या तो प्रत्येक बिंदु के लिए एक अद्वितीय क्लस्टर असाइनमेंट या सभी उप-स्थानों में सभी क्लस्टर खोजने का प्रयास नहीं करते हैं; कई लोग बीच में एक परिणाम के लिए तैयार हो जाते हैं, जहां संभवतः अतिव्यापी, लेकिन जरूरी नहीं कि संपूर्ण समूहों के समूह पाए जाते हैं। एक उदाहरण FIRES है, जो अपने मूल दृष्टिकोण से एक सबस्पेस क्लस्टरिंग एल्गोरिदम है, लेकिन सभी सबस्पेस क्लस्टरों को विश्वसनीय रूप से उत्पन्न करने के लिए एक हेयुरिस्टिक बहुत आक्रामक का उपयोग करता है।<ref>{{Cite conference | doi = 10.1109/ICDM.2005.5| title = उच्च-आयामी डेटा के कुशल उप-स्थान क्लस्टरिंग के लिए एक सामान्य रूपरेखा| conference = Fifth IEEE International Conference on Data Mining (ICDM'05)| pages = 250| year = 2005| last1 = Kriegel | first1 = H. | author-link = Hans-Peter Kriegel| last2 = Kröger | first2 = P.| last3 = Renz | first3 = M.| last4 = Wurst | first4 = S.| isbn = 0-7695-2278-5| url = http://www.dbs.informatik.uni-muenchen.de/~kroegerp/papers/ICDM05-FIRES.pdf}}</ref> एक अन्य हाइब्रिड दृष्टिकोण मानव-में-एल्गोरिदमिक-लूप को शामिल करना है: मानव डोमेन विशेषज्ञता नमूनों के अनुमानी चयन के माध्यम से एक घातीय खोज स्थान को कम करने में मदद कर सकती है। यह स्वास्थ्य क्षेत्र में फायदेमंद हो सकता है, उदाहरण के लिए, चिकित्सा डॉक्टरों को रोगी की स्थितियों के उच्च-आयामी विवरण और कुछ उपचारों की सफलता पर माप का सामना करना पड़ता है। ऐसे डेटा में एक महत्वपूर्ण प्रश्न आयामों के संयोजन के साथ-साथ रोगी की स्थितियों और चिकित्सा परिणामों की तुलना और सहसंबंध बनाना है। आयामों की संख्या अक्सर बहुत बड़ी होती है, परिणामस्वरूप विशेषज्ञ विश्लेषण के लिए अधिक उपयुक्त होने के लिए उन्हें कम संख्या में प्रासंगिक आयामों में मैप करने की आवश्यकता होती है। ऐसा इसलिए है क्योंकि अप्रासंगिक, अनावश्यक और परस्पर विरोधी आयाम संपूर्ण विश्लेषणात्मक प्रक्रिया की प्रभावशीलता और दक्षता को नकारात्मक रूप से प्रभावित कर सकते हैं।<ref>{{Cite journal | doi = 10.1007/s40708-016-0043-5| pmid = 27747817| pmc = 5106406| title = Visual analytics for concept exploration in subspaces of patient groups: Making sense of complex datasets with the Doctor-in-the-loop| journal = Brain Informatics| volume = 3| issue = 4| pages = 233–247|  year = 2016| last1 = Hund | first1 = M. | last2 = Böhm | first2 = D.| last3 = Sturm | first3 = W.| last4 = Sedlmair | first4 = M.| last5 = Schreck | first5 = T.| last6 = Keim | first6 = D.A.| last7 = Majnaric | first7 = L.| last8 = Holzinger | first8 = A.}}</ref>


===संकर दृष्टिकोण===
सभी कलन विधि या तो प्रत्येक बिंदु के लिए एक अद्वितीय स्तवक नियुक्ति या सभी उप-स्थानों में सभी स्तवक खोजने का प्रयास नहीं करते हैं; कई लोग बीच में एक परिणाम के लिए तैयार हो जाते हैं, जहां संभवतः अतिव्यापी, लेकिन जरूरी नहीं कि संपूर्ण समूहों के समूह पाए जाते हैं। एक उदाहरण एफआईआरईएस है, जो अपने मूल दृष्टिकोण से एक उपसमष्‍टि स्तवक कलन विधि है, लेकिन सभी उपसमष्‍टि स्तवकों को विश्वसनीय रूप से उत्पन्न करने के लिए एक अत्यधिक स्वानुभविक आक्रामक का उपयोग करता है। <ref>{{Cite conference | doi = 10.1109/ICDM.2005.5| title = उच्च-आयामी डेटा के कुशल उप-स्थान क्लस्टरिंग के लिए एक सामान्य रूपरेखा| conference = Fifth IEEE International Conference on Data Mining (ICDM'05)| pages = 250| year = 2005| last1 = Kriegel | first1 = H. | author-link = Hans-Peter Kriegel| last2 = Kröger | first2 = P.| last3 = Renz | first3 = M.| last4 = Wurst | first4 = S.| isbn = 0-7695-2278-5| url = http://www.dbs.informatik.uni-muenchen.de/~kroegerp/papers/ICDM05-FIRES.pdf}}</ref> एक अन्य संकर दृष्टिकोण मानव-में-कलन विधिक-लूप को सम्मिलित करना है: मानव कार्यक्षेत्र विशेषज्ञता प्रतिरूप के अनुमानी चयन के माध्यम से एक घातीय खोज स्थान को कम करने में मदद कर सकती है। यह स्वास्थ्य क्षेत्र में फायदेमंद हो सकता है, उदाहरण के लिए, चिकित्सा डॉक्टरों को रोगी की स्थितियों के उच्च-आयामी विवरण और कुछ उपचारों की सफलता पर माप का सामना करना पड़ता है। ऐसे आंकड़ों में एक महत्वपूर्ण प्रश्न आयामों के संयोजन के साथ-साथ रोगी की स्थितियों और चिकित्सा परिणामों की तुलना और सहसंबंध बनाना है। आयामों की संख्या प्रायः बहुत बड़ी होती है, परिणामस्वरूप विशेषज्ञ विश्लेषण के लिए अधिक उपयुक्त होने के लिए उन्हें कम संख्या में प्रासंगिक आयामों में छायाचित्र करने की आवश्यकता होती है। ऐसा इसलिए है क्योंकि अप्रासंगिक, अनावश्यक और परस्पर विरोधी आयाम संपूर्ण विश्लेषणात्मक प्रक्रिया की प्रभावशीलता और दक्षता को नकारात्मक रूप से प्रभावित कर सकते हैं। <ref>{{Cite journal | doi = 10.1007/s40708-016-0043-5| pmid = 27747817| pmc = 5106406| title = Visual analytics for concept exploration in subspaces of patient groups: Making sense of complex datasets with the Doctor-in-the-loop| journal = Brain Informatics| volume = 3| issue = 4| pages = 233–247|  year = 2016| last1 = Hund | first1 = M. | last2 = Böhm | first2 = D.| last3 = Sturm | first3 = W.| last4 = Sedlmair | first4 = M.| last5 = Schreck | first5 = T.| last6 = Keim | first6 = D.A.| last7 = Majnaric | first7 = L.| last8 = Holzinger | first8 = A.}}</ref>


===[[सहसंबंध क्लस्टरिंग]]===
 
सहसंबंध क्लस्टरिंग|सहसंबंध क्लस्टरिंग (डेटा माइनिंग) में एक अन्य प्रकार के उप-स्थान पर विचार किया जाता है।
===[[सहसंबंध क्लस्टरिंग|सहसंबंध स्तवक]]===
सहसंबंध स्तवक (खनन आंकड़े) में एक अन्य प्रकार के उप-स्थान पर विचार किया जाता है।


==सॉफ़्टवेयर==
==सॉफ़्टवेयर==
* [[ELKI]] में विभिन्न उप-स्थान और सहसंबंध क्लस्टरिंग एल्गोरिदम शामिल हैं
* [[ELKI|ईएलकेआई]] में विभिन्न उप-स्थान और सहसंबंध स्तवक कलन विधि सम्मिलित हैं
*एफसीपीएस में पचास से अधिक क्लस्टरिंग एल्गोरिदम शामिल हैं<ref>Thrun, M. C., & Stier, Q.: Fundamental Clustering Algorithms Suite, SoftwareX, Vol. 13(C), pp. 100642, [[doi:10.1016/j.softx.2020.100642|doi: 10.1016/j.softx.2020.100642, 2021]].</ref>
*एफसीपीएस में पचास से अधिक स्तवक कलन विधि सम्मिलित हैं <ref>Thrun, M. C., & Stier, Q.: Fundamental Clustering Algorithms Suite, SoftwareX, Vol. 13(C), pp. 100642, [[doi:10.1016/j.softx.2020.100642|doi: 10.1016/j.softx.2020.100642, 2021]].</ref>




==संदर्भ==
==संदर्भ==
<references />
<references />
[[Category: क्लस्टर विश्लेषण]]


[[Category: Machine Translated Page]]
[[Category:Created On 24/07/2023]]
[[Category:Created On 24/07/2023]]
[[Category:Machine Translated Page]]
[[Category:Templates Vigyan Ready]]
[[Category:क्लस्टर विश्लेषण]]

Latest revision as of 15:22, 10 August 2023

उच्च-आयामी आंकड़ों को स्तवक करना कुछ दर्जन से लेकर कई हजारों आयामों वाले आंकड़ों का स्तवक विश्लेषण है। आंकड़ों के ऐसे उच्च-आयामी स्थान प्रायः चिकित्सा जैसे क्षेत्रों में सामने आते हैं, जहां डीएनए माइक्रोएरे तकनीक एक साथ अधिक माप उत्पन्न कर सकती है, और अवतरण प्रपत्र को स्तवक जहां, यदि शब्द-आवृत्ति सदिश का उपयोग किया जाता है, तो आयामों की संख्या हीप्स के नियम के समान होती है।

समस्याएँ

उच्च-आयामी आंकड़ों में स्तवक के लिए चार समस्याओं को दूर करने की आवश्यकता है: [1]

  • एकाधिक आयामों के बारे में सोचना कठिन है, कल्पना करना असंभव है, और, प्रत्येक आयाम के साथ संभावित मूल्यों की संख्या में तीव्रता से वृद्धि के कारण, सभी उप-स्थानों की पूरी गणना बढ़ती आयामीता के साथ कठिन हो जाती है। इस समस्या को आयामीता के अभिशाप के रूप में जाना जाता है।
  • जैसे-जैसे आयामों की संख्या बढ़ती है, दूरी की अवधारणा कम सटीक होती जाती है, क्योंकि किसी दिए गए आंकड़े समुच्चय में किन्हीं दो बिंदुओं के बीच की दूरी अभिसरण होती है। विशेष रूप से निकटतम और अत्यधिक दूर बिंदु का भेदभाव निरर्थक हो जाता है:
  • एक स्तवक का उद्देश्य संबंधित वस्तुओं को उनकी विशेषता के मूल्यों के अवलोकन के आधार पर समूहीकृत करना है। हालाँकि, बड़ी संख्या में विशेषताओं को देखते हुए कुछ विशेषताएँ सामान्यतः किसी दिए गए स्तवक के लिए सार्थक नहीं होंगी। उदाहरण के लिए, नवजात शिशु की जांच में प्रतिरूप का एक समूह उन नवजात शिशुओं की पहचान कर सकता है जिनके रक्त मूल्य समान हैं, जिससे किसी बीमारी के लिए कुछ रक्त मूल्यों की प्रासंगिकता के बारे में जानकारी प्राप्त हो सकती है। लेकिन भिन्न-भिन्न बीमारियों के लिए, भिन्न-भिन्न रक्त मान एक समूह बना सकते हैं, और अन्य मान असंबंधित हो सकते हैं। इसे स्थानीय सुविधा प्रासंगिकता समस्या के रूप में जाना जाता है: भिन्न-भिन्न उप-स्थानों में भिन्न-भिन्न स्तवक पाए जा सकते हैं, इसलिए विशेषताओं का वैश्विक निस्पंदन पर्याप्त नहीं है।
  • बड़ी संख्या में विशेषताओं को देखते हुए, यह संभव है कि कुछ विशेषताएँ सहसंबद्ध हों। इसलिए, स्तवक स्वेच्छाचारी रूप से उन्मुख सजातीय उपसमष्‍टि में उपस्थित हो सकते हैं।

हाल के शोध से संकेत मिलता है कि भेदभाव की समस्या तभी उत्पन्न होती है जब अप्रासंगिक आयामों की संख्या अधिक होती है, और साझा-निकटतम-समीप दृष्टिकोण परिणामों में सुधार कर सकते हैं। [2]


दृष्टिकोण

अक्ष-समानांतर या स्वेच्छाचारी रूप से उन्मुख सजातीय उपसमष्‍टि में स्तवक के प्रति दृष्टिकोण इस बात में भिन्न होते हैं कि वे समग्र लक्ष्य की व्याख्या कैसे करते हैं, जो उच्च आयामीता वाले आंकड़ों में स्तवक ढूंढ रहा है। [1] आंकड़े आव्यूह में प्रतिरूप के आधार पर समूहों को ढूंढना एक समग्र रूप से भिन्न दृष्टिकोण है, जिसे प्रायः बाइस्तवक कहा जाता है, जो जैव सूचना विज्ञान में प्रायः उपयोग की जाने वाली तकनीक है।

उपसमष्‍टि स्तवक

उदाहरण उपसमष्‍टि स्तवक के साथ 2डी स्थल

निकटवर्ती छवि केवल द्वि-आयामी स्थान दिखाती है जहां कई समूहों की पहचान की जा सकती है। एक-आयामी उप-स्थानों में, स्तवक (उपस्थान में ) और , , (उपस्थान में ) पाया जा सकता है। इसे द्वि-आयामी (उप-स्थान) में स्तवक नहीं माना जा सकता, क्योंकि यह एक्सिस से बहुत कम वितरित है। दो आयामों में, दो स्तवक और पहचाना जा सकता है। उप-स्थान क्लस्टरिंग की समस्या इस तथ्य से दी गई है कि d आयामों वाले किसी स्थान के विभिन्न उप-स्थान हैं। यदि उप-स्थान अक्ष-समानांतर नहीं हैं, तो अनंत संख्या में उप-स्थान संभव हैं। इसलिए, उपसमष्‍टि स्तवक कलन विधि निम्न परिणाम उत्पन्न करने के जोखिम पर,संगणनात्मक रूप से व्यवहार्य बने रहने के लिए कुछ प्रकार के अनुमान का उपयोग करते हैं। उदाहरण के लिए, अधोगामी -संवरण विशेषता (सीएफ. संघ नियम सीखना) का उपयोग केवल निचले-आयामी उप-स्थानों को मिलाकर उच्च-आयामी उप-स्थान बनाने के लिए किया जा सकता है, क्योंकि किसी भी उप-स्थान टी में एक स्तवक होता है, जिसके परिणामस्वरूप उस स्तवक को सम्मिलित करने के लिए एक पूर्ण स्थान एस भी होगा (यानी एस ⊆ टी), अधिकांश पारंपरिक कलन विधि जैसे कि क्लिक, सबक्लू द्वारा अपनाया गया दृष्टिकोण। [3][4] प्रत्येक आयाम के लिए प्रासंगिकता की विभिन्न उपाधि का उपयोग करके एक उप-स्थान को परिभाषित करना भी संभव है,आईएमडब्ल्यूके-मीन्स, ईबीके-मोड्स और सीबीके-मोड्स द्वारा अपनाया गया एक दृष्टिकोण।



प्रस्तावित स्तवक

अनुमानित स्तवक प्रत्येक बिंदु को एक अद्वितीय स्तवक को निर्दिष्ट करने का प्रयास करती है, लेकिन स्तवक विभिन्न उप-स्थानों में उपस्थित हो सकते हैं। सामान्य दृष्टिकोण नियमित स्तवक विश्लेषण के साथ एक विशेष कार्य दूरी का उपयोग करना है।

उदाहरण के लिए, प्रीडेकॉन कलन विधि जांचता है कि कौन सी विशेषताएँ प्रत्येक बिंदु के लिए स्तवक का समर्थन करती हैं, और कार्य दूरी को समायोजित करती हैं जैसे कि कम विचरण वाले आयाम कार्य दूरी में प्रवर्धित होते हैं। [5] उपरोक्त चित्र में, क्लस्टर को एक दूरी फ़ंक्शन के साथ डीबीएससीएएन का उपयोग करते हुए पाया जा सकता है जो x-अक्ष पर कम जोर देता है और इस प्रकार y-अक्ष में कम अंतर को इतना बढ़ा देता है कि बिंदुओं को एक क्लस्टर में समूहित किया जा सके।

प्रोक्लस के-मेडोइड स्तवक के साथ एक समान दृष्टिकोण का उपयोग करता है। [6] प्रारंभिक मेडोइड्स का अनुमान लगाया जाता है, और प्रत्येक मेडॉइड के लिए कम विचरण वाले गुणों द्वारा फैला हुआ उप-स्थान निर्धारित किया जाता है। दूरी निर्धारित करने में केवल उस मेडॉइड के उपस्थान पर विचार करते हुए, निकटतम मेडॉइड को अंक दिए जाते हैं। इसके बाद कलन विधि नियमित मेडोइड्स के आसपास विभाजन कलन विधि के रूप में आगे बढ़ता है।

यदि कार्य दूरी का वजन भिन्न-भिन्न होता है, लेकिन कभी भी 0 के साथ नहीं होता है (और इसलिए अप्रासंगिक विशेषताओं को कभी नहीं छोड़ता है), तो कलन विधि को मृदु-प्रस्तावित स्तवक कलन विधि कहा जाता है।

प्रक्षेपण-आधारित स्तवक

प्रक्षेपण-आधारित स्तवक द्वि-आयामी अंतरिक्ष में उच्च-आयामी आंकड़ों के गैर-रेखीय प्रक्षेपण पर आधारित है। [7] विशिष्ट प्रक्षेपण-विधियाँ जैसे टी-वितरित प्रसंभाव्य निकटस्थ अंतःस्थापन (टी-एसएनई), [8] या निकटस्थ पुनर्प्राप्ति दृश्यदर्शी (NerV) [9] आंकड़ों को स्पष्ट रूप से दो आयामों में प्रस्तावित करने के लिए उपयोग किया जाता है, जिसमें दो से अधिक आयाम के उप-स्थानों की उपेक्षा की जाती है और उच्च-आयामी आंकड़ों में केवल प्रासंगिक निकटस्थ को संरक्षित किया जाता है। आगामी चरण में, डेलाउने त्रिभुज [10] अनुमानित बिंदुओं के बीच की गणना की जाती है, और दो अनुमानित बिंदुओं के बीच प्रत्येक शीर्ष को संबंधित उच्च-आयामी आंकड़े बिंदुओं के बीच उच्च-आयामी दूरी के साथ भारित किया जाता है। इसके बाद दिज्क्स्ट्रा के कलन विधि का उपयोग करके प्रत्येक जोड़ी बिंदुओं के बीच सबसे छोटे पथ की गणना की जाती है। [11] स्तवक प्रक्रिया में सबसे छोटे पथ का उपयोग किया जाता है, जिसमें उच्च-आयामी आंकड़ों में संरचना प्रकार के आधार पर दो विकल्प सम्मिलित होते हैं। [7] यह बूलियन विकल्प उच्च-आयामी संरचनाओं के स्थलाकृतिक मानचित्र को देखकर तय किया जा सकता है। [12] 34 तुलनीय स्तवक विधियों की बेंचमार्किंग में, प्रक्षेपण-आधारित स्तवक एकमात्र कलन विधि था जो हमेशा आंकड़े समुच्चय की उच्च-आयामी दूरी या घनत्व-आधारित संरचना को खोजने में सक्षम था। [7] प्रक्षेप-आधारित स्तवक सीआरएएन पर खुला स्रोत आर संपुष्टि प्रक्षेप-आधारित स्तवक में पहुंच योग्य है। [13]


संकर दृष्टिकोण

सभी कलन विधि या तो प्रत्येक बिंदु के लिए एक अद्वितीय स्तवक नियुक्ति या सभी उप-स्थानों में सभी स्तवक खोजने का प्रयास नहीं करते हैं; कई लोग बीच में एक परिणाम के लिए तैयार हो जाते हैं, जहां संभवतः अतिव्यापी, लेकिन जरूरी नहीं कि संपूर्ण समूहों के समूह पाए जाते हैं। एक उदाहरण एफआईआरईएस है, जो अपने मूल दृष्टिकोण से एक उपसमष्‍टि स्तवक कलन विधि है, लेकिन सभी उपसमष्‍टि स्तवकों को विश्वसनीय रूप से उत्पन्न करने के लिए एक अत्यधिक स्वानुभविक आक्रामक का उपयोग करता है। [14] एक अन्य संकर दृष्टिकोण मानव-में-कलन विधिक-लूप को सम्मिलित करना है: मानव कार्यक्षेत्र विशेषज्ञता प्रतिरूप के अनुमानी चयन के माध्यम से एक घातीय खोज स्थान को कम करने में मदद कर सकती है। यह स्वास्थ्य क्षेत्र में फायदेमंद हो सकता है, उदाहरण के लिए, चिकित्सा डॉक्टरों को रोगी की स्थितियों के उच्च-आयामी विवरण और कुछ उपचारों की सफलता पर माप का सामना करना पड़ता है। ऐसे आंकड़ों में एक महत्वपूर्ण प्रश्न आयामों के संयोजन के साथ-साथ रोगी की स्थितियों और चिकित्सा परिणामों की तुलना और सहसंबंध बनाना है। आयामों की संख्या प्रायः बहुत बड़ी होती है, परिणामस्वरूप विशेषज्ञ विश्लेषण के लिए अधिक उपयुक्त होने के लिए उन्हें कम संख्या में प्रासंगिक आयामों में छायाचित्र करने की आवश्यकता होती है। ऐसा इसलिए है क्योंकि अप्रासंगिक, अनावश्यक और परस्पर विरोधी आयाम संपूर्ण विश्लेषणात्मक प्रक्रिया की प्रभावशीलता और दक्षता को नकारात्मक रूप से प्रभावित कर सकते हैं। [15]


सहसंबंध स्तवक

सहसंबंध स्तवक (खनन आंकड़े) में एक अन्य प्रकार के उप-स्थान पर विचार किया जाता है।

सॉफ़्टवेयर

  • ईएलकेआई में विभिन्न उप-स्थान और सहसंबंध स्तवक कलन विधि सम्मिलित हैं
  • एफसीपीएस में पचास से अधिक स्तवक कलन विधि सम्मिलित हैं [16]


संदर्भ

  1. 1.0 1.1 Kriegel, H. P.; Kröger, P.; Zimek, A. (2009). "उच्च-आयामी डेटा को क्लस्टर करना". ACM Transactions on Knowledge Discovery from Data. 3: 1–58. doi:10.1145/1497577.1497578. S2CID 17363900.
  2. Houle, M. E.; Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2010). Can Shared-Neighbor Distances Defeat the Curse of Dimensionality? (PDF). Scientific and Statistical Database Management. Lecture Notes in Computer Science. Vol. 6187. p. 482. doi:10.1007/978-3-642-13818-8_34. ISBN 978-3-642-13817-1.
  3. Agrawal, R.; Gehrke, J.; Gunopulos, D.; Raghavan, P. (2005). "उच्च आयामी डेटा की स्वचालित उप-स्थान क्लस्टरिंग". Data Mining and Knowledge Discovery. 11: 5–33. CiteSeerX 10.1.1.131.5152. doi:10.1007/s10618-005-1396-1. S2CID 9289572.
  4. Kailing, K.; Kriegel, H. P.; Kröger, P. (2004). उच्च-आयामी डेटा के लिए घनत्व-कनेक्टेड सबस्पेस क्लस्टरिंग. Proceedings of the 2004 SIAM International Conference on Data Mining. pp. 246. doi:10.1137/1.9781611972740.23. ISBN 978-0-89871-568-2.
  5. Böhm, C.; Kailing, K.; Kriegel, H. -P.; Kröger, P. (2004). स्थानीय उप-स्थान प्राथमिकताओं के साथ घनत्व कनेक्टेड क्लस्टरिंग (PDF). Fourth IEEE International Conference on Data Mining (ICDM'04). p. 27. doi:10.1109/ICDM.2004.10087. ISBN 0-7695-2142-8.
  6. Aggarwal, C. C.; Wolf, J. L.; Yu, P. S.; Procopiuc, C.; Park, J. S. (1999). "अनुमानित क्लस्टरिंग के लिए तेज़ एल्गोरिदम". ACM SIGMOD Record. 28 (2): 61. CiteSeerX 10.1.1.681.7363. doi:10.1145/304181.304188.
  7. 7.0 7.1 7.2 Thrun, M. C., & Ultsch, A. : Using Projection based Clustering to Find Distance and Density based Clusters in High-Dimensional Data, J. Classif., pp. 1-33, doi: 10.1007/s00357-020-09373-2.
  8. Van der Maaten, L., & Hinton, G.: Visualizing Data using t-SNE, Journal of Machine Learning Research, Vol. 9(11), pp. 2579-2605. 2008.
  9. Venna, J., Peltonen, J., Nybo, K., Aidos, H., & Kaski, S.: Information retrieval perspective to nonlinear dimensionality reduction for data visualization, The Journal of Machine Learning Research, Vol. 11, pp. 451-490. 2010.
  10. Delaunay, B.: Sur la sphere vide, Izv. Akad. Nauk SSSR, Otdelenie Matematicheskii i Estestvennyka Nauk, Vol. 7(793-800), pp. 1-2. 1934.
  11. Dijkstra, E. W.: A note on two problems in connexion with graphs, Numerische mathematik, Vol. 1(1), pp. 269-271. 1959.
  12. Thrun, M. C., & Ultsch, A.: Uncovering High-Dimensional Structures of Projections from Dimensionality Reduction Methods, MethodsX, Vol. 7, pp. 101093, doi: 10.1016/j.mex.20200.101093,2020.
  13. "सीआरएएन - पैकेज प्रोजेक्शन आधारित क्लस्टरिंग". Archived from the original on 2018-03-17.
  14. Kriegel, H.; Kröger, P.; Renz, M.; Wurst, S. (2005). उच्च-आयामी डेटा के कुशल उप-स्थान क्लस्टरिंग के लिए एक सामान्य रूपरेखा (PDF). Fifth IEEE International Conference on Data Mining (ICDM'05). p. 250. doi:10.1109/ICDM.2005.5. ISBN 0-7695-2278-5.
  15. Hund, M.; Böhm, D.; Sturm, W.; Sedlmair, M.; Schreck, T.; Keim, D.A.; Majnaric, L.; Holzinger, A. (2016). "Visual analytics for concept exploration in subspaces of patient groups: Making sense of complex datasets with the Doctor-in-the-loop". Brain Informatics. 3 (4): 233–247. doi:10.1007/s40708-016-0043-5. PMC 5106406. PMID 27747817.
  16. Thrun, M. C., & Stier, Q.: Fundamental Clustering Algorithms Suite, SoftwareX, Vol. 13(C), pp. 100642, doi: 10.1016/j.softx.2020.100642, 2021.