कैनोपी क्लस्टरिंग एल्गोरिदम: Difference between revisions

Revision as of 16:10, 27 July 2023

कैनोपी क्लस्टरिंग एल्गोरिथम 2000 में एंड्रयू मैक्कलम, कमल निगम और लाइल उनगर द्वारा प्रस्तुत किया गया एक अप्रशिक्षित प्री-क्लस्टरिंग एल्गोरिथम है।^[1] इसका उपयोग प्रायः K-मीन्स एल्गोरिदम या पदानुक्रमित क्लस्टरिंगग एल्गोरिदम के लिए प्रीप्रोसेसिंग चरण के रूप में किया जाता है। इसका उद्देश्य बड़े डेटा सेट पर कंप्यूटर क्लस्टर संचालन को गति देना है, जहां डेटा सेट के आकार के कारण सीधे किसी अन्य एल्गोरिदम का उपयोग करना अव्यावहारिक हो सकता है।

विवरण

एल्गोरिथ्म दो थ्रेसहोल्ड $T_{1}$ (लूस स्पेसिंग ) और $T_{2}$ (टाइट स्पेसिंग) का उपयोग करते हुए निम्नानुसार आगे बढ़ता है, जहां $T_{1}>T_{2}$ ^[1]^[2]

क्लस्टर किए जाने वाले डेटा बिंदुओं के सेट से आरंभ करें।
सेट से एक बिंदु हटाएं, इस बिंदु वाले एक नए 'कैनोपी' आरंभ करें।
सेट में बचे प्रत्येक बिंदु के लिए, इसे नए कैनोपी को निर्दिष्ट करें यदि कैनोपी के पहले बिंदु से इसकी स्पेसिंग लूस स्पेसिंग से कम है $T_{1}$ .
यदि बिंदु की स्पेसिंग अतिरिक्त रूप से टाइट स्पेसिंग से कम है $T_{2}$ , इसे मूल सेट से हटा दें।
चरण 2 से तब तक दोहराएं जब तक कि क्लस्टर में सेट में कोई और डेटा बिंदु न रह जाए।
अपेक्षाकृत सस्ते में क्लस्टर किए गए इन कैनोपियों को अधिक बहुमूल्य लेकिन सटीक एल्गोरिदम का उपयोग करके उप-क्लस्टर किया जा सकता है।

एक महत्वपूर्ण नोट यह है कि व्यक्तिगत डेटा बिंदु कई कैनोपी का हिस्सा हो सकते हैं। अतिरिक्त गति-अप के रूप में, 3 के लिए एक अनुमानित और तेज़ स्पेसिंग मीट्रिक का उपयोग किया जा सकता है, जहां चरण 4 के लिए अधिक सटीक और धीमी स्पेसिंग मीट्रिक का उपयोग किया जा सकता है।

प्रयोज्यता

चूँकि एल्गोरिथ्म स्पेसिंग कार्यों का उपयोग करता है और स्पेसिंग सीमा के विनिर्देशन की आवश्यकता होती है, उच्च-आयामी डेटा के लिए इसकी प्रयोज्यता आयामीता के अभिशाप द्वारा सीमित है। केवल जब एक सस्ता और अनुमानित - निम्न-आयामी - स्पेसिंग फ़ंक्शन उपलब्ध होता है, तो उत्पादित कैनोपी के-साधनों द्वारा उत्पादित समूहों को संरक्षित करेगी।

इसके लाभों में सम्मिलित हैं:

प्रत्येक चरण में तुलना किए जाने वाले प्रशिक्षण डेटा के उदाहरणों की संख्या कम हो गई है।
कुछ साक्ष्य हैं कि परिणामी समूहों में सुधार हुआ है।^[3]

संदर्भ

↑ ^1.0 ^1.1 McCallum, A.; Nigam, K.; and Ungar L.H. (2000) "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching", Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 169-178 doi:10.1145/347090.347123
↑ "कैनोपीज़ एल्गोरिथम". courses.cs.washington.edu. Retrieved 2014-09-06.
↑ Mahout description of Canopy-Clustering Retrieved 2022-07-02.

[original-1] 1.0 ^1.1 McCallum, A.; Nigam, K.; and Ungar L.H. (2000) "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching", Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 169-178 doi:10.1145/347090.347123

[2] "कैनोपीज़ एल्गोरिथम". courses.cs.washington.edu. Retrieved 2014-09-06.

[3] Mahout description of Canopy-Clustering Retrieved 2022-07-02.

[1]

[2]

[3]

@@ Line 30: / Line 30: @@
 [[Category: Machine Translated Page]]
 [[Category:Created On 10/07/2023]]
+[[Category:Vigyan Ready]]

Anonymous

Search

कैनोपी क्लस्टरिंग एल्गोरिदम: Difference between revisions

Namespaces

More

Page actions

Revision as of 16:10, 27 July 2023

विवरण

प्रयोज्यता

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

कैनोपी क्लस्टरिंग एल्गोरिदम: Difference between revisions

Revision as of 16:10, 27 July 2023

विवरण

प्रयोज्यता

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories