कैनोपी क्लस्टरिंग एल्गोरिदम

From Vigyanwiki
Revision as of 20:25, 10 July 2023 by alpha>Indicwiki (Created page with "कैनोपी क्लस्टरिंग एल्गोरिदम 2000 में एंड्रयू मैक्कलम, कमल निगम और ल...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

कैनोपी क्लस्टरिंग एल्गोरिदम 2000 में एंड्रयू मैक्कलम, कमल निगम और लाइल अनगर द्वारा पेश किया गया एक अप्रशिक्षित प्री-डेटा क्लस्टरिंग एल्गोरिदम है।[1]इसे अक्सर K-मतलब एल्गोरिदम या पदानुक्रमित क्लस्टरिंग एल्गोरिथम के लिए प्रीप्रोसेसिंग चरण के रूप में उपयोग किया जाता है। इसका उद्देश्य बड़े डेटा सेट पर कंप्यूटर क्लस्टर संचालन को तेज़ करना है, जहां डेटा सेट के आकार के कारण सीधे किसी अन्य एल्गोरिदम का उपयोग करना अव्यावहारिक हो सकता है।

विवरण

एल्गोरिथ्म दो थ्रेसहोल्ड का उपयोग करते हुए निम्नानुसार आगे बढ़ता है (ढीली दूरी) और (तंग दूरी), कहाँ .[1][2]

  1. क्लस्टर किए जाने वाले डेटा बिंदुओं के सेट से शुरुआत करें।
  2. सेट से एक बिंदु हटाएं, इस बिंदु वाले एक नए 'कैनोपी' की शुरुआत करें।
  3. सेट में बचे प्रत्येक बिंदु के लिए, इसे नए कैनोपी को निर्दिष्ट करें यदि कैनोपी के पहले बिंदु से इसकी दूरी ढीली दूरी से कम है .
  4. यदि बिंदु की दूरी अतिरिक्त रूप से तंग दूरी से कम है , इसे मूल सेट से हटा दें।
  5. चरण 2 से तब तक दोहराएं जब तक कि क्लस्टर में सेट में कोई और डेटा बिंदु न रह जाए।
  6. अपेक्षाकृत सस्ते में क्लस्टर किए गए इन कैनोपियों को अधिक महंगे लेकिन सटीक एल्गोरिदम का उपयोग करके उप-क्लस्टर किया जा सकता है।

एक महत्वपूर्ण नोट यह है कि व्यक्तिगत डेटा बिंदु कई कैनोपी का हिस्सा हो सकते हैं। अतिरिक्त गति-अप के रूप में, 3 के लिए एक अनुमानित और तेज़ दूरी मीट्रिक का उपयोग किया जा सकता है, जहां चरण 4 के लिए अधिक सटीक और धीमी दूरी मीट्रिक का उपयोग किया जा सकता है।

प्रयोज्यता

चूँकि एल्गोरिथ्म दूरी कार्यों का उपयोग करता है और दूरी सीमा के विनिर्देशन की आवश्यकता होती है, उच्च-आयामी डेटा के लिए इसकी प्रयोज्यता आयामीता के अभिशाप द्वारा सीमित है। केवल जब एक सस्ता और अनुमानित - निम्न-आयामी - दूरी फ़ंक्शन उपलब्ध होता है, तो उत्पादित कैनोपी के-साधनों द्वारा उत्पादित समूहों को संरक्षित करेगी।

इसके लाभों में शामिल हैं:

  • प्रत्येक चरण में तुलना किए जाने वाले प्रशिक्षण डेटा के उदाहरणों की संख्या कम हो गई है।
  • कुछ सबूत हैं कि परिणामी समूहों में सुधार हुआ है।[3]


संदर्भ

  1. 1.0 1.1 McCallum, A.; Nigam, K.; and Ungar L.H. (2000) "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching", Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 169-178 doi:10.1145/347090.347123
  2. "कैनोपीज़ एल्गोरिथम". courses.cs.washington.edu. Retrieved 2014-09-06.
  3. Mahout description of Canopy-Clustering Retrieved 2022-07-02.