कैनोपी क्लस्टरिंग एल्गोरिदम: Difference between revisions
(Created page with "कैनोपी क्लस्टरिंग एल्गोरिदम 2000 में एंड्रयू मैक्कलम, कमल निगम और ल...") |
No edit summary |
||
(3 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
कैनोपी क्लस्टरिंग | '''कैनोपी क्लस्टरिंग एल्गोरिथम''' 2000 में एंड्रयू मैक्कलम, कमल निगम और लाइल उनगर द्वारा प्रस्तुत किया गया एक अप्रशिक्षित प्री-क्लस्टरिंग एल्गोरिथम है।<ref name="original">McCallum, A.; Nigam, K.; and Ungar L.H. (2000) [http://www.kamalnigam.com/papers/canopy-kdd00.pdf "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching"], Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 169-178 {{doi|10.1145/347090.347123 }}</ref> इसका उपयोग प्रायः K-मीन्स एल्गोरिदम या [[पदानुक्रमित क्लस्टरिंग]]ग एल्गोरिदम के लिए प्रीप्रोसेसिंग चरण के रूप में किया जाता है। इसका उद्देश्य बड़े डेटा सेट पर [[कंप्यूटर क्लस्टर]] संचालन को गति देना है, जहां [[डेटा सेट]] के आकार के कारण सीधे किसी अन्य एल्गोरिदम का उपयोग करना अव्यावहारिक हो सकता है। | ||
==विवरण== | ==विवरण== | ||
एल्गोरिथ्म दो थ्रेसहोल्ड | एल्गोरिथ्म दो थ्रेसहोल्ड <math>T_1</math> (लूस स्पेसिंग ) और <math>T_2</math> (टाइट स्पेसिंग) का उपयोग करते हुए निम्नानुसार आगे बढ़ता है, जहां <math>T_1 > T_2</math><ref name="original" /><ref>{{cite web |url=http://courses.cs.washington.edu/courses/cse590q/04au/slides/DannyMcCallumKDD00.ppt |title=कैनोपीज़ एल्गोरिथम|website=courses.cs.washington.edu |access-date=2014-09-06}}</ref> | ||
# क्लस्टर किए जाने वाले डेटा बिंदुओं के सेट से | |||
# सेट से एक बिंदु हटाएं, इस बिंदु वाले एक नए 'कैनोपी' | # क्लस्टर किए जाने वाले डेटा बिंदुओं के सेट से आरंभ करें। | ||
# सेट में बचे प्रत्येक बिंदु के लिए, इसे नए कैनोपी को निर्दिष्ट करें यदि कैनोपी के पहले बिंदु से इसकी | # सेट से एक बिंदु हटाएं, इस बिंदु वाले एक नए 'कैनोपी' आरंभ करें। | ||
# यदि बिंदु की | # सेट में बचे प्रत्येक बिंदु के लिए, इसे नए कैनोपी को निर्दिष्ट करें यदि कैनोपी के पहले बिंदु से इसकी स्पेसिंग लूस स्पेसिंग से कम है <math>T_1</math>. | ||
# यदि बिंदु की स्पेसिंग अतिरिक्त रूप से टाइट स्पेसिंग से कम है <math>T_2</math>, इसे मूल सेट से हटा दें। | |||
# चरण 2 से तब तक दोहराएं जब तक कि क्लस्टर में सेट में कोई और डेटा बिंदु न रह जाए। | # चरण 2 से तब तक दोहराएं जब तक कि क्लस्टर में सेट में कोई और डेटा बिंदु न रह जाए। | ||
# अपेक्षाकृत सस्ते में क्लस्टर किए गए इन कैनोपियों को अधिक | # अपेक्षाकृत सस्ते में क्लस्टर किए गए इन कैनोपियों को अधिक बहुमूल्य लेकिन सटीक एल्गोरिदम का उपयोग करके उप-क्लस्टर किया जा सकता है। | ||
एक महत्वपूर्ण नोट यह है कि व्यक्तिगत डेटा बिंदु कई कैनोपी का हिस्सा हो सकते हैं। अतिरिक्त गति-अप के रूप में, 3 के लिए एक अनुमानित और तेज़ | एक महत्वपूर्ण नोट यह है कि व्यक्तिगत डेटा बिंदु कई कैनोपी का हिस्सा हो सकते हैं। अतिरिक्त गति-अप के रूप में, 3 के लिए एक अनुमानित और तेज़ स्पेसिंग मीट्रिक का उपयोग किया जा सकता है, जहां चरण 4 के लिए अधिक सटीक और धीमी स्पेसिंग मीट्रिक का उपयोग किया जा सकता है। | ||
==प्रयोज्यता== | ==प्रयोज्यता== | ||
चूँकि एल्गोरिथ्म | चूँकि एल्गोरिथ्म स्पेसिंग कार्यों का उपयोग करता है और स्पेसिंग सीमा के विनिर्देशन की आवश्यकता होती है, उच्च-आयामी डेटा के लिए इसकी प्रयोज्यता आयामीता के अभिशाप द्वारा सीमित है। केवल जब एक सस्ता और अनुमानित - निम्न-आयामी - स्पेसिंग फ़ंक्शन उपलब्ध होता है, तो उत्पादित कैनोपी के-साधनों द्वारा उत्पादित समूहों को संरक्षित करेगी। | ||
इसके लाभों में | इसके लाभों में सम्मिलित हैं: | ||
* प्रत्येक चरण में तुलना किए जाने वाले प्रशिक्षण डेटा के उदाहरणों की संख्या कम हो गई है। | * प्रत्येक चरण में तुलना किए जाने वाले प्रशिक्षण डेटा के उदाहरणों की संख्या कम हो गई है। | ||
* कुछ | * कुछ साक्ष्य हैं कि परिणामी समूहों में सुधार हुआ है।<ref>[https://mahout.apache.org/docs/latest/algorithms/clustering/canopy/ Mahout description of Canopy-Clustering] | ||
Retrieved 2022-07-02.</ref> | Retrieved 2022-07-02.</ref> | ||
Line 23: | Line 24: | ||
==संदर्भ== | ==संदर्भ== | ||
{{Reflist}} | {{Reflist}} | ||
[[Category:Created On 10/07/2023]] | [[Category:Created On 10/07/2023]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:क्लस्टर विश्लेषण एल्गोरिदम]] |
Latest revision as of 12:30, 28 July 2023
कैनोपी क्लस्टरिंग एल्गोरिथम 2000 में एंड्रयू मैक्कलम, कमल निगम और लाइल उनगर द्वारा प्रस्तुत किया गया एक अप्रशिक्षित प्री-क्लस्टरिंग एल्गोरिथम है।[1] इसका उपयोग प्रायः K-मीन्स एल्गोरिदम या पदानुक्रमित क्लस्टरिंगग एल्गोरिदम के लिए प्रीप्रोसेसिंग चरण के रूप में किया जाता है। इसका उद्देश्य बड़े डेटा सेट पर कंप्यूटर क्लस्टर संचालन को गति देना है, जहां डेटा सेट के आकार के कारण सीधे किसी अन्य एल्गोरिदम का उपयोग करना अव्यावहारिक हो सकता है।
विवरण
एल्गोरिथ्म दो थ्रेसहोल्ड (लूस स्पेसिंग ) और (टाइट स्पेसिंग) का उपयोग करते हुए निम्नानुसार आगे बढ़ता है, जहां [1][2]
- क्लस्टर किए जाने वाले डेटा बिंदुओं के सेट से आरंभ करें।
- सेट से एक बिंदु हटाएं, इस बिंदु वाले एक नए 'कैनोपी' आरंभ करें।
- सेट में बचे प्रत्येक बिंदु के लिए, इसे नए कैनोपी को निर्दिष्ट करें यदि कैनोपी के पहले बिंदु से इसकी स्पेसिंग लूस स्पेसिंग से कम है .
- यदि बिंदु की स्पेसिंग अतिरिक्त रूप से टाइट स्पेसिंग से कम है , इसे मूल सेट से हटा दें।
- चरण 2 से तब तक दोहराएं जब तक कि क्लस्टर में सेट में कोई और डेटा बिंदु न रह जाए।
- अपेक्षाकृत सस्ते में क्लस्टर किए गए इन कैनोपियों को अधिक बहुमूल्य लेकिन सटीक एल्गोरिदम का उपयोग करके उप-क्लस्टर किया जा सकता है।
एक महत्वपूर्ण नोट यह है कि व्यक्तिगत डेटा बिंदु कई कैनोपी का हिस्सा हो सकते हैं। अतिरिक्त गति-अप के रूप में, 3 के लिए एक अनुमानित और तेज़ स्पेसिंग मीट्रिक का उपयोग किया जा सकता है, जहां चरण 4 के लिए अधिक सटीक और धीमी स्पेसिंग मीट्रिक का उपयोग किया जा सकता है।
प्रयोज्यता
चूँकि एल्गोरिथ्म स्पेसिंग कार्यों का उपयोग करता है और स्पेसिंग सीमा के विनिर्देशन की आवश्यकता होती है, उच्च-आयामी डेटा के लिए इसकी प्रयोज्यता आयामीता के अभिशाप द्वारा सीमित है। केवल जब एक सस्ता और अनुमानित - निम्न-आयामी - स्पेसिंग फ़ंक्शन उपलब्ध होता है, तो उत्पादित कैनोपी के-साधनों द्वारा उत्पादित समूहों को संरक्षित करेगी।
इसके लाभों में सम्मिलित हैं:
- प्रत्येक चरण में तुलना किए जाने वाले प्रशिक्षण डेटा के उदाहरणों की संख्या कम हो गई है।
- कुछ साक्ष्य हैं कि परिणामी समूहों में सुधार हुआ है।[3]
संदर्भ
- ↑ 1.0 1.1 McCallum, A.; Nigam, K.; and Ungar L.H. (2000) "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching", Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 169-178 doi:10.1145/347090.347123
- ↑ "कैनोपीज़ एल्गोरिथम". courses.cs.washington.edu. Retrieved 2014-09-06.
- ↑ Mahout description of Canopy-Clustering Retrieved 2022-07-02.