K-माध्यिका क्लस्टरिंग

From Vigyanwiki
Revision as of 11:46, 20 March 2023 by alpha>Indicwiki (Created page with "{{DISPLAYTITLE:''k''-medians clustering}} आँकड़ों में, '' k '' - मंझला क्लस्टरिंग<ref>Anil K. Jain (computer scientist, bor...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

आँकड़ों में, k - मंझला क्लस्टरिंग[1][2] एक क्लस्टर विश्लेषण एल्गोरिथ्म है। यह के-अर्थ ्स क्लस्टरिंग का एक रूपांतर है। के-मीन्स क्लस्टरिंग जहां प्रत्येक क्लस्टर के माध्य की गणना करने के बजाय इसके केन्द्रक का निर्धारण करने के बजाय, माध्यिका की गणना करता है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव है, जैसा कि चुकता 2-मानक दूरी मीट्रिक (जो k-मतलब क्लस्टरिंग|k-mean करता है) के विपरीत है।

यह 1-मानदंड के संबंध में 'के-माध्यिका समस्या' से सीधे संबंधित है, जो कि के केंद्रों को खोजने की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का एक सेट दिया गया है, k केंद्र c हैi चुने जाने हैं ताकि प्रत्येक x से निकटतम c तक की दूरियों के योग को कम किया जा सकेi.

इस तरह से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k- साधन क्लस्टरिंग | k- साधन क्लस्टरिंग एल्गोरिथम में उपयोग किए जाने वाले मानदंड से बेहतर मानदंड होता है, जिसमें चुकता दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।

प्रस्तावित एल्गोरिदम लॉयड-शैली पुनरावृत्ति का उपयोग करता है जो एक अपेक्षा (ई) और अधिकतमकरण (एम) चरण के बीच वैकल्पिक होता है, जिससे यह एक अपेक्षा-अधिकतमकरण एल्गोरिदम बन जाता है। ई चरण में, सभी वस्तुओं को उनके निकटतम माध्यिका में निर्दिष्ट किया जाता है। एम चरण में, प्रत्येक एकल आयाम में माध्यिका का उपयोग करके माध्यिकाओं की पुनर्गणना की जाती है।

मेडियन और मेडोइड्स

माध्यिका की गणना मैनहट्टन दूरी में प्रत्येक एकल आयाम में की जाती है। k-मध्यिका समस्या का मैनहट्टन-दूरी सूत्रीकरण, इसलिए अलग-अलग विशेषताएँ डेटासेट से आएंगी (या डेटासेट से दो मानों का औसत होगा)। यह एल्गोरिथ्म को असतत या बाइनरी डेटा सेट के लिए अधिक विश्वसनीय बनाता है। इसके विपरीत, मीन्स या यूक्लिडियन दूरी का उपयोग | मैनहट्टन-दूरी सूत्रीकरण के साथ भी, अलग-अलग विशेषताएँ डेटासेट में विभिन्न उदाहरणों से आ सकती हैं; इस प्रकार, परिणामी माध्यिका इनपुट डेटासेट का सदस्य नहीं हो सकता है।

यह एल्गोरिथम अक्सर k-medoids|k-medoids एल्गोरिथम के साथ भ्रमित होता है। हालाँकि, एक मेडॉइड को डेटासेट से एक वास्तविक उदाहरण होना चाहिए, जबकि बहुभिन्नरूपी मैनहट्टन-दूरी माध्यिका के लिए यह केवल एकल विशेषता मानों के लिए है। वास्तविक माध्यिका इस प्रकार कई उदाहरणों का संयोजन हो सकती है। उदाहरण के लिए, वैक्टर (0,1), (1,0) और (2,2) दिए जाने पर, मैनहट्टन-दूरी माध्य (1,1) है, जो मूल डेटा में मौजूद नहीं है, और इस प्रकार एक नहीं हो सकता medoid.

सॉफ्टवेयर

  • ELKI में k-मीडियन सहित विभिन्न k- साधन संस्करण शामिल हैं।
  • फोरट्रान kmedians
  • GNU R में flexclust पैकेज में k-मीडियन शामिल हैं।
  • था kmedians

यह भी देखें

संदर्भ

  1. A. K. Jain and R. C. Dubes, Algorithms for Clustering Data. Prentice-Hall, 1988.
  2. P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368–374.