K-माध्यिका क्लस्टरिंग
आँकड़ों में, k - मंझला क्लस्टरिंग[1][2] एक क्लस्टर विश्लेषण एल्गोरिथ्म है। यह के-अर्थ ्स क्लस्टरिंग का एक रूपांतर है। के-मीन्स क्लस्टरिंग जहां प्रत्येक क्लस्टर के माध्य की गणना करने के बजाय इसके केन्द्रक का निर्धारण करने के बजाय, माध्यिका की गणना करता है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव है, जैसा कि चुकता 2-मानक दूरी मीट्रिक (जो k-मतलब क्लस्टरिंग|k-mean करता है) के विपरीत है।
यह 1-मानदंड के संबंध में 'के-माध्यिका समस्या' से सीधे संबंधित है, जो कि के केंद्रों को खोजने की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का एक सेट दिया गया है, k केंद्र c हैi चुने जाने हैं ताकि प्रत्येक x से निकटतम c तक की दूरियों के योग को कम किया जा सकेi.
इस तरह से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k- साधन क्लस्टरिंग | k- साधन क्लस्टरिंग एल्गोरिथम में उपयोग किए जाने वाले मानदंड से बेहतर मानदंड होता है, जिसमें चुकता दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।
प्रस्तावित एल्गोरिदम लॉयड-शैली पुनरावृत्ति का उपयोग करता है जो एक अपेक्षा (ई) और अधिकतमकरण (एम) चरण के बीच वैकल्पिक होता है, जिससे यह एक अपेक्षा-अधिकतमकरण एल्गोरिदम बन जाता है। ई चरण में, सभी वस्तुओं को उनके निकटतम माध्यिका में निर्दिष्ट किया जाता है। एम चरण में, प्रत्येक एकल आयाम में माध्यिका का उपयोग करके माध्यिकाओं की पुनर्गणना की जाती है।
मेडियन और मेडोइड्स
माध्यिका की गणना मैनहट्टन दूरी में प्रत्येक एकल आयाम में की जाती है। k-मध्यिका समस्या का मैनहट्टन-दूरी सूत्रीकरण, इसलिए अलग-अलग विशेषताएँ डेटासेट से आएंगी (या डेटासेट से दो मानों का औसत होगा)। यह एल्गोरिथ्म को असतत या बाइनरी डेटा सेट के लिए अधिक विश्वसनीय बनाता है। इसके विपरीत, मीन्स या यूक्लिडियन दूरी का उपयोग | मैनहट्टन-दूरी सूत्रीकरण के साथ भी, अलग-अलग विशेषताएँ डेटासेट में विभिन्न उदाहरणों से आ सकती हैं; इस प्रकार, परिणामी माध्यिका इनपुट डेटासेट का सदस्य नहीं हो सकता है।
यह एल्गोरिथम अक्सर k-medoids|k-medoids एल्गोरिथम के साथ भ्रमित होता है। हालाँकि, एक मेडॉइड को डेटासेट से एक वास्तविक उदाहरण होना चाहिए, जबकि बहुभिन्नरूपी मैनहट्टन-दूरी माध्यिका के लिए यह केवल एकल विशेषता मानों के लिए है। वास्तविक माध्यिका इस प्रकार कई उदाहरणों का संयोजन हो सकती है। उदाहरण के लिए, वैक्टर (0,1), (1,0) और (2,2) दिए जाने पर, मैनहट्टन-दूरी माध्य (1,1) है, जो मूल डेटा में मौजूद नहीं है, और इस प्रकार एक नहीं हो सकता medoid.
सॉफ्टवेयर
- ELKI में k-मीडियन सहित विभिन्न k- साधन संस्करण शामिल हैं।
- फोरट्रान kmedians
- GNU R में flexclust पैकेज में k-मीडियन शामिल हैं।
- था kmedians
यह भी देखें
- क्लस्टर विश्लेषण
- के-मतलब
- मेडॉयड
- सिल्हूट (क्लस्टरिंग)
संदर्भ
- ↑ A. K. Jain and R. C. Dubes, Algorithms for Clustering Data. Prentice-Hall, 1988.
- ↑ P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368–374.