K-माध्यिका क्लस्टरिंग: Difference between revisions

From Vigyanwiki
(Created page with "{{DISPLAYTITLE:''k''-medians clustering}} आँकड़ों में, '' k '' - मंझला क्लस्टरिंग<ref>Anil K. Jain (computer scientist, bor...")
 
No edit summary
Line 1: Line 1:
{{DISPLAYTITLE:''k''-medians clustering}}
{{DISPLAYTITLE:''k''-medians clustering}}
आँकड़ों में, '' k '' - मंझला क्लस्टरिंग<ref>[[Anil K. Jain (computer scientist, born 1948)|A. K. Jain]] and R. C. Dubes, ''Algorithms for Clustering Data''. Prentice-Hall, 1988.</ref><ref>P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368&ndash;374.</ref> एक [[क्लस्टर विश्लेषण]] एल्गोरिथ्म है। यह के-[[ अर्थ ]]्स क्लस्टरिंग का एक रूपांतर है। के-मीन्स क्लस्टरिंग जहां प्रत्येक क्लस्टर के माध्य की गणना करने के बजाय इसके केन्द्रक का निर्धारण करने के बजाय, माध्यिका की गणना करता है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव है, जैसा कि चुकता 2-मानक दूरी मीट्रिक (जो k-मतलब क्लस्टरिंग|k-mean करता है) के विपरीत है।


यह 1-मानदंड के संबंध में 'के-माध्यिका समस्या' से सीधे संबंधित है, जो कि के केंद्रों को खोजने की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का एक सेट दिया गया है, k केंद्र c है<sub>''i''</sub> चुने जाने हैं ताकि प्रत्येक x से निकटतम c तक की दूरियों के योग को कम किया जा सके<sub>''i''</sub>.
आँकड़ों में,'' k''- माध्यिका <ref>[[Anil K. Jain (computer scientist, born 1948)|A. K. Jain]] and R. C. Dubes, ''Algorithms for Clustering Data''. Prentice-Hall, 1988.</ref><ref>P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368&ndash;374.</ref> [[क्लस्टर विश्लेषण]] एल्गोरिथ्म है। यह k-[[ अर्थ | साधन]] क्लस्टरिंग का रूपांतर है। जहां प्रत्येक क्लस्टर के माध्य की गणना इसके केन्द्रक का निर्धारण करने के अतिरिक्त माध्यिका की गणना की जाती है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव है, जैसा कि 2-मानक दूरी मीट्रिक (जो k-साधन करता है) के विपरीत होते है।


इस तरह से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k- साधन क्लस्टरिंग | k- साधन क्लस्टरिंग एल्गोरिथम में उपयोग किए जाने वाले मानदंड से बेहतर मानदंड होता है, जिसमें चुकता दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।
यह 1-मानदंड के संबंध में 'k-माध्यिका समस्या' से संबंधित है, जो कि k केंद्रों को शोध की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का समुच्चय दिया गया है, k केंद्र c<sub>''i''</sub> का चयन करता है, जिससे प्रत्येक x से निकटतम c<sub>''i''</sub> तक की दूरियों के योग को कम किया जा सके।


प्रस्तावित एल्गोरिदम लॉयड-शैली पुनरावृत्ति का उपयोग करता है जो एक अपेक्षा () और अधिकतमकरण (एम) चरण के बीच वैकल्पिक होता है, जिससे यह एक अपेक्षा-अधिकतमकरण एल्गोरिदम बन जाता है। चरण में, सभी वस्तुओं को उनके निकटतम माध्यिका में निर्दिष्ट किया जाता है। एम चरण में, प्रत्येक एकल आयाम में माध्यिका का उपयोग करके माध्यिकाओं की पुनर्गणना की जाती है।
इस प्रकार से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k- साधन क्लस्टरिंग एल्गोरिथम में उपयोग किए जाने वाले मानदंड से उत्तम मानदंड होता है, जिसमें वर्ग दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।
 
प्रस्तावित एल्गोरिदम लॉयड-शैली पुनरावृत्ति का उपयोग करता है जो अपेक्षा (E) और अधिकतमकरण (M) चरण के मध्य वैकल्पिक होता है, जिससे यह अपेक्षा-अधिकतमकरण एल्गोरिदम बन जाता है। E चरण में, सभी वस्तुओं को उनके निकटतम माध्यिका में निर्दिष्ट किया जाता है। M चरण में, प्रत्येक एकल आयाम में माध्यिका का उपयोग करके माध्यिकाओं की पुनर्गणना की जाती है।


== मेडियन और मेडोइड्स ==
== मेडियन और मेडोइड्स ==

Revision as of 22:34, 27 March 2023


आँकड़ों में, k- माध्यिका [1][2] क्लस्टर विश्लेषण एल्गोरिथ्म है। यह k- साधन क्लस्टरिंग का रूपांतर है। जहां प्रत्येक क्लस्टर के माध्य की गणना इसके केन्द्रक का निर्धारण करने के अतिरिक्त माध्यिका की गणना की जाती है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव है, जैसा कि 2-मानक दूरी मीट्रिक (जो k-साधन करता है) के विपरीत होते है।

यह 1-मानदंड के संबंध में 'k-माध्यिका समस्या' से संबंधित है, जो कि k केंद्रों को शोध की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का समुच्चय दिया गया है, k केंद्र ci का चयन करता है, जिससे प्रत्येक x से निकटतम ci तक की दूरियों के योग को कम किया जा सके।

इस प्रकार से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k- साधन क्लस्टरिंग एल्गोरिथम में उपयोग किए जाने वाले मानदंड से उत्तम मानदंड होता है, जिसमें वर्ग दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।

प्रस्तावित एल्गोरिदम लॉयड-शैली पुनरावृत्ति का उपयोग करता है जो अपेक्षा (E) और अधिकतमकरण (M) चरण के मध्य वैकल्पिक होता है, जिससे यह अपेक्षा-अधिकतमकरण एल्गोरिदम बन जाता है। E चरण में, सभी वस्तुओं को उनके निकटतम माध्यिका में निर्दिष्ट किया जाता है। M चरण में, प्रत्येक एकल आयाम में माध्यिका का उपयोग करके माध्यिकाओं की पुनर्गणना की जाती है।

मेडियन और मेडोइड्स

माध्यिका की गणना मैनहट्टन दूरी में प्रत्येक एकल आयाम में की जाती है। k-मध्यिका समस्या का मैनहट्टन-दूरी सूत्रीकरण, इसलिए अलग-अलग विशेषताएँ डेटासेट से आएंगी (या डेटासेट से दो मानों का औसत होगा)। यह एल्गोरिथ्म को असतत या बाइनरी डेटा सेट के लिए अधिक विश्वसनीय बनाता है। इसके विपरीत, मीन्स या यूक्लिडियन दूरी का उपयोग | मैनहट्टन-दूरी सूत्रीकरण के साथ भी, अलग-अलग विशेषताएँ डेटासेट में विभिन्न उदाहरणों से आ सकती हैं; इस प्रकार, परिणामी माध्यिका इनपुट डेटासेट का सदस्य नहीं हो सकता है।

यह एल्गोरिथम अक्सर k-medoids|k-medoids एल्गोरिथम के साथ भ्रमित होता है। हालाँकि, एक मेडॉइड को डेटासेट से एक वास्तविक उदाहरण होना चाहिए, जबकि बहुभिन्नरूपी मैनहट्टन-दूरी माध्यिका के लिए यह केवल एकल विशेषता मानों के लिए है। वास्तविक माध्यिका इस प्रकार कई उदाहरणों का संयोजन हो सकती है। उदाहरण के लिए, वैक्टर (0,1), (1,0) और (2,2) दिए जाने पर, मैनहट्टन-दूरी माध्य (1,1) है, जो मूल डेटा में मौजूद नहीं है, और इस प्रकार एक नहीं हो सकता medoid.

सॉफ्टवेयर

  • ELKI में k-मीडियन सहित विभिन्न k- साधन संस्करण शामिल हैं।
  • फोरट्रान kmedians
  • GNU R में flexclust पैकेज में k-मीडियन शामिल हैं।
  • था kmedians

यह भी देखें

संदर्भ

  1. A. K. Jain and R. C. Dubes, Algorithms for Clustering Data. Prentice-Hall, 1988.
  2. P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368–374.