K-माध्यिका क्लस्टरिंग: Difference between revisions

Revision as of 22:54, 27 March 2023

आँकड़ों में, k- माध्यिका ^[1]^[2] क्लस्टर विश्लेषण एल्गोरिथ्म है। यह k-साधन क्लस्टरिंग का रूपांतर है। जहां प्रत्येक क्लस्टर के माध्य की गणना इसके केन्द्रक का निर्धारण करने के अतिरिक्त माध्यिका की गणना की जाती है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव होता है, जैसा कि 2-मानक दूरी मीट्रिक (जो k-साधन करता है) के विपरीत होते है।

यह 1-मानदंड के संबंध में 'k-माध्यिका समस्या' से संबंधित है, जो कि k केंद्रों के शोध की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का समुच्चय दिया गया है, k केंद्र c_i का चयन करता है, जिससे प्रत्येक x से निकटतम c_i तक की दूरियों के योग को कम किया जा सके।

इस प्रकार से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k-साधन क्लस्टरिंग एल्गोरिथम में उपयोग किया जाने वाला उत्तम मानदंड होता है, जिसमें वर्ग दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।

प्रस्तावित एल्गोरिदम लॉयड-शैली पुनरावृत्ति का उपयोग करता है जो अपेक्षा (E) और अधिकतमकरण (M) चरण के मध्य वैकल्पिक होता है, जिससे यह अपेक्षा-अधिकतमकरण एल्गोरिदम बन जाता है। E चरण में, सभी वस्तुओं को उनके निकटतम माध्यिका में निर्दिष्ट किया जाता है। M चरण में, प्रत्येक एकल आयाम में माध्यिका का उपयोग करके माध्यिकाओं की पुनर्गणना की जाती है।

मेडियन और मेडोइड्स

माध्यिका की गणना मैनहट्टन दूरी में प्रत्येक एकल आयाम में की जाती है। k-मध्यिका समस्या का मैनहट्टन-दूरी सूत्रीकरण, इसलिए भिन्न-भिन्न विशेषताएँ डेटा समुच्चय से प्राप्त होती है (या डेटा समुच्चय से दो मानों का औसत होगा)। यह एल्गोरिथ्म को असतत या बाइनरी डेटा समुच्चय के लिए अधिक विश्वसनीय बनाता है। इसके विपरीत, साधनों या यूक्लिडियन दूरी माध्यिकाओं के उपयोग से आवश्यक रूप से डेटा समुच्चय से भिन्न-भिन्न गुण नहीं प्रदान होते है। मैनहट्टन-दूरी सूत्रीकरण के साथ भी, भिन्न-भिन्न विशेषताएँ डेटा समुच्चय में विभिन्न उदाहरणों से आ सकती हैं; इस प्रकार, परिणामी माध्यिका इनपुट डेटा समुच्चय का सदस्य नहीं हो सकता है।

यह एल्गोरिथम अधिकांशतः k-मेडोइड्स एल्गोरिथम के साथ भ्रमित होता है। चूँकि, मेडॉइड को डेटा समुच्चय का वास्तविक उदाहरण होना चाहिए, जबकि बहुभिन्नरूपी मैनहट्टन-दूरी माध्यिका के लिए यह केवल एकल विशेषता मानों के लिए है। वास्तविक माध्यिका इस प्रकार कई उदाहरणों का संयोजन हो सकती है। उदाहरण के लिए, वैक्टर (0,1), (1,0) और (2,2) दिए जाने पर, मैनहट्टन-दूरी माध्य (1,1) है, जो मूल डेटा में उपस्थित नहीं है, और इस प्रकार मेडॉइड नहीं हो सकता है।

सॉफ्टवेयर

एल्की में k-मीडियन सहित विभिन्न k-साधन संस्करण सम्मिलित हैं।
फोरट्रान k-माध्यिका
जीएनयू आर में फ्लेक्स क्लस्टरपैकेज में k-मीडियन सम्मिलित हैं।
स्टाटा k-माध्यिका

यह भी देखें

क्लस्टर विश्लेषण
के-v
मेडॉयड
सिल्हूट (क्लस्टरिंग)

संदर्भ

↑ A. K. Jain and R. C. Dubes, Algorithms for Clustering Data. Prentice-Hall, 1988.
↑ P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368–374.

[1] A. K. Jain and R. C. Dubes, Algorithms for Clustering Data. Prentice-Hall, 1988.

[2] P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368–374.

[1]

[2]

@@ Line 1: / Line 1: @@
 {{DISPLAYTITLE:''k''-medians clustering}}
-आँकड़ों में,'' k''- माध्यिका <ref>[[Anil K. Jain (computer scientist, born 1948)|A. K. Jain]] and R. C. Dubes, ''Algorithms for Clustering Data''. Prentice-Hall, 1988.</ref><ref>P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368&ndash;374.</ref> [[क्लस्टर विश्लेषण]] एल्गोरिथ्म है। यह k-[[ अर्थ | साधन]] क्लस्टरिंग का रूपांतर है। जहां प्रत्येक क्लस्टर के माध्य की गणना इसके केन्द्रक का निर्धारण करने के अतिरिक्त माध्यिका की गणना की जाती है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव है, जैसा कि 2-मानक दूरी मीट्रिक (जो k-साधन करता है) के विपरीत होते है।
+आँकड़ों में,'' k''- माध्यिका <ref>[[Anil K. Jain (computer scientist, born 1948)|A. K. Jain]] and R. C. Dubes, ''Algorithms for Clustering Data''. Prentice-Hall, 1988.</ref><ref>P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, Massachusetts: MIT Press, 1997, pp. 368&ndash;374.</ref> [[क्लस्टर विश्लेषण]] एल्गोरिथ्म है। यह k-[[ अर्थ |साधन]] क्लस्टरिंग का रूपांतर है। जहां प्रत्येक क्लस्टर के माध्य की गणना इसके केन्द्रक का निर्धारण करने के अतिरिक्त माध्यिका की गणना की जाती है। यह 1-मानक (गणित) दूरी मीट्रिक के संबंध में सभी समूहों पर त्रुटि को कम करने का प्रभाव होता है, जैसा कि 2-मानक दूरी मीट्रिक (जो k-साधन करता है) के विपरीत होते है।
-यह 1-मानदंड के संबंध में 'k-माध्यिका समस्या' से संबंधित है, जो कि k केंद्रों को शोध की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का समुच्चय दिया गया है, k केंद्र c<sub>''i''</sub> का चयन करता है, जिससे प्रत्येक x से निकटतम c<sub>''i''</sub> तक की दूरियों के योग को कम किया जा सके।
+यह 1-मानदंड के संबंध में 'k-माध्यिका समस्या' से संबंधित है, जो कि k केंद्रों के शोध की समस्या है, जैसे कि उनके द्वारा बनाए गए क्लस्टर सबसे अधिक कॉम्पैक्ट हैं। औपचारिक रूप से, डेटा बिंदु x का समुच्चय दिया गया है, k केंद्र c<sub>''i''</sub> का चयन करता है, जिससे प्रत्येक x से निकटतम c<sub>''i''</sub> तक की दूरियों के योग को कम किया जा सके।
-इस प्रकार से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k- साधन क्लस्टरिंग एल्गोरिथम में उपयोग किए जाने वाले मानदंड से उत्तम मानदंड होता है, जिसमें वर्ग दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।
+इस प्रकार से तैयार किया गया मानदंड फ़ंक्शन कभी-कभी k-साधन क्लस्टरिंग एल्गोरिथम में उपयोग किया जाने वाला उत्तम मानदंड होता है, जिसमें वर्ग दूरी का योग उपयोग किया जाता है। सुविधा स्थान समस्या जैसे अनुप्रयोगों में दूरियों का योग व्यापक रूप से उपयोग किया जाता है।
 प्रस्तावित एल्गोरिदम लॉयड-शैली पुनरावृत्ति का उपयोग करता है जो अपेक्षा (E) और अधिकतमकरण (M) चरण के मध्य वैकल्पिक होता है, जिससे यह अपेक्षा-अधिकतमकरण एल्गोरिदम बन जाता है। E चरण में, सभी वस्तुओं को उनके निकटतम माध्यिका में निर्दिष्ट किया जाता है। M चरण में, प्रत्येक एकल आयाम में माध्यिका का उपयोग करके माध्यिकाओं की पुनर्गणना की जाती है।
@@ Line 11: / Line 11: @@
 == मेडियन और मेडोइड्स ==
-माध्यिका की गणना [[मैनहट्टन दूरी]] में प्रत्येक एकल आयाम में की जाती है। k-मध्यिका समस्या का मैनहट्टन-दूरी सूत्रीकरण, इसलिए अलग-अलग विशेषताएँ डेटासेट से आएंगी (या डेटासेट से दो मानों का औसत होगा)। यह एल्गोरिथ्म को असतत या [[बाइनरी डेटा]] सेट के लिए अधिक विश्वसनीय बनाता है। इसके विपरीत, मीन्स या [[यूक्लिडियन दूरी]] का उपयोग | मैनहट्टन-दूरी सूत्रीकरण के साथ भी, अलग-अलग विशेषताएँ डेटासेट में विभिन्न उदाहरणों से आ सकती हैं; इस प्रकार, परिणामी माध्यिका इनपुट डेटासेट का सदस्य नहीं हो सकता है।
+माध्यिका की गणना [[मैनहट्टन दूरी]] में प्रत्येक एकल आयाम में की जाती है। k-मध्यिका समस्या का मैनहट्टन-दूरी सूत्रीकरण, इसलिए भिन्न-भिन्न विशेषताएँ डेटा समुच्चय से प्राप्त होती है (या डेटा समुच्चय से दो मानों का औसत होगा)। यह एल्गोरिथ्म को असतत या [[बाइनरी डेटा]] समुच्चय के लिए अधिक विश्वसनीय बनाता है। इसके विपरीत, साधनों या [[यूक्लिडियन दूरी]] माध्यिकाओं के उपयोग से आवश्यक रूप से डेटा समुच्चय से भिन्न-भिन्न गुण नहीं प्रदान होते है। मैनहट्टन-दूरी सूत्रीकरण के साथ भी, भिन्न-भिन्न विशेषताएँ डेटा समुच्चय में विभिन्न उदाहरणों से आ सकती हैं; इस प्रकार, परिणामी माध्यिका इनपुट डेटा समुच्चय का सदस्य नहीं हो सकता है।
-यह एल्गोरिथम अक्सर k-medoids|k-medoids एल्गोरिथम के साथ भ्रमित होता है। हालाँकि, एक मेडॉइड को डेटासेट से एक वास्तविक उदाहरण होना चाहिए, जबकि बहुभिन्नरूपी मैनहट्टन-दूरी माध्यिका के लिए यह केवल एकल विशेषता मानों के लिए है। वास्तविक माध्यिका इस प्रकार कई उदाहरणों का संयोजन हो सकती है। उदाहरण के लिए, वैक्टर (0,1), (1,0) और (2,2) दिए जाने पर, मैनहट्टन-दूरी माध्य (1,1) है, जो मूल डेटा में मौजूद नहीं है, और इस प्रकार एक नहीं हो सकता medoid.
+यह एल्गोरिथम अधिकांशतः k-मेडोइड्स एल्गोरिथम के साथ भ्रमित होता है। चूँकि, मेडॉइड को डेटा समुच्चय का वास्तविक उदाहरण होना चाहिए, जबकि बहुभिन्नरूपी मैनहट्टन-दूरी माध्यिका के लिए यह केवल एकल विशेषता मानों के लिए है। वास्तविक माध्यिका इस प्रकार कई उदाहरणों का संयोजन हो सकती है। उदाहरण के लिए, वैक्टर (0,1), (1,0) और (2,2) दिए जाने पर, मैनहट्टन-दूरी माध्य (1,1) है, जो मूल डेटा में उपस्थित नहीं है, और इस प्रकार मेडॉइड नहीं हो सकता है।
 == सॉफ्टवेयर ==
-* [[ELKI]] में k-मीडियन सहित विभिन्न k- साधन संस्करण शामिल हैं।
+* [[ELKI|एल्की]] में k-मीडियन सहित विभिन्न k-साधन संस्करण सम्मिलित हैं।
-* [[फोरट्रान]] [https://people.sc.fsu.edu/~jburkardt/f77_src/kmedian/kmedian.html kmedians]
+* [[फोरट्रान]] [https://people.sc.fsu.edu/~jburkardt/f77_src/kmedian/kmedian.html k-माध्यिका]
-* [[GNU R]] में flexclust पैकेज में k-मीडियन शामिल हैं।
+* [[GNU R|जीएनयू आर]] में फ्लेक्स क्लस्टरपैकेज में k-मीडियन सम्मिलित हैं।
-* [[ था ]] [https://www.stata.com/help13.cgi?cluster+kmedians kmedians]
+* [[ था | स्टाटा]] [https://people.sc.fsu.edu/~jburkardt/f77_src/kmedian/kmedian.html k-माध्यिका]
 == यह भी देखें ==
 *क्लस्टर विश्लेषण
-*के-मतलब
+*के-v
 *मेडॉयड
 * [[सिल्हूट (क्लस्टरिंग)]]

Anonymous

Search

K-माध्यिका क्लस्टरिंग: Difference between revisions

Namespaces

More

Page actions

Revision as of 22:54, 27 March 2023

Contents

मेडियन और मेडोइड्स

सॉफ्टवेयर

यह भी देखें

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

K-माध्यिका क्लस्टरिंग: Difference between revisions

Revision as of 22:54, 27 March 2023

मेडियन और मेडोइड्स

सॉफ्टवेयर

यह भी देखें

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories