डन सूचकांक: Difference between revisions

From Vigyanwiki
m (Sugatha moved page डन इंडेक्स to डन सूचकांक without leaving a redirect)
No edit summary
 
(3 intermediate revisions by 3 users not shown)
Line 21: Line 21:
==स्पष्टीकरण==
==स्पष्टीकरण==
इस तरह से परिभाषित होने पर, DI (डीआई) समुच्चय में क्लस्टर की संख्या, m पर निर्भर करता है। यदि क्लस्टरों की संख्या पहले से ज्ञात नहीं है, तो जिस m के लिए डीआई उच्चतम है उसे क्लस्टरों की संख्या के रूप में चुना जा सकता है। जब d(x,y) की परिभाषा की बात आती है तो इसमें कुछ प्रतिस्थितित्व भी होता है, जहां क्लस्टरिंग समस्या की ज्यामिति के आधार पर किसी भी प्रसिद्ध आव्यूह का उपयोग किया जा सकता है, जैसे मैनहट्टन दूरी या [[यूक्लिडियन दूरी]] है। इस सूत्रीकरण में एक विलक्षण समस्या है, इसमें यदि समूहों में से एक के साथ अनैतिक व्यवहार किया जाता है, जहां अन्य को कसकर पैक किया जाता है, क्योंकि हर में एक औसत शब्द के बदले में 'अधिकतम' शब्द होता है, तो समूहों के उस समुच्चय के लिए डन सूचकांक होगा अस्वाभाविक रूप से निम्न है। इस प्रकार यह सबसे खराब स्थिति का संकेतक है, और इसे ध्यान में रखा जाना चाहिए। मैटलैब (MATLAB), R और अपाचे महौत (Apache Mahout) जैसी कुछ सदिश आधारित प्रोग्रामिंग भाषाओं में डन सूचकांक का कार्यान्वयन तैयार है।<ref>{{cite web|url=http://www.mathworks.com/matlabcentral/fileexchange/27859-dunns-index |title=डन इंडेक्स का MATLAB कार्यान्वयन|access-date=5 December 2011}}</ref><ref>{{cite web|last=Lukasz|first=Nieweglowski|title=पैकेज 'सीएलवी'|url=https://cran.r-project.org/web/packages/clv/clv.pdf|work=R project|publisher=CRAN|access-date=2 April 2013}}</ref><ref>{{cite web|title=अपाचे महावत|url=http://mahout.apache.org/|publisher=Apache Software Foundation|access-date=9 May 2013}}</ref>
इस तरह से परिभाषित होने पर, DI (डीआई) समुच्चय में क्लस्टर की संख्या, m पर निर्भर करता है। यदि क्लस्टरों की संख्या पहले से ज्ञात नहीं है, तो जिस m के लिए डीआई उच्चतम है उसे क्लस्टरों की संख्या के रूप में चुना जा सकता है। जब d(x,y) की परिभाषा की बात आती है तो इसमें कुछ प्रतिस्थितित्व भी होता है, जहां क्लस्टरिंग समस्या की ज्यामिति के आधार पर किसी भी प्रसिद्ध आव्यूह का उपयोग किया जा सकता है, जैसे मैनहट्टन दूरी या [[यूक्लिडियन दूरी]] है। इस सूत्रीकरण में एक विलक्षण समस्या है, इसमें यदि समूहों में से एक के साथ अनैतिक व्यवहार किया जाता है, जहां अन्य को कसकर पैक किया जाता है, क्योंकि हर में एक औसत शब्द के बदले में 'अधिकतम' शब्द होता है, तो समूहों के उस समुच्चय के लिए डन सूचकांक होगा अस्वाभाविक रूप से निम्न है। इस प्रकार यह सबसे खराब स्थिति का संकेतक है, और इसे ध्यान में रखा जाना चाहिए। मैटलैब (MATLAB), R और अपाचे महौत (Apache Mahout) जैसी कुछ सदिश आधारित प्रोग्रामिंग भाषाओं में डन सूचकांक का कार्यान्वयन तैयार है।<ref>{{cite web|url=http://www.mathworks.com/matlabcentral/fileexchange/27859-dunns-index |title=डन इंडेक्स का MATLAB कार्यान्वयन|access-date=5 December 2011}}</ref><ref>{{cite web|last=Lukasz|first=Nieweglowski|title=पैकेज 'सीएलवी'|url=https://cran.r-project.org/web/packages/clv/clv.pdf|work=R project|publisher=CRAN|access-date=2 April 2013}}</ref><ref>{{cite web|title=अपाचे महावत|url=http://mahout.apache.org/|publisher=Apache Software Foundation|access-date=9 May 2013}}</ref>
== नोट्स और संदर्भ ==
== नोट्स और संदर्भ ==
<references/>
<references/>
==बाहरी संबंध==
==बाहरी संबंध==
* {{cite journal | doi=10.1016/j.patcog.2003.06.005 | volume=37 | issue=3 | title=Validity index for crisp and fuzzy clusters | journal=Pattern Recognition | pages=487–501| year=2004 | last1=Pakhira | first1=Malay K. | last2=Bandyopadhyay | first2=Sanghamitra | last3=Maulik | first3=Ujjwal }}
* {{cite journal | doi=10.1016/j.patcog.2003.06.005 | volume=37 | issue=3 | title=Validity index for crisp and fuzzy clusters | journal=Pattern Recognition | pages=487–501| year=2004 | last1=Pakhira | first1=Malay K. | last2=Bandyopadhyay | first2=Sanghamitra | last3=Maulik | first3=Ujjwal }}
* {{cite journal |title=Cluster validation with generalized Dunn's indices |first1=J.C. |last1=Bezdek |first2=N.R. |last2=Pal |doi=10.1109/ANNES.1995.499469 |journal=Proceedings 1995 Second New Zealand International Two-Stream Conference on Artificial Neural Networks and Expert Systems |year=1995 |pages=190–193 |publisher=IEEE Xplore|isbn=0-8186-7174-2 }}
* {{cite journal |title=Cluster validation with generalized Dunn's indices |first1=J.C. |last1=Bezdek |first2=N.R. |last2=Pal |doi=10.1109/ANNES.1995.499469 |journal=Proceedings 1995 Second New Zealand International Two-Stream Conference on Artificial Neural Networks and Expert Systems |year=1995 |pages=190–193 |publisher=IEEE Xplore|isbn=0-8186-7174-2 }}


{{Machine learning evaluation metrics}}
[[Category: क्लस्टरिंग मानदंड]]
[[Category: Machine Translated Page]]
[[Category:Created On 10/07/2023]]
[[Category:Created On 10/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:क्लस्टरिंग मानदंड]]

Latest revision as of 19:38, 21 July 2023

डन सूचकांक (डीआई) (1974 में जे. सी. डन द्वारा प्रस्तुत) क्लस्टरिंग एल्गोरिदम के मूल्यांकन के लिए एक मीट्रिक है।[1][2] यह डेविस-बोल्डिन सूचकांक (इंडेक्स) या सिल्हूट सूचकांक सहित वैधता सूचकांकों के एक समूह का हिस्सा है, इसमें यह एक आंतरिक मूल्यांकन योजना है, जहां परिणाम क्लस्टर किए गए डेटा पर आधारित होता है। ऐसे अन्य सभी सूचकांकों की तरह, इसका उद्देश्य उन समूहों के समुच्चय की पहचान करना है जो कॉम्पैक्ट हैं, क्लस्टर के सदस्यों के बीच एक छोटा सा अंतर है, और अच्छी तरह से अलग हैं, जहां विभिन्न समूहों के साधन भीतर की तुलना में पर्याप्त रूप से दूर हैं। क्लस्टर विचरण. क्लस्टर के दिए गए असाइनमेंट के लिए, एक उच्च डन सूचकांक श्रेष्ठतर क्लस्टरिंग को इंगित करता है। इसका उपयोग करने की कमियों में से एक कम्प्यूटेशनल लागत है क्योंकि क्लस्टर की संख्या और डेटा की आयामीता बढ़ जाती है।

किसी क्लस्टर का आकार या व्यास परिभाषित करने के कई तरीके हैं। यह क्लस्टर के अंदर सबसे दूर के दो बिंदुओं के बीच की दूरी हो सकती है, यह क्लस्टर के अंदर डेटा बिंदुओं के बीच सभी जोड़ीदार दूरियों का माध्य हो सकता है, या यह क्लस्टर सेंट्रोइड से प्रत्येक डेटा बिंदु की दूरी भी हो सकती है। इनमें से प्रत्येक सूत्रीकरण को गणितीय रूप से नीचे दर्शाया गया है:

मान लीजिए Ci सदिशों का एक समूह है। मान लीजिए कि x और y एक ही क्लस्टर Ci को निर्दिष्ट कोई दो n आयामी फ़ीचर वैक्टर हैं

, जो कि अधिकतम दूरी (डन द्वारा प्रस्तावित संस्करण) की गणना करता है।
, जो सभी जोड़ियों के बीच की औसत दूरी की गणना करता है।
, माध्य से सभी बिंदुओं की दूरी की गणना करता है।

इसे इंटरक्लस्टर दूरी के बारे में भी कहा जा सकता है, जहां निकटतम दो डेटा बिंदुओं (डन द्वारा प्रयुक्त), प्रत्येक क्लस्टर में एक, या सबसे दूर के दो, या सेंट्रोइड्स के बीच की दूरी आदि का उपयोग करके समान फॉर्मूलेशन बनाया जा सकता है। सूचकांक की परिभाषा में ऐसे किसी भी सूत्रीकरण को शामिल किया गया है, और इस प्रकार गठित सूचकांकों के समूह को डन-लाइक सूचकांक कहा जाता है। मन लीजिये यह क्लस्टर Ci और Cj के बीच इंटरक्लस्टर दूरी मीट्रिक है।

परिभाषा

उपरोक्त नोटेशन के साथ, यदि m क्लस्टर हैं, तो समुच्चय के लिए डन सूचकांक को इस प्रकार परिभाषित किया गया है:

.

स्पष्टीकरण

इस तरह से परिभाषित होने पर, DI (डीआई) समुच्चय में क्लस्टर की संख्या, m पर निर्भर करता है। यदि क्लस्टरों की संख्या पहले से ज्ञात नहीं है, तो जिस m के लिए डीआई उच्चतम है उसे क्लस्टरों की संख्या के रूप में चुना जा सकता है। जब d(x,y) की परिभाषा की बात आती है तो इसमें कुछ प्रतिस्थितित्व भी होता है, जहां क्लस्टरिंग समस्या की ज्यामिति के आधार पर किसी भी प्रसिद्ध आव्यूह का उपयोग किया जा सकता है, जैसे मैनहट्टन दूरी या यूक्लिडियन दूरी है। इस सूत्रीकरण में एक विलक्षण समस्या है, इसमें यदि समूहों में से एक के साथ अनैतिक व्यवहार किया जाता है, जहां अन्य को कसकर पैक किया जाता है, क्योंकि हर में एक औसत शब्द के बदले में 'अधिकतम' शब्द होता है, तो समूहों के उस समुच्चय के लिए डन सूचकांक होगा अस्वाभाविक रूप से निम्न है। इस प्रकार यह सबसे खराब स्थिति का संकेतक है, और इसे ध्यान में रखा जाना चाहिए। मैटलैब (MATLAB), R और अपाचे महौत (Apache Mahout) जैसी कुछ सदिश आधारित प्रोग्रामिंग भाषाओं में डन सूचकांक का कार्यान्वयन तैयार है।[3][4][5]

नोट्स और संदर्भ

  1. Dunn, J. C. (1973-09-17). "ISODATA प्रक्रिया का एक अस्पष्ट सापेक्ष और कॉम्पैक्ट अच्छी तरह से अलग किए गए क्लस्टर का पता लगाने में इसका उपयोग". Journal of Cybernetics. 3 (3): 32–57. doi:10.1080/01969727308546046. S2CID 120919314.
  2. Dunn, J. C. (1973-09-01). "अच्छी तरह से अलग किए गए क्लस्टर और इष्टतम फ़ज़ी विभाजन". Journal of Cybernetics (published 1974). 4 (1): 95–104. doi:10.1080/01969727408546059. ISSN 0022-0280.
  3. "डन इंडेक्स का MATLAB कार्यान्वयन". Retrieved 5 December 2011.
  4. Lukasz, Nieweglowski. "पैकेज 'सीएलवी'" (PDF). R project. CRAN. Retrieved 2 April 2013.
  5. "अपाचे महावत". Apache Software Foundation. Retrieved 9 May 2013.

बाहरी संबंध

  • Pakhira, Malay K.; Bandyopadhyay, Sanghamitra; Maulik, Ujjwal (2004). "Validity index for crisp and fuzzy clusters". Pattern Recognition. 37 (3): 487–501. doi:10.1016/j.patcog.2003.06.005.
  • Bezdek, J.C.; Pal, N.R. (1995). "Cluster validation with generalized Dunn's indices". Proceedings 1995 Second New Zealand International Two-Stream Conference on Artificial Neural Networks and Expert Systems. IEEE Xplore: 190–193. doi:10.1109/ANNES.1995.499469. ISBN 0-8186-7174-2.