डन सूचकांक

From Vigyanwiki
Revision as of 20:31, 10 July 2023 by alpha>Indicwiki (Created page with "{{short description|Metric for evaluating clustering algorithms}} डन इंडेक्स (डीआई) (1974 में जे. सी. डन द्वारा प्...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

डन इंडेक्स (डीआई) (1974 में जे. सी. डन द्वारा प्रस्तुत) क्लस्टरिंग एल्गोरिथ्म के मूल्यांकन के लिए एक मीट्रिक है।[1][2] यह डेविस-बोल्डिन इंडेक्स या सिल्हूट (क्लस्टरिंग) सहित वैधता सूचकांकों के एक समूह का हिस्सा है, इसमें यह एक आंतरिक मूल्यांकन योजना है, जहां परिणाम क्लस्टर किए गए डेटा पर ही आधारित होता है। ऐसे अन्य सभी सूचकांकों की तरह, इसका उद्देश्य उन समूहों के सेट की पहचान करना है जो कॉम्पैक्ट हैं, क्लस्टर के सदस्यों के बीच एक छोटा सा अंतर है, और अच्छी तरह से अलग हैं, जहां विभिन्न समूहों के साधन आंतरिक क्लस्टर की तुलना में पर्याप्त रूप से दूर हैं। विचरण. क्लस्टर के दिए गए असाइनमेंट के लिए, एक उच्च डन इंडेक्स बेहतर क्लस्टरिंग को इंगित करता है। इसका उपयोग करने की कमियों में से एक कम्प्यूटेशनल लागत है क्योंकि क्लस्टर की संख्या और डेटा की आयामीता बढ़ जाती है।

प्रारंभिक

क्लस्टर के आकार या व्यास को परिभाषित करने के कई तरीके हैं। यह क्लस्टर के अंदर सबसे दूर के दो बिंदुओं के बीच की दूरी हो सकती है, यह क्लस्टर के अंदर डेटा बिंदुओं के बीच सभी जोड़ीदार दूरियों का माध्य हो सकता है, या यह क्लस्टर सेंट्रोइड से प्रत्येक डेटा बिंदु की दूरी भी हो सकती है। इनमें से प्रत्येक सूत्रीकरण गणितीय रूप से नीचे दिखाया गया है:

चलो सीi वैक्टरों का एक समूह बनें। मान लीजिए कि x और y एक ही क्लस्टर C को निर्दिष्ट कोई दो n आयामी फ़ीचर वैक्टर हैंi.

, जो अधिकतम दूरी की गणना करता है (डन द्वारा प्रस्तावित संस्करण)।
, जो सभी जोड़ियों के बीच की औसत दूरी की गणना करता है।
, माध्य से सभी बिंदुओं की दूरी की गणना करता है।

इसे इंटरक्लस्टर दूरी के बारे में भी कहा जा सकता है, जहां निकटतम दो डेटा बिंदुओं (डन द्वारा प्रयुक्त), प्रत्येक क्लस्टर में एक, या सबसे दूर दो, या सेंट्रोइड्स के बीच की दूरी आदि का उपयोग करके समान फॉर्मूलेशन बनाए जा सकते हैं। सूचकांक की परिभाषा में ऐसा कोई भी सूत्रीकरण शामिल है, और इस प्रकार गठित सूचकांकों के परिवार को डन-लाइक इंडेक्स कहा जाता है। होने देना क्लस्टर सी के बीच यह इंटरक्लस्टर दूरी मीट्रिक होi और सीj.

परिभाषा

उपरोक्त नोटेशन के साथ, यदि एम क्लस्टर हैं, तो सेट के लिए डन इंडेक्स को इस प्रकार परिभाषित किया गया है:

.

स्पष्टीकरण

इस तरह परिभाषित होने के कारण, DI, सेट में क्लस्टर की संख्या, m पर निर्भर करता है। यदि समूहों की संख्या पहले से ज्ञात नहीं है, तो वह मी जिसके लिए डीआई उच्चतम है, उसे समूहों की संख्या के रूप में चुना जा सकता है। जब d(x,y) की परिभाषा की बात आती है तो कुछ लचीलापन भी होता है, जहां क्लस्टरिंग समस्या की ज्यामिति के आधार पर किसी भी प्रसिद्ध मीट्रिक का उपयोग किया जा सकता है, जैसे मैनहट्टन दूरी या यूक्लिडियन दूरी। इस सूत्रीकरण में एक अजीब समस्या है, इसमें यदि समूहों में से एक के साथ बुरा व्यवहार किया जाता है, जहां अन्य को कसकर पैक किया जाता है, क्योंकि हर में एक औसत शब्द के बजाय 'अधिकतम' शब्द होता है, तो समूहों के उस सेट के लिए डन इंडेक्स होगा अस्वाभाविक रूप से कम. इस प्रकार यह सबसे खराब स्थिति का संकेतक है, और इसे ध्यान में रखा जाना चाहिए। MATLAB, R (प्रोग्रामिंग भाषा) और Apache Mahout जैसी कुछ वेक्टर आधारित प्रोग्रामिंग भाषाओं में डन इंडेक्स का कार्यान्वयन तैयार है।[3][4][5]


नोट्स और संदर्भ

  1. Dunn, J. C. (1973-09-17). "ISODATA प्रक्रिया का एक अस्पष्ट सापेक्ष और कॉम्पैक्ट अच्छी तरह से अलग किए गए क्लस्टर का पता लगाने में इसका उपयोग". Journal of Cybernetics. 3 (3): 32–57. doi:10.1080/01969727308546046. S2CID 120919314.
  2. Dunn, J. C. (1973-09-01). "अच्छी तरह से अलग किए गए क्लस्टर और इष्टतम फ़ज़ी विभाजन". Journal of Cybernetics (published 1974). 4 (1): 95–104. doi:10.1080/01969727408546059. ISSN 0022-0280.
  3. "डन इंडेक्स का MATLAB कार्यान्वयन". Retrieved 5 December 2011.
  4. Lukasz, Nieweglowski. "पैकेज 'सीएलवी'" (PDF). R project. CRAN. Retrieved 2 April 2013.
  5. "अपाचे महावत". Apache Software Foundation. Retrieved 9 May 2013.


बाहरी संबंध

  • Pakhira, Malay K.; Bandyopadhyay, Sanghamitra; Maulik, Ujjwal (2004). "Validity index for crisp and fuzzy clusters". Pattern Recognition. 37 (3): 487–501. doi:10.1016/j.patcog.2003.06.005.
  • Bezdek, J.C.; Pal, N.R. (1995). "Cluster validation with generalized Dunn's indices". Proceedings 1995 Second New Zealand International Two-Stream Conference on Artificial Neural Networks and Expert Systems. IEEE Xplore: 190–193. doi:10.1109/ANNES.1995.499469. ISBN 0-8186-7174-2.