रैंड इंडेक्स
रैंड इंडेक्स[1] या आँकड़ों में रैंड माप (विलियम एम. रैंड के नाम पर), और विशेष रूप से डेटा क्लस्टरिंग में, दो डेटा क्लस्टरिंग के बीच समानता का एक उपाय है। रैंड इंडेक्स का एक रूप परिभाषित किया जा सकता है जो तत्वों के मौका समूह के लिए समायोजित किया जाता है, यह समायोजित रैंड इंडेक्स है। गणितीय दृष्टिकोण से, रैंड इंडेक्स सटीकता और सटीकता से संबंधित है # बाइनरी वर्गीकरण में, लेकिन तब भी लागू होता है जब क्लास लेबल का उपयोग नहीं किया जाता है।
रैंड इंडेक्स
परिभाषा
का एक सेट (गणित) दिया गया है तत्व (गणित) और एक सेट के दो विभाजन तुलना करने के लिए, , S का r सबसेट में विभाजन, और , S का s उपसमुच्चय में विभाजन, निम्नलिखित को परिभाषित करें:
- , तत्वों के जोड़े की संख्या जो एक ही उपसमुच्चय में हैं और उसी उपसमुच्चय में
- , तत्वों के जोड़े की संख्या जो अलग-अलग उपसमुच्चय में हैं और विभिन्न उपसमुच्चय में
- , तत्वों के जोड़े की संख्या जो एक ही उपसमुच्चय में हैं और विभिन्न उपसमुच्चय में
- , तत्वों के जोड़े की संख्या जो अलग-अलग उपसमुच्चय में हैं और उसी उपसमुच्चय में
सहज रूप से, के बीच समझौतों की संख्या के रूप में माना जा सकता है और और के बीच असहमति की संख्या के रूप में और .
चूंकि भाजक जोड़े की कुल संख्या है, रैंड इंडेक्स घटना की आवृत्ति का प्रतिनिधित्व करता है कुल जोड़े पर समझौतों की, या संभावना है कि और बेतरतीब ढंग से चुनी गई जोड़ी पर सहमत होंगे।
के रूप में गणना की जाती है .
इसी तरह, रैंड इंडेक्स को एल्गोरिथम द्वारा किए गए सही निर्णयों के प्रतिशत के माप के रूप में भी देखा जा सकता है। इसकी गणना निम्न सूत्र का उपयोग करके की जा सकती है:
- कहाँ वास्तविक सकारात्मक की संख्या है, सच्चे नकारात्मक की संख्या है, झूठी सकारात्मक की संख्या है, और झूठे नकारात्मक की संख्या है।
गुण
रैंड इंडेक्स में 0 और 1 के बीच का मान होता है, जिसमें 0 यह दर्शाता है कि दो डेटा क्लस्टरिंग किसी भी जोड़ी के बिंदुओं पर सहमत नहीं हैं और 1 यह दर्शाता है कि डेटा क्लस्टरिंग बिल्कुल समान हैं।
गणितीय शब्दों में, ए, बी, सी, डी को निम्नानुसार परिभाषित किया गया है:
- , कहाँ
- , कहाँ
- , कहाँ
- , कहाँ
कुछ के लिए
वर्गीकरण सटीकता के साथ संबंध
रैंड इंडेक्स को तत्वों के जोड़े पर बाइनरी वर्गीकरण सटीकता के प्रिज्म के माध्यम से भी देखा जा सकता है . दो वर्ग लेबल हैं और में एक ही उपसमुच्चय में हैं और और और में विभिन्न उपसमुच्चयों में हैं और .
उस सेटिंग में, एक ही उपसमुच्चय (सही सकारात्मक) से संबंधित सही ढंग से लेबल किए गए जोड़े की संख्या है, और विभिन्न उपसमुच्चयों (सच्चे नकारात्मक) से संबंधित सही ढंग से लेबल किए गए जोड़े की संख्या है।
समायोजित रैंड इंडेक्स
समायोजित रैंड इंडेक्स रैंड इंडेक्स का सही-के-मौका संस्करण है।[1][2][3] मौके के लिए इस तरह का सुधार यादृच्छिक मॉडल द्वारा निर्दिष्ट क्लस्टरिंग के बीच सभी जोड़ी-वार तुलनाओं की अपेक्षित समानता का उपयोग करके आधार रेखा स्थापित करता है। परंपरागत रूप से, रैंड इंडेक्स को क्लस्टरिंग के लिए क्रमचय मॉडल का उपयोग करके ठीक किया गया था (क्लस्टरिंग के भीतर क्लस्टर्स की संख्या और आकार निश्चित हैं, और सभी यादृच्छिक क्लस्टरिंग निश्चित समूहों के बीच तत्वों को फेरबदल करके उत्पन्न होते हैं)। हालाँकि, क्रमचय मॉडल के परिसर का अक्सर उल्लंघन किया जाता है; कई क्लस्टरिंग परिदृश्यों में, या तो क्लस्टर्स की संख्या या उन क्लस्टर्स के आकार वितरण में भारी अंतर होता है। उदाहरण के लिए, विचार करें कि K- साधन क्लस्टरिंग में | K- साधन व्यवसायी द्वारा समूहों की संख्या तय की जाती है, लेकिन उन समूहों के आकार डेटा से अनुमानित होते हैं। यादृच्छिक क्लस्टरिंग के विभिन्न मॉडलों के लिए समायोजित रैंड इंडेक्स खाते की विविधताएं।[4] हालांकि रैंड इंडेक्स केवल 0 और +1 के बीच एक मान उत्पन्न कर सकता है, यदि इंडेक्स अपेक्षित इंडेक्स से कम है तो समायोजित रैंड इंडेक्स नकारात्मक मान प्राप्त कर सकता है।[5]
आकस्मिक तालिका
एक सेट दिया S का n तत्व, और इन तत्वों के दो समूह या विभाजन (जैसे क्लस्टरिंग), अर्थात् और , के बीच ओवरलैप X और Y आकस्मिक तालिका में सारांशित किया जा सकता है जहां प्रत्येक प्रविष्टि के बीच आम में वस्तुओं की संख्या को दर्शाता है और : .
परिभाषा
क्रमपरिवर्तन मॉडल का उपयोग कर मूल समायोजित रैंड इंडेक्स है
कहाँ आकस्मिक तालिका से मान हैं।
यह भी देखें
संदर्भ
- ↑ 1.0 1.1 1.2 W. M. Rand (1971). "Objective criteria for the evaluation of clustering methods". Journal of the American Statistical Association. American Statistical Association. 66 (336): 846–850. doi:10.2307/2284239. JSTOR 2284239.
- ↑ 2.0 2.1 Lawrence Hubert and Phipps Arabie (1985). "Comparing partitions". Journal of Classification. 2 (1): 193–218. doi:10.1007/BF01908075.
- ↑ Nguyen Xuan Vinh, Julien Epps and James Bailey (2009). "Information Theoretic Measures for Clustering Comparison: Is a Correction for Chance Necessary?" (PDF). ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning. ACM. pp. 1073–1080.PDF.
- ↑ Alexander J Gates and Yong-Yeol Ahn (2017). "क्लस्टरिंग समानता पर रैंडम मॉडल का प्रभाव" (PDF). Journal of Machine Learning Research. 18: 1–28.
- ↑ "क्लस्टरिंग की तुलना - एक सिंहावलोकन" (PDF).