रैंड इंडेक्स: Difference between revisions

Revision as of 11:48, 19 April 2023

K- साधन गुच्छन (बाएं) और अवकृष्ट स्थानान्तरण (दाएं) कलन विधि वाले आँकड़ेसम्मुच्चय के लिए उदाहरण गुच्छन। इन दो गुच्छन के लिए परिकलित समायोजित रैंड इंडेक्स है

ARI\approx 0.94

रैंड इंडेक्स^[1] या स्थैतिकी में रैंड माप (विलियम एम. रैंड के नाम पर), और विशेष रूप से आँकड़े गुच्छन में, दो आँकड़े गुच्छन के बीच समानता का एक उपाय है। रैंड इंडेक्स का एक रूप परिभाषित किया जा सकता है जो तत्वों का संयोग समूहन के लिए समायोजित किया जाता है, यह समायोजित रैंड इंडेक्स है। गणितीय दृष्टिकोण से, रैंड इंडेक्स सटीकता से संबंधित है, लेकिन तब भी लागू होता है जब श्रेणी वर्गीकरण का उपयोग नहीं किया जाता है।

रैंड इंडेक्स

परिभाषा

$n$ तत्वों के एक सम्मुच्चय को देखते हुए $S=\{o_{1},\ldots ,o_{n}\}$ और तुलना करने के लिए $S$ के दो विभाजन, $X=\{X_{1},\ldots ,X_{r}\}$ उपसम्मुच्चय में S का एक विभाजन, और Y = \ $Y=\{Y_{1},\ldots ,Y_{s}\}$ , s उपसमुच्चयों में S का विभाजन, निम्नलिखित को परिभाषित करें:

$a$ , $S$ में तत्वों के जोड़े की संख्या जो $X$ में एक ही उपसमुच्चय में और $Y$ में एक ही उपसमुच्चय में हैं
$b$ , $S$ में तत्वों के जोड़े की संख्या जो $X$ में अलग-अलग उपसमुच्चय में और $Y$ में अलग-अलग उपसमुच्चय में हैं
$c$ , $S$ में तत्वों के जोड़े की संख्या जो $X$ में एक ही उपसमुच्चय में और $Y$ में विभिन्न उपसमुच्चय में हैं
$d$ , $S$ में तत्वों के जोड़े की संख्या जो $X$ में विभिन्न उपसमुच्चय में हैं और $Y$ में एक ही उपसमुच्चय में हैं

रैंड सूचकांक, $R$ , है:^[1]^[2]

R={\frac {a+b}{a+b+c+d}}={\frac {a+b}{n \choose 2}}

सहज रूप से, $a+b$ के बीच समझौतों की संख्या $X$ और $Y$ के रूप में माना जा सकता है और $c+d$ के बीच असहमति की संख्या के रूप में $X$ और $Y$ है

चूंकि भाजक जोड़े की कुल संख्या है, रैंड इंडेक्स कुल जोड़े पर समझौतों की घटना की आवृत्ति का प्रतिनिधित्व करता है, या संभावना है कि $X$ और $Y$ यादृच्छिक रूप से चुने गए जोड़े पर सहमत होंगे .

${n \choose 2}$ की गणना $n(n-1)/2$ के रूप में की जाती है।

इसी तरह, रैंड इंडेक्स को कलन विधि द्वारा किए गए सही निर्णयों के प्रतिशत के माप के रूप में भी देखा जा सकता है। इसकी गणना निम्न सूत्र का उपयोग करके की जा सकती है:

RI={\frac {TP+TN}{TP+FP+FN+TN}}

जहाँ

TP

वास्तविक सकारात्मक की संख्या है,

TN

वास्तविक नकारात्मक की संख्या है,

FP

मिथ्या नकारात्मक की संख्या है, और

FN

मिथ्या नकारात्मक की संख्या है।

गुण

रैंड इंडेक्स में 0 और 1 के बीच का मान होता है, जिसमें 0 यह दर्शाता है कि दो आँकड़े गुच्छन किसी भी जोड़ी के बिंदुओं पर सहमत नहीं हैं और 1 यह दर्शाता है कि आँकड़े गुच्छन बिल्कुल समान हैं।

गणितीय शब्दों में, a, b, c, d को निम्नानुसार परिभाषित किया गया है:

$a=|S^{*}|$ , जहाँ $S^{*}=\{(o_{i},o_{j})\mid o_{i},o_{j}\in X_{k},o_{i},o_{j}\in Y_{l}\}$
$b=|S^{*}|$ , जहाँ $S^{*}=\{(o_{i},o_{j})\mid o_{i}\in X_{k_{1}},o_{j}\in X_{k_{2}},o_{i}\in Y_{l_{1}},o_{j}\in Y_{l_{2}}\}$
$c=|S^{*}|$ , जहाँ $S^{*}=\{(o_{i},o_{j})\mid o_{i},o_{j}\in X_{k},o_{i}\in Y_{l_{1}},o_{j}\in Y_{l_{2}}\}$
$d=|S^{*}|$ , जहाँ $S^{*}=\{(o_{i},o_{j})\mid o_{i}\in X_{k_{1}},o_{j}\in X_{k_{2}},o_{i},o_{j}\in Y_{l}\}$

कुछ $1\leq i,j\leq n,i\neq j,1\leq k,k_{1},k_{2}\leq r,k_{1}\neq k_{2},1\leq l,l_{1},l_{2}\leq s,l_{1}\neq l_{2}$ के लिए है।

वर्गीकरण सटीकता के साथ संबंध

रैंड इंडेक्स को तत्वों के जोड़े पर युग्मक वर्गीकरण सटीकता के वर्णक्रम $S$ के माध्यम से भी देखा जा सकता है। $o_{i}$ और $o_{j}$ दो वर्ग वर्गीकृत हैं और $X$ और $Y$ में एक ही उपसमुच्चय में हैं और $o_{i}$ और $o_{j}$ $X$ और $Y$ में विभिन्न उपसमुच्चयों में हैं।

उस समायोजन में, $a$ एक ही उपसमुच्चय (वास्तविक सकारात्मक) से संबंधित सही ढंग से वर्गीकृत किए गए जोड़े की संख्या है, और $b$ अलग-अलग उपसमुच्चय (वास्तविक नकारात्मक) से संबंधित सही ढंग से वर्गीकृत किए गए जोड़े की संख्या है।

समायोजित रैंड इंडेक्स

समायोजित रैंड इंडेक्स रैंड इंडेक्स का संयोग-संशोधित संस्करण है।^[1]^[2]^[3] मौके के लिए इस तरह का सुधार यादृच्छिक प्रतिरूप द्वारा निर्दिष्ट गुच्छन के बीच सभी जोड़ी-वार तुलनाओं की अपेक्षित समानता का उपयोग करके आधार रेखा स्थापित करता है। परंपरागत रूप से, रैंड इंडेक्स को गुच्छन के लिए क्रमचय प्रतिरूप का उपयोग करके ठीक किया गया था (गुच्छन के भीतर गुच्छन की संख्या और आकार निश्चित हैं, और सभी यादृच्छिक गुच्छन निश्चित समूहों के बीच तत्वों को समवकुलन करके उत्पन्न होते हैं)। हालाँकि, क्रमचय प्रतिरूप के परिसर का प्रायः उल्लंघन किया जाता है; कई गुच्छन परिदृश्यों में, या तो गुच्छन की संख्या या उन गुच्छन के आकार वितरण में भारी अंतर होता है। उदाहरण के लिए, विचार करें कि K- साधन व्यवसायी द्वारा समूहों की संख्या तय की जाती है, लेकिन उन समूहों के आकार आंकड़ों से अनुमानित होते हैं। यादृच्छिक गुच्छन के विभिन्न प्रतिरूपों के लिए समायोजित रैंड इंडेक्स खाते की विविधताएं।^[4]

हालांकि रैंड इंडेक्स केवल 0 और +1 के बीच एक मान उत्पन्न कर सकता है, यदि इंडेक्स अपेक्षित इंडेक्स से कम है तो समायोजित रैंड इंडेक्स नकारात्मक मान प्राप्त कर सकता है।^[5]

आकस्मिक इंडेक्स

n तत्वों का एक समुच्चय S दिया है, और इन तत्वों के दो समूह या विभाजन (जैसे गुच्छन), अर्थात् $X=\{X_{1},X_{2},\ldots ,X_{r}\}$ और $Y=\{Y_{1},Y_{2},\ldots ,Y_{s}\}$ , के बीच अतिछादित $X$ और $Y$ आकस्मिक इंडेक्स $\left[n_{ij}\right]$ में सारांशित किया जा सकता है जहां प्रत्येक प्रविष्टि $n_{ij}$ $X_{i}$ और $Y_{j}$ के बीच सामान्य वस्तुओं की संख्या को दर्शाती है: $n_{ij}=|X_{i}\cap Y_{j}|$

{\begin{array}{c|cccc|c}{{} \atop X}\!\diagdown \!^{Y}&Y_{1}&Y_{2}&\cdots &Y_{s}&{\text{sums}}\\\hline X_{1}&n_{11}&n_{12}&\cdots &n_{1s}&a_{1}\\X_{2}&n_{21}&n_{22}&\cdots &n_{2s}&a_{2}\\\vdots &\vdots &\vdots &\ddots &\vdots &\vdots \\X_{r}&n_{r1}&n_{r2}&\cdots &n_{rs}&a_{r}\\\hline {\text{sums}}&b_{1}&b_{2}&\cdots &b_{s}&\end{array}}

परिभाषा

क्रमपरिवर्तन प्रतिरूप का उपयोग कर मूल समायोजित रैंड इंडेक्स है

ARI={\frac {\left.\sum _{ij}{\binom {n_{ij}}{2}}-\left[\sum _{i}{\binom {a_{i}}{2}}\sum _{j}{\binom {b_{j}}{2}}\right]\right/{\binom {n}{2}}}{\left.{\frac {1}{2}}\left[\sum _{i}{\binom {a_{i}}{2}}+\sum _{j}{\binom {b_{j}}{2}}\right]-\left[\sum _{i}{\binom {a_{i}}{2}}\sum _{j}{\binom {b_{j}}{2}}\right]\right/{\binom {n}{2}}}}

जहाँ $n_{ij},a_{i},b_{j}$ आकस्मिक इंडेक्स से मान हैं।

यह भी देखें

सरल मिलान गुणांक

संदर्भ

↑ ^1.0 ^1.1 ^1.2 W. M. Rand (1971). "Objective criteria for the evaluation of clustering methods". Journal of the American Statistical Association. American Statistical Association. 66 (336): 846–850. doi:10.2307/2284239. JSTOR 2284239.
↑ ^2.0 ^2.1 Lawrence Hubert and Phipps Arabie (1985). "Comparing partitions". Journal of Classification. 2 (1): 193–218. doi:10.1007/BF01908075.
↑ Nguyen Xuan Vinh, Julien Epps and James Bailey (2009). "Information Theoretic Measures for Clustering Comparison: Is a Correction for Chance Necessary?" (PDF). ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning. ACM. pp. 1073–1080.PDF.
↑ Alexander J Gates and Yong-Yeol Ahn (2017). "क्लस्टरिंग समानता पर रैंडम मॉडल का प्रभाव" (PDF). Journal of Machine Learning Research. 18: 1–28.
↑ "क्लस्टरिंग की तुलना - एक सिंहावलोकन" (PDF).

बाहरी संबंध

C++ implementation with MATLAB mex files

[rand71-1] 1.0 ^1.1 ^1.2 W. M. Rand (1971). "Objective criteria for the evaluation of clustering methods". Journal of the American Statistical Association. American Statistical Association. 66 (336): 846–850. doi:10.2307/2284239. JSTOR 2284239.

[hb85-2] 2.0 ^2.1 Lawrence Hubert and Phipps Arabie (1985). "Comparing partitions". Journal of Classification. 2 (1): 193–218. doi:10.1007/BF01908075.

[3] Nguyen Xuan Vinh, Julien Epps and James Bailey (2009). "Information Theoretic Measures for Clustering Comparison: Is a Correction for Chance Necessary?" (PDF). ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning. ACM. pp. 1073–1080.PDF.

[ga17-4] Alexander J Gates and Yong-Yeol Ahn (2017). "क्लस्टरिंग समानता पर रैंडम मॉडल का प्रभाव" (PDF). Journal of Machine Learning Research. 18: 1–28.

[5] "क्लस्टरिंग की तुलना - एक सिंहावलोकन" (PDF).

[1]

[2]

[3]

[4]

[5]

@@ Line 141: / Line 141: @@
 == बाहरी संबंध ==
 * [https://github.com/bjoern-andres/partition-comparison C++ implementation with MATLAB mex files]
-[[Category: आकस्मिक तालिकाओं के लिए सारांश आँकड़े]] [[Category: क्लस्टरिंग मानदंड]]
-[[Category: Machine Translated Page]]
 [[Category:Created On 21/03/2023]]
-[[Category:Vigyan Ready]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Pages with script errors]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:आकस्मिक तालिकाओं के लिए सारांश आँकड़े]]
+[[Category:क्लस्टरिंग मानदंड]]

Anonymous

Search

रैंड इंडेक्स: Difference between revisions

Namespaces

More

Page actions

Revision as of 11:48, 19 April 2023

Contents

रैंड इंडेक्स

परिभाषा

गुण

वर्गीकरण सटीकता के साथ संबंध

समायोजित रैंड इंडेक्स

आकस्मिक इंडेक्स

परिभाषा

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

रैंड इंडेक्स: Difference between revisions

Revision as of 11:48, 19 April 2023

रैंड इंडेक्स

परिभाषा

गुण

वर्गीकरण सटीकता के साथ संबंध

समायोजित रैंड इंडेक्स

आकस्मिक इंडेक्स

परिभाषा

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories