हॉपकिंस सांख्यिकी: Difference between revisions

Revision as of 18:44, 14 July 2023

हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा सेट की क्लस्टर प्रवृत्ति को मापने का एक तरीका है।^[1] यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक सांख्यिकीय परिकल्पना परीक्षण के रूप में कार्य करता है जहां अशक्त परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है।^[2] 0 के करीब का मान इंगित करता है कि डेटा अत्यधिक क्लस्टर किया गया है और समान रूप से वितरित डेटा का परिणाम 0,5 के करीब होगा।^[3]

प्रारंभिक

हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।^[2]:

होने देना $X$ का सेट हो $n$ डेटा अंक।

एक यादृच्छिक नमूना उत्पन्न करें

{\overset {\sim }{X}}

का

m\ll n

प्रतिस्थापन के बिना डेटा बिंदुओं का नमूना लिया गया

X

.

एक सेट तैयार करें

Y

का

m

समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदु।

दो दूरी माप परिभाषित करें,

u_{i},

की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)।

y_{i}\in Y

में अपने निकटतम पड़ोसी के लिए

X

, और

w_{i},

की न्यूनतम दूरी

{\overset {\sim }{x}}_{i}\in {\overset {\sim }{X}}\subseteq X

अपने निकटतम पड़ोसी को

x_{j}\in X,\,{\overset {\sim }{x_{i}}}\neq x_{j}.

परिभाषा

उपरोक्त नोटेशन के साथ, यदि डेटा है $d$ आयामी, तो हॉपकिंस आँकड़ा इस प्रकार परिभाषित किया गया है:^[4]

$H={\frac {\sum _{i=1}^{m}{u_{i}^{d}}}{\sum _{i=1}^{m}{u_{i}^{d}}+\sum _{i=1}^{m}{w_{i}^{d}}}}\,$ शून्य परिकल्पनाओं के तहत, इस आँकड़े में बीटा(एम,एम) वितरण है।

नोट्स और संदर्भ

↑ Hopkins, Brian; Skellam, John Gordon (1954). "A new method for determining the type of distribution of plant individuals". Annals of Botany. Annals Botany Co. 18 (2): 213–227. doi:10.1093/oxfordjournals.aob.a083391.
↑ ^2.0 ^2.1 Banerjee, A. (2004). "Validating clusters using the Hopkins statistic". IEEE International Conference on Fuzzy Systems. 1: 149–153. doi:10.1109/FUZZY.2004.1375706. ISBN 0-7803-8353-2. S2CID 36701919.
↑ Aggarwal, Charu C. (2015). डेटा खनन (in English). Cham: Springer International Publishing. p. 158. doi:10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1. S2CID 13595565.
↑ Cross, G.R.; Jain, A.K. (1982). "क्लस्टरिंग प्रवृत्ति का मापन". Theory and Application of Digital Control: 315-320. doi:10.1016/B978-0-08-027618-2.50054-1.

बाहरी संबंध

http://www.sthda.com/english/wiki/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning

[1] Hopkins, Brian; Skellam, John Gordon (1954). "A new method for determining the type of distribution of plant individuals". Annals of Botany. Annals Botany Co. 18 (2): 213–227. doi:10.1093/oxfordjournals.aob.a083391.

[banerjee04-2] 2.0 ^2.1 Banerjee, A. (2004). "Validating clusters using the Hopkins statistic". IEEE International Conference on Fuzzy Systems. 1: 149–153. doi:10.1109/FUZZY.2004.1375706. ISBN 0-7803-8353-2. S2CID 36701919.

[3] Aggarwal, Charu C. (2015). डेटा खनन (in English). Cham: Springer International Publishing. p. 158. doi:10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1. S2CID 13595565.

[4] Cross, G.R.; Jain, A.K. (1982). "क्लस्टरिंग प्रवृत्ति का मापन". Theory and Application of Digital Control: 315-320. doi:10.1016/B978-0-08-027618-2.50054-1.

[1]

[2]

[3]

[4]

@@ Line 1: / Line 1: @@
-हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और [[जॉन गॉर्डन स्केलम]] द्वारा प्रस्तुत) डेटा सेट की [[क्लस्टर प्रवृत्ति]] को मापने का एक तरीका है।<ref>{{Cite journal
+हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा सेट की क्लस्टर प्रवृत्ति को मापने का एक तरीका है।<ref>{{Cite journal
    | title = A new method for determining the type of distribution of plant individuals
    | last1 = Hopkins | first1 = Brian
@@ Line 9: / Line 9: @@
    | year = 1954
    | publisher = Annals Botany Co
-| doi = 10.1093/oxfordjournals.aob.a083391 }}</ref> यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक [[सांख्यिकीय परिकल्पना परीक्षण]] के रूप में कार्य करता है जहां [[शून्य परिकल्पना]] यह है कि डेटा एक [[पॉइसन बिंदु प्रक्रिया]] द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है।<ref name="banerjee04">{{Cite journal
+| doi = 10.1093/oxfordjournals.aob.a083391 }}</ref> यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक सांख्यिकीय परिकल्पना परीक्षण के रूप में कार्य करता है जहां अशक्त परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है।<ref name="banerjee04">{{Cite journal
   | last = Banerjee | first = A.
   | title = Validating clusters using the Hopkins statistic
@@ Line 19: / Line 19: @@
   | isbn = 0-7803-8353-2
   | s2cid = 36701919
-  }}</ref> 0 के करीब का मान यह दर्शाता है कि डेटा अत्यधिक क्लस्टर्ड है और समान रूप से वितरित डेटा का परिणाम 0,5 के करीब होगा।<ref>{{Cite book|last=Aggarwal|first=Charu C.|url=http://link.springer.com/10.1007/978-3-319-14142-8|title=डेटा खनन|date=2015|publisher=Springer International Publishing|isbn=978-3-319-14141-1|location=Cham|pages=158|language=en|doi=10.1007/978-3-319-14142-8|s2cid=13595565 }}</ref>
+  }}</ref> 0 के करीब का मान इंगित करता है कि डेटा अत्यधिक क्लस्टर किया गया है और समान रूप से वितरित डेटा का परिणाम 0,5 के करीब होगा।<ref>{{Cite book|last=Aggarwal|first=Charu C.|url=http://link.springer.com/10.1007/978-3-319-14142-8|title=डेटा खनन|date=2015|publisher=Springer International Publishing|isbn=978-3-319-14141-1|location=Cham|pages=158|language=en|doi=10.1007/978-3-319-14142-8|s2cid=13595565 }}</ref>
+==प्रारंभिक==
-==प्रारंभिक==
+हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।<ref name="banerjee04"/>:<blockquote>होने देना <math>X</math> का सेट हो <math>n</math> डेटा अंक।
-हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।<ref name="banerjee04"/>:होने देना <math>X</math> का सेट हो <math>n</math> डेटा अंक।
+</blockquote>
 :एक यादृच्छिक नमूना उत्पन्न करें <math>\overset{\sim}{X}</math> का <math>m \ll n</math> प्रतिस्थापन के बिना डेटा बिंदुओं का नमूना लिया गया <math>X</math>.
 :एक सेट तैयार करें <math>Y</math> का <math>m</math> समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदु।

v t e Machine learning evaluation metrics
Regression	MSE · MAE · sMAPE · MAPE · MASE · MSPE · RMS · RMSE/RMSD · R2 · MDA · MAD
Classification	F-score · P4 · Accuracy · Precision · Recall · Kappa · MCC · AUC · ROC · Sensitivity and specificity · Logarithmic Loss
Clustering	Silhouette · Calinski-Harabasz · Davies-Bouldin · Dunn index · Hopkins statistic · Jaccard index · Rand index · Similarity measure · SMC · SimHash
Ranking	MRR · DCG · NDCG · AP
Computer Vision	PSNR · SSIM · IoU
NLP	Perplexity · BLEU
Deep Learning Related Metrics	Inception score · FID
Recommender system	Coverage · Intra-list Similarity
Similarity	Cosine similarity · Euclidean distance · Pearson correlation coefficient
Confusion matrix

Anonymous

Search

हॉपकिंस सांख्यिकी: Difference between revisions

Namespaces

More

Page actions

Revision as of 18:44, 14 July 2023

Contents

प्रारंभिक

परिभाषा

नोट्स और संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

हॉपकिंस सांख्यिकी: Difference between revisions

Revision as of 18:44, 14 July 2023

प्रारंभिक

परिभाषा

नोट्स और संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories