हॉपकिंस सांख्यिकी: Difference between revisions

From Vigyanwiki
No edit summary
Line 1: Line 1:
हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा सेट की क्लस्टर प्रवृत्ति को मापने का एक तरीका है।<ref>{{Cite journal
'''हॉपकिंस सांख्यिकी''' (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा [[समुच्चय (गणित)|समुच्चय]] की क्लस्टर प्रवृत्ति को मापने का एक तरीका है।<ref>{{Cite journal
   | title = A new method for determining the type of distribution of plant individuals
   | title = A new method for determining the type of distribution of plant individuals
   | last1 = Hopkins | first1 = Brian
   | last1 = Hopkins | first1 = Brian
Line 9: Line 9:
   | year = 1954
   | year = 1954
   | publisher = Annals Botany Co
   | publisher = Annals Botany Co
| doi = 10.1093/oxfordjournals.aob.a083391 }}</ref> यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक सांख्यिकीय परिकल्पना परीक्षण के रूप में कार्य करता है जहां अशक्त परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है।<ref name="banerjee04">{{Cite journal
| doi = 10.1093/oxfordjournals.aob.a083391 }}</ref> यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक [[सांख्यिकीय इकाई|सांख्यिकीय]] परिकल्पना परीक्षण के रूप में कार्य करता है जहां अशक्त परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है।<ref name="banerjee04">{{Cite journal
  | last = Banerjee | first = A.
  | last = Banerjee | first = A.
  | title = Validating clusters using the Hopkins statistic
  | title = Validating clusters using the Hopkins statistic
Line 19: Line 19:
  | isbn = 0-7803-8353-2
  | isbn = 0-7803-8353-2
  | s2cid = 36701919
  | s2cid = 36701919
  }}</ref> 0 के करीब का मान इंगित करता है कि डेटा अत्यधिक क्लस्टर किया गया है और समान रूप से वितरित डेटा का परिणाम 0,5 के करीब होगा।<ref>{{Cite book|last=Aggarwal|first=Charu C.|url=http://link.springer.com/10.1007/978-3-319-14142-8|title=डेटा खनन|date=2015|publisher=Springer International Publishing|isbn=978-3-319-14141-1|location=Cham|pages=158|language=en|doi=10.1007/978-3-319-14142-8|s2cid=13595565 }}</ref>
  }}</ref> 0 के निकट का मान इंगित करता है कि डेटा अत्यधिक क्लस्टर किया गया है और समान रूप से वितरित डेटा का परिणाम 0,5 के निकट होगा।<ref>{{Cite book|last=Aggarwal|first=Charu C.|url=http://link.springer.com/10.1007/978-3-319-14142-8|title=डेटा खनन|date=2015|publisher=Springer International Publishing|isbn=978-3-319-14141-1|location=Cham|pages=158|language=en|doi=10.1007/978-3-319-14142-8|s2cid=13595565 }}</ref>


==प्रारंभिक==
==प्रारंभिक==
Line 25: Line 25:
हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।<ref name="banerjee04"/>
हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।<ref name="banerjee04"/>


:होने देना <math>X</math> का सेट हो <math>n</math> डेटा अंक।
:मान लीजिए <math>X</math> <math>n</math> डेटा बिंदुओं का समुच्चय है।
:एक यादृच्छिक नमूना उत्पन्न करें <math>\overset{\sim}{X}</math> का <math>m \ll n</math> प्रतिस्थापन के बिना डेटा बिंदुओं का नमूना लिया गया <math>X</math>.
:<math>\overset{\sim}{X}</math> से प्रतिस्थापन के बिना <math>m \ll n</math> नमूना किए गए डेटा बिंदुओं का एक यादृच्छिक नमूना <math>X</math> उत्पन्न करें।
:एक सेट तैयार करें <math>Y</math> का <math>m</math> समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदु।
:<math>m</math> समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदुओं का एक समुच्चय Y उत्पन्न करें।
:दो दूरी माप परिभाषित करें,
:
::<math>u_i,</math> की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)। <math>y_i \in Y</math> में अपने निकटतम पड़ोसी के लिए <math>X</math>, और
:
::<math>w_i,</math> की न्यूनतम दूरी <math>\overset{\sim}{x}_i \in \overset{\sim}{X}\subseteq X</math> अपने निकटतम पड़ोसी को <math>x_j \in X,\, \overset{\sim}{x_i}\ne x_j.</math>
:दूरी के दो माप परिभाषित करें,
::<math>u_i,</math> की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)। <math>y_i \in Y</math> में अपने निकटटतम नेइबोरिंग के लिए <math>X</math>, और
::<math>w_i,</math> की न्यूनतम दूरी <math>\overset{\sim}{x}_i \in \overset{\sim}{X}\subseteq X</math> अपने निकटटतम नेइबोरिंग को <math>x_j \in X,\, \overset{\sim}{x_i}\ne x_j.</math>


[[Category:Collapse templates]]
[[Category:Collapse templates]]
Line 48: Line 50:
<math>
<math>
H=\frac{\sum_{i=1}^m{u_i^d}}{\sum_{i=1}^m{u_i^d}+\sum_{i=1}^m{w_i^d}} \, </math>
H=\frac{\sum_{i=1}^m{u_i^d}}{\sum_{i=1}^m{u_i^d}+\sum_{i=1}^m{w_i^d}} \, </math>
शून्य परिकल्पनाओं के तहत, इस आँकड़े में बीटा(एम,एम) वितरण है।
शून्य परिकल्पनाओं के तहत, इस आँकड़े में बीटा(m,m) वितरण है।


== नोट्स और संदर्भ ==
== नोट्स और संदर्भ ==
Line 56: Line 58:
==बाहरी संबंध==
==बाहरी संबंध==
* http://www.sthda.com/english/wiki/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning
* http://www.sthda.com/english/wiki/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning
{{Machine learning evaluation metrics}}
[[Category: क्लस्टरिंग मानदंड]]  
[[Category: क्लस्टरिंग मानदंड]]  



Revision as of 18:55, 14 July 2023

हॉपकिंस सांख्यिकी (ब्रायन हॉपकिंस और जॉन गॉर्डन स्केलम द्वारा प्रस्तुत) डेटा समुच्चय की क्लस्टर प्रवृत्ति को मापने का एक तरीका है।[1] यह विरल नमूनाकरण परीक्षणों के परिवार से संबंधित है। यह एक सांख्यिकीय परिकल्पना परीक्षण के रूप में कार्य करता है जहां अशक्त परिकल्पना यह है कि डेटा एक पॉइसन बिंदु प्रक्रिया द्वारा उत्पन्न होता है और इस प्रकार समान रूप से यादृच्छिक रूप से वितरित किया जाता है।[2] 0 के निकट का मान इंगित करता है कि डेटा अत्यधिक क्लस्टर किया गया है और समान रूप से वितरित डेटा का परिणाम 0,5 के निकट होगा।[3]

प्रारंभिक

हॉपकिंस सांख्यिकी का एक विशिष्ट सूत्रीकरण इस प्रकार है।[2]

मान लीजिए डेटा बिंदुओं का समुच्चय है।
से प्रतिस्थापन के बिना नमूना किए गए डेटा बिंदुओं का एक यादृच्छिक नमूना उत्पन्न करें।
समान रूप से यादृच्छिक रूप से वितरित डेटा बिंदुओं का एक समुच्चय Y उत्पन्न करें।
दूरी के दो माप परिभाषित करें,
की न्यूनतम दूरी (कुछ उपयुक्त मीट्रिक दी गई है)। में अपने निकटटतम नेइबोरिंग के लिए , और
की न्यूनतम दूरी अपने निकटटतम नेइबोरिंग को

परिभाषा

उपरोक्त नोटेशन के साथ, यदि डेटा है आयामी, तो हॉपकिंस आँकड़ा इस प्रकार परिभाषित किया गया है:[4]

शून्य परिकल्पनाओं के तहत, इस आँकड़े में बीटा(m,m) वितरण है।

नोट्स और संदर्भ

  1. Hopkins, Brian; Skellam, John Gordon (1954). "A new method for determining the type of distribution of plant individuals". Annals of Botany. Annals Botany Co. 18 (2): 213–227. doi:10.1093/oxfordjournals.aob.a083391.
  2. 2.0 2.1 Banerjee, A. (2004). "Validating clusters using the Hopkins statistic". IEEE International Conference on Fuzzy Systems. 1: 149–153. doi:10.1109/FUZZY.2004.1375706. ISBN 0-7803-8353-2. S2CID 36701919.
  3. Aggarwal, Charu C. (2015). डेटा खनन (in English). Cham: Springer International Publishing. p. 158. doi:10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1. S2CID 13595565.
  4. Cross, G.R.; Jain, A.K. (1982). "क्लस्टरिंग प्रवृत्ति का मापन". Theory and Application of Digital Control: 315-320. doi:10.1016/B978-0-08-027618-2.50054-1.


बाहरी संबंध