मान-व्हिटनी यू परीक्षण

From Vigyanwiki
Revision as of 12:40, 31 May 2023 by alpha>Indicwiki (Created page with "{{italic title|string=U}} {{short description|Nonparametric test of the null hypothesis}} आँकड़ों में, मान-व्हिटनी ''यू'' परी...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

आँकड़ों में, मान-व्हिटनी यू परीक्षण (जिसे मान-व्हिटनी-विलकॉक्सन (MWW/MWU), विलकॉक्सन रैंक-सम टेस्ट या विलकॉक्सन-मान-व्हिटनी परीक्षण भी कहा जाता है) एक गैर पैरामीट्रिक सांख्यिकी सांख्यिकीय परिकल्पना परीक्षण है। अशक्त परिकल्पना कि, दो आबादी से यादृच्छिक रूप से चयनित मूल्यों X और Y के लिए, X की संभावना Y से अधिक होने की संभावना Y की संभावना के बराबर है 'X से बड़ा होना।

दो आश्रित नमूनों पर उपयोग किए जाने वाले गैर-पैरामीट्रिक परीक्षण साइन परीक्षण और विलकॉक्सन साइन-रैंक टेस्ट हैं।

धारणाएं और परिकल्पनाओं का औपचारिक बयान

हालांकि हेनरी मान और व्हिटनी[1]मान-व्हिटनी यू परीक्षण को वैकल्पिक परिकल्पना के साथ सतत संभाव्यता वितरण प्रतिक्रियाओं की धारणा के तहत विकसित किया गया है कि एक वितरण दूसरे की तुलना में स्टोचैस्टिक ऑर्डरिंग है, शून्य परिकल्पना और वैकल्पिक परिकल्पना तैयार करने के कई अन्य तरीके हैं जैसे मान-व्हिटनी यू परीक्षण एक वैध परीक्षण देगा।[2] एक बहुत ही सामान्य सूत्रीकरण यह मान लेना है कि:

  1. दोनों समूहों के सभी अवलोकन एक दूसरे की सांख्यिकीय स्वतंत्रता हैं,
  2. प्रतिक्रियाएँ कम से कम क्रमसूचक माप हैं (अर्थात्, कम से कम यह कह सकते हैं कि किन्हीं दो प्रेक्षणों में से कौन अधिक है),
  3. शून्य परिकल्पना के तहत एच0, दोनों आबादी का वितरण समान है।[3]
  4. वैकल्पिक परिकल्पना एच1 यह है कि वितरण समान नहीं हैं।

सामान्य सूत्रीकरण के तहत, परीक्षण केवल संगति (सांख्यिकी) # परीक्षण है जब निम्नलिखित एच के तहत होता है1:

  1. जनसंख्या X से अवलोकन की संभावना जनसंख्या Y से अवलोकन से अधिक है, Y से अवलोकन की संभावना X से अवलोकन से अधिक है; अर्थात।, P(X > Y) ≠ P(Y > X) या P(X > Y) + 0.5 · P(X = Y) ≠ 0.5.

उपरोक्त सामान्य सूत्रीकरण की तुलना में अधिक सख्त मान्यताओं के तहत, उदाहरण के लिए, यदि प्रतिक्रियाओं को निरंतर माना जाता है और विकल्प को स्थान परिवर्तन तक सीमित रखा जाता है, अर्थात, F1(x) = F2(x + δ), हम एक महत्वपूर्ण मान-व्हिटनी यू परीक्षण की व्याख्या माध्यिका में अंतर दिखाने के रूप में कर सकते हैं। इस स्थान परिवर्तन की धारणा के तहत, हम मान-व्हिटनी यू परीक्षण की व्याख्या यह आकलन करने के लिए भी कर सकते हैं कि क्या हॉजेस-लेहमैन दो आबादी के बीच केंद्रीय प्रवृत्ति में अंतर का अनुमान शून्य से अलग है। इस दो-नमूना समस्या के लिए होजेस-लेहमैन का अनुमान पहले नमूने में एक अवलोकन और दूसरे नमूने में एक अवलोकन के बीच सभी संभावित अंतरों का औसत है।

अन्यथा, यदि दोनों नमूनों के वितरण के फैलाव और आकार दोनों अलग-अलग हैं, तो मान-व्हिटनी यू परीक्षण माध्यिका के परीक्षण में विफल रहता है। ऐसे उदाहरण दिखाना संभव है जहां मध्यिकाएं संख्यात्मक रूप से बराबर हों, जबकि परीक्षण एक छोटे पी-मान के साथ शून्य परिकल्पना को अस्वीकार करता है।[4] [5] [6] मान-व्हिटनी यू टेस्ट / विलकॉक्सन रैंक-सम टेस्ट विलकॉक्सन साइन-रैंक टेस्ट के समान नहीं है | मान-व्हिटनी यू परीक्षण स्वतंत्र नमूनों पर लागू होता है। विलकॉक्सन हस्ताक्षरित-रैंक परीक्षण मिलान या आश्रित नमूनों पर लागू होता है।

यू आँकड़ा

होने देना एक स्वतंत्र और समान रूप से वितरित यादृच्छिक चर |i.i.d. से नमूना , और एक आई.आई.डी. से नमूना , और दोनों नमूने एक दूसरे से स्वतंत्र हैं। इसी मान-व्हिटनी यू सांख्यिकी को इस प्रकार परिभाषित किया गया है:

साथ


आरओसी वक्रों के लिए वक्र-अंडर-वक्र (एयूसी) आँकड़ा

यू आंकड़ा 'रिसीवर ऑपरेटिंग विशेषता वक्र के तहत क्षेत्र' (रिसीवर ऑपरेटिंग विशेषता # वक्र के तहत क्षेत्र) के बराबर है जिसे आसानी से गणना की जा सकती है।[7][8]

ध्यान दें कि यह उपरोक्त अनुभाग से सामान्य भाषा प्रभाव आकार के समान परिभाषा है। यानी: संभावना है कि एक क्लासिफायरियर यादृच्छिक रूप से चुने गए नकारात्मक से अधिक यादृच्छिक रूप से चुने गए सकारात्मक उदाहरण को रैंक करेगा (मान लें कि 'सकारात्मक' रैंक 'नकारात्मक' से अधिक है)।[9] इसके संभाव्य रूप के कारण, U सांख्यिकी को दो से अधिक वर्गों के लिए क्लासिफायर की पृथक्करण शक्ति के माप के लिए सामान्यीकृत किया जा सकता है:[10]

जहाँ c वर्गों की संख्या है, और Rk, एयूसी की अवधिk, वर्ग k और ℓ से संबंधित वस्तुओं की केवल रैंकिंग पर विचार करता है (अर्थात, अन्य सभी वर्गों से संबंधित वस्तुओं को अनदेखा कर दिया जाता है) क्लासिफायर के वर्ग k से संबंधित उन वस्तुओं की संभावना के अनुमान के अनुसार। एयूसीk,k हमेशा शून्य रहेगा लेकिन, दो-वर्ग के मामले के विपरीत, आम तौर पर AUCk, ≠ AUC,k, यही कारण है कि एयूसी के औसत का उपयोग करके एम माप सभी (के, ℓ) जोड़े पर योग करता हैk, और एयूसी,k.

गणना

परीक्षण में एक आंकड़े की गणना शामिल है, जिसे आमतौर पर यू कहा जाता है, जिसका वितरण शून्य परिकल्पना के तहत जाना जाता है। छोटे नमूनों के मामले में, वितरण सारणीबद्ध है, लेकिन ~20 से ऊपर के नमूने के आकार के लिए, सामान्य वितरण का उपयोग करके सन्निकटन काफी अच्छा है। कुछ पुस्तकें यू के समतुल्य आँकड़ों को सारणीबद्ध करती हैं, जैसे कि यू के बजाय नमूनों में से एक में रैंक (सेट सिद्धांत) का योग।

मान-व्हिटनी यू परीक्षण सांख्यिकीय पैकेजों की सबसे आधुनिक सूची में शामिल है। यह आसानी से हाथ से भी गणना की जाती है, खासकर छोटे नमूनों के लिए। इसे करने के दो तरीके हैं।

'पहला तरीका:'

प्रेक्षणों के दो छोटे सेटों की तुलना करने के लिए, एक सीधा तरीका त्वरित है, और यू स्टेटिस्टिक के अर्थ में अंतर्दृष्टि देता है, जो सभी जोड़ीदार प्रतियोगिताओं में से जीत की संख्या से मेल खाता है (नीचे दिए गए उदाहरणों के तहत कछुआ और खरगोश का उदाहरण देखें)। एक सेट में प्रत्येक अवलोकन के लिए, दूसरे सेट में किसी भी अवलोकन पर यह पहला मान जीतने की संख्या की गणना करें (यदि यह पहला बड़ा है तो दूसरा मान हार जाता है)। किसी भी टाई के लिए 0.5 की गिनती करें। जीत और टाई का योग U है (अर्थात: ) पहले सेट के लिए। दूसरे सेट के लिए U विलोम है (अर्थात: ).

विधि दो:

बड़े नमूनों के लिए:

  1. सभी अवलोकनों के लिए संख्यात्मक रैंक असाइन करें (दोनों समूहों से अवलोकनों को एक सेट में रखें), सबसे छोटे मान के लिए 1 से शुरू करें। जहां बंधे हुए मूल्यों के समूह हैं, असमायोजित रैंकिंग के मध्य बिंदु के बराबर एक रैंक असाइन करें (उदाहरण के लिए, की रैंक (3, 5, 5, 5, 5, 8) हैं (1, 3.5, 3.5, 3.5, 3.5, 6), जहां असमायोजित रैंक होगी (1, 2, 3, 4, 5, 6)).
  2. अब, नमूना 1 से प्राप्त टिप्पणियों के लिए रैंक जोड़ें। नमूना 2 में रैंकों का योग अब निर्धारित किया गया है, क्योंकि सभी रैंकों का योग बराबर है N(N + 1)/2 जहां N प्रेक्षणों की कुल संख्या है।
  3. यू तब दिया जाता है:[11]
जहां एन1 नमूना 1 के लिए नमूना आकार है, और आर1 नमूना 1 में रैंकों का योग है।
ध्यान दें कि इससे कोई फर्क नहीं पड़ता कि दो नमूनों में से कौन सा नमूना माना जाता है 1. U के लिए एक समान रूप से मान्य सूत्र है
U का छोटा मान1 और आप2 महत्व सारणी से परामर्श करते समय उपयोग किया जाता है। दो मानों का योग द्वारा दिया गया है
जानते हुए भी R1 + R2 = N(N + 1)/2 और N = n1 + n2, और कुछ बीजगणित करने पर, हम पाते हैं कि योग है
U1 + U2 = n1n2.

गुण

यू का अधिकतम मूल्य दो नमूनों के लिए नमूना आकार का उत्पाद है (यानी: ). ऐसी स्थिति में, अन्य U 0 होगा।

उदाहरण

गणना विधियों का उदाहरण

मान लीजिए कि ईसप अपने द कछुआ और खरगोश से असंतुष्ट है जिसमें एक कछुआ एक दौड़ में एक खरगोश को हरा पाया था, और यह पता लगाने के लिए कि क्या परिणाम सामान्य रूप से कछुओं और खरगोशों तक बढ़ाए जा सकते हैं, एक महत्व परीक्षण करने का फैसला करता है। वह 6 कछुओं और 6 खरगोशों का एक नमूना इकट्ठा करता है, और उन सभी को एक ही बार में अपनी दौड़ में लगा देता है। जिस क्रम में वे फिनिशिंग पोस्ट तक पहुँचते हैं (उनका रैंक ऑर्डर, फिनिश लाइन को पार करने वाली पहली से आखिरी तक) इस प्रकार है, एक कछुए के लिए टी और एक खरगोश के लिए एच लिखना:

टी एच एच एच एच एच टी टी टी टी टी टी एच

यू का मान क्या है?

  • प्रत्यक्ष विधि का उपयोग करते हुए, हम प्रत्येक कछुए को बारी-बारी से लेते हैं, और 6, 1, 1, 1, 1, 1 प्राप्त करने वाले खरगोशों की संख्या की गणना करते हैं, जिसका अर्थ है कि UT = 11. वैकल्पिक रूप से, हम प्रत्येक खरगोश को बारी-बारी से ले सकते हैं, और यह गिन सकते हैं कि यह कितने कछुओं को हराता है। इस मामले में, हमें 5, 5, 5, 5, 5, 0, इसलिए मिलता है UH = 25. ध्यान दें कि इन दो मानों का योग के लिए U = 36, जो है 6×6.
  • अप्रत्यक्ष विधि का उपयोग करना:
जानवरों को पाठ्यक्रम पूरा करने में लगने वाले समय तक रैंक दें, इसलिए पहले जानवर को होम रैंक 12, दूसरे रैंक को 11 और इसी तरह आगे दें।
कछुओं द्वारा प्राप्त रैंकों का योग है 12 + 6 + 5 + 4 + 3 + 2 = 32.
इसलिए UT = 32 − (6×7)/2 = 32 − 21 = 11 (विधि एक के समान)।
खरगोशों द्वारा प्राप्त रैंकों का योग है 11 + 10 + 9 + 8 + 7 + 1 = 46, के लिए अग्रणी UH = 46 − 21 = 25.
|date=24 July 2015 |publisher=The Scipy community |access-date=11 September 2015 |quote=scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.}}</ref>

इतिहास

आँकड़ा 1914 के एक लेख में दिखाई दिया[14] जर्मन गुस्ताव ड्यूक्लर द्वारा (विचरण में लापता शब्द के साथ)।

1945 में एक एकल पत्र में, फ्रैंक विलकॉक्सन ने प्रस्तावित किया था [15] एक-नमूना हस्ताक्षरित रैंक और दो-नमूना रैंक योग परीक्षण, इसके पूरक विकल्प के खिलाफ एक बिंदु शून्य-परिकल्पना के साथ महत्व के परीक्षण में (यानी, बराबर बनाम बराबर नहीं)। हालाँकि, उन्होंने उस पेपर में समान-नमूना आकार के मामले के लिए केवल कुछ बिंदुओं को सारणीबद्ध किया (हालांकि बाद के एक पेपर में उन्होंने बड़ी टेबल दी)।

आँकड़ों का गहन विश्लेषण, जिसमें आठ या उससे कम के नमूने के आकार के लिए मनमाना नमूना आकार और तालिकाओं के लिए पूंछ की संभावनाओं की गणना की अनुमति देने वाली पुनरावृत्ति शामिल थी, हेनरी मान और उनके छात्र द्वारा लेख में दिखाई दिया। 1947 में डोनाल्ड रैनसम व्हिटनी।[1] इस लेख में वैकल्पिक परिकल्पनाओं पर चर्चा की गई है, जिसमें एक स्टोकेस्टिक ऑर्डरिंग शामिल है (जहां संचयी वितरण कार्य बिंदुवार असमानता को संतुष्ट करते हैं FX(t) < FY(t)). इस पेपर ने पहले चार क्षणों की भी गणना की और अशक्त परिकल्पना के तहत सांख्यिकी की सीमित सामान्यता को स्थापित किया, ताकि यह स्थापित हो सके कि यह असमान रूप से वितरण-मुक्त है।

यह भी देखें

  • लेपेज परीक्षण
  • कुकोनी परीक्षण
  • कोलमोगोरोव-स्मिर्नोव परीक्षण
  • विलकॉक्सन साइन-रैंक टेस्ट
  • क्रुस्कल-वालिस विचरण का एकतरफा विश्लेषण
  • ब्रूनर-मुंजेल परीक्षण
  • आनुपातिक बाधाओं मॉडल

टिप्पणियाँ

  1. 1.0 1.1 Mann, Henry B.; Whitney, Donald R. (1947). "दो रैंडम वेरिएबल्स में से एक दूसरे की तुलना में स्टोचैस्टिक रूप से बड़ा है या नहीं, इसके परीक्षण पर". Annals of Mathematical Statistics. 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058. Zbl 0041.26103.
  2. Fay, Michael P.; Proschan, Michael A. (2010). "Wilcoxon–Mann–Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules". Statistics Surveys. 4: 1–39. doi:10.1214/09-SS051. MR 2595125. PMC 2857732. PMID 20414472.
  3. [1], See Table 2.1 of Pratt (1964) "Robustness of Some Procedures for the Two-Sample Location Problem." Journal of the American Statistical Association. 59 (307): 655–680. If the two distributions are normal with the same mean but different variances, then Pr[X > Y] = Pr[Y < X] but the size of the Mann–Whitney test can be larger than the nominal level. So we cannot define the null hypothesis as Pr[X > Y] = Pr[Y < X] and get a valid test.
  4. Divine, George W.; Norton, H. James; Barón, Anna E.; Juarez-Colunga, Elizabeth (2018). "The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians". The American Statistician. 72 (3): 278–286. doi:10.1080/00031305.2017.1305291.
  5. Conroy, Ronán (2012). "What Hypotheses do "Nonparametric" Two-Group Tests Actually Test?". Stata Journal. 12 (2): 182–190. doi:10.1177/1536867X1201200202. S2CID 118445807. Retrieved 24 May 2021.
  6. Hart, Anna (2001). "Mann–Whitney test is not just a test of medians: differences in spread can be important". BMJ. 323 (7309): 391–393. doi:10.1136/bmj.323.7309.391.
  7. Hanley, James A.; McNeil, Barbara J. (1982). "एक रिसीवर ऑपरेटिंग (आरओसी) वक्र विशेषता के तहत क्षेत्र का अर्थ और उपयोग". Radiology. 143 (1): 29–36. doi:10.1148/radiology.143.1.7063747. PMID 7063747.
  8. Mason, Simon J.; Graham, Nicholas E. (2002). "Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation" (PDF). Quarterly Journal of the Royal Meteorological Society. 128 (584): 2145–2166. Bibcode:2002QJRMS.128.2145M. CiteSeerX 10.1.1.458.8392. doi:10.1256/003590002320603584. S2CID 121841664.
  9. Fawcett, Tom (2006); An introduction to ROC analysis, Pattern Recognition Letters, 27, 861–874.
  10. Hand, David J.; Till, Robert J. (2001). "एकाधिक वर्ग वर्गीकरण समस्याओं के लिए आरओसी वक्र के तहत क्षेत्र का एक सरल सामान्यीकरण". Machine Learning. 45 (2): 171–186. doi:10.1023/A:1010920819831.
  11. Zar, Jerrold H. (1998). बायोस्टैटिस्टिकल विश्लेषण. New Jersey: Prentice Hall International, INC. p. 147. ISBN 978-0-13-082390-8.
  12. "MannWhitneyUTest (Apache Commons Math 3.3 API)". commons.apache.org.
  13. "JuliaStats/HypothesisTests.jl". GitHub. 30 May 2021.
  14. Kruskal, William H. (September 1957). "विलकॉक्सन अनपेयर्ड टू-सैंपल टेस्ट पर ऐतिहासिक नोट्स". Journal of the American Statistical Association. 52 (279): 356–360. doi:10.2307/2280906. JSTOR 2280906.
  15. Wilcoxon, Frank (1945). "रैंकिंग विधियों द्वारा व्यक्तिगत तुलना". Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.
Cite error: <ref> tag with name "H1976" defined in <references> is not used in prior text.


संदर्भ


बाहरी संबंध