मात्रात्मक सामान्यीकरण: Difference between revisions

Revision as of 11:02, 13 July 2023

सांख्यिकी में, क्वांटाइल सामान्यीकरण दो वितरणों को सांख्यिकीय गुणों में समान बनाने की एक तकनीक है। किसी परीक्षण वितरण को समान लंबाई के संदर्भ वितरण के लिए मात्रात्मक-सामान्यीकृत करने के लिए, परीक्षण वितरण को क्रमबद्ध करें और संदर्भ वितरण को क्रमबद्ध करें। परीक्षण वितरण में उच्चतम प्रविष्टि तब संदर्भ वितरण में उच्चतम प्रविष्टि का मान लेती है, संदर्भ वितरण में अगली उच्चतम प्रविष्टि, और इसी तरह, जब तक कि परीक्षण वितरण संदर्भ वितरण समस्या ना बन जाये।

संदर्भ वितरण के बिना, दो या दो से अधिक वितरणों को एक-दूसरे के लिए सामान्यीकृत करने के लिए, पहले की तरह क्रमबद्ध करें, फिर वितरण के औसत (आमतौर पर, अंकगणितीय माध्य) पर सेट करें। तो सभी मामलों में उच्चतम मान उच्चतम मानों का माध्य बन जाता है, दूसरा उच्चतम मान दूसरे उच्चतम मानों का माध्य बन जाता है, इत्यादि।

आम तौर पर एक संदर्भ वितरण गॉसियन वितरण या पॉइसन वितरण जैसे मानक सांख्यिकीय वितरणों में से एक होगा। संदर्भ वितरण यादृच्छिक रूप से या वितरण के संचयी वितरण फ़ंक्शन से नियमित नमूने लेने से उत्पन्न किया जा सकता है। हालाँकि, किसी भी संदर्भ वितरण का उपयोग किया जा सकता है।

माइक्रोएरे डेटा विश्लेषण में क्वांटाइल सामान्यीकरण का अक्सर उपयोग किया जाता है। इसे क्वांटाइल मानकीकरण के रूप में पेश किया गया था^[1] और फिर इसका नाम बदलकर क्वांटाइल सामान्यीकरण कर दिया गया।^[2]

उदाहरण

बहुत छोटे डेटासेट पर इस तरह के सामान्यीकरण का एक त्वरित उदाहरण:

सारणी 1 से 3, जीन ए से डी

A    5    4    3
B    2    1    4
C    3    4    6
D    4    2    8

प्रत्येक कॉलम के लिए निम्नतम से उच्चतम तक एक रैंक निर्धारित करें और संख्या i-iv निर्दिष्ट करें

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

इन रैंक मानों को बाद में उपयोग करने के लिए अलग रखा गया है। डेटा के पहले सेट पर वापस जाएँ। कॉलम मानों के पहले सेट को पुनर्व्यवस्थित करें ताकि प्रत्येक कॉलम निम्नतम से उच्चतम मान तक जाने के क्रम में हो। (पहले कॉलम में 5,2,3,4 हैं। इसे 2,3,4,5 में पुनर्व्यवस्थित किया गया है। दूसरे कॉलम 4,1,4,2 को 1,2,4,4 में पुनर्व्यवस्थित किया गया है, और कॉलम 3 में शामिल हैं 3,4,6,8 वही रहता है क्योंकि यह पहले से ही निम्नतम से उच्चतम मान के क्रम में है।) परिणाम यह है:

A    5    4    3    बन जाता है A 2 1 3
B    2    1    4    बन जाता है B 3 2 4
C    3    4    6    बन जाता है C 4 4 6
D    4    2    8    बन जाता है D 5 4 8

अब रैंक निर्धारित करने के लिए प्रत्येक पंक्ति का माध्य ज्ञात करें

ए (2 + 1 + 3)/3 = 2.00 = रैंक I
बी (3 + 2 + 4)/3 = 3.00 = रैंक ii
सी (4 + 4 + 6)/3 = 4.67 = रैंक iii
डी (5 + 4 + 8)/3 = 5.67 = रैंक iv

अब रैंकिंग क्रम लें और नए मानों को प्रतिस्थापित करें

A (2 + 1 + 3)/3 = 2.00 = rank i
B (3 + 2 + 4)/3 = 3.00 = rank ii
C (4 + 4 + 6)/3 = 4.67 = rank iii
D (5 + 4 + 8)/3 = 5.67 = rank iv

बन जाता है:

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

ये नए सामान्यीकृत मूल्य हैं।

हालाँकि, ध्यान दें कि जब, कॉलम दो की तरह, मान रैंक में बंधे होते हैं, तो उन्हें उन रैंकों के अनुरूप मानों का माध्य सौंपा जाना चाहिए जो वे सामान्य रूप से प्रतिनिधित्व करते हैं यदि वे भिन्न होते। कॉलम 2 के मामले में, वे रैंक iii और iv का प्रतिनिधित्व करते हैं। इसलिए हम दो बंधी हुई रैंक iii प्रविष्टियों को रैंक iii के लिए 4.67 और रैंक iv के लिए 5.67 का माध्य निर्दिष्ट करते हैं, जो कि 5.17 है। और इसलिए हम सामान्यीकृत मूल्यों के निम्नलिखित सेट पर पहुंचते हैं:

A    5.67    4.67    2.00
B    2.00    2.00    3.00
C    3.00    4.67    4.67
D    4.67    3.00    5.67

नए मूल्यों का वितरण समान है और अब उनकी तुलना आसानी से की जा सकती है। यहां तीनों स्तंभों में से प्रत्येक के लिए सारांश आंकड़े दिए गए हैं:

न्यूनतम.   :2.000 मिनट.    :2.000 मिनट.    :2.000
प्रथम क्वे.  :2.750 प्रथम Qu.  :2.750 प्रथम क्वे.  :2.750
माध्यिका   :3.833 माध्यिका   :4.083 माध्यिका   :3.833
माध्य     :3.833 माध्य      :3.833 माध्य      :3.833
तीसरा क्वा.:4.917 तीसरा Qu. :5.167 तीसरा क्वा. :4.917
अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667

संदर्भ

↑ Amaratunga, D.; Cabrera, J. (2001). "वायरल डीएनए माइक्रोचिप्स से डेटा का विश्लेषण". Journal of the American Statistical Association. 96 (456): 1161. doi:10.1198/016214501753381814. S2CID 18154109.
↑ Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). "विचरण और पूर्वाग्रह के आधार पर उच्च घनत्व ऑलिगोन्यूक्लियोटाइड सरणी डेटा के लिए सामान्यीकरण विधियों की तुलना". Bioinformatics. 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238.

बाहरी संबंध

Normalization of Affymetrix Chips

[Amaratunga2001-1] Amaratunga, D.; Cabrera, J. (2001). "वायरल डीएनए माइक्रोचिप्स से डेटा का विश्लेषण". Journal of the American Statistical Association. 96 (456): 1161. doi:10.1198/016214501753381814. S2CID 18154109.

[boldstad2003-2] Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). "विचरण और पूर्वाग्रह के आधार पर उच्च घनत्व ऑलिगोन्यूक्लियोटाइड सरणी डेटा के लिए सामान्यीकरण विधियों की तुलना". Bioinformatics. 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238.

[1]

[2]

Anonymous

Search

मात्रात्मक सामान्यीकरण: Difference between revisions

Namespaces

More

Page actions

Revision as of 11:02, 13 July 2023

उदाहरण

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

@@ Line 14: / Line 14: @@
 सारणी 1 से 3, जीन ए से डी
-  ए 5 4 3
+  A    5    4    3
-  बी 2 1 4
+  B    2    1    4
-  सी 3 4 6
+  C    3    4    6
-  डी 4 2 8
+  D    4    2    8
 प्रत्येक कॉलम के लिए निम्नतम से उच्चतम तक एक रैंक निर्धारित करें और संख्या i-iv निर्दिष्ट करें
-  ए iv iii मैं
+  A    iv    iii   i
-  बी मैं मैं ii
+  B    i     i     ii
-  सी ii iii iii
+  C    ii    iii   iii
-  डी iii ii iv
+  D    iii   ii    iv
 इन रैंक मानों को बाद में उपयोग करने के लिए अलग रखा गया है। डेटा के पहले सेट पर वापस जाएँ। कॉलम मानों के पहले सेट को पुनर्व्यवस्थित करें ताकि प्रत्येक कॉलम निम्नतम से उच्चतम मान तक जाने के क्रम में हो। (पहले कॉलम में 5,2,3,4 हैं। इसे 2,3,4,5 में पुनर्व्यवस्थित किया गया है। दूसरे कॉलम 4,1,4,2 को 1,2,4,4 में पुनर्व्यवस्थित किया गया है, और कॉलम 3 में शामिल हैं 3,4,6,8 वही रहता है क्योंकि यह पहले से ही निम्नतम से उच्चतम मान के क्रम में है।) परिणाम यह है:
-  ए 5 4 3 बन जाता है ए 2 1 3
+  A    5    4    3    बन जाता है A 2 1 3
-  बी 2 1 4 बन जाता है बी 3 2 4
+  B    2    1    4    बन जाता है B 3 2 4
-  C 3 4 6, C 4 4 6 बन जाता है
+  C    3    4    6    बन जाता है C 4 4 6
-  डी 4 2 8, डी 5 4 8 बन जाता है
+  D    4    2    8    बन जाता है D 5 4 8
 अब रैंक निर्धारित करने के लिए प्रत्येक पंक्ति का माध्य ज्ञात करें
@@ Line 42: / Line 44: @@
 अब रैंकिंग क्रम लें और नए मानों को प्रतिस्थापित करें
-  ए iv iii मैं
+  A (2 + 1 + 3)/3 = 2.00 = rank i
-  बी मैं मैं ii
+  B (3 + 2 + 4)/3 = 3.00 = rank ii
-  सी ii iii iii
+  C (4 + 4 + 6)/3 = 4.67 = rank iii
-  डी iii ii iv
+  D (5 + 4 + 8)/3 = 5.67 = rank iv
 बन जाता है:
-  ए 5.67 4.67 2.00
+  A    iv    iii   i
-  बी 2.00 2.00 3.00
+  B    i     i     ii
-  सी 3.00 4.67 4.67
+  C    ii    iii   iii
-  डी 4.67 3.00 5.67
+  D    iii   ii    iv
 ये नए सामान्यीकृत मूल्य हैं।
@@ Line 58: / Line 60: @@
 हालाँकि, ध्यान दें कि जब, कॉलम दो की तरह, मान रैंक में बंधे होते हैं, तो उन्हें उन रैंकों के अनुरूप मानों का माध्य सौंपा जाना चाहिए जो वे सामान्य रूप से प्रतिनिधित्व करते हैं यदि वे भिन्न होते। कॉलम 2 के मामले में, वे रैंक iii और iv का प्रतिनिधित्व करते हैं। इसलिए हम दो बंधी हुई रैंक iii प्रविष्टियों को रैंक iii के लिए 4.67 और रैंक iv के लिए 5.67 का माध्य निर्दिष्ट करते हैं, जो कि 5.17 है। और इसलिए हम सामान्यीकृत मूल्यों के निम्नलिखित सेट पर पहुंचते हैं:
-  ए 5.67 5.17 2.00
+  A    5.67    4.67    2.00
-  बी 2.00 2.00 3.00
+  B    2.00    2.00    3.00
-  सी 3.00 5.17 4.67
+  C    3.00    4.67    4.67
-  डी 4.67 3.00 5.67
+  D    4.67    3.00    5.67
 नए मूल्यों का वितरण समान है और अब उनकी तुलना आसानी से की जा सकती है। यहां तीनों स्तंभों में से प्रत्येक के लिए सारांश आंकड़े दिए गए हैं:
-  न्यूनतम. :2.000 मिनट. :2.000 मिनट. :2.000
+  न्यूनतम.   :2.000 मिनट.    :2.000 मिनट.    :2.000
-  प्रथम क्वे.:2.750 प्रथम क्वे.:2.750 प्रथम क्वे.:2.750
+  प्रथम क्वे.  :2.750 प्रथम Qu.  :2.750 प्रथम क्वे.  :2.750
-  माध्यिका :3.833 माध्यिका :4.083 माध्यिका :3.833
+  माध्यिका   :3.833 माध्यिका   :4.083 माध्यिका   :3.833
-  माध्य :3.833 माध्य :3.833 माध्य :3.833
+  माध्य     :3.833 माध्य      :3.833 माध्य      :3.833
-  तीसरा क्वा.:4.917 तीसरा क्वा.:5.167 तीसरा क्वा.:4.917
+  तीसरा क्वा.:4.917 तीसरा Qu. :5.167 तीसरा क्वा. :4.917
   अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667
+[[Category:Created On 07/07/2023]]
+[[Category:Machine Translated Page]]
+[[Category:Pages with script errors]]
+[[Category:Short description with empty Wikidata description]]
+[[Category:Template documentation pages|Short description/doc]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:समतुल्यता (गणित)]]
 ==संदर्भ==

Anonymous

Search

मात्रात्मक सामान्यीकरण: Difference between revisions

Revision as of 11:02, 13 July 2023

उदाहरण

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Hidden categories