मात्रात्मक सामान्यीकरण: Difference between revisions
No edit summary |
No edit summary |
||
(2 intermediate revisions by 2 users not shown) | |||
Line 73: | Line 73: | ||
तीसरा क्वा.:4.917 तीसरा Qu. :5.167 तीसरा क्वा. :4.917 | तीसरा क्वा.:4.917 तीसरा Qu. :5.167 तीसरा क्वा. :4.917 | ||
अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667 | अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667 | ||
==संदर्भ== | |||
{{Reflist}} | |||
==बाहरी संबंध== | |||
*[http://www.bea.ki.se/staff/reimers/Web.Pages/Affymetrix.Normalization.htm Normalization of Affymetrix Chips] | |||
[[Category:Created On 07/07/2023]] | [[Category:Created On 07/07/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | [[Category:Machine Translated Page]] | ||
[[Category:Pages with script errors]] | [[Category:Pages with script errors]] | ||
Line 84: | Line 103: | ||
[[Category:Templates using TemplateData]] | [[Category:Templates using TemplateData]] | ||
[[Category:समतुल्यता (गणित)]] | [[Category:समतुल्यता (गणित)]] | ||
[[Category:सांख्यिकीय डेटा परिवर्तन]] | |||
[[Category: सांख्यिकीय डेटा परिवर्तन | |||
Latest revision as of 15:18, 31 July 2023
सांख्यिकी में, क्वांटाइल सामान्यीकरण दो वितरणों को सांख्यिकीय गुणों में समान बनाने की एक तकनीक है। किसी परीक्षण वितरण को समान लंबाई के संदर्भ वितरण के लिए मात्रात्मक-सामान्यीकृत करने के लिए, परीक्षण वितरण को क्रमबद्ध करें और संदर्भ वितरण को क्रमबद्ध करें। परीक्षण वितरण में उच्चतम प्रविष्टि तब संदर्भ वितरण में उच्चतम प्रविष्टि का मान लेती है, संदर्भ वितरण में अगली उच्चतम प्रविष्टि, और इसी तरह, जब तक कि परीक्षण वितरण संदर्भ वितरण समस्या ना बन जाये।
संदर्भ वितरण के बिना, दो या दो से अधिक वितरणों को एक-दूसरे के लिए सामान्यीकृत करने के लिए, पहले की तरह क्रमबद्ध करें, फिर वितरण के औसत (साधारणतया, अंकगणितीय माध्य) पर समुच्चय करें। तो सभी मामलों में उच्चतम मान उच्चतम मानों का माध्य बन जाता है, दूसरा उच्चतम मान दूसरे उच्चतम मानों का माध्य बन जाता है, इत्यादि।
साधारणतया एक संदर्भ वितरण गॉसियन वितरण या पॉइसन वितरण जैसे मानक सांख्यिकीय वितरणों में से एक होगा। संदर्भ वितरण यादृच्छिक रूप से या वितरण के संचयी वितरण फलन से नियमित नमूने लेने से उत्पन्न किया जा सकता है। हालाँकि, किसी भी संदर्भ वितरण का उपयोग किया जा सकता है।
माइक्रोएरे डेटा विश्लेषण में क्वांटाइल सामान्यीकरण का अक्सर उपयोग किया जाता है। इसे क्वांटाइल मानकीकरण के रूप में पेश किया गया था[1] और फिर इसका नाम बदलकर क्वांटाइल सामान्यीकरण कर दिया गया।[2]
उदाहरण
बहुत छोटे डेटा समुच्चय पर इस तरह के सामान्यीकरण का एक त्वरित उदाहरण:
सारणी 1 से 3, जीन A से D
A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8
प्रत्येक कॉलम के लिए निम्नतम से उच्चतम तक एक रैंक निर्धारित करें और संख्या i-iv निर्दिष्ट करें
A iv iii i B i i ii C ii iii iii D iii ii iv
इन रैंक मानों को बाद में उपयोग करने के लिए अलग रखा गया है। डेटा के पहले समुच्चय पर वापस जाएँ। कॉलम मानों के पहले समुच्चय को पुनर्व्यवस्थित करें ताकि प्रत्येक कॉलम निम्नतम से उच्चतम मान तक जाने के क्रम में हो। (पहले कॉलम में 5,2,3,4 हैं। इसे 2,3,4,5 में पुनर्व्यवस्थित किया गया है। दूसरे कॉलम 4,1,4,2 को 1,2,4,4 में पुनर्व्यवस्थित किया गया है, और कॉलम 3 में शामिल हैं 3,4,6,8 वही रहता है क्योंकि यह पहले से ही निम्नतम से उच्चतम मान के क्रम में है।) परिणाम यह है:
A 5 4 3 बन जाता है A 2 1 3 B 2 1 4 बन जाता है B 3 2 4 C 3 4 6 बन जाता है C 4 4 6 D 4 2 8 बन जाता है D 5 4 8
अब रैंक निर्धारित करने के लिए प्रत्येक पंक्ति का माध्य ज्ञात करें
A (2 + 1 + 3)/3 = 2.00 = रैंक I B (3 + 2 + 4)/3 = 3.00 = रैंक ii C (4 + 4 + 6)/3 = 4.67 = रैंक iii D (5 + 4 + 8)/3 = 5.67 = रैंक iv
अब रैंकिंग क्रम लें और नए मानों को प्रतिस्थापित करें
A (2 + 1 + 3)/3 = 2.00 = rank i B (3 + 2 + 4)/3 = 3.00 = rank ii C (4 + 4 + 6)/3 = 4.67 = rank iii D (5 + 4 + 8)/3 = 5.67 = rank iv
बन जाता है:
A iv iii i B i i ii C ii iii iii D iii ii iv
ये नए सामान्यीकृत मूल्य हैं।
हालाँकि, ध्यान दें कि जब, कॉलम दो की तरह, मान रैंक में बंधे होते हैं, तो उन्हें उन रैंकों के अनुरूप मानों का माध्य सौंपा जाना चाहिए जो वे सामान्य रूप से प्रतिनिधित्व करते हैं यदि वे भिन्न होते। कॉलम 2 के मामले में, वे रैंक iii और iv का प्रतिनिधित्व करते हैं। इसलिए हम दो बंधी हुई रैंक iii प्रविष्टियों को रैंक iii के लिए 4.67 और रैंक iv के लिए 5.67 का माध्य निर्दिष्ट करते हैं, जो कि 5.17 है। और इसलिए हम सामान्यीकृत मूल्यों के निम्नलिखित समुच्चय पर पहुंचते हैं:
A 5.67 4.67 2.00 B 2.00 2.00 3.00 C 3.00 4.67 4.67 D 4.67 3.00 5.67
नए मूल्यों का वितरण समान है और अब उनकी तुलना आसानी से की जा सकती है। यहां तीनों स्तंभों में से प्रत्येक के लिए सारांश आंकड़े दिए गए हैं:
न्यूनतम. :2.000 मिनट. :2.000 मिनट. :2.000 प्रथम क्वे. :2.750 प्रथम Qu. :2.750 प्रथम क्वे. :2.750 माध्यिका :3.833 माध्यिका :4.083 माध्यिका :3.833 माध्य :3.833 माध्य :3.833 माध्य :3.833 तीसरा क्वा.:4.917 तीसरा Qu. :5.167 तीसरा क्वा. :4.917 अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667
संदर्भ
- ↑ Amaratunga, D.; Cabrera, J. (2001). "वायरल डीएनए माइक्रोचिप्स से डेटा का विश्लेषण". Journal of the American Statistical Association. 96 (456): 1161. doi:10.1198/016214501753381814. S2CID 18154109.
- ↑ Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). "विचरण और पूर्वाग्रह के आधार पर उच्च घनत्व ऑलिगोन्यूक्लियोटाइड सरणी डेटा के लिए सामान्यीकरण विधियों की तुलना". Bioinformatics. 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238.