मात्रात्मक सामान्यीकरण: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Technique to make two distributions statistically identical}} सांख्यिकी में, क्वांटाइल सामान्यी...")
 
No edit summary
 
(5 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Technique to make two distributions statistically identical}}
{{Short description|Technique to make two distributions statistically identical}}
सांख्यिकी में, क्वांटाइल सामान्यीकरण सांख्यिकीय गुणों में दो संभाव्यता वितरण को समान बनाने की एक तकनीक है। समान लंबाई के संदर्भ वितरण के लिए परीक्षण वितरण को [[मात्रात्मक]]-सामान्यीकृत करने के लिए, परीक्षण वितरण को क्रमबद्ध करें और संदर्भ वितरण को क्रमबद्ध करें। परीक्षण वितरण में उच्चतम प्रविष्टि तब संदर्भ वितरण में उच्चतम प्रविष्टि का मान लेती है, संदर्भ वितरण में अगली उच्चतम प्रविष्टि, और इसी तरह, जब तक कि परीक्षण वितरण संदर्भ वितरण का गड़बड़ी न हो जाए।
सांख्यिकी में, '''क्वांटाइल सामान्यीकरण''' दो वितरणों को सांख्यिकीय गुणों में समान बनाने की एक तकनीक है। किसी परीक्षण वितरण को समान लंबाई के संदर्भ वितरण के लिए मात्रात्मक-सामान्यीकृत करने के लिए, परीक्षण वितरण को क्रमबद्ध करें और संदर्भ वितरण को क्रमबद्ध करें। परीक्षण वितरण में उच्चतम प्रविष्टि तब संदर्भ वितरण में उच्चतम प्रविष्टि का मान लेती है, संदर्भ वितरण में अगली उच्चतम प्रविष्टि, और इसी तरह, जब तक कि परीक्षण वितरण संदर्भ वितरण समस्या ना बन जाये।


संदर्भ वितरण के बिना, दो या दो से अधिक वितरणों को एक-दूसरे के लिए सामान्यीकृत करने के लिए, पहले की तरह क्रमबद्ध करें, फिर वितरण के औसत (आमतौर पर, अंकगणितीय माध्य) पर सेट करें। तो सभी मामलों में उच्चतम मान उच्चतम मानों का माध्य बन जाता है, दूसरा उच्चतम मान दूसरे उच्चतम मानों का माध्य बन जाता है, इत्यादि।
संदर्भ वितरण के बिना, दो या दो से अधिक वितरणों को एक-दूसरे के लिए सामान्यीकृत करने के लिए, पहले की तरह क्रमबद्ध करें, फिर वितरण के औसत (साधारणतया, अंकगणितीय माध्य) पर समुच्चय करें। तो सभी मामलों में उच्चतम मान उच्चतम मानों का माध्य बन जाता है, दूसरा उच्चतम मान दूसरे उच्चतम मानों का माध्य बन जाता है, इत्यादि।
   
   
आम तौर पर एक संदर्भ वितरण गॉसियन वितरण या पॉइसन वितरण जैसे मानक सांख्यिकीय वितरणों में से एक होगा। संदर्भ वितरण यादृच्छिक रूप से या वितरण के संचयी वितरण फ़ंक्शन से नियमित नमूने लेने से उत्पन्न किया जा सकता है। हालाँकि, किसी भी संदर्भ वितरण का उपयोग किया जा सकता है।
साधारणतया एक संदर्भ वितरण गॉसियन वितरण या पॉइसन वितरण जैसे मानक सांख्यिकीय वितरणों में से एक होगा। संदर्भ वितरण यादृच्छिक रूप से या वितरण के संचयी वितरण फलन से नियमित नमूने लेने से उत्पन्न किया जा सकता है। हालाँकि, किसी भी संदर्भ वितरण का उपयोग किया जा सकता है।
 
[[माइक्रोएरे]] डेटा विश्लेषण में क्वांटाइल सामान्यीकरण का अक्सर उपयोग किया जाता है। इसे क्वांटाइल मानकीकरण के रूप में पेश किया गया था<ref name=Amaratunga2001>{{Cite journal | last1 = Amaratunga | first1 = D. | last2 = Cabrera | first2 = J. | doi = 10.1198/016214501753381814 | title = वायरल डीएनए माइक्रोचिप्स से डेटा का विश्लेषण| journal = Journal of the American Statistical Association | volume = 96 | issue = 456 | pages = 1161 | year = 2001 | s2cid = 18154109 }}</ref> और फिर इसका नाम बदलकर क्वांटाइल सामान्यीकरण कर दिया गया।<ref name='boldstad2003'>{{Cite journal | last1 = Bolstad | first1 = B. M. | last2 = Irizarry | first2 = R. A. | last3 = Astrand | first3 = M. | last4 = Speed | first4 = T. P. | title = विचरण और पूर्वाग्रह के आधार पर उच्च घनत्व ऑलिगोन्यूक्लियोटाइड सरणी डेटा के लिए सामान्यीकरण विधियों की तुलना| doi = 10.1093/bioinformatics/19.2.185 | journal = Bioinformatics | volume = 19 | issue = 2 | pages = 185–193 | year = 2003 | pmid =  12538238| doi-access = free }}</ref>


माइक्रोएरे डेटा विश्लेषण में क्वांटाइल सामान्यीकरण का अक्सर उपयोग किया जाता है। इसे क्वांटाइल मानकीकरण के रूप में पेश किया गया था<ref name=Amaratunga2001>{{Cite journal | last1 = Amaratunga | first1 = D. | last2 = Cabrera | first2 = J. | doi = 10.1198/016214501753381814 | title = वायरल डीएनए माइक्रोचिप्स से डेटा का विश्लेषण| journal = Journal of the American Statistical Association | volume = 96 | issue = 456 | pages = 1161 | year = 2001 | s2cid = 18154109 }}</ref> और फिर इसका नाम बदलकर क्वांटाइल सामान्यीकरण कर दिया गया।<ref name='boldstad2003'>{{Cite journal | last1 = Bolstad | first1 = B. M. | last2 = Irizarry | first2 = R. A. | last3 = Astrand | first3 = M. | last4 = Speed | first4 = T. P. | title = विचरण और पूर्वाग्रह के आधार पर उच्च घनत्व ऑलिगोन्यूक्लियोटाइड सरणी डेटा के लिए सामान्यीकरण विधियों की तुलना| doi = 10.1093/bioinformatics/19.2.185 | journal = Bioinformatics | volume = 19 | issue = 2 | pages = 185–193 | year = 2003 | pmid =  12538238| doi-access = free }}</ref>


==उदाहरण==
==उदाहरण==


बहुत छोटे डेटासेट पर इस तरह के सामान्यीकरण का एक त्वरित उदाहरण:
बहुत छोटे डेटा समुच्चय पर इस तरह के सामान्यीकरण का एक त्वरित उदाहरण:


सारणी 1 से 3, जीन से डी
सारणी 1 से 3, जीन A से D


  5 4 3
  A    5   4   3
  बी 2 1 4
  B    2   1   4
  सी 3 4 6
  C    3   4   6
  डी 4 2 8
  D    4   2   8


प्रत्येक कॉलम के लिए निम्नतम से उच्चतम तक एक रैंक निर्धारित करें और संख्या i-iv निर्दिष्ट करें
प्रत्येक कॉलम के लिए निम्नतम से उच्चतम तक एक रैंक निर्धारित करें और संख्या i-iv निर्दिष्ट करें


  iv iii मैं
  A    iv   iii   i
  बी मैं मैं ii
  B    i    i    ii
  सी ii iii iii
  C    ii   iii   iii
  डी iii ii iv
  D    iii   ii   iv
 
 
इन रैंक मानों को बाद में उपयोग करने के लिए अलग रखा गया है। डेटा के पहले समुच्चय पर वापस जाएँ। कॉलम मानों के पहले समुच्चय को पुनर्व्यवस्थित करें ताकि प्रत्येक कॉलम निम्नतम से उच्चतम मान तक जाने के क्रम में हो। (पहले कॉलम में 5,2,3,4 हैं। इसे 2,3,4,5 में पुनर्व्यवस्थित किया गया है। दूसरे कॉलम 4,1,4,2 को 1,2,4,4 में पुनर्व्यवस्थित किया गया है, और कॉलम 3 में शामिल हैं 3,4,6,8 वही रहता है क्योंकि यह पहले से ही निम्नतम से उच्चतम मान के क्रम में है।) परिणाम यह है:


इन रैंक मानों को बाद में उपयोग करने के लिए अलग रखा गया है।
A    5   4    3    बन जाता है A 2 1 3
डेटा के पहले सेट पर वापस जाएँ। कॉलम मानों के पहले सेट को पुनर्व्यवस्थित करें ताकि प्रत्येक कॉलम निम्नतम से उच्चतम मान तक जाने के क्रम में हो। (पहले कॉलम में 5,2,3,4 हैं। इसे 2,3,4,5 में पुनर्व्यवस्थित किया गया है। दूसरे कॉलम 4,1,4,2 को 1,2,4,4 में पुनर्व्यवस्थित किया गया है, और कॉलम 3 में शामिल हैं 3,4,6,8 वही रहता है क्योंकि यह पहले से ही निम्नतम से उच्चतम मान के क्रम में है।) परिणाम यह है:
B    2   1   4   बन जाता है B 3 2 4
C    3    4   6    बन जाता है C 4 4 6
D    4    2    8   बन जाता है D 5 4 8


ए 5 4 3 बन जाता है ए 2 1 3
बी 2 1 4 बन जाता है बी 3 2 4
C 3 4 6, C 4 4 6 बन जाता है
डी 4 2 8, डी 5 4 8 बन जाता है


अब रैंक निर्धारित करने के लिए प्रत्येक पंक्ति का माध्य ज्ञात करें
अब रैंक निर्धारित करने के लिए प्रत्येक पंक्ति का माध्य ज्ञात करें


  (2 + 1 + 3)/3 = 2.00 = रैंक I
  A (2 + 1 + 3)/3 = 2.00 = रैंक I
  बी (3 + 2 + 4)/3 = 3.00 = रैंक ii
  B (3 + 2 + 4)/3 = 3.00 = रैंक ii
  सी (4 + 4 + 6)/3 = 4.67 = रैंक iii
  C (4 + 4 + 6)/3 = 4.67 = रैंक iii
  डी (5 + 4 + 8)/3 = 5.67 = रैंक iv
  D (5 + 4 + 8)/3 = 5.67 = रैंक iv


अब रैंकिंग क्रम लें और नए मानों को प्रतिस्थापित करें
अब रैंकिंग क्रम लें और नए मानों को प्रतिस्थापित करें


  ए iv iii मैं
  A (2 + 1 + 3)/3 = 2.00 = rank i
  बी मैं मैं ii
  B (3 + 2 + 4)/3 = 3.00 = rank ii
  सी ii iii iii
  C (4 + 4 + 6)/3 = 4.67 = rank iii
  डी iii ii iv
  D (5 + 4 + 8)/3 = 5.67 = rank iv


बन जाता है:
बन जाता है:


  ए 5.67 4.67 2.00
  A    iv    iii  i
  बी 2.00 2.00 3.00
  B    i    i    ii
  सी 3.00 4.67 4.67
  C    ii    iii  iii
  डी 4.67 3.00 5.67
  D    iii  ii    iv


ये नए सामान्यीकृत मूल्य हैं।
ये नए सामान्यीकृत मूल्य हैं।


हालाँकि, ध्यान दें कि जब, कॉलम दो की तरह, मान रैंक में बंधे होते हैं, तो उन्हें रैंक के अनुरूप मानों का माध्य सौंपा जाना चाहिए, यदि वे अलग-अलग होते तो वे सामान्य रूप से प्रतिनिधित्व करते। कॉलम 2 के मामले में, वे रैंक iii और iv का प्रतिनिधित्व करते हैं। इसलिए हम दो बंधी हुई रैंक iii प्रविष्टियों को रैंक iii के लिए 4.67 और रैंक iv के लिए 5.67 का माध्य निर्दिष्ट करते हैं, जो कि 5.17 है। और इसलिए हम सामान्यीकृत मूल्यों के निम्नलिखित सेट पर पहुंचते हैं:
हालाँकि, ध्यान दें कि जब, कॉलम दो की तरह, मान रैंक में बंधे होते हैं, तो उन्हें उन रैंकों के अनुरूप मानों का माध्य सौंपा जाना चाहिए जो वे सामान्य रूप से प्रतिनिधित्व करते हैं यदि वे भिन्न होते। कॉलम 2 के मामले में, वे रैंक iii और iv का प्रतिनिधित्व करते हैं। इसलिए हम दो बंधी हुई रैंक iii प्रविष्टियों को रैंक iii के लिए 4.67 और रैंक iv के लिए 5.67 का माध्य निर्दिष्ट करते हैं, जो कि 5.17 है। और इसलिए हम सामान्यीकृत मूल्यों के निम्नलिखित समुच्चय पर पहुंचते हैं:


  5.67 5.17 2.00
  A    5.67   4.67    2.00
  बी 2.00 2.00 3.00
  B    2.00   2.00   3.00
  सी 3.00 5.17 4.67
  C    3.00   4.67    4.67
  डी 4.67 3.00 5.67
  D    4.67   3.00   5.67


नए मूल्यों का वितरण समान है और अब उनकी तुलना आसानी से की जा सकती है। यहां तीनों स्तंभों में से प्रत्येक के लिए सारांश आंकड़े दिए गए हैं:
नए मूल्यों का वितरण समान है और अब उनकी तुलना आसानी से की जा सकती है। यहां तीनों स्तंभों में से प्रत्येक के लिए सारांश आंकड़े दिए गए हैं:


  न्यूनतम. :2.000 मिनट. :2.000 मिनट. :2.000
  न्यूनतम.   :2.000 मिनट.   :2.000 मिनट.   :2.000
  प्रथम क्वे.:2.750 प्रथम क्वे.:2.750 प्रथम क्वे.:2.750
  प्रथम क्वे. :2.750 प्रथम Qu. :2.750 प्रथम क्वे. :2.750
  माध्यिका :3.833 माध्यिका :4.083 माध्यिका :3.833
  माध्यिका   :3.833 माध्यिका   :4.083 माध्यिका   :3.833
  माध्य :3.833 माध्य :3.833 माध्य :3.833
  माध्य     :3.833 माध्य     :3.833 माध्य     :3.833
  तीसरा क्वा.:4.917 तीसरा क्वा.:5.167 तीसरा क्वा.:4.917
  तीसरा क्वा.:4.917 तीसरा Qu. :5.167 तीसरा क्वा. :4.917
  अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667
  अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667


==संदर्भ==
==संदर्भ==
Line 80: Line 91:
==बाहरी संबंध==
==बाहरी संबंध==
*[http://www.bea.ki.se/staff/reimers/Web.Pages/Affymetrix.Normalization.htm  Normalization of Affymetrix Chips]
*[http://www.bea.ki.se/staff/reimers/Web.Pages/Affymetrix.Normalization.htm  Normalization of Affymetrix Chips]
[[Category: सांख्यिकीय डेटा परिवर्तन]] [[Category: समतुल्यता (गणित)]]


[[Category: Machine Translated Page]]
[[Category:Created On 07/07/2023]]
[[Category:Created On 07/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Template documentation pages|Short description/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:समतुल्यता (गणित)]]
[[Category:सांख्यिकीय डेटा परिवर्तन]]

Latest revision as of 15:18, 31 July 2023

सांख्यिकी में, क्वांटाइल सामान्यीकरण दो वितरणों को सांख्यिकीय गुणों में समान बनाने की एक तकनीक है। किसी परीक्षण वितरण को समान लंबाई के संदर्भ वितरण के लिए मात्रात्मक-सामान्यीकृत करने के लिए, परीक्षण वितरण को क्रमबद्ध करें और संदर्भ वितरण को क्रमबद्ध करें। परीक्षण वितरण में उच्चतम प्रविष्टि तब संदर्भ वितरण में उच्चतम प्रविष्टि का मान लेती है, संदर्भ वितरण में अगली उच्चतम प्रविष्टि, और इसी तरह, जब तक कि परीक्षण वितरण संदर्भ वितरण समस्या ना बन जाये।

संदर्भ वितरण के बिना, दो या दो से अधिक वितरणों को एक-दूसरे के लिए सामान्यीकृत करने के लिए, पहले की तरह क्रमबद्ध करें, फिर वितरण के औसत (साधारणतया, अंकगणितीय माध्य) पर समुच्चय करें। तो सभी मामलों में उच्चतम मान उच्चतम मानों का माध्य बन जाता है, दूसरा उच्चतम मान दूसरे उच्चतम मानों का माध्य बन जाता है, इत्यादि।

साधारणतया एक संदर्भ वितरण गॉसियन वितरण या पॉइसन वितरण जैसे मानक सांख्यिकीय वितरणों में से एक होगा। संदर्भ वितरण यादृच्छिक रूप से या वितरण के संचयी वितरण फलन से नियमित नमूने लेने से उत्पन्न किया जा सकता है। हालाँकि, किसी भी संदर्भ वितरण का उपयोग किया जा सकता है।

माइक्रोएरे डेटा विश्लेषण में क्वांटाइल सामान्यीकरण का अक्सर उपयोग किया जाता है। इसे क्वांटाइल मानकीकरण के रूप में पेश किया गया था[1] और फिर इसका नाम बदलकर क्वांटाइल सामान्यीकरण कर दिया गया।[2]

उदाहरण

बहुत छोटे डेटा समुच्चय पर इस तरह के सामान्यीकरण का एक त्वरित उदाहरण:

सारणी 1 से 3, जीन A से D

A    5    4    3
B    2    1    4
C    3    4    6
D    4    2    8

प्रत्येक कॉलम के लिए निम्नतम से उच्चतम तक एक रैंक निर्धारित करें और संख्या i-iv निर्दिष्ट करें

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv


इन रैंक मानों को बाद में उपयोग करने के लिए अलग रखा गया है। डेटा के पहले समुच्चय पर वापस जाएँ। कॉलम मानों के पहले समुच्चय को पुनर्व्यवस्थित करें ताकि प्रत्येक कॉलम निम्नतम से उच्चतम मान तक जाने के क्रम में हो। (पहले कॉलम में 5,2,3,4 हैं। इसे 2,3,4,5 में पुनर्व्यवस्थित किया गया है। दूसरे कॉलम 4,1,4,2 को 1,2,4,4 में पुनर्व्यवस्थित किया गया है, और कॉलम 3 में शामिल हैं 3,4,6,8 वही रहता है क्योंकि यह पहले से ही निम्नतम से उच्चतम मान के क्रम में है।) परिणाम यह है:

A    5    4    3    बन जाता है A 2 1 3
B    2    1    4    बन जाता है B 3 2 4
C    3    4    6    बन जाता है C 4 4 6
D    4    2    8    बन जाता है D 5 4 8


अब रैंक निर्धारित करने के लिए प्रत्येक पंक्ति का माध्य ज्ञात करें

A (2 + 1 + 3)/3 = 2.00 = रैंक I
B (3 + 2 + 4)/3 = 3.00 = रैंक ii
C (4 + 4 + 6)/3 = 4.67 = रैंक iii
D (5 + 4 + 8)/3 = 5.67 = रैंक iv

अब रैंकिंग क्रम लें और नए मानों को प्रतिस्थापित करें

A (2 + 1 + 3)/3 = 2.00 = rank i
B (3 + 2 + 4)/3 = 3.00 = rank ii
C (4 + 4 + 6)/3 = 4.67 = rank iii
D (5 + 4 + 8)/3 = 5.67 = rank iv

बन जाता है:

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

ये नए सामान्यीकृत मूल्य हैं।

हालाँकि, ध्यान दें कि जब, कॉलम दो की तरह, मान रैंक में बंधे होते हैं, तो उन्हें उन रैंकों के अनुरूप मानों का माध्य सौंपा जाना चाहिए जो वे सामान्य रूप से प्रतिनिधित्व करते हैं यदि वे भिन्न होते। कॉलम 2 के मामले में, वे रैंक iii और iv का प्रतिनिधित्व करते हैं। इसलिए हम दो बंधी हुई रैंक iii प्रविष्टियों को रैंक iii के लिए 4.67 और रैंक iv के लिए 5.67 का माध्य निर्दिष्ट करते हैं, जो कि 5.17 है। और इसलिए हम सामान्यीकृत मूल्यों के निम्नलिखित समुच्चय पर पहुंचते हैं:

A    5.67    4.67    2.00
B    2.00    2.00    3.00
C    3.00    4.67    4.67
D    4.67    3.00    5.67

नए मूल्यों का वितरण समान है और अब उनकी तुलना आसानी से की जा सकती है। यहां तीनों स्तंभों में से प्रत्येक के लिए सारांश आंकड़े दिए गए हैं:

न्यूनतम.   :2.000 मिनट.    :2.000 मिनट.    :2.000
प्रथम क्वे.  :2.750 प्रथम Qu.  :2.750 प्रथम क्वे.  :2.750
माध्यिका   :3.833 माध्यिका   :4.083 माध्यिका   :3.833
माध्य     :3.833 माध्य      :3.833 माध्य      :3.833
तीसरा क्वा.:4.917 तीसरा Qu. :5.167 तीसरा क्वा. :4.917
अधिकतम. :5.667 अधिकतम. :5.167 अधिकतम. :5.667







संदर्भ

  1. Amaratunga, D.; Cabrera, J. (2001). "वायरल डीएनए माइक्रोचिप्स से डेटा का विश्लेषण". Journal of the American Statistical Association. 96 (456): 1161. doi:10.1198/016214501753381814. S2CID 18154109.
  2. Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). "विचरण और पूर्वाग्रह के आधार पर उच्च घनत्व ऑलिगोन्यूक्लियोटाइड सरणी डेटा के लिए सामान्यीकरण विधियों की तुलना". Bioinformatics. 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238.


बाहरी संबंध