डेटा परिवर्तन (सांख्यिकी): Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(7 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{distinguish|परिवर्तन (गणित)}}
{{distinguish|परिवर्तन (गणित)                                                                           }}
[[Image:Population vs area.svg|thumb|325px|एक [[स्कैटर प्लॉट]] जिसमें दुनिया में संप्रभु राज्यों और आश्रित क्षेत्रों के क्षेत्रफल के आधार पर देशों की सूची क्षैतिज अक्ष पर जनसंख्या द्वारा देशों की उनकी सूची के विरुद्ध ऊर्ध्वाधर अक्ष पर प्लॉट की जाती है। ऊपरी भूखंड कच्चे डेटा का उपयोग करता है। निचले भूखंड में, लॉगरिदम फ़ंक्शन का उपयोग करके क्षेत्र और जनसंख्या डेटा दोनों को रूपांतरित किया गया है।]]
[[Image:Population vs area.svg|thumb|325px|एक [[स्कैटर प्लॉट]] जिसमें दुनिया में संप्रभु स्थिति और आश्रित क्षेत्रों के क्षेत्रफल के आधार पर देशों की सूची क्षैतिज अक्ष पर जनसंख्या द्वारा देशों की उनकी सूची के विरुद्ध ऊर्ध्वाधर अक्ष पर प्लॉट की जाती है। ऊपरी भूखंड कच्चे डेटा का उपयोग करता है। निचले भूखंड में, लॉगरिदम फलन का उपयोग करके क्षेत्र और जनसंख्या डेटा दोनों को रूपांतरित किया गया है।]]




आंकड़ों में, डेटा परिवर्तन डेटा सेट में प्रत्येक बिंदु पर एक नियतात्मक गणितीय फ़ंक्शन का अनुप्रयोग है - अर्थात, प्रत्येक डेटा बिंदु ''z<sub>i</sub>''  को रूपांतरित मान  ''y<sub>i</sub>'' = ''f''(''z<sub>i</sub>'') से बदल दिया जाता है, जहां f एक फ़ंक्शन है। ट्रांसफॉर्म समान्यत:  प्रयुक्त  किए जाते हैं जिससे डेटा प्रयुक्त  होने वाली सांख्यिकीय अनुमान प्रक्रिया की मान्यताओं को अधिक निकटता से पूरा कर सकता है  या ग्राफ़ की व्याख्या या उपस्थिति में सुधार कर सकता है ।


लगभग सदैव डेटा को बदलने के लिए उपयोग किया जाने वाला फ़ंक्शन विपरीत कार्य होता है, और समान्यत: [[निरंतर कार्य]] होता है। परिवर्तन समान्यत: तुलनीय मापों के संग्रह पर प्रयुक्त होता है। उदाहरण के लिए, यदि हम किसी [[मुद्रा]] इकाई में लोगों की आय पर डेटा के साथ काम कर रहे हैं, तो लॉगरिदम फ़ंक्शन द्वारा प्रत्येक व्यक्ति के आय मूल्य को बदलना सामान्य होता है।
डेटा में, '''डेटा परिवर्तन''' डेटा समुच्चय में प्रत्येक बिंदु पर एक नियतात्मक गणितीय फलन का अनुप्रयोग है - अर्थात, प्रत्येक डेटा बिंदु ''z<sub>i</sub>'' को रूपांतरित मान ''y<sub>i</sub>'' = ''f''(''z<sub>i</sub>'') से बदल दिया जाता है, जहां f एक फलन है। ट्रांसफॉर्म समान्यत: प्रयुक्त किए जाते हैं जिससे डेटा प्रयुक्त होने वाली सांख्यिकीय अनुमान प्रक्रिया की मान्यताओं को अधिक निकटता से पूरा कर सकता है या ग्राफ़ की व्याख्या या उपस्थिति में सुधार कर सकता है।
 
लगभग सदैव डेटा को बदलने के लिए उपयोग किया जाने वाला फलन विपरीत कार्य होता है, और समान्यत: [[निरंतर कार्य]] होता है। परिवर्तन समान्यत: तुलनीय मापों के संग्रह पर प्रयुक्त होता है। उदाहरण के लिए, यदि हम किसी [[मुद्रा]] इकाई में लोगों की आय पर डेटा के साथ काम कर रहे हैं, तो लॉगरिदम फलन द्वारा प्रत्येक व्यक्ति के आय मूल्य को बदलना सामान्य होता है।  


== प्रेरणा ==
== प्रेरणा ==
डेटा को कैसे रूपांतरित किया जाना चाहिए, या क्या कोई परिवर्तन प्रयुक्त किया जाना चाहिए, इसके लिए मार्गदर्शन में विशेष सांख्यिकीय विश्लेषण से किया जाना चाहिए। उदाहरण के लिए जनसंख्या माध्य के लिए लगभग 95% [[विश्वास अंतराल]] बनाने का एक सरल विधि अंकगणितीय माध्य प्लस या माइनस दो [[मानक त्रुटि]] इकाइयां लेना है। चूँकि यहां उपयोग किया गया निरंतर कारक 2 [[सामान्य वितरण]] के लिए विशेष रूप से है, और केवल तभी प्रयुक्त होता है जब नमूना माध्य लगभग सामान्य रूप से भिन्न होता है। [[केंद्रीय सीमा प्रमेय]] कहता है कि कई स्थितियों में, नमूना का औसत सामान्य रूप से भिन्न होता है यदि नमूना आकार यथोचित रूप से बड़ा हो। चूँकि यदि सांख्यिकीय संख्या अधिक सीमा तक तिरछी है और नमूना आकार सबसे मध्यम है, तो केंद्रीय सीमा प्रमेय द्वारा प्रदान किया गया अनुमान व्यर्थ हो सकता है, और इसमें परिणामी विश्वास अंतराल में गलत [[कवरेज संभावना]] होगी। इस प्रकार, जब डेटा में पर्याप्त विषमता का प्रमाण होता है, तो डेटा को [[समरूपता]] संभाव्यता वितरण में बदलना समान्य बात है<ref>{{Cite book|title=Applied predictive modeling|last1=Kuhn|first1=Max|last2=Johnson|first2=Kjell|s2cid=60246745|year=2013|isbn=9781461468493|location=New York|doi=10.1007/978-1-4614-6849-3|lccn=2013933452|oclc=844349710}}</ref> विश्वास अंतराल बनाने से पहले। यदि वांछित है, तो विश्वास अंतराल को डेटा पर प्रयुक्त किए गए परिवर्तन के व्युत्क्रम का उपयोग करके मूल मापदंड पर वापस रूपांतरित किया जा सकता है।<ref>{{Cite journal|last1=Altman|first1=Douglas G.|last2=Bland|first2=J. Martin|date=1996-04-27|title=Statistics notes: Transformations, means, and confidence intervals|journal=BMJ|language=en|volume=312|issue=7038|pages=1079|doi=10.1136/bmj.312.7038.1079|issn=0959-8138|pmid=8616417|pmc=2350916}}</ref><ref name=":1">{{Cite web|url=http://www.biostathandbook.com/transformation.html|title=Data transformations - Handbook of Biological Statistics|website=www.biostathandbook.com|access-date=2019-03-19}}</ref>
डेटा को कैसे रूपांतरित किया जाना चाहिए, या क्या कोई परिवर्तन प्रयुक्त किया जाना चाहिए, इसके लिए मार्गदर्शन में विशेष सांख्यिकीय विश्लेषण से किया जाना चाहिए। उदाहरण के लिए जनसंख्या माध्य के लिए लगभग 95% [[विश्वास अंतराल]] बनाने का एक सरल विधि अंकगणितीय माध्य प्लस या माइनस दो [[मानक त्रुटि]] इकाइयां लेना है। चूँकि यहां उपयोग किया गया निरंतर कारक 2 [[सामान्य वितरण]] के लिए विशेष रूप से है, और केवल तभी प्रयुक्त होता है जब नमूना माध्य लगभग सामान्य रूप से भिन्न होता है। [[केंद्रीय सीमा प्रमेय]] कहता है कि कई स्थितियों में, नमूना का औसत सामान्य रूप से भिन्न होता है यदि नमूना आकार यथोचित रूप से बड़ा हो। चूँकि यदि सांख्यिकीय संख्या अधिक सीमा तक तिरछी है और नमूना आकार सबसे मध्यम है, तो केंद्रीय सीमा प्रमेय द्वारा प्रदान किया गया अनुमान व्यर्थ हो सकता है, और इसमें परिणामी विश्वास अंतराल में गलत [[कवरेज संभावना]] होगी। इस प्रकार, जब डेटा में पर्याप्त विषमता का प्रमाण होता है, तो डेटा को [[समरूपता]] संभाव्यता वितरण में बदलना समान्य बात है<ref>{{Cite book|title=Applied predictive modeling|last1=Kuhn|first1=Max|last2=Johnson|first2=Kjell|s2cid=60246745|year=2013|isbn=9781461468493|location=New York|doi=10.1007/978-1-4614-6849-3|lccn=2013933452|oclc=844349710}}</ref> विश्वास अंतराल बनाने से पहले यदि वांछित है, तो विश्वास अंतराल को डेटा पर प्रयुक्त किए गए परिवर्तन के व्युत्क्रम का उपयोग करके मूल मापदंड पर वापस रूपांतरित किया जा सकता है।<ref>{{Cite journal|last1=Altman|first1=Douglas G.|last2=Bland|first2=J. Martin|date=1996-04-27|title=Statistics notes: Transformations, means, and confidence intervals|journal=BMJ|language=en|volume=312|issue=7038|pages=1079|doi=10.1136/bmj.312.7038.1079|issn=0959-8138|pmid=8616417|pmc=2350916}}</ref><ref name=":1">{{Cite web|url=http://www.biostathandbook.com/transformation.html|title=Data transformations - Handbook of Biological Statistics|website=www.biostathandbook.com|access-date=2019-03-19}}</ref>


उन्हें देखने में आसान बनाने के लिए डेटा को भी रूपांतरित किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हमारे पास एक स्कैटरप्लॉट है जिसमें बिंदु दुनिया के देश हैं, और प्लॉट किए जा रहे डेटा मान प्रत्येक देश का भूमि क्षेत्र और जनसंख्या हैं। यदि प्लॉट अपरिवर्तित डेटा (जैसे क्षेत्र के लिए वर्ग किलोमीटर और जनसंख्या के लिए लोगों की संख्या) का उपयोग करके बनाया गया है, तो अधिकांश देशों को ग्राफ़ के निचले बाएँ कोने में बिंदुओं के तंग समूह में प्लॉट किया जाएगा। बहुत बड़े क्षेत्रों और/या संख्या वाले कुछ देश ग्राफ़ के अधिकांश क्षेत्र में बहुत कम फैले होंगे। मात्र रीस्केलिंग इकाइयां (जैसे, हजार वर्ग किलोमीटर या लाखों लोगों के लिए) इसे नहीं बदलेगी। चूँकि क्षेत्र और जनसंख्या दोनों के लॉगरिदमिक परिवर्तनों के बाद अंक ग्राफ़ में अधिक समान रूप से फैले होते है।
उन्हें देखने में आसान बनाने के लिए डेटा को भी रूपांतरित किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हमारे पास एक स्कैटरप्लॉट है जिसमें बिंदु दुनिया के देश हैं, और प्लॉट किए जा रहे डेटा मान प्रत्येक देश का भूमि क्षेत्र और जनसंख्या हैं। यदि प्लॉट अपरिवर्तित डेटा (जैसे क्षेत्र के लिए वर्ग किलोमीटर और जनसंख्या के लिए लोगों की संख्या) का उपयोग करके बनाया गया है, तो अधिकांश देशों को ग्राफ़ के निचले बाएँ कोने में बिंदुओं के तंग समूह में प्लॉट किया जाएगा। बहुत बड़े क्षेत्रों और/या संख्या वाले कुछ देश ग्राफ़ के अधिकांश क्षेत्र में बहुत कम फैले होंगे। मात्र रीस्केलिंग इकाइयां (जैसे, हजार वर्ग किलोमीटर या लाखों लोगों के लिए) इसे नहीं बदलेगी। चूँकि क्षेत्र और जनसंख्या दोनों के लॉगरिदमिक परिवर्तनों के बाद अंक ग्राफ़ में अधिक समान रूप से फैले होते है।


डेटा परिवर्तन को प्रयुक्त करने का एक अन्य कारण व्याख्यात्मकता में सुधार करना है, तथापि कोई औपचारिक सांख्यिकीय विश्लेषण या विज़ुअलाइज़ेशन न किया गया हो। उदाहरण के लिए मान लीजिए कि हम कारों की तुलना उनकी ईंधन अर्थव्यवस्था के संदर्भ में कर रहे हैं। ये डेटा समान्यत: किलोमीटर प्रति लीटर या मील प्रति गैलन के रूप में प्रस्तुत किए जाते हैं। चूँकि यदि लक्ष्य यह आकलन करना है कि एक कार चलाते समय एक व्यक्ति दूसरे की तुलना में एक वर्ष में कितना अतिरिक्त ईंधन का उपयोग किया जायगा, तो गुणक व्युत्क्रम को प्रयुक्त करके रूपांतरित डेटा के साथ काम करना अधिक स्वाभाविक है, लीटर प्रति किलोमीटर, या गैलन प्रति मील है ।
डेटा परिवर्तन को प्रयुक्त करने का एक अन्य कारण व्याख्यात्मकता में सुधार करना है, तथापि कोई औपचारिक सांख्यिकीय विश्लेषण या विज़ुअलाइज़ेशन न किया गया हो। उदाहरण के लिए मान लीजिए कि हम कारों की तुलना उनकी ईंधन अर्थव्यवस्था के संदर्भ में कर रहे हैं। ये डेटा समान्यत: किलोमीटर प्रति लीटर या मील प्रति गैलन के रूप में प्रस्तुत किए जाते हैं। चूँकि यदि लक्ष्य यह आकलन करना है कि एक कार चलाते समय एक व्यक्ति दूसरे की तुलना में एक वर्ष में कितना अतिरिक्त ईंधन का उपयोग किया जायगा, तो गुणक व्युत्क्रम को प्रयुक्त करके रूपांतरित डेटा के साथ काम करना अधिक स्वाभाविक है, लीटर प्रति किलोमीटर, या गैलन प्रति मील है।


== प्रतिगमन में ==
== प्रतिगमन ==
{{See also|रैखिक प्रतिगमन या धारणाएँ}}
{{See also|रैखिक प्रतिगमन या धारणाएँ                                                         }}
यदि मूल डेटा रैखिक प्रतिगमन की एक या अधिक मान्यताओं का उल्लंघन करता है, तो डेटा को रैखिक प्रतिगमन के साथ मॉडलिंग के लिए उपयुक्त बनाने के लिए उपचारात्मक उपाय के रूप में डेटा परिवर्तन का उपयोग किया जा सकता है।<ref>{{Cite web|url=https://newonlinecourses.science.psu.edu/stat501/node/318/|title=Lesson 9: Data Transformations {{!}} STAT 501|website=newonlinecourses.science.psu.edu|access-date=2019-03-17}}</ref> उदाहरण के लिए, सबसे सरल [[रेखीय]] प्रतिगमन मॉडल Y के [[अपेक्षित मूल्य]] ([[आश्रित और स्वतंत्र चर]] या पूर्वानुमान किए जाने वाले सांख्यिकी समानार्थक शब्द) और प्रत्येक आश्रित और स्वतंत्र चर (जब अन्य स्वतंत्र चर तय किए जाते हैं) के बीच एक रैखिक संबंध मानते हैं। यदि रैखिकता लगभग भी धारण करने में विफल रहती है, तो कभी-कभी रैखिकता में सुधार के लिए प्रतिगमन मॉडल में स्वतंत्र या आश्रित चर को बदलना संभव होता है।<ref name=":0">{{Cite book|title=Applied linear statistical models|url=https://archive.org/details/appliedlinearsta00kutn_164|url-access=limited|last1=Kutner|first1=Michael H.|last2=Nachtsheim|first2=Christopher J.|last3=Neter|first3=John|last4=Li|first4=William|publisher=McGraw-Hill Irwin|year=2005|isbn=0072386886|edition= 5th|location=Boston|pages=[https://archive.org/details/appliedlinearsta00kutn_164/page/n157 129]–133|lccn=2004052447|oclc=55502728}}</ref> उदाहरण के लिए, मूल स्वतंत्र चर के द्विघात कार्यों को जोड़ने से Y के अपेक्षित मूल्य के साथ एक रैखिक संबंध हो सकता है, जिसके परिणामस्वरूप [[बहुपद प्रतिगमन]] मॉडल, रैखिक प्रतिगमन का एक विशेष स्थिति होता है।
यदि मूल डेटा रैखिक प्रतिगमन की एक या अधिक मान्यताओं का उल्लंघन करता है, तो डेटा को रैखिक प्रतिगमन के साथ मॉडलिंग के लिए उपयुक्त बनाने के लिए उपचारात्मक उपाय के रूप में डेटा परिवर्तन का उपयोग किया जा सकता है।<ref>{{Cite web|url=https://newonlinecourses.science.psu.edu/stat501/node/318/|title=Lesson 9: Data Transformations {{!}} STAT 501|website=newonlinecourses.science.psu.edu|access-date=2019-03-17}}</ref> उदाहरण के लिए, सबसे सरल [[रेखीय]] प्रतिगमन मॉडल Y के [[अपेक्षित मूल्य]] ([[आश्रित और स्वतंत्र चर|आश्रित और स्वतंत्र]] वेरिएबल या पूर्वानुमान किए जाने वाले सांख्यिकी समानार्थक शब्द) और प्रत्येक आश्रित और स्वतंत्र वेरिएबल (जब अन्य स्वतंत्र वेरिएबल तय किए जाते हैं) के बीच एक रैखिक संबंध मानते हैं। यदि रैखिकता लगभग भी धारण करने में विफल रहती है, तो कभी-कभी रैखिकता में सुधार के लिए प्रतिगमन मॉडल में स्वतंत्र या आश्रित वेरिएबल को बदलना संभव होता है।<ref name=":0">{{Cite book|title=Applied linear statistical models|url=https://archive.org/details/appliedlinearsta00kutn_164|url-access=limited|last1=Kutner|first1=Michael H.|last2=Nachtsheim|first2=Christopher J.|last3=Neter|first3=John|last4=Li|first4=William|publisher=McGraw-Hill Irwin|year=2005|isbn=0072386886|edition= 5th|location=Boston|pages=[https://archive.org/details/appliedlinearsta00kutn_164/page/n157 129]–133|lccn=2004052447|oclc=55502728}}</ref> उदाहरण के लिए, मूल स्वतंत्र वेरिएबल के द्विघात कार्यों को जोड़ने से Y के अपेक्षित मूल्य के साथ एक रैखिक संबंध हो सकता है, जिसके परिणामस्वरूप [[बहुपद प्रतिगमन]] मॉडल, रैखिक प्रतिगमन का एक विशेष स्थिति होता है।


रेखीय प्रतिगमन की एक और धारणा समरूपता है, जो कि त्रुटियों का विचरण है और भविष्यवाणियों के मूल्यों की परवाह किए बिना अवशिष्ट समान होना चाहिए। यदि इस धारणा का उल्लंघन किया जाता है (अर्थात यदि डेटा [[विषमलैंगिकता]] है), तो अकेले Y का परिवर्तन, या दोनों X (आश्रित और स्वतंत्र चर या सांख्यिकी समानार्थक शब्द) और Y का परिवर्तन संभव हो सकता है, जैसे कि समरूपता धारणा ( रैखिकता धारणा के अतिरिक्त) रूपांतरित चरों पर सत्य है<ref name=":0" /> और इन पर रैखिक प्रतिगमन प्रयुक्त किया जा सकता है।
रेखीय प्रतिगमन की एक और धारणा समरूपता है, जो कि त्रुटियों का विचरण है और भविष्यवाणियों के मूल्यों की परवाह किए बिना अवशिष्ट समान होना चाहिए। यदि इस धारणा का उल्लंघन किया जाता है (अर्थात यदि डेटा [[विषमलैंगिकता]] है), तो अकेले Y का परिवर्तन, या दोनों X (आश्रित और स्वतंत्र वेरिएबल या सांख्यिकी स मानार्थक शब्द) और Y का परिवर्तन संभव हो सकता है, जैसे कि समरूपता धारणा ( रैखिकता धारणा के अतिरिक्त) रूपांतरित चरों पर सत्य है<ref name=":0" /> और इन पर रैखिक प्रतिगमन प्रयुक्त किया जा सकता है।


फिर भी डेटा परिवर्तन का एक अन्य अनुप्रयोग त्रुटि के संदर्भ में सामान्य वितरण की कमी की समस्या का समाधान करना है। प्रतिगमन मापदंडों के [[कम से कम वर्गों]] के अनुमानों के सार्थक होने के लिए यूनीवेरिएट सामान्यता की आवश्यकता नहीं है (गॉस-मार्कोव प्रमेय देखें)। चूँकि विश्वास अंतराल और [[परिकल्पना परीक्षण]] में उत्तम सांख्यिकीय गुण होंगे यदि चर [[बहुभिन्नरूपी सामान्य वितरण]] प्रदर्शित करते हैं। रूपांतरण जो त्रुटि नियमो के भिन्नता को स्थिर करते हैं (अथार्त वे जो विषमलैंगिकता को संबोधित करते हैं) अधिकांशत:त्रुटि नियमो को लगभग सामान्य बनाने में भी सहायता करते हैं।<ref name=":0" /><ref>{{Cite journal|last1=Altman|first1=Douglas G.|last2=Bland|first2=J. Martin|date=1996-03-23|title=Statistics Notes: Transforming data|journal=BMJ|language=en|volume=312|issue=7033|pages=770|doi=10.1136/bmj.312.7033.770|issn=0959-8138|pmid=8605469|pmc=2350481}}</ref>
फिर भी डेटा परिवर्तन का एक अन्य अनुप्रयोग त्रुटि के संदर्भ में सामान्य वितरण की कमी की समस्या का समाधान करना है। प्रतिगमन मापदंडों के [[कम से कम वर्गों]] के अनुमानों के सार्थक होने के लिए यूनीवेरिएट सामान्यता की आवश्यकता नहीं है (गॉस-मार्कोव प्रमेय देखें)। चूँकि विश्वास अंतराल और [[परिकल्पना परीक्षण]] में उत्तम सांख्यिकीय गुण होंगे यदि वेरिएबल [[बहुभिन्नरूपी सामान्य वितरण]] प्रदर्शित करते हैं। रूपांतरण जो त्रुटि नियमो के भिन्नता को स्थिर करते हैं (अथार्त वे जो विषमलैंगिकता को संबोधित करते हैं) अधिकांशत:त्रुटि नियमो को लगभग सामान्य बनाने में भी सहायता करते हैं।<ref name=":0" /><ref>{{Cite journal|last1=Altman|first1=Douglas G.|last2=Bland|first2=J. Martin|date=1996-03-23|title=Statistics Notes: Transforming data|journal=BMJ|language=en|volume=312|issue=7033|pages=770|doi=10.1136/bmj.312.7033.770|issn=0959-8138|pmid=8605469|pmc=2350481}}</ref>




=== उदाहरण ===
=== उदाहरण ===
समीकरण
समीकरण  


<math>Y = a + bX</math>
<math>Y = a + bX                                                                     </math>
: अर्थ: X में एक इकाई वृद्धि, Y में औसत b इकाइयों की वृद्धि के साथ जुड़ी हुई है।
: अर्थ: X में एक इकाई वृद्धि, Y में औसत b इकाइयों की वृद्धि के साथ जुड़ी हुई है।  


समीकरण:
समीकरण:


<math>\log(Y) = a + bX</math>
<math>\log(Y) = a + bX</math>
:(समीकरण के दोनों पक्षों के घातांक से: <math>Y = e^a e^{bX}</math>)
:(समीकरण के दोनों पक्षों के घातांक से: <math>Y = e^a e^{bX}</math>)  
:अर्थ: X में एक इकाई वृद्धि <math>\log(Y)</math> में b इकाइयों की औसत वृद्धि से जुड़ी है, या समकक्ष, Y औसतन <math>e^{b}\!</math> के गुणक कारक से बढ़ती है। उदाहरणात्मक उद्देश्यों के लिए, यदि उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के स्थान पर आधार-10 लघुगणक का उपयोग किया जाता है और प्रतिगमन गुणांक को दर्शाने के लिए समान प्रतीकों (a और b) का उपयोग किया जाता है, तो x में एक इकाई वृद्धि से <math>10^{b}</math>Y में औसतन कई गुना वृद्धि होती है। यदि बी 1 था, तो इसका मतलब x में एक इकाई वृद्धि के लिए वाई में 10 गुना वृद्धि है
:अर्थ: X में एक इकाई वृद्धि <math>\log(Y)</math> में b इकाइयों की औसत वृद्धि से जुड़ी है, या समकक्ष, Y औसतन <math>e^{b}\!</math> के गुणक कारक से बढ़ती है। उदाहरणात्मक उद्देश्यों के लिए, यदि उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के स्थान पर आधार-10 लघुगणक का उपयोग किया जाता है और प्रतिगमन गुणांक को दर्शाने के लिए समान प्रतीकों (a और b) का उपयोग किया जाता है, तो x में एक इकाई वृद्धि से <math>10^{b}</math>Y में औसतन कई गुना वृद्धि होती है। यदि बी 1 था, तो इसका मतलब x में एक इकाई वृद्धि के लिए वाई में 10 गुना वृद्धि है


समीकरण:
समीकरण:
Line 44: Line 46:
<math>\log(Y) = a + b \log(X)</math>
<math>\log(Y) = a + b \log(X)</math>
:(समीकरण के दोनों पक्षों के घातांक से: <math>Y = e^a X^{b}</math>)
:(समीकरण के दोनों पक्षों के घातांक से: <math>Y = e^a X^{b}</math>)
:अर्थ: X में <math>k^{b}</math>-गुना वृद्धि औसतन Y में गुणात्मक वृद्धि से जुड़ी होती है। इस प्रकार यदि X दोगुना हो जाता है, तो इसके परिणामस्वरूप Y में <math>2^{b}\!</math> के गुणक कारक से परिवर्तन होगा।<ref>{{Cite web|url=https://newonlinecourses.science.psu.edu/stat501/node/321/|title=9.3 - Log-transforming Both the Predictor and Response {{!}} STAT 501|website=newonlinecourses.science.psu.edu|access-date=2019-03-17}}</ref>
:अर्थ: X में <math>k^{b}</math>-गुना वृद्धि औसतन Y में गुणात्मक वृद्धि से जुड़ी होती है। इस प्रकार यदि X दोगुना हो जाता है, तो इसके परिणामस्वरूप Y में <math>2^{b}\!</math> के गुणक कारक से परिवर्तन होगा।<ref>{{Cite web|url=https://newonlinecourses.science.psu.edu/stat501/node/321/|title=9.3 - Log-transforming Both the Predictor and Response {{!}} STAT 501|website=newonlinecourses.science.psu.edu|access-date=2019-03-17}}</ref>  
 
 
=== वैकल्पिक ===
=== वैकल्पिक ===
[[सामान्यीकृत रैखिक मॉडल]] (जीएलएम) सामान्य रैखिक प्रतिगमन का एक लचीला सामान्यीकरण प्रदान करते हैं जो प्रतिक्रिया चर के लिए अनुमति देता है जिसमें सामान्य वितरण के अतिरिक्त त्रुटि वितरण मॉडल होते हैं। जीएलएम रैखिक मॉडल को एक लिंक फ़ंक्शन के माध्यम से प्रतिक्रिया चर से संबंधित होने की अनुमति देते हैं और प्रत्येक माप के विचरण के परिमाण को इसके अनुमानित मूल्य का एक कार्य होने की अनुमति देते हैं।<ref>{{Cite web|url=http://statmath.wu.ac.at/courses/heather_turner/glmCourse_001.pdf|title=Introduction to Generalized Linear Models|last=Turner|first=Heather|date=2008}}</ref><ref>{{Cite journal|last1=Lo|first1=Steson|last2=Andrews|first2=Sally|date=2015-08-07|title=To transform or not to transform: using generalized linear mixed models to analyse reaction time data|journal=Frontiers in Psychology|volume=6|pages=1171|doi=10.3389/fpsyg.2015.01171|issn=1664-1078|pmc=4528092|pmid=26300841|doi-access=free}}</ref>
[[सामान्यीकृत रैखिक मॉडल]] (जीएलएम) सामान्य रैखिक प्रतिगमन का एक लचीला सामान्यीकरण प्रदान करते हैं जो प्रतिक्रिया वेरिएबल के लिए अनुमति देता है जिसमें सामान्य वितरण के अतिरिक्त त्रुटि वितरण मॉडल होते हैं। जीएलएम रैखिक मॉडल को एक लिंक फलन के माध्यम से प्रतिक्रिया वेरिएबल से संबंधित होने की अनुमति देते हैं और प्रत्येक माप के विचरण के परिमाण को इसके अनुमानित मूल्य का एक कार्य होने की अनुमति देते हैं।<ref>{{Cite web|url=http://statmath.wu.ac.at/courses/heather_turner/glmCourse_001.pdf|title=Introduction to Generalized Linear Models|last=Turner|first=Heather|date=2008}}</ref><ref>{{Cite journal|last1=Lo|first1=Steson|last2=Andrews|first2=Sally|date=2015-08-07|title=To transform or not to transform: using generalized linear mixed models to analyse reaction time data|journal=Frontiers in Psychology|volume=6|pages=1171|doi=10.3389/fpsyg.2015.01171|issn=1664-1078|pmc=4528092|pmid=26300841|doi-access=free}}</ref>
 
== सामान्य स्थितियों ==
लघुगणक परिवर्तन और [[वर्गमूल]] परिवर्तन का उपयोग समान्यत: सकारात्मक डेटा के लिए किया जाता है, और गुणात्मक व्युत्क्रम परिवर्तन (पारस्परिक परिवर्तन) का उपयोग गैर-शून्य डेटा के लिए किया जा सकता है। ''पावर ट्रांसफॉर्मेशन (सांख्यिकी)'' एक गैर-नकारात्मक मान λ द्वारा परिचालित परिवर्तनों का एक वर्ग है जिसमें विशेष स्थितियों के रूप में लघुगणक, वर्गमूल और गुणात्मक व्युत्क्रम परिवर्तन सम्मिलित हैं। डेटा परिवर्तन को व्यवस्थित रूप से करने के लिए, शक्ति परिवर्तन में पैरामीटर λ का अनुमान लगाने के लिए [[अनुमान सिद्धांत]] तकनीकों का उपयोग करना संभव है, जिससे किसी दिए गए समुच्चयिंग में लगभग सबसे उपयुक्त परिवर्तन की पहचान हो सकता है चूंकि शक्ति परिवर्तन वर्ग में पहचान परिवर्तन भी सम्मिलित है, यह दृष्टिकोण यह भी संकेत कर सकता है कि क्या परिवर्तन के बिना डेटा का विश्लेषण करना सबसे अच्छा होगा। प्रतिगमन विश्लेषण में, इस दृष्टिकोण को 'बॉक्स-कॉक्स परिवर्तन' के रूप में जाना जाता है।


== सामान्य मामले ==
पारस्परिक परिवर्तन, कुछ शक्ति परिवर्तन जैसे येओ-जॉनसन परिवर्तन, और कुछ अन्य परिवर्तन जैसे [[उलटा अतिशयोक्तिपूर्ण कार्य|विपरीत अतिशयोक्तिपूर्ण कार्य]] को प्रयुक्त करना है सार्थक रूप से डेटा पर प्रयुक्त किया जा सकता है जिसमें सकारात्मक और नकारात्मक दोनों मूल्य सम्मिलित हैं<ref>{{Cite web|url=http://fmwww.bc.edu/RePEc/bocode/t/transint.html|title=Transformations: an introduction|website=fmwww.bc.edu|access-date=2019-03-19}}</ref> (यदि λ एक विषम पूर्णांक है तो शक्ति परिवर्तन सभी वास्तविक संख्याओं पर विपरीत होता है)। चूँकि जब नकारात्मक और सकारात्मक दोनों मान देखे जाते हैं, तो कभी-कभी सभी मानों में एक स्थिरांक जोड़कर प्रारंभ करना समान्य होता है, जिससे गैर-नकारात्मक डेटा का एक समुच्चय तैयार होता है, जिसमें कोई भी शक्ति परिवर्तन प्रयुक्त किया जा सकता है।<ref name=":1" />
लघुगणक परिवर्तन और [[वर्गमूल]] परिवर्तन का उपयोग समान्यत: सकारात्मक डेटा के लिए किया जाता है, और गुणात्मक व्युत्क्रम परिवर्तन (पारस्परिक परिवर्तन) का उपयोग गैर-शून्य डेटा के लिए किया जा सकता है। ''पावर ट्रांसफॉर्मेशन (सांख्यिकी)'' एक गैर-नकारात्मक मान λ द्वारा परिचालित परिवर्तनों का एक वर्ग है जिसमें विशेष स्थितियों के रूप में लघुगणक, वर्गमूल और गुणात्मक व्युत्क्रम परिवर्तन सम्मिलित हैं। डेटा परिवर्तन को व्यवस्थित रूप से करने के लिए, शक्ति परिवर्तन में पैरामीटर λ का अनुमान लगाने के लिए [[अनुमान सिद्धांत]] तकनीकों का उपयोग करना संभव है, जिससे किसी दिए गए सेटिंग में लगभग सबसे उपयुक्त परिवर्तन की पहचान हो सकता है चूंकि शक्ति परिवर्तन वर्ग में पहचान परिवर्तन भी सम्मिलित है, यह दृष्टिकोण यह भी संकेत कर सकता है कि क्या परिवर्तन के बिना डेटा का विश्लेषण करना सबसे अच्छा होगा। प्रतिगमन विश्लेषण में, इस दृष्टिकोण को 'बॉक्स-कॉक्स परिवर्तन' के रूप में जाना जाता है।


पारस्परिक परिवर्तन, कुछ शक्ति परिवर्तन जैसे येओ-जॉनसन परिवर्तन, और कुछ अन्य परिवर्तन जैसे [[उलटा अतिशयोक्तिपूर्ण कार्य|विपरीत अतिशयोक्तिपूर्ण कार्य]] को प्रयुक्त  करना है  सार्थक रूप से डेटा पर प्रयुक्त  किया जा सकता है जिसमें सकारात्मक और नकारात्मक दोनों मूल्य सम्मिलित हैं<ref>{{Cite web|url=http://fmwww.bc.edu/RePEc/bocode/t/transint.html|title=Transformations: an introduction|website=fmwww.bc.edu|access-date=2019-03-19}}</ref> (यदि λ एक विषम पूर्णांक है तो शक्ति परिवर्तन सभी वास्तविक संख्याओं पर विपरीत होता है)। चूँकि जब नकारात्मक और सकारात्मक दोनों मान देखे जाते हैं, तो कभी-कभी सभी मानों में एक स्थिरांक जोड़कर प्रारंभ करना समान्य होता है, जिससे गैर-नकारात्मक डेटा का एक सेट तैयार होता है, जिसमें कोई भी शक्ति परिवर्तन प्रयुक्त  किया जा सकता है।<ref name=":1" />
एक सामान्य स्थिति जहां डेटा परिवर्तन प्रयुक्त किया जाता है, वह तब होता है जब ब्याज का मूल्य परिमाण के कई क्रमों पर होता है। कई भौतिक और सामाजिक घटनाएँ इस तरह के व्यवहार को प्रदर्शित करती हैं - आय, प्रजातियों की संख्या, आकाशगंगा के आकार और वर्षा की मात्रा, कुछ के नाम शक्ति रूपांतरण, और विशेष रूप से लघुगणक, अधिकांशत:ऐसे डेटा में समरूपता को प्रेरित करने के लिए उपयोग किया जा सकता है। लघुगणक को अधिकांशत:पसंद किया जाता है क्योंकि तह परिवर्तन के संदर्भ में इसके परिणाम की व्याख्या करना आसान होता है।  
 
एक सामान्य स्थिति जहां डेटा परिवर्तन प्रयुक्त किया जाता है, वह तब होता है जब ब्याज का मूल्य परिमाण के कई क्रमों पर होता है। कई भौतिक और सामाजिक घटनाएँ इस तरह के व्यवहार को प्रदर्शित करती हैं - आय, प्रजातियों की संख्या, आकाशगंगा के आकार और वर्षा की मात्रा, कुछ के नाम शक्ति रूपांतरण, और विशेष रूप से लघुगणक, अधिकांशत:ऐसे डेटा में समरूपता को प्रेरित करने के लिए उपयोग किया जा सकता है। लघुगणक को अधिकांशत:पसंद किया जाता है क्योंकि तह परिवर्तन के संदर्भ में इसके परिणाम की व्याख्या करना आसान होता है।


लघुगणक का अनुपातों पर भी उपयोगी प्रभाव पड़ता है। यदि हम X / Y अनुपात का उपयोग करते है जो की सकारात्मक मात्रा X और Y की तुलना कर रहे हैं, तो यदि X < Y, अनुपात अंतराल (0,1) में है, जबकि यदि X > Y, अनुपात अर्ध-रेखा (1) में है ,∞), जहां 1 का अनुपात समानता से मेल खाता है। एक विश्लेषण में जहां X और Y को सममित रूप से व्यवहार किया जाता है, समानता के स्थिति में log -अनुपात log(X / Y) शून्य है, और इसकी गुण है कि यदि X, Y से K गुना अधिक है, तो log-अनुपात है शून्य से समान दूरी पर उस स्थिति में जहां Y, X से K गुना अधिक है (इन दो स्थितियों में log-अनुपात log(K) और -log(K) हैं)।
लघुगणक का अनुपातों पर भी उपयोगी प्रभाव पड़ता है। यदि हम X / Y अनुपात का उपयोग करते है जो की सकारात्मक मात्रा X और Y की तुलना कर रहे हैं, तो यदि X < Y, अनुपात अंतराल (0,1) में है, जबकि यदि X > Y, अनुपात अर्ध-रेखा (1) में है ,∞), जहां 1 का अनुपात समानता से मेल खाता है। एक विश्लेषण में जहां X और Y को सममित रूप से व्यवहार किया जाता है, समानता के स्थिति में log -अनुपात log(X / Y) शून्य है, और इसकी गुण है कि यदि X, Y से K गुना अधिक है, तो log-अनुपात है शून्य से समान दूरी पर उस स्थिति में जहां Y, X से K गुना अधिक है (इन दो स्थितियों में log-अनुपात log(K) और -log(K) हैं)।
Line 63: Line 61:


=== सामान्यता में बदलना ===
=== सामान्यता में बदलना ===
1. सामान्य वितरण के समान डेटा सेट को बदलना सदैव आवश्यक या वांछनीय नहीं होता है। चूँकि यदि समरूपता या सामान्यता वांछित है, तो उन्हें अधिकांशत:एक शक्ति परिवर्तन के माध्यम से प्रेरित किया जा सकता है।
1. सामान्य वितरण के समान डेटा समुच्चय को बदलना सदैव आवश्यक या वांछनीय नहीं होता है। चूँकि यदि समरूपता या सामान्यता वांछित है, तो उन्हें अधिकांशत:एक शक्ति परिवर्तन के माध्यम से प्रेरित किया जा सकता है।  


2. [[जिपफ-मेंडेलब्रॉट कानून|जिपफ-मेंडेलब्रॉट नियम]] के अनुसार एक भाषाई शक्ति फंक्शन वितरित किया जाता है। वितरण अत्यंत नुकीला और [[leptokurtic|लेप्टोकुर्टिक]] है, यही कारण है कि शोधकर्ताओं को हल करने के लिए आंकड़ों से मुंह मोड़ना पड़ा था। लेखकत्व एट्रिब्यूशन समस्याएं फिर भी डेटा परिवर्तन प्रयुक्त करके गॉसियन सांख्यिकी का उपयोग पूरी तरह से संभव है।<ref> Van Droogenbroeck F.J., 'An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics' (2019) [https://www.academia.edu/40029629]</ref>
2. [[जिपफ-मेंडेलब्रॉट कानून|जिपफ-मेंडेलब्रॉट नियम]] के अनुसार एक भाषाई शक्ति फलन  वितरित किया जाता है। वितरण अत्यंत नुकीला और [[leptokurtic|लेप्टोकुर्टिक]] है, यही कारण है कि शोधकर्ताओं को हल करने के लिए आंकड़ों से मुंह मोड़ना पड़ा था। लेखकत्व एट्रिब्यूशन समस्याएं फिर भी डेटा परिवर्तन प्रयुक्त करके गॉसियन सांख्यिकी का उपयोग पूरी तरह से संभव है।<ref> Van Droogenbroeck F.J., 'An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics' (2019) [https://www.academia.edu/40029629]</ref>


3. यह आकलन करने के लिए कि परिवर्तन के बाद सामान्यता प्राप्त की गई है या नहीं, किसी भी मानक [[सामान्यता परीक्षण]] का उपयोग किया जा सकता है। एक ग्राफिकल दृष्टिकोण समान्यत: एक औपचारिक सांख्यिकीय परीक्षण की तुलना में अधिक जानकारीपूर्ण होता है और इसलिए सामान्य संख्या के लिए डेटा सेट के फिट का आकलन करने के लिए समान्यत: मात्रात्मक प्लॉट का उपयोग किया जाता है। वैकल्पिक रूप से, नमूना तिरछापन और [[कुकुदता]] पर आधारित वलय के नियम भी प्रस्तावित किए गए हैं।<ref>{{Cite journal|last=Kim|first=Hae-Young|date=2013-02-01|title=Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis|journal=Restorative Dentistry & Endodontics|language=en|volume=38|issue=1|pages=52–54|doi=10.5395/rde.2013.38.1.52|issn=2234-7658|pmc=3591587|pmid=23495371}}</ref><ref>{{Cite web|url=http://imaging.mrc-cbu.cam.ac.uk/statswiki/FAQ/Simon|title=Testing normality including skewness and kurtosis|website=imaging.mrc-cbu.cam.ac.uk|access-date=2019-03-18}}</ref>
3. यह आकलन करने के लिए कि परिवर्तन के बाद सामान्यता प्राप्त की गई है या नहीं, किसी भी मानक [[सामान्यता परीक्षण]] का उपयोग किया जा सकता है। एक ग्राफिकल दृष्टिकोण समान्यत: एक औपचारिक सांख्यिकीय परीक्षण की तुलना में अधिक जानकारीपूर्ण होता है और इसलिए सामान्य संख्या के लिए डेटा समुच्चय के फिट का आकलन करने के लिए समान्यत: मात्रात्मक प्लॉट का उपयोग किया जाता है। वैकल्पिक रूप से, नमूना तिरछापन और [[कुकुदता]] पर आधारित वलय के नियम भी प्रस्तावित किए गए हैं।<ref>{{Cite journal|last=Kim|first=Hae-Young|date=2013-02-01|title=Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis|journal=Restorative Dentistry & Endodontics|language=en|volume=38|issue=1|pages=52–54|doi=10.5395/rde.2013.38.1.52|issn=2234-7658|pmc=3591587|pmid=23495371}}</ref><ref>{{Cite web|url=http://imaging.mrc-cbu.cam.ac.uk/statswiki/FAQ/Simon|title=Testing normality including skewness and kurtosis|website=imaging.mrc-cbu.cam.ac.uk|access-date=2019-03-18}}</ref>  


== एक समान वितरण या मनमाना वितरण में बदलना ==
== समान वितरण या मनमाना वितरण में बदलना ==
यदि हम n मानों ''X''<sub>1</sub>, ..., ''X<sub>n</sub>'' के एक सेट को बिना किसी संबंध के देखते हैं (अथार्त , n हैं)।  विशिष्ट मान), हम ''X<sub>i</sub>'' को रूपांतरित मान Y = k से प्रतिस्थापित कर सकते हैं, जहां k को इस प्रकार परिभाषित किया गया है कि ''X<sub>i</sub>'' सभी X मानों में kवां सबसे बड़ा है। इसे रैंक परिवर्तन कहा जाता है<ref>{{Cite web|url=http://www.sportsci.org/resource/stats/nonparms.html|title=New View of Statistics: Non-parametric Models: Rank Transformation|website=www.sportsci.org|access-date=2019-03-23}}</ref> और एक समान वितरण के लिए एकदम उपयुक्त डेटा तैयार करता है। इस दृष्टिकोण में जनसंख्या अनुरूपता है।
यदि हम n मानों ''X''<sub>1</sub>, ..., ''X<sub>n</sub>'' के एक समुच्चय को बिना किसी संबंध के देखते हैं (अथार्त , n हैं)विशिष्ट मान), हम ''X<sub>i</sub>'' को रूपांतरित मान Y = k से प्रतिस्थापित कर सकते हैं, जहां k को इस प्रकार परिभाषित किया गया है कि ''X<sub>i</sub>'' सभी X मानों में kवां सबसे बड़ा है। इसे रैंक परिवर्तन कहा जाता है<ref>{{Cite web|url=http://www.sportsci.org/resource/stats/nonparms.html|title=New View of Statistics: Non-parametric Models: Rank Transformation|website=www.sportsci.org|access-date=2019-03-23}}</ref> और एक समान वितरण के लिए एकदम उपयुक्त डेटा तैयार करता है। इस दृष्टिकोण में जनसंख्या अनुरूपता है।  


[[संभाव्यता अभिन्न परिवर्तन]] का उपयोग करते हुए, यदि X कोई यादृच्छिक चर है, और F, X का [[संचयी वितरण कार्य]] है, तब तक जब तक F व्युत्क्रमणीय है, यादृच्छिक चर U = F(X) [[इकाई अंतराल]] [0 , 1]। पर एक समान वितरण का अनुसरण करता है  
[[संभाव्यता अभिन्न परिवर्तन]] का उपयोग करते हुए, यदि X कोई यादृच्छिक वेरिएबल है, और F, X का [[संचयी वितरण कार्य]] है, तब तक जब तक F व्युत्क्रमणीय है, यादृच्छिक वेरिएबल U = F(X) [[इकाई अंतराल]] [0 , 1]। पर एक समान वितरण का अनुसरण करता है


एक समान वितरण से, हम किसी भी वितरण को एक व्युत्क्रमणीय संचयी वितरण फ़ंक्शन के साथ बदल सकते हैं। यदि G एक व्युत्क्रमणीय संचयी वितरण फलन है, और U एक समान रूप से वितरित यादृच्छिक चर है, तो यादृच्छिक चर G<sup>−1</sup>(U) का संचयी वितरण फलन G है।
एक समान वितरण से, हम किसी भी वितरण को एक व्युत्क्रमणीय संचयी वितरण फलन के साथ बदल सकते हैं। यदि G एक व्युत्क्रमणीय संचयी वितरण फलन है, और U एक समान रूप से वितरित यादृच्छिक वेरिएबल है, तो यादृच्छिक वेरिएबल G<sup>−1</sup>(U) का संचयी वितरण फलन G है।  


दोनों को एक साथ रखने पर, यदि X कोई यादृच्छिक चर है, F, X का व्युत्क्रमणीय संचयी वितरण फलन है, और G एक व्युत्क्रमणीय संचयी वितरण फलन है तो यादृच्छिक चर G<sup>−1</sup>(F(X)) का संचयी वितरण फलन G है।
दोनों को एक साथ रखने पर, यदि X कोई यादृच्छिक वेरिएबल है, F, X का व्युत्क्रमणीय संचयी वितरण फलन है, और G एक व्युत्क्रमणीय संचयी वितरण फलन है तो यादृच्छिक वेरिएबल G<sup>−1</sup>(F(X)) का संचयी वितरण फलन G है।  


=== विचरण स्थिरीकरण परिवर्तन ===
=== विचरण स्थिरीकरण परिवर्तन ===
{{Main|विचरण-स्थिरीकरण परिवर्तन}}
{{Main|विचरण-स्थिरीकरण परिवर्तन}}
कई प्रकार के सांख्यिकीय डेटा एक विचरण-पर-माध्य संबंध प्रदर्शित करते हैं, जिसका अर्थ है कि विभिन्न [[अपेक्षित मूल्य]] वाले डेटा मानों के लिए परिवर्तनशीलता अलग है। एक उदाहरण के रूप में, दुनिया में विभिन्न संख्या की तुलना में, औसत आय के साथ आय का अंतर बढ़ जाता है। यदि हम कई छोटे क्षेत्र इकाइयों (जैसे, संयुक्त राज्य अमेरिका में काउंटी) पर विचार करते हैं और प्रत्येक काउंटी के अंदर आय का औसत और भिन्नता प्राप्त करते हैं, तो यह सामान्य है कि उच्च औसत आय वाले काउंटी में भी उच्च भिन्नताएं होती हैं।
कई प्रकार के सांख्यिकीय डेटा एक विचरण-पर-माध्य संबंध प्रदर्शित करते हैं, जिसका अर्थ है कि विभिन्न [[अपेक्षित मूल्य]] वाले डेटा मानों के लिए परिवर्तनशीलता अलग है। एक उदाहरण के रूप में, दुनिया में विभिन्न संख्या की तुलना में, औसत आय के साथ आय का अंतर बढ़ जाता है। यदि हम कई छोटे क्षेत्र इकाइयों (जैसे, संयुक्त राज्य अमेरिका में काउंटी) पर विचार करते हैं और प्रत्येक काउंटी के अंदर आय का औसत और भिन्नता प्राप्त करते हैं, तो यह सामान्य है कि उच्च औसत आय वाले काउंटी में भी उच्च भिन्नताएं होती हैं।
 
एक विचरण-स्थिर परिवर्तन का उद्देश्य विचरण-पर-माध्य संबंध को हटाना है, जिससे विचरण माध्य के सापेक्ष स्थिर हो जाता है । तो  प्रसरण-स्थिरीकरण रूपांतरणों के उदाहरण नमूना सहसंबंध गुणांक के लिए फ़िशर रूपांतरण, पोइसन वितरण डेटा (गिनती डेटा) के लिए वर्गमूल रूपांतरण या एन्स्कोम्बे रूपांतरण, प्रतिगमन विश्लेषण के लिए बॉक्स-कॉक्स रूपांतरण, और द्विपद अनुपात विश्वास अंतराल या आर्कसीन रूपांतरण हैं या अनुपात के लिए कोणीय परिवर्तन ([[द्विपद वितरण]] डेटा)। जबकि समान्यत: आनुपातिक डेटा के सांख्यिकीय विश्लेषण के लिए उपयोग किया जाता है, आर्क्सिन वर्गमूल परिवर्तन की अनुशंसा नहीं की जाती है क्योंकि रसद प्रतिगमन या एक लॉगिट परिवर्तन क्रमशः द्विपद या गैर-द्विपद अनुपात के लिए अधिक उपयुक्त होते हैं, विशेष रूप से घटी हुई प्रकार I और प्रकार II त्रुटियों के कारण। प्रकार -द्वितीय त्रुटि है ।<ref name="The arcsine is asinine">{{cite journal | last1 =Warton | first1 =D. | last2 =Hui | first2=F. | title = The arcsine is asinine: the analysis of proportions in ecology | journal =Ecology | volume =92 | issue =1 | pages =3–10 | date =2011 |doi= 10.1890/10-0340.1| pmid =21560670 | hdl =1885/152287 | hdl-access =free }}</ref><ref name=":1" />
 


एक विचरण-स्थिर परिवर्तन का उद्देश्य विचरण-पर-माध्य संबंध को हटाना है, जिससे विचरण माध्य के सापेक्ष स्थिर हो जाता है । तो प्रसरण-स्थिरीकरण रूपांतरणों के उदाहरण नमूना सहसंबंध गुणांक के लिए फ़िशर रूपांतरण, पोइसन वितरण डेटा (गिनती डेटा) के लिए वर्गमूल रूपांतरण या एन्स्कोम्बे रूपांतरण, प्रतिगमन विश्लेषण के लिए बॉक्स-कॉक्स रूपांतरण, और द्विपद अनुपात विश्वास अंतराल या आर्कसीन रूपांतरण हैं या अनुपात के लिए कोणीय परिवर्तन ([[द्विपद वितरण]] डेटा)। जबकि समान्यत: आनुपातिक डेटा के सांख्यिकीय विश्लेषण के लिए उपयोग किया जाता है, आर्क्सिन वर्गमूल परिवर्तन की अनुशंसा नहीं की जाती है क्योंकि रसद प्रतिगमन या एक लॉगिट परिवर्तन क्रमशः द्विपद या गैर-द्विपद अनुपात के लिए अधिक उपयुक्त होते हैं, विशेष रूप से घटी हुई प्रकार I और प्रकार II त्रुटियों के कारण। प्रकार -द्वितीय त्रुटि है ।<ref name="The arcsine is asinine">{{cite journal | last1 =Warton | first1 =D. | last2 =Hui | first2=F. | title = The arcsine is asinine: the analysis of proportions in ecology | journal =Ecology | volume =92 | issue =1 | pages =3–10 | date =2011 |doi= 10.1890/10-0340.1| pmid =21560670 | hdl =1885/152287 | hdl-access =free }}</ref><ref name=":1" />
== बहुभिन्नरूपी डेटा के लिए रूपांतरण ==
== बहुभिन्नरूपी डेटा के लिए रूपांतरण ==
उनके सीमांत वितरण को संशोधित करने के लिए बहुभिन्नरूपी डेटा को बिंदु-वार प्रयुक्त किया जा सकता है। उचित रूप से निर्मित परिवर्तन का उपयोग करके बहुभिन्नरूपी वितरण की कुछ विशेषताओं को संशोधित करना भी संभव है। उदाहरण के लिए, [[समय श्रृंखला]] और अन्य प्रकार के अनुक्रमिक डेटा के साथ काम करते समय, [[स्थिर प्रक्रिया]] को उत्तम बनाने के लिए डेटा को सीमित करना समान्य बात है। यदि एक यादृच्छिक सदिश X द्वारा उत्पन्न डेटा को सदिश ''X''<sub>i</sub> के रूप में देखा जाता है सहप्रसरण आव्यूह Σ के साथ अवलोकनों की संख्या, एक [[रैखिक परिवर्तन]] का उपयोग डेटा को अलंकृत करने के लिए किया जा सकता है। ऐसा करने के लिए, चोलेस्की अपघटन का उपयोग Σ = A A' को व्यक्त करने के लिए किया जाता है। फिर रूपांतरित सदिश ''Y''<sub>i</sub> = ''A''<sup>−1</sup>''X''<sub>i</sub> इसके सहप्रसरण आव्यूह के रूप में पहचान आव्यूह है।
उनके सीमांत वितरण को संशोधित करने के लिए बहुभिन्नरूपी डेटा को बिंदु-वार प्रयुक्त किया जा सकता है। उचित रूप से निर्मित परिवर्तन का उपयोग करके बहुभिन्नरूपी वितरण की कुछ विशेषताओं को संशोधित करना भी संभव है। उदाहरण के लिए, [[समय श्रृंखला]] और अन्य प्रकार के अनुक्रमिक डेटा के साथ काम करते समय, [[स्थिर प्रक्रिया]] को उत्तम बनाने के लिए डेटा को सीमित करना समान्य बात है। यदि एक यादृच्छिक सदिश X द्वारा उत्पन्न डेटा को सदिश ''X''<sub>i</sub> के रूप में देखा जाता है सहप्रसरण आव्यूह Σ के साथ अवलोकनों की संख्या, एक [[रैखिक परिवर्तन]] का उपयोग डेटा को अलंकृत करने के लिए किया जा सकता है। ऐसा करने के लिए, चोलेस्की अपघटन का उपयोग Σ = A A' को व्यक्त करने के लिए किया जाता है। फिर रूपांतरित सदिश ''Y''<sub>i</sub> = ''A''<sup>−1</sup>''X''<sub>i</sub> इसके सहप्रसरण आव्यूह के रूप में पहचान आव्यूह है।  
 
 
करने के लिए किया जाता है। फिर रूपांतरित सदिश वाई<sub>i</sub> = ए<sup>-1</sup>X<sub>i</sub> इसके स। फिर रूपांतरित सदिश वाई<sub>i</sub> = ए<sup>-1</sup>X<sub>i</sub> इसके सहप्रसरण आव्यूह
 
== यह भी देखें ==
== यह भी देखें ==
* [[आर्कसिन]]
* [[आर्कसिन]]  
* [[फ़ीचर इंजीनियरिंग]]
* [[फ़ीचर इंजीनियरिंग|फ़ीवेरिएबल इंजीनियरिंग]]  
* लॉग इन करें
* लॉग इन करें  
* गैर रेखीय प्रतिगमन # परिवर्तन
* गैर रेखीय प्रतिगमन या परिवर्तन  
* [[पियर्सन सहसंबंध गुणांक]]
* [[पियर्सन सहसंबंध गुणांक]]  
* [[शक्ति परिवर्तन]] (बॉक्स-कॉक्स)
* [[शक्ति परिवर्तन]] (बॉक्स-कॉक्स)  
* विल्सन-हिल्फर्टी परिवर्तन
* विल्सन-हिल्फर्टी परिवर्तन  
* [[सफेदी परिवर्तन]]
* [[सफेदी परिवर्तन]]  


==संदर्भ==
==संदर्भ ==
{{reflist}}
{{reflist}}




==बाहरी संबंध==
==बाहरी संबंध ==


*[http://www.r-statistics.com/2013/05/log-transformations-for-skewed-and-wide-distributions-from-practical-data-science-with-r/ Log Transformations for Skewed and Wide Distributions] – discussing the log and the "signed logarithm" transformations (A chapter from "Practical Data Science with R").
*[http://www.r-statistics.com/2013/05/log-transformations-for-skewed-and-wide-distributions-from-practical-data-science-with-r/ Log Transformations for Skewed and Wide Distributions] – discussing the log and the "signed logarithm" transformations (A chapter from "Practical Data Science with R").


{{DEFAULTSORT:Data Transformation (Statistics)}}[[Category: सांख्यिकीय निष्कर्ष]] [[Category: सांख्यिकीय डेटा परिवर्तन | सांख्यिकीय डेटा परिवर्तन ]]
{{DEFAULTSORT:Data Transformation (Statistics)}}
 
 


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page|Data Transformation (Statistics)]]
[[Category:Created On 08/02/2023]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 08/02/2023|Data Transformation (Statistics)]]
[[Category:Machine Translated Page|Data Transformation (Statistics)]]
[[Category:Pages with script errors|Data Transformation (Statistics)]]
[[Category:Templates Vigyan Ready|Data Transformation (Statistics)]]
[[Category:सांख्यिकीय डेटा परिवर्तन| सांख्यिकीय डेटा परिवर्तन ]]
[[Category:सांख्यिकीय निष्कर्ष|Data Transformation (Statistics)]]

Latest revision as of 10:41, 15 July 2023

एक स्कैटर प्लॉट जिसमें दुनिया में संप्रभु स्थिति और आश्रित क्षेत्रों के क्षेत्रफल के आधार पर देशों की सूची क्षैतिज अक्ष पर जनसंख्या द्वारा देशों की उनकी सूची के विरुद्ध ऊर्ध्वाधर अक्ष पर प्लॉट की जाती है। ऊपरी भूखंड कच्चे डेटा का उपयोग करता है। निचले भूखंड में, लॉगरिदम फलन का उपयोग करके क्षेत्र और जनसंख्या डेटा दोनों को रूपांतरित किया गया है।


डेटा में, डेटा परिवर्तन डेटा समुच्चय में प्रत्येक बिंदु पर एक नियतात्मक गणितीय फलन का अनुप्रयोग है - अर्थात, प्रत्येक डेटा बिंदु zi को रूपांतरित मान yi = f(zi) से बदल दिया जाता है, जहां f एक फलन है। ट्रांसफॉर्म समान्यत: प्रयुक्त किए जाते हैं जिससे डेटा प्रयुक्त होने वाली सांख्यिकीय अनुमान प्रक्रिया की मान्यताओं को अधिक निकटता से पूरा कर सकता है या ग्राफ़ की व्याख्या या उपस्थिति में सुधार कर सकता है।

लगभग सदैव डेटा को बदलने के लिए उपयोग किया जाने वाला फलन विपरीत कार्य होता है, और समान्यत: निरंतर कार्य होता है। परिवर्तन समान्यत: तुलनीय मापों के संग्रह पर प्रयुक्त होता है। उदाहरण के लिए, यदि हम किसी मुद्रा इकाई में लोगों की आय पर डेटा के साथ काम कर रहे हैं, तो लॉगरिदम फलन द्वारा प्रत्येक व्यक्ति के आय मूल्य को बदलना सामान्य होता है।

प्रेरणा

डेटा को कैसे रूपांतरित किया जाना चाहिए, या क्या कोई परिवर्तन प्रयुक्त किया जाना चाहिए, इसके लिए मार्गदर्शन में विशेष सांख्यिकीय विश्लेषण से किया जाना चाहिए। उदाहरण के लिए जनसंख्या माध्य के लिए लगभग 95% विश्वास अंतराल बनाने का एक सरल विधि अंकगणितीय माध्य प्लस या माइनस दो मानक त्रुटि इकाइयां लेना है। चूँकि यहां उपयोग किया गया निरंतर कारक 2 सामान्य वितरण के लिए विशेष रूप से है, और केवल तभी प्रयुक्त होता है जब नमूना माध्य लगभग सामान्य रूप से भिन्न होता है। केंद्रीय सीमा प्रमेय कहता है कि कई स्थितियों में, नमूना का औसत सामान्य रूप से भिन्न होता है यदि नमूना आकार यथोचित रूप से बड़ा हो। चूँकि यदि सांख्यिकीय संख्या अधिक सीमा तक तिरछी है और नमूना आकार सबसे मध्यम है, तो केंद्रीय सीमा प्रमेय द्वारा प्रदान किया गया अनुमान व्यर्थ हो सकता है, और इसमें परिणामी विश्वास अंतराल में गलत कवरेज संभावना होगी। इस प्रकार, जब डेटा में पर्याप्त विषमता का प्रमाण होता है, तो डेटा को समरूपता संभाव्यता वितरण में बदलना समान्य बात है[1] विश्वास अंतराल बनाने से पहले यदि वांछित है, तो विश्वास अंतराल को डेटा पर प्रयुक्त किए गए परिवर्तन के व्युत्क्रम का उपयोग करके मूल मापदंड पर वापस रूपांतरित किया जा सकता है।[2][3]

उन्हें देखने में आसान बनाने के लिए डेटा को भी रूपांतरित किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हमारे पास एक स्कैटरप्लॉट है जिसमें बिंदु दुनिया के देश हैं, और प्लॉट किए जा रहे डेटा मान प्रत्येक देश का भूमि क्षेत्र और जनसंख्या हैं। यदि प्लॉट अपरिवर्तित डेटा (जैसे क्षेत्र के लिए वर्ग किलोमीटर और जनसंख्या के लिए लोगों की संख्या) का उपयोग करके बनाया गया है, तो अधिकांश देशों को ग्राफ़ के निचले बाएँ कोने में बिंदुओं के तंग समूह में प्लॉट किया जाएगा। बहुत बड़े क्षेत्रों और/या संख्या वाले कुछ देश ग्राफ़ के अधिकांश क्षेत्र में बहुत कम फैले होंगे। मात्र रीस्केलिंग इकाइयां (जैसे, हजार वर्ग किलोमीटर या लाखों लोगों के लिए) इसे नहीं बदलेगी। चूँकि क्षेत्र और जनसंख्या दोनों के लॉगरिदमिक परिवर्तनों के बाद अंक ग्राफ़ में अधिक समान रूप से फैले होते है।

डेटा परिवर्तन को प्रयुक्त करने का एक अन्य कारण व्याख्यात्मकता में सुधार करना है, तथापि कोई औपचारिक सांख्यिकीय विश्लेषण या विज़ुअलाइज़ेशन न किया गया हो। उदाहरण के लिए मान लीजिए कि हम कारों की तुलना उनकी ईंधन अर्थव्यवस्था के संदर्भ में कर रहे हैं। ये डेटा समान्यत: किलोमीटर प्रति लीटर या मील प्रति गैलन के रूप में प्रस्तुत किए जाते हैं। चूँकि यदि लक्ष्य यह आकलन करना है कि एक कार चलाते समय एक व्यक्ति दूसरे की तुलना में एक वर्ष में कितना अतिरिक्त ईंधन का उपयोग किया जायगा, तो गुणक व्युत्क्रम को प्रयुक्त करके रूपांतरित डेटा के साथ काम करना अधिक स्वाभाविक है, लीटर प्रति किलोमीटर, या गैलन प्रति मील है।

प्रतिगमन

यदि मूल डेटा रैखिक प्रतिगमन की एक या अधिक मान्यताओं का उल्लंघन करता है, तो डेटा को रैखिक प्रतिगमन के साथ मॉडलिंग के लिए उपयुक्त बनाने के लिए उपचारात्मक उपाय के रूप में डेटा परिवर्तन का उपयोग किया जा सकता है।[4] उदाहरण के लिए, सबसे सरल रेखीय प्रतिगमन मॉडल Y के अपेक्षित मूल्य (आश्रित और स्वतंत्र वेरिएबल या पूर्वानुमान किए जाने वाले सांख्यिकी समानार्थक शब्द) और प्रत्येक आश्रित और स्वतंत्र वेरिएबल (जब अन्य स्वतंत्र वेरिएबल तय किए जाते हैं) के बीच एक रैखिक संबंध मानते हैं। यदि रैखिकता लगभग भी धारण करने में विफल रहती है, तो कभी-कभी रैखिकता में सुधार के लिए प्रतिगमन मॉडल में स्वतंत्र या आश्रित वेरिएबल को बदलना संभव होता है।[5] उदाहरण के लिए, मूल स्वतंत्र वेरिएबल के द्विघात कार्यों को जोड़ने से Y के अपेक्षित मूल्य के साथ एक रैखिक संबंध हो सकता है, जिसके परिणामस्वरूप बहुपद प्रतिगमन मॉडल, रैखिक प्रतिगमन का एक विशेष स्थिति होता है।

रेखीय प्रतिगमन की एक और धारणा समरूपता है, जो कि त्रुटियों का विचरण है और भविष्यवाणियों के मूल्यों की परवाह किए बिना अवशिष्ट समान होना चाहिए। यदि इस धारणा का उल्लंघन किया जाता है (अर्थात यदि डेटा विषमलैंगिकता है), तो अकेले Y का परिवर्तन, या दोनों X (आश्रित और स्वतंत्र वेरिएबल या सांख्यिकी स मानार्थक शब्द) और Y का परिवर्तन संभव हो सकता है, जैसे कि समरूपता धारणा ( रैखिकता धारणा के अतिरिक्त) रूपांतरित चरों पर सत्य है[5] और इन पर रैखिक प्रतिगमन प्रयुक्त किया जा सकता है।

फिर भी डेटा परिवर्तन का एक अन्य अनुप्रयोग त्रुटि के संदर्भ में सामान्य वितरण की कमी की समस्या का समाधान करना है। प्रतिगमन मापदंडों के कम से कम वर्गों के अनुमानों के सार्थक होने के लिए यूनीवेरिएट सामान्यता की आवश्यकता नहीं है (गॉस-मार्कोव प्रमेय देखें)। चूँकि विश्वास अंतराल और परिकल्पना परीक्षण में उत्तम सांख्यिकीय गुण होंगे यदि वेरिएबल बहुभिन्नरूपी सामान्य वितरण प्रदर्शित करते हैं। रूपांतरण जो त्रुटि नियमो के भिन्नता को स्थिर करते हैं (अथार्त वे जो विषमलैंगिकता को संबोधित करते हैं) अधिकांशत:त्रुटि नियमो को लगभग सामान्य बनाने में भी सहायता करते हैं।[5][6]


उदाहरण

समीकरण

अर्थ: X में एक इकाई वृद्धि, Y में औसत b इकाइयों की वृद्धि के साथ जुड़ी हुई है।

समीकरण:

(समीकरण के दोनों पक्षों के घातांक से: )
अर्थ: X में एक इकाई वृद्धि में b इकाइयों की औसत वृद्धि से जुड़ी है, या समकक्ष, Y औसतन के गुणक कारक से बढ़ती है। उदाहरणात्मक उद्देश्यों के लिए, यदि उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के स्थान पर आधार-10 लघुगणक का उपयोग किया जाता है और प्रतिगमन गुणांक को दर्शाने के लिए समान प्रतीकों (a और b) का उपयोग किया जाता है, तो x में एक इकाई वृद्धि से Y में औसतन कई गुना वृद्धि होती है। यदि बी 1 था, तो इसका मतलब x में एक इकाई वृद्धि के लिए वाई में 10 गुना वृद्धि है

समीकरण:

अर्थ: X में k-गुना वृद्धि, Y में औसतन इकाइयों की वृद्धि से जुड़ी है। उदाहरण के लिए, यदि आधार-10 लघुगणक उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के अतिरिक्त उपयोग किया गया था और समान प्रतीकों (a और b ) का उपयोग प्रतिगमन गुणांक को दर्शाने के लिए किया जाता है, तो x में दस गुना वृद्धि के परिणामस्वरूप y में इकाइयों की औसत वृद्धि होगी

समीकरण:

(समीकरण के दोनों पक्षों के घातांक से: )
अर्थ: X में -गुना वृद्धि औसतन Y में गुणात्मक वृद्धि से जुड़ी होती है। इस प्रकार यदि X दोगुना हो जाता है, तो इसके परिणामस्वरूप Y में के गुणक कारक से परिवर्तन होगा।[7]

वैकल्पिक

सामान्यीकृत रैखिक मॉडल (जीएलएम) सामान्य रैखिक प्रतिगमन का एक लचीला सामान्यीकरण प्रदान करते हैं जो प्रतिक्रिया वेरिएबल के लिए अनुमति देता है जिसमें सामान्य वितरण के अतिरिक्त त्रुटि वितरण मॉडल होते हैं। जीएलएम रैखिक मॉडल को एक लिंक फलन के माध्यम से प्रतिक्रिया वेरिएबल से संबंधित होने की अनुमति देते हैं और प्रत्येक माप के विचरण के परिमाण को इसके अनुमानित मूल्य का एक कार्य होने की अनुमति देते हैं।[8][9]

सामान्य स्थितियों

लघुगणक परिवर्तन और वर्गमूल परिवर्तन का उपयोग समान्यत: सकारात्मक डेटा के लिए किया जाता है, और गुणात्मक व्युत्क्रम परिवर्तन (पारस्परिक परिवर्तन) का उपयोग गैर-शून्य डेटा के लिए किया जा सकता है। पावर ट्रांसफॉर्मेशन (सांख्यिकी) एक गैर-नकारात्मक मान λ द्वारा परिचालित परिवर्तनों का एक वर्ग है जिसमें विशेष स्थितियों के रूप में लघुगणक, वर्गमूल और गुणात्मक व्युत्क्रम परिवर्तन सम्मिलित हैं। डेटा परिवर्तन को व्यवस्थित रूप से करने के लिए, शक्ति परिवर्तन में पैरामीटर λ का अनुमान लगाने के लिए अनुमान सिद्धांत तकनीकों का उपयोग करना संभव है, जिससे किसी दिए गए समुच्चयिंग में लगभग सबसे उपयुक्त परिवर्तन की पहचान हो सकता है चूंकि शक्ति परिवर्तन वर्ग में पहचान परिवर्तन भी सम्मिलित है, यह दृष्टिकोण यह भी संकेत कर सकता है कि क्या परिवर्तन के बिना डेटा का विश्लेषण करना सबसे अच्छा होगा। प्रतिगमन विश्लेषण में, इस दृष्टिकोण को 'बॉक्स-कॉक्स परिवर्तन' के रूप में जाना जाता है।

पारस्परिक परिवर्तन, कुछ शक्ति परिवर्तन जैसे येओ-जॉनसन परिवर्तन, और कुछ अन्य परिवर्तन जैसे विपरीत अतिशयोक्तिपूर्ण कार्य को प्रयुक्त करना है सार्थक रूप से डेटा पर प्रयुक्त किया जा सकता है जिसमें सकारात्मक और नकारात्मक दोनों मूल्य सम्मिलित हैं[10] (यदि λ एक विषम पूर्णांक है तो शक्ति परिवर्तन सभी वास्तविक संख्याओं पर विपरीत होता है)। चूँकि जब नकारात्मक और सकारात्मक दोनों मान देखे जाते हैं, तो कभी-कभी सभी मानों में एक स्थिरांक जोड़कर प्रारंभ करना समान्य होता है, जिससे गैर-नकारात्मक डेटा का एक समुच्चय तैयार होता है, जिसमें कोई भी शक्ति परिवर्तन प्रयुक्त किया जा सकता है।[3]

एक सामान्य स्थिति जहां डेटा परिवर्तन प्रयुक्त किया जाता है, वह तब होता है जब ब्याज का मूल्य परिमाण के कई क्रमों पर होता है। कई भौतिक और सामाजिक घटनाएँ इस तरह के व्यवहार को प्रदर्शित करती हैं - आय, प्रजातियों की संख्या, आकाशगंगा के आकार और वर्षा की मात्रा, कुछ के नाम शक्ति रूपांतरण, और विशेष रूप से लघुगणक, अधिकांशत:ऐसे डेटा में समरूपता को प्रेरित करने के लिए उपयोग किया जा सकता है। लघुगणक को अधिकांशत:पसंद किया जाता है क्योंकि तह परिवर्तन के संदर्भ में इसके परिणाम की व्याख्या करना आसान होता है।

लघुगणक का अनुपातों पर भी उपयोगी प्रभाव पड़ता है। यदि हम X / Y अनुपात का उपयोग करते है जो की सकारात्मक मात्रा X और Y की तुलना कर रहे हैं, तो यदि X < Y, अनुपात अंतराल (0,1) में है, जबकि यदि X > Y, अनुपात अर्ध-रेखा (1) में है ,∞), जहां 1 का अनुपात समानता से मेल खाता है। एक विश्लेषण में जहां X और Y को सममित रूप से व्यवहार किया जाता है, समानता के स्थिति में log -अनुपात log(X / Y) शून्य है, और इसकी गुण है कि यदि X, Y से K गुना अधिक है, तो log-अनुपात है शून्य से समान दूरी पर उस स्थिति में जहां Y, X से K गुना अधिक है (इन दो स्थितियों में log-अनुपात log(K) और -log(K) हैं)।

यदि मान स्वाभाविक रूप से 0 से 1 की सीमा में प्रतिबंधित हैं, अंत-बिंदुओं को सम्मिलित नहीं करते हैं, तो एक लॉगिट उपयुक्त हो सकता है: यह सीमा (-∞, ∞) में मान देता है।

सामान्यता में बदलना

1. सामान्य वितरण के समान डेटा समुच्चय को बदलना सदैव आवश्यक या वांछनीय नहीं होता है। चूँकि यदि समरूपता या सामान्यता वांछित है, तो उन्हें अधिकांशत:एक शक्ति परिवर्तन के माध्यम से प्रेरित किया जा सकता है।

2. जिपफ-मेंडेलब्रॉट नियम के अनुसार एक भाषाई शक्ति फलन वितरित किया जाता है। वितरण अत्यंत नुकीला और लेप्टोकुर्टिक है, यही कारण है कि शोधकर्ताओं को हल करने के लिए आंकड़ों से मुंह मोड़ना पड़ा था। लेखकत्व एट्रिब्यूशन समस्याएं फिर भी डेटा परिवर्तन प्रयुक्त करके गॉसियन सांख्यिकी का उपयोग पूरी तरह से संभव है।[11]

3. यह आकलन करने के लिए कि परिवर्तन के बाद सामान्यता प्राप्त की गई है या नहीं, किसी भी मानक सामान्यता परीक्षण का उपयोग किया जा सकता है। एक ग्राफिकल दृष्टिकोण समान्यत: एक औपचारिक सांख्यिकीय परीक्षण की तुलना में अधिक जानकारीपूर्ण होता है और इसलिए सामान्य संख्या के लिए डेटा समुच्चय के फिट का आकलन करने के लिए समान्यत: मात्रात्मक प्लॉट का उपयोग किया जाता है। वैकल्पिक रूप से, नमूना तिरछापन और कुकुदता पर आधारित वलय के नियम भी प्रस्तावित किए गए हैं।[12][13]

समान वितरण या मनमाना वितरण में बदलना

यदि हम n मानों X1, ..., Xn के एक समुच्चय को बिना किसी संबंध के देखते हैं (अथार्त , n हैं)। विशिष्ट मान), हम Xi को रूपांतरित मान Y = k से प्रतिस्थापित कर सकते हैं, जहां k को इस प्रकार परिभाषित किया गया है कि Xi सभी X मानों में kवां सबसे बड़ा है। इसे रैंक परिवर्तन कहा जाता है[14] और एक समान वितरण के लिए एकदम उपयुक्त डेटा तैयार करता है। इस दृष्टिकोण में जनसंख्या अनुरूपता है।

संभाव्यता अभिन्न परिवर्तन का उपयोग करते हुए, यदि X कोई यादृच्छिक वेरिएबल है, और F, X का संचयी वितरण कार्य है, तब तक जब तक F व्युत्क्रमणीय है, यादृच्छिक वेरिएबल U = F(X) इकाई अंतराल [0 , 1]। पर एक समान वितरण का अनुसरण करता है

एक समान वितरण से, हम किसी भी वितरण को एक व्युत्क्रमणीय संचयी वितरण फलन के साथ बदल सकते हैं। यदि G एक व्युत्क्रमणीय संचयी वितरण फलन है, और U एक समान रूप से वितरित यादृच्छिक वेरिएबल है, तो यादृच्छिक वेरिएबल G−1(U) का संचयी वितरण फलन G है।

दोनों को एक साथ रखने पर, यदि X कोई यादृच्छिक वेरिएबल है, F, X का व्युत्क्रमणीय संचयी वितरण फलन है, और G एक व्युत्क्रमणीय संचयी वितरण फलन है तो यादृच्छिक वेरिएबल G−1(F(X)) का संचयी वितरण फलन G है।

विचरण स्थिरीकरण परिवर्तन

कई प्रकार के सांख्यिकीय डेटा एक विचरण-पर-माध्य संबंध प्रदर्शित करते हैं, जिसका अर्थ है कि विभिन्न अपेक्षित मूल्य वाले डेटा मानों के लिए परिवर्तनशीलता अलग है। एक उदाहरण के रूप में, दुनिया में विभिन्न संख्या की तुलना में, औसत आय के साथ आय का अंतर बढ़ जाता है। यदि हम कई छोटे क्षेत्र इकाइयों (जैसे, संयुक्त राज्य अमेरिका में काउंटी) पर विचार करते हैं और प्रत्येक काउंटी के अंदर आय का औसत और भिन्नता प्राप्त करते हैं, तो यह सामान्य है कि उच्च औसत आय वाले काउंटी में भी उच्च भिन्नताएं होती हैं।

एक विचरण-स्थिर परिवर्तन का उद्देश्य विचरण-पर-माध्य संबंध को हटाना है, जिससे विचरण माध्य के सापेक्ष स्थिर हो जाता है । तो प्रसरण-स्थिरीकरण रूपांतरणों के उदाहरण नमूना सहसंबंध गुणांक के लिए फ़िशर रूपांतरण, पोइसन वितरण डेटा (गिनती डेटा) के लिए वर्गमूल रूपांतरण या एन्स्कोम्बे रूपांतरण, प्रतिगमन विश्लेषण के लिए बॉक्स-कॉक्स रूपांतरण, और द्विपद अनुपात विश्वास अंतराल या आर्कसीन रूपांतरण हैं या अनुपात के लिए कोणीय परिवर्तन (द्विपद वितरण डेटा)। जबकि समान्यत: आनुपातिक डेटा के सांख्यिकीय विश्लेषण के लिए उपयोग किया जाता है, आर्क्सिन वर्गमूल परिवर्तन की अनुशंसा नहीं की जाती है क्योंकि रसद प्रतिगमन या एक लॉगिट परिवर्तन क्रमशः द्विपद या गैर-द्विपद अनुपात के लिए अधिक उपयुक्त होते हैं, विशेष रूप से घटी हुई प्रकार I और प्रकार II त्रुटियों के कारण। प्रकार -द्वितीय त्रुटि है ।[15][3]

बहुभिन्नरूपी डेटा के लिए रूपांतरण

उनके सीमांत वितरण को संशोधित करने के लिए बहुभिन्नरूपी डेटा को बिंदु-वार प्रयुक्त किया जा सकता है। उचित रूप से निर्मित परिवर्तन का उपयोग करके बहुभिन्नरूपी वितरण की कुछ विशेषताओं को संशोधित करना भी संभव है। उदाहरण के लिए, समय श्रृंखला और अन्य प्रकार के अनुक्रमिक डेटा के साथ काम करते समय, स्थिर प्रक्रिया को उत्तम बनाने के लिए डेटा को सीमित करना समान्य बात है। यदि एक यादृच्छिक सदिश X द्वारा उत्पन्न डेटा को सदिश Xi के रूप में देखा जाता है सहप्रसरण आव्यूह Σ के साथ अवलोकनों की संख्या, एक रैखिक परिवर्तन का उपयोग डेटा को अलंकृत करने के लिए किया जा सकता है। ऐसा करने के लिए, चोलेस्की अपघटन का उपयोग Σ = A A' को व्यक्त करने के लिए किया जाता है। फिर रूपांतरित सदिश Yi = A−1Xi इसके सहप्रसरण आव्यूह के रूप में पहचान आव्यूह है।

यह भी देखें

संदर्भ

  1. Kuhn, Max; Johnson, Kjell (2013). Applied predictive modeling. New York. doi:10.1007/978-1-4614-6849-3. ISBN 9781461468493. LCCN 2013933452. OCLC 844349710. S2CID 60246745.{{cite book}}: CS1 maint: location missing publisher (link)
  2. Altman, Douglas G.; Bland, J. Martin (1996-04-27). "Statistics notes: Transformations, means, and confidence intervals". BMJ (in English). 312 (7038): 1079. doi:10.1136/bmj.312.7038.1079. ISSN 0959-8138. PMC 2350916. PMID 8616417.
  3. 3.0 3.1 3.2 "Data transformations - Handbook of Biological Statistics". www.biostathandbook.com. Retrieved 2019-03-19.
  4. "Lesson 9: Data Transformations | STAT 501". newonlinecourses.science.psu.edu. Retrieved 2019-03-17.
  5. 5.0 5.1 5.2 Kutner, Michael H.; Nachtsheim, Christopher J.; Neter, John; Li, William (2005). Applied linear statistical models (5th ed.). Boston: McGraw-Hill Irwin. pp. 129–133. ISBN 0072386886. LCCN 2004052447. OCLC 55502728.
  6. Altman, Douglas G.; Bland, J. Martin (1996-03-23). "Statistics Notes: Transforming data". BMJ (in English). 312 (7033): 770. doi:10.1136/bmj.312.7033.770. ISSN 0959-8138. PMC 2350481. PMID 8605469.
  7. "9.3 - Log-transforming Both the Predictor and Response | STAT 501". newonlinecourses.science.psu.edu. Retrieved 2019-03-17.
  8. Turner, Heather (2008). "Introduction to Generalized Linear Models" (PDF).
  9. Lo, Steson; Andrews, Sally (2015-08-07). "To transform or not to transform: using generalized linear mixed models to analyse reaction time data". Frontiers in Psychology. 6: 1171. doi:10.3389/fpsyg.2015.01171. ISSN 1664-1078. PMC 4528092. PMID 26300841.
  10. "Transformations: an introduction". fmwww.bc.edu. Retrieved 2019-03-19.
  11. Van Droogenbroeck F.J., 'An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics' (2019) [1]
  12. Kim, Hae-Young (2013-02-01). "Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis". Restorative Dentistry & Endodontics (in English). 38 (1): 52–54. doi:10.5395/rde.2013.38.1.52. ISSN 2234-7658. PMC 3591587. PMID 23495371.
  13. "Testing normality including skewness and kurtosis". imaging.mrc-cbu.cam.ac.uk. Retrieved 2019-03-18.
  14. "New View of Statistics: Non-parametric Models: Rank Transformation". www.sportsci.org. Retrieved 2019-03-23.
  15. Warton, D.; Hui, F. (2011). "The arcsine is asinine: the analysis of proportions in ecology". Ecology. 92 (1): 3–10. doi:10.1890/10-0340.1. hdl:1885/152287. PMID 21560670.


बाहरी संबंध