डेटा परिवर्तन (सांख्यिकी)

एक स्कैटर प्लॉट जिसमें दुनिया में संप्रभु राज्यों और आश्रित क्षेत्रों के क्षेत्रफल के आधार पर देशों की सूची क्षैतिज अक्ष पर जनसंख्या द्वारा देशों की उनकी सूची के विरुद्ध ऊर्ध्वाधर अक्ष पर प्लॉट की जाती है। ऊपरी भूखंड कच्चे डेटा का उपयोग करता है। निचले भूखंड में, लॉगरिदम फ़ंक्शन का उपयोग करके क्षेत्र और जनसंख्या डेटा दोनों को रूपांतरित किया गया है।

आँकड़ों में, डेटा परिवर्तन (गणित) डेटा सेट में प्रत्येक बिंदु के लिए एक नियतात्मक प्रणाली गणितीय फ़ंक्शन (गणित) का अनुप्रयोग है - अर्थात, प्रत्येक डेटा बिंदु z_iरूपांतरित मान y से प्रतिस्थापित किया जाता है_i= एफ (जेड_i), जहाँ f एक फलन है। ट्रांसफॉर्म आमतौर पर लागू होते हैं ताकि डेटा एक सांख्यिकीय अनुमान प्रक्रिया की मान्यताओं को अधिक बारीकी से पूरा करने के लिए लागू किया जा सके, या सांख्यिकीय ग्राफिक्स की व्याख्या या उपस्थिति में सुधार कर सके।

लगभग हमेशा, डेटा को बदलने के लिए उपयोग किया जाने वाला फ़ंक्शन उलटा कार्य होता है, और आम तौर पर निरंतर कार्य होता है। परिवर्तन आमतौर पर तुलनीय मापों के संग्रह पर लागू होता है। उदाहरण के लिए, यदि हम किसी मुद्रा इकाई में लोगों की आय पर डेटा के साथ काम कर रहे हैं, तो लॉगरिदम फ़ंक्शन द्वारा प्रत्येक व्यक्ति के आय मूल्य को बदलना सामान्य होगा।

प्रेरणा

डेटा को कैसे रूपांतरित किया जाना चाहिए, या क्या कोई परिवर्तन लागू किया जाना चाहिए, इसके लिए मार्गदर्शन, विशेष सांख्यिकीय विश्लेषण से किया जाना चाहिए। उदाहरण के लिए, जनसंख्या माध्य के लिए लगभग 95% विश्वास अंतराल बनाने का एक सरल तरीका अंकगणितीय माध्य प्लस या माइनस दो मानक त्रुटि इकाइयां लेना है। हालांकि, यहां इस्तेमाल किया गया निरंतर कारक 2 सामान्य वितरण के लिए विशेष रूप से है, और केवल तभी लागू होता है जब नमूना माध्य लगभग सामान्य रूप से भिन्न होता है। केंद्रीय सीमा प्रमेय कहता है कि कई स्थितियों में, नमूना का औसत सामान्य रूप से भिन्न होता है यदि नमूना आकार यथोचित रूप से बड़ा हो। हालांकि, यदि सांख्यिकीय आबादी काफी हद तक तिरछी है और नमूना आकार सबसे मध्यम है, तो केंद्रीय सीमा प्रमेय द्वारा प्रदान किया गया अनुमान खराब हो सकता है, और परिणामी विश्वास अंतराल में गलत कवरेज संभावना होगी। इस प्रकार, जब डेटा में पर्याप्त विषमता का प्रमाण होता है, तो डेटा को समरूपता संभाव्यता वितरण में बदलना आम बात है^[1] विश्वास अंतराल बनाने से पहले। यदि वांछित है, तो विश्वास अंतराल को डेटा पर लागू किए गए परिवर्तन के व्युत्क्रम का उपयोग करके मूल पैमाने पर वापस रूपांतरित किया जा सकता है।^[2]^[3] उन्हें देखने में आसान बनाने के लिए डेटा को भी रूपांतरित किया जा सकता है। उदाहरण के लिए, मान लीजिए कि हमारे पास एक स्कैटरप्लॉट है जिसमें बिंदु दुनिया के देश हैं, और प्लॉट किए जा रहे डेटा मान प्रत्येक देश का भूमि क्षेत्र और जनसंख्या हैं। यदि प्लॉट अपरिवर्तित डेटा (जैसे क्षेत्र के लिए वर्ग किलोमीटर और जनसंख्या के लिए लोगों की संख्या) का उपयोग करके बनाया गया है, तो अधिकांश देशों को ग्राफ़ के निचले बाएँ कोने में बिंदुओं के तंग समूह में प्लॉट किया जाएगा। बहुत बड़े क्षेत्रों और/या आबादी वाले कुछ देश ग्राफ़ के अधिकांश क्षेत्र में बहुत कम फैले होंगे। मात्र रीस्केलिंग इकाइयां (जैसे, हजार वर्ग किलोमीटर या लाखों लोगों के लिए) इसे नहीं बदलेगी। हालांकि, क्षेत्र और जनसंख्या दोनों के लॉगरिदमिक परिवर्तनों के बाद, अंक ग्राफ़ में अधिक समान रूप से फैले होंगे।

डेटा परिवर्तन को लागू करने का एक अन्य कारण व्याख्यात्मकता में सुधार करना है, भले ही कोई औपचारिक सांख्यिकीय विश्लेषण या विज़ुअलाइज़ेशन न किया गया हो। उदाहरण के लिए, मान लीजिए कि हम कारों की तुलना उनकी ईंधन अर्थव्यवस्था के संदर्भ में कर रहे हैं। ये डेटा आमतौर पर किलोमीटर प्रति लीटर या मील प्रति गैलन के रूप में प्रस्तुत किए जाते हैं। हालांकि, यदि लक्ष्य यह आकलन करना है कि एक कार चलाते समय एक व्यक्ति दूसरे की तुलना में एक वर्ष में कितना अतिरिक्त ईंधन का उपयोग करेगा, तो गुणक व्युत्क्रम को लागू करके रूपांतरित डेटा के साथ काम करना अधिक स्वाभाविक है, लीटर प्रति किलोमीटर, या गैलन प्रति मील।

प्रतिगमन में

यदि मूल डेटा रैखिक प्रतिगमन की एक या अधिक मान्यताओं का उल्लंघन करता है, तो डेटा को रैखिक प्रतिगमन के साथ मॉडलिंग के लिए उपयुक्त बनाने के लिए उपचारात्मक उपाय के रूप में डेटा परिवर्तन का उपयोग किया जा सकता है।^[4] उदाहरण के लिए, सबसे सरल रेखीय प्रतिगमन मॉडल Y के अपेक्षित मूल्य (आश्रित और स्वतंत्र चर#भविष्यवाणी किए जाने वाले सांख्यिकी समानार्थक शब्द) और प्रत्येक आश्रित और स्वतंत्र चर (जब अन्य स्वतंत्र चर तय किए जाते हैं) के बीच एक रैखिक संबंध मानते हैं। यदि रैखिकता लगभग भी धारण करने में विफल रहती है, तो कभी-कभी रैखिकता में सुधार के लिए प्रतिगमन मॉडल में स्वतंत्र या आश्रित चर को बदलना संभव होता है।^[5] उदाहरण के लिए, मूल स्वतंत्र चर के द्विघात कार्यों को जोड़ने से Y के अपेक्षित मूल्य के साथ एक रैखिक संबंध हो सकता है, जिसके परिणामस्वरूप बहुपद प्रतिगमन मॉडल, रैखिक प्रतिगमन का एक विशेष मामला होता है।

रेखीय प्रतिगमन की एक और धारणा समरूपता है, जो कि त्रुटियों का विचरण है और भविष्यवाणियों के मूल्यों की परवाह किए बिना अवशिष्ट समान होना चाहिए। यदि इस धारणा का उल्लंघन किया जाता है (अर्थात यदि डेटा विषमलैंगिकता है), तो अकेले Y का परिवर्तन, या दोनों X (आश्रित और स्वतंत्र चर#सांख्यिकी समानार्थक शब्द) और Y का परिवर्तन संभव हो सकता है, जैसे कि समरूपता धारणा ( रैखिकता धारणा के अतिरिक्त) रूपांतरित चरों पर सत्य है^[5]और इन पर रैखिक प्रतिगमन लागू किया जा सकता है।

फिर भी डेटा परिवर्तन का एक अन्य अनुप्रयोग त्रुटि के संदर्भ में सामान्य वितरण की कमी की समस्या का समाधान करना है। प्रतिगमन मापदंडों के कम से कम वर्गों के अनुमानों के सार्थक होने के लिए यूनीवेरिएट सामान्यता की आवश्यकता नहीं है (गॉस-मार्कोव प्रमेय देखें)। हालाँकि विश्वास अंतराल और परिकल्पना परीक्षणों में बेहतर सांख्यिकीय गुण होंगे यदि चर बहुभिन्नरूपी सामान्य वितरण प्रदर्शित करते हैं। रूपांतरण जो त्रुटि शर्तों के भिन्नता को स्थिर करते हैं (यानी वे जो विषमलैंगिकता को संबोधित करते हैं) अक्सर त्रुटि शर्तों को लगभग सामान्य बनाने में भी मदद करते हैं।^[5]^[6]

उदाहरण

समीकरण: $Y=a+bX$

अर्थ: X में एक इकाई वृद्धि, Y में औसत b इकाइयों की वृद्धि के साथ जुड़ी हुई है।

समीकरण: $\log(Y)=a+bX$

(समीकरण के दोनों पक्षों के घातांक से:

Y=e^{a}e^{bX}

)

अर्थ: X में एक इकाई वृद्धि में b इकाइयों की औसत वृद्धि के साथ जुड़ा हुआ है

\log(Y)

, या समतुल्य, Y के गुणन कारक द्वारा औसतन बढ़ता है

e^{b}\!

. व्याख्यात्मक उद्देश्यों के लिए, यदि उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के बजाय सामान्य लघुगणक | आधार -10 लघुगणक का उपयोग किया गया था और समान प्रतीकों (ए और बी) का उपयोग प्रतिगमन गुणांक को दर्शाने के लिए किया जाता है, तो एक्स में एक इकाई वृद्धि एक की ओर ले जाएगी

10^{b}

Y में औसतन गुना वृद्धि होती है। यदि बी 1 थे, तो इसका तात्पर्य एक्स में एक इकाई वृद्धि के लिए वाई में 10 गुना वृद्धि है

समीकरण: $Y=a+b\log(X)$

अर्थ: एक्स में एक के-गुना वृद्धि औसत के साथ जुड़ा हुआ है

b\times \log(k)

Y में इकाइयाँ बढ़ती हैं। व्याख्यात्मक उद्देश्यों के लिए, यदि उपरोक्त परिवर्तन में प्राकृतिक लघुगणक के बजाय सामान्य लघुगणक | आधार -10 लघुगणक का उपयोग किया गया था और समान प्रतीकों (a और b) का उपयोग प्रतिगमन गुणांक को दर्शाने के लिए किया जाता है, तो X में दस गुना वृद्धि की औसत वृद्धि होगी

b\times \log _{10}(10)=b

वाई में इकाइयां

समीकरण: $\log(Y)=a+b\log(X)$

(समीकरण के दोनों पक्षों के घातांक से:

Y=e^{a}X^{b}

)

अर्थ: एक्स में एक के-गुना वृद्धि एक के साथ जुड़ी हुई है

k^{b}

वाई में औसतन गुणक वृद्धि। इस प्रकार यदि X दोगुना हो जाता है, तो इसका परिणाम Y के गुणन कारक द्वारा बदल जाएगा

2^{b}\!

.^[7]

वैकल्पिक

सामान्यीकृत रैखिक मॉडल (जीएलएम) सामान्य रैखिक प्रतिगमन का एक लचीला सामान्यीकरण प्रदान करते हैं जो प्रतिक्रिया चर के लिए अनुमति देता है जिसमें सामान्य वितरण के अलावा त्रुटि वितरण मॉडल होते हैं। जीएलएम रैखिक मॉडल को एक लिंक फ़ंक्शन के माध्यम से प्रतिक्रिया चर से संबंधित होने की अनुमति देते हैं और प्रत्येक माप के विचरण के परिमाण को इसके अनुमानित मूल्य का एक कार्य होने की अनुमति देते हैं।^[8]^[9]

सामान्य मामले

लघुगणक परिवर्तन और वर्गमूल परिवर्तन का उपयोग आमतौर पर सकारात्मक डेटा के लिए किया जाता है, और गुणात्मक व्युत्क्रम परिवर्तन (पारस्परिक परिवर्तन) का उपयोग गैर-शून्य डेटा के लिए किया जा सकता है। पावर ट्रांसफॉर्मेशन (सांख्यिकी) एक गैर-नकारात्मक मान λ द्वारा परिचालित परिवर्तनों का एक परिवार है जिसमें विशेष मामलों के रूप में लघुगणक, वर्गमूल और गुणात्मक व्युत्क्रम परिवर्तन शामिल हैं। डेटा परिवर्तन को व्यवस्थित रूप से करने के लिए, शक्ति परिवर्तन में पैरामीटर λ का अनुमान लगाने के लिए अनुमान सिद्धांत तकनीकों का उपयोग करना संभव है, जिससे किसी दिए गए सेटिंग में लगभग सबसे उपयुक्त परिवर्तन की पहचान हो सके। चूंकि शक्ति परिवर्तन परिवार में पहचान परिवर्तन भी शामिल है, यह दृष्टिकोण यह भी संकेत कर सकता है कि क्या परिवर्तन के बिना डेटा का विश्लेषण करना सबसे अच्छा होगा। प्रतिगमन विश्लेषण में, इस दृष्टिकोण को 'बॉक्स-कॉक्स परिवर्तन' के रूप में जाना जाता है।

पारस्परिक परिवर्तन, कुछ शक्ति परिवर्तन जैसे येओ-जॉनसन परिवर्तन, और कुछ अन्य परिवर्तन जैसे उलटा अतिशयोक्तिपूर्ण कार्यों को लागू करना, सार्थक रूप से डेटा पर लागू किया जा सकता है जिसमें सकारात्मक और नकारात्मक दोनों मूल्य शामिल हैं^[10] (यदि λ एक विषम पूर्णांक है तो शक्ति परिवर्तन सभी वास्तविक संख्याओं पर उलटा होता है)। हालाँकि, जब नकारात्मक और सकारात्मक दोनों मान देखे जाते हैं, तो कभी-कभी सभी मानों में एक स्थिरांक जोड़कर शुरू करना आम होता है, जिससे गैर-नकारात्मक डेटा का एक सेट तैयार होता है, जिसमें कोई भी शक्ति परिवर्तन लागू किया जा सकता है।^[3]

एक सामान्य स्थिति जहां डेटा परिवर्तन लागू किया जाता है, वह तब होता है जब ब्याज का मूल्य परिमाण के कई क्रमों पर होता है। कई भौतिक और सामाजिक घटनाएँ इस तरह के व्यवहार को प्रदर्शित करती हैं - आय, प्रजातियों की आबादी, आकाशगंगा के आकार और वर्षा की मात्रा, कुछ के नाम। शक्ति रूपांतरण, और विशेष रूप से लघुगणक, अक्सर ऐसे डेटा में समरूपता को प्रेरित करने के लिए उपयोग किया जा सकता है। लघुगणक को अक्सर पसंद किया जाता है क्योंकि तह परिवर्तन के संदर्भ में इसके परिणाम की व्याख्या करना आसान होता है।

लघुगणक का अनुपातों पर भी उपयोगी प्रभाव पड़ता है। यदि हम X / Y अनुपात का उपयोग करके सकारात्मक मात्रा X और Y की तुलना कर रहे हैं, तो यदि X < Y, अनुपात अंतराल (0,1) में है, जबकि यदि X > Y, अनुपात अर्ध-रेखा (1) में है ,∞), जहां 1 का अनुपात समानता से मेल खाता है। एक विश्लेषण में जहां X और Y को सममित रूप से व्यवहार किया जाता है, समानता के मामले में लॉग-अनुपात लॉग (X / Y) शून्य है, और इसकी संपत्ति है कि यदि X, Y से K गुना अधिक है, तो लॉग-अनुपात है शून्य से समान दूरी पर उस स्थिति में जहां Y, X से K गुना अधिक है (इन दो स्थितियों में लॉग-अनुपात log(K) और -log(K) हैं)।

यदि मान स्वाभाविक रूप से 0 से 1 की सीमा में प्रतिबंधित हैं, अंत-बिंदुओं को शामिल नहीं करते हैं, तो एक लॉगिट उपयुक्त हो सकता है: यह सीमा (-∞, ∞) में मान देता है।

सामान्यता में बदलना

1. सामान्य वितरण के समान डेटा सेट को बदलना हमेशा आवश्यक या वांछनीय नहीं होता है। हालांकि, यदि समरूपता या सामान्यता वांछित है, तो उन्हें अक्सर एक शक्ति परिवर्तन के माध्यम से प्रेरित किया जा सकता है।

2. जिपफ-मेंडेलब्रॉट कानून के अनुसार एक भाषाई शक्ति समारोह वितरित किया जाता है। वितरण अत्यंत नुकीला और leptokurtic है, यही कारण है कि शोधकर्ताओं को हल करने के लिए आंकड़ों से मुंह मोड़ना पड़ा। लेखकत्व एट्रिब्यूशन समस्याएं। फिर भी, डेटा परिवर्तन लागू करके गॉसियन सांख्यिकी का उपयोग पूरी तरह से संभव है।^[11] 3. यह आकलन करने के लिए कि परिवर्तन के बाद सामान्यता हासिल की गई है या नहीं, किसी भी मानक सामान्यता परीक्षण का उपयोग किया जा सकता है। एक ग्राफिकल दृष्टिकोण आमतौर पर एक औपचारिक सांख्यिकीय परीक्षण की तुलना में अधिक जानकारीपूर्ण होता है और इसलिए सामान्य आबादी के लिए डेटा सेट के फिट का आकलन करने के लिए आमतौर पर क्यू-क्यू प्लॉट का उपयोग किया जाता है। वैकल्पिक रूप से, नमूना तिरछापन और कुकुदता पर आधारित अंगूठे के नियम भी प्रस्तावित किए गए हैं।^[12]^[13]

=== एक समान वितरण या मनमाना वितरण === में बदलना यदि हम n मान X के एक सेट का अवलोकन करते हैं₁, ..., एक्स_n बिना संबंधों के (अर्थात, n विशिष्ट मान हैं), हम X को प्रतिस्थापित कर सकते हैं_i परिवर्तित मान Y के साथ_i = k, जहाँ k को इस प्रकार परिभाषित किया गया है कि X_i कश्मीर है^वां सभी X मानों में सबसे बड़ा है। इसे रैंक परिवर्तन कहा जाता है,^[14] और एक समान वितरण (असतत) के लिए एकदम सही फिट के साथ डेटा बनाता है। इस दृष्टिकोण में एक सांख्यिकीय जनसंख्या अनुरूप है।

संभाव्यता अभिन्न परिवर्तन का उपयोग करते हुए, यदि X कोई यादृच्छिक चर है, और F, X का संचयी वितरण कार्य है, तब तक जब तक F व्युत्क्रमणीय है, यादृच्छिक चर U = F(X) इकाई अंतराल पर एक समान वितरण का अनुसरण करता है [0 , 1]।

एक समान वितरण से, हम किसी भी वितरण को एक व्युत्क्रमणीय संचयी वितरण फ़ंक्शन के साथ बदल सकते हैं। यदि G एक व्युत्क्रमणीय संचयी वितरण फलन है, और U एक समान रूप से वितरित यादृच्छिक चर है, तो यादृच्छिक चर G⁻¹(U) का संचयी बंटन फलन G है।

दोनों को एक साथ रखने पर, यदि X कोई यादृच्छिक चर है, F, X का व्युत्क्रमणीय संचयी वितरण फलन है, और G एक व्युत्क्रमणीय संचयी वितरण फलन है तो यादृच्छिक चर G⁻¹(F(X)) का संचयी बंटन फलन G है।

विचरण स्थिरीकरण परिवर्तन

कई प्रकार के सांख्यिकीय डेटा एक विचरण-पर-माध्य संबंध प्रदर्शित करते हैं, जिसका अर्थ है कि विभिन्न अपेक्षित मूल्यों वाले डेटा मानों के लिए परिवर्तनशीलता अलग है। एक उदाहरण के रूप में, दुनिया में विभिन्न आबादी की तुलना में, औसत आय के साथ आय का अंतर बढ़ जाता है। यदि हम कई छोटे क्षेत्र इकाइयों (जैसे, संयुक्त राज्य अमेरिका में काउंटी) पर विचार करते हैं और प्रत्येक काउंटी के भीतर आय का औसत और भिन्नता प्राप्त करते हैं, तो यह सामान्य है कि उच्च औसत आय वाले काउंटी में भी उच्च भिन्नताएं होती हैं।

एक विचरण-स्थिर परिवर्तन का उद्देश्य विचरण-पर-माध्य संबंध को हटाना है, ताकि विचरण माध्य के सापेक्ष स्थिर हो जाए। प्रसरण-स्थिरीकरण रूपांतरणों के उदाहरण नमूना सहसंबंध गुणांक के लिए फ़िशर रूपांतरण, पोइसन वितरण डेटा (गिनती डेटा) के लिए वर्गमूल रूपांतरण या Anscombe रूपांतरण, प्रतिगमन विश्लेषण के लिए बॉक्स-कॉक्स रूपांतरण, और द्विपद अनुपात विश्वास अंतराल #Arcsine रूपांतरण हैं या अनुपात के लिए कोणीय परिवर्तन (द्विपद वितरण डेटा)। जबकि आमतौर पर आनुपातिक डेटा के सांख्यिकीय विश्लेषण के लिए उपयोग किया जाता है, आर्क्सिन वर्गमूल परिवर्तन की अनुशंसा नहीं की जाती है क्योंकि रसद प्रतिगमन या एक लॉगिट परिवर्तन क्रमशः द्विपद या गैर-द्विपद अनुपात के लिए अधिक उपयुक्त होते हैं, विशेष रूप से घटी हुई प्रकार I और प्रकार II त्रुटियों के कारण। प्रकार -द्वितीय त्रुटि।^[15]^[3]

बहुभिन्नरूपी डेटा के लिए रूपांतरण

उनके सीमांत वितरण को संशोधित करने के लिए बहुभिन्नरूपी डेटा को बिंदु-वार लागू किया जा सकता है। उचित रूप से निर्मित परिवर्तन का उपयोग करके बहुभिन्नरूपी वितरण की कुछ विशेषताओं को संशोधित करना भी संभव है। उदाहरण के लिए, समय श्रृंखला और अन्य प्रकार के अनुक्रमिक डेटा के साथ काम करते समय, स्थिर प्रक्रिया को बेहतर बनाने के लिए डेटा को सीमित करना आम बात है। यदि एक यादृच्छिक वेक्टर X द्वारा उत्पन्न डेटा को वेक्टर X के रूप में देखा जाता है_i सहप्रसरण मैट्रिक्स Σ के साथ अवलोकनों की संख्या, एक रैखिक परिवर्तन का उपयोग डेटा को अलंकृत करने के लिए किया जा सकता है। ऐसा करने के लिए, Cholesky अपघटन का उपयोग Σ = A A' को व्यक्त करने के लिए किया जाता है। फिर रूपांतरित वेक्टर वाई_i = ए^-1X_i इसके सहप्रसरण मैट्रिक्स के रूप में पहचान मैट्रिक्स है।

यह भी देखें

आर्कसिन
फ़ीचर इंजीनियरिंग
लॉग इन करें
गैर रेखीय प्रतिगमन # परिवर्तन
पियर्सन सहसंबंध गुणांक
शक्ति परिवर्तन (बॉक्स-कॉक्स)
विल्सन-हिल्फर्टी परिवर्तन
सफेदी परिवर्तन

संदर्भ

↑ Kuhn, Max; Johnson, Kjell (2013). Applied predictive modeling. New York. doi:10.1007/978-1-4614-6849-3. ISBN 9781461468493. LCCN 2013933452. OCLC 844349710. S2CID 60246745.{{cite book}}: CS1 maint: location missing publisher (link)
↑ Altman, Douglas G.; Bland, J. Martin (1996-04-27). "Statistics notes: Transformations, means, and confidence intervals". BMJ (in English). 312 (7038): 1079. doi:10.1136/bmj.312.7038.1079. ISSN 0959-8138. PMC 2350916. PMID 8616417.
↑ ^3.0 ^3.1 ^3.2 "Data transformations - Handbook of Biological Statistics". www.biostathandbook.com. Retrieved 2019-03-19.
↑ "Lesson 9: Data Transformations | STAT 501". newonlinecourses.science.psu.edu. Retrieved 2019-03-17.
↑ ^5.0 ^5.1 ^5.2 Kutner, Michael H.; Nachtsheim, Christopher J.; Neter, John; Li, William (2005). Applied linear statistical models (5th ed.). Boston: McGraw-Hill Irwin. pp. 129–133. ISBN 0072386886. LCCN 2004052447. OCLC 55502728.
↑ Altman, Douglas G.; Bland, J. Martin (1996-03-23). "Statistics Notes: Transforming data". BMJ (in English). 312 (7033): 770. doi:10.1136/bmj.312.7033.770. ISSN 0959-8138. PMC 2350481. PMID 8605469.
↑ "9.3 - Log-transforming Both the Predictor and Response | STAT 501". newonlinecourses.science.psu.edu. Retrieved 2019-03-17.
↑ Turner, Heather (2008). "Introduction to Generalized Linear Models" (PDF).
↑ Lo, Steson; Andrews, Sally (2015-08-07). "To transform or not to transform: using generalized linear mixed models to analyse reaction time data". Frontiers in Psychology. 6: 1171. doi:10.3389/fpsyg.2015.01171. ISSN 1664-1078. PMC 4528092. PMID 26300841.
↑ "Transformations: an introduction". fmwww.bc.edu. Retrieved 2019-03-19.
↑ Van Droogenbroeck F.J., 'An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics' (2019) [1]
↑ Kim, Hae-Young (2013-02-01). "Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis". Restorative Dentistry & Endodontics (in English). 38 (1): 52–54. doi:10.5395/rde.2013.38.1.52. ISSN 2234-7658. PMC 3591587. PMID 23495371.
↑ "Testing normality including skewness and kurtosis". imaging.mrc-cbu.cam.ac.uk. Retrieved 2019-03-18.
↑ "New View of Statistics: Non-parametric Models: Rank Transformation". www.sportsci.org. Retrieved 2019-03-23.
↑ Warton, D.; Hui, F. (2011). "The arcsine is asinine: the analysis of proportions in ecology". Ecology. 92 (1): 3–10. doi:10.1890/10-0340.1. hdl:1885/152287. PMID 21560670.

बाहरी संबंध

Log Transformations for Skewed and Wide Distributions – discussing the log and the "signed logarithm" transformations (A chapter from "Practical Data Science with R").

[1] Kuhn, Max; Johnson, Kjell (2013). Applied predictive modeling. New York. doi:10.1007/978-1-4614-6849-3. ISBN 9781461468493. LCCN 2013933452. OCLC 844349710. S2CID 60246745.{{cite book}}: CS1 maint: location missing publisher (link)

[2] Altman, Douglas G.; Bland, J. Martin (1996-04-27). "Statistics notes: Transformations, means, and confidence intervals". BMJ (in English). 312 (7038): 1079. doi:10.1136/bmj.312.7038.1079. ISSN 0959-8138. PMC 2350916. PMID 8616417.

[:1-3] 3.0 ^3.1 ^3.2 "Data transformations - Handbook of Biological Statistics". www.biostathandbook.com. Retrieved 2019-03-19.

[4] "Lesson 9: Data Transformations | STAT 501". newonlinecourses.science.psu.edu. Retrieved 2019-03-17.

[:0-5] 5.0 ^5.1 ^5.2 Kutner, Michael H.; Nachtsheim, Christopher J.; Neter, John; Li, William (2005). Applied linear statistical models (5th ed.). Boston: McGraw-Hill Irwin. pp. 129–133. ISBN 0072386886. LCCN 2004052447. OCLC 55502728.

[6] Altman, Douglas G.; Bland, J. Martin (1996-03-23). "Statistics Notes: Transforming data". BMJ (in English). 312 (7033): 770. doi:10.1136/bmj.312.7033.770. ISSN 0959-8138. PMC 2350481. PMID 8605469.

[7] "9.3 - Log-transforming Both the Predictor and Response | STAT 501". newonlinecourses.science.psu.edu. Retrieved 2019-03-17.

[8] Turner, Heather (2008). "Introduction to Generalized Linear Models" (PDF).

[9] Lo, Steson; Andrews, Sally (2015-08-07). "To transform or not to transform: using generalized linear mixed models to analyse reaction time data". Frontiers in Psychology. 6: 1171. doi:10.3389/fpsyg.2015.01171. ISSN 1664-1078. PMC 4528092. PMID 26300841.

[10] "Transformations: an introduction". fmwww.bc.edu. Retrieved 2019-03-19.

[11] Van Droogenbroeck F.J., 'An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics' (2019) [1]

[12] Kim, Hae-Young (2013-02-01). "Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis". Restorative Dentistry & Endodontics (in English). 38 (1): 52–54. doi:10.5395/rde.2013.38.1.52. ISSN 2234-7658. PMC 3591587. PMID 23495371.

[13] "Testing normality including skewness and kurtosis". imaging.mrc-cbu.cam.ac.uk. Retrieved 2019-03-18.

[14] "New View of Statistics: Non-parametric Models: Rank Transformation". www.sportsci.org. Retrieved 2019-03-23.

[The_arcsine_is_asinine-15] Warton, D.; Hui, F. (2011). "The arcsine is asinine: the analysis of proportions in ecology". Ecology. 92 (1): 3–10. doi:10.1890/10-0340.1. hdl:1885/152287. PMID 21560670.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Anonymous

Search

डेटा परिवर्तन (सांख्यिकी)

Namespaces

More

Page actions

Contents

प्रेरणा