प्रतिरूपण (सांख्यिकी): Difference between revisions
(Created page with "{{Short description|Process of replacing missing data with substituted values}} {{Other uses of|imputation|Imputation (disambiguation)}} आँकड़ों में, प...") |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Process of replacing missing data with substituted values}} | {{Short description|Process of replacing missing data with substituted values}}आँकड़ों में, प्रतिरूपण अप्राप्त डेटा (मिसिंग डेटा) को प्रतिस्थापित मानों से बदलने की प्रक्रिया है। किसी डेटा बिंदु के लिए प्रतिस्थापन करते समय, इसे इकाई प्रतिरूपण के रूप में जाना जाता है; जब किसी डेटा बिंदु के एक घटक को प्रतिस्थापित किया जाता है, तो इसे आइटम प्रतिरूपण के रूप में जाना जाता है। अप्राप्त डेटा के कारण तीन मुख्य समस्याएं हैं: अप्राप्त डेटा पर्याप्त मात्रा में [[पूर्वाग्रह (सांख्यिकी)]] ला सकता है, डेटा के प्रबंधन और विश्लेषण को अधिक कठिन बना सकता है, और [[दक्षता (सांख्यिकी)]] में कमी ला सकता है।<ref>{{Cite journal|last1=Barnard|first1=J.|last2=Meng|first2=X. L.|date=1999-03-01|title=Applications of multiple imputation in medical studies: from AIDS to NHANES|journal=Statistical Methods in Medical Research|volume=8|issue=1|pages=17–36|issn=0962-2802|pmid=10347858|doi=10.1177/096228029900800103|s2cid=11453137}}</ref> चूँकि अप्राप्त डेटा डेटा के विश्लेषण के लिए समस्याएँ प्रकट कर सकता है, इसलिए प्रतिरूपण को उन मामलों की [[सूचीवार विलोपन]] से जुड़े नुकसान से बचने के एक तरीके के रूप में देखा जाता है जिनमें अप्राप्त मूल्य हैं। कहने का तात्पर्य यह है कि, जब किसी मामले के लिए एक या एक से अधिक मान अप्राप्त होते हैं, तो सांख्यिकीय पैकेजों की अधिकांश सूची किसी भी ऐसे मामले को त्यागने में डिफ़ॉल्ट होती है, जिसमें अप्राप्त मूल्य होता है, जो पूर्वाग्रह प्रकट कर सकता है या परिणामों की प्रतिनिधित्वशीलता को प्रभावित कर सकता है। अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्य के साथ अप्राप्त डेटा को प्रतिस्थापित करके इंप्यूटेशन सभी मामलों को संरक्षित करता है। एक बार सभी अप्राप्त मानों को आरोपित कर दिए जाने के बाद, संपूर्ण डेटा के लिए मानक तकनीकों का उपयोग करके डेटा सेट का विश्लेषण किया जा सकता है।<ref>Gelman, Andrew, and [[Jennifer Hill]]. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25</ref> अप्राप्त डेटा के लिए वैज्ञानिकों द्वारा कई सिद्धांत अपनाए गए हैं लेकिन उनमें से अधिकांश पूर्वाग्रह का परिचय देते हैं। अप्राप्त डेटा से निपटने के कुछ प्रसिद्ध प्रयासों में सम्मिलित हैं: हॉट डेक और कोल्ड डेक इंप्यूटेशन; सूचीवार और जोड़ीवार विलोपन; मतलब आरोपण; गैर-नकारात्मक मैट्रिक्स गुणनखंडन; प्रतिगमन आरोपण; अंतिम अवलोकन आगे बढ़ाया गया; स्टोकेस्टिक प्रतिरूपण; और एकाधिक आरोपण. | ||
{{ | |||
== सूचीवार (पूरा मामला) विलोपन == | |||
{{Main|सूचीवार विलोपन}} | |||
अब तक, अप्राप्त डेटा से निपटने का सबसे आम साधन सूचीवार विलोपन (जिसे पूर्ण मामला भी कहा जाता है) है, जो तब होता है जब अप्राप्त मूल्य वाले सभी मामले हटा दिए जाते हैं। यदि डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त है, तो सूचीवार विलोपन से कोई पूर्वाग्रह नहीं जुड़ता है, लेकिन यह प्रभावी नमूना आकार को कम करके विश्लेषण की [[शक्ति (सांख्यिकी)]] को कम कर देता है। उदाहरण के लिए, यदि 1000 मामले एकत्र किए गए हैं लेकिन 80 में अप्राप्त मूल्य हैं, तो सूचीवार विलोपन के बाद प्रभावी नमूना आकार 920 है। यदि मामले पूरी तरह से यादृच्छिक रूप से अप्राप्त नहीं हैं, तो सूचीवार विलोपन पूर्वाग्रह का परिचय देगा क्योंकि अप्राप्त डेटा द्वारा दर्शाए गए मामलों के उप-नमूने मूल नमूने के प्रतिनिधि नहीं हैं (और यदि मूल नमूना स्वयं किसी आबादी का प्रतिनिधि नमूना था, तो पूरे मामले भी उस आबादी के प्रतिनिधि नहीं हैं)।<ref name="cambridge.org">{{Cite journal|last1=Lall|first1=Ranjit|date=2016|title=अनेक दोषारोपण से कैसे फर्क पड़ता है|url=https://www.cambridge.org/core/journals/political-analysis/article/how-multiple-imputation-makes-a-difference/8C6616B679EF8F3EB0041B1BC88EEBB9|journal=Political Analysis|language=en|volume=24|issue=4|pages=414–433|doi=10.1093/pan/mpw020|doi-access=free}}</ref> जबकि सूचीवार विलोपन निष्पक्ष होता है जब अप्राप्त डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त होता है, वास्तविकता में ऐसा शायद ही कभी होता है।<ref>{{Cite journal|last=Kenward|first=Michael G|date=2013-02-26|title=नैदानिक परीक्षणों में गुम डेटा का प्रबंधन|journal=Clinical Investigation|volume=3|issue=3|pages=241–250|doi=10.4155/cli.13.7|issn=2041-6792|url=https://semanticscholar.org/paper/964403060982c44cc10842084105de256876b8c6}}</ref> | |||
अब तक, | युग्मानूसार विलोपन (या उपलब्ध केस विश्लेषण) में किसी मामले को तब हटाना सम्मिलित होता है जब उसमें किसी विशेष विश्लेषण के लिए आवश्यक चर अप्राप्त होता है, लेकिन उस मामले को विश्लेषण में सम्मिलित किया जाता है जिसके लिए सभी आवश्यक चर उपस्थित होते हैं। जब जोड़ीवार विलोपन का उपयोग किया जाता है, तो विश्लेषण के लिए कुल एन पैरामीटर अनुमानों के अनुरूप नहीं होगा। समय में कुछ बिंदुओं पर अपूर्ण एन मानों के कारण, अन्य मापदंडों के लिए पूर्ण मामले की तुलना बनाए रखते हुए, जोड़ीदार विलोपन 100% से अधिक सहसंबंध जैसी असंभव गणितीय स्थितियों को प्रस्तुत कर सकता है।<ref name="enders2010">{{cite book |last=Enders |first=C. K. |year=2010 |title=अनुप्रयुक्त गुम डेटा विश्लेषण|location=New York |publisher=Guilford Press |isbn=978-1-60623-639-0 }}</ref> | ||
संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के | संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के अतिरिक्त अप्राप्त डेटा को संभालने के लिए संपूर्ण केस सबसे लोकप्रिय तरीका है। | ||
==एकल आरोप== | ==एकल आरोप== | ||
===हॉट-डेक=== | ===हॉट-डेक=== | ||
प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक | प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक अप्राप्त मान लगाया गया था। हॉट डेक शब्द [[छिद्रित कार्ड]]ों पर डेटा के भंडारण से संबंधित है, और इंगित करता है कि सूचना दाता प्राप्तकर्ताओं के समान डेटासेट से आते हैं। कार्डों का ढेर गर्म था क्योंकि यह अभी संसाधित हो रहा था। | ||
हॉट-डेक इंप्यूटेशन के एक रूप को अंतिम अवलोकन को आगे बढ़ाया जाता है (या संक्षेप में एलओसीएफ) कहा जाता है, जिसमें कई चर के अनुसार डेटासेट को सॉर्ट करना सम्मिलित है, इस प्रकार एक ऑर्डर किया गया डेटासेट बनाना सम्मिलित है। फिर तकनीक पहले अप्राप्त मान को ढूंढती है और अप्राप्त मान को लागू करने के लिए अप्राप्त डेटा से तुरंत पहले सेल मान का उपयोग करती है। प्रक्रिया को अगले सेल के लिए अप्राप्त मान के साथ दोहराया जाता है जब तक कि सभी अप्राप्त मान नहीं लगाए जाते है। सामान्य परिदृश्य में जहां मामले किसी व्यक्ति या अन्य इकाई के लिए एक चर के बार-बार माप होते हैं, यह इस विश्वास का प्रतिनिधित्व करता है कि यदि कोई माप अप्राप्त है, तो सबसे अच्छा अनुमान यह है कि यह पिछली बार मापा गया समय से नहीं बदला है। यह विधि बढ़ते पूर्वाग्रह और संभावित गलत निष्कर्षों के जोखिम को बढ़ाने के लिए जानी जाती है। इस कारण से एलओसीएफ को उपयोग के लिए अनुशंसित नहीं किया जाता है।<ref>{{Cite journal|last1=Molnar|first1=Frank J.|last2=Hutton|first2=Brian|last3=Fergusson|first3=Dean|date=2008-10-07|title=Does analysis using "last observation carried forward" introduce bias in dementia research?|journal=Canadian Medical Association Journal|volume=179|issue=8|pages=751–753|doi=10.1503/cmaj.080820|issn=0820-3946|pmc=2553855|pmid=18838445}}</ref> | |||
===कोल्ड-डेक=== | ===कोल्ड-डेक=== | ||
इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने | इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने सामान्यतः मूल यादृच्छिक और क्रमबद्ध हॉट डेक प्रतिरूपण तकनीकों का स्थान ले लिया है। यह पिछले सर्वेक्षणों में समान वस्तुओं के प्रतिक्रिया मूल्यों को बदलने की एक विधि है। यह उन सर्वेक्षणों में उपलब्ध है जो समय अंतराल को मापते हैं। | ||
===माध्य प्रतिस्थापन=== | ===माध्य प्रतिस्थापन=== | ||
एक अन्य प्रतिरूपण तकनीक में अन्य सभी मामलों के लिए उस चर के माध्य के साथ किसी भी | एक अन्य प्रतिरूपण तकनीक में अन्य सभी मामलों के लिए उस चर के माध्य के साथ किसी भी अप्राप्त मान को प्रतिस्थापित करना सम्मिलित है, जिससे उस चर के लिए नमूना माध्य को नहीं बदलने का लाभ होता है। हालाँकि, माध्य आरोपण आरोपित किए गए चर(ओं) से जुड़े किसी भी सहसंबंध को क्षीण कर देता है। ऐसा इसलिए है, क्योंकि आरोपण के मामलों में, आरोपित चर और किसी अन्य मापे गए चर के बीच कोई संबंध नहीं होने की गारंटी है। इस प्रकार, माध्य प्रतिरूपण में एकभिन्नरूपी विश्लेषण के लिए कुछ आकर्षक गुण होते हैं लेकिन बहुभिन्नरूपी विश्लेषण के लिए यह समस्याग्रस्त हो जाता है। | ||
माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है <math>\hat{y}_{i} = \bar{y}_{h}</math> | माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है <math>\hat{y}_{i} = \bar{y}_{h}</math> जहाँ <math>\hat{y}_{i}</math> रिकॉर्ड के लिए आरोपित मूल्य है <math>i</math> और <math>\bar{y}_{h}</math> किसी वर्ग के भीतर प्रतिवादी डेटा का नमूना माध्य है <math>h</math>. यह सामान्यीकृत प्रतिगमन आरोपण का एक विशेष मामला है: | ||
<math> | <math> | ||
\hat{y}_{mi} = b_{r0} + \sum_{j}{b_{rj}z_{mij} + \hat{e}_{mi}} | \hat{y}_{mi} = b_{r0} + \sum_{j}{b_{rj}z_{mij} + \hat{e}_{mi}} | ||
</math> | </math> | ||
यहाँ मूल्य <math>b_{r0}, b_{rj}</math> प्रतिगमन से अनुमान लगाया जाता है <math>y</math> पर <math>x</math> गैर-आरोपित डेटा में, <math>z</math> वर्ग सदस्यता के लिए एक [[डमी वैरिएबल (सांख्यिकी)]] है, और डेटा को प्रतिवादी में विभाजित किया गया है (<math>r</math>) और | यहाँ मूल्य <math>b_{r0}, b_{rj}</math> प्रतिगमन से अनुमान लगाया जाता है <math>y</math> पर <math>x</math> गैर-आरोपित डेटा में, <math>z</math> वर्ग सदस्यता के लिए एक [[डमी वैरिएबल (सांख्यिकी)]] है, और डेटा को प्रतिवादी में विभाजित किया गया है (<math>r</math>) और अप्राप्त (<math>m</math>).<ref>{{cite journal | last1 = Kalton | first1 = Graham | title = गुम सर्वेक्षण डेटा का उपचार| journal = Survey Methodology | volume = 12 | year = 1986 | pages = 1–16}}</ref><ref>{{cite journal | last1 = Kalton |first1 = Graham | first2 = Daniel | last2 = Kasprzyk | title = लापता सर्वेक्षण प्रतिक्रियाओं के लिए आरोप लगाना| journal = Proceedings of the Section on Survey Research Methods | publisher = [[American Statistical Association]] | volume = 22 | year = 1982 |s2cid = 195855359 | url = https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf | archive-url = https://web.archive.org/web/20200212025249/https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf | url-status = dead | archive-date = 2020-02-12 }}</ref> | ||
===[[गैर-नकारात्मक मैट्रिक्स गुणनखंडन]]=== | ===[[गैर-नकारात्मक मैट्रिक्स गुणनखंडन]]=== | ||
गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन | गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन अप्राप्त डेटा को शून्य के रूप में मानने के बजाय अपने लागत फ़ंक्शन को कम करते हुए अप्राप्त डेटा ले सकता है जो पूर्वाग्रह प्रकट कर सकता है।<ref name = "ren20">{{Cite journal|arxiv=2001.00563|last1= Ren|first1= Bin |title= उच्च कंट्रास्ट इमेजिंग में सिग्नल पृथक्करण के लिए डेटा प्रतिरूपण का उपयोग करना|journal= The Astrophysical Journal|volume= 892|issue= 2|pages= 74|last2= Pueyo|first2= Laurent|last3= Chen | first3 = Christine|last4= Choquet|first4= Elodie |last5= Debes|first5= John H|last6= Duchene |first6= Gaspard|last7= Menard|first7=Francois|last8=Perrin|first8=Marshall D.|year= 2020|doi= 10.3847/1538-4357/ab7024 | bibcode = 2020ApJ...892...74R |s2cid= 209531731}}</ref> यह इसे डेटा प्रतिरूपण के लिए गणितीय रूप से सिद्ध विधि बनाता है। एनएमएफ लागत फ़ंक्शन में अप्राप्त डेटा को अनदेखा कर सकता है, और अप्राप्त डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है। | ||
===प्रतिगमन=== | ===प्रतिगमन=== | ||
प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन मामलों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य | प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन मामलों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य अप्राप्त है। दूसरे शब्दों में, पूर्ण और अपूर्ण मामलों के लिए उपलब्ध जानकारी का उपयोग किसी विशिष्ट चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। फिर प्रतिगमन मॉडल से फिट किए गए मूल्यों का उपयोग अप्राप्त मूल्यों को लागू करने के लिए किया जाता है। समस्या यह है कि लगाए गए डेटा में उनके अनुमान में कोई त्रुटि शब्द सम्मिलित नहीं है, इस प्रकार अनुमान बिना किसी अवशिष्ट भिन्नता के प्रतिगमन रेखा के साथ पूरी तरह से फिट होते हैं। इसके कारण रिश्तों की अधिक पहचान हो जाती है और आरोपित मूल्यों में आवश्यकता से अधिक सटीकता का सुझाव मिलता है। प्रतिगमन मॉडल अप्राप्त डेटा के सबसे संभावित मूल्य की भविष्यवाणी करता है लेकिन उस मूल्य के बारे में अनिश्चितता प्रदान नहीं करता है। | ||
स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक | स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक रव पेश किया जाना चाहिए।<ref name="enders2010"/> | ||
==एकाधिक आरोपण== | ==एकाधिक आरोपण== | ||
प्रतिरूपण के कारण बढ़े हुए | प्रतिरूपण के कारण बढ़े हुए रव की समस्या से निपटने के लिए, रुबिन (1987)<ref>{{cite book |last1=Rubin |first1=Donald |title=एकाधिक अभियोगपत्र के लिए सर्वेक्षण में कोई अनुक्रिया नही है|series=Wiley Series in Probability and Statistics |date=9 June 1987 |publisher=Wiley |doi=10.1002/9780470316696 |isbn=9780471087052 }}</ref> इसे ध्यान में रखते हुए कई आरोपित डेटा सेटों में परिणामों के औसत के लिए एक विधि विकसित की गई। सभी एकाधिक प्रतिरूपण विधियाँ तीन चरणों का पालन करती हैं।<ref name="cambridge.org"/> | ||
# विश्लेषण - प्रत्येक | |||
# पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके | # इंप्यूटेशन - एकल इंप्यूटेशन के समान, अप्राप्त मान लगाए जाते हैं। हालाँकि, लगाए गए मान किसी वितरण से केवल एक बार के बजाय ''m'' बार निकाले जाते हैं। इस चरण के अंत में, पूर्ण डेटासेट होना चाहिए। | ||
# विश्लेषण - प्रत्येक ''m'' डेटासेट का विश्लेषण किया जाता है। इस चरण के अंत में विश्लेषण होना चाहिए। | |||
# पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके ''m'' परिणामों को एक परिणाम में समेकित किया जाता है<ref>{{cite journal | |||
| title=Multiple imputation for missing data: Concepts and new development | | title=Multiple imputation for missing data: Concepts and new development | ||
| last = Yuan | first = Yang C. | | last = Yuan | first = Yang C. | ||
Line 53: | Line 54: | ||
| url = https://support.sas.com/rnd/app/stat/papers/multipleimputation.pdf | | url = https://support.sas.com/rnd/app/stat/papers/multipleimputation.pdf | ||
}}</ref><ref>{{Cite book|title=गुम डेटा का लचीला आरोपण|volume=20125245|chapter=2. Multiple Imputation|last=Van Buuren|first=Stef|date=2012-03-29|publisher=Chapman and Hall/CRC|isbn=9781439868249|series=Chapman & Hall/CRC Interdisciplinary Statistics Series|doi=10.1201/b11826|s2cid=60316970 }}</ref> या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से।<ref>{{Cite journal|author1-link=Gary King (political scientist)|author4-link=Kenneth Scheve|last1=King|first1=Gary|last2=Honaker|first2=James|last3=Joseph|first3=Anne|last4=Scheve|first4=Kenneth|date=March 2001|title=Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation|url=https://www.cambridge.org/core/journals/american-political-science-review/article/analyzing-incomplete-political-science-data-an-alternative-algorithm-for-multiple-imputation/9E712982CCE2DE79A574FE98488F212B|journal=American Political Science Review|language=en|volume=95|issue=1|pages=49–69|doi=10.1017/S0003055401000235|s2cid=15484116 |issn=1537-5943}}</ref> | }}</ref><ref>{{Cite book|title=गुम डेटा का लचीला आरोपण|volume=20125245|chapter=2. Multiple Imputation|last=Van Buuren|first=Stef|date=2012-03-29|publisher=Chapman and Hall/CRC|isbn=9781439868249|series=Chapman & Hall/CRC Interdisciplinary Statistics Series|doi=10.1201/b11826|s2cid=60316970 }}</ref> या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से।<ref>{{Cite journal|author1-link=Gary King (political scientist)|author4-link=Kenneth Scheve|last1=King|first1=Gary|last2=Honaker|first2=James|last3=Joseph|first3=Anne|last4=Scheve|first4=Kenneth|date=March 2001|title=Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation|url=https://www.cambridge.org/core/journals/american-political-science-review/article/analyzing-incomplete-political-science-data-an-alternative-algorithm-for-multiple-imputation/9E712982CCE2DE79A574FE98488F212B|journal=American Political Science Review|language=en|volume=95|issue=1|pages=49–69|doi=10.1017/S0003055401000235|s2cid=15484116 |issn=1537-5943}}</ref> | ||
जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण मामले के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे मामलों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा मिसिंग डेटा | |||
जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण मामले के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे मामलों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा मिसिंग डेटा यादृच्छिक रूप से पूरी तरह से मिसिंग, मिसिंग डेटा यादृच्छिक रूप से मिसिंग, और तब भी जब डेटा मिसिंग डेटायादृच्छिक रूप से मिसिंग नहीं है।{{citation needed|reason=This statement probably needs to be much more nuanced. See https://www.cambridge.org/core/journals/political-analysis/article/note-on-listwise-deletion-versus-multiple-imputation/39DE56539189423F6C985B3B9EBF7E56 for example|date=October 2021}}. एक लोकप्रिय दृष्टिकोण जंजीर समीकरणों (एमआईसीई) द्वारा एकाधिक प्रतिरूपण है, जिसे पूरी तरह से सशर्त विनिर्देश और अनुक्रमिक प्रतिगमन एकाधिक प्रतिरूपण के रूप में भी जाना जाता है।<ref>{{Cite journal|last1=Azur|first1=Melissa J.|last2=Stuart|first2=Elizabeth A.|last3=Frangakis|first3=Constantine|last4=Leaf|first4=Philip J.|date=2011-03-01|title=Multiple imputation by chained equations: what is it and how does it work?|journal=International Journal of Methods in Psychiatric Research|volume=20|issue=1|pages=40–49|doi=10.1002/mpr.329|issn=1557-0657|pmc=3074241|pmid=21499542}}</ref> एमआईसीई को यादृच्छिक डेटा अप्राप्त होने के लिए डिज़ाइन किया गया है, हालांकि यह सुझाव देने के लिए सिमुलेशन सबूत हैं कि पर्याप्त संख्या में सहायक चर के साथ यह उन डेटा पर भी काम कर सकता है जो यादृच्छिक रूप से अप्राप्त नहीं हैं। हालाँकि, जब अवलोकन की संख्या बड़ी होती है और डेटा में गैर-रैखिकता और उच्च आयामीता जैसी जटिल विशेषताएं होती हैं, तो MICE प्रदर्शन समस्याओं से पीड़ित हो सकता है। | |||
मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग [[ऑटोएनकोडर]], एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।<ref name="The MIDAS Touch 2020">{{Cite journal|last1=Lall|first1=Ranjit|last2=Robinson|first2=Thomas|date=2021|title=The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning|journal=Political Analysis|volume=30 |issue=2 |pages=179–196 |doi=10.1017/pan.2020.49|doi-access=free}}</ref> MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है। | मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग [[ऑटोएनकोडर]], एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।<ref name="The MIDAS Touch 2020">{{Cite journal|last1=Lall|first1=Ranjit|last2=Robinson|first2=Thomas|date=2021|title=The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning|journal=Political Analysis|volume=30 |issue=2 |pages=179–196 |doi=10.1017/pan.2020.49|doi-access=free}}</ref> MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है। | ||
जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां | जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां प्रकट कर सकती है।<ref>{{Cite journal|last=Graham|first=John W.|date=2009-01-01|title=Missing data analysis: making it work in the real world|journal=Annual Review of Psychology|volume=60|pages=549–576|doi=10.1146/annurev.psych.58.110405.085530|issn=0066-4308|pmid=18652544}}</ref> कई बार आरोप लगाने से, कई आरोप अनिश्चितता और मूल्यों की सीमा के लिए जिम्मेदार होते हैं जो वास्तविक मूल्य ले सकते थे। जैसा कि अपेक्षित था, अनिश्चितता अनुमान और प्रतिरूपण के लिए गहन शिक्षण दोनों का संयोजन सबसे अच्छी रणनीतियों में से एक है और इसका उपयोग विषम दवा खोज डेटा को मॉडल करने के लिए किया गया है।<ref>{{Cite journal|last=Irwin|first=Benedict|date=2020-06-01|title=विषम औषधि खोज डेटा को लागू करने के लिए गहन शिक्षण के व्यावहारिक अनुप्रयोग|journal=Journal of Chemical Information and Modeling|volume=60|issue=6|pages=2848–2857|doi=10.1021/acs.jcim.0c00443|pmid=32478517|s2cid=219171721 }}</ref><ref>{{Cite journal|last=Whitehead|first=Thomas|date=2019-02-12|title=डीप लर्निंग का उपयोग करके परख बायोएक्टिविटी डेटा का आरोपण|journal=Journal of Chemical Information and Modeling|volume=59|issue=3|pages=1197–1204|doi=10.1021/acs.jcim.8b00768|pmid=30753070|s2cid=73429643 }}</ref> | ||
इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण मामले को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग भाषा) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है।<ref>{{Cite journal|last1=Horton|first1=Nicholas J.|last2=Kleinman|first2=Ken P.|date=2007-02-01|title=Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models|journal=The American Statistician|volume=61|issue=1|pages=79–90|doi=10.1198/000313007X172556|issn=0003-1305|pmc=1839993|pmid=17401454}}</ref> MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।<ref name="The MIDAS Touch 2020"/> | |||
इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण मामले को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग भाषा) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है।<ref>{{Cite journal|last1=Horton|first1=Nicholas J.|last2=Kleinman|first2=Ken P.|date=2007-02-01|title=Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models|journal=The American Statistician|volume=61|issue=1|pages=79–90|doi=10.1198/000313007X172556|issn=0003-1305|pmc=1839993|pmid=17401454}}</ref> MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।<ref name="The MIDAS Touch 2020" /> | |||
Revision as of 22:41, 13 August 2023
आँकड़ों में, प्रतिरूपण अप्राप्त डेटा (मिसिंग डेटा) को प्रतिस्थापित मानों से बदलने की प्रक्रिया है। किसी डेटा बिंदु के लिए प्रतिस्थापन करते समय, इसे इकाई प्रतिरूपण के रूप में जाना जाता है; जब किसी डेटा बिंदु के एक घटक को प्रतिस्थापित किया जाता है, तो इसे आइटम प्रतिरूपण के रूप में जाना जाता है। अप्राप्त डेटा के कारण तीन मुख्य समस्याएं हैं: अप्राप्त डेटा पर्याप्त मात्रा में पूर्वाग्रह (सांख्यिकी) ला सकता है, डेटा के प्रबंधन और विश्लेषण को अधिक कठिन बना सकता है, और दक्षता (सांख्यिकी) में कमी ला सकता है।[1] चूँकि अप्राप्त डेटा डेटा के विश्लेषण के लिए समस्याएँ प्रकट कर सकता है, इसलिए प्रतिरूपण को उन मामलों की सूचीवार विलोपन से जुड़े नुकसान से बचने के एक तरीके के रूप में देखा जाता है जिनमें अप्राप्त मूल्य हैं। कहने का तात्पर्य यह है कि, जब किसी मामले के लिए एक या एक से अधिक मान अप्राप्त होते हैं, तो सांख्यिकीय पैकेजों की अधिकांश सूची किसी भी ऐसे मामले को त्यागने में डिफ़ॉल्ट होती है, जिसमें अप्राप्त मूल्य होता है, जो पूर्वाग्रह प्रकट कर सकता है या परिणामों की प्रतिनिधित्वशीलता को प्रभावित कर सकता है। अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्य के साथ अप्राप्त डेटा को प्रतिस्थापित करके इंप्यूटेशन सभी मामलों को संरक्षित करता है। एक बार सभी अप्राप्त मानों को आरोपित कर दिए जाने के बाद, संपूर्ण डेटा के लिए मानक तकनीकों का उपयोग करके डेटा सेट का विश्लेषण किया जा सकता है।[2] अप्राप्त डेटा के लिए वैज्ञानिकों द्वारा कई सिद्धांत अपनाए गए हैं लेकिन उनमें से अधिकांश पूर्वाग्रह का परिचय देते हैं। अप्राप्त डेटा से निपटने के कुछ प्रसिद्ध प्रयासों में सम्मिलित हैं: हॉट डेक और कोल्ड डेक इंप्यूटेशन; सूचीवार और जोड़ीवार विलोपन; मतलब आरोपण; गैर-नकारात्मक मैट्रिक्स गुणनखंडन; प्रतिगमन आरोपण; अंतिम अवलोकन आगे बढ़ाया गया; स्टोकेस्टिक प्रतिरूपण; और एकाधिक आरोपण.
सूचीवार (पूरा मामला) विलोपन
अब तक, अप्राप्त डेटा से निपटने का सबसे आम साधन सूचीवार विलोपन (जिसे पूर्ण मामला भी कहा जाता है) है, जो तब होता है जब अप्राप्त मूल्य वाले सभी मामले हटा दिए जाते हैं। यदि डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त है, तो सूचीवार विलोपन से कोई पूर्वाग्रह नहीं जुड़ता है, लेकिन यह प्रभावी नमूना आकार को कम करके विश्लेषण की शक्ति (सांख्यिकी) को कम कर देता है। उदाहरण के लिए, यदि 1000 मामले एकत्र किए गए हैं लेकिन 80 में अप्राप्त मूल्य हैं, तो सूचीवार विलोपन के बाद प्रभावी नमूना आकार 920 है। यदि मामले पूरी तरह से यादृच्छिक रूप से अप्राप्त नहीं हैं, तो सूचीवार विलोपन पूर्वाग्रह का परिचय देगा क्योंकि अप्राप्त डेटा द्वारा दर्शाए गए मामलों के उप-नमूने मूल नमूने के प्रतिनिधि नहीं हैं (और यदि मूल नमूना स्वयं किसी आबादी का प्रतिनिधि नमूना था, तो पूरे मामले भी उस आबादी के प्रतिनिधि नहीं हैं)।[3] जबकि सूचीवार विलोपन निष्पक्ष होता है जब अप्राप्त डेटा पूरी तरह से यादृच्छिक रूप से अप्राप्त होता है, वास्तविकता में ऐसा शायद ही कभी होता है।[4]
युग्मानूसार विलोपन (या उपलब्ध केस विश्लेषण) में किसी मामले को तब हटाना सम्मिलित होता है जब उसमें किसी विशेष विश्लेषण के लिए आवश्यक चर अप्राप्त होता है, लेकिन उस मामले को विश्लेषण में सम्मिलित किया जाता है जिसके लिए सभी आवश्यक चर उपस्थित होते हैं। जब जोड़ीवार विलोपन का उपयोग किया जाता है, तो विश्लेषण के लिए कुल एन पैरामीटर अनुमानों के अनुरूप नहीं होगा। समय में कुछ बिंदुओं पर अपूर्ण एन मानों के कारण, अन्य मापदंडों के लिए पूर्ण मामले की तुलना बनाए रखते हुए, जोड़ीदार विलोपन 100% से अधिक सहसंबंध जैसी असंभव गणितीय स्थितियों को प्रस्तुत कर सकता है।[5]
संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के अतिरिक्त अप्राप्त डेटा को संभालने के लिए संपूर्ण केस सबसे लोकप्रिय तरीका है।
एकल आरोप
हॉट-डेक
प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक अप्राप्त मान लगाया गया था। हॉट डेक शब्द छिद्रित कार्डों पर डेटा के भंडारण से संबंधित है, और इंगित करता है कि सूचना दाता प्राप्तकर्ताओं के समान डेटासेट से आते हैं। कार्डों का ढेर गर्म था क्योंकि यह अभी संसाधित हो रहा था।
हॉट-डेक इंप्यूटेशन के एक रूप को अंतिम अवलोकन को आगे बढ़ाया जाता है (या संक्षेप में एलओसीएफ) कहा जाता है, जिसमें कई चर के अनुसार डेटासेट को सॉर्ट करना सम्मिलित है, इस प्रकार एक ऑर्डर किया गया डेटासेट बनाना सम्मिलित है। फिर तकनीक पहले अप्राप्त मान को ढूंढती है और अप्राप्त मान को लागू करने के लिए अप्राप्त डेटा से तुरंत पहले सेल मान का उपयोग करती है। प्रक्रिया को अगले सेल के लिए अप्राप्त मान के साथ दोहराया जाता है जब तक कि सभी अप्राप्त मान नहीं लगाए जाते है। सामान्य परिदृश्य में जहां मामले किसी व्यक्ति या अन्य इकाई के लिए एक चर के बार-बार माप होते हैं, यह इस विश्वास का प्रतिनिधित्व करता है कि यदि कोई माप अप्राप्त है, तो सबसे अच्छा अनुमान यह है कि यह पिछली बार मापा गया समय से नहीं बदला है। यह विधि बढ़ते पूर्वाग्रह और संभावित गलत निष्कर्षों के जोखिम को बढ़ाने के लिए जानी जाती है। इस कारण से एलओसीएफ को उपयोग के लिए अनुशंसित नहीं किया जाता है।[6]
कोल्ड-डेक
इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने सामान्यतः मूल यादृच्छिक और क्रमबद्ध हॉट डेक प्रतिरूपण तकनीकों का स्थान ले लिया है। यह पिछले सर्वेक्षणों में समान वस्तुओं के प्रतिक्रिया मूल्यों को बदलने की एक विधि है। यह उन सर्वेक्षणों में उपलब्ध है जो समय अंतराल को मापते हैं।
माध्य प्रतिस्थापन
एक अन्य प्रतिरूपण तकनीक में अन्य सभी मामलों के लिए उस चर के माध्य के साथ किसी भी अप्राप्त मान को प्रतिस्थापित करना सम्मिलित है, जिससे उस चर के लिए नमूना माध्य को नहीं बदलने का लाभ होता है। हालाँकि, माध्य आरोपण आरोपित किए गए चर(ओं) से जुड़े किसी भी सहसंबंध को क्षीण कर देता है। ऐसा इसलिए है, क्योंकि आरोपण के मामलों में, आरोपित चर और किसी अन्य मापे गए चर के बीच कोई संबंध नहीं होने की गारंटी है। इस प्रकार, माध्य प्रतिरूपण में एकभिन्नरूपी विश्लेषण के लिए कुछ आकर्षक गुण होते हैं लेकिन बहुभिन्नरूपी विश्लेषण के लिए यह समस्याग्रस्त हो जाता है।
माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है जहाँ रिकॉर्ड के लिए आरोपित मूल्य है और किसी वर्ग के भीतर प्रतिवादी डेटा का नमूना माध्य है . यह सामान्यीकृत प्रतिगमन आरोपण का एक विशेष मामला है:
यहाँ मूल्य प्रतिगमन से अनुमान लगाया जाता है पर गैर-आरोपित डेटा में, वर्ग सदस्यता के लिए एक डमी वैरिएबल (सांख्यिकी) है, और डेटा को प्रतिवादी में विभाजित किया गया है () और अप्राप्त ().[7][8]
गैर-नकारात्मक मैट्रिक्स गुणनखंडन
गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन अप्राप्त डेटा को शून्य के रूप में मानने के बजाय अपने लागत फ़ंक्शन को कम करते हुए अप्राप्त डेटा ले सकता है जो पूर्वाग्रह प्रकट कर सकता है।[9] यह इसे डेटा प्रतिरूपण के लिए गणितीय रूप से सिद्ध विधि बनाता है। एनएमएफ लागत फ़ंक्शन में अप्राप्त डेटा को अनदेखा कर सकता है, और अप्राप्त डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है।
प्रतिगमन
प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन मामलों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य अप्राप्त है। दूसरे शब्दों में, पूर्ण और अपूर्ण मामलों के लिए उपलब्ध जानकारी का उपयोग किसी विशिष्ट चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। फिर प्रतिगमन मॉडल से फिट किए गए मूल्यों का उपयोग अप्राप्त मूल्यों को लागू करने के लिए किया जाता है। समस्या यह है कि लगाए गए डेटा में उनके अनुमान में कोई त्रुटि शब्द सम्मिलित नहीं है, इस प्रकार अनुमान बिना किसी अवशिष्ट भिन्नता के प्रतिगमन रेखा के साथ पूरी तरह से फिट होते हैं। इसके कारण रिश्तों की अधिक पहचान हो जाती है और आरोपित मूल्यों में आवश्यकता से अधिक सटीकता का सुझाव मिलता है। प्रतिगमन मॉडल अप्राप्त डेटा के सबसे संभावित मूल्य की भविष्यवाणी करता है लेकिन उस मूल्य के बारे में अनिश्चितता प्रदान नहीं करता है।
स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक रव पेश किया जाना चाहिए।[5]
एकाधिक आरोपण
प्रतिरूपण के कारण बढ़े हुए रव की समस्या से निपटने के लिए, रुबिन (1987)[10] इसे ध्यान में रखते हुए कई आरोपित डेटा सेटों में परिणामों के औसत के लिए एक विधि विकसित की गई। सभी एकाधिक प्रतिरूपण विधियाँ तीन चरणों का पालन करती हैं।[3]
- इंप्यूटेशन - एकल इंप्यूटेशन के समान, अप्राप्त मान लगाए जाते हैं। हालाँकि, लगाए गए मान किसी वितरण से केवल एक बार के बजाय m बार निकाले जाते हैं। इस चरण के अंत में, पूर्ण डेटासेट होना चाहिए।
- विश्लेषण - प्रत्येक m डेटासेट का विश्लेषण किया जाता है। इस चरण के अंत में विश्लेषण होना चाहिए।
- पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके m परिणामों को एक परिणाम में समेकित किया जाता है[11][12] या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से।[13]
जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण मामले के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे मामलों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा मिसिंग डेटा यादृच्छिक रूप से पूरी तरह से मिसिंग, मिसिंग डेटा यादृच्छिक रूप से मिसिंग, और तब भी जब डेटा मिसिंग डेटायादृच्छिक रूप से मिसिंग नहीं है।[citation needed]. एक लोकप्रिय दृष्टिकोण जंजीर समीकरणों (एमआईसीई) द्वारा एकाधिक प्रतिरूपण है, जिसे पूरी तरह से सशर्त विनिर्देश और अनुक्रमिक प्रतिगमन एकाधिक प्रतिरूपण के रूप में भी जाना जाता है।[14] एमआईसीई को यादृच्छिक डेटा अप्राप्त होने के लिए डिज़ाइन किया गया है, हालांकि यह सुझाव देने के लिए सिमुलेशन सबूत हैं कि पर्याप्त संख्या में सहायक चर के साथ यह उन डेटा पर भी काम कर सकता है जो यादृच्छिक रूप से अप्राप्त नहीं हैं। हालाँकि, जब अवलोकन की संख्या बड़ी होती है और डेटा में गैर-रैखिकता और उच्च आयामीता जैसी जटिल विशेषताएं होती हैं, तो MICE प्रदर्शन समस्याओं से पीड़ित हो सकता है।
मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग ऑटोएनकोडर, एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।[15] MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है।
जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां प्रकट कर सकती है।[16] कई बार आरोप लगाने से, कई आरोप अनिश्चितता और मूल्यों की सीमा के लिए जिम्मेदार होते हैं जो वास्तविक मूल्य ले सकते थे। जैसा कि अपेक्षित था, अनिश्चितता अनुमान और प्रतिरूपण के लिए गहन शिक्षण दोनों का संयोजन सबसे अच्छी रणनीतियों में से एक है और इसका उपयोग विषम दवा खोज डेटा को मॉडल करने के लिए किया गया है।[17][18]
इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण मामले को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग भाषा) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है।[19] MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।[15]
यह भी देखें
- बूटस्ट्रैपिंग (सांख्यिकी)
- सेंसरिंग (सांख्यिकी)
- अपेक्षा-अधिकतमीकरण एल्गोरिथ्म
- भू-आरोपण
- अंतर्वेशन
- मैट्रिक्स पूर्णता
- पूर्ण जानकारी अधिकतम संभावना
संदर्भ
- ↑ Barnard, J.; Meng, X. L. (1999-03-01). "Applications of multiple imputation in medical studies: from AIDS to NHANES". Statistical Methods in Medical Research. 8 (1): 17–36. doi:10.1177/096228029900800103. ISSN 0962-2802. PMID 10347858. S2CID 11453137.
- ↑ Gelman, Andrew, and Jennifer Hill. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25
- ↑ 3.0 3.1 Lall, Ranjit (2016). "अनेक दोषारोपण से कैसे फर्क पड़ता है". Political Analysis (in English). 24 (4): 414–433. doi:10.1093/pan/mpw020.
- ↑ Kenward, Michael G (2013-02-26). "नैदानिक परीक्षणों में गुम डेटा का प्रबंधन". Clinical Investigation. 3 (3): 241–250. doi:10.4155/cli.13.7. ISSN 2041-6792.
{{cite journal}}
: zero width space character in|title=
at position 9 (help) - ↑ 5.0 5.1 Enders, C. K. (2010). अनुप्रयुक्त गुम डेटा विश्लेषण. New York: Guilford Press. ISBN 978-1-60623-639-0.
- ↑ Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). "Does analysis using "last observation carried forward" introduce bias in dementia research?". Canadian Medical Association Journal. 179 (8): 751–753. doi:10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445.
- ↑ Kalton, Graham (1986). "गुम सर्वेक्षण डेटा का उपचार". Survey Methodology. 12: 1–16.
- ↑ Kalton, Graham; Kasprzyk, Daniel (1982). "लापता सर्वेक्षण प्रतिक्रियाओं के लिए आरोप लगाना" (PDF). Proceedings of the Section on Survey Research Methods. American Statistical Association. 22. S2CID 195855359. Archived from the original (PDF) on 2020-02-12.
- ↑ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duchene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "उच्च कंट्रास्ट इमेजिंग में सिग्नल पृथक्करण के लिए डेटा प्रतिरूपण का उपयोग करना". The Astrophysical Journal. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024. S2CID 209531731.
- ↑ Rubin, Donald (9 June 1987). एकाधिक अभियोगपत्र के लिए सर्वेक्षण में कोई अनुक्रिया नही है. Wiley Series in Probability and Statistics. Wiley. doi:10.1002/9780470316696. ISBN 9780471087052.
- ↑ Yuan, Yang C. (2010). "Multiple imputation for missing data: Concepts and new development" (PDF). SAS Institute Inc., Rockville, MD. 49: 1–11.
- ↑ Van Buuren, Stef (2012-03-29). "2. Multiple Imputation". गुम डेटा का लचीला आरोपण. Chapman & Hall/CRC Interdisciplinary Statistics Series. Vol. 20125245. Chapman and Hall/CRC. doi:10.1201/b11826. ISBN 9781439868249. S2CID 60316970.
- ↑ King, Gary; Honaker, James; Joseph, Anne; Scheve, Kenneth (March 2001). "Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation". American Political Science Review (in English). 95 (1): 49–69. doi:10.1017/S0003055401000235. ISSN 1537-5943. S2CID 15484116.
- ↑ Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). "Multiple imputation by chained equations: what is it and how does it work?". International Journal of Methods in Psychiatric Research. 20 (1): 40–49. doi:10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542.
- ↑ 15.0 15.1 Lall, Ranjit; Robinson, Thomas (2021). "The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning". Political Analysis. 30 (2): 179–196. doi:10.1017/pan.2020.49.
- ↑ Graham, John W. (2009-01-01). "Missing data analysis: making it work in the real world". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
- ↑ Irwin, Benedict (2020-06-01). "विषम औषधि खोज डेटा को लागू करने के लिए गहन शिक्षण के व्यावहारिक अनुप्रयोग". Journal of Chemical Information and Modeling. 60 (6): 2848–2857. doi:10.1021/acs.jcim.0c00443. PMID 32478517. S2CID 219171721.
- ↑ Whitehead, Thomas (2019-02-12). "डीप लर्निंग का उपयोग करके परख बायोएक्टिविटी डेटा का आरोपण". Journal of Chemical Information and Modeling. 59 (3): 1197–1204. doi:10.1021/acs.jcim.8b00768. PMID 30753070. S2CID 73429643.
- ↑ Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). "Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models". The American Statistician. 61 (1): 79–90. doi:10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993. PMID 17401454.
बाहरी संबंध
- Missing Data: Instrument-Level Heffalumps and Item-Level Woozles
- Multiple-imputation.com
- Multiple imputation FAQs, Penn State U
- A description of hot deck imputation from Statistics Finland.
- Paper extending Rao-Shao approach and discussing problems with multiple imputation.
- Paper Fuzzy Unordered Rules Induction Algorithm Used as Missing Value Imputation Methods for K-Mean Clustering on Real Cardiovascular Data.
- [1] Real world application of Imputation by the UK Office of National Statistics