प्रतिरूपण (सांख्यिकी)
आँकड़ों में, प्रतिरूपण लुप्त डेटा को प्रतिस्थापित मानों से बदलने की प्रक्रिया है। किसी डेटा बिंदु के लिए प्रतिस्थापन करते समय, इसे इकाई प्रतिरूपण के रूप में जाना जाता है; जब किसी डेटा बिंदु के एक घटक को प्रतिस्थापित किया जाता है, तो इसे आइटम प्रतिरूपण के रूप में जाना जाता है। गायब डेटा के कारण तीन मुख्य समस्याएं हैं: गायब डेटा पर्याप्त मात्रा में पूर्वाग्रह (सांख्यिकी) ला सकता है, डेटा के प्रबंधन और विश्लेषण को अधिक कठिन बना सकता है, और दक्षता (सांख्यिकी) में कमी ला सकता है।[1] चूँकि गुम डेटा डेटा के विश्लेषण के लिए समस्याएँ पैदा कर सकता है, इसलिए प्रतिरूपण को उन मामलों की सूचीवार विलोपन से जुड़े नुकसान से बचने के एक तरीके के रूप में देखा जाता है जिनमें गायब मूल्य हैं। कहने का तात्पर्य यह है कि, जब किसी मामले के लिए एक या एक से अधिक मान गायब होते हैं, तो सांख्यिकीय पैकेजों की अधिकांश सूची किसी भी ऐसे मामले को त्यागने में डिफ़ॉल्ट होती है, जिसमें लापता मूल्य होता है, जो पूर्वाग्रह पैदा कर सकता है या परिणामों की प्रतिनिधित्वशीलता को प्रभावित कर सकता है। अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्य के साथ लापता डेटा को प्रतिस्थापित करके इंप्यूटेशन सभी मामलों को संरक्षित करता है। एक बार सभी लापता मानों को आरोपित कर दिए जाने के बाद, संपूर्ण डेटा के लिए मानक तकनीकों का उपयोग करके डेटा सेट का विश्लेषण किया जा सकता है।[2] लापता डेटा के लिए वैज्ञानिकों द्वारा कई सिद्धांत अपनाए गए हैं लेकिन उनमें से अधिकांश पूर्वाग्रह का परिचय देते हैं। गुम डेटा से निपटने के कुछ प्रसिद्ध प्रयासों में शामिल हैं: हॉट डेक और कोल्ड डेक इंप्यूटेशन; सूचीवार और जोड़ीवार विलोपन; मतलब आरोपण; गैर-नकारात्मक मैट्रिक्स गुणनखंडन; प्रतिगमन आरोपण; अंतिम अवलोकन आगे बढ़ाया गया; स्टोकेस्टिक प्रतिरूपण; और एकाधिक आरोपण.
सूचीवार (पूरा मामला) विलोपन
अब तक, गायब डेटा से निपटने का सबसे आम साधन सूचीवार विलोपन (जिसे पूर्ण मामला भी कहा जाता है) है, जो तब होता है जब गायब मूल्य वाले सभी मामले हटा दिए जाते हैं। यदि डेटा पूरी तरह से यादृच्छिक रूप से गायब है, तो सूचीवार विलोपन से कोई पूर्वाग्रह नहीं जुड़ता है, लेकिन यह प्रभावी नमूना आकार को कम करके विश्लेषण की शक्ति (सांख्यिकी) को कम कर देता है। उदाहरण के लिए, यदि 1000 मामले एकत्र किए गए हैं लेकिन 80 में गायब मूल्य हैं, तो सूचीवार विलोपन के बाद प्रभावी नमूना आकार 920 है। यदि मामले पूरी तरह से यादृच्छिक रूप से गायब नहीं हैं, तो सूचीवार विलोपन पूर्वाग्रह का परिचय देगा क्योंकि गायब डेटा द्वारा दर्शाए गए मामलों के उप-नमूने मूल नमूने के प्रतिनिधि नहीं हैं (और यदि मूल नमूना स्वयं किसी आबादी का प्रतिनिधि नमूना था, तो पूरे मामले भी उस आबादी के प्रतिनिधि नहीं हैं)।[3] जबकि सूचीवार विलोपन निष्पक्ष होता है जब गायब डेटा पूरी तरह से यादृच्छिक रूप से गायब होता है, वास्तविकता में ऐसा शायद ही कभी होता है।[4] जोड़ीवार विलोपन (या उपलब्ध केस विश्लेषण) में किसी मामले को तब हटाना शामिल होता है जब उसमें किसी विशेष विश्लेषण के लिए आवश्यक चर गायब होता है, लेकिन उस मामले को विश्लेषण में शामिल किया जाता है जिसके लिए सभी आवश्यक चर मौजूद होते हैं। जब जोड़ीवार विलोपन का उपयोग किया जाता है, तो विश्लेषण के लिए कुल एन पैरामीटर अनुमानों के अनुरूप नहीं होगा। समय में कुछ बिंदुओं पर अपूर्ण एन मानों के कारण, अन्य मापदंडों के लिए पूर्ण मामले की तुलना बनाए रखते हुए, जोड़ीदार विलोपन 100% से अधिक सहसंबंध जैसी असंभव गणितीय स्थितियों को प्रस्तुत कर सकता है।[5] संपूर्ण केस विलोपन का अन्य तरीकों की तुलना में एक फायदा यह है कि यह सीधा और लागू करने में आसान है। यह एक बड़ा कारण है कि कई नुकसानों के बावजूद गुम डेटा को संभालने के लिए संपूर्ण केस सबसे लोकप्रिय तरीका है।
एकल आरोप
हॉट-डेक
प्रतिरूपण की एक सामान्य विधि हॉट-डेक प्रतिरूपण थी जहां एक यादृच्छिक रूप से चयनित समान रिकॉर्ड से एक लापता मान लगाया गया था। हॉट डेक शब्द छिद्रित कार्डों पर डेटा के भंडारण से संबंधित है, और इंगित करता है कि सूचना दाता प्राप्तकर्ताओं के समान डेटासेट से आते हैं। कार्डों का ढेर गर्म था क्योंकि यह अभी संसाधित हो रहा था।
हॉट-डेक इंप्यूटेशन के एक रूप को अंतिम अवलोकन को आगे बढ़ाया जाता है (या संक्षेप में एलओसीएफ) कहा जाता है, जिसमें कई चर के अनुसार डेटासेट को सॉर्ट करना शामिल है, इस प्रकार एक ऑर्डर किया गया डेटासेट बनाना शामिल है। फिर तकनीक पहले लुप्त मान को ढूंढती है और लुप्त मान को लागू करने के लिए लुप्त डेटा से तुरंत पहले सेल मान का उपयोग करती है। प्रक्रिया को अगले सेल के लिए लापता मान के साथ दोहराया जाता है जब तक कि सभी लापता मान नहीं लगाए जाते। सामान्य परिदृश्य में जहां मामले किसी व्यक्ति या अन्य इकाई के लिए एक चर के बार-बार माप होते हैं, यह इस विश्वास का प्रतिनिधित्व करता है कि यदि कोई माप गायब है, तो सबसे अच्छा अनुमान यह है कि यह पिछली बार मापा गया समय से नहीं बदला है। यह विधि बढ़ते पूर्वाग्रह और संभावित गलत निष्कर्षों के जोखिम को बढ़ाने के लिए जानी जाती है। इस कारण से एलओसीएफ को उपयोग के लिए अनुशंसित नहीं किया जाता है।[6]
कोल्ड-डेक
इसके विपरीत, कोल्ड-डेक प्रतिरूपण, दूसरे डेटासेट से दाताओं का चयन करता है। कंप्यूटर शक्ति में प्रगति के कारण, प्रतिरूपण के अधिक परिष्कृत तरीकों ने आम तौर पर मूल यादृच्छिक और क्रमबद्ध हॉट डेक प्रतिरूपण तकनीकों का स्थान ले लिया है। यह पिछले सर्वेक्षणों में समान वस्तुओं के प्रतिक्रिया मूल्यों को बदलने की एक विधि है। यह उन सर्वेक्षणों में उपलब्ध है जो समय अंतराल को मापते हैं।
माध्य प्रतिस्थापन
एक अन्य प्रतिरूपण तकनीक में अन्य सभी मामलों के लिए उस चर के माध्य के साथ किसी भी लापता मान को प्रतिस्थापित करना शामिल है, जिससे उस चर के लिए नमूना माध्य को नहीं बदलने का लाभ होता है। हालाँकि, माध्य आरोपण आरोपित किए गए चर(ओं) से जुड़े किसी भी सहसंबंध को क्षीण कर देता है। ऐसा इसलिए है, क्योंकि आरोपण के मामलों में, आरोपित चर और किसी अन्य मापे गए चर के बीच कोई संबंध नहीं होने की गारंटी है। इस प्रकार, माध्य प्रतिरूपण में एकभिन्नरूपी विश्लेषण के लिए कुछ आकर्षक गुण होते हैं लेकिन बहुभिन्नरूपी विश्लेषण के लिए यह समस्याग्रस्त हो जाता है।
माध्य प्रतिरूपण वर्गों (अर्थात लिंग जैसी श्रेणियाँ) के भीतर किया जा सकता है, और इसे इस प्रकार व्यक्त किया जा सकता है कहाँ रिकॉर्ड के लिए आरोपित मूल्य है और किसी वर्ग के भीतर प्रतिवादी डेटा का नमूना माध्य है . यह सामान्यीकृत प्रतिगमन आरोपण का एक विशेष मामला है:
यहाँ मूल्य प्रतिगमन से अनुमान लगाया जाता है पर गैर-आरोपित डेटा में, वर्ग सदस्यता के लिए एक डमी वैरिएबल (सांख्यिकी) है, और डेटा को प्रतिवादी में विभाजित किया गया है () और गायब ().[7][8]
गैर-नकारात्मक मैट्रिक्स गुणनखंडन
गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ) इन लापता डेटा को शून्य के रूप में मानने के बजाय अपने लागत फ़ंक्शन को कम करते हुए लापता डेटा ले सकता है जो पूर्वाग्रह पैदा कर सकता है।[9] यह इसे डेटा प्रतिरूपण के लिए गणितीय रूप से सिद्ध विधि बनाता है। एनएमएफ लागत फ़ंक्शन में गुम डेटा को अनदेखा कर सकता है, और गुम डेटा का प्रभाव दूसरे क्रम के प्रभाव जितना छोटा हो सकता है।
प्रतिगमन
प्रतिगमन प्रतिरूपण में माध्य प्रतिरूपण की विपरीत समस्या होती है। एक प्रतिगमन मॉडल का अनुमान अन्य चर के आधार पर एक चर के देखे गए मूल्यों की भविष्यवाणी करने के लिए लगाया जाता है, और उस मॉडल का उपयोग उन मामलों में मूल्यों को लागू करने के लिए किया जाता है जहां उस चर का मूल्य गायब है। दूसरे शब्दों में, पूर्ण और अपूर्ण मामलों के लिए उपलब्ध जानकारी का उपयोग किसी विशिष्ट चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। फिर प्रतिगमन मॉडल से फिट किए गए मूल्यों का उपयोग लापता मूल्यों को लागू करने के लिए किया जाता है। समस्या यह है कि लगाए गए डेटा में उनके अनुमान में कोई त्रुटि शब्द शामिल नहीं है, इस प्रकार अनुमान बिना किसी अवशिष्ट भिन्नता के प्रतिगमन रेखा के साथ पूरी तरह से फिट होते हैं। इसके कारण रिश्तों की अधिक पहचान हो जाती है और आरोपित मूल्यों में आवश्यकता से अधिक सटीकता का सुझाव मिलता है। प्रतिगमन मॉडल लापता डेटा के सबसे संभावित मूल्य की भविष्यवाणी करता है लेकिन उस मूल्य के बारे में अनिश्चितता प्रदान नहीं करता है।
स्टोकेस्टिक प्रतिगमन, त्रुटि को प्रस्तुत करने के लिए प्रतिगमन प्रतिरूपण में औसत प्रतिगमन विचरण जोड़कर प्रतिगमन प्रतिरूपण में त्रुटि शब्द की कमी को ठीक करने का एक काफी सफल प्रयास था। स्टोकेस्टिक रिग्रेशन उपर्युक्त तकनीकों की तुलना में बहुत कम पूर्वाग्रह दिखाता है, लेकिन इसमें अभी भी एक बात छूट गई है - यदि डेटा लगाया जाता है तो सहज रूप से कोई यह सोचेगा कि समस्या में सरल अवशिष्ट विचरण की तुलना में अधिक शोर पेश किया जाना चाहिए।[5]
एकाधिक आरोपण
प्रतिरूपण के कारण बढ़े हुए शोर की समस्या से निपटने के लिए, रुबिन (1987)[10] इसे ध्यान में रखते हुए कई आरोपित डेटा सेटों में परिणामों के औसत के लिए एक विधि विकसित की गई। सभी एकाधिक प्रतिरूपण विधियाँ तीन चरणों का पालन करती हैं।[3]# इंप्यूटेशन - एकल इंप्यूटेशन के समान, लुप्त मान लगाए जाते हैं। हालाँकि, लगाए गए मान किसी वितरण से केवल एक बार के बजाय m बार निकाले जाते हैं। इस चरण के अंत में, पूर्ण डेटासेट होना चाहिए।
- विश्लेषण - प्रत्येक एम डेटासेट का विश्लेषण किया जाता है। इस चरण के अंत में विश्लेषण होना चाहिए।
- पूलिंग - चिंता के चर के माध्य, विचरण और आत्मविश्वास अंतराल की गणना करके एम परिणामों को एक परिणाम में समेकित किया जाता है[11][12] या प्रत्येक अलग मॉडल से सिमुलेशन के संयोजन से।[13]
जिस प्रकार एकल निरूपण की अनेक विधियाँ होती हैं, उसी प्रकार एकाधिक निरूपण की भी अनेक विधियाँ होती हैं। एकल प्रतिनियुक्ति और पूर्ण मामले के तरीकों की तुलना में एकाधिक प्रतिनियुक्ति का एक लाभ यह है कि एकाधिक प्रतिनियुक्ति लचीली होती है और इसका उपयोग विभिन्न प्रकार के परिदृश्यों में किया जा सकता है। ऐसे मामलों में एकाधिक प्रतिनियुक्ति का उपयोग किया जा सकता है, जहां डेटा मिसिंग डेटा#यादृच्छिक रूप से पूरी तरह से मिसिंग, मिसिंग डेटा#यादृच्छिक रूप से मिसिंग, और तब भी जब डेटा मिसिंग डेटा#यादृच्छिक रूप से मिसिंग नहीं है।[citation needed]. एक लोकप्रिय दृष्टिकोण जंजीर समीकरणों (एमआईसीई) द्वारा एकाधिक प्रतिरूपण है, जिसे पूरी तरह से सशर्त विनिर्देश और अनुक्रमिक प्रतिगमन एकाधिक प्रतिरूपण के रूप में भी जाना जाता है।[14] एमआईसीई को यादृच्छिक डेटा गायब होने के लिए डिज़ाइन किया गया है, हालांकि यह सुझाव देने के लिए सिमुलेशन सबूत हैं कि पर्याप्त संख्या में सहायक चर के साथ यह उन डेटा पर भी काम कर सकता है जो यादृच्छिक रूप से गायब नहीं हैं। हालाँकि, जब अवलोकन की संख्या बड़ी होती है और डेटा में गैर-रैखिकता और उच्च आयामीता जैसी जटिल विशेषताएं होती हैं, तो MICE प्रदर्शन समस्याओं से पीड़ित हो सकता है।
मल्टीपल इम्प्यूटेशन के हालिया दृष्टिकोण अपने प्रदर्शन को बेहतर बनाने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। उदाहरण के लिए, MIDAS (मल्टीपल इंप्यूटेशन विद डीनोइज़िंग ऑटोएन्कोडर्स), प्रेक्षित डेटा के सुक्ष्म अव्यक्त अभ्यावेदन को सीखने के लिए डीनोइज़िंग ऑटोएनकोडर, एक प्रकार का अप्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।[15] MIDAS को पारंपरिक एकाधिक प्रतिरूपण रणनीतियों की तुलना में सटीकता और दक्षता लाभ प्रदान करने के लिए दिखाया गया है।
जैसा कि पिछले अनुभाग में बताया गया है, एकल आरोपण आरोपों में अनिश्चितता को ध्यान में नहीं रखता है। प्रतिरूपण के बाद, डेटा को ऐसे माना जाता है जैसे कि वे एकल प्रतिरूपण में वास्तविक वास्तविक मूल्य थे। आरोपण में अनिश्चितता की लापरवाही अत्यधिक सटीक परिणाम और निकाले गए किसी भी निष्कर्ष में त्रुटियां पैदा कर सकती है।[16] कई बार आरोप लगाने से, कई आरोप अनिश्चितता और मूल्यों की सीमा के लिए जिम्मेदार होते हैं जो वास्तविक मूल्य ले सकते थे। जैसा कि अपेक्षित था, अनिश्चितता अनुमान और प्रतिरूपण के लिए गहन शिक्षण दोनों का संयोजन सबसे अच्छी रणनीतियों में से एक है और इसका उपयोग विषम दवा खोज डेटा को मॉडल करने के लिए किया गया है।[17][18] इसके अतिरिक्त, जबकि एकल आरोपण और संपूर्ण मामले को लागू करना आसान है, एकाधिक आरोपण को लागू करना बहुत कठिन नहीं है। सांख्यिकीय सॉफ़्टवेयर की सूची में सांख्यिकीय पैकेजों की एक विस्तृत श्रृंखला है जो आसानी से एकाधिक प्रतिरूपण करती है। उदाहरण के लिए, MICE पैकेज R (प्रोग्रामिंग भाषा) में उपयोगकर्ताओं को MICE विधि का उपयोग करके एकाधिक प्रतिरूपण करने की अनुमति देता है।[19] MIDAS को R में rMIDAS पैकेज के साथ और Python में MIDASpy पैकेज के साथ लागू किया जा सकता है।[15]
यह भी देखें
- बूटस्ट्रैपिंग (सांख्यिकी)
- सेंसरिंग (सांख्यिकी)
- अपेक्षा-अधिकतमीकरण एल्गोरिथ्म
- भू-आरोपण
- अंतर्वेशन
- मैट्रिक्स पूर्णता
- पूर्ण जानकारी अधिकतम संभावना
संदर्भ
- ↑ Barnard, J.; Meng, X. L. (1999-03-01). "Applications of multiple imputation in medical studies: from AIDS to NHANES". Statistical Methods in Medical Research. 8 (1): 17–36. doi:10.1177/096228029900800103. ISSN 0962-2802. PMID 10347858. S2CID 11453137.
- ↑ Gelman, Andrew, and Jennifer Hill. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25
- ↑ 3.0 3.1 Lall, Ranjit (2016). "अनेक दोषारोपण से कैसे फर्क पड़ता है". Political Analysis (in English). 24 (4): 414–433. doi:10.1093/pan/mpw020.
- ↑ Kenward, Michael G (2013-02-26). "नैदानिक परीक्षणों में गुम डेटा का प्रबंधन". Clinical Investigation. 3 (3): 241–250. doi:10.4155/cli.13.7. ISSN 2041-6792.
{{cite journal}}
: zero width space character in|title=
at position 9 (help) - ↑ 5.0 5.1 Enders, C. K. (2010). अनुप्रयुक्त गुम डेटा विश्लेषण. New York: Guilford Press. ISBN 978-1-60623-639-0.
- ↑ Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). "Does analysis using "last observation carried forward" introduce bias in dementia research?". Canadian Medical Association Journal. 179 (8): 751–753. doi:10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445.
- ↑ Kalton, Graham (1986). "गुम सर्वेक्षण डेटा का उपचार". Survey Methodology. 12: 1–16.
- ↑ Kalton, Graham; Kasprzyk, Daniel (1982). "लापता सर्वेक्षण प्रतिक्रियाओं के लिए आरोप लगाना" (PDF). Proceedings of the Section on Survey Research Methods. American Statistical Association. 22. S2CID 195855359. Archived from the original (PDF) on 2020-02-12.
- ↑ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duchene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "उच्च कंट्रास्ट इमेजिंग में सिग्नल पृथक्करण के लिए डेटा प्रतिरूपण का उपयोग करना". The Astrophysical Journal. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024. S2CID 209531731.
- ↑ Rubin, Donald (9 June 1987). एकाधिक अभियोगपत्र के लिए सर्वेक्षण में कोई अनुक्रिया नही है. Wiley Series in Probability and Statistics. Wiley. doi:10.1002/9780470316696. ISBN 9780471087052.
- ↑ Yuan, Yang C. (2010). "Multiple imputation for missing data: Concepts and new development" (PDF). SAS Institute Inc., Rockville, MD. 49: 1–11.
- ↑ Van Buuren, Stef (2012-03-29). "2. Multiple Imputation". गुम डेटा का लचीला आरोपण. Chapman & Hall/CRC Interdisciplinary Statistics Series. Vol. 20125245. Chapman and Hall/CRC. doi:10.1201/b11826. ISBN 9781439868249. S2CID 60316970.
- ↑ King, Gary; Honaker, James; Joseph, Anne; Scheve, Kenneth (March 2001). "Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation". American Political Science Review (in English). 95 (1): 49–69. doi:10.1017/S0003055401000235. ISSN 1537-5943. S2CID 15484116.
- ↑ Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). "Multiple imputation by chained equations: what is it and how does it work?". International Journal of Methods in Psychiatric Research. 20 (1): 40–49. doi:10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542.
- ↑ 15.0 15.1 Lall, Ranjit; Robinson, Thomas (2021). "The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning". Political Analysis. 30 (2): 179–196. doi:10.1017/pan.2020.49.
- ↑ Graham, John W. (2009-01-01). "Missing data analysis: making it work in the real world". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
- ↑ Irwin, Benedict (2020-06-01). "विषम औषधि खोज डेटा को लागू करने के लिए गहन शिक्षण के व्यावहारिक अनुप्रयोग". Journal of Chemical Information and Modeling. 60 (6): 2848–2857. doi:10.1021/acs.jcim.0c00443. PMID 32478517. S2CID 219171721.
- ↑ Whitehead, Thomas (2019-02-12). "डीप लर्निंग का उपयोग करके परख बायोएक्टिविटी डेटा का आरोपण". Journal of Chemical Information and Modeling. 59 (3): 1197–1204. doi:10.1021/acs.jcim.8b00768. PMID 30753070. S2CID 73429643.
- ↑ Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). "Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models". The American Statistician. 61 (1): 79–90. doi:10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993. PMID 17401454.
बाहरी संबंध
- Missing Data: Instrument-Level Heffalumps and Item-Level Woozles
- Multiple-imputation.com
- Multiple imputation FAQs, Penn State U
- A description of hot deck imputation from Statistics Finland.
- Paper extending Rao-Shao approach and discussing problems with multiple imputation.
- Paper Fuzzy Unordered Rules Induction Algorithm Used as Missing Value Imputation Methods for K-Mean Clustering on Real Cardiovascular Data.
- [1] Real world application of Imputation by the UK Office of National Statistics