डिजाइन प्रभाव
सर्वेक्षण पद्धति में, डिजाइन प्रभाव (आम तौर पर डिजाइन प्रभाव#परिभाषाओं के रूप में या ) कुछ पैरामीटर के लिए अनुमानक के भिन्नता पर नमूना डिजाइन के अपेक्षित प्रभाव का एक उपाय है। इसकी गणना एक (अक्सर) जटिल नमूनाकरण डिजाइन से नमूने के आधार पर एक अनुमानक के भिन्नता के अनुपात के रूप में की जाती है, समान संख्या में तत्वों के एक साधारण यादृच्छिक नमूने (एसआरएस) के आधार पर वैकल्पिक अनुमानक के भिन्नता के रूप में।[1]: 258 डेफ़ (चाहे यह अनुमान लगाया गया हो, या पूर्व-ज्ञात हो) का उपयोग उन मामलों में एक अनुमानक के प्रसरण को समायोजित करने के लिए किया जा सकता है जहाँ सरल यादृच्छिक नमूनाकरण का उपयोग करके नमूना तैयार नहीं किया जाता है। यह नमूना आकार की गणना में और नमूने की प्रतिनिधित्व क्षमता को मापने के लिए भी उपयोगी हो सकता है। शब्द डिजाइन प्रभाव 1965 में लेस्ली किश द्वारा गढ़ा गया था।
डिजाइन प्रभाव एक सकारात्मक वास्तविक संख्या है जो एक मुद्रास्फीति को इंगित करता है (), या अपस्फीति () कुछ पैरामीटर के लिए एक अनुमानक के विचरण में, जो अध्ययन के कारण एसआरएस (के साथ) का उपयोग नहीं कर रहा है , जब प्रसरण समान हैं)।[2]: 53, 54
कुछ संभावित जटिल नमूनाकरण जो 1 से भिन्न डेफ़ को पेश कर सकते हैं उनमें शामिल हैं: क्लस्टर नमूनाकरण (जैसे कि जब टिप्पणियों के बीच सहसंबंध होता है), स्तरीकृत नमूनाकरण, क्लस्टर यादृच्छिक नियंत्रित परीक्षण, अनुपातहीन (असमान संभावना) नमूना, गैर-कवरेज, गैर-प्रतिक्रिया , सांख्यिकीय डिजाइन प्रभाव # असमान चयन संभावनाओं के स्रोत, आदि।
डेफ का उपयोग नमूना आकार की गणना में किया जा सकता है, नमूना के प्रतिनिधि (लक्षित आबादी के लिए) को मापने के साथ-साथ कुछ अनुमानक के भिन्नता को समायोजित करने के लिए (ऐसे मामलों में जब हम एसआरएस मानते हुए अनुमानक के भिन्नता की गणना कर सकते हैं)।[3] डिजाइन प्रभाव शब्द को 1965 में लेस्ली किश द्वारा गढ़ा गया था।[1]: 88, 258 जब से, कई डिजाइन प्रभाव # प्रसिद्ध नमूना डिजाइनों के लिए डिजाइन प्रभाव | साहित्य में गणना (और अनुमानक) प्रस्तावित किए गए हैं, रुचि के अनुमानकों के भिन्नता में वृद्धि/कमी पर ज्ञात नमूनाकरण डिजाइन के प्रभाव का वर्णन करने के लिए . सामान्य तौर पर, डिजाइन प्रभाव हितों के आंकड़ों के बीच भिन्न होता है, जैसे कि कुल या अनुपात वितरण # यादृच्छिक अनुपात के साधन और भिन्नताएं; यह भी मायने रखता है कि क्या डिजाइन (जैसे: चयन संभावनाएँ) रुचि के परिणाम के साथ सहसंबद्ध हैं। और अंत में, यह परिणाम के वितरण से ही प्रभावित होता है। व्यवहार में डिजाइन प्रभाव का आकलन और उपयोग करते समय इन सभी पर विचार किया जाना चाहिए।[4]: 13
परिभाषाएँ
डेफ
डिजाइन प्रभाव (डेफ, या ) कुछ सांख्यिकीय पैरामीटर के अनुमानकों के लिए दो सैद्धांतिक भिन्नताओं का अनुपात है ():[1][5]
- * अंश में कुछ पैरामीटर के अनुमानक के लिए वास्तविक भिन्नता है () दिए गए नमूने के डिजाइन में ;
- * भाजक में एक ही नमूना आकार मानने वाला विचरण है, लेकिन अगर अनुमानक का उपयोग करके नमूना प्राप्त किया गया था तो हम प्रतिस्थापन के बिना एक साधारण यादृच्छिक नमूने के लिए उपयोग करेंगे ().
ताकि:
अलग रखो, कितना अधिक विचरण बढ़ा था (या कुछ मामलों में घट गया था), क्योंकि हमारा नमूना तैयार किया गया था और एक विशिष्ट नमूना डिजाइन (जैसे: वजन, या अन्य उपायों का उपयोग करके) के लिए समायोजित किया गया था, क्योंकि यह तब होगा जब नमूना एक से था सरल यादृच्छिक नमूनाकरण (प्रतिस्थापन के बिना)। गणना के कई तरीके हैं , ब्याज के पैरामीटर के आधार पर (जैसे: जनसंख्या कुल, जनसंख्या माध्य, मात्राएँ, मात्राओं का अनुपात आदि), उपयोग किया गया अनुमानक, और नमूनाकरण डिज़ाइन (जैसे: क्लस्टर नमूनाकरण, स्तरीकृत नमूनाकरण, पोस्ट-स्तरीकरण, बहु-चरण नमूनाकरण) , वगैरह।)।
समष्टि माध्य का अनुमान लगाने के लिए, डेफ (कुछ प्रतिदर्श डिजाइन p के लिए) है:[4]: 4 [2]: 54
जहाँ n नमूना आकार है, f जनसंख्या से नमूने का अंश है (n/N), (1-f) मानक त्रुटि # परिमित जनसंख्या सुधार (FPC) (FPC) है, और प्रसरण#नमूना प्रसरण है।
इकाई विचरण (या तत्व विचरण) का अनुमान तब होता है जब डेफ को तत्व के विचरण से गुणा किया जाता है, ताकि नमूना डिजाइन की सभी जटिलताओं को शामिल किया जा सके।[1]: 259
ध्यान दें कि डेफ की परिभाषा जनसंख्या के उन मापदंडों पर कैसे आधारित है जिन्हें हम अक्सर नहीं जानते हैं (यानी: दो अलग-अलग नमूना डिजाइनों के तहत अनुमानकों के प्रसरण)। विशिष्ट डिजाइनों के लिए डीईएफ़ का आकलन करने की प्रक्रिया को डिज़ाइन प्रभाव # प्रसिद्ध नमूना डिज़ाइनों के लिए डिज़ाइन प्रभाव में वर्णित किया जाएगा।[6]: 98
कुछ डिज़ाइन के लिए कुल (माध्य नहीं) का अनुमान लगाने के (सैद्धांतिक) डिज़ाइन प्रभाव के लिए एक सामान्य सूत्र कोचरन 1977 में दिया गया है।[2]: 54
चतुर
1995 में किश द्वारा प्रस्तावित डेफ से संबंधित मात्रा को डेफ्ट (डिजाइन इफेक्ट फैक्टर) कहा जाता है।[7]: 56 [4]इसे विचरण अनुपात के वर्गमूल पर परिभाषित किया गया है, और भाजक बिना प्रतिस्थापन (srswor) के बजाय प्रतिस्थापन (srswr) के साथ एक साधारण यादृच्छिक नमूने का उपयोग करता है:
इस बाद की परिभाषा में (1995 बनाम 1965 में प्रस्तावित) यह तर्क दिया गया था कि प्रतिस्थापन के बिना एसआरएस (विचरण पर इसके सकारात्मक प्रभाव के साथ) को डिजाइन प्रभाव की परिभाषा में शामिल किया जाना चाहिए, क्योंकि यह नमूना डिजाइन का हिस्सा है। यह अनुमान में उपयोग से अधिक सीधे संबंधित है (चूंकि हम अक्सर विश्वास अंतराल बनाते समय +Z*DE*SE का उपयोग करते हैं, न कि +Z*DE*VAR का)। साथ ही चूंकि मानक त्रुटि#परिमित जनसंख्या सुधार (FPC) (FPC) भी कुछ स्थितियों में गणना करना कठिन होता है। लेकिन कई मामलों में जब जनसंख्या बहुत बड़ी होती है, तो Deft (लगभग) Deff का वर्गमूल होता है ().
डेफ़्ट का मूल उद्देश्य यह था कि वह मौलिक परिवर्तनशीलता से परे नमूना डिज़ाइन के प्रभावों को व्यक्त करे , माप की इकाई और नमूना आकार दोनों को उपद्रव मापदंडों के रूप में हटाकर, यह एक ही सर्वेक्षण के भीतर (और यहां तक कि सर्वेक्षणों के बीच भी) कई आँकड़ों और चरों के लिए डिजाइन प्रभाव को सामान्य बनाने योग्य (प्रासंगिक) बनाने के लिए किया जाता है।[7]: 55 हालांकि, अनुवर्ती कार्यों ने दिखाया है कि डिजाइन प्रभाव की गणना, जनसंख्या कुल या माध्य जैसे मापदंडों के लिए, परिणाम माप की परिवर्तनशीलता पर निर्भरता है, जो इस माप के लिए किश की मूल आकांक्षा को सीमित करता है। हालाँकि, यह कथन शिथिल हो सकता है (अर्थात: कुछ शर्तों के तहत) भारित माध्य के लिए सही हो सकता है।[4]: 5
प्रभावी नमूना आकार
प्रभावी नमूना आकार, जिसे 1965 में किश द्वारा भी परिभाषित किया गया था, डिजाइन प्रभाव से विभाजित मूल नमूना आकार है।[1]: 162, 259 [8]: 190, 192 यह मात्रा दर्शाती है कि मौजूदा डिज़ाइन के साथ अनुमानक (कुछ पैरामीटर के लिए) के वर्तमान भिन्नता को प्राप्त करने के लिए आवश्यक नमूना आकार क्या होगा, यदि नमूना डिज़ाइन (और इसके प्रासंगिक पैरामीटर अनुमानक) एक साधारण यादृच्छिक नमूने पर आधारित थे।[9] अर्थात्:
दूसरे तरीके से कहें तो यह कहता है कि एक एस्टिमेटर का उपयोग करते समय हमारे पास कितनी प्रतिक्रियाएं बची हैं जो नमूना डिजाइन के डिजाइन प्रभाव के लिए सही ढंग से समायोजित करता है। उदाहरण के लिए, साधारण अंकगणितीय माध्य के बजाय व्युत्क्रम संभाव्यता भार के साथ भारित अंकगणितीय माध्य का उपयोग करना।
डेफ़ का व्युत्क्रम लेकर प्रभावी नमूना आकार अनुपात प्राप्त करना भी संभव है (अर्थात: ).
असमान वजन के लिए किश के डिजाइन प्रभाव का उपयोग करते समय, आप लेस्ली किश के प्रभावी नमूना आकार के लिए निम्न सरल सूत्र का उपयोग कर सकते हैं[10][1]: 162, 259
सुप्रसिद्ध सैम्पलिंग डिजाइनों के लिए डिजाइन प्रभाव
नमूनाकरण डिजाइन तय करता है कि डिजाइन प्रभाव की गणना कैसे की जानी चाहिए
अलग-अलग सैंपलिंग डिज़ाइन उनके पूर्वाग्रह और विचरण के संदर्भ में अनुमानकों (जैसे माध्य) पर उनके प्रभाव में काफी भिन्न होते हैं।
उदाहरण के लिए, क्लस्टर सैंपलिंग मामले में इकाइयों में समान या असमान चयन संभावनाएँ हो सकती हैं, भले ही उनका इंट्रा-क्लास सहसंबंध (और हमारे अनुमानकों के विचरण को बढ़ाने का उनका नकारात्मक प्रभाव) हो। स्तरीकृत नमूने के मामले में, संभावनाएं बराबर (ईपीएसईएम) या असमान हो सकती हैं। लेकिन इसकी परवाह किए बिना, नमूनाकरण चरण के दौरान, जनसंख्या में स्तर के आकार पर पूर्व सूचना का उपयोग, हमारे अनुमानकों की सांख्यिकीय दक्षता प्राप्त कर सकता है। उदाहरण के लिए: यदि हम जानते हैं कि लिंग हमारी रुचि के परिणाम से संबंधित है, और यह भी जानते हैं कि कुछ जनसंख्या के लिए पुरुष-महिला अनुपात 50%-50% है। फिर यदि हमने सुनिश्चित किया कि प्रत्येक लिंग का ठीक आधा नमूना लिया जाए, तो हमने अनुमानकों के विचलन को कम कर दिया है क्योंकि हमने अपने नमूने में पुरुषों-महिलाओं के असमान अनुपात के कारण होने वाली परिवर्तनशीलता को हटा दिया है। अंत में, गैर-कवरेज, गैर-प्रतिक्रिया या आबादी के कुछ स्तर विभाजन (नमूना चरण के दौरान अनुपलब्ध) में समायोजन के मामले में, हम सांख्यिकीय प्रक्रियाओं (जैसे: पोस्ट-स्तरीकरण और अन्य) का उपयोग कर सकते हैं। ऐसी प्रक्रियाओं के परिणाम से नमूनाकरण की संभावनाओं का अनुमान लगाया जा सकता है जो इकाइयों की वास्तविक नमूनाकरण संभावनाओं की तुलना में समान या बहुत भिन्न हैं। इन अनुमानकों की गुणवत्ता सहायक जानकारी की गुणवत्ता और उन्हें बनाने में उपयोग की जाने वाली यादृच्छिक धारणाओं पर लापता डेटा # गुम होने पर निर्भर करती है। यहां तक कि जब ये नमूना संभाव्यता अनुमानक (प्रवृत्ति स्कोर) उन अधिकांश घटनाओं को पकड़ने में कामयाब होते हैं जो उन्हें उत्पन्न करते हैं - अनुमानकों पर परिवर्तनीय चयन संभावनाओं का प्रभाव डेटा (अगले खंड में विवरण) के आधार पर छोटा या बड़ा हो सकता है।
नमूना डिजाइनों में बड़ी विविधता के कारण (असमान चयन संभावनाओं पर प्रभाव के साथ या बिना), संभावित डिजाइन प्रभाव को पकड़ने के साथ-साथ अनुमानकों के सही विचलन का अनुमान लगाने के लिए विभिन्न सूत्र विकसित किए गए हैं। कभी-कभी, इन विभिन्न डिज़ाइन प्रभावों को एक साथ मिश्रित किया जा सकता है (जैसा कि असमान चयन संभावना और क्लस्टर नमूनाकरण के मामले में, निम्न अनुभागों में अधिक विवरण)। इन फ़ार्मुलों का उपयोग करना है या नहीं, या केवल एसआरएस मान लें, अनुमानक भिन्नता में वृद्धि बनाम पूर्वाग्रह की अपेक्षित मात्रा पर निर्भर करता है (और पद्धतिगत और तकनीकी जटिलता के ऊपरी हिस्से में)।[1]: 426
असमान चयन संभावनाएं
असमान चयन संभावनाओं के स्रोत
इकाइयों का नमूना लेने के विभिन्न तरीके हैं ताकि प्रत्येक इकाई के चयन की सटीक समान संभावना हो। ऐसी पद्धतियों को सरल यादृच्छिक नमूना#समान प्रायिकता नमूनाकरण (एपीएसईएम) (ईपीएसईएम) विधियाँ कहा जाता है। अधिक बुनियादी तरीकों में से कुछ सरल यादृच्छिक नमूना (एसआरएस, या तो प्रतिस्थापन के साथ या बिना) और एक निश्चित नमूना आकार प्राप्त करने के लिए व्यवस्थित नमूनाकरण शामिल हैं। एक यादृच्छिक नमूना आकार के साथ बर्नौली नमूनाकरण भी है। स्तरीकृत नमूनाकरण और क्लस्टर नमूनाकरण जैसी अधिक उन्नत तकनीकों को भी ईपीएसईएम के रूप में डिजाइन किया जा सकता है। उदाहरण के लिए, क्लस्टर सैंपलिंग में हम प्रत्येक क्लस्टर को प्रायिकता के साथ नमूना लेना सुनिश्चित कर सकते हैं जो उसके आकार के समानुपाती है, और फिर क्लस्टर के अंदर सभी इकाइयों को मापें। क्लस्टर नमूनाकरण के लिए एक अधिक जटिल विधि एक दो-चरण नमूनाकरण का उपयोग करना है जिसके द्वारा हम पहले चरण में क्लस्टर का नमूना लेते हैं (पहले की तरह, क्लस्टर आकार के आनुपातिक), और दूसरे चरण में प्रत्येक क्लस्टर से एक निश्चित अनुपात के साथ SRS का उपयोग करके नमूना लेते हैं ( उदाहरण: क्लस्टर का नमूना आधा)।[11]: 3–8
अपने कार्यों में, लेस्ली किश और अन्य कई ज्ञात कारणों पर प्रकाश डालते हैं जो असमान चयन संभावनाओं को जन्म देते हैं:[1]: 425 [8]: 185 [7]: 69 [12]: 50, 395 [13]: 306
- चयन फ्रेम या प्रक्रिया के कारण अनुपातहीन नमूनाकरण। ऐसा तब होता है जब एक शोधकर्ता उद्देश्यपूर्ण तरीके से अपने नमूने को नमूना विशिष्ट उप-आबादी या समूहों के ऊपर/नीचे डिज़ाइन करता है। ऐसे कई मामले हैं जिनमें ऐसा हो सकता है। उदाहरण के लिए:
- स्तरीकृत नमूनाकरण में#स्तरीकृत नमूनाकरण रणनीतियाँ जब कुछ स्तरों की इकाइयों को अन्य स्तरों की तुलना में बड़ा विचरण करने के लिए जाना जाता है। ऐसे मामलों में, शोधकर्ता का इरादा स्ट्रैटम के बीच भिन्नता के बारे में इस पूर्व ज्ञान का उपयोग करना हो सकता है ताकि ब्याज के कुछ जनसंख्या स्तर के पैरामीटर के अनुमानक के समग्र भिन्नता को कम किया जा सके (जैसे: माध्य)। इसे नमूना आकार निर्धारण#स्तरीकृत नमूना आकार नामक रणनीति द्वारा प्राप्त किया जा सकता है, जिसमें एक स्तर उच्च मानक विचलन और कम नमूना लागत के अनुपात में अधिक नमूना लिया गया है (अर्थात: , कहाँ में परिणाम का मानक विचलन है , और से एक तत्व की भर्ती की लागत से संबंधित है ). इष्टतम आवंटन का एक उदाहरण नेमैन का इष्टतम आवंटन है, जब प्रत्येक स्तर की भर्ती के लिए लागत तय की जाती है, तो नमूना आकार होता है: . जहां योग सभी स्तरों पर है; n कुल नमूना आकार है; स्ट्रैटम एच के लिए नमूना आकार है; समूची जनसंख्या N की तुलना में संस्तर h का सापेक्षिक आकार; और स्ट्रैटम एच में मानक त्रुटि है। इष्टतम डिजाइन से संबंधित अवधारणा इष्टतम डिजाइन है।
- यदि दो स्तरों (जैसे: दो विशिष्ट सामाजिक-जनसांख्यिकीय समूहों के लोग, या दो क्षेत्रों, आदि) की तुलना करने में रुचि है, तो इस मामले में छोटे समूह का अधिक नमूना लिया जा सकता है। इस तरह, दो समूहों की तुलना करने वाले अनुमानक का प्रसरण कम हो जाता है।
- क्लस्टर सैंपलिंग में विभिन्न आकारों के क्लस्टर हो सकते हैं, लेकिन सरल रैंडम सैंपल का उपयोग करके सभी क्लस्टर्स से प्रक्रिया के नमूने लिए जाते हैं, और क्लस्टर में सभी तत्वों को मापा जाता है (उदाहरण के लिए, यदि क्लस्टर आकार सैंपलिंग के चरण में पहले से ज्ञात नहीं हैं ).
- दो-चरण के नमूने का उपयोग करते समय ताकि पहले चरण में समूहों को उनके आकार के अनुपात में नमूना लिया जाए (उर्फ: 'पीपीएस' आकार के अनुपात में संभावना), लेकिन फिर दूसरे चरण में केवल इकाइयों की एक विशिष्ट निश्चित संख्या ( उदाहरण: एक या दो) प्रत्येक क्लस्टर से चुने गए हैं - यह सुविधा/बजट विचारों के कारण हो सकता है। इसी तरह का मामला तब होता है जब पहले चरण में पीपीएस का उपयोग करके नमूना लेने का प्रयास किया जाता है, लेकिन प्रत्येक इकाई में तत्वों की संख्या गलत होती है (ताकि कुछ छोटे क्लस्टर में चयन होने की संभावना अधिक हो सकती है। और इसके विपरीत। बड़े समूह जिनमें नमूने लेने की बहुत कम संभावना होती है)। ऐसे मामलों में, पहले चरण में नमूने के फ्रेम में जितनी बड़ी त्रुटियां होंगी - उतनी ही बड़ी आवश्यक असमान चयन संभावनाएं होंगी।[6]: 109
- जब नमूने के लिए उपयोग किए जाने वाले फ्रेम में कुछ वस्तुओं का दोहराव शामिल होता है, इस प्रकार कुछ वस्तुओं के नमूने लेने की संभावना दूसरों की तुलना में अधिक होती है (उदाहरण: यदि नमूना फ्रेम कई सूचियों को मिलाकर बनाया गया था। या यदि उपयोगकर्ताओं को भर्ती किया गया था। कई विज्ञापन चैनल - जिनमें कुछ उपयोगकर्ता कई चैनलों से भर्ती के लिए उपलब्ध हैं, जबकि अन्य केवल एक चैनल से भर्ती होने के लिए उपलब्ध हैं)। इनमें से प्रत्येक मामले में - अलग-अलग इकाइयों में अलग-अलग नमूना लेने की संभावना होगी, इस प्रकार यह नमूनाकरण प्रक्रिया ईपीएसईएम नहीं होगी।[11]: 3–8 [8]: 186
- जब कई अलग-अलग नमूने/फ्रेम संयुक्त होते हैं। उदाहरण के लिए, यदि उत्तरदाताओं की भर्ती के लिए विभिन्न विज्ञापन अभियान चला रहे हैं। या जब अलग-अलग शोधकर्ताओं और/या अलग-अलग समय पर किए गए कई अध्ययनों के परिणामों को जोड़ते हैं (यानी: मेटा-विश्लेषण)।[8]: 188
- जब अनुपातहीन नमूनाकरण होता है, नमूनाकरण डिजाइन निर्णयों के कारण, शोधकर्ता (कभी-कभी) निर्णय का पता लगाने में सक्षम हो सकता है और सटीक समावेशन संभावना की सटीक गणना कर सकता है। जब इन चयन संभावनाओं का पता लगाना कठिन होता है, तो सहायक चर (जैसे: आयु, लिंग, आदि) से जानकारी के साथ संयुक्त कुछ प्रवृत्ति स्कोर मॉडल का उपयोग करके अनुमान लगाया जा सकता है।
- गैर-कवरेज।[1]: 527, 528 ऐसा होता है, उदाहरण के लिए, यदि लोगों को कुछ पूर्व-निर्धारित सूची के आधार पर नमूना लिया जाता है जिसमें जनसंख्या में सभी लोग शामिल नहीं होते हैं (उदाहरण: एक फ़ोन बुक या किसी सर्वेक्षण में लोगों को भर्ती करने के लिए विज्ञापनों का उपयोग करना)। कुछ लोगों के जानबूझकर बहिष्करण के विरोध में नमूना फ्रेम बनाने में कुछ विफलता के कारण ये लापता इकाइयां गायब हैं (उदाहरण के लिए: नाबालिग, लोग जो वोट नहीं दे सकते हैं, आदि)। नमूना संभावना पर गैर-कवरेज के प्रभाव को विभिन्न सर्वेक्षण स्थितियों में मापने (और समायोजित करने) के लिए मुश्किल माना जाता है, जब तक कि मजबूत धारणा नहीं बनाई जाती।
- गैर-प्रतिक्रिया। यह उन नमूना इकाइयों पर माप प्राप्त करने में विफलता को संदर्भित करता है जिन्हें मापने का इरादा है। गैर-प्रतिक्रिया के कारण विविध हैं और संदर्भ पर निर्भर करते हैं। एक व्यक्ति अस्थायी रूप से अनुपलब्ध हो सकता है, उदाहरण के लिए यदि वे सर्वेक्षण पूरा होने पर फोन उठाने के लिए उपलब्ध नहीं हैं। एक व्यक्ति कई कारणों से सर्वेक्षण का उत्तर देने से इंकार भी कर सकता है, जैसे: विभिन्न जातीय/जनसांख्यिकीय/सामाजिक-आर्थिक समूहों के लोगों की सामान्य रूप से प्रतिक्रिया देने की विभिन्न प्रवृत्तियाँ; समय व्यतीत करने या डेटा साझा करने के लिए अपर्याप्त प्रोत्साहन; सर्वेक्षण चलाने वाली संस्था की पहचान; जवाब देने में असमर्थता (जैसे: बीमारी, निरक्षरता, या भाषा बाधा के कारण); प्रतिवादी नहीं मिला (उदाहरण: उन्होंने एक अपार्टमेंट स्थानांतरित कर दिया है); एन्कोडिंग या ट्रांसमिशन (यानी: माप त्रुटि) के दौरान प्रतिक्रिया खो गई/नष्ट हो गई। सर्वेक्षणों के संदर्भ में, ये कारण पूरे सर्वेक्षण के उत्तर देने या केवल विशिष्ट प्रश्नों से संबंधित हो सकते हैं।[1]: 532 [8]: 186
- सांख्यिकीय समायोजन। इनमें नमूनाकरण (सांख्यिकी)#स्तरीकृत नमूनाकरण|पोस्ट-स्तरीकरण, रेकिंग, या प्रवृत्ति स्कोर मिलान#प्रवृत्ति स्कोर|प्रवृत्ति स्कोर (अनुमान) मॉडल जैसी विधियाँ शामिल हो सकती हैं - कुछ ज्ञात के लिए नमूने का तदर्थ समायोजन करने के लिए उपयोग किया जाता है ( या अनुमानित) स्तर आकार। इस तरह की प्रक्रियाओं का उपयोग सैंपलिंग त्रुटि से लेकर नमूनाकरण त्रुटि के अंडर-कवरेज से लेकर गैर-प्रतिक्रिया तक के मुद्दों को कम करने के लिए किया जाता है।[14]: 45 [15] उदाहरण के लिए, यदि एक साधारण यादृच्छिक नमूने का उपयोग किया जाता है, तो पोस्ट-स्तरीकरण (कुछ सहायक जानकारी का उपयोग करके) एक अनुमानक प्रदान नहीं करता है जो केवल एक भारित अनुमानक से समान रूप से बेहतर है। हालाँकि, इसे अधिक मजबूत अनुमानक के रूप में देखा जा सकता है।[16] वैकल्पिक रूप से, इन विधियों का उपयोग नमूने को कुछ लक्ष्य नियंत्रणों (यानी: ब्याज की जनसंख्या) के समान बनाने के लिए किया जा सकता है, एक प्रक्रिया जिसे मानकीकरण के रूप में भी जाना जाता है।[8]: 187 ऐसे मामलों में, ये समायोजन निष्पक्ष अनुमानक प्रदान करने में मदद करते हैं (अक्सर बढ़े हुए प्रसरण की लागत के साथ, जैसा कि निम्नलिखित अनुभागों में देखा गया है)। यदि मूल नमूना एक गैर-संभाव्यता नमूनाकरण है, तो स्तरीकरण के बाद के समायोजन बिल्कुल तदर्थ कोटा नमूने के समान हैं।[8]: 188, 189
जब नमूना डिजाइन पूरी तरह से ज्ञात हो (कुछ के लिए अग्रणी स्ट्रैट एच से कुछ तत्वों के चयन की संभावना), और गैर-प्रतिक्रिया मापने योग्य है (यानी: हम जानते हैं कि केवल प्रेक्षणों का उत्तर स्ट्रैटा एच में दिया गया है), तो एक सटीक रूप से ज्ञात व्युत्क्रम संभाव्यता भार की गणना स्ट्रैटा एच से प्रत्येक तत्व के लिए की जा सकती है:.[8]: 186 कभी-कभी एक सांख्यिकीय समायोजन, जैसे पोस्ट-स्तरीकरण या रेकिंग, चयन संभावना का अनुमान लगाने के लिए उपयोग किया जाता है। उदाहरण: नमूने की तुलना करते समय हमारे पास एक ही लक्षित आबादी है, जिसे नियंत्रणों से मिलान के रूप में भी जाना जाता है। अनुमान प्रक्रिया केवल मौजूदा आबादी को वैकल्पिक आबादी में समायोजित करने पर केंद्रित हो सकती है (उदाहरण के लिए, यदि कई क्षेत्रों से पूरे देश में खींचे गए पैनल से एक्सट्रपलेशन करने की कोशिश की जा रही है)। ऐसी स्थिति में, समायोजन कुछ अंशांकन कारक पर केंद्रित हो सकता है और वजन के रूप में गणना की जाएगी .[8]: 187 हालांकि, अन्य मामलों में, कम-कवरेज और गैर-प्रतिक्रिया दोनों को सांख्यिकीय समायोजन के हिस्से के रूप में एक ही बार में तैयार किया जाता है, जो समग्र नमूना संभावना का अनुमान लगाता है (मान लीजिए ). ऐसे मामले में, वजन बस हैं: . ध्यान दें कि जब सांख्यिकीय समायोजन का उपयोग किया जाता है, अक्सर किसी मॉडल के आधार पर अनुमान लगाया जाता है। निम्नलिखित खंडों में सूत्रीकरण यह मानता है ज्ञात है, जो सांख्यिकीय समायोजन के लिए सही नहीं है (क्योंकि हमारे पास केवल है ). हालांकि, अगर यह माना जाता है कि अनुमान त्रुटि बहुत छोटा है तो निम्नलिखित वर्गों का उपयोग किया जा सकता है जैसे कि यह ज्ञात था। इस धारणा का सही होना मॉडलिंग के लिए उपयोग किए गए नमूने के आकार पर निर्भर करता है, और विश्लेषण के दौरान ध्यान में रखने योग्य है।
जब चयन संभावनाएँ भिन्न हो सकती हैं, तो नमूना आकार यादृच्छिक होता है, और जोड़ीदार चयन संभावनाएँ स्वतंत्र होती हैं, हम इसे पॉइसन नमूनाकरण कहते हैं।[17]
अनुमानकों के गुणों का वर्णन करने के लिए डिजाइन आधारित बनाम मॉडल आधारित
अलग-अलग केस वेट के माध्यम से असमान संभाव्यता चयन के लिए समायोजन करते समय (उदाहरण: व्युत्क्रम संभाव्यता भार), हमें ब्याज की मात्रा के लिए विभिन्न प्रकार के अनुमानक मिलते हैं। हॉर्विट्ज़-थॉम्पसन अनुमानक जैसे अनुमानक कुल और जनसंख्या के माध्य के लिए निष्पक्ष अनुमानक (यदि चयन संभावनाएं वास्तव में ज्ञात हैं, या लगभग ज्ञात हैं) प्राप्त करते हैं। Deville और Särndal (1992) ने वजन का उपयोग करने वाले अनुमानकों के लिए "अंशांकन अनुमानक" शब्द गढ़ा, जैसे कि वे कुछ शर्तों को पूरा करते हैं, जैसे कि जनसंख्या के आकार के बराबर वजन का योग। और अधिक आम तौर पर, वजन का भारित योग एक सहायक चर की कुछ मात्रा के बराबर होता है: (उदाहरण: कि उत्तरदाताओं की भारित आयु का योग प्रत्येक आयु बकेट में जनसंख्या के आकार के बराबर है)।[18][15]: 132 [19]: 1
अंशांकन अनुमानकों के गुणों के बारे में बहस करने के दो प्राथमिक तरीके हैं:[15]: 133–134 [20]
- यादृच्छिकरण आधारित (या, नमूना डिजाइन आधारित) - इन मामलों में, भार () और ब्याज के परिणाम के मूल्य नमूने में मापे गए सभी को ज्ञात माना जाता है। इस ढांचे में, परिणाम (Y) के (ज्ञात) मूल्यों में परिवर्तनशीलता है। हालांकि, केवल यादृच्छिकता जनसंख्या में से किस तत्व से नमूने में ली गई थी (अक्सर के रूप में निरूपित किया जाता है , 1 if तत्व प्राप्त करना नमूने में है और 0 अगर यह नहीं है)। एक साधारण यादृच्छिक नमूने के लिए, प्रत्येक कुछ पैरामीटर के साथ एक स्वतंत्र और समान रूप से वितरित यादृच्छिक चर | i.i.d बर्नौली वितरण होगा . सामान्य EPSEM के लिए (समान संभावना नमूनाकरण) अभी भी कुछ पैरामीटर के साथ बरनौली होगा , लेकिन वे अब स्वतंत्रता (संभाव्यता सिद्धांत) यादृच्छिक चर नहीं होंगे। पोस्ट स्तरीकरण जैसी किसी चीज़ के लिए, प्रत्येक स्तर पर तत्वों की संख्या को अलग-अलग बहुराष्ट्रीय वितरण के रूप में तैयार किया जा सकता है कुछ स्तरों से संबंधित प्रत्येक तत्व के लिए समावेशन संभावनाएँ . इन मामलों में नमूना आकार ही एक यादृच्छिक चर हो सकता है।
- मॉडल आधारित - इन मामलों में नमूना तय होता है, वज़न तय होता है, लेकिन ब्याज के परिणाम को एक यादृच्छिक चर के रूप में माना जाता है। उदाहरण के लिए, पोस्ट-स्तरीकरण के मामले में, परिणाम को कुछ रेखीय प्रतिगमन फ़ंक्शन के रूप में तैयार किया जा सकता है जहां स्वतंत्र चर सूचक चर होते हैं जो प्रत्येक अवलोकन को उसके प्रासंगिक स्तर पर मैप करते हैं, और परिवर्तनशीलता त्रुटि शब्द के साथ आती है।
जैसा कि हम बाद में देखेंगे, साहित्य में कुछ प्रमाण यादृच्छिककरण-आधारित रूपरेखा पर निर्भर करते हैं, जबकि अन्य मॉडल-आधारित परिप्रेक्ष्य पर ध्यान केंद्रित करते हैं। माध्य से भारित माध्य की ओर बढ़ते समय, अधिक जटिलता जुड़ जाती है। उदाहरण के लिए, सर्वेक्षण पद्धति के संदर्भ में अक्सर जनसंख्या के आकार को ही एक अज्ञात मात्रा माना जाता है जिसका अनुमान लगाया जाता है। इसलिए भारित माध्य की गणना वास्तव में एक अनुपात अनुमानक पर आधारित है, जिसमें अंश पर कुल का एक अनुमानक और भाजक में जनसंख्या के आकार का एक अनुमानक होता है (विचरण की गणना को और अधिक जटिल बनाने के लिए)।[21]
सामान्य प्रकार के बाट
वज़न के कई प्रकार (और उपप्रकार) हैं, जिनका उपयोग करने और उनकी व्याख्या करने के विभिन्न तरीके हैं। कुछ भारों के साथ उनके निरपेक्ष मूल्य का कुछ महत्वपूर्ण अर्थ होता है, जबकि अन्य भारों के साथ महत्वपूर्ण भाग एक दूसरे से भारों के सापेक्ष मूल्य होते हैं। यह खंड कुछ अधिक सामान्य प्रकार के वज़न प्रस्तुत करता है ताकि उन्हें अनुवर्ती अनुभागों में संदर्भित किया जा सके।
- फ्रीक्वेंसी वेट एक बुनियादी प्रकार का वेटिंग है, जिसे सांख्यिकी पाठ्यक्रमों के परिचय में प्रस्तुत किया गया है। इनके साथ, प्रत्येक भार एक पूर्णांक संख्या है जो नमूने में किसी वस्तु की आवृत्ति (आँकड़े) को इंगित करता है। इन्हें कभी-कभी दोहराव (या घटना) भार भी कहा जाता है। विशिष्ट मान का एक निरपेक्ष अर्थ होता है जो वजन बदलने पर खो जाता है (उदाहरण: स्केलिंग (ज्यामिति))। उदाहरण के लिए: यदि हमारे पास 2 और 3 के आवृत्ति भार मानों के साथ 10 और 20 की संख्याएँ हैं, तो हमारे डेटा को फैलाते समय यह है: 10,10, 20, 20, 20 (इनमें से प्रत्येक आइटम के लिए 1 के भार के साथ)। फ़्रीक्वेंसी वेट में डेटासेट में निहित जानकारी की मात्रा शामिल होती है, और इस प्रकार बेसेल के सुधार का उपयोग करके वेटेड अंकगणितीय माध्य # फ़्रिक्वेंसी वेट अनुमान बनाने जैसी चीज़ों की अनुमति देता है। ध्यान दें कि इस तरह के वजन अक्सर यादृच्छिक चर होते हैं, क्योंकि डेटासेट में प्रत्येक मान से विशिष्ट वस्तुओं की संख्या यादृच्छिक होती है।
- व्युत्क्रम-विचरण भार तब होता है जब प्रत्येक तत्व को एक भार सौंपा जाता है जो उसके (ज्ञात) विचरण का व्युत्क्रम होता है।[22][8]: 187 जब सभी तत्वों की समान प्रत्याशा होती है, तो भारित औसत की गणना के लिए ऐसे वज़न का उपयोग करने से सभी भारित औसतों में सबसे कम भिन्नता होती है। सामान्य सूत्रीकरण में, ये भार ज्ञात हैं और यादृच्छिक नहीं हैं (यह विश्वसनीयता भार से संबंधित प्रतीत होता है[definition needed]).
- सामान्यीकृत (उत्तल) वज़न वज़न का एक सेट है जो एक उत्तल संयोजन बनाता है। यानी: प्रत्येक वजन 0 और 1 के बीच की एक संख्या है, और सभी भारों का योग 1 के बराबर है। (गैर-ऋणात्मक) भारों के किसी भी सेट को प्रत्येक भार को सभी भारों के योग से विभाजित करके सामान्यीकृत भार में बदला जा सकता है, जिससे ये बनते हैं वजन 1 के योग के लिए सामान्यीकृत।
- एक संबंधित प्रपत्र नमूना आकार (n) के योग के लिए सामान्य किए गए भार हैं। ये (गैर-ऋणात्मक) वजन नमूना आकार (एन) के बराबर हैं, और उनका मतलब 1 है। वजन के किसी भी सेट को सभी वजन के औसत के साथ प्रत्येक वजन को विभाजित करके नमूना आकार में सामान्यीकृत किया जा सकता है। इन भारों की एक अच्छी सापेक्ष व्याख्या होती है जहां 1 से अधिक वजन वाले तत्व अधिक महत्वपूर्ण होते हैं (उनके सापेक्ष प्रभाव के संदर्भ में, कहते हैं, भारित औसत) फिर औसत अवलोकन, जबकि 1 से छोटे वजन औसत अवलोकन से कम महत्वपूर्ण होते हैं।
- व्युत्क्रम संभाव्यता भार तब होता है जब प्रत्येक तत्व को एक भार दिया जाता है जो उस तत्व के चयन की व्युत्क्रम संभावना के लिए (आनुपातिक) होता है। जैसे, प्रयोग करके .[8]: 185 व्युत्क्रम संभाव्यता भार के साथ, हम सीखते हैं कि लक्षित आबादी में प्रत्येक तत्व कितनी वस्तुओं का प्रतिनिधित्व करता है। इसलिए, ऐसे भारों का योग ब्याज की लक्षित आबादी का आकार लौटाता है। व्युत्क्रम संभाव्यता भार को 1 के योग के लिए सामान्यीकृत किया जा सकता है या नमूना आकार (n) के योग के लिए सामान्यीकृत किया जा सकता है, और निम्न अनुभागों से कई गणनाओं से समान परिणाम प्राप्त होंगे।
- जब एक नमूना सरल यादृच्छिक नमूना # समान संभाव्यता नमूनाकरण (ईपीएसएम) होता है तो सभी संभावनाएं समान होती हैं और चयन संभावना के व्युत्क्रम उपज वजन जो एक दूसरे के बराबर होते हैं (वे सभी बराबर होते हैं) , कहाँ नमूना आकार है और जनसंख्या का आकार है)। ऐसे नमूने को सेल्फ वेटिंग सैंपल कहा जाता है।[8]: 193
भारित समायोजनों को लागू करने के अप्रत्यक्ष तरीके भी हैं। उदाहरण के लिए, मौजूदा मामलों को इम्प्यूटेशन (सांख्यिकी) लापता टिप्पणियों (जैसे: गैर-प्रतिक्रिया से) के लिए डुप्लिकेट किया जा सकता है, विचरण के साथ इंप्यूटेशन (सांख्यिकी) #Multiple इंप्यूटेशन जैसे तरीकों का उपयोग करके अनुमान लगाया गया है। डेटा का एक पूरक व्यवहार कुछ मामलों को हटाना (0 का भार देना) है। उदाहरण के लिए, जब अधिक-नमूने वाले समूहों के प्रभाव को कम करना चाहते हैं जो कुछ विश्लेषण के लिए कम आवश्यक हैं। दोनों मामलों की प्रकृति व्युत्क्रम संभाव्यता भार के समान है, लेकिन व्यवहार में आवेदन वजन के एक अतिरिक्त कॉलम को लागू करने के बजाय डेटा की अधिक/कम पंक्तियाँ देता है (इनपुट को कुछ सॉफ़्टवेयर कार्यान्वयन में उपयोग करने के लिए संभावित रूप से सरल बनाता है)। फिर भी, इस तरह के कार्यान्वयन के परिणाम केवल वज़न का उपयोग करने के समान हैं। इसलिए अवलोकनों को हटाने के मामले में डेटा को सामान्य सॉफ़्टवेयर कार्यान्वयन द्वारा आसानी से नियंत्रित किया जा सकता है, पंक्तियों को जोड़ने के मामले में अनिश्चितता के अनुमानों के लिए विशेष समायोजन की आवश्यकता होती है। ऐसा नहीं करने से गलत निष्कर्ष निकल सकते हैं (यानी: अंतर्निहित मुद्दों के वैकल्पिक प्रतिनिधित्व का उपयोग करते समय कोई मुफ्त लंच प्रमेय नहीं है)।[8]: 189, 190
किश द्वारा गढ़ा गया हापज़र्ड वेट शब्द का उपयोग उन वेट को संदर्भित करने के लिए किया जाता है जो असमान चयन संभावनाओं के लिए डिज़ाइन प्रभाव # स्रोत के अनुरूप होते हैं, लेकिन वे जो चयनित तत्वों की अपेक्षा या विचरण से संबंधित नहीं होते हैं।[8]: 190, 191
अनुमानित अनुपात के साथ बेतरतीब वजन-माध्य () - किश का डिजाइन प्रभाव
सूत्र
का अप्रतिबंधित नमूना लेते समय तत्वों, फिर हम इन तत्वों को बेतरतीब ढंग से विभाजित कर सकते हैं अलग करना सेट स्ट्रैटम, उनमें से प्रत्येक में कुछ आकार होता है तत्व ताकि . प्रत्येक स्तर में सभी तत्व उन्हें कुछ (ज्ञात) गैर-नकारात्मक भार सौंपा गया है (). भार कुछ डिजाइन प्रभाव के व्युत्क्रम द्वारा उत्पादित किया जा सकता है # प्रत्येक स्तर में तत्वों के लिए असमान चयन संभावनाओं के स्रोत (यानी: पोस्ट-स्तरीकरण जैसी किसी चीज़ के बाद व्युत्क्रम संभाव्यता भार)। इस सेटिंग में, किश का डिज़ाइन प्रभाव, इस डिज़ाइन के कारण नमूना भारित अंकगणितीय माध्य के विचरण में वृद्धि के लिए (भार में परिलक्षित), बनाम कुछ परिणाम चर y का सरल यादृच्छिक नमूना (जब वज़न और के बीच कोई संबंध नहीं है) परिणाम, यानी: बेतरतीब वजन) है:[1]: 427 [8]: 191(4.2)
प्रत्येक वस्तु को उसके अपने स्तर से आने से उपचारित करके , किश (1992 में) ने उपरोक्त सूत्र को (जाने-माने) निम्नलिखित संस्करण में सरलीकृत किया:[8]: 191(4.3) [23]: 318 [4]: 8
सूत्र का यह संस्करण तब मान्य होता है जब एक स्तर से कई अवलोकन लिए जाते हैं (अर्थात: प्रत्येक का वजन समान होता है), या जब बहुत सारे स्तर होते हैं तो उनमें से प्रत्येक का एक अवलोकन होता है, लेकिन उनमें से कई का समान होता है चयन की संभावना। जबकि व्याख्या थोड़ी अलग है, दो परिदृश्यों की गणना समान होती है।
ध्यान दें कि डिज़ाइन प्रभाव की किश की परिभाषा वज़न के भिन्नता के गुणांक (जिसे सापेक्ष भिन्नता, प्रासंगिकता या रिलावर भी कहा जाता है) से निकटता से जुड़ी हुई है (मानक विचलन का उपयोग करते समय#असंशोधित नमूना मानक विचलन|असंशोधित (जनसंख्या स्तर) नमूना मानक विचलन भिन्नता के गुणांक # अनुमान के लिए)। साहित्य में इसकी कई सूचनाएं हैं:[8]: 191 [12]: 396
- .
कहाँ का जनसंख्या विचरण है , और मतलब है। जब वज़न को नमूना आकार के लिए सामान्यीकृत किया जाता है (ताकि उनका योग n के बराबर हो और उनका माध्य 1 के बराबर हो), तब और सूत्र कम हो जाता है . हालांकि यह सच है कि हम मानते हैं कि वजन तय हो गया है, हम उनके भिन्नता के बारे में सोच सकते हैं क्योंकि नमूनाकरण (समान संभावना के साथ) वजन के हमारे सेट से एक वजन (इसी तरह हम सहसंबंध के बारे में कैसे सोचेंगे) द्वारा परिभाषित एक अनुभवजन्य वितरण समारोह के भिन्नता के रूप में एक साधारण रेखीय प्रतिगमन में x और y का # प्रतिगमन रेखा को फ़िट करना)।
अनुमान और प्रमाण
उपरोक्त सूत्र डिजाइन प्रभाव # सामान्य प्रकार के वजन के आधार पर भारित माध्य के भिन्नता में वृद्धि देता है| अव्यवस्थित भार, जो दर्शाता है कि जब y का चयन डिज़ाइन प्रभाव # असमान चयन संभावनाओं के लिए स्रोतों का उपयोग करके किया गया है (बिना क्लस्टर के भीतर कोई संबंध नहीं है, और परिणाम माप की प्रत्याशा या विचरण से कोई संबंध नहीं है);[8]: 190, 191 और y' वे प्रेक्षण हैं जो हमें प्राप्त होते अगर हम उन्हें सरल यादृच्छिक नमूने से प्राप्त करते, तो:
एक डिजाइन प्रभाव से # डिजाइन आधारित बनाम मॉडल अनुमानकों के गुणों का वर्णन करने के लिए आधारित,[24] यह सूत्र तब मान्य होता है जब सभी n अवलोकन () हैं (कम से कम लगभग) असंबद्धता (संभावना सिद्धांत) (), समान विचरण के साथ () ब्याज की प्रतिक्रिया चर (y) में। यह यह भी मानता है कि वजन स्वयं एक यादृच्छिक चर नहीं है, बल्कि कुछ ज्ञात स्थिरांक हैं (उदाहरण: चयन की संभावना का व्युत्क्रम, कुछ पूर्व-निर्धारित और ज्ञात नमूनाकरण (सांख्यिकी) के लिए)।
निम्नलिखित के लिए एक सरलीकृत सबूत है जब कोई क्लस्टर नहीं है (यानी: नमूने के तत्व के बीच कोई इंट्राक्लास सहसंबंध नहीं) और प्रत्येक स्तर में केवल एक अवलोकन शामिल है:[24]
संक्रमण:
- भारित माध्य की परिभाषा से।
- डिजाइन प्रभाव का उपयोग करना # सामान्य प्रकार के वजन | सामान्यीकृत (उत्तल) वजन की परिभाषा (वजन जो 1 के बराबर है): .
- प्रसरण#असंबद्ध चरों का योग (Bienaymé सूत्र)।
- यदि भार स्थिर हैं (प्रसरण से # प्रसरण के मूल गुण)। इसे कहने का दूसरा तरीका यह है कि भार प्रत्येक प्रेक्षण के लिए पहले से ही जाना जाता है i। अर्थात् हम वास्तव में गणना कर रहे हैं
- जब सभी अवलोकनों में समान भिन्नता हो ().
यदि y प्रेक्षण स्वतंत्र हैं और समान रूप से वितरित रैंडम वेरिएबल्स|i.i.d समान अपेक्षित मूल्य और भिन्नता के साथ हैं, तो y पर स्थितियां तुच्छ रूप से आयोजित की जाती हैं। ऐसे में हमारे पास है , और हम अनुमान लगा सकते हैं का उपयोग करके .[8][25] यदि y सभी समान अपेक्षाओं के साथ नहीं हैं तो हम गणना के लिए अनुमानित भिन्नता का उपयोग नहीं कर सकते हैं, क्योंकि यह अनुमान मानता है कि सभी की एक ही अपेक्षा है। विशेष रूप से, यदि वजन और परिणाम चर y के बीच एक संबंध है, तो इसका मतलब है कि y की अपेक्षा सभी टिप्पणियों के लिए समान नहीं है (बल्कि, प्रत्येक अवलोकन के लिए विशिष्ट वजन मान पर निर्भर है)। ऐसे मामले में, जबकि डिज़ाइन प्रभाव सूत्र अभी भी सही हो सकता है (यदि अन्य शर्तों को पूरा किया जाता है), भारित माध्य के भिन्नता के लिए इसे एक अलग अनुमानक की आवश्यकता होगी। उदाहरण के लिए, भारित अंकगणितीय माध्य#भारित नमूना प्रसरण का उपयोग करना बेहतर हो सकता है।
यदि अलग हो तो s के अलग-अलग प्रसरण हैं, तो जबकि भारित प्रसरण सही जनसंख्या-स्तर विचरण को पकड़ सकता है, डिजाइन प्रभाव के लिए किश का सूत्र अब सत्य नहीं हो सकता है।
इसी तरह की समस्या तब होती है जब नमूनों में कुछ सहसंबंध संरचना होती है (जैसे क्लस्टर नमूनाकरण का उपयोग करते समय)।
साहित्य में वैकल्पिक परिभाषाएँ
यह ध्यान देने योग्य है कि साहित्य के कुछ स्रोत किश के डिजाइन प्रभाव के लिए निम्नलिखित वैकल्पिक परिभाषा देते हैं, जिसमें कहा गया है: भारित सर्वेक्षण के विचरण का अनुपात अनुपातहीन स्तरीकृत नमूनाकरण के तहत स्तरीकृत नमूनाकरण # स्तरीकृत नमूनाकरण रणनीतियों के तहत भिन्नता का अनुपात है। स्तर इकाई प्रसरण बराबर हैं।[23]: 318 [12]: 396
यह परिभाषा थोड़ी भ्रामक हो सकती है, क्योंकि इसका अर्थ यह लगाया जा सकता है कि स्तरीकृत नमूनाकरण के माध्यम से आनुपातिक स्तरीकृत नमूनाकरण प्राप्त किया गया था, जिसमें प्रत्येक स्तर से इकाइयों की पूर्व-निर्धारित संख्या का चयन किया जाता है। इस तरह के चयन से विचरण में कमी आएगी (सरल यादृच्छिक नमूने की तुलना में), क्योंकि यह प्रति स्ट्रैटम में तत्वों की विशिष्ट संख्या में कुछ अनिश्चितता को दूर करता है। यह किश की मूल परिभाषा से भिन्न है, जिसने डिजाइन के विचरण की तुलना एक साधारण यादृच्छिक नमूने से की थी (जो नमूना के अनुपात में लगभग संभाव्यता उत्पन्न करेगा, लेकिन बिल्कुल नहीं - प्रत्येक स्तर में नमूना आकार में भिन्नता के कारण)। पार्क और ली (2006) यह कहते हुए इस पर प्रतिबिंबित करते हैं कि उपरोक्त व्युत्पत्ति के पीछे तर्क यह है कि अव्यवस्थित असमान भार के कारण [भारित माध्य] की सटीकता में हानि को अनुपातहीन स्तरीकृत नमूने के तहत विचरण के अनुपात से अनुमानित किया जा सकता है। आनुपातिक स्तरीकृत नमूने के तहत।[4]: 8 ये दोनों परिभाषाएँ एक-दूसरे से कितनी दूर हैं, साहित्य में इसका उल्लेख नहीं है।[citation needed] 1977 से अपनी पुस्तक में, कोचरन इष्टतम आवंटन से विचलन के कारण प्रसरण में आनुपातिक वृद्धि के लिए एक सूत्र प्रदान करता है (किश के सूत्रों को एल कहा जाएगा)।[2]: 116 हालांकि, किश के L से उस सूत्र का संबंध स्पष्ट नहीं है।[citation needed]
वैकल्पिक नामकरण परंपराएं
पहले के पेपर इस शब्द का प्रयोग करते थे .[8]: 192 जैसा कि डिज़ाइन प्रभाव की अधिक परिभाषाएँ सामने आईं, डिज़ाइन प्रभाव#किश का डिज़ाइन प्रभाव|असमान चयन संभावनाओं के लिए किश का डिज़ाइन प्रभाव निरूपित किया गया (या ) या केवल छोटे के लिए।[4]: 8 [12]: 396 [23]: 318 किश के डिजाइन प्रभाव को असमान भार प्रभाव (या सिर्फ यूडब्ल्यूई) के रूप में भी जाना जाता है, जिसे लियू एट अल द्वारा कहा जाता है। 2002 में।[26]: 2124
जब परिणाम चयन संभावनाओं से संबंधित होता है
अनुमानित कुल के लिए स्पेंसर का डेफ ()
कुल के लिए अनुमानक प्रतिस्थापन अनुमानक के साथ पी-विस्तारित है (उर्फ: pwr-अनुमानक या हॉर्विट्ज़-थॉम्पसन अनुमानक)। यह एम मदों के एक साधारण यादृच्छिक नमूने (प्रतिस्थापन के साथ, निरूपित SIR) पर आधारित है () आकार एम की आबादी से। प्रत्येक आइटम की संभावना है (k से 1 से N) को एक ड्रॉ में निकाला जाना है (, यानी: यह एक बहुराष्ट्रीय वितरण है)। संभावना है कि एक विशिष्ट हमारे नमूने में दिखाई देगा . प्रतिस्थापन मूल्य के साथ पी-विस्तार है निम्नलिखित प्रत्याशा के साथ: . इस तरह , pwr-आकलक, y के कुल योग के लिए एक निष्पक्ष अनुमानक है।[2]: 51
2000 में, ब्रूस डी. स्पेंसर ने कुछ मात्रा के कुल (माध्य नहीं) के आकलन के विचरण के लिए डिजाइन प्रभाव का अनुमान लगाने के लिए एक सूत्र प्रस्तावित किया (), जब तत्वों की चयन संभावनाओं और ब्याज के परिणाम चर के बीच संबंध होता है।[27] इस सेटअप में, आकार n का एक नमूना आकार N की आबादी से (प्रतिस्थापन के साथ) तैयार किया जाता है। प्रत्येक आइटम को संभाव्यता के साथ खींचा जाता है (कहाँ , यानी: बहुराष्ट्रीय वितरण)। डिजाइन प्रभाव को परिभाषित करने के लिए चयन संभावनाओं का उपयोग किया जाता है # सामान्य प्रकार के वजन | सामान्यीकृत (उत्तल) वजन: . ध्यान दें कि n मदों के कुछ यादृच्छिक सेट के लिए, वजन का योग केवल प्रत्याशा के आधार पर 1 के बराबर होगा () इसके चारों ओर योग की कुछ परिवर्तनशीलता के साथ (यानी: पॉइसन द्विपद वितरण से तत्वों का योग)। बीच के रिश्ते और निम्नलिखित (जनसंख्या) सरल रेखीय प्रतिगमन द्वारा परिभाषित किया गया है:
कहाँ तत्व i का परिणाम है, जो रैखिक रूप से निर्भर करता है अवरोधन के साथ और ढलान . फिट लाइन से अवशिष्ट है . हम परिणाम और अवशिष्ट के जनसंख्या प्रसरण को भी परिभाषित कर सकते हैं और . के बीच संबंध और है .
कुल y का अनुमान लगाने के लिए स्पेंसर का (अनुमानित) डिजाइन प्रभाव है:[27]: 138 [28]: 4 [12]: 401
कहाँ:
- अनुमान
- ढलान का अनुमान है
- जनसंख्या विचरण का अनुमान लगाता है , और
- L वज़न का सापेक्षिक प्रसरण है, जैसा कि डिज़ाइन प्रभाव#फ़ॉर्मूला|किश के फ़ॉर्मूले में परिभाषित किया गया है: : .
यह मानता है कि प्रतिगमन मॉडल अच्छी तरह से फिट बैठता है ताकि चयन की संभावना और अवशिष्ट स्वतंत्रता (संभाव्यता सिद्धांत) हो, क्योंकि यह अवशिष्टों की ओर जाता है, और वर्ग अवशिष्ट, वजन के साथ असंबद्ध होने के लिए। यानी: वह और भी .[27]: 138
जब जनसंख्या का आकार (N) बहुत बड़ा हो, तो सूत्र को इस प्रकार लिखा जा सकता है:[23]: 319
(तब से , कहाँ )
यह सन्निकटन मानता है कि P और y के बीच रैखिक संबंध रखता है। और यह भी कि त्रुटियों के साथ वज़न का सहसंबंध, और त्रुटियों का वर्ग, दोनों शून्य हैं। अर्थात।: और .[28]: 4
हम देखते हैं कि अगर , तब (अर्थात: y का औसत)। ऐसे मामले में सूत्र कम हो जाता है
केवल अगर y का प्रसरण इसके माध्य से बहुत बड़ा है तो सबसे दाहिना पद 0 के करीब है (अर्थात: ), जो स्पेंसर के डिज़ाइन प्रभाव (अनुमानित कुल के लिए) को किश के डिज़ाइन प्रभाव के बराबर कम कर देता है (अनुपात के लिए):[28]: 5 . अन्यथा, दो सूत्र अलग-अलग परिणाम देंगे, जो कुल बनाम एक माध्य के डिजाइन प्रभाव के बीच अंतर को दर्शाता है।
अनुमानित अनुपात-माध्य के लिए पार्क और ली की डेफ ()
2001 में, पार्क और ली ने स्पेंसर के सूत्र को अनुपात-माध्य के मामले में विस्तारित किया (अर्थात: जनसंख्या के आकार के अनुमानक के साथ कुल के अनुमानक को विभाजित करके माध्य का अनुमान लगाना)। यह है:[28]: 4
कहाँ:
- चयन की संभावनाओं की भिन्नता का (अनुमानित) गुणांक है।
पार्क और ली का सूत्र किश के सूत्र के बराबर है जब . दोनों सूत्र y के माध्य के डिजाइन प्रभाव से संबंधित हैं (जबकि स्पेंसर का डेफ कुल के अनुमान से संबंधित है)। सामान्य तौर पर, कुल के लिए डेफ () अनुपात माध्य के लिए डेफ की तुलना में कम कुशल होता है () कब छोटा है। और सामान्य तौर पर, दोनों डिजाइन प्रभावों की दक्षता को प्रभावित करता है।[4]: 8
क्लस्टर नमूनाकरण
क्लस्टर सैंपलिंग का उपयोग करके एकत्र किए गए डेटा के लिए हम निम्नलिखित संरचना को मानते हैं:
- प्रत्येक क्लस्टर और K क्लस्टर में अवलोकन, और कुल के साथ टिप्पणियों।
- प्रेक्षणों में एक ब्लॉक मैट्रिक्स सहसंबंध मैट्रिक्स होता है जिसमें एक ही क्लस्टर से टिप्पणियों के प्रत्येक जोड़े को एक इंट्राक्लास सहसंबंध के साथ सहसंबद्ध किया जाता है # आधुनिक ICC परिभाषाएँ: सरल सूत्र लेकिन सकारात्मक पूर्वाग्रह | इंट्रा-क्लास सहसंबंध , जबकि अंतर समूहों से प्रत्येक जोड़ी असंबंधित है।[29] यानी, प्रेक्षणों के प्रत्येक जोड़े के लिए, और , अगर वे एक ही क्लस्टर से संबंधित हैं , हम पाते हैं . और दो अलग-अलग समूहों से दो आइटम सहसंबद्ध नहीं हैं, अर्थात: .
- किसी भी क्लस्टर से एक तत्व को समान विचरण माना जाता है: .
जब सभी समूह समान आकार के हों डिजाइन प्रभाव डीeff1965 में किश द्वारा प्रस्तावित (और बाद में दूसरों द्वारा फिर से दौरा किया गया), इसके द्वारा दिया गया है:[1]: 162 [12]: 399 [4]: 9 [30][31][13]: 241
इसे कभी-कभी के रूप में भी निरूपित किया जाता है .[26]: 2124
विभिन्न पत्रों में, जब क्लस्टर आकार समान नहीं होते हैं, तो उपरोक्त सूत्र का भी उपयोग किया जाता है औसत क्लस्टर आकार के रूप में (इसे कभी-कभी इस रूप में भी निरूपित किया जाता है ).[32][24]: 105 ऐसे मामलों में, किश का सूत्र (औसत क्लस्टर वजन का उपयोग करके) सटीक डिजाइन प्रभाव के रूढ़िवादी (ऊपरी सीमा) के रूप में कार्य करता है।[24]: 106
असमान क्लस्टर आकार के लिए वैकल्पिक सूत्र मौजूद हैं।[1]: 193 अनुवर्ती कार्य ने विभिन्न अनुमानों के साथ औसत क्लस्टर आकार का उपयोग करने की संवेदनशीलता पर चर्चा की थी।[33]
असमान चयन संभावनाएं क्लस्टर नमूनाकरण
1987 से अपने पेपर में, किश ने एक संयुक्त डिजाइन प्रभाव का प्रस्ताव दिया जिसमें भार के कारण दोनों प्रभाव शामिल हैं जो असमान चयन संभावनाओं के साथ-साथ क्लस्टर नमूनाकरण के लिए खाते हैं:[32][24]: 105 [34]: 4 [28]: 2
ऊपर के समान अंकन के साथ।
गैबलर एट अल द्वारा 1999 में प्रस्तावित अनुमानकों के औचित्य के गुणों का वर्णन करने के लिए इस सूत्र को एक डिजाइन प्रभाव # डिजाइन आधारित बनाम मॉडल आधारित प्राप्त हुआ।[24]
स्तरीकृत नमूनाकरण असमान चयन संभावनाएं क्लस्टर नमूनाकरण
2000 में, लियू और आरागॉन ने स्तरीकृत नमूने में विभिन्न स्तरों के लिए असमान चयन संभावनाओं के डिजाइन प्रभाव का एक अपघटन प्रस्तावित किया।[35] 2002 में, लियू एट अल। विस्तारित कि स्तरीकृत नमूने के लिए खाते में काम करना प्रत्येक स्तर के भीतर असमान चयन संभावना भार का एक सेट है। क्लस्टर नमूनाकरण या तो वैश्विक या प्रति स्तर है।[26]इसी तरह का काम पार्क एट अल द्वारा भी किया गया था। 2003 में।[36]
उपयोग
डेफ मुख्य रूप से कई उद्देश्यों के लिए प्रयोग किया जाता है:[13]: 85
- डिजाइन विकसित करते समय - इसकी दक्षता का मूल्यांकन करने के लिए। यानी: यदि किसी निर्णय के कारण विचरण में संभावित रूप से बहुत अधिक वृद्धि हुई है, या यदि नया डिज़ाइन अधिक कुशल है (जैसे: स्तरीकृत नमूने के रूप में)।
- नमूना आकार (समग्र, प्रति स्तर, प्रति क्लस्टर, आदि) के मार्गदर्शन के लिए एक मार्ग के रूप में, और भी
- पोस्ट-हॉक वेटिंग विश्लेषण के साथ संभावित समस्याओं का मूल्यांकन करते समय (उदाहरण: गैर-प्रतिक्रिया समायोजन से)।[6]अंगूठे का कोई सार्वभौमिक नियम नहीं है जिसके लिए डिजाइन प्रभाव मूल्य बहुत अधिक है, लेकिन साहित्य यह इंगित करता है कुछ ध्यान देने की संभावना है।[12]: 396
अपने 1995 के पेपर में, किश ने निम्नलिखित वर्गीकरण का प्रस्ताव दिया था कि डेफ कब उपयोगी है और उपयोगी नहीं है:[7]: 57–62
- डिज़ाइन प्रभाव तब अनावश्यक होता है जब: स्रोत जनसंख्या बारीकी से स्वतंत्र होती है और यादृच्छिक चर समान रूप से वितरित होती है|i.i.d, या जब डेटा का नमूना डिज़ाइन एक साधारण यादृच्छिक नमूने के रूप में तैयार किया गया था। यह तब भी कम उपयोगी होता है जब नमूना आकार अपेक्षाकृत छोटा होता है (व्यावहारिक कारणों से कम से कम आंशिक रूप से)। और यह भी कि अगर केवल वर्णनात्मक आँकड़े रुचि के हैं (यानी: बिंदु अनुमान)। यह भी सुझाव दिया जाता है कि यदि केवल कुछ आँकड़ों के लिए मानक त्रुटियों की आवश्यकता है, तो यह ठीक हो सकता है। डेफ को नजरअंदाज करने के लिए।
- डिज़ाइन प्रभाव तब आवश्यक होता है जब: एक ही सर्वेक्षण पर मापे गए विभिन्न चरों के लिए औसत नमूनाकरण त्रुटियां। या जब समय की अवधि में कई सर्वेक्षणों से समान मापी गई मात्रा का औसत निकाला जाता है। या जब सरल आँकड़ों की त्रुटि (जैसे: माध्य) से अधिक जटिल वाले (जैसे: प्रतिगमन गुणांक) की त्रुटि से एक्सट्रपलेशन करते हैं। भविष्य के सर्वेक्षण को डिजाइन करते समय (लेकिन उचित सावधानी के साथ)। डेटा या इसके विश्लेषण के साथ स्पष्ट मुद्दों की पहचान करने के लिए सहायक आंकड़े के रूप में (उदाहरण के लिए: गलतियों से लेकर ग़ैर की उपस्थिति तक)।[8]: 191
नमूना आकार की योजना बनाते समय, डिज़ाइन प्रभाव को ठीक करने के लिए काम किया गया है ताकि नमूना विचरण पर नमूना डिज़ाइन के प्रभाव से साक्षात्कारकर्ता प्रभाव (माप त्रुटि) को अलग किया जा सके।[37] जबकि किश को मूल रूप से उम्मीद थी कि डिजाइन प्रभाव डेटा के अंतर्निहित वितरण, नमूनाकरण की संभावनाओं, उनके सहसंबंधों और ब्याज के आंकड़ों के लिए संभव के रूप में अज्ञेयवादी होने में सक्षम होगा - अनुवर्ती शोध से पता चला है कि ये डिजाइन प्रभाव को प्रभावित करते हैं। इसलिए, इन गुणों पर सावधानीपूर्वक ध्यान दिया जाना चाहिए कि किस डेफ गणना का उपयोग करना है और इसका उपयोग कैसे करना है।[4]: 13 [28]: 6
सॉफ्टवेयर कार्यान्वयन
किश का डिजाइन प्रभाव विभिन्न सांख्यिकीय सॉफ्टवेयर में लागू किया गया है:
- आर: सर्वेसमरी से सर्वे/index.html सर्वे पैकेज।
- पायथन: design_effect balance से पैकेट।
इतिहास
डिजाइन प्रभाव शब्द को लेस्ली किश ने 1965 में अपनी पुस्तक सर्वे सैम्पलिंग में पेश किया था।[1]: 88, 258 1995 से अपने पेपर में,[7]: 73 किश ने उल्लेख किया है कि एक समान अवधारणा, जिसे लेक्सिस अनुपात कहा जाता है, को 19वीं शताब्दी के अंत में वर्णित किया गया था। 1950 में रोनाल्ड फिशर द्वारा बारीकी से संबंधित इंट्राक्लास सहसंबंध का वर्णन किया गया था, जबकि किश और अन्य लोगों द्वारा 40 के दशक के अंत से 50 के दशक तक भिन्नताओं के अनुपात की गणना पहले ही प्रकाशित कर दी गई थी। किश की परिभाषा के अग्रदूतों में से एक 1951 में कॉर्नफील्ड द्वारा किया गया कार्य था।[38][4] 1965 से अपनी मूल पुस्तक में, किश ने डिज़ाइन प्रभाव के लिए सामान्य परिभाषा प्रस्तावित की (दो अनुमानकों के प्रसरण का अनुपात, एक कुछ डिज़ाइन वाले नमूने से और दूसरा एक साधारण यादृच्छिक नमूने से)। अपनी पुस्तक में, किश ने #Design_effect_for_cluster_sampling (इंट्राक्लास सहसंबंध के साथ) के लिए सूत्र प्रस्तावित किया;[1]: 162 साथ ही प्रसिद्ध डिजाइन प्रभाव#किश का डिजाइन प्रभाव।[1]: 427 इन्हें अक्सर किश के डिजाइन प्रभाव के रूप में जाना जाता है, और बाद में एक सूत्र में विलय कर दिया गया है।
यह भी देखें
- भिन्नता मुद्रास्फीति कारक (वीआईएफ)। वीआईएफ और डेफ समान अवधारणाएं हैं जिसमें वे वैकल्पिक मॉडल के तहत कुछ पैरामीटर का आकलन करने के भिन्नता के अनुपात हैं।
- प्रभावी नमूना आकार
संदर्भ
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 Kish, Leslie (1965). सर्वेक्षण नमूनाकरण. New York: John Wiley & Sons, Inc. ISBN 0-471-10949-5.
- ↑ 2.0 2.1 2.2 2.3 2.4 Carl-Erik Sarndal, Bengt Swensson, Jan Wretman (1992). Model Assisted Survey Sampling. ISBN 9780387975283.
{{cite book}}
: CS1 maint: uses authors parameter (link) - ↑ Heo, Moonseong; Kim, Yongman; Xue, Xiaonan; Kim, Mimi Y. (2010). "अनुदैर्ध्य क्लस्टर यादृच्छिक परीक्षण में अनुवर्ती के अंत में एक हस्तक्षेप प्रभाव का पता लगाने के लिए नमूना आकार की आवश्यकता". Statistics in Medicine. 29 (3): 382–390. doi:10.1002/sim.3806. PMID 20014353. S2CID 30001378. Archived from the original on 5 January 2013.
- ↑ 4.00 4.01 4.02 4.03 4.04 4.05 4.06 4.07 4.08 4.09 4.10 Park, Inho, and Hyunshik Lee. "Design effects for the weighted mean and total estimators under complex survey sampling." Quality control and applied statistics 51.4 (2006): 381–384 (based on google scholar). Vol. 30, No. 2, pp. 183-193. Statistics Canada, Catalogue No. 12-001. Survey Methodology December 2004 (based on the PDF) (pdf)
- ↑ Everitt, B.S. (2002) The Cambridge Dictionary of Statistics, 2nd Edition. CUP. ISBN 0-521-81099-X
- ↑ 6.0 6.1 6.2 Kalton, G., J. M. Brick, and T. Le. "Estimating components of design effects for use in sample design. In household sample surveys in developing and transition countries,(Sales No. E. 05. XVII. 6). Department of Economic and Social Affairs." Statistics Division, United Nations, New York (2005). (pdf)
- ↑ 7.0 7.1 7.2 7.3 7.4 Kish, Leslie. "Methods for design effects." Journal of official Statistics 11.1 (1995): 55 (pdf)
- ↑ 8.00 8.01 8.02 8.03 8.04 8.05 8.06 8.07 8.08 8.09 8.10 8.11 8.12 8.13 8.14 8.15 8.16 8.17 8.18 8.19 8.20 Kish, Leslie, and J. Official Stat. "Weighting for unequal Pi." (1992): 183–200. (pdf link)
- ↑ Tom Leinster (18 December 2014). "प्रभावी नमूना आकार".
- ↑ "Design Effects and Effective Sample Size".
- ↑ 11.0 11.1 Source: Frerichs, R.R. Rapid Surveys (unpublished), © 2004. N, chapter 4 - Equal Probability of Selection (pdf)
- ↑ 12.0 12.1 12.2 12.3 12.4 12.5 12.6 Valliant, Richard, Jill A. Dever, and Frauke Kreuter. Practical tools for designing and weighting survey samples. New York: Springer, 2013.
- ↑ 13.0 13.1 13.2 Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Nashville, TN: John Wiley & Sons. ISBN 978-0-471-16240-7
- ↑ Dever, Jill A., and Richard Valliant. "A comparison of variance estimators for post-stratification to estimated control totals." Survey Methodology 36.1 (2010): 45-56. (pdf)
- ↑ 15.0 15.1 15.2 Kott, Phillip S. "Using calibration weighting to adjust for nonresponse and coverage errors." Survey Methodology 32.2 (2006): 133. (pdf)
- ↑ Holt, David, and TM Fred Smith. "Post stratification." Journal of the Royal Statistical Society, Series A (General) 142.1 (1979): 33-46. (pdf)
- ↑ Ghosh, Dhiren, and Andrew Vogt. "Sampling methods related to Bernoulli and Poisson Sampling." Proceedings of the Joint Statistical Meetings. American Statistical Association Alexandria, VA, 2002. (pdf)
- ↑ डेविल, जीन-क्लाउड और कार्ल-एरिक सारंडल। सर्वेक्षण नमूने में अंशांकन अनुमानक। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 87.418 (1992): 376-382।
- ↑ Brick, J. Michael, Jill Montaquila, and Shelley Roth. "Identifying problems with raking estimators." annual meeting of the American Statistical Association, San Francisco, CA. 2003. (pdf)
- ↑ Keiding, Niels, and David Clayton. "Standardization and control for confounding in observational studies: a historical perspective." Statistical Science (2014): 529-558. (pdf)
- ↑ Thomas Lumley (https://stats.stackexchange.com/users/249135/thomas-lumley), How to estimate the (approximate) variance of the weighted mean?, URL (version: 2021-05-25): link
- ↑ Kalton, Graham. "Standardization: A technique to control for extraneous variables." Journal of the Royal Statistical Society, Series C (Applied Statistics) 17.2 (1968): 118-136.
- ↑ 23.0 23.1 23.2 23.3 Henry, Kimberly A., and Richard Valliant. "A design effect measure for calibration weighting in single-stage samples." Survey Methodology 41.2 (2015): 315-331. (pdf)
- ↑ 24.0 24.1 24.2 24.3 24.4 24.5 Gabler, Siegfried, Sabine Häder, and Partha Lahiri. "A model based justification of Kish's formula for design effects for weighting and clustering." Survey Methodology 25 (1999): 105–106. (pdf)
- ↑ Little, Roderick J., and Sonya Vartivarian. "Does weighting for nonresponse increase the variance of survey means?." Survey Methodology 31.2 (2005): 161. pdf link
- ↑ 26.0 26.1 26.2 Liu, Jun, Vince Iannacchione, and Margie Byron. "Decomposing design effects for stratified sampling." Proceedings of the survey research methods section, american statistical association. 2002. (pdf)
- ↑ 27.0 27.1 27.2 Spencer, Bruce D. "An approximate design effect for unequal weighting when measurements may correlate with selection probabilities." Survey Methodology 26 (2000): 137-138. (pdf)
- ↑ 28.0 28.1 28.2 28.3 28.4 28.5 Park, Inho, and Hyunshik Lee. "The design effect: do we know all about it." Proceedings of the Annual Meeting of the American Statistical Association. 2001. (pdf)
- ↑ Alexander K. Rowe; Marcel Lama; Faustin Onikpo; Michael S. Deming (2002). "बेनिन में एक स्वास्थ्य सुविधा क्लस्टर सर्वेक्षण से डिजाइन प्रभाव और इंट्राक्लास सहसंबंध गुणांक". International Journal for Quality in Health Care. 14 (6): 521–523. doi:10.1093/intqhc/14.6.521. PMID 12515339.
- ↑ Bland, M (2005), "Cluster randomised trials in the medical literature", Notes for talks, York Univ
- ↑ Methods in Sample Surveys (pages 5–6)
- ↑ 32.0 32.1 Kish, L. (1987). Weighting in . The Survey Statistician, June 1987. (this paper doesn't seem to be available online, but is references in several places as the original source of this formula)
- ↑ Lynn, Peter, and Siegfried Gabler. Approximations to b* in the prediction of design effects due to clustering. No. 2004-07. ISER Working Paper Series, 2004. (pdf)
- ↑ Gabler, Siegfried, Sabine Hader, and Peter Lynn. Design effects for multiple design samples. No. 2005-12. ISER Working Paper Series, 2005. (pdf)
- ↑ Liu, J., and E. Aragon. "Subsampling strategies in longitudinal surveys." Proceedings of the Survey Research Methods Section, American Statistical Association. 2000. (pdf)
- ↑ Park, Inho (2003). "डिजाइन प्रभाव और सर्वेक्षण योजना" (PDF).
- ↑ Zins, Stefan, and Jan Pablo Burgard. "Considering interviewer and design effects when planning sample sizes." SURVEY METHODOLOGY 46.1 (2020): 93-119. (paper - html)
- ↑ Cochran, William G. "Modern methods in the sampling of human populations." American journal of public health and the nation's health 41.6 (1951): 647–668.